Wie killt man etwas aus dem Suchmaschinenindex?
Ab und zu kann es vorkommen, dass Suchmaschinen Webseiten, Links, Teile einer einzelnen Seite oder auch Bilder ans Licht der Ergebnisseiten zerren, die man dort eigentlich nicht haben wollte. Was tun? Ganz einfach...
Es gibt verschiedene Möglichkeiten, unliebsame Einträge zu vermeiden:
1. Eine ganze Domain oder einen Teil davon
Der sicherste Weg ist, einen Passwortschutz einzusetzen. Suchmaschinen-Robots können keine Passwörter eingeben, also geht es hier für sie nicht weiter. Technisch lässt sich das mit dem Einrichten einer sog. .htaccess Datei erreichen. Wer sich mit Webservern auskennt, weiß in der Regel, was das ist. Allen anderen sei dieser Link zu selfhtml empfohlen
oder besser: Fragen Sie jemand der sich damit auskennt. Man kann die Website damit ungewollt in einen recht instabilen Zustand bringen und die Konfiguration ist nicht ganz schmerzfrei.
Der einfachste Weg ist, bestimmte Bereiche in der sog. robots.txt für Suchmaschinen auszuschließen. Das Ganze geht recht einfach, in dem man eine einfache Textdatei (erzeugt z. B. mit dem Notepad - nicht mit Word!) in die erste Verzeichnisebene des Webservers stellt - die sog. "Root". Die Datei nennt man "robots.txt". Wichtig: Unbedingt klein schreiben.
Als Inhalt schreibt man z. B. Folgendes hinein:
User-agent: *
Disallow: /intern/ # nicht geheim, aber nicht unbedingt für jeden
Disallow: /new/ # Da steht jeden Tag was anderes drin
Disallow: /meine_frau/ # Diese Bilder muss nicht jeder sehen... ;-)
Der Stern hinter dem User-agent bedeutet: Diese Anweisungen gelten für jeden Robot, der diese Datei liest und berücksichtigt. User-agent: Googlebot
Die Verzeichnisnamen hinter dem "Disallow:" werden dann von den "ehrlichen" Robots ausgenommen und die Inhalte nicht indexiert.
Die Hinweise hinter dem "#" sind reine Kommentare, die keinerlei Auswirkungen haben.
Wenn Sie sich nicht die Mühe machen wollen, das einzeln einzuprfriemeln, empfehle ich Ihnen einen kleinen Generator. Der stellt die notwendigen Fragen und gerneriert Ihnen automatisch und kostenlos eine eigenen robots.txt. Zu finden hier (www.searchcode.de/robotstxt.php)
2. Eine einzelne Webseite
Hierzu schreibt man in den Quellcode der Website in den Header einen kleinen Eintrag
META NAME="ROBOTS" CONTENT="NOINDEX"
Das genügt und die "seriösen" Robots indexieren diese Seite nicht.
Wer nur Angst vor dem eifrigen Google-Roboter hat, trägt
META NAME="GOOGLEBOT" CONTENT="NOINDEX"
in den Head der Seite ein.
Soll auch den Links auf einer Seite nicht gefolgt werden, kann man das natürlich ebenfalls unterbinden:
META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW"
3. Einen einzelnen Link
Möchte man nicht, dass die Suchmaschine einem einzelnen Link folgt (und diesen bewertet), hilft ein Eintrag im Link selber:
a href="http://www.diezielseite.de/" rel="nofollow">klicken Sie hier
Der Einschub: rel="nofollow" bewirkt, dass der Link links liegen gelassen wird. Dies kann z. B. Sinn machen, wenn man mit der verlinkten Seite nicht in den Augen der Suchmaschine in Verbindung gebracht werden möchte. Oder um Kommentarspam in einem Weblog zumindest die von denen erhoffte Wirkung zu verweigern.
4. Einen veralteten Link aus dem Google-Index entfernen
Das kann man mit dem Google Tool zum Entfernen von Webseiten selbst bewerkstelligen, muss ich allerdings erst anmelden - soweit man nicht sowieso einen Account bei Google hat. Der Link muss allerdings auf eine Seite mit dem Fehlercode 404 führen, ansonsten wird der Link auf diese Art nicht vom System entfernt.
5. Seiten aus dem Google-Cache entfernen
Dies kann sinnvoll sein, wenn man z. B. (urheber)rechtliche Probleme hat. Es geht schnell, dass man ungewollt einen geschützten Markennamen auf den eigenen Webseiten verwendet. Schwupps, ist nicht nur eine Abmahnung da, sondern auch eine Unterwerfungserklärung. Mit letzterer verpflichten Sie sich gegen Strafe, die beanstandeten Inhalte aus dem Web zu nehmen. Gegnerische Anwälte googlen aber auch schon mal gerne nach 2 Wochen nach und drucken die Seiten im Google-Cache mit dem (alten) Rechtsverstoß aus. Denken Sie immer daran: Auf hoher See und in Internet-Fragen vor Gericht sind sie nur in Gottes Hand... ;-)
Generell "verbieten" Sie das Archivieren bei Suchmaschinen mit dem Meta-Tag-Eintrag:
META NAME="ROBOTS" CONTENT="NOARCHIVE"
Soll es dagegen nur Google sein:
META NAME="GOOGLEBOT" CONTENT="NOARCHIVE"
6. Bilder aus der Google-Suche entfernen
Es müssen ja nicht immer gleich Nacktfotos sein, die stören. Manchmal macht der Bildersuchtraffic richtig Traffic. Den will man in der Regel nicht haben und die Bildersauger verfälschen ab und an auch klare Bewegungsanalysen der "normalen" Besucher.
Der Weg führt hier wieder über einen Eintrag in der Datei tobots.txt (siehe oben).
Um ein einzelnes Bild gezielt zu entfernen, machen Sie den folgenden Eintrag:
User-agent: Googlebot-Image
Disallow: /Bilderverzeichnis/naggich.jpg
Googe entfernt dann das Bild "naggich.jpg", das in dem Verzeichnis "Bilderverzeichnis" liegt aus seinen (ihrem?) Index.
Möchten Sie alle Bilder aus dem Index haben (oder erst gar nicht rein bekommen), machen Sie den Eintrag einfach allgemeiner:
User-agent: Googlebot-Image
Disallow: /
Ich hoffe, diese kleine Zusammenstellung von Tipps hilft Ihnen, gezielter mit einzelnen Robot-Problemen und unliebsamen Suchmaschinen-Verhalten umgehen zu können!
Nachtrag:
Seit April 2007 gibt Google den Webmastern über die sogenannten Webmaster Tools die Möglichkeit, gezielt einzelne Seiten zu löschen. Man kann die Seiten auswählen und per Klick aus dem Index entfernen. Zusätzlich muss die Seite dann noch entweder des Statuscode 404 oder 410 (Seitenfehler) zurückgeben, in der robots.txt ausgeschlossen werden oder mit dem Meta-Tag "noindex" versehen werden. Erst dann löscht Google die Seite.
Achtung: Versehentlich gelöschte Seiten lassen sich nur kurze Zeit reaktivieren - danach sind sie unwiderruflich für 6 Monate aus dem Index! Zu den Webmaster-Tools geht es hier.
weiterer Nachtrag:
Seit Mai 2007 hat auch Yahoo! eine Kennzeichnungsmöglichkeit (engl. "Tag") eingeführt, mit der sich einzelnen Bereiche einer Webseite von der Indizierung ausnehmen lassen.
Die wichtigsten sind wohl:
Für einen ganzen Absatz:
<p class="robots-nocontent"> Alles was hier in diesem Textabsatz drin steht, erscheint auf der Webseite für Besucher sichtbar, aber in den Index von Yahoo! wird der Inhalt hier nicht aufgenommen </p>
Für einzelne Sätze oder Satzteile:
<span class="robots-nocontent">Was hier zwischen den Markierungen steht, wird ebenfalls auf der Seite angezeigt, aber nicht inhaltlich in den Index übernommen </span>
Welchen Sinn kann das machen? Eine ganze Menge! Damit kann man nicht-relevanten Inhalt von Relevantem kennzeichnen und damit die Bedeutung des "gewollten" Textes gegenüber Yahoo! erhöhen. Als Beispiel lassen sich Formulare oder Feldbezeichnungen nennen, oder auch ständig wiederkehrende Beschreibungen, die nicht wirklich suchrelevant sind. Bisher bietet nur Yahoo! dies Auswertung des Tags an, ob sich die anderen Suchmaschinen eines Tages auch daran halten werden, ist noch ungewiss.
Hinweis: Yahoo! weist extra darauf hin, dass trotz dieser Kennzeichnung alle Links einer Seite ausgewertet werden. Hier geht also nichts verloren!
Es gibt noch zwei weitere Möglichkeiten des Ausschlusses (für Spezialisten), nachzulesen hier bei Yahoo!
Stichworte: Index - Löschmöglichkeiten
War der Artikel für Sie wertvoll? Wollen Sie den Beitrag als Bookmark merken?
Einfach RSS-Feed abonnieren oder das Lesezeichen mit anderen Lesern teilen:
Geschrieben von Mario Fischer am 12.07.2006 | Kategorie: Stolperfallen
Kommentare & Anmerkungen
zum Beitrag: »Wie killt man etwas aus dem Suchmaschinenindex?«,
Trackback-URL: http://www.website-boosting.de/m4/mt-tb.cgi/922
Kommentare
Hallo.
statt des Fehlercodes 404 (Seite nicht gefunden) empfehle ich eher den Code 410 (gone) auszuliefern. Das geht erstens schneller und ist zweitens auch sauberer wie ich finde.
Im .htaccess wäre das für eine komplette Seite beispielsweise diese Zeile hier:
RewriteRule ^.*$ - [G]
Viele Grüße,
Florian Stelzner
Es bleibt ein schwieriges Thema eine große Anzahl alter URLs nachhaltig aus der Google-Crawler-Datenbank zu entfernen.
Manuell fällt da schonmal aus.
Der Ausschluß per robots.txt oder das Senden des Statuscodes 404 unterbinden erfahrungsgemäß nur den Request der jeweiligen Seite, aber belassen die URLs in der internen Google-Datenbank. Sobald er wieder irgendwie darf versucht er die URLs wieder abzurufen, teilweise Monate/Jahre später.
Vermutlich ist eher der 410-Code vorzuziehen. Auch wenn dieser relativ wenig verwendet wird sollte der Googlebot den doch beachten.
Mit den Webmastertools geht das! (Siehe bei "Nachtrag" oben den Link). Dort anmelden und unter "Tools" kann man einzelne Seiten AUCH aus dem Cache löschen!
Vor Jahren musste ich auch mehrere Seiten "entfernen". Habe es mit dem (vielen eher unbekannten) HTTP 410 GONE loesen koennen, dass die Seiten auch wirklich aus dem Index verschwanden.
HTTP 404 finde ich da nicht so passend, denn wenn ich Google waer koennte ich unter Umstaenden annehmen, dass da nur temporaer gerade eine Seite ins Nirvana gegangen ist weil der Webmaster etwas versehentlich umstrukturiert hat.
HTTP 410 GONE hingegen zeigt wie deutlich es jemand meint.
Aber da ich nicht Google bin... alles nur Spekulation ;-)








Ich kann nur aus leidvoller Erfahrung sprechen, dass das Thema "Entfernen von Inhalten aus dem Internet" ein sehr wichtiges Thema ist. Und leider ist es wirklich sehr schwierig bis unmöglich, sowas "ASAP" zu erledigen, wie es mancher Chef gerne hätte ;-)
Der Auftrag war, einen bestimmten Inhalt einer Webseite zu löschen und aus Suchmaschinen zu entfernen. Da Google z.B. den Inhalt einer Seite in den Ergebnislisten "intelligent" anzeigt, ist nicht nur der Cache ein Problem, sondern auch die Ergebnisanzeige.
Wer sich Ärger mit Webseiten im Suchmaschinencache ersparen will, sollte den Tag
META NAME="ROBOTS" CONTENT="NOARCHIVE"
einfügen, bevor das Kind in den Brunnen gefallen ist!
Die Google Webmaster Tools sind super, leider dauert es aus meiner Erfahrung teilweise über 3 Tage, bis alles in der Suchmaschine wieder aktuell und der Cache gelehrt ist.
Wie man Yahoo und MSN dazu bringt, die Seiten zur Abwechslung mal schneller zu aktualisieren, bleibt mir ein Rätsel.