robots.txt wird genutzt, obwohl eigentlich noindex gemeint ist
robots.txt und noindex einfach erklärt
Viele verwechseln robots.txt und noindex. Beides hat mit Google zu tun, erfüllt aber nicht dieselbe Aufgabe. Ganz einfach gesagt: robots.txt steuert, ob Suchmaschinen bestimmte Bereiche überhaupt abrufen dürfen. noindex sagt dagegen, dass eine Seite nicht in den Suchergebnissen erscheinen soll.
Wer den Unterschied nicht kennt, trifft schnell die falsche Einstellung. Dann wird zum Beispiel etwas in der robots.txt blockiert, obwohl es eigentlich aus dem Google-Index verschwinden sollte. Genau das führt oft zu Missverständnissen.
Was ist eine robots.txt?
Die robots.txt ist eine Datei auf deiner Website. Sie gibt Suchmaschinen Hinweise dazu, welche Bereiche ein Crawler abrufen darf und welche nicht. Einfach gesagt heißt das: robots.txt = „Diesen Bereich bitte nicht crawlen“.
Sie dient also zur Steuerung des Crawling-Zugriffs. Sie ist aber nicht die richtige Lösung, wenn eine Seite sicher nicht bei Google erscheinen soll.
Was ist noindex?
noindex ist ein Hinweis an Suchmaschinen, eine Seite nicht in den Index aufzunehmen. Die Seite kann weiterhin erreichbar sein, sie soll aber nicht in den Suchergebnissen auftauchen.
Dieser Hinweis kann als Meta-Tag im HTML oder per HTTP-Header gesetzt werden. Einfach gesagt heißt das: noindex = „Diese Seite bitte nicht in Google anzeigen“.
Der wichtigste Unterschied
Der Unterschied ist einfacher, als er klingt:
robots.txt
regelt das Abrufen
noindex
regelt das Erscheinen im Suchindex
Oder noch einfacher:
- Willst du Google vom Crawlen abhalten? Dann geht es um robots.txt.
- Willst du verhindern, dass eine Seite in Google angezeigt wird? Dann geht es um noindex.
Warum das oft falsch gemacht wird
Ein typischer Fehler ist: Jemand blockiert eine Seite in der robots.txt und denkt, damit verschwindet sie automatisch aus Google. Das funktioniert aber nicht zuverlässig.
Wenn Google die Seite wegen der robots.txt nicht abrufen darf, sieht Google den noindex-Hinweis auf dieser Seite auch nicht. Die URL kann in manchen Fällen trotzdem noch in Suchergebnissen erscheinen, zum Beispiel wenn andere Seiten darauf verlinken.
Typische Fehlkonstellation
- Seite wird in der robots.txt blockiert
- noindex ist auf der Seite vorhanden
- Google kann den Hinweis nicht lesen
- die Seite verschwindet deshalb nicht unbedingt wie gewünscht
Wann solltest du robots.txt verwenden?
robots.txt ist sinnvoll, wenn Suchmaschinen bestimmte Bereiche deiner Website nicht abrufen sollen. Das kann zum Beispiel bei technischen Bereichen, unwichtigen Systempfaden oder Dateien sinnvoll sein, die nicht für die Suche gedacht sind.
Für Handwerksbetriebe ist das oft eher ein Technikthema im Hintergrund. Viele normale Inhaltsseiten brauchen dafür gar keine besondere Einstellung.
Wann solltest du noindex verwenden?
noindex ist sinnvoll, wenn eine Seite erreichbar sein darf, aber nicht in den Suchergebnissen auftauchen soll.
Typische Beispiele sind:
- Testseiten
- interne Dankeseiten
- bestimmte Verwaltungs- oder Vorschauseiten
- Inhalte, die nicht öffentlich über Google gefunden werden sollen, aber technisch erreichbar bleiben müssen
Was ist die richtige Lösung, wenn etwas wirklich privat bleiben soll?
Wenn eine Seite weder für Google noch für fremde Besucher zugänglich sein soll, ist ein anderer Schutz nötig, zum Beispiel ein Passwortschutz.
robots.txt
nicht ideal für Geheimhaltung
noindex
nicht für echte Abschottung gedacht
Passwortschutz
besser, wenn Inhalte wirklich privat bleiben sollen
Ein einfaches Beispiel
Stell dir vor, du hast auf deiner Website eine Testseite für einen neuen Service.
Nur robots.txt
Dann darf Google sie möglicherweise nicht abrufen. Das heißt aber nicht automatisch, dass sie sicher nie in den Suchergebnissen auftaucht.
noindex
Dann sagst du Google: Diese Seite bitte nicht in den Index aufnehmen. Dafür muss Google die Seite aber noch sehen können.
Passwortschutz
Dann ist sie für Außenstehende und Suchmaschinen gar nicht frei zugänglich. Das ist die bessere Lösung für wirklich private Inhalte.
Häufige Fehler
Diese Fehler passieren besonders oft
Gerade bei Testseiten oder technischen Bereichen werden robots.txt und noindex häufig verwechselt.
noindex wird gesetzt, obwohl die Seite gleichzeitig per robots.txt blockiert ist
Testseiten bleiben öffentlich erreichbar
sensible Inhalte sind nicht zusätzlich geschützt
man erwartet, dass Änderungen sofort aus Google verschwinden
Merksatz
Wenn du dir nur einen Satz merken willst
robots.txt steuert das Abrufen. noindex steuert die Indexierung.
Kurz prüfen
Kurze Checkliste
Prüfe bei jeder betroffenen Seite diese Fragen.
Soll Google die Seite abrufen dürfen?
Soll die Seite in Google erscheinen oder nicht?
Ist noindex gesetzt, obwohl die Seite gleichzeitig per robots.txt blockiert ist?
Muss die Seite zusätzlich geschützt werden?
Fazit
robots.txt und noindex klingen ähnlich, lösen aber zwei verschiedene Aufgaben. robots.txt ist für die Steuerung des Crawling-Zugriffs gedacht. noindex ist die richtige Richtung, wenn eine Seite nicht in Google erscheinen soll.
Und wenn Inhalte wirklich privat bleiben müssen, reicht beides allein oft nicht aus. Dann ist ein echter Zugriffsschutz sinnvoller.
Nächster Schritt
Technische Hinweise sind nur ein Teil der ganzen Website
Auch wenn robots.txt und noindex richtig gesetzt sind, kann die Website trotzdem unklar aufgebaut sein. Seitentitel, Überschriften, Inhalte und Nutzerführung spielen ebenfalls eine wichtige Rolle.
Wenn du prüfen möchtest, ob deine Website an diesen Punkten sauber aufgebaut ist, kannst du sie direkt analysieren lassen.