Praktische Hilfe für lokale Handwerksbetriebe

robots.txt und noindex einfach erklärt

Viele verwechseln robots.txt und noindex. Beides hat mit Google zu tun, erfüllt aber nicht dieselbe Aufgabe. Ganz einfach gesagt: robots.txt steuert, ob Suchmaschinen bestimmte Bereiche überhaupt abrufen dürfen. noindex sagt dagegen, dass eine Seite nicht in den Suchergebnissen erscheinen soll.

Wer den Unterschied nicht kennt, trifft schnell die falsche Einstellung. Dann wird zum Beispiel etwas in der robots.txt blockiert, obwohl es eigentlich aus dem Google-Index verschwinden sollte. Genau das führt oft zu Missverständnissen.

Was ist eine robots.txt?

Die robots.txt ist eine Datei auf deiner Website. Sie gibt Suchmaschinen Hinweise dazu, welche Bereiche ein Crawler abrufen darf und welche nicht. Einfach gesagt heißt das: robots.txt = „Diesen Bereich bitte nicht crawlen“.

Sie dient also zur Steuerung des Crawling-Zugriffs. Sie ist aber nicht die richtige Lösung, wenn eine Seite sicher nicht bei Google erscheinen soll.

Was ist noindex?

noindex ist ein Hinweis an Suchmaschinen, eine Seite nicht in den Index aufzunehmen. Die Seite kann weiterhin erreichbar sein, sie soll aber nicht in den Suchergebnissen auftauchen.

Dieser Hinweis kann als Meta-Tag im HTML oder per HTTP-Header gesetzt werden. Einfach gesagt heißt das: noindex = „Diese Seite bitte nicht in Google anzeigen“.

Der wichtigste Unterschied

Der Unterschied ist einfacher, als er klingt:

robots.txt

regelt das Abrufen

noindex

regelt das Erscheinen im Suchindex

Oder noch einfacher:

Willst du Google vom Crawlen abhalten? Dann geht es um robots.txt.
Willst du verhindern, dass eine Seite in Google angezeigt wird? Dann geht es um noindex.

Warum das oft falsch gemacht wird

Ein typischer Fehler ist: Jemand blockiert eine Seite in der robots.txt und denkt, damit verschwindet sie automatisch aus Google. Das funktioniert aber nicht zuverlässig.

Wenn Google die Seite wegen der robots.txt nicht abrufen darf, sieht Google den noindex-Hinweis auf dieser Seite auch nicht. Die URL kann in manchen Fällen trotzdem noch in Suchergebnissen erscheinen, zum Beispiel wenn andere Seiten darauf verlinken.

Typische Fehlkonstellation

Seite wird in der robots.txt blockiert
noindex ist auf der Seite vorhanden
Google kann den Hinweis nicht lesen
die Seite verschwindet deshalb nicht unbedingt wie gewünscht

Wann solltest du robots.txt verwenden?

robots.txt ist sinnvoll, wenn Suchmaschinen bestimmte Bereiche deiner Website nicht abrufen sollen. Das kann zum Beispiel bei technischen Bereichen, unwichtigen Systempfaden oder Dateien sinnvoll sein, die nicht für die Suche gedacht sind.

Für Handwerksbetriebe ist das oft eher ein Technikthema im Hintergrund. Viele normale Inhaltsseiten brauchen dafür gar keine besondere Einstellung.

Wann solltest du noindex verwenden?

noindex ist sinnvoll, wenn eine Seite erreichbar sein darf, aber nicht in den Suchergebnissen auftauchen soll.

Typische Beispiele sind:

Testseiten
interne Dankeseiten
bestimmte Verwaltungs- oder Vorschauseiten
Inhalte, die nicht öffentlich über Google gefunden werden sollen, aber technisch erreichbar bleiben müssen

Was ist die richtige Lösung, wenn etwas wirklich privat bleiben soll?

Wenn eine Seite weder für Google noch für fremde Besucher zugänglich sein soll, ist ein anderer Schutz nötig, zum Beispiel ein Passwortschutz.

robots.txt

nicht ideal für Geheimhaltung

noindex

nicht für echte Abschottung gedacht

Passwortschutz

besser, wenn Inhalte wirklich privat bleiben sollen

Ein einfaches Beispiel

Stell dir vor, du hast auf deiner Website eine Testseite für einen neuen Service.

Nur robots.txt

Dann darf Google sie möglicherweise nicht abrufen. Das heißt aber nicht automatisch, dass sie sicher nie in den Suchergebnissen auftaucht.

noindex

Dann sagst du Google: Diese Seite bitte nicht in den Index aufnehmen. Dafür muss Google die Seite aber noch sehen können.

Passwortschutz

Dann ist sie für Außenstehende und Suchmaschinen gar nicht frei zugänglich. Das ist die bessere Lösung für wirklich private Inhalte.

Häufige Fehler

Diese Fehler passieren besonders oft

Gerade bei Testseiten oder technischen Bereichen werden robots.txt und noindex häufig verwechselt.

robots.txt wird genutzt, obwohl eigentlich noindex gemeint ist

noindex wird gesetzt, obwohl die Seite gleichzeitig per robots.txt blockiert ist

Testseiten bleiben öffentlich erreichbar

sensible Inhalte sind nicht zusätzlich geschützt

man erwartet, dass Änderungen sofort aus Google verschwinden

Merksatz

Wenn du dir nur einen Satz merken willst

robots.txt steuert das Abrufen. noindex steuert die Indexierung.

Kurz prüfen

Kurze Checkliste

Prüfe bei jeder betroffenen Seite diese Fragen.

Soll Google die Seite abrufen dürfen?

Soll die Seite in Google erscheinen oder nicht?

Ist noindex gesetzt, obwohl die Seite gleichzeitig per robots.txt blockiert ist?

Muss die Seite zusätzlich geschützt werden?

Fazit

robots.txt und noindex klingen ähnlich, lösen aber zwei verschiedene Aufgaben. robots.txt ist für die Steuerung des Crawling-Zugriffs gedacht. noindex ist die richtige Richtung, wenn eine Seite nicht in Google erscheinen soll.

Und wenn Inhalte wirklich privat bleiben müssen, reicht beides allein oft nicht aus. Dann ist ein echter Zugriffsschutz sinnvoller.

Nächster Schritt

Technische Hinweise sind nur ein Teil der ganzen Website

Auch wenn robots.txt und noindex richtig gesetzt sind, kann die Website trotzdem unklar aufgebaut sein. Seitentitel, Überschriften, Inhalte und Nutzerführung spielen ebenfalls eine wichtige Rolle.

Wenn du prüfen möchtest, ob deine Website an diesen Punkten sauber aufgebaut ist, kannst du sie direkt analysieren lassen.

Website analysieren