Was ist die Robots.txt eigentlich?
Robots.txt ist eine Datei, die Suchmaschinen-Spider anweist, bestimmte Seiten oder Abschnitte einer Website nicht zu durchforsten. Die meisten großen Suchmaschinen (einschließlich Google, Bing und Yahoo) erkennen und beachten die Angaben in der Robots.txt. Diese Datei muss unbedingt im Hauptverzeichnis einer Domain liegen, darf sich also nicht in einem Unterordner befinden. Außerdem muss der Name zwangläufig „robots.txt“ lauten.
Achtung: Es handelt sich bei der robots.txt nicht um einen geeigneten Mechanismus, um eine Website aus Google auszuschließen. Wenn Sie eine Website aus Google ausschließen möchten, verwenden Sie am besten eine noindex-Anweisung oder schützen Sie Ihre Seite mit einem Passwort!
Einführung zur Robots.txt von Google
Wieso ist die Robots.txt so wichtig?
Genau genommen ist sie das garnicht, denn die meisten Websites benötigen eigentlich gar keine robots.txt-Datei. Das liegt daran, dass Google normalerweise alle wichtigen Seiten auf einer Website finden und indizieren soll. Außerdem indizieren Suchmaschinen automatisch die Seiten NICHT, die nicht wichtig sind, oder Duplikate anderer Seiten darstellen.
Abgesehen davon gibt es vier Gründe, wieso man eine robots.txt-Datei verwenden möchten:
- Blockieren Sie nicht-öffentliche Seiten: Manchmal haben Sie Seiten auf Ihrer Website, die Sie nicht gecrawlt haben möchten. Zum Beispiel könnten Sie eine Staging-Version einer Seite haben. Oder eine Anmeldeseite. Diese Seiten müssen existieren, aber Sie wollen nicht, dass zufällig Leute oder irgendwelche Suchmaschinen-Roboter auf ihnen landen. Dies ist ein Fall, in dem Sie robots.txt verwenden würden, um diese Seiten für Suchmaschinen-Crawler und Bots zu blockieren.
- Reduzieren Sie Serverlast: Durch das Ausschließen bestimmter Seitenbereiche, die für die Suchmaschien ohnehin keine Relevanz besitzen, können Sie die Serverlast durch Crawler reduzieren und neben Bandbreite auch Kosten einsparen.
- Maximieren Sie das Crawl-Budget: Wenn Sie nicht alle Unterseiten in den Index bekommen, haben Sie wahrscheinlich ein Crawl-Budget-Problem. Durch das Blockieren unwichtiger Seiten per robots.txt kann der Googlebot mehr von Ihrem Crawl-Budget für die Seiten ausgeben, die tatsächlich wichtig sind.
- Verhindern Sie die Indizierung von Ressourcen: Die Verwendung von Meta-Robots-Direktiven funktioniert eigentlich besser als die Anweisungen in der robots.txt, um die Indizierung von Seiten zu verhindern. Meta-Direktiven können jedoch oft nicht bei Multimedia-Ressourcen, wie PDFs oder Bildern verwendet werden. An dieser Stelle kommt also besser die robots.txt ins Spiel.
Also: Die robots.txt Datei weist Suchmaschinen-Spider an, bestimmte Seiten auf Ihrer Website nicht zu durchforsten.
Best Practice: Erstellen einer Robots.txt-Datei
Ihr erster Schritt besteht darin, Ihre robots.txt-Datei tatsächlich zu erstellen. Da es sich um eine Textdatei handelt, können Sie diese einfach mit einem Texteditor, wie zum Beispiel dem Windows Notepad erstellen.
Und egal, wie Sie Ihre robots.txt-Datei letztendlich erstellen, das Format ist genau dasselbe:
user-agent: X
disallow: Y
User-Agent ist der spezifische Bot, den Sie ansprechen wollen.
Und alles, was nach „disallow“ kommt, sind Seiten oder Abschnitte, die Sie blockieren möchten.
Hier ist ein Beispiel:
user-agent: googlebot
disallow: /Bilder
Diese Regel würde Googlebot anweisen, den Bilderordner Ihrer Website nicht zu indizieren.
Sie können auch ein Sternchen (*) verwenden, um mit allen Bots zu sprechen, die auf Ihrer Website vorbeischauen.
Hier ist ein Beispiel:
user-agent: * disallow: /Bilder
Das „*“ weist alle Spider an, den Bilderordner NICHT zu durchsuchen.
Dies ist nur eine von vielen Möglichkeiten, eine robots.txt-Datei zu verwenden. In diesem hilfreichen Leitfaden von Google finden Sie weitere Informationen zu den verschiedenen Regeln, die Sie verwenden können, um Bots beim Crawlen verschiedener Seiten Ihrer Website zu blockieren oder zuzulassen.
Mit dem robots.txt-Tester können Sie robots.txt-Dateien für Ihre Website erstellen oder bearbeiten. Außerdem lässt sich damit die Syntax und die Auswirkung auf Ihre Website prüfen.
Hier noch ein sehr gutes Video in englisch zur robots.txt:
Abonniere das kostenlose KI-Update
Bleib auf dem Laufenden in Sachen Künstliche Intelligenz!
Melde Dich jetzt mit Deiner E-Mail-Adresse an und ich versorge Dich kostenlos mit News-Updates, Tools, Tipps und Empfehlungen aus den Bereichen Künstliche Intelligenz für dein Online Business, WordPress, SEO, Online-Marketing und vieles mehr.
Keine Sorge, ich mag Spam genauso wenig wie Du und gebe Deine Daten niemals weiter! Du bekommst höchstens einmal pro Woche eine E-Mail von mir. Versprochen.