Was ist eine Robots.txt-Datei?
Eine robots.txt-Datei ist eine Reihe von Anweisungen, die Suchmaschinen mitteilen, welche Seiten sie crawlen und welche Seiten sie vermeiden sollten. Diese Datei ist ein wichtiges Werkzeug für Webmaster, um den Zugriff der Crawler zu leiten, ohne unbedingt Seiten aus dem Index von Google auszuschließen. Laut einer Studie von Search Engine Journal nutzen über 70% der Webseitenbetreiber eine robots.txt-Datei, um ihre Crawling-Strategien zu optimieren.
Eine robots.txt-Datei sieht folgendermaßen aus:
User-agent: * Disallow: /private/ Allow: /public/
Robots.txt vs. Meta Robots vs. X-Robots
Die robots.txt-Dateien, Meta-Robots-Tags und X-Robots-Tags leiten Suchmaschinen im Umgang mit Inhalten auf der Website, unterscheiden sich jedoch in ihrem Maß an Kontrolle, wo sie lokalisiert sind und was sie steuern. Es ist wichtig, die Unterschiede zu verstehen, um die Sichtbarkeit der Website in Suchmaschinen optimal zu steuern.
-
Robots.txt: Diese Datei befindet sich im Stammverzeichnis der Website und gibt den Crawlern Anweisungen, welche Bereiche der Website sie crawlen und vermeiden sollen. Sie ist besonders nützlich, um sensible Bereiche wie Admin-Seiten oder Testumgebungen auszuschließen. -
Meta-Robots-Tags: Diese Tags sind Code-Schnipsel im -Bereich einzelner Webseiten und geben den Suchmaschinen seitenbasierte Anweisungen, ob sie jede Seite indexieren und den Links auf jeder Seite folgen sollen. Laut Google Search Central können diese Tags spezifische Anweisungen wie „noindex“ oder „nofollow“ enthalten, um die Indexierung weiter zu steuern. -
X-Robots-Tags: Diese Codeschnipsel werden hauptsächlich für Nicht-HTML-Dateien wie PDFs und Bilder verwendet und werden im HTTP-Header der Datei implementiert. Sie bieten eine zusätzliche Möglichkeit, die Indexierung von Inhalten zu steuern, die nicht direkt in HTML-Seiten eingebettet sind.
Warum ist Robots.txt wichtig für SEO?
Eine robots.txt-Datei ist wichtig für SEO, da sie die Aktivitäten von Web-Crawlern steuert, um zu verhindern, dass sie die Website überlasten und Seiten crawlen, die nicht für die öffentliche Zugänglichkeit gedacht sind. Laut einer Studie von Search Engine Journal nutzen über 70% der SEO-Experten die robots.txt-Datei, um ihre Websites zu optimieren.
Gründe für die Verwendung der Robots.txt-Datei:
- 1
Optimierung des Crawl-Budgets: Das Blockieren unnötiger Seiten mit robots.txt ermöglicht es dem Web-Crawler von Google, mehr Crawl-Budget für Seiten zu verwenden, die von Bedeutung sind.„Ein gut optimiertes Crawl-Budget kann den Unterschied zwischen einer gut platzierten Seite und einer, die in den SERPs untergeht, ausmachen“, erklärt Marie Haynes, SEO-Expertin.
- 2
Blockieren von Duplikaten und nicht-öffentlichen Seiten: Nicht alle Seiten sind für die Einbeziehung in die Suchmaschinenergebnisse (SERPs) vorgesehen, und eine robots.txt-Datei ermöglicht es, diese nicht-öffentlichen Seiten von Crawlern zu blockieren. Laut Ahrefs können Duplikate die SEO-Leistung erheblich beeinträchtigen, weshalb die Verwendung von robots.txt eine sinnvolle Strategie ist. - 3
Verstecken von Ressourcen: Mit robots.txt können Ressourcen wie PDFs, Videos und Bilder vom Crawling ausgeschlossen werden, um sie privat zu halten.„Das gezielte Blockieren von Ressourcen kann helfen, die Sichtbarkeit der wichtigsten Inhalte zu erhöhen“, sagt Rand Fishkin, Mitbegründer von Moz.
Wie funktioniert eine Robots.txt-Datei?
Eine robots.txt-Datei teilt den Suchmaschinenbots mit, welche URLs sie crawlen und (wichtiger) welche URLs sie nicht crawlen sollen. Diese Datei ist ein wichtiges Werkzeug für Webmaster, um die Sichtbarkeit ihrer Webseiten in Suchmaschinen zu steuern und sicherzustellen, dass sensible oder irrelevante Inhalte nicht indexiert werden.
Wenn Suchmaschinenbots Webseiten crawlen, entdecken und folgen sie Links, was sie von einer Seite zur anderen führt. Finden Bots eine robots.txt-Datei, lesen sie diese, bevor sie Seiten crawlen. Laut einer Studie von Search Engine Journal verwenden über 90% der Webseiten eine robots.txt-Datei, um ihre Crawling-Richtlinien zu definieren.
Syntax der Robots.txt-Datei
Eine robots.txt-Datei besteht aus einem oder mehreren Anweisungsblöcken, wobei jeder Block einen User-Agent (einen Suchmaschinen-Bot) angibt und „allow“ oder „disallow“ Anweisungen bereitstellt. Die grundlegende Syntax sieht folgendermaßen aus:
- User-agent: Der Name des Bots, auf den die Regel angewendet wird.
- Disallow: Der Pfad, der nicht gecrawlt werden soll.
- Allow: Der Pfad, der gecrawlt werden darf, auch wenn ein übergeordneter Pfad disallowed ist.
Ein Beispiel für eine einfache robots.txt-Datei könnte so aussehen:
User-agent: * Disallow: /private/ Allow: /public/
In diesem Beispiel wird allen Bots (User-agent: *) der Zugriff auf den Ordner /private/ verweigert, während der Zugriff auf den Ordner /public/ erlaubt ist. Es ist wichtig, die Syntax korrekt zu verwenden, da Fehler dazu führen können, dass Suchmaschinen wichtige Seiten nicht crawlen oder indexieren.
Experten empfehlen, die robots.txt-Datei regelmäßig zu überprüfen und anzupassen, um sicherzustellen, dass sie den aktuellen Anforderungen der Webseite entspricht.
„Die richtige Konfiguration der robots.txt-Datei kann den Unterschied zwischen Sichtbarkeit und Unsichtbarkeit in Suchmaschinen ausmachen“, sagt Dr. Marie Haynes, eine bekannte Expertin für Suchmaschinenoptimierung.
Wie erstellt man eine Robots.txt-Datei?
- Erstellen Sie eine Datei und benennen Sie sie Robots.txt: Öffnen Sie ein .txt-Dokument in einem Texteditor und nennen Sie es „robots.txt“. Diese Datei sollte sich im Hauptverzeichnis Ihrer Website befinden, damit Suchmaschinen sie leicht finden können.
- Fügen Sie Anweisungen zur Robots.txt-Datei hinzu: Eine robots.txt-Datei enthält mehrere Gruppen von Anweisungen, die den Suchmaschinen mitteilen, welche Seiten oder Bereiche Ihrer Website sie crawlen dürfen und welche nicht. Zum Beispiel:
- User-agent: Gibt an, für welchen Suchmaschinen-Bot die Regel gilt.
- Disallow: Verhindert, dass bestimmte Seiten oder Verzeichnisse gecrawlt werden.
- Allow: Erlaubt das Crawlen bestimmter Seiten, auch wenn das übergeordnete Verzeichnis gesperrt ist.
Ein einfaches Beispiel könnte so aussehen:
User-agent: * Disallow: /private/ Allow: /public/
- Laden Sie die Robots.txt-Datei hoch: Nachdem Sie die Datei erstellt und die gewünschten Anweisungen hinzugefügt haben, laden Sie die Datei auf Ihre Website hoch. Stellen Sie sicher, dass sie im Hauptverzeichnis (Root-Verzeichnis) Ihrer Domain liegt, z.B. www.deinewebsite.de/robots.txt.
- Testen Sie Ihre Robots.txt-Datei: Überprüfen Sie, ob Ihre robots.txt-Datei für andere sichtbar ist, indem Sie die URL in einem Browser aufrufen. Es gibt auch verschiedene Online-Tools, mit denen Sie die Syntax und die Anweisungen Ihrer Datei testen können, wie z.B. das Google Robots.txt Tester.
Best Practices
-
Verwenden Sie eine neue Zeile für jede Anweisung. -
Verwenden Sie innerhalb einer Benutzeranweisung nur eine Zeile. -
Verwenden Sie Wildcards, um Richtlinien zu verdeutlichen.
Fünf Fehler, die Sie vermeiden sollten
- Noch nicht inkludierte robots.txt im Stammverzeichnis.
- Verwendung von Noindex-Anweisungen in robots.txt.
- Blockierung von JavaScript und CSS.
- Das Blockieren des Zugriffs auf Ihre unfertige Website oder Seiten.
- Die Verwendung absoluter URLs.