Disallow

Zuletzt aktualisiert: Oktober 23, 2023

Start // Lexikon // Disallow

Der Begriff Disallow wird in der Suchmaschinenoptimierung (SEO) verwendet. In unserem Online Marketing Lexikon erklären wir Dir, was der Befehl bewirkt, was der Unterschied zum noindex Tag ist und welche Vor- und Nachteile die Verwendung von Disallow haben kann. 

Was ist Disallow in der SEO?

Disallow ist ein Befehl, der in der robots.txt-Datei einer Website verwendet wird, um den Crawlern von Suchmaschinen den Zugriff auf bestimmte Teile der Website oder auch auf die gesamte Website zu verweigern.

Was ist die robots.txt-Datei?

Die robots.txt-Datei kannst Du Dir wie eine Anleitung für Webcrawler vorstellen. In ihr wird festgelegt, welche Teile einer Webseite von ihnen besucht werden dürfen und welche nicht. Welche URLs oder URL-Pfade vom Crawling ausgeschlossen werden sollen, wird dabei in der Disallow-Anweisung angegeben. Ein einfacher Eintrag könnte zum Beispiel so aussehen:

User-agent: *
Disallow: /verbotener-pfad/

In diesem Beispiel wird jedem Crawler (dargestellt durch User-agent: *) der Zugriff auf den angegebenen Pfad "verbotener-pfad" verwehrt.

Welche Crawler können in der robots.txt genannt werden?

In der robots.txt-Datei kannst Du die User-agent-Anweisung verwenden, um Suchmaschinen-Crawler gezielt anzusprechen. Jeder Suchmaschinen-Crawler hat in der Regel einen eigenen, eindeutigen User-Agent-Namen. Hier sind einige der bekanntesten User-Agents, die in einer robots.txt-Datei genannt werden können.

  • All Crawler: *: Dieser User-Agent steht für alle Bots. Mit * kannst Du allgemeine Anweisungen für alle Crawler bereitstellen.

Beispiele für Google User-agents

  • Googlebot
  • Googlebot-Image
  • Googlebot-Video
  • Googlebot-News
  • Mediapartners-Google
  • Adsbot-Google

Weitere User-agents

  • Bingbot: der Hauptcrawler von Bing
  • Slurp: Yahoo's Web-Crawler
  • Baiduspider: der Hauptcrawler von Baidu
  • YandexBot: der Hauptcrawler von Yandex
  • DuckDuckBot: der Crawler von DuckDuckGo

Es gibt weitere spezifische und weniger bekannte Crawler und Bots, die auf Deine Website zugreifen (können). Wenn Du die Zugriffsprotokolle (Logfiles) Deines Servers überprüfst, wirst Du wahrscheinlich User-Agent-Strings finden, die von verschiedenen Bots und Web-Crawlern stammen.

Unterschied zwischen Disallow und noindex

Disallow und noindex werden manchmal in einem Atemzug genannt, wenn es darum geht, die Kontrolle des Suchmaschinenzugriffs zu haben. Sie haben jedoch unterschiedliche Funktionen.

  • Disallow: Mit dieser Direktive in der Datei robots.txt möchtest Du verhindern, dass die Crawler eine bestimmte Seite oder einen bestimmten Bereich einer Website besuchen. Sie verhindert jedoch nicht zwingend, dass die Seite in den Suchergebnissen erscheint. Sie kann auch weiterhin in den Ergebnissen erscheinen, wenn andere Seiten auf die Seite verweisen, die Du ausschließen möchtest (Backlink oder interner Link).
  • noindex: Dieses Meta-Tag kannst Du in den HTML-Code einer Webseite einfügen. Es ist ein Signal an Suchmaschinen, dass sie die Seite nicht in ihren Index aufnehmen sollen, unabhängig davon, ob die Seite gecrawlt wird oder nicht. Seiten, die üblicherweise auf noindex gesetzt werden, sind etwa das Impressum oder die Datenschutzbestimmungen einer Website. 

Wildcards in Disallow-Anweisung

In der Disallow-Anweisung können Wildcards – speziell das Sternchen (*) – verwendet werden, um URLs mit einem bestimmten Pfad auszuschließen. Das ist besonders nützlich, wenn du viele URLs mit ähnlichen Mustern hast, die von den Crawlern verborgen werden sollen.

User-agent: *
Disallow: /private/*/

Der obige Eintrag verbietet den Zugriff auf alle URLs, die mit /private/ beginnen und danach einen weiteren Pfad enthalten.

Beachten Google und Bing den Disallow Befehl?

Verwendest Du die Disallow-Anweisung in der robots.txt Deiner Website, wird das sowohl von Google als auch von Bing respektiert. Normalerweise wird eine Seite von diesen Suchmaschinen also nicht gecrawlt, wenn sie mit Disallow markiert wurde. Ausnahme: Die Seite wurde irgendwo verlinkt. 

In der Search Central von Google findest Du eine ausführliche Dokumentation darüber, wie die Suchmaschine die robots.txt-Spezifikation interpretiert. 

Vorteile von Disallow

Mit dem Befehl kannst Du also teilweise das Crawling Deiner Website kontrollieren. Du kannst den Suchmaschinen-Crawlern genau sagen, welche Bereiche Deiner Website sie ignorieren sollen. Wenn Du eine große Website hast, kannst Du so Crawl Budget sparen, da unwichtige Seiten von der Spider ignoriert werden. 

Nachteile von Disallow

Bei der Verwendung von Disallow sind aber auch Fehlkonfigurationen möglich: Ein versehentliches Disallow wichtiger Seiten kann dazu führen, dass diese Seiten nicht mehr in den Suchergebnissen angezeigt werden. Denke immer daran: Die Disallow-Anweisung ist ein mächtiges Werkzeug. Sie erfordert jedoch, dass Du sie gut verstehst und mit der nötigen Sorgfalt anwendest.

Beispiele: Wann kann man Disallow anwenden?

Abschließend haben wir hier noch drei Beispiele für Dich, wann es sinnvoll sein kann, Disallow zu verwenden:

  • Vertrauliche Daten: Verzeichnisse oder Seiten, die vertrauliche Informationen enthalten (diese sollten im Idealfall zusätzlich durch Authentifizierung und Autorisierung geschützt sein!) müssen meist nicht von Crawlern erfasst werden. 
  • Suchergebnisseiten: Interne Suchergebnisseiten sollen meist nicht von externen Suchmaschinen erfasst werden. Die dynamisch generierten Seiten sollten außerdem sicherheitshalber auf noindex gestellt werden. 
  • Login- und Registrierungsseiten sowie Einkaufswagen und Checkout-Seiten: Transaktionsseiten müssen weder gecrawlt noch indexiert werden.

Weitere Tipps für die Optimierung Deiner Website bekommst Du in unseren zahlreichen Lexikon und Ratgeber Artikeln:

Autoren-Infos

Hi! Ich bin Julia.

Als Leiterin der Abteilung Suchmaschinenmarketing schreibe ich bei den digitallotsen über die Themen SEO, Conversionoptimierung und Content Marketing.

>