Crawler

Zuletzt aktualisiert: September 11, 2023

Start // Lexikon // Crawler

Hast du dich jemals gefragt, woher Suchmaschinen wie Google wissen, welche Websites existieren und was sie enthalten? Wer sind diese unsichtbaren Boten, die auf der Suche nach Informationen das Netz durchstreifen? Die Antwort verbirgt sich in einem einzigen Begriff: Webcrawler.

Auf eine spannende Entdeckungsreise in die geheimnisvolle Welt dieser digitalen Forscher nehmen wir Dich in diesem Lexikonartikel mit. Bereit? Dann lass uns in die Welt der Crawler eintauchen!

Was sind Webcrawler?

Crawler werden auch Spider oder Bot genannt. Sie sind Programme, die das Internet durchsuchen und Webseiten analysieren. Die gewonnenen Informationen geben sie an Suchmaschinen wie Google oder auch Bing weiter. Auf diese Weise wissen die Suchmaschinen dann, welche Inhalte auf den Websites zu finden sind und können die passendsten Ergebnisse für Deine jeweilige Suchanfragen (Keywords) liefern.

Exkurs: warum SEO?

SEO steht für Search Engine Optimization (Suchmaschinenoptimierung). Im Klartext heißt das: Mit SEO sorgst Du dafür, dass Deine Website in den Suchergebnissen möglichst hoch platziert wird. Je besser Deine Seite für Crawler (Suchroboter) und Nutzer:innen optimiert ist, desto besser ist im Normalfall auch die Platzierung in den Suchergebnissen.

Schau doch mal auf unserer Übersichtsseite vorbei, um mehr über unsere Leistungen als SEO Agentur zu erfahren.

Crawler lesen den HTML-Code von Websites

Jede Website ist in einer Sprache geschrieben, die HTML genannt wird. HTML steht für „HyperText Markup Language“. Es ist eine standardisierte Sprache, die zur Erstellung von Webseiten verwendet wird. HTML strukturiert und beschreibt Texte, Bilder und andere Inhalte, indem sie sie mit Tags versieht, die festlegen, ob ein Text etwa eine Überschrift, ein Absatz oder ein Link ist. Um zu verstehen, worum es auf Deiner Seite geht, lesen Crawler den HTML-Code.

Indexierung: Wie Suchmaschinen arbeiten

Die gesammelten Informationen speichert ein Crawler nach dem Besuch Deiner Seite in einem Index. Eine Website kann in den Suchergebnissen erscheinen, sobald sie in den Google-Index aufgenommen wurde. Der Google-Index ist somit das Herzstück der Suchfunktion von Google. Er ist ein riesiger Speicher, der Milliarden von Webseiten enthält und ständig aktualisiert wird, um den Nutzer:innen stets relevante und aktuelle Ergebnisse zu liefern.

Crawling-Budget: Bei großen Websites entscheidend

Das Crawling-Budget bezieht sich auf die Menge an Ressourcen, die eine Suchmaschine – insbesondere Google – bereit ist aufzuwenden, um eine Website zu durchsuchen und zu indexieren. Das Crawling kostet Google und Co. Geld, daher ist die Tiefe des Crawlings sind nicht unbegrenzt.

Das Crawling-Budget legt fest, wie oft und welche Teile einer Website durch den Crawler besucht werden sollen. Dieses Budget ist entscheidend, insbesondere bei großen und komplexen Websites. Ein bedachter Einsatz des Crawling-Budgets stellt sicher, dass die wichtigsten und relevantesten Teile einer Website regelmäßig gecrawlt werden. Mit bestimmten Techniken wird das Crawling-Budget geschont bzw. der Crawler unterstützt:

  • Noindex: Mit dem noindex-Tag wird dem Webcrawler gesagt, dass er eine bestimmte Seite bei der Indexierung ignorieren soll.
  • Robots.txt: In der Robots.txt legst Du fest, welche Teile Deiner Website der Crawler besuchen darf.
  • Sitemap: Eine Sitemap zeigt dem Webcrawler den Weg, den er durch Deine Website nehmen muss. Sie ist eine Art Landkarte, mit deren Hilfe er sich auf Deiner Website zurechtfindet.

Google Search Console: Deine Schaltzentrale

Die Google Search Console (früher Google Webmaster Tools) ist ein unverzichtbares und kostenfreies Tool für jeden Webseitenbetreibenden. Sie gibt Dir Informationen darüber, wie Google Deine Website wahrnimmt. Du kannst herausfinden, für welche Suchanfragen Deine Website in den Suchergebnissen erscheint. Sie zeigt Dir, ob es Probleme beim Crawlen oder Indexieren Deiner Website gibt. Außerdem werden Dir in der GSC wertvolle Hinweise zur Verbesserung der allgemeinen Performance bereitgestellt.

Falsches SEO Spiel: Cloaking

Cloaking ist eine Black Hat SEO Methode, bei der Webseitenbetreibende zwei verschiedene Versionen einer Webseite präsentieren: Eine für Suchmaschinen-Crawler und eine für menschliche Besucher. Das Ziel von Cloaking ist, das Ranking in Suchmaschinen zu verbessern. Dazu wird dem Crawler eine optimierte Version der Website/Unterseite angezeigt. Eine andere, oft weniger optimierte Version wird wiederum dem User angezeigt. Google und andere Suchmaschinen betrachten Cloaking als Verstoß gegen ihre Richtlinien. Sie sehen darin ein unehrliches und manipulatives Vorgehen. Websites, die beim Cloaking erwischt werden, können schwer bestraft werden, bis hin zur Entfernung aus den Suchergebnissen. Du solltest also immer darauf achten, Webcrawlern und User:innen den gleichen Content zur Verfügung zu stellen.

Fazit: Gestalte Deine Website so, dass Crawler UND Nutzer sie lieben!

Das Thema Crawler ist spannend und gleichzeitig komplex. Mit dem richtigen Wissen kannst Du Deine Website so gestalten, dass Suchmaschinen sie lieben. Möchtest Du noch tiefer in die Materie eintauchen? Zum Thema SEO gibt es noch viele weitere spannende Lexikonartikel. Hol Dir das Wissen und schöpfe das Potenzial Deiner Website voll aus!

Autoren-Infos

Hi! Ich bin Julia.

Als Leiterin der Abteilung Suchmaschinenmarketing schreibe ich bei den digitallotsen über die Themen SEO, Conversionoptimierung und Content Marketing.

>