Googlebot

Google Bot

Der Googlebot gehört zu den wichtigsten Werkzeugen von Google. Damit ist er für die Suchmaschinenoptimierung relevant. Gemeinhin versteht man unter dem Begriff „Googlebot“ alle Webcrawler der Suchmaschine, sowohl den Crawler, der einen Desktop-Nutzer simuliert als auch einen, um mobile User darzustellen – aber auch die Bots für News und Bilder gehören dazu. Der Bot hat die Aufgabe, das Word Wide Web automatisiert zu durchsuchen und Webseiten in den Google Index aufzunehmen. Der Googlebot sorgt demnach dafür, dass eine Website als Suchergebnis in den SERPs auffindbar ist und bei der Suche durch einen User angezeigt wird. Überwiegend nutzt Google den mobilen Crawler, um Seiten  im Web zu indexieren.

Besucht der Googlebot eine Website, lädt er die entsprechende Dateiversion herunter und aktualisiert diese im Google Index. Je nach Anzahl der externen Backlinks sowie der Wichtigkeit einer Seite besucht ein Bot eine Webseite in entsprechender Häufigkeit wieder. Denn der Google Roboter hangelt sich entlang der Links, die zwischen Webseiten existieren. Mit der Übermittlung einer sitemap.xml Datei kann das Crawling des Googlebots erheblich erhöht und verbessert werden. In Google Webmaster Tools wird hinterlegt welche sitemap.xml Datei verwendet werden soll und wo sich diese befindet, bei Inhalten über 50.000 Seiten muss die sitemap.xml Datei in mehrere Unterdateien verteilt werden.

So greift der Googlebot auf eine Seite im Web zu

Der Googlebot crawlt über HTTP/1.1 – wenn von der Webseite unterstützt, auch über HTTP/2. Die Protokollversion kann sich durchaus auf das Ranking einer Seite auswirken. Allerdings ist HTTP/2 sparsamer für Rechenressourcen und zwar für die Internetseite selbst als auch für den Crawler. Der Bot kann die ersten 15 MB in einer HTML-Datei crawlen. Die in der  HTML-Datei dargestellten Ressourcen wie Bilder, Videos, JavaScript oder CSS werden gesondert abgerufen. Sind die 15 MB erreicht, hört der Googlebot mit dem Crawling auf und berücksichtigt eben jene 15 MB für die Indexierung. Überwiegend greift der Roboter nur einmal alle paar Sekunden auf eine Webseite zu. Durch Verzögerungen kann es jedoch temporär sein, dass der Crawler in einer höheren Frequenz arbeitet.

Werden alle Seiten einer Web-Domain durch den Googlebot indexiert?

Nicht jede Seite wird vom Webcrawler von Google besucht. Dies liegt unter anderem daran, ob es sich um dynamische Seiteninhalte wie zum Beispiel PHP-Sessions handelt. Diese kann der Googlebot nur schwer oder gar nicht indexieren. Zum anderen hat der Webmaster die Möglichkeit, bestimmte Seiten von der Aufnahme in den Index durch den Crawler auszuschließen. Dies erfolgt über die Datei robots.txt. Der Webmaster kann hierin festlegen, ob und in welcher Form eine Seite vom Googlebot besucht werden soll. Die Datei sorgt allerdings nicht dafür, dass sie nicht zu erreichen oder verschlüsselt ist

Soll eine Website indexiert werden, muss der Webmaster dies dem Googlebot aufzeigen – anhand der robots.txt-Datei. Dies ist unter anderem wichtig, damit der Webcrawler nicht unnötig viel Zeit mit dem crawlen von unwichtigen Seiten verschwendet. Hintergrund ist, dass das Computerprogramm für jede Webseite ein bestimmtes Zeitbudget zur Verfügung hat. Dies hängt unter anderem von der Seitenrelevanz ab. Je nach Zeitbudget kann der Googlebot mehr oder weniger Unterseiten einer URL einlesen. Ziel ist es, unwichtige Seiten auszuschließen, damit die wichtigsten Unterseiten durch den Google Crawler im Web eingelesen werden.

Hinweise für den Bot: Follow- und Nofollow-Links auf einer Seite setzen

Wenn man einen Link setzt, kann dieser mit einem Follow- oder einem Nofollow-Attribut ausgestattet werden. Diese Tag sagen aus, ob der Googlebot einem Link folgen und die entsprechende Seite in den Index aufnehmen soll. Allerdings ist dies nur eine Empfehlung für den Bot, wenngleich er dieser meistens folgt. Jedoch sollte man dennoch nicht einfach Verlinkungen zu lauter schlechter Webseiten mit schlechtem Content oder zu/aus Bad Neighbourhood vornehmen und meinen, dass ein Nofollow-Link dann den Kopf aus der Schlinge zieht. Ein solch schlechtes Linkbuilding kann vom  Google Crawler trotz Nofollow-Link erkennt und abgestraft werden.