Crawler

Crawler sind Computerprogramme, teilweise auch Robots, Bots oder Spider genannt, die das Internet automatisch und nach festgelegten Arbeitsschritten durchsuchen und auf dieser Basis einen vordefinierten Katalog erstellen. Die Arbeit von sogenannten Crawlern dient als Grundlage für die Erstellung von Ergebnislisten durch Suchmaschinen. Tagtäglich durchforsten Crawler riesige Mengen an Webseiten und kopieren die dabei gesammelten Daten in eine Datenbank. Auf diese Weise entsteht ein Verzeichnis aller Wörter, die auf der Webseite vorkommen sowie deren jeweilige Position.

Wie oft eine Seite gecrawlt wird, bestimmen die Algorithmen der Suchmaschinen. Grundsätzlich lässt sich sagen: je bekannter eine Webseite für die Suchmaschine erscheint, desto häufiger wird sie von den Crawlern besucht und umso mehr Unterseiten der Domain werden in den Index aufgenommen.

Nicht alle Inhalte einer Webseite können von den Crawlern problemlos gelesen werden. Es sollten bestimmte Programmiertechniken vermieden werden, damit ein Crawler auf eine Seite zugreifen kann. So können etwa

  • JavaScript- Dateien
  • Flash Seiten oder
  • Links mit Session IDs in der URL

Probleme bereiten, weil sie meistens nicht berücksichtigt werden. Es ist sinnvoll, die URLs möglichst einfach zu halten.

Posted in Begriff der Woche on Aug 23, 2017