Crawler

Aus Siwecos
Wechseln zu: Navigation, Suche

Crawler

Crawler werden auch Searchbot oder Robot genannt. Der Weg, den die Crawler im Internet zurücklegen, ähnelt einem Spinnennetz, weshalb Crawler auch als Spider bezeichnet. Es handelt sich um ein weitgehend automatisch handelndes Computerprogramm, welches das World Wide Web durchsucht und dabei Webseiten nach bestimmten und vorgegebenen Kriterien analysiert. Suchmaschinen nutzen Crawler zur Indexierung von Webseiten. Durch kontinuierliches Absuchen des Internets sorgen die Crawler dafür, dass die Indexes der Suchmaschinen aktuell bleiben und gelöschte Seiten entfernt werden.

Crawler sind somit das wichtigste Instrument aller Suchmaschinen, um Inhalte im Internet aufzufinden und zu indexieren. Ein Crawler ist in erheblichem Ausmaß an der Platzierung Ihrer Webseite in den Suchergebnissen beteiligt. Daher ist es wichtig, dass Ihre Webseite für Crawler einwandfrei lesbar ist damit alle Inhalte indexiert werden können.


Crawler aussperren

Wenn Sie bestimmte Crawler ausschließen möchten, können Sie das über einen Eintrag des User Agents im robots.txt tun. Ebenso können Sie festlegen, welche Verzeichnisse durchsucht werden dürfen und welche nicht. Wie genau das funktioniert hat bjoernsworld.de hier ausführlich erklärt.


Andere Einsatzgebiete

  • Crawler werden auch von Preisvergleichsportalen eingesetzt, um Informationen über bestimmte Produkte zu sammeln.
  • Nicht zu vernachlässigen ist der Bereich Data-Mining, wo beispielsweise öffentlich erreichbare E-Mail- oder Postadressen von Unternehmen gesammelt werden.
  • Andere Crawler sammeln Web-Feeds und versorgen Nachrichtenseiten mit neuen Infos.
  • Tools zur Webanalyse sammeln mit Hilfe von Crawlern Daten zu Seitenaufrufen oder zu eingehenden oder ausgehenden Links.


Weiterführende Links