Was sind Webcrawler, Spider,Bots,Searchbots und Google Bot…


Webcrawler, Spider,Bots,Searchbots und Google Bot erklärt…

Webcrawler im Internet am Daten sammeln

Webcrawler im Internet am Daten sammeln

Das Prinzip von einem Webcrawler ist ganz einfach. Stellt euch einfach eine kleine Spinne vor, die auf den Datenleitungen des World Wide Web (WWW), herum läuft und diesen Leitungen bis zu der hinterlegten Website folgt. Wenn jetzt so ein Webcrawler auf eine Website kommt, fängt er an alle Daten zu lesen von der Website. Ein Webcrawler kann bis zum jetzigen Zeitpunkt nur lesen. Der Webcrawler kann nicht sehen, sondern nur die hinterlegten Meta Description (Beschreibung) lesen. Wenn der Webcrawler nun alles gelesen (gecrawlt) hat, geht über zu den gelesenen Links. Es gibt Webcrawler die sich spalten, also aufteilen. In einem solchen Fall wird in dem Moment wo der Webcrawler einen Link crawlt, gleich ein Ableger abgesetzt der den Link crawlt und die dazu gehörige Website. Die Webcrawler die keine Ableger absetzen, gehen nach dem crawling der Website zu den Links und beginnen von vorne mit dem crawling der im Link hinterlegten Website. Das gleiche passiert auch bei der internen Verlinkung einer Website. Also der Webcrawler folgt allen Links die er findet. Wenn jedoch eine so genannte robots.txt hinterlegt ist, die dem Webcrawler das crawlen und indexieren verbietet, zum Beispiel wegen Duplicate Content, so werden diese Links oder auch ganze Seiten nicht gecrawlt. In der robots.txt kann auch hinterlegt werden, ob nur das crawling verboten wird und das indexieren nicht, oder beides verboten wird. Als Beispiel, haben wir in unserem Blog die Tags auf noindex gestellt auf Grund der Gefahr von Duplicate Content. So verhindern wir auf unserem Blog, dass Artikel die mit gleichen Tags markiert sind, doppelt indexiert werden. Es gibt auch noch die Möglichkeit des Canonical Tags. Jeder Webseitenbetreiber sollte sich aber gut überlegen was er in der robots.txt hinterlegt. Es können Fehler passieren die dafür verantwortlich sind, dass Seiten oder Links nicht indexiert werden und dadurch Content verloren geht, der aber eigentlich interessant für User ist. Die robots.txt, genauso mit der Canonical Tag, sollte mit bedacht eingesetzt werden.
Webcrawler können aber auch eingesetzt werden um E-Mail Adressen und RSS Feeds zu sammeln sowie andere Daten die auf den Websites hinterlegt sind. Solche Webcrawler werden als Harvester bezeichnet. Eine Erntecrawler der dazu programmiert ist nur die Daten zu sammeln, damit diese in den meisten Fällen, danach für Spam missbraucht werden können. Aus diesem Grund ist auch auf vielen Website die E-Mail Adresse ohne das bekannte @ Zeichen hinterlegt, sondern ausgeschrieben mit (at) und (dot). Das hat sicherlich den Vorteil das solche Harvester Crawler keine Daten bekommen, jedoch betrifft das auch normale Webcrawler wie zum Beispiel von Google.

Funktionsweise Webcrawler

Quelle: https://www.hs-owl.de/skim/infos/suchtipps/suchtippsinternet.aspx

Quelle: https://www.hs-owl.de – Funktionsweise Webcrawler

Ob ihr nun von einem Webcrawler, Spider, Bot oder Searchbot redet, spielt keine Rolle. Im Prinzip ist immer das gleiche gemeint. Von daher könnt ihr die Webcrawler benennen wie ihr mögt. Sollte jemand Ideen dazu haben für neue Namen, lasst es uns wissen. Wir sind gespannt auf eure Ideen.

Euer free-infos Team

Share and Enjoy

  • Facebook
  • Google Plus
  • RSS
  • Twitter
  • Tumblr
  • Pinterest
  • Print

Über Héctor Pablo Hernández

Seit 4 Jahren bin ich im Sektor Suchmaschinenoptimierung tätig. Geboren bin ich am 3.11.1987. Ich schreibe gerne Artikel für diese Branche da sie immer wieder aufregend ist und viel Abwechslung mit sich bringt. "Probleme gibt es nicht, nur Herausforderungen"

Kommentar erstellen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

This Blog will give regular Commentators DoFollow Status. Implemented from IT Blögg