Roboter, in Zusammenhang mit dem Internet bedeutet , dass Software-Programm zu scannen eine Website , um Informationen zu sammeln. Diese sind nicht Viren - es kein Code auf Ihrem Rechner platziert und wenn der Roboter mit Ihrer Website fertig ist , gibt es keine Beweise dafür, dass der Roboter dort war. Die Sammlung von Informationen Prozess ist nicht unbedingt schädlich - Sie könnten von dem Besuch profitieren. Die Robots Exclusion Protocol (REP) ermöglicht es Ihnen, eine gewisse Kontrolle über den Prozess haben . History
Die REP Idee begann im Jahr 1994 mit einem Roboter -Reader Gruppe ( robots-request@nestor.co.uk ) als eine Möglichkeit, Roboter durch Webseiten zu führen. Die Grundidee war , eine kurze Datei mit bekannten Namen und Speicherort der weist den Roboter , wo sie suchen zu installieren. Diese Richtungen würde wahrscheinlich durch bösartige Roboter ignoriert werden , konnte aber durch gutartige Roboter eingesetzt werden, um speichern Sie sie einige Zeit durch die Untersuchung nur einige Ihrer Dateien . Das grundlegende Protokoll wurde 2008 von einer großen Zahl von den großen Internet- Unternehmen wie Yahoo und Google.
Gutartige Robots
verbessert Es gibt einige Roboter Sie tatsächlich besuchen möchten Ihre Website . Zum Beispiel verwenden Suchmaschinen Roboter zum Indizieren des Internet . Beginnend mit einem einzigen Internet-Adresse , stuft die Roboter, der Website und führt eine Liste aller Links auf der Website gefunden. Dann wird der Roboter geht die Liste der gesammelten Web-Adressen . Da die Liste von neuen Websites erstellt jeden Monat öffentlich zugänglich sind , gibt es einen Rückstau von Webseiten zu überprüfen, dass hält die Roboter arbeiten Tag und Nacht . Sie wollen, dass diese Roboter Besuche , weil Sie die Suchmaschinen kennen und ordnen Sie Ihre Website so potenzielle Kunden können Sie über Suchmaschinen finden wollen .
Bösartige Robots
Roboter können auch für destruktive Zwecke verwendet werden. Zum Beispiel können Roboter eine Liste von E- Mail-Adressen durch Interessen indiziert. Um dies zu tun , suchen sie nach etwas, das ein "@ "-Symbol hat und nehmen Sie die Schnur um es , die durch Leerzeichen gebunden ist. Dies ist , warum Sie sehen einige Informatik Professoren geben ihre Adresse als Professor.Abc {at } Zeichen University.edu - es ist, böse Roboter vereiteln . Um Ihre E -Mail-Adresse nach Interesse klassifizieren , sucht der Roboter in der META -Anweisung, die Teil des Codes hinter jeder Website ist.
REP Syntax
Die Roboter . txt -Datei in einem Verzeichnis installiert . Wenn Ihre Website ist www.widgits.com , der Pfadname der robots.txt -Datei wird www.widgits.com /robots.txt sein . Die erste Zeile in der Datei sein wird "user -agent: " und die nächste Zeile wird " Disallow: " - die erste Zeile wählt die Bevölkerung von Robotern und in der zweiten Zeile die Verzeichnisse sind tabu . Mit ";" einen Zeilenumbruch , "user -id : *; /abc /" sind die beiden Aussagen , dass die direkte Linie alle Roboter , die abc -Verzeichnis zu vermeiden. Damit searchbot alles prüfen , aber verbieten alle anderen Roboter, würde der Code "user -id : searchbot ; verbieten : ; User-ID : *; Disallow: /" - * steht für alle Roboter, /bedeutet alle Verzeichnisse und ein Leerstelle bedeutet keine Verzeichnisse.