Suchmaschinen , wie Google oder Yahoo! , ziehen Sie Web-Seiten in ihren Suchergebnissen mithilfe von Web -Bots ( manchmal auch als Spider oder Crawler ), die Programme, die das Internet und Index Websites in eine Datenbank zu scannen sind . Web -Bots können mit den meisten Programmiersprachen , darunter C , Perl, Python und PHP , die alle Software-Ingenieure , um Skripte, die prozedurale Aufgaben wie Web Scannen und Indexieren durchzuführen schreiben zu ermöglichen. Anleitung
1
Öffnen Sie ein Klartext -Editing-Anwendung , wie zB Notepad , das mit Microsoft Windows oder Mac OS X TextEdit , wohin du willst Autor eine Python Web Bot Anwendung enthalten ist.
< Br > 2
einleiten das Python-Skript , indem Sie die folgenden Zeilen Code und Ersetzen des Beispiel-URL mit der URL der Website, die Sie scannen möchten , und der Name des Beispiel -Datenbank mit der Datenbank, die gespeichert werden soll , die Ergebnisse :
Import urllib2 , re, stringenter_point = ' http://www.exampleurl.com ' db_name = ' example.sql '
3
Fügen Sie die folgenden Codezeilen definieren die Folge von Operationen , die das Web bot folgen :
def uniq (seq ) : set = {} Karte ( set.__setitem__ , seq , [] ) return set.keys ()
< br > 4
beziehen Sie die URLs in der Website-Struktur , indem Sie die folgenden Codezeilen :
def geturls ( url ) : items = [ ] = Anfrage urllib2.Request ( url ) request.add.header ( 'User ', ' Bot_name ;) ') content = urllib2.urlopen ( Anfrage). read () items = re.findall ( 'href = "http://. ? " ' , Inhalt) urls = [ ] return urls
5
Definieren Sie die Datenbank, die das Web bot verwenden und festlegen, welche Informationen sollte es zu speichern, so dass die kompletten Web bot:
db = open ( db_name , 'a') allurls = uniq ( geturls ( enter_point ) )
6
Speichern Sie das Textdokument und laden Sie sie auf einen Server oder Computer mit Internet-Anschluss , wo Sie das Skript ausführen kann und den Scanvorgang zu starten Webseiten.