Ein Web- Spinne ist ein Computerprogramm, das eine Webseite herunterlädt und dann folgt allen Links auf dieser Seite und lädt sie als gut. Web Spinnen werden verwendet, um Webseiten zum Offline-Lesen speichern , oder für die Speicherung von Web-Seiten in Datenbanken durch eine Suchmaschine verwendet werden. Erstellen einer Web- Spinne ist eine anspruchsvolle Aufgabe , für eine College-Level- Programmierung Klasse. Diese Anweisungen gehen davon aus Sie haben solide Programmier-Erfahrung , aber keine Kenntnis von spider Architektur. Die Schritte legen einen sehr spezifischen Architektur für das Schreiben eines Web Spinne in deiner Sprache . Things You
Web -Browser, der die programmatische Befehle reagiert
Programmiersprache mit Lese-Schreib- Zugriff auf die Festplatte und Datenbank-Funktionen
brauchen anzeigen Weitere Anweisungen
1
initialisieren Ihre Programm mit der ersten Webseite, die Sie herunterladen möchten. Fügen Sie die URL zu dieser Seite auf eine neue Datenbank-Tabelle von URLs .
2
senden einen Befehl an den Browser anweist, diese Web-Seite zu holen, und speichern Sie es auf einem Datenträger. Bewegen Sie den Mauszeiger Datenbank einen Schritt vorwärts über die URL, die Sie gerade heruntergeladen haben , die nun bis zum Ende der Tabelle verweisen.
3
Lesen Sie die Web-Seite in das Programm , und analysieren sie für Links zu weiteren Web-Seiten. Dies wird typischerweise durch die Suche nach der Zeichenfolge "http://" und die Erfassung der Text zwischen diesen String und einer Kündigung Zeichen ( wie " ", " . " Oder " >") getan . Fügen Sie diese Links auf die URL-Datenbank -Tabelle; die Datenbank Zeiger sollte oben auf dieser neuen Liste bleiben
4
Testen Sie die Einträge in der Datenbank -Tabelle für Einzigartigkeit, und entfernen Sie alle URLs , die mehr als einmal vorkommen . .
5
Wenn Sie einen URL-Filter (z. B. um zu verhindern, das Herunterladen von Seiten aus Websites in unterschiedlichen Domänen) bewerben wollen , gilt es nun auf die URL-Datenbank -Tabelle und entfernen Sie alle URLs, die Sie nicht wollen, zum Download bereit.
6
Einrichten einer programmatischen Schleife so Ihre Spinne kehrt zu Schritt 2 oben . Dies wird rekursiv downloaden alle URLs Ihrer Spinne begegnet . Entfernen von doppelten URLs sorgt dafür, dass die Spinne richtig zu beenden, wenn es die letzte eindeutige URL erreicht .