Scraping und Parsen sind zwei eng verwandte Website Data-Mining- Verfahren . Je allgemeiner , Parsing, bezieht sich auf den Abbau von Daten in seine Bestandteile . Wenn Ihre Mitte - School-Englischlehrer Sie aufgefordert, Diagramm Sätze wurden Parsen Sie die Worte jener Sätze für ihre Wortarten . Kratzen bezieht sich insbesondere auf das Parsen Webseiten für bestimmte Arten von Daten , in diesem Fall , Adressen . Die Programmiersprache Python und die " BeautifulSoup "-Erweiterung ermöglichen dem Benutzer zu kratzen und zu analysieren Webseiten in ein paar Zeilen Code. Things You
Python 2.6 oder höher
BeautifulSoup 3.2
brauchen anzeigen Weitere Anweisungen
1
Installieren BeautifulSoup durch den Download der neuesten Version von miesen Software und Entpacken /dekomprimieren die Datei . Öffnen Sie ein Terminal-Fenster und geben Sie den folgenden Befehl ein: My- iMac : ~ me $ python Downloads/BeautifulSoup-3.2.0/python setup.py install
Damit den Python-Interpreter , um die BeautifulSoup Installationsskript Das kann laufen . My- iMac : ~ me $ python >>> import im BeautfulSoup Ordner , die im Ordner Downloads ist
2
Typ Python an der Eingabeaufforderung ein , schlug zurück und Import BeautifulSoup gefunden werden BeautifulSoup
3
Führen Sie das folgende Skript , um eine Web -Seite zu öffnen und drucken alle Universal Resource Locator ( Web-Adressen ), die Sie auf einer Seite finden könnte : >>> import urllib2 >> ; > page = urllib2.urlopen ( " URL http://www.THE du hier ABKRATZEN " ) >>> Suppe = BeautifulSoup (Seite ) >>> soup.findAll ('a ') >>> print soup.strip ( ) >>> printThis Skript wird eine Web- Seite zu öffnen, analysieren die html, Suche nach dem in denen Web-Adressen eingebettet sind , entfernen Sie die Tags und lassen Sie den Text.