Wie Kratzen & Analysieren Adressen

Mitglieder-Login

InformationenPython -Programmierung

Python Speed Python ist eine High-Level- Skriptsprache. Da die Funktionen und Methoden dieser Sprachen insgesamt
Wie Konvertieren von Int zu String … Bei der Programmierung in Python, vermeiden TypeErrors durch Umwandlung eines Integer in einen Str
Wie man Python -Befehle übersetzen… Python Befehle automatisch auf jedem Computer mit einem Python-Interpreter installiert ist. Allerdin
Wie man Text auf einem Etikett auf … Ein Label ist ein Objekt mit der Tkinter -Modul in Python , mit dem Sie grafische Benutzeroberfläch

Programming

HOME

* Computer Wissen >> Programming >> Python -Programmierung >> .

Wie Kratzen & Analysieren Adressen

Scraping und Parsen sind zwei eng verwandte Website Data-Mining- Verfahren . Je allgemeiner , Parsing, bezieht sich auf den Abbau von Daten in seine Bestandteile . Wenn Ihre Mitte - School-Englischlehrer Sie aufgefordert, Diagramm Sätze wurden Parsen Sie die Worte jener Sätze für ihre Wortarten . Kratzen bezieht sich insbesondere auf das Parsen Webseiten für bestimmte Arten von Daten , in diesem Fall , Adressen . Die Programmiersprache Python und die " BeautifulSoup "-Erweiterung ermöglichen dem Benutzer zu kratzen und zu analysieren Webseiten in ein paar Zeilen Code. Things You
Python 2.6 oder höher
BeautifulSoup 3.2
brauchen anzeigen Weitere Anweisungen
1

Installieren BeautifulSoup durch den Download der neuesten Version von miesen Software und Entpacken /dekomprimieren die Datei . Öffnen Sie ein Terminal-Fenster und geben Sie den folgenden Befehl ein: My- iMac : ~ me $ python Downloads/BeautifulSoup-3.2.0/python setup.py install

Damit den Python-Interpreter , um die BeautifulSoup Installationsskript Das kann laufen . My- iMac : ~ me $ python >>> import im BeautfulSoup Ordner , die im Ordner Downloads ist
2

Typ Python an der Eingabeaufforderung ein , schlug zurück und Import BeautifulSoup gefunden werden BeautifulSoup
3

Führen Sie das folgende Skript , um eine Web -Seite zu öffnen und drucken alle Universal Resource Locator ( Web-Adressen ), die Sie auf einer Seite finden könnte : >>> import urllib2 >> ; > page = urllib2.urlopen ( " URL http://www.THE du hier ABKRATZEN " ) >>> Suppe = BeautifulSoup (Seite ) >>> soup.findAll ('a ') >>> print soup.strip ( ) >>> printThis Skript wird eine Web- Seite zu öffnen, analysieren die html, Suche nach dem in denen Web-Adressen eingebettet sind , entfernen Sie die Tags und lassen Sie den Text.