Die Programmiersprache Python unterstützt HTML 5 Websites mit der Bibliothek ' html5lib . ' Diese Bibliothek erlaubt es Ihnen, Python-Skripte schreiben, die Auswertung von HTML- 5 -Seiten mit einer Baumstruktur . Baumstrukturen sind hierarchisch Aussicht Webseiten-Elemente . Zugriff auf Webseiten-Elemente erfolgt über einen Baum walker . Der Baum walker ' geht ' entlang den Verbindungen der Knoten im Baum , und kann den gesamten Baum zu durchlaufen . Sie können mit Python ' html5lib ' verwenden, um zu öffnen , anzuzeigen und auszudrucken HTML 5 Website. Things You
Python 3.2 Programmiersprache mit html5lib Modul
brauchen anzeigen Weitere Anweisungen
1
Öffnen Sie das IDLE Texteditor in Program Files ( oder Programme für Macintosh) in die Python -Verzeichnis. Eine leere Quellcodedatei öffnet
2
Import der " html5lib "-Modul , indem Sie die folgenden Anweisungen am Anfang der Quellcodedatei : .
Import html5lib
< p > ab html5lib Import treebuilders , treewalkers , serializer
Import urllib2
3
erstellen Sie eine neue HTML 5 -Parser , die Sie verwenden, um eine HTML-Webseite lesen. Die Deklaration einer neuen Parser , indem Sie den folgenden :
Parser = html5lib.HTMLParser ()
4
Öffnen einer Website , indem ihre Namen in das urllib2.urlopen Funktion . Zum Beispiel, wenn Sie öffnen möchten " www.website_adddress.com ", schreiben die folgenden : .
URL = urllib2.urlopen ( " http://www.website_address.com " ) lesen () < br >
5
Übergeben Sie die Website in die HTML 5 -Parser , um einen Baum Darstellung zu erhalten. Speichern Sie diese Darstellung in eine Variable mit dem Namen " Baum " , indem Sie die folgende Anweisung :
Baum = parser.parse ( URL)
6
erstellen Baum walker wie folgt aus:
TreeWalker = treewalkers.getTreeWalker ( " dom" )
7
Spaziergang durch die mit der Tree Walker. Der Baum walker zurückkehren wird ein Strom von Informationen, die er entdeckt in der HTML- 5-Website . Um durch den Baum gehen , schreiben die folgenden :
stream = TreeWalker ( Baum )
8
Serialisieren den Strom , so dass Sie leicht ausgeben kann es auf der Konsole . Sie können den Stream serialisieren mit den beiden folgenden Anweisungen :
serial = serializer.htmlserializer.HTMLSerializer ( omit_optional_tags = False)
output = serial.serialize (stream)
9
durch den Ausgang des serialisierten Stream Iteration wie folgt aus:
für das Element in der Ausgabe :
10
Einzug der Zeile unmittelbar nach der vorherigen Anweisung und schreiben Sie eine Druckfunktion , wie dies :
print ( Element )
11
Führen Sie das Programm durch Drücken von F5 . Das Skript wird geöffnet und dann analysieren eine HTML 5 Web-Seite. Das Skript dann serialisiert die Baumstruktur auf der Seite und gibt sie an die Konsole. Der Ausgang ist abhängig von der Web-Seite gewählt , kann aber in etwa so aussehen :
< /head>
Willkommen zu einer Web-Seite!
< /body>
< /html>