Die Programmiersprache Python unterstützt HTML 5 Websites mit der Bibliothek ' html5lib . ' Diese Bibliothek erlaubt es Ihnen, Python-Skripte schreiben, die Auswertung von HTML- 5 -Seiten mit einer Baumstruktur . Baumstrukturen sind hierarchisch Aussicht Webseiten-Elemente . Zugriff auf Webseiten-Elemente erfolgt über einen Baum walker . Der Baum walker ' geht ' entlang den Verbindungen der Knoten im Baum , und kann den gesamten Baum zu durchlaufen . Sie können mit Python ' html5lib ' verwenden, um zu öffnen , anzuzeigen und auszudrucken HTML 5 Website. Things You 
 Python 3.2 Programmiersprache mit html5lib Modul 
 brauchen anzeigen Weitere Anweisungen 
 1 
 Öffnen Sie das IDLE Texteditor in Program Files ( oder Programme für Macintosh) in die Python -Verzeichnis. Eine leere Quellcodedatei öffnet 
 2 
 Import der " html5lib "-Modul , indem Sie die folgenden Anweisungen am Anfang der Quellcodedatei : . 
 
 Import html5lib 
 < p > ab html5lib Import treebuilders , treewalkers , serializer 
 
 Import urllib2 
 3 
 erstellen Sie eine neue HTML 5 -Parser , die Sie verwenden, um eine HTML-Webseite lesen. Die Deklaration einer neuen Parser , indem Sie den folgenden : 
 
 Parser = html5lib.HTMLParser () 
 4 
 Öffnen einer Website , indem ihre Namen in das urllib2.urlopen Funktion . Zum Beispiel, wenn Sie öffnen möchten " www.website_adddress.com ", schreiben die folgenden : . 
 
 URL = urllib2.urlopen ( " http://www.website_address.com " ) lesen () < br > 
 5 
 Übergeben Sie die Website in die HTML 5 -Parser , um einen Baum Darstellung zu erhalten. Speichern Sie diese Darstellung in eine Variable mit dem Namen " Baum " , indem Sie die folgende Anweisung : 
 
 Baum = parser.parse ( URL) 
 6 
 erstellen Baum walker wie folgt aus: 
 
 TreeWalker = treewalkers.getTreeWalker ( " dom" ) 
 7 
 Spaziergang durch die mit der Tree Walker. Der Baum walker zurückkehren wird ein Strom von Informationen, die er entdeckt in der HTML- 5-Website . Um durch den Baum gehen , schreiben die folgenden : 
 
 stream = TreeWalker ( Baum ) 
 8 
 Serialisieren den Strom , so dass Sie leicht ausgeben kann es auf der Konsole . Sie können den Stream serialisieren mit den beiden folgenden Anweisungen : 
 
 serial = serializer.htmlserializer.HTMLSerializer ( omit_optional_tags = False) 
 
 output = serial.serialize (stream) 
 9 
 durch den Ausgang des serialisierten Stream Iteration wie folgt aus: 
 
 für das Element in der Ausgabe : 
 10 
 Einzug der Zeile unmittelbar nach der vorherigen Anweisung und schreiben Sie eine Druckfunktion , wie dies : 
 
 print ( Element ) 
 11 
 Führen Sie das Programm durch Drücken von F5 . Das Skript wird geöffnet und dann analysieren eine HTML 5 Web-Seite. Das Skript dann serialisiert die Baumstruktur auf der Seite und gibt sie an die Konsole. Der Ausgang ist abhängig von der Web-Seite gewählt , kann aber in etwa so aussehen : 
 
  
 
 
   < /head> 
 
 
   Willkommen zu einer Web-Seite! 
 
 < /body> 
 
 < /html>