XML Parsing stellt eine Herausforderung für die Möchtegern- Textanalysator wegen XML die Erweiterbarkeit. XML-Formatierung Konventionen sind hierarchisch in der Natur , was bedeutet, einige Tags dominieren andere Tags . Regular Expressions ( reguläre Ausdrücke ) identifizieren XML-Text -Muster - A REGEX für passende XML-Tags wird alles in XML-Tags entsprechen <> , aber wird nicht angezeigt, die hierarchische Organisation dieser Tags. Es ist möglich, diesen Tag-Struktur aus dem Text mit der Programmiersprache Python und die Natural Language Toolkit -Paket, das reguläre Ausdrücke und Textbearbeitung bettet und kann die XML-Tags und deren Organisation anzuzeigen trennen. Anleitung
1
Öffnen Sie ein Terminal -Fenster und geben Sie den Befehl " python- v" an der Eingabeaufforderung ein , um das Vorhandensein und Version von Python auf Ihrem Computer zu überprüfen. Zum NLTK Homepage und laden Sie die NLTK Installationspaket für Ihr Betriebssystem. Prüfen Sie, ob NLTK richtig durch Eingabe des Befehls " >>> import nltk " am Python-Prompt installiert .
2
Typ ">>> nltk.download ()" zu öffnet sich ein Fenster . Wählen Sie die Zeile mit der Bezeichnung "all" und klicken Sie auf den Download-Button . Dieser Download wird eine Reihe von Texten für NLTK zu arbeiten, darunter Shakespeares " Der Kaufmann von Venedig " mit speziellen XML-Tags für Theaterstücke formatiert.
3
Import der Kaufmann von Venedig in verschlagwortet XML mit dem folgenden Befehl an der Eingabeaufforderung Python :
>>> merchant_file = nltk.data.find ( " Corpora /shakespeare /merchant.xml ')
Weisen Sie der Datei ein Variable so , dass man es mit Python Befehle manipulieren : .
>>> raw = open ( merchant_file ) read ()
Nur um sicherzugehen, dass es da ist , geben Sie die folgenden Befehl, um die ersten 168 Zeichen zu lesen: .
>>> print raw [ 0:168 ]
Sie die XML- Header-Tags und die speziellen XML -Tags spielen sehen
4
Geben Sie den folgenden Befehl an der Eingabeaufforderung Python :
>>> from nltk.etree.ElementTree Import ElementTree
und drücken Sie "Return ", dann geben Sie Folgendes an der Python-Prompt : .
>>> Händler = ElementTree () parse ( merchant_file )
parse Befehl ermöglicht es dem Benutzer, um die XML-Tags und deren Inhalt anzuzeigen . Um eine hierarchische Ansicht der XML-Tags korrekt verschachtelt bauen , geben Sie den folgenden Befehl an der Eingabeaufforderung Python :
>>> merchant.getchildren ()
Dies zeigen alle speziellen XML Tags spielen in ihrer hierarchischen Ordnung . Die Ausgabe dieses Befehls sollte wie folgt aussehen :
[ TITEL bei 2261b48> , PERSONAE bei 2261b20> , SCNDESCR bei 22cc260> , PLAYSUBT bei 22cc198> , < ; Element ACT bei 22cc0f8 > , ACT bei f2bff08> , ACT bei f3218a0> , ACT bei f0e8a30> , ACT bei ee07328> ]