Erkennen Substantive in Python fordert, dass die Fähigkeiten der Programmierer und Linguist . Die englische Sprache selbst legt Fallen für den unerschrockenen Computerlinguist mit seiner reichen morphologischen Ambiguität . Zum Beispiel könnte das Wort " Kreuze " ein Plural oder ein Third-Person Präsens Verb sein . Glücklicherweise haben die Macher des Natural Language Toolkit Python -Modul eine part-of -speech -Tagger , die für diese Schwierigkeiten entfallen entwickelt und kann die Worte des englischen Sätzen mit ihren jeweiligen Wortarten , einschließlich Substantive taggen. Things You
Python 2.4 , 2.5 oder 2.6 Natural Language Toolkit
Python Module
brauchen anzeigen Weitere Anweisungen
1
Downloaden und installieren Sie das Python-Modul Natural Language Toolkit von der Projekt-Website ntlk.org . Möglicherweise müssen Sie zusätzliche Module zu installieren, um NLTK unterstützen.
2
Öffnen Sie ein Terminal-Fenster und beginnen eine Python-Session , indem Sie Python in der Befehlszeile eingeben. Wenn Python installiert ist und läuft , rufen Sie den NLTK Modul mit dem Befehl import NLTK . Die Ansagen und Befehle sehen wie folgt auf Mac OS X:
My- MacBook -Pro: ~ $ python PNA1
Python 2.6.1 ( R261 : 67515 , 24. Juni 2010 , 21.47 Uhr : 49)
[ GCC 4.2.1 (Apple Inc. build 5646 ) ] on darwin
Type " help" , "copyright ", " credits" oder " Lizenz" für weitere Informationen.
>>> import nltk
>>>
3
Rufen Sie den Teil Sprachmarkierungseinrichtung und geben Sie den Satz in was Sie wollen zu Substantiven , indem Sie die folgenden Befehle und Daten am Python-Prompt erkennen :
>>> text = nltk.word_tokenize ( " der Mann überquert die Straße zu Kreuze zu verkaufen." )
>>> nltk.pos_tag (text)
4
Drücken Sie die Return-Taste nach >>> nltk.pos_tag (text)
[ ,"( ' die ', ' DT '), ( ' Mann ', ' NN '), ( ' Kreuze ', ' VBZ '), ( ' die ', ' DT '), ( 'Straße', ' NN' ) , ( 'to' , 'TO '), ( ' verkaufen ', ' VB '), ( ' Kreuze ', ' NNS '), ( '.' , '.') ]
>> >
NLTK richtig jedes Wort im Satz markiert . Insbesondere hat es die Substantive erkannt und markiert sie als singuläre Substantive mit NN (Mann , Straße) und Plural Substantive mit NNS (Kreuze) und hat richtig das erste Vorkommen von Kreuzen als Verb mit dem Tag VBZ .
Markiert