Entscheidungsbäume sind Gegenstand intensiver wissenschaftlicher Studie in den Bereichen Operations Research und Informatik. Zwar nicht unbedingt der beste Weg, um Struktur erforderlichen Informationen, um eine Schlussfolgerung zu erreichen , arbeiten Entscheidungsbäume gut mit Standard-Computer- Algorithmen zur Entscheidungsunterstützung. Darüber hinaus bieten sie ein Verfahren zur Expression von Geschäftsregeln in einer Weise , dass die Menschen ohne vorherige Erfahrung mit Bäumen, die auf Entscheidung folgen. Ein Entscheidungsbaum ist ähnlich einem Flussdiagramm , so dass die Navigation durch einen Pfad von Möglichkeiten , bis eine endgültige Schlußfolgerung erreicht . Things You
Daten für "Lernen" der Baumstruktur
Daten zum Testen resultierende Baum
gesetzt brauchen anzeigen Weitere Anweisungen
1
Beziehen Sie die Datensätze, die wird für die Analyse und Überprüfung der fertigen Struktur verwendet werden. Mehr Daten in der Analyse verwendeten ergibt eine genauere Baumdarstellung des Entscheidungsprozesses . Es gibt viele verschiedene Möglichkeiten zum Erstellen und strukturieren einen Entscheidungsbaum . Die ID3 -Algorithmus ist eine frühe Ansatz, auf dem mehr anspruchsvolle Variationen beruhen.
2
Liste aller Attribute , die durch den Datensatz verwendet werden. Zum Beispiel , in einer Reihe von Bank- Darlehen Anwendung Daten wird der Datensatz für jeden Antragsteller gehören Attribute wie Name , Adresse, Telefonnummer , Einkommen , zu Hause Wert , Hypotheken- , Bank-und Kreditkarten-Salden .
Wenn manuell erstellen ein Entscheidungsbaum , natürlich ausschließen Attribute wie Name, dass man nicht erwarten würde , die Entscheidung , einen Kredit zu gewähren, zu beeinflussen. Bei der Verwendung von Computer-Daten -Mining-Techniken , werden alle Attribute berücksichtigt , so dass die Computer-Programm zu bestimmen, welche keine Bedeutung für das Endergebnis haben .
3
Geben welches Attribut ist das Attribut target . Im Beispiel eines Darlehens Anwendung ist das target-Attribut , ob derjenige, der das Darlehen gewährt oder verweigert wurde zeigt .
4
Wählen Sie das Attribut , um den größten Informationsgewinn für die Verwendung als Root-Knoten bereitzustellen. Der Baum besteht aus Entscheidung und Endknoten . Im Entscheidungsblock Knoten erfolgt eine Verzweigung für jeden möglichen Wert des Ziel- Attribut erzeugt. Jeder Zweig stellt die Datensätze, die den gleichen Wert für das target-Attribut zu teilen.
Blattknoten ist erreicht, wenn alle Datensätze , die am aktuellen Knoten als das gleiche Ergebnis für das target-Attribut haben . In der Kredit- Beispiel, wenn jeder, der für ein Darlehen gilt genehmigt wird, ist die gesamte Entscheidungsbaum die triviale Fall einer einzigen Blattknoten ohne Filialen. Es ist eher wahrscheinlich , dass die Daten in zwei Zweige aufgeteilt werden : . Genehmigt und abgelehnt
Berechnungsmethoden Sie das Attribut auf jeden Baumknoten verwenden sind äußerst komplex. Achten Sie auf das Attribut, das am stärksten prognostiziert das Ziel Ergebnis. Intuitiv , "Einkommen" wäre ein besserer Kandidat für den Root-Knoten als sein "Vornamen . "
5
Entfernen Sie den Root- Attribut aus der Liste der möglichen Attribute für den Zweig Knoten verwenden . Wählen Sie die verbleibenden Attribut mit dem größten Informationsgewinn zu den Verzweigungsknoten zuordnen.
In dem aktuellen Beispiel erstellen die Verzweigungsknoten an jedem Punkt im Baum Zweige genehmigt und abgelehnt Darlehen. Es kann eine beliebige Anzahl von Verzweigungen , die aus einem Entscheidungsbaum Knoten , je nachdem, wie viele mögliche Werte können zur target-Attribut zugeordnet werden kann.
6
Wiederholen Sie den Vorgang an jedem Zweig , bis Sie ein Blatt erreicht haben Knoten, auf dem alle Daten teilt den gleichen Wert für das Attribut target . Die maximale Tiefe des Baumes an jedem Punkt wird die Gesamtzahl der Attribute zu Beginn identifiziert werden.
Es ist wahrscheinlich, dass nicht jedes Attribut für die Entscheidung in jedem Zweig ist und so einige Zweige werden kürzer . Wenn Sie den Baum fertig , durch sie hindurchgehen , um die Regeln , dass es abgeleitet finden. Zum Beispiel könnten Sie feststellen, dass " ein Darlehen genehmigt wird, wenn Sie ein hohes Einkommen , hohe Ersparnisse und keine Schulden haben werden. "
7
Verwenden Sie die Testdaten auf den Baum erstellt validieren. Der Baum sollte genau vorhersagen, die Ergebnisse in den neuen Daten .