Data Mining ist der Prozess der Analyse und Zusammenfassung von Daten aus unterschiedlichen Perspektiven. Sie bemüht sich, Daten Muster und Beziehungen in großen Pools von Informationen unter Verwendung von Algorithmen --- Regelwerke , die ein Problem über eine Reihe von konkreten Schritten ( denke, die Euklidischen Algorithmus in der Algebra , die zwei Zahlen " größten gemeinsamen Teiler findet ) lösen zu definieren. Der IEEE 2006 International Conference on Data Mining Platz der Top 10 Algorithmen in das Feld ein. Decision Trees
Entscheidungsbaum -Algorithmen sollen Daten auf konkurrierende Angebote in Zweigen der Einfluss organisieren nach einer ersten Entscheidung. Der Stamm des Baumes stellt die ursprüngliche Entscheidung , und es beginnt mit einer Ja-oder -Nein-Frage , wie , ob oder nicht zu frühstücken. Essen Frühstück und nicht frühstücken würde die ersten zwei divergierende Zweige des Baumes , und jede Wahl danach würde seine eigene divergierende Zweige hinauf bis zu einem Endpunkt haben .
Der K -Means Algorithmus
Der k-means Algorithmus basiert auf Cluster- Analyse. Es zielt darauf ab , die gesammelten Daten in separate "Cluster" mit den gleichen Merkmalen gruppiert brechen.
Support Vector Machines
Support Vector Machine Algorithmen nehmen Eingabedaten und vorhersagen welche der beiden möglichen Kategorien, die die Eingabedaten . Ein Beispiel wäre das Sammeln die Postleitzahlen von einem Pool von Wählern und versuchen, vorherzusagen, ob ein Wähler geben ein Demokrat oder Republikaner ist .
Der Apriori Algorithmus
Das Apriori Algorithmus typischerweise verfolgt Transaktionsdaten. Zum Beispiel , in einem Bekleidungsgeschäft , könnte der Algorithmus nachzuvollziehen, welche Kunden in der Regel zusammen shirts kaufen.
Der EM -Algorithmus
Dieser Algorithmus definiert durch Analysieren von Daten und prognostiziert die Wahrscheinlichkeit eines künftigen Ausgang oder zufälliges Ereignis innerhalb der Parameter der Daten. Zum Beispiel könnte die EM-Algorithmus versucht, die Zeit für die nächste Eruption eines Geysirs auf den Zeitdaten des letzten Ausbrüche vorherzusagen .
PageRank-Algorithmus
Der PageRank Algorithmus ist ein Algorithmus Fundament für Suchmaschinen. Es zählt und schätzt die Relevanz aus einem einzigen Stück von Daten innerhalb einer größeren Gruppe von Daten , wie z. B. einer einzigen Website innerhalb der größeren Menge aller Websites im Internet .
AdaBoost Algorithm
< br >
Adaboost Algorithmus arbeitet in anderen Lern- Algorithmen , die das Verhalten auf den beobachteten Daten , damit sie empfindlicher auf statistische Ausreißer zu antizipieren. Obwohl die EM-Algorithmus durch einen Geysir mit zwei Eruptionen in weniger als einer Minute , wenn es in der Regel einmal am Tag bricht verzerrt werden könnte, wäre die Adaboost Algorithmus des EM Algorithmus Ausgabe durch Analyse der Relevanz der Ausreißer zu zwicken.
K- Nearest Neighbor Algorithmus
Dieser Algorithmus erkennt Muster in Daten Standort und Mitarbeiter , dass die Daten mit einer größeren Kennung . Zum Beispiel, wenn Sie ein Postamt zu jedem Haus der geografischen Lage zuweisen wollte, und hatte den Datenpool von jedem Haus der geografischen Lage , würde der k- Nearest Neighbor Algorithmus die Häuser zum nächstgelegenen Postamt auf ihre Nähe zueinander zuzuweisen .
Naive Baye
Das Naive Bayes-Algorithmus prognostiziert eine Identität Ergebnis auf Daten aus bekannten Beobachtungen. Zum Beispiel, wenn eine Person ist g Fuß sechs Zoll groß und trägt Größe 14 Schuhe , würde das Naive Bayes-Algorithmus mit einer gewissen Wahrscheinlichkeit vorhersagen , dass die Person ein Mann ist.
CART -Algorithmus
"CART " steht für " Klassifizierung und Regressive Tree" -Analyse. Wie Entscheidungsbaum -Analyse, organisiert sie Daten auf konkurrierende Entscheidungen , z. B. ob eine Person hat ein Erdbeben überlebt basiert? Anders als Entscheidungsbaum -Algorithmen, die nur ein Ergebnis klassifizieren oder geben kann eine Regression -basierte numerische Ergebnis kann die CART -Algorithmus verwenden , um sowohl die Wahrscheinlichkeit eines Ereignisses vorherzusagen.