Clustering ist ein maschinelles Lernen Technik arbeitet durch Gruppieren ähnlicher Daten zusammen . Clustering ist eine Art von unüberwachten maschinellen Lernens . Der Algorithmus muss nicht "trainiert" werden und kann Daten in zusammenhängende Gruppen Gruppe aus einer " vorgefassten " Vorstellung davon, was zusammen gehört . Dies unterscheidet sich von überwachten Maschine Lernsysteme "trainiert" werden zur Kennzeichnung von Daten müssen korrekt . Clustering wird hauptsächlich als Computer- Mustererkennung Mechanismus verwendet . Generative oder Wahrscheinlichkeit Algorithmen
Generative oder Wahrscheinlichkeit basierte Clustering-Algorithmen versuchen, Datensätze als eine Art bekannt Verteilung , eine gemeinsame Gruppe von numerischen Daten zu klassifizieren. Diese Art von Algorithmus nur auf numerischen Daten eingesetzt werden. Generative Algorithmen kommen mit einigen Vorbehalten . Das Problem kann nicht lösbar , wenn die Daten erlaubt, frei zu verändern. Generative Algorithmen auch davon ausgehen, dass die Daten einer bekannten Verteilung , das ist nicht immer wahr verkörpert . Diese Arten von Algorithmen auch nicht berücksichtigen "Rauschen" in den Daten.
K -Means Clustering
K- Means-Clustering war einer der ersten Cluster- Methoden entwickelt werden . Es ist einfach zu implementieren , aber es hat den Nachteil, daß sie sehr empfindlich auf seine Ausgangsposition Eingänge . K- Means-Clustering funktioniert , indem die Daten in eine zufällige Reihe von Clustern und dann erneutes Berechnen der Mittelpunkte der einzelnen Cluster der Vorgang wiederholt , bis nur ein Cluster . Dies wird als Konvergenz bezeichnet.
Fuzzy Clustering
Statt identifizierenden Daten wie die spezifischen Gruppen angehören , Fuzzy-Clustering Versuche, das Maß, in dem Daten zu identifizieren Punkt gehört zu einer Gruppe . Die Algorithmen, die verwendet werden, um Fuzzy-Clustering tun werden, sind bekannt als " C- Mittel Algorithmen. " In dem Fuzzy- Clustering- Ansatz kann ein Datenpunkt zu mehr als einer Gruppe gehören . Diese Art der Clusterbildung ist nützlich, wenn Datenpunkte müssen möglicherweise mehr als einer Gruppe angehören.
Agglomerative Clustering
Agglomerative Clustering war einer der ersten zu sein, Clustering-Algorithmen entwickelt . Es bleibt im Einsatz , wie es auch eine der einfachsten Algorithmen entwickelt to date. Agglomerative Clustering funktioniert, indem man jeden einzelnen Datenpunkt als Cluster gruppiert und mit dem am ähnlichsten Datenpunkt. Dieser Prozess wird wiederholt, bis die Daten " konvergiert ", oder es gibt eine große Gruppe enthält alle Daten . Das Verfahren kann auch in umgekehrter Richtung , um den gleichen Effekt getan werden . Beginnend mit einem Cluster können alle Daten mehrfach unterteilt werden, bis jeder Datenpunkt ist eine eigene Cluster.