Beim Clustering handelt es sich um die Organisation von Datenpunkten in Clustern, wobei Datenpunkte in einem Cluster einander ähnlicher sind als Datenpunkten in anderen Clustern. Die allgemeine Idee hinter dem Clustering besteht darin, dass ähnliche Datenelemente gruppiert werden sollten. Beim Daten-Clustering handelt es sich um unüberwachtes Lernen, was bedeutet, dass keine gekennzeichneten Daten erforderlich sind.
Clustering kann hilfreich sein, um die Struktur eines Datensatzes zu verstehen, Ähnlichkeiten zwischen Datenelementen zu finden, Ausreißer zu identifizieren und die Dimensionalität von Daten zu reduzieren. Es wird häufig in verschiedenen Bereichen wie maschinellem Lernen, Data Mining, Bioinformatik und Bildverarbeitung eingesetzt.
Schritte:
1. Datenaufbereitung
2. Auswahl eines Distanzmaßes
3. Auswahl der Anzahl der Cluster
4. Clustering
5. Bewertung des Clusterings