Der Prozess des Entfernens von Fehlern und Inkonsistenzen aus Daten wird als
Datenreinigung bezeichnet oder
Daten schrubben .
Hier ist eine Aufschlüsselung dessen, was es beinhaltet:
* Datenreinigung: Dies ist ein breiterer Begriff, der alle Aktivitäten zur Verbesserung der Datenqualität umfasst, einschließlich der Identifizierung und Korrektur von Fehlern, der Entfernung von Duplikaten, der Standardisierungsformaten und der Behandlung fehlender Werte.
* Datenschrubben: Dies ist eine bestimmte Art von Datenreinigung, die sich auf die Entfernung von ungültigen oder unerwünschten Datenpunkten konzentriert. Dies beinhaltet häufig die Identifizierung und Korrektur von Fehlern wie Tippfehler, falschen Daten oder inkonsistenten Formatierung.
Beide Begriffe werden austauschbar verwendet, aber "Datenreinigung" ist ein allgemeinerer Begriff, während das "Datenschrubben" die Entfernung unerwünschter Daten betont.
Hier sind einige gängige Techniken, die für die Datenreinigung und das Schrubben verwendet werden:
* Datenvalidierung: Überprüfen Sie die Daten mit vordefinierten Regeln und identifizierende Fehler.
* Daten Imputation: Ausfüllen fehlender Werte basierend auf vorhandenen Daten oder Verwendung statistischer Methoden.
* Datenumwandlung: Konvertieren von Daten in ein standardisiertes Format oder Anwendung mathematischer Operationen.
* Datenentdauplikation: Entfernen von doppelten Datensätzen.
* Datenstandardisierung: Gewährleistung der Konsistenz bei Datenformatierung, Einheiten und anderen Aspekten.
Das Ziel der Datenreinigung und -schrubben besteht darin, die Datenqualität zu verbessern und sie für Analyse, Entscheidungsfindung und andere Zwecke zuverlässiger und verwendbarer zu machen.