Datenbereinigung - anders als Daten Reinigung oder Wäsche bekannt - ist der Prozess der Erkennung und Korrektur von Fehlern , Unstimmigkeiten und Auslassungen in den Daten. Unmengen von Daten werden gesammelt und von Politikern , Ökonomen und Wissenschaftler analysierten , aber Fehler in Daten - was kann seine Verarbeitung und die daraus gezogenen Schlussfolgerungen auswirken - sind häufig und zu erwarten. Es gibt mehrere Methoden der Datenbereinigung , sowohl traditionelle als auch automatisiert. Statistische Methoden
Statistische Methoden können verwendet werden , um Daten zu prüfen und zu korrigieren , auch komplexe Datenfehler werden. Ein Statistiker analysieren den Mittelwert , Standardabweichung und Bereich der Datenwerte und dabei , Identifizierung einzelner Datensätze ( Tupel ) , die ungültig sind . Diese Aufzeichnungen können gelöscht oder ersetzt werden durch eine mittlere oder anderen statistischen Wert . Statistische Methoden der Datenbereinigung können auch angeben, fehlende Werte , die in mit plausiblen Werten auf den Rest des Datensatzes gefüllt werden kann.
Data Cleansing Werkzeuge
Daten Reinigung Werkzeuge wurden für eine Reihe von Jahren existierte. Die die möglichen Werte als in jedes Feld eingegeben werden können definiert oder Attribut - - wie Namens-und Adressdaten Automated Data Cleansing -Tools in der Regel auf eine bestimmte Datenbank Domain konzentrieren. Sie verwenden in der Regel eine Reihe von passenden Regeln aus einer Bibliothek oder geliefert interaktiv durch den Benutzer , um Straßennamen, Ortsnamen und Postleitzahlen validieren und verwandeln die vorhandenen Daten in einzelne , Standard- Elemente . Sie nutzen Datensatz, um festzustellen, ob zwei Datensätze Daten über das gleiche Thema zu vertreten und sind in der Lage, Personen Datensätze, die , sagen wir, die gleiche Adresse zu kombinieren. Datenbereinigung Werkzeuge können in der Ebene der Komplexität in Bezug auf Daten Revision, Reinigung und Migration variieren.
ETL Werkzeuge
ETL steht für " Extract, Transform , Load " und es gibt viele kommerzielle Software-Tools entwickelt, um die ETL-Prozess der Datenbereinigung unterstützen. Die wichtigsten Merkmale eines wirksamen ETL-Tool ist seine Fähigkeit, Quelle Daten direkt lesen und zu reinigen und Transformation von Daten , zusammen mit seiner Unterstützung für Metadaten . Metadaten sind Unterlagen oder Informationen zu einem bestimmten Teil der Daten und kann einen Benutzer dazu beitragen, Fehler und Inkonsistenzen in Daten, die nicht notwendigerweise durch den ETL-Tool selbst identifiziert werden zu erkennen. ETL-Tools bieten in der Regel eine Bibliothek von Funktionen und Schemas für die Transformation von Daten - Datentypkonvertierungen , arithmetischen Funktionen , String-Funktionen , usw. - und können Daten von Freiform- Datenquellen zu extrahieren, mit einigen Einschränkungen, sowie über die Standard- ODBC ("Open Database Connectivity " ) und EDA ( " Electronic Design Automation" ) Schnittstellen.