Fehler können während der Datenerfassung und Integration gemacht werden, und Analysten müssen wissen, wie zu erkennen und zu beheben diese Fehler . Dies wird auch als Data Reinigung, Wäsche oder Daten . Dies ist keine exakte Wissenschaft , und manchmal auch die Entscheidung, was zu tun ist, auf der Analytiker Urteils , aber sie weiß, dass es ist nicht nur wichtig, um eine ausreichende Menge an Daten haben - es muss von einem seriösen Qualität sein, auch . Semantik und Formatierung
Eine gemeinsame Daten Reinigung Aufgabe umfasst Entfernen von Fehlern in der Formatierung . Dies könnte so etwas Einfaches wie Rechtschreibfehler bei der Datenerhebung oder den Eintrag , um über Probleme mit dem Symbol verwendet, um separate Einträge gemacht werden . Zum Beispiel vorstellen, das folgende Stück von Daten innerhalb eines Datensatzes , wo ein Apostroph getrennte Einträge verwendet wird :
Vogelbeobachter Club'42 Beacon Street'Boston
Dies würde gelesen werden:
Vogel WatchersClub42 Beacon StreetBoston
Automatisierte Abfragen und Programme werden oft verwendet, um Daten für diesen Fehler zu reinigen.
Integration
Einige Datensätze sind in Ordnung , aber allein problematisch werden , wenn sie in ein größeres Repository oder ein Data Warehouse integriert sind.
Dd /mm /yymm /dd /yyyy
Oder nach Bereich : Zum Beispiel kann Alter als Geburtsdatum gespeichert werden
20-30 , 30-40 , 40-5015-25 , 25-35 , 35-45
In einigen Fällen , wie Geburtsdatum Formatierung , ist es ziemlich einfach zu semantischen Strukturen zu identifizieren und zu standardisieren, die Eingaben. In Fällen wie den Altersstufen muss jedoch Annahmen gemacht werden . Zum Beispiel , ist die Zahl der Menschen im Alter von 25-35 der Durchschnitt der Menschen im Alter von 20-30 und 30-40
Ausreißer
Ausreißer sind ? Datenpunkte, die einen langen Weg aus dem Rest der Daten liegen . Zum Beispiel kann ein Alter von 600 oder ein Test-Ergebnis um ein Vielfaches höher als der Durchschnitt. Im ersteren Fall , kann man getrost davon ausgehen, es war ein Tippfehler , aber in der zweiten ist es nicht so offensichtlich. Wenn Sie nicht wissen, ob ein Ausreißer ist ein Fehler oder eine legitime Datenpunkt ist es Ihre Entscheidung , ob es zu entfernen oder nicht, unter Berücksichtigung der Zweck der Daten.
Missing Data
Sie müssen auch entscheiden, was zu tun ist , wenn Daten fehlen . Zunächst sollten Muster identifiziert mithilfe von Abfragen und statistische Analysen werden - die Verteilung der fehlenden Daten bestimmt, was Sie tun sollten. Zum Beispiel, wenn eine Online-Befragung hat zwei Seiten , aber nur die Fragen auf der ersten Seite beantwortet wurden , können diese Informationen verwendet, um die Formen zu verfeinern werden. Wenn fehlende Daten zufällig verteilt und ist auf der gleichen Variablen , ist es manchmal möglich, basierend auf Schätzungen , was bereits bekannt zu machen.