Bei der Analyse von Daten , ist es nicht nur notwendig, um eine ausreichend große Menge haben , aber es ist auch wichtig, dass die Qualität der Daten auf einem hohen Niveau ist . Daten vorgenommen werden "dirty " in einer Reihe von Möglichkeiten werden - Fehler bei der Erhebung, bei der Integration Fehler gemacht mehrere Datensätze und versehentlichem Löschen sind nur ein paar Möglichkeiten, wie . Aus diesem Grund ist es wichtig , dass die Daten vor der Verwendung gereinigt wird. Fehlende Daten
Automatisierte Verfahren werden oft verwendet, um fehlende Daten zu finden. Diese könnten SQL-Abfragen in einer Datenbank oder statistischen Analysen sein . Als Analyst Sie suchen nach Mustern in der Ausbreitung der fehlenden Daten. Sie dann entscheiden, was zu tun ist, was kann den Ausschluss bestimmter Variablen zusammen , oder ersetzen ihre Werte mit den Durchschnittswerten . Manchmal können fehlende Daten zeigen Fehler bei der Integration von mehreren Datensätzen und in einem Worst-Case- Szenario der gesamte Prozess kann wiederholt werden, um alle Daten zu erhalten.
Ausreißer
< p> ein Ausreißer ist ein Datenwert, weit außerhalb der allgemeinen Muster der Daten ist . Sie können mit Diagrammen, wie Box-Plots identifiziert werden , oder durch die Suche nach Werten eine bestimmte Anzahl von Standardabweichungen vom Mittelwert entfernt . Einmal identifiziert , müssen Sie entscheiden, ob sie zu entfernen oder nicht - das geht zu entscheiden, ob sie Fehler bei der Datenerfassung oder wahren Werte waren . Manchmal könnte man wählen, um bestimmte Verfahren mit und ohne Ausreißer ausführen, um die Ergebnisse zu vergleichen.
Formatierung Fehler
Mehr banale Fehler in einem Datensatz könnte sein Rechtschreibfehler oder andere ähnliche Fehler . Abfragen können verwendet werden, um Suchen und Ersetzen offensichtliche Fehler wie Rechtschreibfehler von Markennamen oder Standorte werden , aber sie können auch verwendet werden, um Datenpunkte, die Reinigung benötigen könnten hervorzuheben. Zum Beispiel könnten Sie eine Suche nach Namen oder Telefonnummern oberhalb und unterhalb einer bestimmten Länge , um Fehler , die irgendwo entlang der Datenerhebung und Integration aufgetreten lokalisieren.
Daten Codierung
< br >
Es ist üblich, Daten zunächst in ein Format, das nicht für die Analyse ist sein . Zum Beispiel kann Umfrageantworten müssen auf eine numerische umgerechnet werden , zum Beispiel von " Trifft voll zu " bis "7 " oder kategoriale Variablen wie Geschlecht Möglicherweise müssen in binäre Indikatorvariable umgewandelt werden. Dies wird als Codierung oder Umkodierung , und es ist eine gute Übung , um neue Variablen mit den neu kodierten Daten zu erstellen , anstatt die alten überschreiben , so dass Fehler kann erst geprüft .