Daten beschädigt werden kann in einer beliebigen Anzahl von Möglichkeiten, von Benutzereingaben Fehler Inkonsistenz bei Formatierungen . Duplikate sind eines der häufigsten Probleme in Daten der meisten Unternehmen Datenbanken. Der beste Weg, um die Genauigkeit der Daten sicherzustellen, ist die Korruption zu verhindern , aber es ist ratsam, einen Plan, um mit Problemen umzugehen Daten Probleme auftreten sollten . Vervielfältigung
Duplikate kann eine frustrierende Sache, als Daten- Prüfer sehen sein . Oft kann eine Front-End- Daten -Bildschirm nicht fangen bestimmte Arten von Duplikaten , zum Beispiel, in einer Adresse Tisch , 123 Main Street und B. Hauptstraße 123 erscheinen kann , um zwei getrennte Adressen sein, wenn sie in der Tat die gleiche Adresse sind < . br>
Dies kann gelöst werden mit einer von zwei Methoden erfolgen : Entfernen von Daten oder Daten Korrektur. Entfernen von Daten würde bedeuten, das Löschen aller nur ein Beispiel aus einer Reihe von Duplikaten , während Daten Korrektur würde alle Instanzen von Doppelarbeit zu einem einzigen vereinbarten Wert zu aktualisieren . Software -Pakete zur Verfügung, die einen Algorithmus verwenden , um Ausreißer nach Standardabweichung, Clustern oder anderen Kriterien zu ermitteln, dann die Ausreißer von einem Fachexperten , die das Schicksal des unerwarteten Eintrag bestimmt ausgewertet.
Extract , Transform, Load
Extract , Transform, Load oder ETF ist eine häufig verwendete Methode zu bewegen und reinigen Daten . Während keine manuelle Reinigung auftritt, gibt es automatisierte Aufgaben in der Phase übersetzen . Zum Beispiel, wenn die Quelltabelle stores " M " und " F" und die Ziel-Tabelle speichert " männlich " und "weiblich ", ein Skript ausgeführt wird , um die Daten auf die neuen Werte zu übersetzen .
Sobald die Daten gereinigt und validiert , kann es zum Ziel importiert. Es kann auch über die alten Daten importiert werden, um Daten zu schreiben über . Dies funktioniert gut, wenn eine ganze Spalte von Daten in einer Tabelle geändert werden muss .
Aktualisiert Legacy-Systemen
Aktualisieren eines Altsystems beinhaltet typischerweise Verschieben der Daten ein Zwischenprodukt Standort oder Staging-Bereich , wo es dann erfährt eine automatisierte als auch manuelle Datenbereinigung Runde . Dies geschieht, um zu vermeiden, keine irreversible Fehler der Legacy-Daten vor dem Import in das neue System. Es sollte angemerkt werden , dass die Altdaten nicht sollte aktualisiert nach Informationen - management.com werden , um zu vermeiden, Beibehaltung von zwei getrennten Datensätzen werden. Es sollte stattdessen eingezogen werden und das neue System sollte die einzige im Einsatz sein für die Zukunft.