Data-Warehouse- und Data Mining-Tools machen es einfach, zu extrahieren und zu analysieren massiven Mengen von Informationen , aber die Qualität der Analyse ist nur so gut wie die Qualität der Daten. Der erste Schritt in jeder Studie oder Data Warehousing- Projekt muss eine Beurteilung der Qualität der Daten gehen in das Projekt sein . Maßnahmen für Vollständigkeit, Aktualität und Konsistenz aller Faktor in dieser Einschätzung . Um die Datenqualität Metriken zu entwickeln, müssen Sie bestimmte Schritte . Anleitung
1
Entwicklung eines Rahmens für die Messung der Datenqualität . Schaffen Sie Platz in jeder Datenbank , wo die Ergebnisse von Qualitätsprüfungen gespeichert werden können. Entwickeln Sie Berichte oder Dashboards aus diesen Daten .
2
Measure Vollständigkeit der Daten . Wählen Sie Elemente in jeder Datenbank und zählen den Anteil der Nullen , leere Felder oder Werte, die nicht verfügbar oder unbekannte Daten .
3
Measure Prozentsätze der zulässigen Werte . Wenn ein Feld eine Reihe vordefinierter Code-Werte hat , messen Sie die Verteilung dieser Werte gegen die Anzahl der falschen und fehlenden Werten. Analysieren Sie diese Verteilungen zu bestimmen, ob bestimmte Codes zu häufig erscheinen . Wenn ja, kann dieser Wert muss unterteilt werden, um bessere Beschreibung zu liefern. Zum Beispiel, wenn die Antworten schwarz, weiß und Farbe sind und 98 % der Antworten sind Farbe, könnte es sinnvoll sein, mit Farben rot, blau oder grün.
4
Check für vernünftige Werte zu ersetzen. Numerische Messungen treten meist innerhalb eines zulässigen Bereichs . Zum Beispiel wird eine tägliche Wetter Temperatur Fahrenheit Messung in der Regel als ein Wert von etwa -40 bis 120 erscheinen . Jeder Wert außerhalb dieses Bereichs ist wahrscheinlich nicht gültig.
5
vergleichen die Werte innerhalb des gleichen Datensatzes für Konsistenz. Wenn die Temperatur betrug 90 Grad Fahrenheit und die Fällung Wert Schnee, einer der beiden Werte ist wahrscheinlich falsch.
6
Konsistenz prüfen zwischen verknüpften Datensätze . Benutzen Sie ähnliche Konsistenzprüfungen zwischen Datensätzen in Eltern-Kind- Beziehungen und in mehrere untergeordnete Einträge . Eltern und Kind-Beziehungen sind Verbindungen zwischen Datenbank -Elemente. Zum Beispiel , in einer Reihe von zeitbezogenen Einzelteile, wenn eine Reihe von stündlichen Temperaturmessungen Liste Temperaturen stetig von 50 bis 70 Grad im Laufe des Vormittags aber der 10.00 Lesen -20 ist , ist dieser Wert wohl im Irrtum.
Seite 7
erstellen von Berichten , Dashboards oder Meldungen auf die Daten erhoben wurden. Fassen Sie durch organisatorische Gruppe , Lieferanten oder Kunden -Typ mit Fähigkeiten, um Drilldown auf bestimmte Datenelemente . Analysieren Sie die Daten , um festzustellen, wo die Fehler auftreten und was kann getan werden , um die Datenqualität zu verbessern.
8
Verbesserung der Datenqualität . Überarbeiten Geschäftsregeln , Reparatur-Software , um fehlerhafte Daten abzulehnen , informieren Kunden von Daten Probleme und Wege finden, um die Qualität Initiativen zu belohnen. Überwachen Sie diese Messungen über die Zeit.