der datenqualität auf der spur data profiling mit oracle warehouse builder – live beispiel alfred...
TRANSCRIPT
<Insert Picture Here>
Der Datenqualität auf der SpurData Profiling mit Oracle Warehouse Builder – live Beispiel Alfred Schlaucher
Analyseumgebung
• Oracle Datenquellen• Alle Gateway-
lesbare Quellen• SAP-Daten• Flat Files• Adress-/LDAP-
VerzeichnisseSourceSchema
Profiling Stage
Oracle
SourceSchema Transportable
Module
ExternalTable
SAP
SAPIntegrator
non OracleGateway / ODBC/ FTP Oracle 9i / 10g
RAC
DB2, SQL ServerInformix, Teradata
LDAP / DBMS_LDAP/ Table Function
Vorgehensweise „Daten-Analyse“
1. Identifizieren Geschäftsfeld / Teilprozess
2. Datengewinnung: • Extrakt / Transformation (ETL-Aufgabe)
• Kundenstammdaten -> Testkunde
3. Erstes Profiling -> 1. Sichtprüfung • Fragen / Thesen formulieren
4. Zweites Profiling -> verifizieren • Custom Rules
5. Korrigieren• nachgelagert
• im operativen Prozess
6. Monitoring
Herleiten der entsprechenden Prüfdaten mit ETL-Mitteln
MP_Testkunde
Intuitives Erkennen von Anomalien
Domain Anz_Kinder?• Domain 0,1,2,3, Null• Warum 0 und Null?• Gibt es keine Kunden mit
mehr als 3 Kindern?• Warum gibt es nur 0,3%
Kunden mit 0 Kindern(entspricht nicht der Erwartung)?
• warum gibt es eine gleichmäßige Verteilung der Werte 1,2,3 im Bereich von 32-33 %?
Null kommt offenbar nur bei Firmenkundenvor
Die Zahl 17 kann markant sein. Bei weiterer Prüfung stellt man fest,dass es genau 17 Firmenkunden gib
Es fehlt eine einheitliche Art der Beschreibungfür das Nicht-Vorhandensein (0,Null)
Intuitives Erkennen von Anomalien
Domain Anrede?• Herr / Frau sind
offensichtlich richtige Werte
• Die rot-markierten Werte sind offensichtlich falsch
• Die beiden Werte „3“ und „Anrede“ haben im Vergleich zu den anderen falschen Werten ein signifikant hohes Vorkommen Warum?
• Welche Regel kann für das Feld gefunden werden?
• Wenn Status = ‚F‘ dann Anrede = ‚Firma‘
• Wenn Status = ‚P‘ dann Anrede = ‚Herr‘ oder ‚Frau‘
Gezieltes Überprüfen von Geschäftsregeln (Custom Rule)
Domain Anrede?• Nur ~19% folgen der Regel.
Warum?• Die Domain-Analyse von des
Status-Feldes ergibt den Wertebereich
• F (Firmenkunde)• P (Privatkunde)• G (guter Kunde)• K (kein Kunde)
• Die Überprüfung der Regel hat zu einer weiteren Schwachstelle geführt.
• Das Attribut Status ist überladen, ( es wird für unterschiedliche Sinnzusammenhänge benutzt)
• es müsste eine weitere Spalte geben, z,. B. Qualität der Kundenbez.
Wenn Status = ‚F‘ dann Anrede = ‚Firma‘ und Wenn Status = ‚P‘ dann Anrede = ‚Herr‘ oder ‚Frau‘
Domains, Varianten, AusreißerData Profiling: Verwendung einheitlicher Codes
Berufsgruppe Berufsgruppen_Nr
Erkennen von abhängigen Domains – Functional Dependency
Domains, Varianten, AusreißerData Profiling: mit dem Ziel der Standardisierung
Eine Domain mit fehlerhaften InhaltenDr und Dr.
Prof und Prof.Hinweis für Standardisierungs-Maßnahme
Domains, Varianten, AusreißerData Profiling: mit dem Ziel der Standardisierung
Erkennen von Varianten
Straßenbezeichnungen müssen standardisiert werden,um sie z. B, für eineHaushaltsbildung oderAdressdatenabgleichvergleichen zu können.
Unterstützung von Software-Projekten
!
Übereinstimmung vonFeldname „...nr“ undFeldtyp
Durch den Feldnamenvermutet man rein numerische Inhalte
sieht gut aus
?
Kundennr ist ein wichtiges Feld. Es solltestimmig sein.
Firmenrabatt ist in der Regel ein Rechenfeld
Unterstützung von Software-Projekten
kritisch! da es sichum einen Schlüssel-kandidaten handelt
Felder sind nichtgepflegt
Die Zahl 17 kommt häufig vor, hier muss es eine „systematische“Ursache geben
kritisch! weil doppelteKundennummern
?
?
OK
Was wird geprüft
http://aschlauc-pc.de.oracle.com:7780/pls/htmldb http://aschlauc-pc.de.oracle.com:7780/pls/htmldb metadaten
owb
Metadaten