der datenqualität auf der spur data profiling mit oracle warehouse builder – live beispiel alfred...

16

Upload: wilhelmina-neese

Post on 05-Apr-2015

113 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Der Datenqualität auf der Spur Data Profiling mit Oracle Warehouse Builder – live Beispiel Alfred Schlaucher
Page 2: Der Datenqualität auf der Spur Data Profiling mit Oracle Warehouse Builder – live Beispiel Alfred Schlaucher

<Insert Picture Here>

Der Datenqualität auf der SpurData Profiling mit Oracle Warehouse Builder – live Beispiel Alfred Schlaucher

Page 3: Der Datenqualität auf der Spur Data Profiling mit Oracle Warehouse Builder – live Beispiel Alfred Schlaucher

Analyseumgebung

• Oracle Datenquellen• Alle Gateway-

lesbare Quellen• SAP-Daten• Flat Files• Adress-/LDAP-

VerzeichnisseSourceSchema

Profiling Stage

Oracle

SourceSchema Transportable

Module

ExternalTable

SAP

SAPIntegrator

non OracleGateway / ODBC/ FTP Oracle 9i / 10g

RAC

DB2, SQL ServerInformix, Teradata

LDAP / DBMS_LDAP/ Table Function

Page 4: Der Datenqualität auf der Spur Data Profiling mit Oracle Warehouse Builder – live Beispiel Alfred Schlaucher

Vorgehensweise „Daten-Analyse“

1. Identifizieren Geschäftsfeld / Teilprozess

2. Datengewinnung: • Extrakt / Transformation (ETL-Aufgabe)

• Kundenstammdaten -> Testkunde

3. Erstes Profiling -> 1. Sichtprüfung • Fragen / Thesen formulieren

4. Zweites Profiling -> verifizieren • Custom Rules

5. Korrigieren• nachgelagert

• im operativen Prozess

6. Monitoring

Page 5: Der Datenqualität auf der Spur Data Profiling mit Oracle Warehouse Builder – live Beispiel Alfred Schlaucher

Herleiten der entsprechenden Prüfdaten mit ETL-Mitteln

MP_Testkunde

Page 6: Der Datenqualität auf der Spur Data Profiling mit Oracle Warehouse Builder – live Beispiel Alfred Schlaucher

Intuitives Erkennen von Anomalien

Domain Anz_Kinder?• Domain 0,1,2,3, Null• Warum 0 und Null?• Gibt es keine Kunden mit

mehr als 3 Kindern?• Warum gibt es nur 0,3%

Kunden mit 0 Kindern(entspricht nicht der Erwartung)?

• warum gibt es eine gleichmäßige Verteilung der Werte 1,2,3 im Bereich von 32-33 %?

Null kommt offenbar nur bei Firmenkundenvor

Die Zahl 17 kann markant sein. Bei weiterer Prüfung stellt man fest,dass es genau 17 Firmenkunden gib

Es fehlt eine einheitliche Art der Beschreibungfür das Nicht-Vorhandensein (0,Null)

Page 7: Der Datenqualität auf der Spur Data Profiling mit Oracle Warehouse Builder – live Beispiel Alfred Schlaucher

Intuitives Erkennen von Anomalien

Domain Anrede?• Herr / Frau sind

offensichtlich richtige Werte

• Die rot-markierten Werte sind offensichtlich falsch

• Die beiden Werte „3“ und „Anrede“ haben im Vergleich zu den anderen falschen Werten ein signifikant hohes Vorkommen Warum?

• Welche Regel kann für das Feld gefunden werden?

• Wenn Status = ‚F‘ dann Anrede = ‚Firma‘

• Wenn Status = ‚P‘ dann Anrede = ‚Herr‘ oder ‚Frau‘

Page 8: Der Datenqualität auf der Spur Data Profiling mit Oracle Warehouse Builder – live Beispiel Alfred Schlaucher

Gezieltes Überprüfen von Geschäftsregeln (Custom Rule)

Domain Anrede?• Nur ~19% folgen der Regel.

Warum?• Die Domain-Analyse von des

Status-Feldes ergibt den Wertebereich

• F (Firmenkunde)• P (Privatkunde)• G (guter Kunde)• K (kein Kunde)

• Die Überprüfung der Regel hat zu einer weiteren Schwachstelle geführt.

• Das Attribut Status ist überladen, ( es wird für unterschiedliche Sinnzusammenhänge benutzt)

• es müsste eine weitere Spalte geben, z,. B. Qualität der Kundenbez.

Wenn Status = ‚F‘ dann Anrede = ‚Firma‘ und Wenn Status = ‚P‘ dann Anrede = ‚Herr‘ oder ‚Frau‘

Page 9: Der Datenqualität auf der Spur Data Profiling mit Oracle Warehouse Builder – live Beispiel Alfred Schlaucher

Domains, Varianten, AusreißerData Profiling: Verwendung einheitlicher Codes

Berufsgruppe Berufsgruppen_Nr

Erkennen von abhängigen Domains – Functional Dependency

Page 10: Der Datenqualität auf der Spur Data Profiling mit Oracle Warehouse Builder – live Beispiel Alfred Schlaucher

Domains, Varianten, AusreißerData Profiling: mit dem Ziel der Standardisierung

Eine Domain mit fehlerhaften InhaltenDr und Dr.

Prof und Prof.Hinweis für Standardisierungs-Maßnahme

Page 11: Der Datenqualität auf der Spur Data Profiling mit Oracle Warehouse Builder – live Beispiel Alfred Schlaucher

Domains, Varianten, AusreißerData Profiling: mit dem Ziel der Standardisierung

Erkennen von Varianten

Straßenbezeichnungen müssen standardisiert werden,um sie z. B, für eineHaushaltsbildung oderAdressdatenabgleichvergleichen zu können.

Page 12: Der Datenqualität auf der Spur Data Profiling mit Oracle Warehouse Builder – live Beispiel Alfred Schlaucher

Unterstützung von Software-Projekten

!

Übereinstimmung vonFeldname „...nr“ undFeldtyp

Durch den Feldnamenvermutet man rein numerische Inhalte

sieht gut aus

?

Kundennr ist ein wichtiges Feld. Es solltestimmig sein.

Firmenrabatt ist in der Regel ein Rechenfeld

Page 13: Der Datenqualität auf der Spur Data Profiling mit Oracle Warehouse Builder – live Beispiel Alfred Schlaucher

Unterstützung von Software-Projekten

kritisch! da es sichum einen Schlüssel-kandidaten handelt

Felder sind nichtgepflegt

Die Zahl 17 kommt häufig vor, hier muss es eine „systematische“Ursache geben

kritisch! weil doppelteKundennummern

?

?

OK

Page 14: Der Datenqualität auf der Spur Data Profiling mit Oracle Warehouse Builder – live Beispiel Alfred Schlaucher

Was wird geprüft

Page 15: Der Datenqualität auf der Spur Data Profiling mit Oracle Warehouse Builder – live Beispiel Alfred Schlaucher
Page 16: Der Datenqualität auf der Spur Data Profiling mit Oracle Warehouse Builder – live Beispiel Alfred Schlaucher

http://aschlauc-pc.de.oracle.com:7780/pls/htmldb http://aschlauc-pc.de.oracle.com:7780/pls/htmldb metadaten

owb

Metadaten