data vault vor- und nachteile
TRANSCRIPT
Farbenlehre 3NF
Sale
Customer
Employee
ProductVendor
Store
Region
Sale LI
Business Key
Relation
Kontext(historisch)
Farbenlehre Star Schema
Sale
Customer
Employee
Product
Vendor
Store
RegionCustomer
Employee
Product
Vendor
Store
Region
Business Key
Relation
Kontext(historisch)
Farbenlehre Data Vault
Sale
Customer
Employee
Product
Vendor
Store
Region
Link
Link
Link
Business Key
Relation
Kontext(historisch)
Farbenlehre Data Vault
Sale
Customer
Employee
Product
Vendor
Store
Region
Link
Link
Link
Sat
Sat
Sat
Sat
Sat
Sat
Sat
Business Key
Relation
Kontext(historisch)
Farbenlehre Data Vault
Sale
Customer
Employee
Product
Vendor
Store
Region
Link
Link
Link
Sat
Sat
Sat
Sat
Sat
Sat
Sat
Business Key
Relation
Kontext(historisch)
3FolieFolieAWF Arbeitsgemeinschaft “Pull-Systeme” – Dipl.-Ing. O. Völker und Dipl.-Ing. S. Binner
Einleitung „Push“ und „Pull“
In OutBestand in der Fertigung
Ziehlogik (PullZiehlogik (Pull--Prinzip)Prinzip)
Bestand in der FertigungIn Out
Schiebelogik (PushSchiebelogik (Push--Prinzip)Prinzip)
I•Single Version of Facts
II•Multiple Versions of Truth
III
• Single Sources
IV
• All Data
MPP
Automatisierungdes DWH mit
DataVault
Enterprise Information ProductsReports
Predictive AnalyticsAdhoc-QueriesDWH Mart
Data LakeInput
ComplicatedSimple
ChaoticAnalytics, Innovations
Data ScienceData Mining
Machine Learning
Alle Daten
Complex
Manuelles ETLBereinigung
Geschäftsregeln
Datenmodell getriebene AutomationIntegration nach Business Key
(fachlich)Historisierung
Moderne DWH Architektur mit Data Vault
I
• Facts
II
• Context
III
• Shadow IT
IV
• Analytics, Research, Prototyping
Raw Vault“Single Version of
Facts”
Business Vault
Source StageReport
Mart“Multiple
Versions of Truth”
Ladestrecken - Hub
SELECTDISTINCT
BKErstelle SK
Im Zielvorhanden
?Lookup
INSERT INTO Hub
StageRaw Vault
SELECTDISTINCT
BKWHERE NOT EXISTS IN Hub
Erstelle SKINSERT INTO
Hub
StageRaw Vault
SELECTDISTINCTBK, MD5
WHERE NOT EXISTS IN Hub
INSERT INTO Hub
StageRaw Vault
INSERT INTO HUBSELECT
DISTINCTBK, MD5
WHERE NOT EXISTS IN Hub
StageRaw Vault
Ja
Nein
Ladestrecken - Link
SELECTDISTINCT
Liste der BKs
Erstelle SK
Im Zielvorhanden
?Lookup
INSERT INTO Link
Stage
Raw Vault
Ja
Nein
Lookup SK 1
Lookup SK 2
Lookup SK n
?
?
?
Ladestrecken - Link
SELECTDISTINCT
List der BK
Erstelle SK
Im Zielvorhanden
?Lookup
INSERT INTO Link
Stage
Raw Vault
Ja
Nein
Erstelle SK pro BK
SELECTDISTINCT
List der BK,MD5WHERE NOT EXISTS IN Link Erstelle SK
INSERT INTO Link
StageRaw Vault
Ladestrecken - Satellite
SELECTDISTINCT
BK,Attribute
Erstelle SK
Im Zielvorhanden
?Lookup
INSERT INTO Sat
Stage
Raw Vault
Ja
Nein
Lookup SK
Änderung?
Nein
Ja
End-DatingOpen SatRecords
Raw Vault
MD5
• Message-digest Algorithm 128-bit (16-byte) oder 32 digit hexadecimal
• Ronald Rivest in 1991• RFC-1321• Collision durch Präparation der Eingabgedateien erzwingbar• Algorithmus zur Berechnung im Data-Vault muss eingehalten
werden!– NULL-Handling– Formate für Zahlen und Datum– Trennzeichen!
• Alternativen: http://en.wikipedia.org/wiki/List_of_hash_functions
Vielen Dank für Ihre Aufmerksamkeit!
Fragen?
tglundeTorsten Glundemailto:t.glunde(at)alligator-company.de
Weitere Netzwerke:
https://www.xing.com/profile/Torsten_Glunde
https://www.linkedin.com/pub/torsten-glunde/8/aba/97
Farbenlehre Data Vault
Sale
Customer
Employee
Product
Vendor
Store
Region
Link
Link
Link
Business Key
Relation
Kontext(historisch)
I
• Facts
II
• Context
III
• Shadow IT
IV
• Analytics, Research, Prototyping
Raw VaultBusiness
VaultSource Stage
Conceptional Data Model
Report
Mart
PDM
LDM
Sync
Sync
Data Flow
Stage Tables
Map 1:1 Map F(x) F(x) Map
Complexe GeschäftsregelnBereinigung, Historisierung und Integration – alles in einem Schritt
Traditionelle DWH Architektur
Staging(EDW)
“Single Version of the Truth”
Source Mart
3NF