datamodelling–...auf basis von datawarehouses pd dr. peter gluchowskidr. michael hahne 15. juni...
TRANSCRIPT
1
© PD Dr. Peter Gluchowski, Dr. Michael Hahne, 2005 SA2 / 0 / 1
Data Modelling –Corporate Performance Management
auf Basis von Data Warehouses
PD Dr. Peter Gluchowski Dr. Michael Hahne
15. Juni 2005
TDWI 05 Deutschland
Agenda
1) Abgrenzung und Einordnung von CPM und BI2) Architekturen und Komponenten analyseorientierter Informationssysteme3) Bestandteile multidimensionaler Datenstrukturen4) Methoden der semantischen Modellierung mehrdimensionaler Datenstrukturen5) Umsetzung mit multidimensionalen Datenbanksystemen6) Varianten und Bestandteile des Star Schemas7) Erweitertes Star Schema des SAP Business Information Warehouse8) Mehrdimensionales Datenmodell des Microsoft SQL Server9) Zusammenfassende Gegenüberstellung relationaler und multidimensionaler
Modellierung
2
Kontakt:
Dr. Michael HahneFreiherr-vom-Stein-Str. 13a55559 BretzenheimGermany
Email: [email protected]: www.hahneonline.de
PD Dr. Peter GluchowskiBrauckmanns Knapp 8c58313 HerdeckeGermany
Email: [email protected]
URL: http://www.uni-duesseldorf.de/ HHU/fakultaeten/wiwi/lehrstuehle/ fachgebStatOekon/Personalia/ Gluchowski
1
PD Dr. Peter Gluchowski
Agenda1) Abgrenzung und Einordnung von CPM und BI2) Architekturen und Komponenten analyseorientierter Informationssysteme3) Bestandteile multidimensionaler Datenstrukturen4) Methoden der semantischen Modellierung mehrdimensionaler
Datenstrukturen5) Umsetzung mit multidimensionalen Datenbanksystemen6) Varianten und Bestandteile des Star Schemas7) Erweitertes Star Schema des SAP Business Information Warehouse8) Mehrdimensionales Datenmodell des Microsoft SQL Server
9) Zusammenfassende Gegenüberstellung relationaler und multidimensionaler Modellierung
PD Dr. Peter Gluchowski
Corporate Performance ManagementCorporate Performance Management umfasst
– Methodologien (z. B. Balanced Scorcards)– Prozesse (z. B. Planungs- und
Budgetierungsprozesse)– Metriken (Performance-
Kennzahlen, z. B. ROI) und– Systemlösungen
(z. B. Business Intelligence)
zur zielgerichteten Umsetzung von Unternehmensstrategien.
Operative Ebene
Operationalisierungder Strategie
Strategischer Management-Zyklus
Operativer Management-Zyklus
ManagementEbene
SWOT-Analyse
StrategischeRückkopplung
Strategie-Formulierung
KommunikationStakeholder
OperativeLeistungsmessung
Entscheidungüber Maßnahmen
Durchführung
Quelle: Gartner Research 2002
2
PD Dr. Peter Gluchowski
Corporate Performance ManagementGeschäftsstrategie
Ziele
GeschäftsanalyseMetriken
Analyse-Systeme
GeschäftsbetriebGeschäftsprozesse
Operative Systeme
Entscheidungen Aktionen
ZyklustaktQuelle: W. Martin, EAI 2003, März 2003
ClosedLoop
PD Dr. Peter Gluchowski
Business Intelligence• Gesamtheit aller Werkzeuge und Anwendungen mit
entscheidungsunterstützendem Charakter, die zur besseren Einsicht in das eigene Geschäft und damit zum besseren Verständnis in die Mechanismen relevanter Wirkungsketten
• Begriffliche Klammer, die eine Vielzahl unterschied-licher Ansätze zur Analyse geschäftsrelevanter Daten zu bündeln versucht (kein neues Konzept / Produkt)
3
PD Dr. Peter Gluchowski
Agenda1) Abgrenzung und Einordnung von CPM und BI2) Architekturen und Komponenten analyseorientierter Informationssysteme3) Bestandteile multidimensionaler Datenstrukturen4) Methoden der semantischen Modellierung mehrdimensionaler Datenstrukturen5) Umsetzung mit multidimensionalen Datenbanksystemen6) Varianten und Bestandteile des Star Schemas7) Erweitertes Star Schema des SAP Business Information Warehouse8) Mehrdimensionales Datenmodell des Microsoft SQL Server
9) Zusammenfassende Gegenüberstellung relationaler und multidimensionaler Modellierung
PD Dr. Peter Gluchowski
DataWarehouse
DataWarehouse
ExecutiveInformation Systems
ExecutiveInformation Systems
1970 1980 1990 2000
Unt
erst
ützu
ngsg
rad
bei
Man
agem
enta
ufga
ben
Management Information SystemsManagement Information Systems
Decision Support SystemsDecision Support Systems
Zeit
MIS
DSS
EIS
MSS
On-Line AnalyticalProcessing
Historie der BI-Systeme
4
PD Dr. Peter Gluchowski
Data Warehouse-KonzeptData Warehouse (DW) =
“A subject oriented, integrated, nonvolatile, time variant collectionof data organized to support management needs”W. H. Inmon, Building the Data Warehouse, New York u. a. 1993, S. 29.
§ subject oriented Themenorientierung§ integrated Vereinheitlichung § nonvolatile Dauerhaftigkeit, Stabilität§ time variant Zeitorientierung der Informationen§ management needs Analyse und Entscheidungsunterstützung
PD Dr. Peter Gluchowski
• umfasst die Serverkomponenten einer Systemlösung, die für die unternehmensweite Daten-versorgung der Front-End-Systeme zur Informationsbereitstellungund Entscheidungsunterstützung betrieblicher Fach- und Führungskräfte zuständig sind,
• ist physikalisch von den operativen Vorsystemen getrennt und• baut lediglich zum Zweck der periodischen Datenaktualisierung bzw. -ergänzung Verbindungen zu den operativen DV-Systemen auf.
MSS
Operative Unternehmensdaten
Data Warehouse
Operative Informationssysteme
Data Warehouse
5
PD Dr. Peter GluchowskiOperative Vorsysteme
SAP, Baan, .. PAISY, ...
Endbenutzer
ABAP,Berichts-generatoren,Excel, ...
Probleme:• zahlreiche Schnittstellen
• Belastung der operativen Systeme
• inkonsistente undstarre Berichte
• keine Historie• kaum Interaktion• lange Laufzeiten
Entwicklungsstufen analytischer Informationssysteme –(Durchgriff auf operative Systeme)
PD Dr. Peter GluchowskiOperative Vorsysteme
Endbenutzer Probleme:• komplexe Import-Schnittstelle
• Administrations-aufwand für DB
• umfangreiche Berichtsdatenbank(Laufzeiten)
• kaum Interaktion• interaktive Nutzungdurch den End-anwender z.B. fürneue Berichte kaummöglich
Import-Schnittstelle
Data Warehouse
...
Entwicklungsstufen analytischer Informationssysteme –(Unternehmensweites Data Warehouse)
SAP, Baan, .. PAISY, ...
6
PD Dr. Peter GluchowskiOperative Vorsysteme
EndbenutzerProbleme:• Anzahl derSchnittstellen
• viele DBs• Konsistenz der Daten
Import
Abteilungs-datenbank
...
Import
Abteilungs-datenbank
Entwicklungsstufen analytischer Informationssysteme –(Data Marts ohne Data Warehouse)
SAP, Baan, .. PAISY, ...
PD Dr. Peter GluchowskiOperative Vorsysteme
EndbenutzerProbleme:• komplexe Lösung• lange Projektlauf-zeit bis zu erstenErgebnissen
• viele Einzel-komponenten
Data Mart
Import-Schnittstelle
Data Warehouse
Data Mart
Entwicklungsstufen analytischer Informationssysteme –(Data Marts mit Data Warehouse)
SAP, Baan, .. PAISY, ...
7
PD Dr. Peter Gluchowski
Entwicklungsstufen analytischer Informationssysteme –(Enterprise) Data Warehouse und Data Marts
Operative Vorsysteme
Endbenutzer
Data Mart
Import-Schnittstelle
Data Warehouse
Data Mart
SAP, Baan, .. PAISY, ...
Externe Daten
PD Dr. Peter Gluchowski
Entwicklungsstufen analytischer Informationssysteme –Operational Data Store
Operative Vorsysteme
Endbenutzer
Data Mart
Data Warehouse
Data Mart
SAP, Baan, .. PAISY, ...
Externe Daten
Operational Data Store
Import-Schnittstelle
8
PD Dr. Peter Gluchowski
Analytische Informationssysteme –Oberflächentechnologien
Data Mart
Data Warehouse
Data Mart
Externe Daten
Operational Data Store
Import-Schnittstelle
-Berichts-systeme
OLAP-Frontends
Data Mining
Endb
enut
zer
Endb
enut
zer --
wer
kzeu
gew
erkz
euge
Portale
PD Dr. Peter Gluchowski
-
ETLETL--SystemSystem
Operative VorsystemeOperative Vorsysteme
ZentraleZentraleDatenbasis Datenbasis
Archivierungs
Archivierungs --
systemsystem
Metadaten
Metadaten --
banksystembanksystem Enterprise Enterprise DataData WarehouseWarehouse//
Operational Operational DataData StoreStore
ExterneExterneDatenDaten
AbfrageAbfrage-- und und BerichtssystemeBerichtssysteme
OLAPOLAP--FrontendFrontend
ExecutiveExecutiveInformation Systeme Information Systeme
Data Data MiningMining
Data Data MartMart Data Data MartMartOLAP ServerOLAP Server
Endb
enut
zer
Endb
enut
zer --
wer
kzeu
gew
erkz
euge
Dat
a W
areh
ouse
Dat
a W
areh
ouse
Aktuelles DW-Architektur-Konzept
9
PD Dr. Peter Gluchowski
On-Line Analytical Processing (OLAP)• Software-Technologie, die Managern schnelle,
interaktive und vielfältige Zugriffe auf relevante und konsistente Informationen ermöglicht
• zwölf Evaluationsregeln nach Codd/Codd/Salley
dynamische, multidimensionale Analysen auf konsolidierten
Unternehmensdatenbeständen
dynamische, multidimensionale Analysen auf konsolidierten
Unternehmensdatenbeständen
PD Dr. Peter Gluchowski
On-Line Analytical Processing (OLAP)• Mehr- / Multidimensionalität:
– Anordnung betriebswirtschaftlicher Variablen (z.B. Kennzahlen) entlang mehrerer, unter-schiedlicher Dimensionen (z. B. Region, Artikel, Produkte, Zeit, Kunden)
45 60 56
15 54 80
23 40 45
REGION
PR
OD
UK
T
ZEIT
10
PD Dr. Peter Gluchowski
OLAP-Gestaltungsvarianten
Datenbank-Schicht
Applikations-Schicht
Repräsentations-schicht
RelationaleDatenbank
Multidim.Datenbank
RelationaleDatenbank
2-Tier-Architekturmit Fat-Clients
3-Tier-Architekturmit OLAP-Engine
2-Tier-Architekturmit MDB
ROLAP MOLAP
PD Dr. Peter Gluchowski
Weites BI-Verständnis
Weites BI-Verständnis
Analyseorientiertes BI-Verständnis
Analyseorientiertes BI-Verständnis
BI-Begriffsverständnisse
Enges BI-Verständnis
Enges BI-Verständnis
Daten-bereit-
stellung
Daten-aus-
wertung
Prozess-schwerpunkt
Prozess-schwerpunkt
AnwendungTechnik Orien-tierungOrien-tierung
ETLETL DataWarehouse
DataWarehouse
Data / TextMining
Data / TextMining
Kennzahlen /Balances Scorecards
Kennzahlen /Balances Scorecards
Standard-ReportingStandard-Reporting
Ad-Hoc-ReportingAd-Hoc-
Reporting
MIS / EIS / DSS
MIS / EIS / DSSOLAPOLAP
PortalePortaleIntelligente
AgentenIntelligente
Agenten
Planung /Konsolidierung
Planung /Konsolidierung
Analytisches CRM
Analytisches CRM
11
PD Dr. Peter Gluchowski
Aktuelle Entwicklungen –Real Time Enterprise
Anforderungen an „Echtzeit-Unternehmen“• Integrierte Echtzeit-Information über Abteilungs-/Bereichsgrenzen hinweg• Integration über Unternehmensgrenzen im Rahmen kollaborativer
Geschäftsmodelle• Ausrichtung auf Geschäftsereignisse
Operative Vorsysteme
SAP, Baan, .. PAISY, ...
Enterprise Application Integration-Bus
PD Dr. Peter Gluchowski
Aktuelle Entwicklungen –Process Performance Management bzw.
Business Activity Monitoring
Kontinuierliche Messung Relevanter Prozesskenn-zahlen und unmittelbare Anzeige bzw. Berichts-erzeugung
1
© Dr. Michael Hahne 2005 TDWI-G 05 / 3 / 1
1) Abgrenzung und Einordnung von CPM und BI2) Architekturen und Komponenten analyseorientierter Informationssysteme3) Bestandteile multidimensionaler Datenstrukturen4) Methoden der semantischen Modellierung mehrdimensionaler
Datenstrukturen5) Umsetzung mit multidimensionalen Datenbanksystemen
6) Varianten und Bestandteile des Star Schemas7) Erweitertes Star Schema des SAP Business Information Warehouse8) Mehrdimensionales Datenmodell des Microsoft SQL Server9) Zusammenfassende Gegenüberstellung relationaler und multidimensionaler
Modellierung
Agenda
© Dr. Michael Hahne 2005 TDWI-G 05 / 3 / 2
Agenda
• Phasen der Datenmodellierung
• Grundbestandteile mehrdimensionaler Datenstrukturen
• Hierarchische Dimensionsstrukturen
• Gestaltungsempfehlungen für die Modellierung
2
© Dr. Michael Hahne 2005 TDWI-G 05 / 3 / 3
Agenda
• Phasen der Datenmodellierung
• Grundbestandteile mehrdimensionaler Datenstrukturen
• Hierarchische Dimensionsstrukturen
• Gestaltungsempfehlungen für die Modellierung
© Dr. Michael Hahne 2005 TDWI-G 05 / 3 / 4
Betriebswirtschaftliche
Problemstellung
Fachkonzept
DV-Konzept
Technische
Implementierung
InformationstechnikQuelle:Scheer, A.-W.: Wirtschaftsinformatik - Referenzmodelle für industrielle Geschäftsprozesse, 3. Aufl., Berlin u.a. 1990.
Analyse
Design/Entwurf
Implementierung/Realisierung
Beschreibungsebenen betrieblicher Informationssysteme
3
© Dr. Michael Hahne 2005 TDWI-G 05 / 3 / 5
Ebenen der Datenmodellierung
SemantischesDatenmodell
LogischesDatenmodell
PhysischesDatenmodell
© Dr. Michael Hahne 2005 TDWI-G 05 / 3 / 6
Agenda
• Phasen der Datenmodellierung
• Grundbestandteile mehrdimensionaler Datenstrukturen
• Hierarchische Dimensionsstrukturen
• Gestaltungsempfehlungen für die Modellierung
4
© Dr. Michael Hahne 2005 TDWI-G 05 / 3 / 7
Zahlenwürfel
40
50
80
20 15
70
35
20
30
...
...
...
...
...
... ... ... ...
...
...
............
...
© Dr. Michael Hahne 2005 TDWI-G 05 / 3 / 8
Zahlenwürfel mit betriebswirtschaftlichem Bezug
Artikel
Region
471147124713
Nor
d
Ost
Süd
Wes
t
40
50
80
20 15
70
35
20
30
...
...
...
...
...
... ... ... ...
...
...
............
...
Periode
01/9802/98
Absatzmenge
5
© Dr. Michael Hahne 2005 TDWI-G 05 / 3 / 9
1. Betriebswirtschaftliche Variablen(Meßgrößen, Kennzahlen, Fakten)
2. Dimensionen
3. Dimensionshierarchien
4. Regeln
Strukturkomponenten
© Dr. Michael Hahne 2005 TDWI-G 05 / 3 / 10
Betriebswirtschaftliche Variablen (Kennzahlen)
Kennzahlentypen• Statistische Form
• Gegenstand (Mengen / Werte, Zeitpunkt / Zeitraum)• Objektbereich (Gesamtwirtschaftlich, Konzern, Teilbetrieb)
Absolute Kennzahlen(z.B. Beschäftigte, Umsatz,Bilanzsumme)
Relative Kennzahlen• Gliederungszahlen(z.B. Anlagevermögen/Gesamtvermögen)
• Beziehungszahlen(z.B. Gewinn/Eigenkapital)
• Indexzahlen(z.B. Lohnkosten heute * 100 / Lohnkosten Vorjahr)
Kennzahlendefinition• Zahl, die betriebliche und außerbetriebliche Informationen in aussagekräftiger,
komprimierter Form wiedergibt
6
© Dr. Michael Hahne 2005 TDWI-G 05 / 3 / 11
Kennzahlensysteme
• Zusammenstellung unterschiedlicher Kennzahlen zur rechentechnischen Systematisierung
• Einzelkennzahlen stehen in sachlich sinnvoller Beziehung zueinander
+
-
*
:
© Dr. Michael Hahne 2005 TDWI-G 05 / 3 / 12
Bekannte Kennzahlensysteme
• RL-Kennzahlenschema von Reichmann/Lachnit• ZVEI-Kennzahlenschema• Du-Pont-Kennzahlenschema
Gewinn in %des invest. Kapitals
Gewinn in % des Umsatzes
Gewinn
Umsatz
Deckungsbetrag
Nettoumsatz
Bruttoumsatz
Produktions-programm
Absatzwege
Variable Umsatzkosten
Fertigungs-material
Fertigungslöhne
Sonst. var. Fert.-gemeinkosten
Fixe Kosten Fertigungs-gem.kosten
Verwaltungs-gem.kosten
Vertriebs-gem.kosten
Kapitalumschlag
Investiertes Kapital
Umlauf-vermögen
Anlage-vermögen Zahlungs-
mittel
Forderungen
Bestände
Erlös-schmälerungen
Umsatz
Quelle:Küting, Karlheinz,Kennzahlensysteme in der betrieblichen Praxis,in: WiSt, Heft 6, Juni 1983, S. 292
7
© Dr. Michael Hahne 2005 TDWI-G 05 / 3 / 13
Kennzahlen als Bestandteile multidimensionaler Datenstrukturen
• Betrachtung von Einzelkennzahlen
• Betrachtung mehrerer Kennzahlen
Zeit
Artikel
Region
20 ..... ...............
.....
..... ...............
5080
Absatzmenge
Zeit
StückErlösDB1...
Artikel
20 ..... ...............
.....
..... ...............
5080
Vertrieb
Kennzahlen-dimension
© Dr. Michael Hahne 2005 TDWI-G 05 / 3 / 14
Dimensionen
• Aufgabe:Aufgliederung / Konkretisierung von Kennzahlen bzw. Zahlenwerten
• Inhalt:Sachlogisch zusammengehörige Umweltobjekte, gleichen Geschäftsaspekt betreffend
• Ausprägungen:– Einzelobjektdimensionen (Element bestimmt)
wenige, aufzählbare Dimensionselemente (z.B. Szenario- oder Kennzahlendimension)
– Mengendimensionen (Ebenen bestimmt)viele bis sehr viele Dimensionselemente (z.B. Kunden- oder Artikeldimension)Beschreibung nur über Objektmengen
8
© Dr. Michael Hahne 2005 TDWI-G 05 / 3 / 15
Dimensionskomponenten
Dimensionselemente
Basiselemente bzw. unabhängige Elemente
Abgeleitet bzw. verdichtete Elemente
Hierarchiestufe bzw.Konsolidierungsebene (Level)
Granularität
© Dr. Michael Hahne 2005 TDWI-G 05 / 3 / 16
Typisierung
Jahr
Quartal
Monat
Konsolidierungs-stufen
Jan 03 Feb 03 Mar 03 Apr 03 May 03 Jun 03 Jul 03 Aug 03 Sep 03 Oct 03 Nov 03 Dec 03
Q1/03 Q4/03Q3/03Q2/03
2003
9
© Dr. Michael Hahne 2005 TDWI-G 05 / 3 / 17
Attribute
DimensionZeit
Jahr
Monat
Tag
Attribute allerDimensionselemente
Attribute der Elementeder Ebene Jahr
Attribute der Elementeder Ebene Monat
Attribute der Elementeder Ebene Tag
Attribute derDimension
Attribute derEbene Jahr
Attribute derEbene Monat
Attribute derEbene Tag
© Dr. Michael Hahne 2005 TDWI-G 05 / 3 / 18
Dimensionstypen
• Standarddimensionen (z.B. Artikel, Kunden, Regionen)
• Kennzahlendimension (Measure Dimension)
• Szenario- bzw. Wertartdimension (Plan, Ist, Soll, ...)
• Zeitdimension (vorbestimmte Struktur)
10
© Dr. Michael Hahne 2005 TDWI-G 05 / 3 / 19
- Würfelübergreifende VerknüpfungsregelnOLAP-Join: Verbindung zwischen Würfeln (Multicube-Ansatz)
- IntegritätsregelnHierarchische Integrität bei nicht dynamischer Berechnung
- Regeln für die Behandlung von Ausnahmenz.B. Konsolidierungs-Sonderfälle
Weitere Regeln
© Dr. Michael Hahne 2005 TDWI-G 05 / 3 / 20
Agenda
• Phasen der Datenmodellierung
• Grundbestandteile mehrdimensionaler Datenstrukturen
• Hierarchische Dimensionsstrukturen
• Gestaltungsempfehlungen für die Modellierung
11
© Dr. Michael Hahne 2005 TDWI-G 05 / 3 / 21
Flache Struktur
A2 A3 A4 A5 A6 A7 A8 A9A1
© Dr. Michael Hahne 2005 TDWI-G 05 / 3 / 22
Typisierte flache Struktur
A
12
© Dr. Michael Hahne 2005 TDWI-G 05 / 3 / 23
Flache Struktur mit totaler Verdichtung
A2 A3 A4 A5 A6 A7 A8 A9A1
Alle
© Dr. Michael Hahne 2005 TDWI-G 05 / 3 / 24
Typisierte flache Struktur mit totaler Verdichtung
A
Alle
13
© Dr. Michael Hahne 2005 TDWI-G 05 / 3 / 25
Baumstruktur
A2 A3 A4 A5 A6 A7 A8 A9A1
Alle
AG2 AG3AG1
© Dr. Michael Hahne 2005 TDWI-G 05 / 3 / 26
Typisierte Baumstruktur
A
Alle
AG
14
© Dr. Michael Hahne 2005 TDWI-G 05 / 3 / 27
Baumstruktur mit unterschiedlichen Tiefen Variante I
A2 A3 A4 A5 A6 A7 A8 A9A1
Alle
AG2 AG3AG1
AOG1
© Dr. Michael Hahne 2005 TDWI-G 05 / 3 / 28
Typisierte Baumstruktur mit unterschiedlichen Tiefen Variante I
A
Alle
AG
AOG
15
© Dr. Michael Hahne 2005 TDWI-G 05 / 3 / 29
Baumstruktur mit unterschiedlichen Tiefen Variante II
A2 A3 A4 A5 A6 A7 A8 A9A1
Alle
AUG2 AG2AUG1
AG1
© Dr. Michael Hahne 2005 TDWI-G 05 / 3 / 30
Typisierte Baumstruktur mit unterschiedl. Tiefen Variante II
A
Alle
AUG
AG
16
© Dr. Michael Hahne 2005 TDWI-G 05 / 3 / 31
Parallele Hierarchie
A2 A3 A4 A5 A6 A7 A8 A9A1
AG2 AG3AG1PG1 PG2
Alle
© Dr. Michael Hahne 2005 TDWI-G 05 / 3 / 32
Typisierte parallele Hierarchie
A
AGPG
Alle
17
© Dr. Michael Hahne 2005 TDWI-G 05 / 3 / 33
Heterarchie (m:n-Beziehungen)
A2 A3 A4 A5 A6 A7 A8 A9A1
Alle
AG2 AG3AG1
© Dr. Michael Hahne 2005 TDWI-G 05 / 3 / 34
Typisierte Heterarchie
A
Alle
AG
degin = 2 degin = 1
A
Alle
AG
Mit Unterscheidung der„Kardinalität“ der Kanten
Ohne Unterscheidung der„Kardinalität“ der Kanten
18
© Dr. Michael Hahne 2005 TDWI-G 05 / 3 / 35
Sonderfall:Anteilige Verrechnung
60% 40%
Anteilige Verrechnung
A2 A3 A4 A5 A6 A7 A8 A9A1
Alle
AG2 AG3AG1
© Dr. Michael Hahne 2005 TDWI-G 05 / 3 / 36
Ausnahmeregeln für nicht-additive Kennzahlen
z.B. Preis, Lagerendbestand
Einzel-artikel
Artikel-gruppen
100 300 200Artikelpreise
800 ??
Gegebenenfalls sinnvoll:Durchschnittsberechnung oderletzter Wert
Zu beachten:Semi-additive Größen(Lagerendbestände lassen sich zwar sinnvoll über alle Lagerorte addieren, nicht jedoch über die Zeit)
Regeln (Additivitätseigenschaften)
A2 A3 A4A1
AG1
200
19
© Dr. Michael Hahne 2005 TDWI-G 05 / 3 / 37
Zeitabhängigkeit: Strukturelle Veränderungen in Dimensionen
P1 P2 P3 P4 P5
PG1 PG2
P1 P2 P3 P5 P6
PG1 PG2Strukturveränderungen
P4 gelöschtP6 hinzugefügtP3 verändert
© Dr. Michael Hahne 2005 TDWI-G 05 / 3 / 38
Lösungsalternativen bei Strukturbrüchen
• Anpassung des historischen Datenmaterials an neue StrukturenVorteile: Keine Aufblähung des Datenbestandes; Datenstrukturen bleiben überschaubarNachteile: Alte Strukturen sind verloren; Anwender wollen u. U. Berichte mit alten Strukturen
• Separate Speicherung des historischen Datenbestandes zusätzlich zumKomplettbestand mit neuen StrukturenVorteile: Alte Auswertungen können abgerufen werdenNachteile: Datenvolumen; aufwendige Aktualisierung, wenn Anwender auch neue Zahlen in den alten Strukturen sehen wollen; verwirrend für Endbenutzer
• Aufbau paralleler Hierarchien mit alten/neuen StrukturenVorteile: Alle Zahlen können mit beliebigen Strukturen angezeigt werdenNachteile: Dimensionsstruktur kaum überschaubar
• Temporale Datenbanken - GültigkeitsstempelVorteile: Alle Zahlen können mit beliebigen Strukturen angezeigt werdenNachteile: Performance; Konzepte noch nicht ausgereift
20
© Dr. Michael Hahne 2005 TDWI-G 05 / 3 / 39
Agenda
• Phasen der Datenmodellierung
• Grundbestandteile mehrdimensionaler Datenstrukturen
• Hierarchische Dimensionsstrukturen
• Gestaltungsempfehlungen für die Modellierung
© Dr. Michael Hahne 2005 TDWI-G 05 / 3 / 40
Gestaltungsüberlegungen der Dimensionsmodellierung auf semantischer Ebene
• Anzahl der Dimensionen zwischen vier und zehn (ideal zwischen sechs und acht)
• Anzahl der Hierarchiestufen (maximal sieben Hierarchiestufen)
• Anzahl der Elemente je Konsolidierungselement (maximal fünfzehn bis zwanzig Elemente)
• Bestimmung von Dimensionen (1:1-Beziehungen ungeeignet; 1:N-Beziehungen bilden Dimensionshierarchie; M:N-Beziehungen stellen zwei Dimensionen dar)
1
SA2 / 3 / 1
Agenda
1) Abgrenzung und Einordnung von CPM und BI2) Architekturen und Komponenten analyseorientierter Informationssysteme3) Bestandteile multidimensionaler Datenstrukturen4) Methoden der semantischen Modellierung mehrdimensionaler
Datenstrukturen5) Umsetzung mit multidimensionalen Datenbanksystemen6) Varianten und Bestandteile des Star Schemas7) Erweitertes Star Schema des SAP Business Information Warehouse8) Mehrdimensionales Datenmodell des Microsoft SQL Server9) Zusammenfassende Gegenüberstellung relationaler und multidimensionaler
Modellierung
SA2 / 3 / 2
Artikel Periode
Preis
Vertrieb
Mitarbeiter
Einkaufs-preis
Absatz-menge Erlös
1n
1n
1n
1n
1n
Kunde
1n
Lieferant 1n
ER-Modellierung multidimensionaler Datenstrukturen
2
SA2 / 3 / 3
Tag
Monat
Jahr
Woche
Periode
1
n
n
1n
1
1
n
Erweiterung eER zur Darstellung von Dimensionshierarchien
SA2 / 3 / 4
Filiale
v
Region
v
Land
v
Gebiet
v
Gesamt
Tag
v
Jahr
v
Quartal
v
Monat
Einzel
v
Gesamt
v
Marke
v
Gruppe
Artikel
Sondermodell-gruppe
Vertriebsweg
Ord
Kennzahlen Szenario
Netto-erlös
Bruttoerlös Erlösschm. Var. Kost. Plan Ist
DB1 Abw.
isa isa
isa
Ord
Ord
Ord
v für „ verdichtet zu“
Quelle: Totok, A., Semantische Modellierung von multidimensionalen Datenstrukturen - Vortragsunterlagen, Workshop des GI-Arbeitskreises MDDB, 27.4.98, Darmstadt
Beispiel ER-Modellierung multidimensionaler Datenstrukturen
Zeit
Vertriebsweg
3
SA2 / 3 / 5
Darstellungsobjekte im ME/R-Modell
Ebenen-Name
Roll-UpBeziehungstyp
DimensionsebenenEntitytyp
Fakt-Name
Fakt-beziehungstyp
Quelle: Sapia, Carsten; Blaschka, Markus; Höfling, Gabriele;, Dinter, Barbara: Extending the E/R Model for theMultidimensional Paradigm. In: Proceedings of the Advances in Databases Technologies Conference, November 19-20, 1998, Singapore
SA2 / 3 / 6
Beispiel eines ME/R-Modells
Vertrieb Tag
Monat
Quartal
Jahr
Filiale Gebiet Land
Region
GesamtSzenario
Artikel
Absatz-menge Erlös
4
SA2 / 3 / 7
Grenzen der ER-Notation
• Unzulängliche Möglichkeiten zur Abbildung von Einzelobjekten (Kennzahlen, Szenario)
• Konzentration auf Objektklassen
• Verknüpfungen zwischen Einzelobjekten (z.B. relative Kennzahlen) wird nicht unterstützt
SA2 / 3 / 8
Fakt-Attribut
Vertrieb
VerkaufsmengeErlösWocheMonat StadtFiliale Land
Vertriebs-manager
Adresse
Typ
Produkt
Kategorie
Größe
Hersteller
Dimension
Hierarchie
Nicht-dimensionalesAttribut
FaktQuelle: Golfarelli, Matteo; Maio, Dario; Rizzi, Stefano: Conceptual Design of Data Warehouses from E/R Schemas. In: Proceedings of the Hawaii International Conference On System Sciences, January 6-9, 1998, Kona, Hawaii.
Dimensional Fact Modeling
5
SA2 / 3 / 9
Vertrieb
VerkaufsmengeErlös
KäuferzahlBestand
WocheMonat StadtFiliale Land
Vertriebs-manager
Adresse
Typ
Produkt
Kategorie
Größe
Hersteller
Durchschnitt
Aggregation im Dimensional Fact Modeling
Alternative Aggregationfür Kennzahl Bestand in Dimension Woche
Eingeschränkte Addierbarkeit für Kennzahl Käuferzahl in allen Dimensionen
SA2 / 3 / 10
Objekte der Dimensionsmodellierung in ADAPT
Dimension
Hierarchy
Level{ }
Attribute{ } Scope
{ } Member
Model
6
SA2 / 3 / 11
Elementbestimmte Dimension
Szenario
{ } Ist
{ } Plan
{ } Abweichung
Ist - Plan
SA2 / 3 / 12
Ebenenbestimmte Dimension Produkt
Produkt-hierarchie
Warenhaupt-gruppe{ }
Warengruppe{ }
Warenunter-gruppe{ }
Produkt{ }
Hersteller-hierarchie
Hersteller{ }
Bezeichnung
Verpackungsart
Verpackungs-größe
Gewicht
Anzahl aufeiner Palette
{ } EigeneProdukte
{ } Fremdprodukte
7
SA2 / 3 / 13
Beziehungstypen in ADAPT
Fully exclusive Fully overlapping
Partially exclusive Partially overlapping
SA2 / 3 / 14
Cube-Modellierung
ZeitKostenstelleKostenartSzenarioKennzahl
Controlling
Zeit
Kalender-hierarchie
Jahr{ }
Quartal{ }
Monat{ }
Kostenstelle
Kostenstellen-verantwortlicher
Kostenart
Kostenarten-Hierarchie
Kostenart{ }
Kostenstellen-Hierarchie
Kostenstelle{ }
Szenario
{ } Ist
{ } Plan
{ } Abweichung
Ist - Plan
Kennzahl
{ } Kosten
8
SA2 / 3 / 15
Modellierung einer abgeleiteten Teilsicht eines Cubes
ZeitKostenstelleKostenartSzenarioKennzahl
Kosten
Prognose-rechnung
PrognostizierteKosten
1
SA2 / 3 / 1
Agenda
1) Abgrenzung und Einordnung von CPM und BI2) Architekturen und Komponenten analyseorientierter Informationssysteme3) Bestandteile multidimensionaler Datenstrukturen4) Methoden der semantischen Modellierung mehrdimensionaler Datenstrukturen5) Umsetzung mit multidimensionalen Datenbanksystemen6) Varianten und Bestandteile des Star Schemas7) Erweitertes Star Schema des SAP Business Information Warehouse8) Mehrdimensionales Datenmodell des Microsoft SQL Server9) Zusammenfassende Gegenüberstellung relationaler und multidimensionaler
Modellierung
SA2 / 3 / 2
DV-Speicherungskonzept mit multidimensionalen Datenbanken
• Spezifische Ausrichtung auf multidimensionale Datenstrukturen ermöglicht i.d.R. 1:1-Umsetzung des semantischen Konzeptes
• Hypercube- vs. Multicube-Ansätze• Komplexe Rule-Programmierung• Keine Standards (ggf. durch die Microsoft-API OLE DB for
OLAP)
• Keine einheitlichen Schema-Vorgaben
2
SA2 / 3 / 3
Normierung und Standardisierung bei MDB
Catalog
Schema
Cube Dimension Hierarchy
Level
Member Property1n
1n
n1
1 n 1 n
n1
n1
1 n
Microsoft OLE-DB for OLAP
SA2 / 3 / 4
Würfel- und Dimensionsübersicht in Delta Alea
3
SA2 / 3 / 5
Dimensionsstrukturen in Delta Alea
SA2 / 3 / 6
Dimensionsstrukturen in Delta Alea
4
SA2 / 3 / 7
Dimensionsstrukturen in Hyperion Essbase
SA2 / 3 / 8
RegelnVerknüpfungs- und Ableitungsregeln für Dimensionselemente
Hyperion Essbase
MIS Alea
5
SA2 / 3 / 9
Freiheitsgrade beim Design
Werbedetail
Artikel-IDPerioden-IDRegion-IDAbsatzmenge
Artikel
Artikel-IDBezeichnungFarbe
Periode
Perioden-IDBezeichnung
Region
Region-IDBezeichnungFläche in qkmBevölkerung
1n
1
n
n
Beispiel Farbe1.) Farbe als Attribut
SA2 / 3 / 10
Freiheitsgrade beim Design
Beispiel Farbe2.) Farbe als Hierarchie
Werbedetail
Artikel-IDPerioden-IDRegion-IDAbsatzmenge
Artikel
Artikel-IDBezeichnungFarbe
Periode
Perioden-IDBezeichnung
Region
Region-IDBezeichnungFläche in qkmBevölkerung
1n
1
n
n
6
SA2 / 3 / 11
Freiheitsgrade beim DesignBeispiel Farbe3.) Farbe als Teil der Artikel-ID
Werbedetail
Artikel-IDPerioden-IDRegion-IDAbsatzmenge
Artikel
Artikel-IDBezeichnungFarbe
Periode
Perioden-IDBezeichnung
Region
Region-IDBezeichnungFläche in qkmBevölkerung
1n
1
n
n
SA2 / 3 / 12
Freiheitsgrade beim DesignBeispiel Farbe4.) Farbe als Dimension
Werbedetail
Artikel-IDPerioden-IDRegion-IDAbsatzmenge
Artikel
Artikel-IDBezeichnungFarbe
Periode
Perioden-IDBezeichnung
Region
Region-IDBezeichnungFläche in qkmBevölkerung
1n
1
n
n
1
© Dr. Michael Hahne 2005 TDWI-G 05 / 6 / 1
1) Abgrenzung und Einordnung von CPM und BI2) Architekturen und Komponenten analyseorientierter Informationssysteme3) Bestandteile multidimensionaler Datenstrukturen4) Methoden der semantischen Modellierung mehrdimensionaler Datenstrukturen
5) Umsetzung mit multidimensionalen Datenbanksystemen6) Varianten und Bestandteile des Star Schemas7) Erweitertes Star Schema des SAP Business Information Warehouse8)Mehrdimensionales Datenmodell des Microsoft SQL Server9)Zusammenfassende Gegenüberstellung relationaler und multidimensionaler Modellierung
Agenda
© Dr. Michael Hahne 2005 TDWI-G 05 / 6 / 2
Agenda
• Grundform des Star Schemas
• Modellierung von Dimensionshierarchien und Attributen
• Normalisierung von Dimensionen
• Kennzahlen und Kennzahlensysteme
• Aggregate
• Modellierungsvarianten
2
© Dr. Michael Hahne 2005 TDWI-G 05 / 6 / 3
Agenda
• Grundform des Star Schemas
• Modellierung von Dimensionshierarchien und Attributen
• Normalisierung von Dimensionen
• Kennzahlen und Kennzahlensysteme
• Aggregate
• Modellierungsvarianten
© Dr. Michael Hahne 2005 TDWI-G 05 / 6 / 4
Artik
el
Region
Absatzmenge
471147124713
Nor
d
Ost
Süd
Wes
t
405080
20 157035
2030
...
...
...
...
...
... ... ... ......
...
...............
Periode
01/0502/05 Relation Absatz
Artikel Region Periode Absatzmenge
01/0501/0501/0501/05.......
4711471247134711.......
40203020.......
OstOstOstSüd.......
Übergang vom Würfel zur Relation
3
© Dr. Michael Hahne 2005 TDWI-G 05 / 6 / 5
Artik
el
Region
Absatzmenge
471147124713
Nor
d
Ost
Süd
Wes
t
405080
20 157035
2030
...
...
...
...
...
... ... ... ......
...
...............
Periode
01/0502/05 Relation Absatz
Artikel Region Periode Absatzmenge
01/0501/0501/0501/05.......
4711471247134711.......
40203020.......
OstOstOstSüd.......
Übergang vom Würfel zur Relation
© Dr. Michael Hahne 2005 TDWI-G 05 / 6 / 6
Artik
el
Region
Absatzmenge
471147124713
Nor
d
Ost
Süd
Wes
t
405080
20 157035
2030
...
...
...
...
...
... ... ... ......
...
...............
Periode
01/0502/05 Relation Absatz
Artikel Region Periode Absatzmenge
01/0501/0501/0501/05.......
4711471247134711.......
40203020.......
OstOstOstSüd.......
Übergang vom Würfel zur Relation
4
© Dr. Michael Hahne 2005 TDWI-G 05 / 6 / 7
Relationale Mehrdimensionalität
VertriebArtikel-IDPerioden-IDRegionen-IDAbsatzmenge
ArtikelArtikel-IDBezeichnungMaßeinheitPackungFarbe
PeriodePerioden-IDBezeichnung
RegionRegion-IDBezeichnungFläche in qkmBevölkerung
1
n
1
n
1
n
FaktentabelleFaktentabelle
DimensionstabellenDimensionstabellen
Star-SchemaStar-Schema
DimensionstabellenDimensionstabellenDimensionstabellenDimensionstabellen
© Dr. Michael Hahne 2005 TDWI-G 05 / 6 / 8
Einfaches Star Schema
Vertriebsweg
ProduktZeitMarketing
5
© Dr. Michael Hahne 2005 TDWI-G 05 / 6 / 9
Agenda
• Grundform des Star Schemas
• Modellierung von Dimensionshierarchien und Attributen
• Normalisierung von Dimensionen
• Kennzahlen und Kennzahlensysteme
• Aggregate
• Modellierungsvarianten
© Dr. Michael Hahne 2005 TDWI-G 05 / 6 / 10
Flache Struktur: Dimensionstabelle Vertriebsweg
Vertriebsweg_Id Vertriebsweg
1 Partner
2 Katalog
3 E-Shop
6
© Dr. Michael Hahne 2005 TDWI-G 05 / 6 / 11
Balancierte Baum/Waldstruktur: Dimensionstabelle Zeit
Zeit_Id Monat Quartal Jahr
1 Januar Q1 2004
2 Februar Q1 2004
3 März Q1 2004
4 April Q2 2004
5 Mai Q2 2004
… … … …
12 Dezember Q4 2004
13 Januar Q1 2005
14 Februar Q1 2005
… … … …
24 Dezember Q4 2005
© Dr. Michael Hahne 2005 TDWI-G 05 / 6 / 12
Unbalanciert: Dimensionstabelle Produkt (Ausschnitt)
Produkt_Id Produkt Untergruppe Gruppe Hauptgruppe
1 100 ? Widerstände Bauteile Elektronik
2 1 k? Widerstände Bauteile Elektronik
… … … … …
51 250 ?F Kondensatoren Bauteile Elektronik
52 500 ?F Kondensatoren Bauteile Elektronik
… … … … …
101 PA600 NULL Verstärker High Fidelity
102 PAX300 NULL Verstärker High Fidelity
103 PAX450 NULL Verstärker High Fidelity
… … … … …
7
© Dr. Michael Hahne 2005 TDWI-G 05 / 6 / 13
Parallele Hierarchie: Kalender und Geschäftsjahressicht
Zeit_Id Monat Quartal Jahr Geschäftsjahr
1 Januar Q1 2004 2003/2004
2 Februar Q1 2004 2003/2004
3 März Q1 2004 2003/2004
4 April Q2 2004 2004/2005
5 Mai Q2 2004 2004/2005
… … … … …
12 Dezember Q4 2004 2004/2005
13 Januar Q1 2005 2004/2005
14 Februar Q1 2005 2004/2005
… … … … …
24 Dezember Q4 2005 2005/2006
© Dr. Michael Hahne 2005 TDWI-G 05 / 6 / 14
Anteilige Verrechnung und Heterarchien
• Aufhebung der 1:n-Beziehung zwischen Ebenen der Konsolidierungshierarchie impliziert
– entweder Summation als Verdichtung (Heterarchie)– oder allgemeine Verdichtung (anteilige Verrechnung)
• Realisierung über zwei unterschiedliche Dimensionen
• Für anteilige Verrechnung sind Aggregate notwendig
8
© Dr. Michael Hahne 2005 TDWI-G 05 / 6 / 15
Attribute in Dimensionen
© Dr. Michael Hahne 2005 TDWI-G 05 / 6 / 16
Agenda
• Grundform des Star Schemas
• Modellierung von Dimensionshierarchien und Attributen
• Normalisierung von Dimensionen
• Kennzahlen und Kennzahlensysteme
• Aggregate
• Modellierungsvarianten
9
© Dr. Michael Hahne 2005 TDWI-G 05 / 6 / 17
Normale Produktdimension
© Dr. Michael Hahne 2005 TDWI-G 05 / 6 / 18
Normalisierte Produktdimension
10
© Dr. Michael Hahne 2005 TDWI-G 05 / 6 / 19
Partitionierte Produktdimension
© Dr. Michael Hahne 2005 TDWI-G 05 / 6 / 20
Agenda
• Grundform des Star Schemas
• Modellierung von Dimensionshierarchien und Attributen
• Normalisierung von Dimensionen
• Kennzahlen und Kennzahlensysteme
• Aggregate
• Modellierungsvarianten
11
© Dr. Michael Hahne 2005 TDWI-G 05 / 6 / 21
Kennzahlen und Kennzahlensysteme
• Speicherung von Kennzahlen als Wertspalten in der Faktentabelle
– Alle Kennzahlen sind isoliert und unabhängig voneinander
– Berechnung ist Teil des ETL-Prozesses
• Alternativ Kennzahlen in Dimension– Künstliche Faktenspalte für
Kennzahlenwert in Faktentabelle– Bei nicht additiven Abhängigkeiten mit
gespeicherten Aggregaten
FTMarketing
Zeit_Id (FK)Produkt_Id (FK)Vertriebsweg_Id (FK)
AbsatzUmsatz
© Dr. Michael Hahne 2005 TDWI-G 05 / 6 / 22
Agenda
• Grundform des Star Schemas
• Modellierung von Dimensionshierarchien und Attributen
• Normalisierung von Dimensionen
• Kennzahlen und Kennzahlensysteme
• Aggregate
• Modellierungsvarianten
12
© Dr. Michael Hahne 2005 TDWI-G 05 / 6 / 23
Aggregate
• Dynamische Berechnung:– Abfrage über SQL– Typischerweise viele Datensätze
der Faktentabelle betroffen– Join aller beteiligten Tabellen
• Vorberechnete Aggregate in der Faktentabelle:
– Qualifikation der Aggregattupel über entsprechende Dimensionsschlüssel
– Zusätzliches Level-Attribut hilfreich
Zeit_Id Monat Quartal Jahr
1 Januar Q1 2004
2 Februar Q1 2004
3 März Q1 2004
4 April Q2 2004
… … … …
12 Dezember Q4 2004
13 Januar Q1 2005
14 Februar Q1 2005
… … … …
24 Dezember Q4 2005
101 NULL Q1 2004
… … … …
104 NULL Q4 2004
105 NULL Q1 2005
… … … …
108 NULL Q4 2005
1001 NULL NULL 2004
1002 NULL NULL 2005
© Dr. Michael Hahne 2005 TDWI-G 05 / 6 / 24
Fact Constellation Schema
13
© Dr. Michael Hahne 2005 TDWI-G 05 / 6 / 25
Snow Flake Schema
© Dr. Michael Hahne 2005 TDWI-G 05 / 6 / 26
Agenda
• Grundform des Star Schemas
• Modellierung von Dimensionshierarchien und Attributen
• Normalisierung von Dimensionen
• Kennzahlen und Kennzahlensysteme
• Aggregate
• Modellierungsvarianten
14
© Dr. Michael Hahne 2005 TDWI-G 05 / 6 / 27
Galaxien
© Dr. Michael Hahne 2005 TDWI-G 05 / 6 / 28
Faktenlose Faktentabellen
• Factless Fact Tables: Faktentabellen, die gar keine Kennzahl beinhalten
• Dienen der Verfolgung von Ereignissen (Vorkommen der Schlüsselkombination,oftmals ergänzt um künstliches Zählfaktum in der Faktentabelle)
• Ebenfalls nicht eingetretene Ereignisse(z.B. beworbene aber nicht verkaufte Produkte)
Beispiel: Wirksamkeit von Werbemassnahmen– Lift: Ist der Umsatz beworbener Produkte höher als üblich?– Time shifting: Fallen die Umsätze der beworbenen Produkte nach der Werbung
wieder auf das vorherige Niveau?– Cannibalization: Verdrängt der Mehrumsatz eines beworbenen Produktes den
Umsatz anderer Produkte?
15
© Dr. Michael Hahne 2005 TDWI-G 05 / 6 / 29
Überlagerungstabelle
© Dr. Michael Hahne 2005 TDWI-G 05 / 6 / 30
Minidimensionen
16
© Dr. Michael Hahne 2005 TDWI-G 05 / 6 / 31
Hierarchien über rekursive Beziehungen
Kostenstelle_Id Kostenstelle Übergeordnete_Kostenstelle_Id
1 40 NULL
2 41 1
3 45 1
4 451 3
5 452 3
Kostenstelle_Id Kostenstelle Übergeordnete_Kostenstelle_Id
1 40 NULL
2 41 1
3 45 1
4 46 1
5 451 3
6 452 3
7 452 4
© Dr. Michael Hahne 2005 TDWI-G 05 / 6 / 32
Temporale Aspekte / Slowly Changing Dimensions
• Kimball:– Keine Historisierung– Einzelne Versionen– Erste und aktuelle Ausprägung
Produkt_AId Produkt_Id Produkt Version Gruppe
... ... ... ... ...
67 101 PA600 1 High Fidelity
68 102 PAX300 1 High Fidelity
314 102 PAX300 2 Consumer Electronic
69 103 PAX450 1 High Fidelity
... … … ... …
Produkt_Id Produkt Gruppe Aktuelle_Gruppe
... ... ... ...
101 PA600 High Fidelity High Fidelity
102 PAX300 High Fidelity Consumer Electronic
103 PAX450 High Fidelity High Fidelity
… … … ...
1
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 1
1) Abgrenzung und Einordnung von CPM und BI2) Architekturen und Komponenten analyseorientierter Informationssysteme3) Bestandteile multidimensionaler Datenstrukturen4) Methoden der semantischen Modellierung mehrdimensionaler
Datenstrukturen5) Umsetzung mit multidimensionalen Datenbanksystemen
6) Varianten und Bestandteile des Star Schemas7) Erweitertes Star Schema des SAP Business Information Warehouse8) Mehrdimensionales Datenmodell des Microsoft SQL Server9) Zusammenfassende Gegenüberstellung relationaler und multidimensionaler
Modellierung
Agenda
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 2
Agenda
• Architektur des Business Information Warehouse der SAP AG
• Erweitertes Star Schema der SAP AG
• Modellierungsvarianten von hierarchischen Dimensionsstrukturen
• Zeitabhängigkeit und Versionierung
• Gestaltungsempfehlungen für die Modellierung
• Grafische Modellrepräsentation
2
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 3
Agenda
• Architektur des Business Information Warehouse der SAP AG
• Erweitertes Star Schema der SAP AG
• Modellierungsvarianten von hierarchischen Dimensionsstrukturen
• Zeitabhängigkeit und Versionierung
• Gestaltungsempfehlungen für die Modellierung
• Grafische Modellrepräsentation
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 4
Architektur SAP® Business Information Warehouse
BW-Server
XML-Daten FlacheDateien
Non-SAP-Systeme SAP R/2 SAP R/3 SAP BW
FILE BAPI ServiceAPI
ODS
PSA
Info-CubesAdministratorWorkbench OLAP-
Prozessor
Metadaten-Manager Daten-Manager
Staging-Bereich
Administration
Scheduling
Monitoring
BAPI ODBO XML/A
Stamm-daten
Open Hub Service
DBConnect
Meta-daten
XML
Data Marts
SAP Anwendungen
Non-SAP-Anwendungen
DB
XML
Third-Party-Werkzeuge
BusinessExplorer
Metadaten-austausch
3
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 5
Fortschreibungsregeln
Fortschreibungsregeln
Datenfluss und Integrationsarchitektur
Quellsysteme
VertriebsdatenEMEA
VertriebsdatenUSA
Vertriebs-plandaten
nichttransformierteQuelldaten
Übertragungs- und Fortschreibungsregeln
OD
SEx
trak
tion
Anw
endu
ng v
onB
usin
ess-
Rul
es
Vertriebs-marktdaten
IstdatenVertrieb
PlandatenVertrieb
Vertriebs-marktdaten
Konsolidierungverschiedener Datenquellen
Vertriebs-daten
PSA
betriebswirtschaftlicheKonsolidierung
Info
-Cub
es Aggregation
Tran
sfor
mat
ion
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 6
Arten von Info-Cubes
Info-Cubes im BW-Server
Quellsysteme
ETL-Schicht
Abfrage-Schicht
Front-End
DirekterDurchgriff
Periodische Datenbeschaffung
Remote-Cube
Multi-Cube
Basis-Cubes
Form des InfoCube, der einen in sich geschlossenen
Datenbestand eines betriebswirtschaft-lichen Bereiches
enthält und physisch gespeichert vorliegt.
Übergeordneter Cube, der Daten aus
mehreren Cubes in einen gemeinsamen
Kontext stellt. Er enthält selbst keine
Daten!
Die Bewegungsdaten werden in diesem Fall nicht im BW, sondern extern verwaltet. Im
BW wird lediglich die Struktur des Remote-Cubes definiert. Für
das Reporting gelangen die Daten
über eine BAPI -Schnittstelle ins BW.
4
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 7
Agenda
• Architektur des Business Information Warehouse der SAP AG
• Erweitertes Star Schema der SAP AG
• Modellierungsvarianten von hierarchischen Dimensionsstrukturen
• Zeitabhängigkeit und Versionierung
• Gestaltungsempfehlungen für die Modellierung
• Grafische Modellrepräsentation
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 8
Datenziele sind Objekte, in denen Bewegungsdaten für Reporting-und Analysezwecke gehalten werden. Die Wichtigsten sind:
Info-Cubes
ODS-Objekte
Daneben gibt es im BW noch weitere Datenziele, die u. a. ein direktes Stammdaten-
Reporting ermöglichen (Info-Sets, Info-Objekte)
Datenziele im SAP® BW
5
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 9
Definition Info-Cube
• Der InfoCube ist ein zentraler Datenspeicher, auf dem Berichte und Analysen im SAP® BW basieren. Er enthält einen in sich geschlossenen Datenbestand z. B. eines betriebswirtschaftlichen Bereichs oder einer Geschäftseinheit.
• InfoCubes enthalten zwei Datentypen: Kennzahlen und Merkmale.
• Der Begriff „InfoCube“ bezeichnet eine Tabellenstruktur, in der eine Anzahl relationaler Tabellen im Sinne des sog. Star Schema-Datenmodells miteinander verknüpft sind.(multi-dimensionale Datenspeicherung)
• Star Schema: Dimensionstabellen gruppieren sich sternförmig um eine zentrale Faktentabelle.
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 10
Star Schema
• Das Star Schema ist die häufigste Art der Abbildung mehrdimensionaler Datenstrukturen in relationalen Datenbanken.
• Im Star Schema werden die Fakten in einer separaten Faktentabelle gespeichert, während die Merkmale in Dimensionstabellen gruppiert werden. Die Dimensionstabellen sind über Fremdschlüssel- / Primärschlüsselbeziehungen (DIM ID) mit der Faktentabelle verbunden.
• Auf diese Weise werden alle Datensätze aus der Faktentabelle eindeutig durch eine Wertekombination dieser Fremdschlüssel aus den Dimensionstabellen gekennzeichnet.
6
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 11
☺Hohe Performance bei der Analyse von Daten ☺Hohe Flexibilität beim Hinzufügen von Merkmalen
und Kennzahlen.
KAufgrund der Eindeutigkeit des Schlüssels in den Dimensionstabellen können keine
-N : M Beziehungen und -nur schlecht unbalancierte Hierarchien
dargestellt werden.
Deshalb entschied sich die SAP AG zur Erweiterung des Star – Schemas. Beim erweiterten Star Schema werden Stammdaten separat und unabhängig von den InfoCubes gespeichert.
Vor- und Nachteile des allgemeinen Star Schemas
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 12
Das erweiterte Star Schema ermöglicht Zugriff auf:
•Stammdatentabellen und ihre zugehörigen Attribute
•Texttabellen mit umfassenden mehrsprachigen Beschreibungen
•Externe Hierarchietabellen für den strukturierten Datenzugriff
SID-Tabellen (Zeigertabellen) liefern die technische Verknüpfung zu den
Stammdaten- und Hierarchietabellen außerhalb der Dimensionstabellen
eines Star-Schemas.
Erweitertes Star Schema
7
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 13
Faktentabelledes Info-Cube
DimensionstabelleZeit
DimensionstabelleProdukt
DimensionstabelleKunde Attribute Produkt:
Produktgruppe
Texte Produkt:Sprache, Bezeichnung
Hierarchien Produkt:Produkthierarchie
Attribute Kunde:Kundengruppe
Texte Kunde:Sprache, Bezeichnung
Hierarchien Kunde:Kundenhierarchie
Attribute Zeit:Feiertag
Texte Zeit:Sprache, Bezeichnung
Hierarchien Zeit:Kalenderhierarchie
Info
-Cub
e
Dimension ZeitDimension
Produkt
DimensionKunde
Info-Cube und Stammdaten
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 14
Stammdaten
Info-Cube
Stammdatenanbindung über SID-Tabellen
.
K P Z Absatz Umsatz .......
20 1000
50 2500
SID-Region Region
23 S5
DimensionstabelleKunde
K SID-Kunde SID-Kette SID-Niederl. SID- Zentrale
522 170
SID-Kette Kette
170 12769
Faktentabelle
DimensionstabelleProdukt
DimensionstabelleZeit
SID-Tabellefür Attribute
SID-Tabelle für Attribute
SID-Tabellefür Attribute
SID-Kunde Kunde
522 3417226
SID-Region
23
Kunde Text
3417226 Lampen Müller
Text-Tabellen für (sprachabhängige)
BezeichnungenRegion Text
S5 Süd 5/Frankfurt
8
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 15
DimensionstabelleKunde
K SID-Kunde. SID-Kette SID-Niederl. SID- Zentrale
522 170
SID-Tabelle BIC/XKundefür nicht-zeitabhängige Navigations-Attribute
SID-Kunde Kunde
522 3417226
SID-Region
23
SID-Tabelle BIC/SKundeStandard SID-Tabelle
SID-Kunde Kunde
522 3417226
SID-Tabelle BIC/YKundefür zeitabhängige
Navigations-Attribute
SID-Kunde Kunde DateFrom
522 3417226 ...
SID-Klasse
12
DateTo
...
Kunde Kundenname
3417226 Lampen Müller
Kunde
3417226
RegionDateFrom
...
DateTo
...
Stammdaten-Tabelle BIC/PKundefür nicht-zeitabhängige
Anzeige-AttributeStammdaten-Tabelle BIC/QKunde
für zeitabhängigeAnzeige-AttributeSüd 5/Frankfurt
S
X
Y
P
Q
Verschiedene Stammdaten-Tabellen
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 16
Hierarchietabellen
Kundengruppe A
Knoten
-21234
SIDSID der Hierarchie
S
Hierarchietabelle /BIC/KKundeTextknoten der Hierarchien
-21
pred
522234
succSID der Hierarchie Hierarchietabelle /BIC/IKundeParent-Child-Tupel der Hierarchien
3417226522
KundeSID-Kunde SID-Tabelle /BIC/SKundeStandard SID-Tabelle
I
K
…
SID-ZentraleDim-ID
170
SID-Kette
…522
SID-Niederl.SID-KundeDimensions-Tabelle Kunde
9
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 17
(1) Fakten(1) Fakten--TabelleTabelle
(2) Dimensions(2) Dimensions--TabellenTabellen
(3) zeit(3) zeit--unabhängigeunabhängige--SIDSIDzeitzeit--abhängigeabhängige--SIDSIDherkömmliche SID herkömmliche SID
(4) SID Attribute(4) SID Attribute
InfoCube
Komplexität des erweiterten Star Schemas im Überblick
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 18
Line-Item Dimensionen
K P Z Absatz Umsatz .......
20 1000
50 2500
SID-Region Region
23 S5
K SID-Kunde
522
Faktentabelle
SID-Tabellefür Attribute
SID-Tabelle für Attribute
SID-Kunde Kunde
522 3417226
SID-Region
23
DimensionstabelleKunde
K P Z Absatz Umsatz .......
20 1000
50 2500
SID-Region Region
23 S5
Faktentabelle
SID-Tabellefür Attribute
SID-Tabelle für Attribute
SID-Kunde Kunde
522 3417226
SID-Region
23
Line-Item:
Dimensionstabelleentfällt
10
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 19
Agenda
• Architektur des Business Information Warehouse der SAP AG
• Erweitertes Star Schema der SAP AG
• Modellierungsvarianten von hierarchischen Dimensionsstrukturen
• Zeitabhängigkeit und Versionierung
• Gestaltungsempfehlungen für die Modellierung
• Grafische Modellrepräsentation
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 20
Hierarchische Strukturen über Merkmale
SIDs
MerkmalKunde
MerkmalRegion
MerkmalLand
Kunde
Region
Land
Dimensionstabelle
11
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 21
Hierarchien in Dimensionen / Eigenschaften
• Ein Info-Objekt je levelà balancierte Struktur
• Schnellste Variante zur Abbildung von hierarchischen Strukturen
• Übergeordnete Attribute sind in Aggregate mit einzuschließen
• Keine vordefinierten Navigationspfade im BEx
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 22
SIDs
Navigationsattribute als Basis für hierarchische Strukturen
SID
MerkmalKunde
AttributRegion
AttributLand
Kunde
Region
Land
Dimensionstabelle
StammdatentabelleAttribute
12
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 23
Hierarchien über Attribute in Stammdaten / Eigenschaften
• Ein Info-Objekt je levelà balancierte Struktur
• Übergeordnete Attribute sind in Aggregate mit einzuschließen
• Keine vordefinierten Navigationspfade im Bex
• Schlechte Performance
• Hohe Flexibilität zur Reorganisation
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 24
Child Parent
Externe Hierarchien im BW
SID
MerkmalKunde
Textknoten
Kunde
Kanten
Dimensionstabelle
StammdatentabelleHierarchie
(Inclusion Table)
13
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 25
Externe Hierarchien / Eigenschaften
• Gut bei häufigen Strukturänderungen
• Unbalancierte Strukturen
• Mehrere Hierarchien pro Info-Objekt abbildbar und selektierbar
• Schlechte Performance ähnlich Navigationsattribute
• große Hierarchien problematisch
• Aggregate bei Zeitabhängigkeit nur bei gesamter Struktur zeitabhängig
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 26
Agenda
• Architektur des Business Information Warehouse der SAP AG
• Erweitertes Star Schema der SAP AG
• Modellierungsvarianten von hierarchischen Dimensionsstrukturen
• Zeitabhängigkeit und Versionierung
• Gestaltungsempfehlungen für die Modellierung
• Grafische Modellrepräsentation
14
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 27
Zeitabhängigkeit: Strukturelle Veränderungen in Dimensionen
P1 P2 P3 P4 P5
PG1 PG2
P1 P2 P3 P5 P6
PG1 PG2Strukturveränderungen
P4 gelöschtP6 hinzugefügtP3 verändert
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 28
Beispiel für “Slowly Changing Dimensions”
2003-042003-042003-042003-042003-052003-052003-052003-052003-05
Periode
100100100100100100100100100
P AP BP CP DP AP BP CP DP E
UmsatzProdukt
Fakten-Tabelle
PG XPG Y (geändert)
PG YPG Y
PG Y (neu)
P AP BP CP DP E
ProduktgruppeProdukt
Produktdimension in 2003-05
PG XPG XPG YPG Y
P AP BP CP D
ProduktgruppeProdukt
Produktdimension in 2003-04
15
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 29
Berichtsanforderungen - Szenarien
100300
Umsatz 2003-04
100400
PG XPG Y
Umsatz 2003-05Produktgruppe
200200
Umsatz 2003-04
200200
PG XPG Y
Umsatz 2003-05Produktgruppe
200200
Umsatz 2003-04
100400
PG XPG Y
Umsatz 2003-05Produktgruppe
100200
Umsatz 2003-04
100200
PG XPG Y
Umsatz 2003-05Produktgruppe
Berichtsszenario aktuelle Struktur
Berichtsszenario alte Struktur
Berichtsszenario historische Wahrheit
Berichtsszenario vergleichbare Resultate
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 30
Szenario I : Bericht mit aktueller Struktur
2003-042003-042003-042003-042003-052003-052003-052003-052003-05
Periode
100100100100100100100100100
P AP BP CP DP AP BP CP DP E
UmsatzProdukt
Fakten-Tabelle
100300
Umsatz 2003-04
100400
PG XPG Y
Umsatz 2003-05Produktgruppe
PG XPG Y (geändert)
PG YPG Y
PG Y (neu)
P AP BP CP DP E
ProduktgruppeProdukt
Produktdimension in 2003-05
16
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 31
Abfrageweg „aktuelle Struktur“ über Navigationsattribute
PG XPG Y
47114712
ProduktgruppeProduktgruppe SID
S-Tabelle von Produktgruppe
P AP BP CP DP E
Produkt
47114712471247124712
10011002100310041005
Produktgruppe SIDProdukt SID
X-Tabelle von Produkt
Dimensions-Tabelle Produkt
2526272829
10011002100310041005
Produkt DIM IDProdukt SID
„2003-04“„2003-04“„2003-04“„2003-04“„2003-05“„2003-05“„2003-05“„2003-05“„2003-05“
„Periode“
100100100100100100100100100
252627282526272829
UmsatzProdukt DIM ID
Fakten-Tabelle
100300
Umsatz 2003-04
100400
PG XPG Y
Umsatz 2003-05
Produktgruppe
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 32
Abfrageweg „aktuelle Struktur“ über externe Hierarchie
PG XPG Y
-2-3
nodenameSID
K-Tabelle von Produkt
10011002100310041005
succ
-2-3-3-3-3
pred
I-Tabelle von Produkt
Dimensions-Tabelle Produkt
2526272829
10011002100310041005
Produkt DIM IDProdukt SID
„2003-04“„2003-04“„2003-04“„2003-04“„2003-05“„2003-05“„2003-05“„2003-05“„2003-05“
„Periode“
100100100100100100100100100
252627282526272829
UmsatzProdukt DIM ID
Fakten-Tabelle
100300
Umsatz 2003-04
100400
PG XPG Y
Umsatz 2003-05
Produktgruppe
17
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 33
Szenario II : Bericht mit alter Struktur
2003-042003-042003-042003-042003-052003-052003-052003-052003-05
Periode
100100100100100100100100100
P AP BP CP DP AP BP CP DP E
UmsatzProdukt
Fakten-Tabelle
200200
Umsatz 2003-04
200200
PG XPG Y
Umsatz 2003-05Produktgruppe
PG XPG XPG YPG Y
P AP BP CP D
ProduktgruppeProdukt
Produktdimension in 2003-04
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 34
Abfrageweg „alte Struktur“ über zeitabh. Navigationsattribute
PG XPG Y
47114712
ProduktgruppeProduktgruppe SID
S-Tabelle von Produktgruppe
1000-011000-012003-051000-011000-012003-05
gültig ab
9999-122003-049999-129999-129999-129999-12
gültig bis
P AP BP BP CP DP E
Produkt
471147114712471247124712
100110021002100310041005
Produktgruppe SIDProdukt SID
Y-Tabelle von Produkt
Dimensions-Tabelle Produkt
2526272829
10011002100310041005
Produkt DIM IDProdukt SID
„2003-04“„2003-04“„2003-04“„2003-04“„2003-05“„2003-05“„2003-05“„2003-05“„2003-05“
„Periode“
100100100100100100100100100
252627282526272829
UmsatzProdukt DIM ID
Fakten-TabelleQuery key date2003-04
200200
Umsatz 2003-04
200200
PG XPG Y
Umsatz 2003-05
Produktgruppe
18
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 35
Abfrageweg „alte Struktur“ über zeitabhängige Hierarchie
PG XPG Y
-2-3
nodenameSID
K-Tabelle von Produkt
1111
Version
1001100210031004
succ
-2-2-3-3
pred
I-Tabelle von Produkt
Dimensions-Tabelle Produkt
2526272829
10011002100310041005
Produkt DIM IDProdukt SID
„2003-04“„2003-04“„2003-04“„2003-04“„2003-05“„2003-05“„2003-05“„2003-05“„2003-05“
„Periode“
100100100100100100100100100
252627282526272829
UmsatzProdukt DIM ID
Fakten-Tabelle
200200
Umsatz 2003-04
200200
PG XPG Y
Umsatz 2003-05
Produktgruppe
2003-049999-12
Gültig bis
1000-012003-05
gültig ab
12
Version
Query key date2003-04
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 36
Szenario III : Bericht nach historischer Wahrheit
2003-042003-042003-042003-042003-052003-052003-052003-052003-05
Periode
100100100100100100100100100
P AP BP CP DP AP BP CP DP E
UmsatzProdukt
Fakten-Tabelle
PG XPG Y (geändert)
PG YPG Y
PG Y (neu)
P AP BP CP DP E
ProduktgruppeProdukt
Produktdimension in 2003-05
PG XPG XPG YPG Y
P AP BP CP D
ProduktgruppeProdukt
Produktdimension in 2003-04
200200
Umsatz 2003-04
100400
PG XPG Y
Umsatz 2003-05Produktgruppe
19
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 37
Abfrageweg „historische Wahrheit“ über Merkmale
PG XPG Y
47114712
ProduktgruppeProduktgruppe SID
S-Tabelle von Produktgruppe
Dimensions-Tabelle Produkt
471147114712471247124712
Produktgruppe SID
252630272829
100110021002100310041005
Produkt DIM IDProdukt SID
„2003-04“„2003-04“„2003-04“„2003-04“„2003-05“„2003-05“„2003-05“„2003-05“„2003-05“
„Periode“
100100100100100100100100100
252627282530272829
UmsatzProdukt DIM ID
Fakten-Tabelle
200200
Umsatz 2003-04
100400
PG XPG Y
Umsatz 2003-05Produktgruppe
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 38
Szenario IV : Bericht mit vergleichbaren Resultaten
2003-042003-042003-042003-042003-052003-052003-052003-052003-05
Periode
100100100100100100100100100
P AP BP CP DP AP BP CP DP E
UmsatzProdukt
Fakten-Tabelle
PG XPG Y (geändert)
PG YPG Y
PG Y (neu)
P AP BP CP DP E
ProduktgruppeProdukt
Produktdimension in 2003-05
PG XPG XPG YPG Y
P AP BP CP D
ProduktgruppeProdukt
Produktdimension in 2003-04
100200
Umsatz 2003-04
100200
PG XPG Y
Umsatz 2003-05Produktgruppe
20
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 39
Abfrageweg „vergl. Resultate“ über zeitabh. Nav-Attribute
PG XPG Y
47114712
ProduktgruppeProd.grp. SID
S-Tabelle von Produktgruppe
9999-122003-049999-129999-129999-129999-12
ben. bis
1000-011000-012003-051000-011000-012003-05
ben. ab
1000-011000-012003-051000-011000-012003-05
gültig ab
9999-122003-049999-129999-129999-129999-12
gültig bis
P AP BP BP CP DP E
Prod.
471147114712471247124712
100110021002100310041005
Prod.grp. SIDProd. SID
Y-Tabelle von Produkt
Dimensions-Tabelle Produkt
2526272829
10011002100310041005
Produkt DIM IDProd. SID
„2003-04“„2003-04“„2003-04“„2003-04“„2003-05“„2003-05“„2003-05“„2003-05“„2003-05“
„Periode“
100100100100100100100100100
252627282526272829
UmsatzProdukt DIM ID
Fakten-Tabelle
Query key date2003-04 od. 2003-05
100200
Umsatz 2003-04
100200
PG XPG Y
Umsatz 2003-05
Produktgruppe
ben. ab < 2003-04ben. bis > 2003-05
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 40
Agenda
• Architektur des Business Information Warehouse der SAP AG
• Erweitertes Star Schema der SAP AG
• Modellierungsvarianten von hierarchischen Dimensionsstrukturen
• Zeitabhängigkeit und Versionierung
• Gestaltungsempfehlungen für die Modellierung
• Grafische Modellrepräsentation
21
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 41
Gestaltungsempfehlungen
• Modellierung von Dimensionsstrukturen
• Gestaltung von Info-Providern
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 42
Gestaltungsüberlegungen der Dimensionsmodellierung auf semantischer Ebene
• Anzahl der Dimensionen zwischen vier und zehn (ideal zwischen sechs und acht)
• Anzahl der Hierarchiestufen (maximal sieben Hierarchiestufen)
• Anzahl der Elemente je Konsolidierungselement (maximal fünfzehn bis zwanzig Elemente)
• Bestimmung von Dimensionen (1:1-Beziehungen ungeeignet; 1:N-Beziehungen bilden Dimensionshierarchie; M:N-Beziehungen stellen zwei Dimensionen dar)
22
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 43
Gestaltungsüberlegungen der Dimensionsmodellierung auf logischer und physischer BW-Ebene
• Merkmale mit vielen Ausprägungen als Line-Item modellieren
• Attribute, die sich häufig ändern, sollten als eigene Dimension modelliert werden (Line Item beachten!)
• Steigt die gesamte Dimensionsanzahl, sind ggf. Merkmale in eine Dimension zusammen zu fassen, die jeweils selbst wenige Ausprägungen haben
• Große Dimensionen möglichst eigene Dimension, Parent-Merkmale evtl. in eigene Dimension
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 44
Kriterien zur Entscheidungshilfe der logischen Modellierung von Dimensionsstrukturen im BW
• Historisierung
• Wirkungsbereich
• Performance
• Navigationspfade
• Unbalancierte Dimensionsstrukturen
• Blätter mit mehreren Parent-Elementen
• Strukturänderungen und Reorganisation
23
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 45
Hierarchie-Guideline: Historisierung
• Sicht zum Zeitpunkt des Ladens nicht vorhanden
• Nur die gültige Sicht der Stammdaten zum Zeitpunkt der Auswertung
• Nur Sicht zum Zeitpunkt des Ladens möglich
• Sicht zum Zeitpunkt des Ladens nicht vorhanden
• Sichten per Version oder Schlüsseldatum
Hierarchie über Attribute
Hierarchie in Dimension über Merkmale
Externe Hierarchie
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 46
Hierarchie-Guideline: Wirkungsbereich
Hierarchie hängt in den Stammdaten und gilt daher für dieses Info-Object in allen Info-Cubes
Nur im Info-CubeHängt am Info-Objectund gilt daher für dieses Info-Object in allen Info-Cubes
Hierarchie über Attribute
Hierarchie in Dimension über Merkmale
Externe Hierarchie
24
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 47
Hierarchie-Guideline: Performance
Aggregate werden unbedingt benötigt für performante Abfragen
Auch ohne Aggregate recht performant
Aggregate werden unbedingt benötigt für performante Abfragen
Hierarchie über Attribute
Hierarchie in Dimension über Merkmale
Externe Hierarchie
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 48
Hierarchie-Guideline: Navigations-Pfade
Ebenen können übersprungen werden, da Navigationspfad nicht vordefiniert ist
Ebenen können übersprungen werden, da Navigationspfad nicht vordefiniert ist
Vordefinierte Navigation entlang der Hierarchie-Struktur
Hierarchie über Attribute
Hierarchie in Dimension über Merkmale
Externe Hierarchie
25
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 49
Hierarchie-Guideline: unbalancierte Dimensionsstrukturen
Jedes Attribut korrespondiert mit einer festgelegten Ebene der Hierarchie, also nur balancierte Strukturen
Jedes Merkmal korrespondiert mit einer festgelegten Ebene der Hierarchie, also nur balancierte Strukturen
Unbalancierte Strukturen sind abbildbar
Hierarchie über Attribute
Hierarchie in Dimension über Merkmale
Externe Hierarchie
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 50
Hierarchie-Guideline: Blätter mit mehreren Parent-Elementen
Nicht möglichNur in dem Maße, wie es in der Faktentabelle gebucht wurde
m:n-Beziehungen zwischen Ebenen möglich
Hierarchie über Attribute
Hierarchie in Dimension über Merkmale
Externe Hierarchie
26
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 51
Hierarchie-Guideline: Strukturänderungen und Reorganisation
Reorganisation möglich durch zusätzliche Attribute
Reorganisation nicht möglich, ohne den Info-Cube neu zu laden
Schnelles Verändern der Hierarchie möglich
Hierarchie über Attribute
Hierarchie in Dimension über Merkmale
Externe Hierarchie
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 52
2-Layer Konzept der Cube-Modellierung
Multi-Cube
physischoptimiert
Fachanwenderorientiert
Basis-Cube Basis-Cube Basis-Cube
27
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 53
Agenda
• Architektur des Business Information Warehouse der SAP AG
• Erweitertes Star Schema der SAP AG
• Modellierungsvarianten von hierarchischen Dimensionsstrukturen
• Zeitabhängigkeit und Versionierung
• Gestaltungsempfehlungen für die Modellierung
• Grafische Modellrepräsentation
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 54
Dimension mit einem Merkmal
T Short, Medium,Long
Dimension
Characteristic{ }
28
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 55
Line-Item-Dimension
T Short, Medium,LongLD
DimensionLI
Characteristic{ }
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 56
Anzeige-Attribute eines Merkmales
Dimension
D Display-Attrib.
T Short, Medium,Long
D Display-Attrib.
Characteristic{ }
29
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 57
Navigationsattribute eines Merkmales
Dimension
N Nav-Attribute
N Nav-AttributeTD
Characteristic{ }
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 58
Hierarchie über Merkmale
Dimension
CharacteristicBase level{ }
CharacteristicMiddle level{ }
CharacteristicTop level{ }
30
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 59
Hierarchie über Navigationsattribute
Dimension
N Nav-Attributemiddle level
N Nav-Attributetop level
CharacteristicBase level{ }
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 60
Externe Hierarchien
Dimension
Hierarchy(external)
Hierarchy(external)T
Hierarchy(external)
T
TT
Characteristic{ }
31
© Dr. Michael Hahne 2005 TDWI-G 05 / 7 / 61
Modellierung von Basis-Cubes
1
© Dr. Michael Hahne 2005 TDWI-G 05 / 8 / 1
1) Abgrenzung und Einordnung von CPM und BI2) Architekturen und Komponenten analyseorientierter Informationssysteme3) Bestandteile multidimensionaler Datenstrukturen4) Methoden der semantischen Modellierung mehrdimensionaler
Datenstrukturen5) Umsetzung mit multidimensionalen Datenbanksystemen
6) Varianten und Bestandteile des Star Schemas7) Erweitertes Star Schema des SAP Business Information Warehouse8) Mehrdimensionales Datenmodell des Microsoft SQL Server9) Zusammenfassende Gegenüberstellung relationaler und multidimensionaler
Modellierung
Agenda
© Dr. Michael Hahne 2005 TDWI-G 05 / 8 / 2
Agenda
• Microsoft SQL-Server 2000
– Microsoft Data Warehouse Architektur– Dimensionsmodellierung mit den Microsoft Analysis Services– Attribute und Dimensionen– Modellierung von Cubes– Kennzahlen
• Microsoft SQL Server 2005
– Unified Dimensional Model– Dimensionen
2
© Dr. Michael Hahne 2005 TDWI-G 05 / 8 / 3
Agenda
• Microsoft SQL-Server 2000
– Microsoft Data Warehouse Architektur– Dimensionsmodellierung mit den Microsoft Analysis Services– Attribute und Dimensionen– Modellierung von Cubes– Kennzahlen
• Microsoft SQL Server 2005
– Unified Dimensional Model– Dimensionen
© Dr. Michael Hahne 2005 TDWI-G 05 / 8 / 4
Architektur Microsoft Data Warehouse
Quellsysteme
Data Transformation Services (DTS)
Data WarehouseSQL Server
Data Transformation Services (DTS)
Analysis Services
OLE DB for OLAP / ADO MD
Front-End
3
© Dr. Michael Hahne 2005 TDWI-G 05 / 8 / 5
Architektur Analysis Services
Analysis Manager
Decision Support Objects (DSO)
Analysis Server
OLAPEngine
Data MiningEngine
MOLAP-Speicher
© Dr. Michael Hahne 2005 TDWI-G 05 / 8 / 6
Agenda
• Microsoft SQL-Server 2000
– Microsoft Data Warehouse Architektur– Dimensionsmodellierung mit den Microsoft Analysis Services– Attribute und Dimensionen– Modellierung von Cubes– Kennzahlen
• Microsoft SQL Server 2005
– Unified Dimensional Model– Dimensionen
4
© Dr. Michael Hahne 2005 TDWI-G 05 / 8 / 7
Dimensionen in den Analysis Services
• Parents (übergeordnete Elemente)• Siblings (Elemente mit dem gleichen übergeordneten Element)• Children (untergeordnete Elemente)• Cousins (Elemente einer Ebene mit verschiedenen übergeordneten Elementen)• Descendants of x (Nachfolger von x)• Ancestors of x (Vorgänger von x)
A2 A3 A4 A5 A6 A7 A8 A9A1
All Artikel
AG2 AG3AG1
Dimension Artikel
© Dr. Michael Hahne 2005 TDWI-G 05 / 8 / 8
Technische Restriktionen
• 65535 Dimensionen pro Datenbank
• 65535 Ebenen pro Datenbank
• 128 Dimensionen pro Cube
• 256 Ebenen pro Cube
• 64 Ebenen pro Dimension
• 64000 untergeordnete Elemente je übergeordnetem Element
5
© Dr. Michael Hahne 2005 TDWI-G 05 / 8 / 9
Shared vs. Private Dimensionen
Kunde
Produkt
Zeit
Sales-Org Szenario
Hat Auswirkungen auf die Aktualisierungsläufe
© Dr. Michael Hahne 2005 TDWI-G 05 / 8 / 10
Balancierte Dimensionen
Star SchemaSQL-Server
DimensionstabellenStandard oder Snowflake –
Fakten beziehen sich auf die unterste Ebene
A
Alle
AG
Jede Ebene der Dimension wird von einer Spalte einer Dimensionstabelle
des Star Schemas befüllt
A2 A3 A4 A5 A6 A7 A8 A9A1
All Artikel
AG2 AG3AG1
6
© Dr. Michael Hahne 2005 TDWI-G 05 / 8 / 11
Unbalancierte DimensionenStar SchemaSQL-Server
DimensionstabellenStandard oder Snowflake –
Die „Lücken“ werden redundant gefüllt –
Fakten beziehen sich auf die unterste Ebene
Jede Ebene der Dimension wird von einer Spalte einer Dimensionstabelle
des Star Schemas befüllt
A2 A3 A4 A5 A6 A7 A8 A9A1
Alle
AG2 AG3AG1
AOG1 AG3A
Alle
AG
AOG
Wird ausgeblendet!
© Dr. Michael Hahne 2005 TDWI-G 05 / 8 / 12
Dimensionen auf Basis einer Parent-Child-RelationStar SchemaSQL-Server
Dimensionstabelle mit Parent-Child-Relation –
Fakten können sich auf alle Ebenen beziehen
Die Ebenen werden aus der Selbstrelation abgeleitet –
Ebenenbezeichnungen können vergeben werden
A2 A3 A4 A5 A6 A7 A8 A9A1
Alle
AUG2 AG2AUG1
AG1A
Alle
AUG
AG
Level
1
2
3
4
7
© Dr. Michael Hahne 2005 TDWI-G 05 / 8 / 13
Agenda
• Microsoft SQL-Server 2000
– Microsoft Data Warehouse Architektur– Dimensionsmodellierung mit den Microsoft Analysis Services– Attribute und Dimensionen– Modellierung von Cubes– Kennzahlen
• Microsoft SQL Server 2005
– Unified Dimensional Model– Dimensionen
© Dr. Michael Hahne 2005 TDWI-G 05 / 8 / 14
Attribute (Elementeigenschaften)
Star SchemaSQL-Server
DimensionstabellenStandard oder Snowflake –
Fakten beziehen sich auf die unterste Ebene –
Mit zusätzlichen Spalten für Attribute je Ebene
A
Alle
AG
Jede Ebene der Dimension wird von einer Spalte einer Dimensionstabelle
des Star Schemas befüllt
A2 A3 A4A1
All Artikel
AG1
Die Attributspalten bedienen die Elementeigenschaften
Preis
PM
Product Manager abc
Preis 1 Preis 2 Preis 3 Preis 4
8
© Dr. Michael Hahne 2005 TDWI-G 05 / 8 / 15
Virtuelle Dimensionen
Dimension mit Attributen
A
Alle
AG
Aus einer oder mehreren Elementeigenschaften wird die virtuelle Dimension abgeleitet
A2 A3 A4A1
All Artikel
AG1
Preis
PM
Product Manager abc
Preis 1 Preis 2 Preis 3 Preis 4
Dimension ArtikelPM abc
All PM
Dimension PM
© Dr. Michael Hahne 2005 TDWI-G 05 / 8 / 16
Agenda
• Microsoft SQL-Server 2000
– Microsoft Data Warehouse Architektur– Dimensionsmodellierung mit den Microsoft Analysis Services– Attribute und Dimensionen– Modellierung von Cubes– Kennzahlen
• Microsoft SQL Server 2005
– Unified Dimensional Model– Dimensionen
9
© Dr. Michael Hahne 2005 TDWI-G 05 / 8 / 17
Star SchemaSQL-Server
Speichervarianten
MOLAP-Speicher
ROLAP MOLAP HOLAP
Speicher
Aggregate
AggregattabellenSQL-Server
Aggregat-Cubes Aggregat-Cubes
Star SchemaSQL-Server
© Dr. Michael Hahne 2005 TDWI-G 05 / 8 / 18
Virtuelle Cubes
ActualSales
Forecast
Sales
10
© Dr. Michael Hahne 2005 TDWI-G 05 / 8 / 19
Partitionen
AktuellesJahr
Vorjahr
Historie
ActualSales
Viele Aggregat-Cubes
Wenig Aggregat-Cubes
ROLAP-Speicherohne Aggregate
© Dr. Michael Hahne 2005 TDWI-G 05 / 8 / 20
Agenda
• Microsoft SQL-Server 2000
– Microsoft Data Warehouse Architektur– Dimensionsmodellierung mit den Microsoft Analysis Services– Attribute und Dimensionen– Modellierung von Cubes– Kennzahlen
• Microsoft SQL Server 2005
– Unified Dimensional Model– Dimensionen
11
© Dr. Michael Hahne 2005 TDWI-G 05 / 8 / 21
Modellierung von Kennzahlen
Star SchemaSQL-Server
Numerische Spalten der Faktentabelle
Die Wertspalten der Faktentabelle füllen die Kennzahlen
ActualSalesUnd bilden automatisch die
Kennzahlen-Dimension
MeasuresDie Berechnung erfolgt uniform über alle
Dimensionen hinweg anhand der Aggregat-funktionen sum, count, min, max, distinct count
„Derived Measures“ bieten darüber hinausgehende
Möglichkeiten
© Dr. Michael Hahne 2005 TDWI-G 05 / 8 / 22
Agenda
• Microsoft SQL-Server 2000
– Microsoft Data Warehouse Architektur– Dimensionsmodellierung mit den Microsoft Analysis Services– Attribute und Dimensionen– Modellierung von Cubes– Kennzahlen
• Microsoft SQL Server 2005
– Unified Dimensional Model– Dimensionen
12
© Dr. Michael Hahne 2005 TDWI-G 05 / 8 / 23
Aktueller Aufbau unternehmensweiter BI-Lösungen
DW
Datamart
Datamart
DatenmodellDatenmodell
Reporting Reporting Tool (3)Tool (3)
MOLAP
MOLAP
Reporting Reporting Tool (1)Tool (1)
ToolToolDatenquelleDatenquelle
OLAP OLAP Browser (2)Browser (2)
OLAP OLAP Browser (1)Browser (1)
Reporting Reporting Tool (1)Tool (1)
© Dr. Michael Hahne 2005 TDWI-G 05 / 8 / 24
Probleme unternehmensweiter BI-Lösungen
DW
Datamart
Datamart
DatenmodellDatenmodell
Reporting Reporting Tool (3)Tool (3)
MOLAP
MOLAP
Reporting Reporting Tool (1)Tool (1)
ToolToolDatenquelleDatenquelle
OLAP OLAP Browser (2)Browser (2)
OLAP OLAP Browser (1)Browser (1)
Reporting Reporting Tool (1)Tool (1)
DoppelteDoppelteDatenDaten
DoppelteDoppelteModelleModelle
OLAPOLAPvs.vs.ReportingReporting
13
© Dr. Michael Hahne 2005 TDWI-G 05 / 8 / 25
Relationales vs. OLAP-Reporting
ü
ü
ü
ü
ü
û
û
û
û
û
OLAP
ûEase of navigation and exploration
üDetail reporting
ûRich semantics
ûRich analytics
ûEnd-user oriented
ûHigh performance
üSimple management
üSingle data store
üReal time data access
üFlexible schema
RelationalFeature
© Dr. Michael Hahne 2005 TDWI-G 05 / 8 / 26
The Unified Dimensional Model (UDM)
Relational Reporting• Multiple fact tables• Full richness the
dimensions’ attributes • Transaction level access• Star, snowflake, 3NF… • Complex relationships:
Multi-grains, many-to-many, role playing, indirect…
• Recursive self joins• Slowly changing
dimensions
OLAP Cubes• Multidimensional navigation• Hierarchical presentation• Friendly entity names• Powerful MDX calculations• Central KPI framework• “Actions” • Language translations • Multiple perspectives• Partitions• Aggregations • Distributed sources
14
© Dr. Michael Hahne 2005 TDWI-G 05 / 8 / 27
The Unified Dimensional Model (UDM)
Relational Reporting• Multiple fact tables• Full richness the
dimensions’ attributes • Transaction level access• Star, snowflake, 3NF… • Complex relationships:
Multi-grains, many-to-many, role playing, indirect…
• Recursive self joins• Slowly changing
dimensions
OLAP Cubes• Multidimensional navigation• Hierarchical presentation• Friendly entity names• Powerful MDX calculations• Central KPI framework• “Actions” • Language translations • Multiple perspectives• Partitions• Aggregations • Distributed sources
The Unified Dimensional Model
The Unified Dimensional Model
© Dr. Michael Hahne 2005 TDWI-G 05 / 8 / 28
Unternehmensweite BI-Lösungen mit dem UDM (I)
DW
Datamart
Datamart
DatenmodellDatenmodell
BI ApplicationsBI Applications
MOLAP
MOLAP
Reporting Reporting Tool (1)Tool (1)
ToolToolDatenquelleDatenquelle
OLAP OLAP Browser (2)Browser (2)
OLAP OLAP Browser (1)Browser (1)
Reporting Reporting Tool (1)Tool (1)UDMUDM
15
© Dr. Michael Hahne 2005 TDWI-G 05 / 8 / 29
Unternehmensweite BI-Lösungen mit dem UDM (II)
DW
Datamart
Datamart
DatenmodellDatenmodell
BI ApplicationsBI Applications
MOLAP
MOLAP
Reporting Reporting Tool (1)Tool (1)
ToolToolDatenquelleDatenquelle
OLAP OLAP Browser (2)Browser (2)
OLAP OLAP Browser (1)Browser (1)
Reporting Reporting Tool (1)Tool (1)UDMUDM
Ein dimensionales Modell fEin dimensionales Modell füür OLAPr OLAP Analysen und relationales ReportingAnalysen und relationales Reporting
© Dr. Michael Hahne 2005 TDWI-G 05 / 8 / 30
Analysis Services – UDM-Server
XML/
A od
erO
DBO
DW
Datamart
Datamart
BI ApplicationsBI Applications
MOLAP
MOLAP
Reporting Reporting Tool (1)Tool (1)
ToolToolDatenquelleDatenquelle
OLAP OLAP Browser (2)Browser (2)
OLAP OLAP Browser (1)Browser (1)
Reporting Reporting Tool (1)Tool (1)UDMUDM
AnalysisAnalysisServicesServices
16
© Dr. Michael Hahne 2005 TDWI-G 05 / 8 / 31
MOLAP-Caching
XML/
A or
OD
BO
DW
Datamart
Datamart
BI ApplicationsBI Applications
MOLAP
MOLAP
Reporting Reporting Tool (1)Tool (1)
ToolTool
DatenquelleDatenquelle
OLAP OLAP Browser (2)Browser (2)
OLAP OLAP Browser (1)Browser (1)
Reporting Reporting Tool (1)Tool (1)UDMUDM
AnalysisAnalysisServicesServices
CacheNotificationsNotifications
““Proactive CachingProactive Caching”” –– Automatische Erzeugung und Verwaltung desAutomatische Erzeugung und Verwaltung des MOLAP MOLAP cachecacheTransparentes MOLAPTransparentes MOLAP –– keine Notwendigkeit mehr fkeine Notwendigkeit mehr füürr OLAP OLAP SpeicherSpeicherRelationalesRelationales ReportingReporting mitmit MOLAPMOLAP PerformancePerformance
© Dr. Michael Hahne 2005 TDWI-G 05 / 8 / 32
Virtualisierung von Data Marts
XML/
A or
OD
BO
DW
Datamart
Datamart
BI ApplicationsBI Applications
Reporting Reporting Tool (1)Tool (1)
ToolTool
DatenquelleDatenquelle OLAP OLAP Browser (2)Browser (2)
OLAP OLAP Browser (1)Browser (1)
Reporting Reporting Tool (1)Tool (1)UDMUDM
UDMUDM’’ss stellenstellen themenspezifische Sichten desthemenspezifische Sichten des DW zur VerfDW zur Verfüügunggung““PerspectivesPerspectives”” feature:feature: BenutzerBenutzer-- und Gruppenspezifische Sichten auf die gleichen Datenund Gruppenspezifische Sichten auf die gleichen DatenGuteGute PerformancePerformance durchdurch Proactive Cache Proactive Cache
AnalysisAnalysisServicesServices
Cache
17
© Dr. Michael Hahne 2005 TDWI-G 05 / 8 / 33
Zeitgemäße BI-Infrastruktur
XML/
A or
OD
BO
DW
BI ApplicationsBI Applications
Reporting Reporting Tool (1)Tool (1)
ToolTool
Data SourceData Source
OLAP OLAP Browser (2)Browser (2)
OLAP OLAP Browser (1)Browser (1)
Reporting Reporting Tool (1)Tool (1)UDMUDM
Vereinheitlichtes (unified)Vereinheitlichtes (unified) logisches Datenmodell flogisches Datenmodell füürr OLAP OLAP und relationales Reportingund relationales ReportingDatenkonsistenz durch einen Datenspeicher (EDW)Datenkonsistenz durch einen Datenspeicher (EDW)
AnalysisAnalysisServicesServices
Cache
© Dr. Michael Hahne 2005 TDWI-G 05 / 8 / 34
Agenda
• Microsoft SQL-Server 2000
– Microsoft Data Warehouse Architektur– Dimensionsmodellierung mit den Microsoft Analysis Services– Attribute und Dimensionen– Modellierung von Cubes– Kennzahlen
• Microsoft SQL Server 2005
– Unified Dimensional Model– Dimensionen
18
© Dr. Michael Hahne 2005 TDWI-G 05 / 8 / 35
Changing Dimension Support
• Drei Arten von Dimensionen, abhängig von Häufigkeit der Änderungen:
– Regular Dimensions:nicht-zeitabhängig, repräsentiert aktuelle Struktur gemäß ETL-Prozess
– Slowly Changing Dimensions (SCDs):Dimensionsänderungen treten nicht so häufig auf und müssen auswertbar sein
– Rapidly Changing Dimensions (RCDs):Häufige oder umfangreiche Änderungen, die auswertbar sein müssen
© Dr. Michael Hahne 2005 TDWI-G 05 / 8 / 36
Slowly Changing Dimensions (SCDs)
• SCD Type I:
keine Historisierung, Attributwerte werden überschrieben, Schlüssel bleibt unverändert
• SCD Type II:
Einzelne Versionen, künstlicher Schlüssel, Gültigkeit über Zeitintervall abgebildet
• SCD Type III:
Originalwert und aktueller Wert als eigene Attribute, auch anwendbar bei n festen Versionen
19
© Dr. Michael Hahne 2005 TDWI-G 05 / 8 / 37
Rapidly Changing Dimensions (RCDs)
• Bei sehr großen Dimensionen und häufigen Änderungen von Attributwerten ist die Versionierung mit SCD Type II unbefriedigend
à Konzept der RCDs
• Speicherung aller möglichen Kombinationen von Dimensionselement und Attributwert in einer Matrix à Rapidly Changing Dimension
• Zusammengesetzter Schlüssel ist Primärschlüssel der Dimensionstabelle und Fremdschlüssel der Faktentabelle, Update erfolgt in der Faktentabelle
1
SA2 / 3 / 1
Agenda
1) Abgrenzung und Einordnung von CPM und BI2) Architekturen und Komponenten analyseorientierter Informationssysteme3) Bestandteile multidimensionaler Datenstrukturen4) Methoden der semantischen Modellierung mehrdimensionaler Datenstrukturen5) Umsetzung mit multidimensionalen Datenbanksystemen6) Varianten und Bestandteile des Star Schemas7) Erweitertes Star Schema des SAP Business Information Warehouse8) Mehrdimensionales Datenmodell des Microsoft SQL Server9) Zusammenfassende Gegenüberstellung relationaler und multidimensionaler
Modellierung
SA2 / 3 / 2
Speicherkomponenten und -technologien analytischer Informationssysteme
Data MartData Warehouse
Data MartOperational Data Store
Integrierte Detaildaten ggf. bis auf Belegebene für operatives Reporting
Relationale Speichertechnologie
Klassische relationale Datenablage (3. Normalform)
Verdichtete Daten (z. B. Tagesbasis)
Relationale Speichertechnologie
Star-Schema-ModelleDenormalisiert
Stark verdichtete Daten mit thematischer Ausrichtung
Relationale oder multidimensionale Speichertechnologie
Star-Schema oder physisch multidimensionale Ablage
2
SA2 / 3 / 3
Vergleich relationales und multidimensionales Speicherkonzept
RelationalesSpeicherkonzept
• Skalierbarkeit• Häufig Read-Only-Lösungen• Beliebige Datenmengen• Zahlreiche Attribute in jeder Dimension
möglich• Mäßige Performance• Zusatzoptionen (Spezielle
Indextechniken)
Multidimensionales Speicherkonzept
• Plattformabhängig• Datenmodifikation möglich
(What If)• Aufblähung des Datenbestandes• Eingeschränkte Attributanzahl je
Dimension• Gute Performance• Black Box