Jens SchmidtSenior MemberTechnical Staff
Oracle 9i Data MiningConnector 1.1für mySAP BW™
Agenda
• Data Mining Grundlagen• Der Data Mining Prozess• Oracle Data Mining Integration
mit mySAP BW• Oracle Data Mining im Vergleich
Agenda
• Data Mining Grundlagen• Der Data Mining Prozess• Oracle Data Mining Integration
mit mySAP BW• Oracle Data Mining im Vergleich
Data Mining – GrundlagenQuery und Reporting
Detaillierte, aggregierteInformation
Wer hat in den letzen 3 Jahren Produkt A ge-kauft?
OLAP
Aggregation,Trend,Prognose
Wie hoch ist das Einkommen der Käufer von A per Jahr und Region?
Data Mining
Neues Wissen durch Untersuchung verborgener Muster
Wer wird im nächsten halben Jahr Produkt A kaufen und warum?
Säuberlich, 2000
Data Mining – Verfahren
Abhängigkeits-entdeckung
Klassifikation/Vorhersage Segmentierung
•Assoziation•Sequentielle Muster
•Clusteranalyse•Kohonen SOM
•Diskriminanzanalyse•Entscheidungsbaum-verfahren•K-Nearest-Neighbor•Neuronale Netze•Regelbasierte Verfahren•Regression•Support Vector
Data Mining – Verfahren
Abhängigkeits-entdeckung
Klassifikation/Vorhersage Segmentierung
•Diskriminanzanalyse•Entscheidungsbaum-verfahren•K-Nearest-Neighbor•Neuronale Netze•Regelbasierte Verfahren•Regression•Support Vector
•Clusteranalyse•Kohonen SOM
•Assoziation•Sequentielle Muster
Faktoranalyse
•Attribute ImportanceOracle 9iR2
Data Mining – Verfahren
Abhängigkeits-entdeckung
Klassifikation/Vorhersage Segmentierung
•Assoziation•Sequentielle Muster
•Clusteranalyse•Kohonen SOM
Oracle 10gR2
•Diskriminanzanalyse•Entscheidungsbaum-verfahren•K-Nearest-Neighbor•Neuronale Netze•Regelbasierte Verfahren•Regression•Support Vector
Faktoranalyse
•Attribute Importance
AbhängigkeitsentdeckungWarenkorbanalyse
Segmentierung
IFX1 >= (0.2456) and X1 <= (0.4432) and X2 >= (0.2647) and X2 <= (0.5106)THENCLUSTER = (3)
IFX1 >= (0.6802) and X1 <= (0.7988) and X2 >= (0.4404) and X2 <= (0.5809)THENCLUSTER = (5)
Faktoranalyse
Welche Faktorenhaben einen großenEinfluß auf das Ant-wortverhalten beieiner Marketing-kampagne?
Klassifizierung/VorhersageChurn Management
Alter
MO
UM
O
20 30 40 50
<100
<500
<100
0
Zielfeld
Churner
Kein Churner
Klassifizierung/VorhersageChurn Management – Training
Alter
MO
UM
O
20 30 40 50
<100
<500
<100
0
Churner
Kein Churner
Wenn 30 < Alter < 45& MOUMO > 500 =>Churner (70%)
Wenn Alter > 45 & MOUMO > 500 => kein Churner (99%)
Klassifizierung/VorhersageChurn Management – Vorhersage
Alter
MO
UM
O
20 30 40 50
<100
<500
<100
0
Churner
Kein Churner
Klassifizierung/VorhersageChurn Management – Vorhersage
Alter
MO
UM
O
20 30 40 50
<100
<500
<100
0
Churner
Kein Churner
Churner (70%) Kein Churner (99%)
Agenda
• Data Mining Grundlagen• Der Data Mining Prozess• Oracle Data Mining Integration
mit mySAP BW• Oracle Data Mining im Vergleich
Data Mining ProzessModell nach CRISP (crisp-dm.org)
Data Mining Ergebnisse
nutzen
Analyse-tabelle erstellen
Data Mining Verfahren anwenden
Data Mining Prozessim SAP-Umfeld – best of breed
mySAP CRM
ETL und Daten-vorbereitung
Data MiningServer
SAP BW
SAP R/3
Data Mining Prozessim SAP-Umfeld – best of breed – Kosten
SAP R/3
ETL und Daten-vorbereitung
Data MiningServer
SAP BW
mySAP CRM
Analysetabelle erstellen
Ergebnisseanwenden
Kostenbeim Erstellen der Analysetabelle
• Kryptische Bezeichner erfordern technisches Wissen und Fachbereichswissen
• Nicht alle BW-Daten sind in Tabellen abgelegt• Beispiele: InfoSets, MultiProviders, Queries
• Unterschiede in der Semantik der Datentypen• Beispiele: NUMC, TIMS, DATS
• Aufsetzen der Extraktionsprozesse und des automatischen Datentransfers (FTP)
• Datenextraktion aus BW u.U. lizenzpflichtig
Agenda
• Data Mining Grundlagen• Der Data Mining Prozess• Oracle Data Mining Integration
mit mySAP BW• Oracle Data Mining im Vergleich
Oracle Data Mining Integration
SAP BW
Data Prep
ODM
mySAP CRM
Argumentefür ODM und den ODM Connector• SAP Kunden bekommen ohne großen Aufwand eine
Integration mit Oracle Data Mining (ODM)• Nahtlose Integration mit SAP BW und CRM
• SAP-zertifizierte Lösung und Partner• Vermeiden von Datenbewegungen aus der Datenbank:
Sicherheit, Performance• Ergänzt SAPs Angebot in mehrerlei Hinsicht:
• Neue Algorithmen für unterschiedliche Problemklassen• Skalierbarkeit und Performance der Datenbank stehen
ODM voll zur Verfügung: RAC, Parallel Queries, ...• Neuentwicklungen in ODM stehen über den ODM
Connector auch in SAP BW zur Verfügung
Features
• Vollständige Integration• alle ODM-Algorithmen, -Tasks, -Parameter• alle SAP-Schnittstellen
• Transparente Integration• automatische Abbildung der SAP-Datentypen• automatisches Clean-up und Recovery
• Nahtlose, zertifizierte Integration von ODM in das BW DM Framework
Oracle Data Miningbei der VW Financial Services AG
• Installation der ODM Option und des ODM Connectors im Konsolidierungssystem
• Erfolgreicher Abschluß erster Funktionalitäts-und Lasttests
• Diskussion mit Fachabteilungen über mögliche Einsatzgebiete
Agenda
• Data Mining Grundlagen• Der Data Mining Prozess• Oracle Data Mining Integration
mit mySAP BW• Oracle Data Mining im Vergleich
Oracle Data Miningim Vergleich zu BW – Übersicht
Oracle 10gR2
ODM 9iR2 – 10gR2
Apriori
Decision TreeNaive BayesAdaptive Bayes NetworkSupport Vector Machines
Support Vector Machines
BW 3.1 – 7.0AbhängigkeitsentdeckungApriori
KlassifikationDecision Tree
RegressionLineare, Nichtlineare Regression
Oracle Data Miningim Vergleich zu BW – Übersicht
ODM 9iR2 – 10gR2
KMeansOCluster
Attribute ImportanceFeature ExtractionAnomaly Detection
BW 3.1 – 7.0SegmentierungKMeans
Andere VerfahrenWeighted Score TablesABC Klassifizierung
Oracle 10gR2
Oracle Data Miningim Vergleich zu BW – Allgemeines
•ODM•Algorithmen laufen im Datenbankserver. Die nötige Datenbewegung ist auf ein Minimum beschränkt.
•Nutzt vorhandene Skalierungs-features der Datenbank wie Parallel Queries und RAC aus
•BW•Algorithmen laufen im Applikationsserver. Die Daten müssen aus der Datenbank in den Applikationsspeicher gela-den werden.•Dadurch wird die Laufzeit beeinflusst und u.U. die Größe der lösbaren Probleme begenzt
Oracle Data Miningim Vergleich zu BW – Klassifikation
•ODM•Decision Tree erzeugt Regeln, die vom Benutzer direkt interpretiert werden können•Naive Bayes ist ein sehr schneller und gut skalierbarer Algorithmus•Adaptive Bayes Network ist am besten für große Datenmengen geeignet•SVM ist state-of-the-art Algorithmus, Präzision mit neuronalen Netzwerken vergleichbar•Algorithmen unterstützen zusätzliche Testmetriken: Lift- und ROC-Berechnung
•BW•Visualisierung der Regeln des Decision Tree in das SAP GUI integriert
•Algorithmus unerstützt nur Confusion Matrix als Testmetrik
Oracle Data Miningim Vergleich zu BW – Segmentierung
•ODM•OCluster ...
• unterstützt kategorische und numerische Attribute•ermittelt dynamisch sinnvolle Anzahl von Clustern•verarbeitet auch viele Attribute noch zuverlässig
•OCluster und KMeans unterstützen hierarchisches Clustering
•BW•KMeans ...
•ist nur für numerische Daten geeignet•findet nur vorgegebene Anzahl von Clustern•ist schlecht geeignet bei vielen Attributen
•Übersichtliche Visualisie-rung der Cluster und Histogramme im SAP GUI
Oracle Data Miningim Vergleich zum Markt
I M P R E S S I O N E N
Der Oracle 9i Data Mining Connector
Q U E S T I O N SQ U E S T I O N SA N S W E R SA N S W E R S