27. februar 2001 data mining in weblog files dr. christoph schommer ibm entwicklung gmbh...
TRANSCRIPT
27. Februar 2001
Data Mining in Weblog Files
Dr. Christoph SchommerIBM Entwicklung GmbHSchönaicher Str. 220D-71032 Böblingen
Tel./Fax: 07031/16-{4628/4890}
Email: [email protected]
Internet: http://www.ibm.com/de/entwicklung/biwizards/
27. Februar 2001
Agenda
1. Positionierungen2. Begriffsklärungen3. Am Anfang sind Daten
(Beispiel)4. Evaluierungen (Beispiele)5. Plädoyer für Mining
27. Februar 2001
1. Positionierung – Domäne
ChatChat
Login alsPremium User
Login alsPremium User
Werden SiePremium User!
Werden SiePremium User!Kaufen Sie
ein!Kaufen Sie
ein!
27. Februar 2001
1. Positionierung – Domäne
Premium UserOnLine ShoppingPremium User
OnLine Shopping
27. Februar 2001
User: Suche nach gewünschten Artikeln wird zunehmend einfacher User: bessere Vergleichsmöglichkeiten User: bequemeres Bestellen, schnelleres Liefern User: Datenschutz muss vorhanden sein User: sicherer Datentransfer muss vorhanden sein
Anbieter: Angebot an Produkten, Services, etc. Anbieter: Verbesserung der Servicequalität Anbieter: Reduktion von Kosten für bekannte User
1. Positionierung – Interessen
durch OnLine Shop
z.B. durch Marketing Kampagnen
27. Februar 2001
Agenda
1. Positionierungen2. Begriffsklärungen3. Am Anfang sind Daten
(Beispiel)4. Evaluierungen (Beispiele)5. Plädoyer für Mining
27. Februar 2001
2. Begriffsklärungen – Data Mining
Definition:
Data Mining ist die effiziente Suche nach verborgenen, aber nützlichen Informationen in grossen Datenbanken, deren Visualisierung und Interpretation
27. Februar 2001
2. Begriffsklärungen – Data Mining
Verification-DrivenSQL, OnLine Analytical Processing (OLAP)
data-drivenData Mining
+
BekannteInformationen
Bekannte + unbekannteInformationen
27. Februar 2001
2. Begriffsklärungen – Data Mining
Banken
Versicherungen
Medizin
Handel
Kreditkarten
Versand
Chemie
Sport
Manufacturing
Call Center
InternetBiologie
… und viele mehr
Lotterie
Börse
27. Februar 2001
2. Begriffsklärungen – Data Mining
Workflow:
Selektieren VisualisierenInterpretierenTrans-
formierenSchürfen
27. Februar 2001
2. Begriffsklärungen – Data Mining
Link Structure Design
Cross Selling Activities
Click Stream Analysis
Zieledefinieren
27. Februar 2001
2. Begriffsklärungen – Aufgaben
Customer Profiling
Scoring Modeling
Zieledefinieren
27. Februar 2001
2. Begriffsklärungen – Data Mining
Warehouse
Data Selekt Data
SelectData
Data CollectingAufbau von Data MartsData CleaningMissing values BehandlungData Coding...
SelektierenTransformieren
27. Februar 2001
2. Begriffsklärungen – Data Mining
Descriptive Verfahren, z.B.:
Prädiktive Verfahren, z.B.:Schürfen
ClusteringAssoziationsanalyse
Sequentielle MustersucheZeitreihenanalyse
Classification Tree
Radial Basis Functions
27. Februar 2001
2. Begriffsklärungen – Data
Mining
kategorisch
numerisch
VisualisierenInterpretieren
27. Februar 2001
2. Begriffsklärungen – Internet
TCP = Transmission Control Protocol: erlaubt
den Austausch von Daten über Netzwerke
hinweg
IP = Internet Protocol, z.B. 9.164.181.132
9.164.181.132 = goldmine
141.2.1.1 = hera
Router
27. Februar 2001
2. Begriffsklärungen - InternetCookie: serverseitiger Dienst, der
beim WWW-Client Informationen hinterlegt.
Jede Seite in excite.com kann diesen cookie zugreifen/nutzen
Domänedes Cookie
Verfallszeitpunkt -Zeitraum in Sekundenseit dem 1. Jan 1970 GMT
Name desCookie
# Netscape HTTP Cookie File.excite.com TRUE / FALSE 946641600 U_ID_1 867CE396354734CB.preferences.com TRUE / FALSE 1182140421 ... Cookie ist verschlüsselt/nicht
verschlüsselt
Cookie wurde durch einenHTTP-header oder JavaScript
gesetzt
27. Februar 2001
2. Begriffsklärungen - Internet
Log File:client IP 9.164.181.132
delimiter -
var.auth-user -
SYSDATE [15/Sep/1998:13:59:06 +0200]
Req->reqb.clf-request "Get /cgi-bin/areas/area.cgi?aid=2348347295&siid=142&filialid=0 HTTP/1.0"
srvhdrs.clf-status 200
srvhdrs.content-length 7114
Req->headers.referrer "http://www.--.--/cgi-bin/bereiche/area.cgi?siid=142"
headers.user-agent "Mozilla/4.0[de]C-DT (Win95;I)"
headers.cookie
visitor=guest980915235405061176;
200 = Success300 = Redirect400 = Failure500 = Server Errors
HTTP Request
Zugriffsdatumund –zeit
IP-Adresse des Users
Übertragene Bytes
Weblog Mining:
+ Marketing Daten
+ Web Meta Daten
27. Februar 2001
2. Begriffsklärung – Weblog Mining
Weblog Mining
TransaktionsbasierteAnalyse
KundenspezifierteAnalyse
27. Februar 2001
Agenda
1. Positionierungen2. Begriffsklärungen3. Am Anfang sind Daten
(Beispiel)4. Evaluierungen (Beispiele)5. Plädoyer für Mining
27. Februar 2001
3. Am Anfang sind Daten
music.html?siid=150&aid=111
music.html ?siid=150 &aid=122 living.ht
ml ?siid=112 &aid=97
living.html ?siid=100 &aid=97
Problem: u.U. viele WWW-Seiten
27. Februar 2001
3. Am Anfang sind Daten
music.html
music.html?siid=150&aid=111
music.html ?siid=150 &aid=122
living.html
living.html ?siid=112 &aid=97
living.html ?siid=100 &aid=97
......
... ...
Taxonomie I
Lösung: Reduktion durch Generalisierung (1)
27. Februar 2001
3. Am Anfang sind Daten
email.html Eine Email senden chat.html mit anderen Premium User
chatten competition.html Am PREMIUM USER
GAME teilnehmen postcards.html Virtuelle Postkarten
versenden info.html Infos über das Sortiment
anfordern womens-fashion.html Kleider für
Frauen/Mädchen living.html Sortiment: Bad travel.html Reiseseite für Premium User travel2.html Reiseseite für
„Normale User“ ...
27. Februar 2001
3. Am Anfang sind DatenCOMMUNICATION email.html, chat.html.
FUN competition.html, postcards.html,
INFO info.html, help.html.
SHOPPING womens-fashion.html, living-html, ...
... COMMUNICATION
email.htmlchat.html
Taxonomie II
Lösung: Reduktion durch Generalisierung (2)
27. Februar 2001
3. Am Anfang sind Daten
client IP 9.164.181.132
delimiter -
var.auth-user -
SYSDATE [15/Sep/1998:13:59:06 +0200]
Req->reqb.clf-request "Get /cgi-bin/areas/area.cgi?aid=2348347295&siid=142&filialid=0 HTTP/1.0"
srvhdrs.clf-status 200
srvhdrs.content-length 7114
Req->headers.referrer "http://www.--.--/cgi-bin/bereiche/area.cgi?siid=142"
headers.user-agent "Mozilla/4.0[de]C-DT (Win95;I)"
headers.cookie
visitor=guest980915235405061176;
Transactional Data MartJeder Record =
Aktion des Users
27. Februar 2001
3. Am Anfang sind Datenclient IP 9.164.181.132
delimiter -
var.auth-user -
SYSDATE [15/Sep/1998:13:59:06 +0200]
Req->reqb.clf-request "Get /cgi-bin/areas/area.cgi?aid=2348347295&siid=142&filialid=0 HTTP/1.0"
srvhdrs.clf-status 200
srvhdrs.content-length 7114
Req->headers.referrer "http://www.--.--/cgi-bin/bereiche/area.cgi?siid=142"
headers.user-agent "Mozilla/4.0[de]C-DT (Win95;I)"
headers.cookie
visitor=guest980915235405061176;
Customer Data Mart
(Premium User)Jeder Record = Auf User aggregiert
27. Februar 2001
Agenda
1. Positionierungen2. Begriffsklärungen3. Am Anfang sind Daten
(Beispiel)4. Evaluierungen (Beispiele)5. Plädoyer für Mining
27. Februar 2001
4. Evaluierungsbeispiele
Konfirmativ
es
Beispiel
(1)
27. Februar 2001
4. Evaluierungsbeispiele
Konfirmati
ves
Beispiel
(2)
27. Februar 2001
4. Evaluierungsbeispiele
Exploratives
Beispiel (1)
RelativeHäufigkeit(Quantität)
Bedingte Wsk(Qualität)
RelativeAbweichung
27. Februar 2001
4. Evaluierungsbeispiele
Exploratives
(Konfirmati
v) Beispiel
(2)
27. Februar 2001
4. Evaluierungsbeispiele
Explorative
s Beispiel
(3)
37.931% aller User besuchen zuerst [FUN], dann [COMMUNICATION], dann [SHOPPING], dann [COMMUNICATION]
27. Februar 2001
Explorativ
es
Beispiel
(4)
Anzahl in % der KundenIm Cluster
Cluster
ShoppingIst gering
ShoppingIst hoch
27. Februar 2001
Eher männlich
Hoher Umsatz
Wenig
Kommunikat
ion
Viel Shopping
Wenig
Fun Eher
älter
Von
Region
4 oder
6
Umsatzcluster
27. Februar 2001
Viel
Kommunikat
ion
Viel
Fun
Eher
jünger
Eher weiblich
Geringer
Umsatz
Wenig
Shopping
Von
Regio
n 5
oder
8
Unterhaltungs-
cluster
27. Februar 2001
Explorativ
es
Beispiel
(5)
= hat nicht gekauft= hat gekauft
27. Februar 2001
Agenda
1. Positionierungen2. Begriffsklärungen3. Das Problem mit den Daten
(Beispiel)4. Evaluierungen (Beispiele)5. Plädoyer für Mining
27. Februar 2001
5. Plädoyer
Werden Sie jetzt (noch) inOnLine Shops einkaufen?
27. Februar 2001
5. Plädoyer
Gezielte Beratung ...
Erhöhung des Umsatzes ...
Für den Kunden
Für das Unternehmen
27. Februar 2001
5. Plädoyer
Schaffung zusätzlicher Kapazitäten am WE Erhöhung des Angebots während der Woche ...
Für das Unternehmen
Schnellere Verfügbarkeit ...
Für den Kunden
27. Februar 2001
5. Plädoyer
Unterhaltungs-
cluster
Reduktion der Werbekosten durch spezielleres Marketing Stärkere Personalisierung von Web-seiten ...
Umsatzcluster
Für das Unternehmen
Für den Kunden
Stärkere Berücksichtigung eigener Interessen ...
27. Februar 2001
5. PlädoyerFür das
Unternehmen
Schnellere Reaktionszeit, falls Kunde wechselt ...
27. Februar 2001
Vielen Dank für Ihre Aufmersamkeit!