27. februar 2001 data mining in weblog files dr. christoph schommer ibm entwicklung gmbh...

43
27. Februar 2001 Data Mining in Weblog Files Dr. Christoph Schommer IBM Entwicklung GmbH Schönaicher Str. 220 D-71032 Böblingen Tel./Fax: 07031/16-{4628/4890} Email: [email protected] Internet: http://www.ibm.com/de/entwicklung/biwiza rds/

Upload: warin-neidhardt

Post on 05-Apr-2015

104 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 27. Februar 2001 Data Mining in Weblog Files Dr. Christoph Schommer IBM Entwicklung GmbH Schönaicher Str. 220 D-71032 Böblingen Tel./Fax: 07031/16-{4628/4890}

27. Februar 2001

Data Mining in Weblog Files

Dr. Christoph SchommerIBM Entwicklung GmbHSchönaicher Str. 220D-71032 Böblingen

Tel./Fax: 07031/16-{4628/4890}

Email: [email protected]

Internet: http://www.ibm.com/de/entwicklung/biwizards/

Page 2: 27. Februar 2001 Data Mining in Weblog Files Dr. Christoph Schommer IBM Entwicklung GmbH Schönaicher Str. 220 D-71032 Böblingen Tel./Fax: 07031/16-{4628/4890}

27. Februar 2001

Agenda

1. Positionierungen2. Begriffsklärungen3. Am Anfang sind Daten

(Beispiel)4. Evaluierungen (Beispiele)5. Plädoyer für Mining

Page 3: 27. Februar 2001 Data Mining in Weblog Files Dr. Christoph Schommer IBM Entwicklung GmbH Schönaicher Str. 220 D-71032 Böblingen Tel./Fax: 07031/16-{4628/4890}

27. Februar 2001

1. Positionierung – Domäne

ChatChat

Login alsPremium User

Login alsPremium User

Werden SiePremium User!

Werden SiePremium User!Kaufen Sie

ein!Kaufen Sie

ein!

Page 4: 27. Februar 2001 Data Mining in Weblog Files Dr. Christoph Schommer IBM Entwicklung GmbH Schönaicher Str. 220 D-71032 Böblingen Tel./Fax: 07031/16-{4628/4890}

27. Februar 2001

1. Positionierung – Domäne

Premium UserOnLine ShoppingPremium User

OnLine Shopping

Page 5: 27. Februar 2001 Data Mining in Weblog Files Dr. Christoph Schommer IBM Entwicklung GmbH Schönaicher Str. 220 D-71032 Böblingen Tel./Fax: 07031/16-{4628/4890}

27. Februar 2001

User: Suche nach gewünschten Artikeln wird zunehmend einfacher User: bessere Vergleichsmöglichkeiten User: bequemeres Bestellen, schnelleres Liefern User: Datenschutz muss vorhanden sein User: sicherer Datentransfer muss vorhanden sein

Anbieter: Angebot an Produkten, Services, etc. Anbieter: Verbesserung der Servicequalität Anbieter: Reduktion von Kosten für bekannte User

1. Positionierung – Interessen

durch OnLine Shop

z.B. durch Marketing Kampagnen

Page 6: 27. Februar 2001 Data Mining in Weblog Files Dr. Christoph Schommer IBM Entwicklung GmbH Schönaicher Str. 220 D-71032 Böblingen Tel./Fax: 07031/16-{4628/4890}

27. Februar 2001

Agenda

1. Positionierungen2. Begriffsklärungen3. Am Anfang sind Daten

(Beispiel)4. Evaluierungen (Beispiele)5. Plädoyer für Mining

Page 7: 27. Februar 2001 Data Mining in Weblog Files Dr. Christoph Schommer IBM Entwicklung GmbH Schönaicher Str. 220 D-71032 Böblingen Tel./Fax: 07031/16-{4628/4890}

27. Februar 2001

2. Begriffsklärungen – Data Mining

Definition:

Data Mining ist die effiziente Suche nach verborgenen, aber nützlichen Informationen in grossen Datenbanken, deren Visualisierung und Interpretation

Page 8: 27. Februar 2001 Data Mining in Weblog Files Dr. Christoph Schommer IBM Entwicklung GmbH Schönaicher Str. 220 D-71032 Böblingen Tel./Fax: 07031/16-{4628/4890}

27. Februar 2001

2. Begriffsklärungen – Data Mining

Verification-DrivenSQL, OnLine Analytical Processing (OLAP)

data-drivenData Mining

+

BekannteInformationen

Bekannte + unbekannteInformationen

Page 9: 27. Februar 2001 Data Mining in Weblog Files Dr. Christoph Schommer IBM Entwicklung GmbH Schönaicher Str. 220 D-71032 Böblingen Tel./Fax: 07031/16-{4628/4890}

27. Februar 2001

2. Begriffsklärungen – Data Mining

Banken

Versicherungen

Medizin

Handel

Kreditkarten

Versand

Chemie

Sport

Manufacturing

Call Center

InternetBiologie

… und viele mehr

Lotterie

Börse

Page 10: 27. Februar 2001 Data Mining in Weblog Files Dr. Christoph Schommer IBM Entwicklung GmbH Schönaicher Str. 220 D-71032 Böblingen Tel./Fax: 07031/16-{4628/4890}

27. Februar 2001

2. Begriffsklärungen – Data Mining

Workflow:

Selektieren VisualisierenInterpretierenTrans-

formierenSchürfen

Page 11: 27. Februar 2001 Data Mining in Weblog Files Dr. Christoph Schommer IBM Entwicklung GmbH Schönaicher Str. 220 D-71032 Böblingen Tel./Fax: 07031/16-{4628/4890}

27. Februar 2001

2. Begriffsklärungen – Data Mining

Link Structure Design

Cross Selling Activities

Click Stream Analysis

Zieledefinieren

Page 12: 27. Februar 2001 Data Mining in Weblog Files Dr. Christoph Schommer IBM Entwicklung GmbH Schönaicher Str. 220 D-71032 Böblingen Tel./Fax: 07031/16-{4628/4890}

27. Februar 2001

2. Begriffsklärungen – Aufgaben

Customer Profiling

Scoring Modeling

Zieledefinieren

Page 13: 27. Februar 2001 Data Mining in Weblog Files Dr. Christoph Schommer IBM Entwicklung GmbH Schönaicher Str. 220 D-71032 Böblingen Tel./Fax: 07031/16-{4628/4890}

27. Februar 2001

2. Begriffsklärungen – Data Mining

Warehouse

Data Selekt Data

SelectData

Data CollectingAufbau von Data MartsData CleaningMissing values BehandlungData Coding...

SelektierenTransformieren

Page 14: 27. Februar 2001 Data Mining in Weblog Files Dr. Christoph Schommer IBM Entwicklung GmbH Schönaicher Str. 220 D-71032 Böblingen Tel./Fax: 07031/16-{4628/4890}

27. Februar 2001

2. Begriffsklärungen – Data Mining

Descriptive Verfahren, z.B.:

Prädiktive Verfahren, z.B.:Schürfen

ClusteringAssoziationsanalyse

Sequentielle MustersucheZeitreihenanalyse

Classification Tree

Radial Basis Functions

Page 15: 27. Februar 2001 Data Mining in Weblog Files Dr. Christoph Schommer IBM Entwicklung GmbH Schönaicher Str. 220 D-71032 Böblingen Tel./Fax: 07031/16-{4628/4890}

27. Februar 2001

2. Begriffsklärungen – Data

Mining

kategorisch

numerisch

VisualisierenInterpretieren

Page 16: 27. Februar 2001 Data Mining in Weblog Files Dr. Christoph Schommer IBM Entwicklung GmbH Schönaicher Str. 220 D-71032 Böblingen Tel./Fax: 07031/16-{4628/4890}

27. Februar 2001

2. Begriffsklärungen – Internet

TCP = Transmission Control Protocol: erlaubt

den Austausch von Daten über Netzwerke

hinweg

IP = Internet Protocol, z.B. 9.164.181.132

9.164.181.132 = goldmine

141.2.1.1 = hera

Router

Page 17: 27. Februar 2001 Data Mining in Weblog Files Dr. Christoph Schommer IBM Entwicklung GmbH Schönaicher Str. 220 D-71032 Böblingen Tel./Fax: 07031/16-{4628/4890}

27. Februar 2001

2. Begriffsklärungen - InternetCookie: serverseitiger Dienst, der

beim WWW-Client Informationen hinterlegt.

Jede Seite in excite.com kann diesen cookie zugreifen/nutzen

Domänedes Cookie

Verfallszeitpunkt -Zeitraum in Sekundenseit dem 1. Jan 1970 GMT

Name desCookie

# Netscape HTTP Cookie File.excite.com TRUE / FALSE 946641600 U_ID_1 867CE396354734CB.preferences.com TRUE / FALSE 1182140421 ... Cookie ist verschlüsselt/nicht

verschlüsselt

Cookie wurde durch einenHTTP-header oder JavaScript

gesetzt

Page 18: 27. Februar 2001 Data Mining in Weblog Files Dr. Christoph Schommer IBM Entwicklung GmbH Schönaicher Str. 220 D-71032 Böblingen Tel./Fax: 07031/16-{4628/4890}

27. Februar 2001

2. Begriffsklärungen - Internet

Log File:client IP 9.164.181.132

delimiter -

var.auth-user -

SYSDATE [15/Sep/1998:13:59:06 +0200]

Req->reqb.clf-request "Get /cgi-bin/areas/area.cgi?aid=2348347295&siid=142&filialid=0 HTTP/1.0"

srvhdrs.clf-status 200

srvhdrs.content-length 7114

Req->headers.referrer "http://www.--.--/cgi-bin/bereiche/area.cgi?siid=142"

headers.user-agent "Mozilla/4.0[de]C-DT (Win95;I)"

headers.cookie

visitor=guest980915235405061176;

200 = Success300 = Redirect400 = Failure500 = Server Errors

HTTP Request

Zugriffsdatumund –zeit

IP-Adresse des Users

Übertragene Bytes

Weblog Mining:

+ Marketing Daten

+ Web Meta Daten

Page 19: 27. Februar 2001 Data Mining in Weblog Files Dr. Christoph Schommer IBM Entwicklung GmbH Schönaicher Str. 220 D-71032 Böblingen Tel./Fax: 07031/16-{4628/4890}

27. Februar 2001

2. Begriffsklärung – Weblog Mining

Weblog Mining

TransaktionsbasierteAnalyse

KundenspezifierteAnalyse

Page 20: 27. Februar 2001 Data Mining in Weblog Files Dr. Christoph Schommer IBM Entwicklung GmbH Schönaicher Str. 220 D-71032 Böblingen Tel./Fax: 07031/16-{4628/4890}

27. Februar 2001

Agenda

1. Positionierungen2. Begriffsklärungen3. Am Anfang sind Daten

(Beispiel)4. Evaluierungen (Beispiele)5. Plädoyer für Mining

Page 21: 27. Februar 2001 Data Mining in Weblog Files Dr. Christoph Schommer IBM Entwicklung GmbH Schönaicher Str. 220 D-71032 Böblingen Tel./Fax: 07031/16-{4628/4890}

27. Februar 2001

3. Am Anfang sind Daten

music.html?siid=150&aid=111

music.html ?siid=150 &aid=122 living.ht

ml ?siid=112 &aid=97

living.html ?siid=100 &aid=97

Problem: u.U. viele WWW-Seiten

Page 22: 27. Februar 2001 Data Mining in Weblog Files Dr. Christoph Schommer IBM Entwicklung GmbH Schönaicher Str. 220 D-71032 Böblingen Tel./Fax: 07031/16-{4628/4890}

27. Februar 2001

3. Am Anfang sind Daten

music.html

music.html?siid=150&aid=111

music.html ?siid=150 &aid=122

living.html

living.html ?siid=112 &aid=97

living.html ?siid=100 &aid=97

......

... ...

Taxonomie I

Lösung: Reduktion durch Generalisierung (1)

Page 23: 27. Februar 2001 Data Mining in Weblog Files Dr. Christoph Schommer IBM Entwicklung GmbH Schönaicher Str. 220 D-71032 Böblingen Tel./Fax: 07031/16-{4628/4890}

27. Februar 2001

3. Am Anfang sind Daten

email.html Eine Email senden chat.html mit anderen Premium User

chatten competition.html Am PREMIUM USER

GAME teilnehmen postcards.html Virtuelle Postkarten

versenden info.html Infos über das Sortiment

anfordern womens-fashion.html Kleider für

Frauen/Mädchen living.html Sortiment: Bad travel.html Reiseseite für Premium User travel2.html Reiseseite für

„Normale User“ ...

Page 24: 27. Februar 2001 Data Mining in Weblog Files Dr. Christoph Schommer IBM Entwicklung GmbH Schönaicher Str. 220 D-71032 Böblingen Tel./Fax: 07031/16-{4628/4890}

27. Februar 2001

3. Am Anfang sind DatenCOMMUNICATION email.html, chat.html.

FUN competition.html, postcards.html,

INFO info.html, help.html.

SHOPPING womens-fashion.html, living-html, ...

... COMMUNICATION

email.htmlchat.html

Taxonomie II

Lösung: Reduktion durch Generalisierung (2)

Page 25: 27. Februar 2001 Data Mining in Weblog Files Dr. Christoph Schommer IBM Entwicklung GmbH Schönaicher Str. 220 D-71032 Böblingen Tel./Fax: 07031/16-{4628/4890}

27. Februar 2001

3. Am Anfang sind Daten

client IP 9.164.181.132

delimiter -

var.auth-user -

SYSDATE [15/Sep/1998:13:59:06 +0200]

Req->reqb.clf-request "Get /cgi-bin/areas/area.cgi?aid=2348347295&siid=142&filialid=0 HTTP/1.0"

srvhdrs.clf-status 200

srvhdrs.content-length 7114

Req->headers.referrer "http://www.--.--/cgi-bin/bereiche/area.cgi?siid=142"

headers.user-agent "Mozilla/4.0[de]C-DT (Win95;I)"

headers.cookie

visitor=guest980915235405061176;

Transactional Data MartJeder Record =

Aktion des Users

Page 26: 27. Februar 2001 Data Mining in Weblog Files Dr. Christoph Schommer IBM Entwicklung GmbH Schönaicher Str. 220 D-71032 Böblingen Tel./Fax: 07031/16-{4628/4890}

27. Februar 2001

3. Am Anfang sind Datenclient IP 9.164.181.132

delimiter -

var.auth-user -

SYSDATE [15/Sep/1998:13:59:06 +0200]

Req->reqb.clf-request "Get /cgi-bin/areas/area.cgi?aid=2348347295&siid=142&filialid=0 HTTP/1.0"

srvhdrs.clf-status 200

srvhdrs.content-length 7114

Req->headers.referrer "http://www.--.--/cgi-bin/bereiche/area.cgi?siid=142"

headers.user-agent "Mozilla/4.0[de]C-DT (Win95;I)"

headers.cookie

visitor=guest980915235405061176;

Customer Data Mart

(Premium User)Jeder Record = Auf User aggregiert

Page 27: 27. Februar 2001 Data Mining in Weblog Files Dr. Christoph Schommer IBM Entwicklung GmbH Schönaicher Str. 220 D-71032 Böblingen Tel./Fax: 07031/16-{4628/4890}

27. Februar 2001

Agenda

1. Positionierungen2. Begriffsklärungen3. Am Anfang sind Daten

(Beispiel)4. Evaluierungen (Beispiele)5. Plädoyer für Mining

Page 28: 27. Februar 2001 Data Mining in Weblog Files Dr. Christoph Schommer IBM Entwicklung GmbH Schönaicher Str. 220 D-71032 Böblingen Tel./Fax: 07031/16-{4628/4890}

27. Februar 2001

4. Evaluierungsbeispiele

Konfirmativ

es

Beispiel

(1)

Page 29: 27. Februar 2001 Data Mining in Weblog Files Dr. Christoph Schommer IBM Entwicklung GmbH Schönaicher Str. 220 D-71032 Böblingen Tel./Fax: 07031/16-{4628/4890}

27. Februar 2001

4. Evaluierungsbeispiele

Konfirmati

ves

Beispiel

(2)

Page 30: 27. Februar 2001 Data Mining in Weblog Files Dr. Christoph Schommer IBM Entwicklung GmbH Schönaicher Str. 220 D-71032 Böblingen Tel./Fax: 07031/16-{4628/4890}

27. Februar 2001

4. Evaluierungsbeispiele

Exploratives

Beispiel (1)

RelativeHäufigkeit(Quantität)

Bedingte Wsk(Qualität)

RelativeAbweichung

Page 31: 27. Februar 2001 Data Mining in Weblog Files Dr. Christoph Schommer IBM Entwicklung GmbH Schönaicher Str. 220 D-71032 Böblingen Tel./Fax: 07031/16-{4628/4890}

27. Februar 2001

4. Evaluierungsbeispiele

Exploratives

(Konfirmati

v) Beispiel

(2)

Page 32: 27. Februar 2001 Data Mining in Weblog Files Dr. Christoph Schommer IBM Entwicklung GmbH Schönaicher Str. 220 D-71032 Böblingen Tel./Fax: 07031/16-{4628/4890}

27. Februar 2001

4. Evaluierungsbeispiele

Explorative

s Beispiel

(3)

37.931% aller User besuchen zuerst [FUN], dann [COMMUNICATION], dann [SHOPPING], dann [COMMUNICATION]

Page 33: 27. Februar 2001 Data Mining in Weblog Files Dr. Christoph Schommer IBM Entwicklung GmbH Schönaicher Str. 220 D-71032 Böblingen Tel./Fax: 07031/16-{4628/4890}

27. Februar 2001

Explorativ

es

Beispiel

(4)

Anzahl in % der KundenIm Cluster

Cluster

ShoppingIst gering

ShoppingIst hoch

Page 34: 27. Februar 2001 Data Mining in Weblog Files Dr. Christoph Schommer IBM Entwicklung GmbH Schönaicher Str. 220 D-71032 Böblingen Tel./Fax: 07031/16-{4628/4890}

27. Februar 2001

Eher männlich

Hoher Umsatz

Wenig

Kommunikat

ion

Viel Shopping

Wenig

Fun Eher

älter

Von

Region

4 oder

6

Umsatzcluster

Page 35: 27. Februar 2001 Data Mining in Weblog Files Dr. Christoph Schommer IBM Entwicklung GmbH Schönaicher Str. 220 D-71032 Böblingen Tel./Fax: 07031/16-{4628/4890}

27. Februar 2001

Viel

Kommunikat

ion

Viel

Fun

Eher

jünger

Eher weiblich

Geringer

Umsatz

Wenig

Shopping

Von

Regio

n 5

oder

8

Unterhaltungs-

cluster

Page 36: 27. Februar 2001 Data Mining in Weblog Files Dr. Christoph Schommer IBM Entwicklung GmbH Schönaicher Str. 220 D-71032 Böblingen Tel./Fax: 07031/16-{4628/4890}

27. Februar 2001

Explorativ

es

Beispiel

(5)

= hat nicht gekauft= hat gekauft

Page 37: 27. Februar 2001 Data Mining in Weblog Files Dr. Christoph Schommer IBM Entwicklung GmbH Schönaicher Str. 220 D-71032 Böblingen Tel./Fax: 07031/16-{4628/4890}

27. Februar 2001

Agenda

1. Positionierungen2. Begriffsklärungen3. Das Problem mit den Daten

(Beispiel)4. Evaluierungen (Beispiele)5. Plädoyer für Mining

Page 38: 27. Februar 2001 Data Mining in Weblog Files Dr. Christoph Schommer IBM Entwicklung GmbH Schönaicher Str. 220 D-71032 Böblingen Tel./Fax: 07031/16-{4628/4890}

27. Februar 2001

5. Plädoyer

Werden Sie jetzt (noch) inOnLine Shops einkaufen?

Page 39: 27. Februar 2001 Data Mining in Weblog Files Dr. Christoph Schommer IBM Entwicklung GmbH Schönaicher Str. 220 D-71032 Böblingen Tel./Fax: 07031/16-{4628/4890}

27. Februar 2001

5. Plädoyer

Gezielte Beratung ...

Erhöhung des Umsatzes ...

Für den Kunden

Für das Unternehmen

Page 40: 27. Februar 2001 Data Mining in Weblog Files Dr. Christoph Schommer IBM Entwicklung GmbH Schönaicher Str. 220 D-71032 Böblingen Tel./Fax: 07031/16-{4628/4890}

27. Februar 2001

5. Plädoyer

Schaffung zusätzlicher Kapazitäten am WE Erhöhung des Angebots während der Woche ...

Für das Unternehmen

Schnellere Verfügbarkeit ...

Für den Kunden

Page 41: 27. Februar 2001 Data Mining in Weblog Files Dr. Christoph Schommer IBM Entwicklung GmbH Schönaicher Str. 220 D-71032 Böblingen Tel./Fax: 07031/16-{4628/4890}

27. Februar 2001

5. Plädoyer

Unterhaltungs-

cluster

Reduktion der Werbekosten durch spezielleres Marketing Stärkere Personalisierung von Web-seiten ...

Umsatzcluster

Für das Unternehmen

Für den Kunden

Stärkere Berücksichtigung eigener Interessen ...

Page 42: 27. Februar 2001 Data Mining in Weblog Files Dr. Christoph Schommer IBM Entwicklung GmbH Schönaicher Str. 220 D-71032 Böblingen Tel./Fax: 07031/16-{4628/4890}

27. Februar 2001

5. PlädoyerFür das

Unternehmen

Schnellere Reaktionszeit, falls Kunde wechselt ...

Page 43: 27. Februar 2001 Data Mining in Weblog Files Dr. Christoph Schommer IBM Entwicklung GmbH Schönaicher Str. 220 D-71032 Böblingen Tel./Fax: 07031/16-{4628/4890}

27. Februar 2001

Vielen Dank für Ihre Aufmersamkeit!