1 learning to construct knowledge bases from the world wide web mark craven, dan dipasquo, dayne...

35
1 Learning to Construct Learning to Construct Knowledge Bases from Knowledge Bases from the World Wide Web the World Wide Web Mark Craven, Dan DiPasquo, Dayne Freitag, Andrew McCallum, Tom Mitchell, Kamal, Neigam, Sean Slattery (2000) Oliver Rohr 14.1.2003

Upload: klothilda-lageman

Post on 06-Apr-2015

105 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: 1 Learning to Construct Knowledge Bases from the World Wide Web Mark Craven, Dan DiPasquo, Dayne Freitag, Andrew McCallum, Tom Mitchell, Kamal, Neigam,

1

Learning to Construct Learning to Construct Knowledge Bases from the Knowledge Bases from the

World Wide WebWorld Wide Web

Mark Craven, Dan DiPasquo, Dayne Freitag, Andrew McCallum, Tom Mitchell, Kamal, Neigam,

Sean Slattery

(2000)

Oliver Rohr

14.1.2003

Page 2: 1 Learning to Construct Knowledge Bases from the World Wide Web Mark Craven, Dan DiPasquo, Dayne Freitag, Andrew McCallum, Tom Mitchell, Kamal, Neigam,

2

GliederungGliederung

• Überblick

• Problemspezifikation

• Erkennen von Klasseninstanzen

• Erkennen von Relationsinstanzen

• Extraktion aus Textsegmenten

• Fazit, Ausblick

Page 3: 1 Learning to Construct Knowledge Bases from the World Wide Web Mark Craven, Dan DiPasquo, Dayne Freitag, Andrew McCallum, Tom Mitchell, Kamal, Neigam,

3

ÜberblickÜberblickFunktion des Web-KB SystemsFunktion des Web-KB Systems

WissensbasisWWW Web-KB System

unterchiedliche Informationsquellen

Erkennungsfunktionen Daten

Page 4: 1 Learning to Construct Knowledge Bases from the World Wide Web Mark Craven, Dan DiPasquo, Dayne Freitag, Andrew McCallum, Tom Mitchell, Kamal, Neigam,

4

ÜberblickÜberblickOntologieOntologie

• Ontologie: Klassen und Relationen, die Informatikfachbereichsseiten beschreiben

Page 5: 1 Learning to Construct Knowledge Bases from the World Wide Web Mark Craven, Dan DiPasquo, Dayne Freitag, Andrew McCallum, Tom Mitchell, Kamal, Neigam,

5

ÜberblickÜberblickTraining / TestingTraining / Testing

• Training: es werden Erkennungsfunktionen zur Extraktion gelernt (ML). Trainingsmenge: gelabelte Webseiten von 4 Fachbereichen an versch. Universitäten (8000 Seiten + 1400 Seitenpaare)

• Testing: System durchsucht selbsttätig das Web und extrahiert neue Instanzen von Klassen und Relationen (4127 Seiten + 10945 Hyperlinks)

Page 6: 1 Learning to Construct Knowledge Bases from the World Wide Web Mark Craven, Dan DiPasquo, Dayne Freitag, Andrew McCallum, Tom Mitchell, Kamal, Neigam,

6

ÜberblickÜberblickAnwendungAnwendung

• Breitensuche auf dem Graphen aus Seiten und Hyperlinks:

erkannte Klasse

Klasse other...

Page 7: 1 Learning to Construct Knowledge Bases from the World Wide Web Mark Craven, Dan DiPasquo, Dayne Freitag, Andrew McCallum, Tom Mitchell, Kamal, Neigam,

7

Das Webinterface des vorgestellten Prototyps

Page 8: 1 Learning to Construct Knowledge Bases from the World Wide Web Mark Craven, Dan DiPasquo, Dayne Freitag, Andrew McCallum, Tom Mitchell, Kamal, Neigam,

8

ProblemspezifikationProblemspezifikation

• gegeben:– initiale Wissensbasis bestehend aus Ontologie

(und optional Instanzen)– Trainingsbeispiele, die Instanzen von Klassen

und Relationen beschreiben

• gesucht:– Erkennungsfunktionen zur selbständigen

Extraktion von Instanzen aus dem Web (Erweiterung der Wissensbasis)

Page 9: 1 Learning to Construct Knowledge Bases from the World Wide Web Mark Craven, Dan DiPasquo, Dayne Freitag, Andrew McCallum, Tom Mitchell, Kamal, Neigam,

9

ProblemspezifikationProblemspezifikation

• Annahmen:– Klassen werden durch Hypertextsegmente

beschrieben (1 Textabschnitt, 1 Seite oder zusammenhängende Seiten), hier: nur 1 Seite

– Relationen werden durch Hyperlinkpfade beschrieben (Weg aus Seiten+Hyperlinks) oder durch Textsegmente oder durch andere gelernte Regeln, hier: nur binäre Relationen

Page 10: 1 Learning to Construct Knowledge Bases from the World Wide Web Mark Craven, Dan DiPasquo, Dayne Freitag, Andrew McCallum, Tom Mitchell, Kamal, Neigam,

10

ProblemspezifikationProblemspezifikation

• offene Aufgaben– Erkennen von Klasseninstanzen – Erkennen von Relationsinstanzen – Extraktion aus Textsegmenten

Page 11: 1 Learning to Construct Knowledge Bases from the World Wide Web Mark Craven, Dan DiPasquo, Dayne Freitag, Andrew McCallum, Tom Mitchell, Kamal, Neigam,

11

Erkennen von KlasseninstanzenErkennen von Klasseninstanzenstatistische Textklassifikationstatistische Textklassifikation

• Classifier– full-text– title / heading– hyperlink

Page 12: 1 Learning to Construct Knowledge Bases from the World Wide Web Mark Craven, Dan DiPasquo, Dayne Freitag, Andrew McCallum, Tom Mitchell, Kamal, Neigam,

12

Erkennen von KlasseninstanzenErkennen von Klasseninstanzenstatistische Textklassifikationstatistische Textklassifikation

• Bewertung– probabilistisches Model (unigram, bag-of-

words): Wörter sind unabhängig voneinenander– ordne Seite der Klasse zu, die - bzgl. der

vorkommenden Wörter - am wahrscheinlichsten ist

Page 13: 1 Learning to Construct Knowledge Bases from the World Wide Web Mark Craven, Dan DiPasquo, Dayne Freitag, Andrew McCallum, Tom Mitchell, Kamal, Neigam,

13

Top-Ten Wörter

Page 14: 1 Learning to Construct Knowledge Bases from the World Wide Web Mark Craven, Dan DiPasquo, Dayne Freitag, Andrew McCallum, Tom Mitchell, Kamal, Neigam,

14

Erkennen von KlasseninstanzenErkennen von Klasseninstanzenstatistische Textklassifikationstatistische Textklassifikation

Verwendete Score-Funktion:

enstanden aus:

Page 15: 1 Learning to Construct Knowledge Bases from the World Wide Web Mark Craven, Dan DiPasquo, Dayne Freitag, Andrew McCallum, Tom Mitchell, Kamal, Neigam,

15

Konfusionsmatrix (full-text)

Page 16: 1 Learning to Construct Knowledge Bases from the World Wide Web Mark Craven, Dan DiPasquo, Dayne Freitag, Andrew McCallum, Tom Mitchell, Kamal, Neigam,

16

Accuracy / Coverage Tradeoff (full-text)

Page 17: 1 Learning to Construct Knowledge Bases from the World Wide Web Mark Craven, Dan DiPasquo, Dayne Freitag, Andrew McCallum, Tom Mitchell, Kamal, Neigam,

17

Erkennen von KlasseninstanzenErkennen von Klasseninstanzenlogische Klassifikationlogische Klassifikation

• Classifier werden als logische Regeln (Klauseln) gelernt

• FOIL: beginne mit leerer Klausel und füge per hill-climbing Suche neue Literale hinzu bis die Regel nur noch positive Instanzen abdeckt

Page 18: 1 Learning to Construct Knowledge Bases from the World Wide Web Mark Craven, Dan DiPasquo, Dayne Freitag, Andrew McCallum, Tom Mitchell, Kamal, Neigam,

18

Erkennen von KlasseninstanzenErkennen von Klasseninstanzenlogische Klassifikationlogische Klassifikation

• Hintergrundrelationen, z.B.– has_word(Page)– link_to(Page, Page)

• Beispiel-Regel:

Page 19: 1 Learning to Construct Knowledge Bases from the World Wide Web Mark Craven, Dan DiPasquo, Dayne Freitag, Andrew McCallum, Tom Mitchell, Kamal, Neigam,

19

Accuracy / Coverage Tradeoff (logische Regeln)

Page 20: 1 Learning to Construct Knowledge Bases from the World Wide Web Mark Craven, Dan DiPasquo, Dayne Freitag, Andrew McCallum, Tom Mitchell, Kamal, Neigam,

20

Erkennen von KlasseninstanzenErkennen von Klasseninstanzenkombinierte Klassifikationkombinierte Klassifikation

• benutze alle 4 bisherigen Classfier (full-text, title/heading, hyperlink, logische Regeln) und nehme die Klasse mit den meisten Stimmen (bei Stimmgleichheit entscheidet die Zuverlässigkeit der Vorhersagen)

• Ergebnis etwas deprimierend (keine einheitliche Verbesserung i.V. zu einzelnen Classifiern), zu einfache Kombination?

Page 21: 1 Learning to Construct Knowledge Bases from the World Wide Web Mark Craven, Dan DiPasquo, Dayne Freitag, Andrew McCallum, Tom Mitchell, Kamal, Neigam,

21

Accuracy / Coverage Tradeoff bei kombinierten Classifiern (200 Vokabeln)

Page 22: 1 Learning to Construct Knowledge Bases from the World Wide Web Mark Craven, Dan DiPasquo, Dayne Freitag, Andrew McCallum, Tom Mitchell, Kamal, Neigam,

22

Erkennen von RelationsinstanzenErkennen von Relationsinstanzen

• Hyperlinkpfade

• Hintergrundrelationen– class(Page)– link_to(Hyperlink, Page, Page)– ...

Page 23: 1 Learning to Construct Knowledge Bases from the World Wide Web Mark Craven, Dan DiPasquo, Dayne Freitag, Andrew McCallum, Tom Mitchell, Kamal, Neigam,

23

Erkennen von RelationsinstanzenErkennen von Relationsinstanzen

• Algo so ähnlich wie FOIL:(1) Pfadteil der Klausel wird gelernt

(2) Literale werden hinzugefügt (hill-climbing)

(1)

(2)

Page 24: 1 Learning to Construct Knowledge Bases from the World Wide Web Mark Craven, Dan DiPasquo, Dayne Freitag, Andrew McCallum, Tom Mitchell, Kamal, Neigam,

24

Erkennen von RelationsinstanzenErkennen von Relationsinstanzen

• Pfadfinder bei der Arbeit:

Page 25: 1 Learning to Construct Knowledge Bases from the World Wide Web Mark Craven, Dan DiPasquo, Dayne Freitag, Andrew McCallum, Tom Mitchell, Kamal, Neigam,

25

Erkennen von RelationsinstanzenErkennen von Relationsinstanzen

• Beispiel:

A D BC E

Page 26: 1 Learning to Construct Knowledge Bases from the World Wide Web Mark Craven, Dan DiPasquo, Dayne Freitag, Andrew McCallum, Tom Mitchell, Kamal, Neigam,

26

Accuracy / Coverage Tradeoff bei gelernten Relationen

Page 27: 1 Learning to Construct Knowledge Bases from the World Wide Web Mark Craven, Dan DiPasquo, Dayne Freitag, Andrew McCallum, Tom Mitchell, Kamal, Neigam,

27

Extraktion aus TextsegmentenExtraktion aus Textsegmenten

• typische IE - Aufgabe

• IDL Lerner im Sinne FOILs: SRV (Sequence Rule with Validation)

• Eingabe für SRV:– gelabelte Seiten (bzgl. der gesuchten Instanzen)– Features

• Ausgabe: IE Regeln

Page 28: 1 Learning to Construct Knowledge Bases from the World Wide Web Mark Craven, Dan DiPasquo, Dayne Freitag, Andrew McCallum, Tom Mitchell, Kamal, Neigam,

28

Extraktion aus TextsegmentenExtraktion aus Textsegmenten

• hill-climbing: Füge ein Literal hinzu, das soviel positive Instanzen (gelabelte Segmente) wie möglich abdeckt und viele negative Instanzen (ungelabelte Segmente) ausschliesst

• beende Suche, wenn Regel gut genug ist

Page 29: 1 Learning to Construct Knowledge Bases from the World Wide Web Mark Craven, Dan DiPasquo, Dayne Freitag, Andrew McCallum, Tom Mitchell, Kamal, Neigam,

29

Extraktion aus TextsegmentenExtraktion aus Textsegmenten

• Beispiel:

Page 30: 1 Learning to Construct Knowledge Bases from the World Wide Web Mark Craven, Dan DiPasquo, Dayne Freitag, Andrew McCallum, Tom Mitchell, Kamal, Neigam,

30

Extraktion aus TextsegmentenExtraktion aus Textsegmenten

• Erkannter Name:

• Regel trotzdem gut, Accuracy bei 77%

Page 31: 1 Learning to Construct Knowledge Bases from the World Wide Web Mark Craven, Dan DiPasquo, Dayne Freitag, Andrew McCallum, Tom Mitchell, Kamal, Neigam,

31

FazitFazit

• Prototyp hat Accuracy von über 70% bei Coverage von ca. 30%

• Methoden lassen sich vermutlich in neuen Kombination in anderen Domänen anwenden

• Aber: geignetste Methode hängt von der Darstellung der Instanzen ab

Page 32: 1 Learning to Construct Knowledge Bases from the World Wide Web Mark Craven, Dan DiPasquo, Dayne Freitag, Andrew McCallum, Tom Mitchell, Kamal, Neigam,

32

FazitFazit

• Prototyp gut an Webseiten angepasst:– Sicht nach 'Außen': Betrachtung der Umgebung

von Webseiten (logische Regeln) – Sicht nach 'Innen': Betrachtung einzelner

Textabschnitte von Webseiten (SRV-Textextraktion)

Page 33: 1 Learning to Construct Knowledge Bases from the World Wide Web Mark Craven, Dan DiPasquo, Dayne Freitag, Andrew McCallum, Tom Mitchell, Kamal, Neigam,

33

AusblickAusblick

• viele potentielle Verbesserungen– hierarchische Relation zwischen Klassen– kombiniere ungelabelte und gelabelte

Trainingsmenge– mehr linguistische Struktur– multiple Strategien zum Extrahieren von

Textsegmenten– ...

Page 34: 1 Learning to Construct Knowledge Bases from the World Wide Web Mark Craven, Dan DiPasquo, Dayne Freitag, Andrew McCallum, Tom Mitchell, Kamal, Neigam,

34

LinksLinks

• http://www.biostat.wisc.edu/~craven/papers/aij00.ps

• http://www.cs.cmu.edu/~webkb/

Page 35: 1 Learning to Construct Knowledge Bases from the World Wide Web Mark Craven, Dan DiPasquo, Dayne Freitag, Andrew McCallum, Tom Mitchell, Kamal, Neigam,

35

Erkennen von KlasseninstanzenErkennen von Klasseninstanzenstatistische Textklassifikationstatistische Textklassifikation

• Wortwahrscheinlichkeiten (Abschätzung)