Download - Learning to Map between Ontologies on the Sematic Web

Learning to Map between Learning to Map between Ontologies on the Sematic Web Ontologies on the Sematic Web

Seminar „ Data Mining“Seminar „ Data Mining“

SS 2005SS 2005

Grigori BabitskiGrigori Babitski

12.07.200512.07.2005

• Internet: Unmenge von Information

• Daten maschinell erfasst syntaktische Suche möglich

• Info-Gehalt maschinell erfasst semantische Suche möglich

ONTOLOGIEONTOLOGIE

Beschreibt Wissen über eine Domäne indem

-Bedeutungen von Konzepten

-Beziehungen (Relationen) zw. Konzepten

formal definiert und damit maschinell nutzbar macht.

Ontologie

Konzepte

Instanzen

Attribute

Relationen

• Spezialisierung / Generalisation

+

+

+

Zusätzl. Relationen

• Instanz – Instanz

• Konzept – Konzept

• Instanz - Konzept

Ontologie

+

geführt von

Taxonomie

= Fachgebiet

Ontologie: Begriffe

Semantische Suche

Nützlichkeit, einfaches und überzeugendes Beispiel:Nützlichkeit, einfaches und überzeugendes Beispiel:

Anfrage: „Exportproblem der Automobilindustrie in Ostasien“

Ergebnis: auch Dokumente mit „Thailand“ und „Ford“ oder „VW“

z.B. „Exportprobleme von VW in Thailand“

• Viele Ontologien in Web • ähnliche Domäne, aber unterschiedliche Terminologie

• überlappende Domänen

• Integration zur gemeinsamen Nutzung

• Semantische Korrespondenz zw. Elementen (Mapping-Problem)

Semantische Suche, Mapping

Aufgabenstellung

Geg. 2 Taxonomiebäume (mit Instanzen)

Finde für jeden Knoten (d.h. Konzept) einer Taxonomie den, Finde für jeden Knoten (d.h. Konzept) einer Taxonomie den, bzgl. vordefinierten Ähnlichkeitsmaßes, ähnlichsten Knoten bzgl. vordefinierten Ähnlichkeitsmaßes, ähnlichsten Knoten in anderer Taxonomiein anderer Taxonomie (1-1) Mapping

• Mapping zw. anderen, auch verschiedenen Ontologieelementen (Instanzen, Relationen, Attributen) möglich, aber

Taxonomie – zentrale Komponenete; Rest ergibt sich daraus

• Mapping zw. Mengen von Elementen möglich? Sinnvoll?

Mapping entscheidend für semantische Suche, sonst Babelturm

FuturesFutures

Probabilistische Ähnlichkeitsmaße

• Viele verschiedene verwendbar

Techniken des maschinellen Lernens

• Lernen aus verschiedenen Informationen

Instanzen

Taxonomische Struktur

Einbeziehung zusätzlichen Wissens

• Allgemeinwissen

Beziehungen, die generell in Taxonomien gelten

• Domänenabhängige Constrains

GLUE

• Konzept definiert als Menge

• Ähnlichkeit von 2 Konzepten definiert über irgendeinen Zusammenhang zw. den Mengen

• Beispiele der möglichen/sinnvollen Zusammenhänge – später

• Zusammenhang oft beschreibbar durch gemeinsame Verteilung

Vorüberlegung

Gemeinsame Wahrsch.-Verteilung der KonzepteGemeinsame Wahrsch.-Verteilung der Konzepte

P(A,B), P(P(A,B), P(A,B), P(A,A,B), P(A,B), P(B), P(A, A, B)B)

Wahrsch., dass eine Instanz in Konzept A, aber nicht in B liegt

Gegeben: Y Senior Lecturer

Problem: Y Assoc. Prof.?Ja P(Assoc.Prof, Senior Lecturer) relativ hoch

Faculty

Asst. Prof.

Assoc. Prof.

Prof. Dr.X

Acad. Staff

Lecturer Senior LecturerProf. Dr.Y

Vorüberlegung

1.1. Lerne Klassifikator für Lerne Klassifikator für Assoc. Prof.Assoc. Prof.

Als Tainingsdata Instanzen vonAls Tainingsdata Instanzen von Assoc.Prof. Assoc.Prof.

2.2. Klassifiziere damit Klassifiziere damit YY

Lösung:

GLUE: Architektur

Ähnlichkeitsmaß• Soll sein:

wohldefiniert

intuitiv nachvollziehbar, d.h. mit semantischem Hintergrund

• Keine Festlegung auf einen bestimmten Ähnlichkeitsmaß

soll möglich sein je nach Situation eine passende zu definieren

• Bsp.: Einfügen neuen Konzepts in Taxonomie

{1,2,3,4,5}

{2,3,4}

{3,4}

{2,4}

{2,5}

{3,5}

{1,4}

{2,3,5}

most-specific-parent

most-general-child

exact

3 Ähnlichkeits-

maße

Verteilungsbasierte Ähnlichkeitsmaße„exact“

A,B

A,B

A, B

P(A,B) + P(A,B) + P(A,B)

P(A,B)=

P(A B)

P(A B)Sim(A,B) =

[Jaccard, 1908]

Je stärker sich die Mengen (von Instanzen) schneiden, desto ähnlicher Konzepte

sonst

wenn

0

1A)|P(B B)|P(AB)MSP(A,

• P(Prof | Staff) < P(Prof | Acad Staff)

d.h., im Sinne von MSP Prof ähnlicher zu Acad Staf als zu Staff

Verteilungsbasierte Ähnlichkeitsmaße „most-specific-parent“

• P(Staff | Prof) = 1Academic Staff Technical

Professor SeniorLecturer

Lecturer

Staff

…• P(Acad Staff | Prof) = 1

• P(Tech Staff | Prof ) = 0

Beispiel: Sei A „Professor“. Welches B maximiert MSP(A,B)

Definition von „most-specific-child“ ähnlich

GLUE: Architektur

K

L

M

N G

H

F J

B

A

T1T1 T2T2

2U1U

A,B2UA,B

1U A,B P

liegen B und A in

die ,iT von Instanzen -B,AiU

• Betrachte Instanzen von T2T2 (also U2)

• Welche davon in B liegen – trivial

• Welche genügen A? Abschätzen!

• Benutze dafür maschinelles Lernen!

VerteilungsschätzerWollen: P(A,B) bestimmenWollen: P(A,B) bestimmen

VerteilungsschätzerWas macht Lerner?

Wollen Konzept „Professor“ lernenWollen Konzept „Professor“ lernen

1. Training:

• Eingabe:

Positive Instanzen/Beispiele (Professoren)

Negative Instanzen (keine Professoren)

• Internes „Zusammenrechnen“ der Merkmale

2. Test (Benutzung):

• Eingabe: Irgendeine Instanz

• Ausgabe: geschätzte Wahrsch., sie ist ein Professor Vergleiche Merkmale von Instanz mit gelernten Merkmalen von „Professor“

Es sei ein Lerner ist gegeben. Wie damit UiAB bestimmen?

Bestimmen von Bestimmen von UU22AB AB mit Lerner L:mit Lerner L:

1. Unterteile U1 in U1

A und U1A (pos./neg. Beispiele)

2. Trainiere damit L (= lerne Konzept A)

3. Unterteile U2 in U2

B und U2B

4. Benutze L um aus U2B U2

AB zu erhalten

2U1U

A,B2UA,B

1U A,B P

• Um U1AB zu erhalten vertausche: 12 und AB

• Um P(A,B) zu erhalten negiere in Formel und Algorithmus B

K

L

M

N G

H

F J

B

A

T1T1 T2T2

Verteilungsschätzer: Algorithmus

Content Learner• Lernt ein Konzept A

• Lernt aus Textinhalt der Instanzen:

„R.Cook, Ph.D., University of Sidney, Australia“

• Lernverfahren: Naive Bayes (passt besonders gut zu Lerninfo)

• Vorbereitung: parsing und stemming der Textinhalte

• Ergebnis: bag of tokens, also d ={w1,...,wk}

d – bag of tokens einer Instanz

wi – token dieser Instanz

• Eingabe: d einer beliebigen Instanz

• Ausgabe: P(A|d)

Bayes von Satz P(d)

P(A)A)|P(dd)|P(A

Normalisierungskonstante (auf 1); kann weggelassen werden

Wie oft solche token-Menge d vorkommt ist

unwichtig um zu entscheiden, ob sie zu A

gehört

Anteil der Trainingsinstanzen, die zu A gehören (wird im Vorfeld berechnet)

berechnet Training)(in Vorfeld im wird

A)|kP(wA)|2P(wA)|1P(wA)|P(dkw1wd

Wegen Annahme, wi

unabhängig won wj. (dann nach Def. P(wi,wj)=P(wi)P(wj) )

Naive Bayes

Annahme

naive, aber

funkzioniert

Name Learner

Name einer Instanz = ihr Name + Name der Konzepte bis zum Wurzel

Name von „R.Cook“:

„CS Dept US, People, Faculty, Associate Professor, R.Cook“

Lernen eines Konzepts aus anderer Information

full name statt content

Als Lernverfahren Naive Bayes (vermutlich)

Multi-Strategy Learning

• Viele Informationen aus denen man lernen kann

Inhalt, Name, Wortfrequenz, Format...

• Viele Lernverfahren (spezifisch, je nach Lerninfo)

• Lerne aus verschiedenen Informationen! (erhöht Qualität)

• Ergebnisse einzelner Lerner kombinieren. METALERNERMETALERNER

• Momentan: gewichtetes Vertrauen in einzelne Lerner (manuell)

Lerner1: Ja 0.8 Gewicht: 0.6 Ja 0.8*0.6+0.3*0.4=0.6

Lerner2: Ja 0.3 Gewicht: 0.4 Nein 0.2*0.6+0.7*0.4=0.4

• Besser: z.B. stackingstacking

Metalerner:

Stacking

Basislerner

Test-

Instanz1 2 3 korrekte

Klassifik.

1 + + + +

2 + – + –

3 – – + +

4 – – + –

1. Trainingsinstanzen in 2 Gruppen teilen

2. Mit 1. Gruppe Basislerner trainieren

3. Mit 2. Basislerner testen (Tabelle)

4. Z.B. Regellernverfahren anwenden

Metalerner:

2. Basislerner „ –“ 3. Basislerner „+“ „ –“

+: Basislerner sagt „ja“ mit Wahrsch. 0.5

Aus der Tabelle auch mit Naive Bayes Metalerner trainierbar!

ZwischenergebnisÄhnlichkeitsmatrix der Konzepte für einen gewählten Ahnlichkeitsmaß

.

.

.. .. .

.

..

A1

A2....

B1 B2 . . . .

Taxonomie 1Taxonomie 1

Taxonomie 2Taxonomie 2

Einträge zw.

0 und 1

GLUE: Architektur

• Unabhängig von der Domäne, z.B.

Two nodes match if their children also match

Constraints

• Domänenspezifisch, z.B.

If node Y is a descendant of node X, and Y matches PROFESSOR, then it is unlikely that X matches ASST-PROFESSOR

Asst-Prof.

Prof.

Modellierung der Constraints

Für je ein Constraint

f: ( ) [0,1]X,

X – Konzept, das man matchen (labeln) will

L

L – Kandidat für matching mit X

Δk,

Δk – Gesammtwissen über die Domäne (Taxanomiestruktur, Instanzen...) und Domain Constraints

MX,

MX – Bisheriges matching aller Konzepte außer X

Anwendung der Constraints

Wollen prüfen, ob X mit L gematcht werden kann/soll: P(X=L)

f1(MX,Δk,X,L)

f2(MX,Δk,X,L)

f3(MX,Δk,X,L)

...

Wert P(X=L)

+

+1

2

3

i – Gewichte der Constrains; wenn negativ, Constrain gegen matchen X mit Y

i positiv je höher fi desto höher P(X=L)

i negativ je höher fi desto niedriger (PX=L)

Modellierung der Constrains: Beispiele

Two nodes match if their children also match

f(MX,Δk,X,L) := % der X‘ Kinder, die (bei geg. MX) matchen Kind von L;

je höher, desto höher P(X=L), d.h positiv

If node L is a descendant of node X, and L matches PROFESSOR, then it is unlikely that X matches ASST-PROFESSOR

Asst-Prof.

Prof.

f(MX,Δk,X,ASST-PROFESSOR) :=1, wenn Nachfolger von X, der PROFESSOR ist, sonst 0; negativ, weil f=1 im Fall, der zu vermeiden ist

Sigmoidfunktion

xe1

1)x(

ifix :

0

1P(x)

0-5-10 5 10

...gewichtete Summe der Consraints in [0,1] bringen:

Relaxation Labeling• Allgemein:Allgemein: Den Knoten eines Graphs Labels zuzuweisen bei

gegebenen Constraints

• Idee:Idee: Label eines Knoten abhängig von Eigenschaften der Knoten in der Nachbarschaft (deren Labels, Erfüllen bestimmter Constraints...)

• In Anwendung hier:In Anwendung hier:

Knoten – Konzepte 1. Taxonomie

Labels – Konzepte 2. Taxonomie

Initialisierung der Labels: gemäß der Ähnlichkeitsmatrix (vermutlich)

Aktualisierung der Labels (ausgehend von aktualisierten Labels der Nachbarknoten) bis Kriterium fürs Ende erfüllt

• Brauchen:Brauchen: Formel zur Aktualisierung der Labels P(X=L|Δk)=...

Evaluierung

•Taxonomies on the web–University classes (UW and Cornell)–Companies (Yahoo and The Standard)

•For each taxonomy–Extracted data instances – course descriptions, and company profiles–Trivial data cleaning–100 – 300 concepts per taxonomy–3-4 depth of taxonomies–10-90 average data instances per concept

•Evaluation against manual mappings

Real World Experiments

Daten für die Experimente

Manual mappings – nicht alle Konzepte gematcht

Matching accuracy = #Knoten, korrekt gematcht von GLUE#manuell gematchte Knoten

GLUE nutzt nur 30-90 Instanzen pro Konzept, weil es reicht

0

10

20

30

40

50

60

70

80

90

100

Cornell to Wash. Wash. to Cornell Cornell to Wash. Wash. to Cornell Standard to Yahoo Yahoo to Standard

Ma

tch

ing

ac

cu

rac

y (

%)

Name Learner Content Learner Meta Learner Relaxation Labeler

University I University II Companies

Ergebnisse

Name Lerner schlecht, weil (volle) Konzeptnamen zu ähnlich (unspezifisch) Nützlichkeit von multi-strategy learning!

Relaxation Labeling Stoppkruterium

• Typisch: Genauigkeit steigt während weniger Iterationen am Anfang und dann sinkt

• Finde richtiges Stoppkriterium!

1. Mappings ändern sich nicht

2. Wahrscheinlichkeiten ändern sich nicht

3. #Iterationen

• Oft bei 2 und 3: Genauigkeit zuerst steigt und dann sinkt

• Bei 1: steigt höher, sinkt fast nie

• Folglich: GLUE benutzt 1

GLUE

• An automated solution to taxonomy matching– Handles multiple notions of similarity

– Exploits data instances and taxonomy structure

– Incorporates generic and domain-specific constraints

– Produces high accuracy results

• Future Work– More expressive models

– Complex Mappings

– Automated reasoning about mappings between models

Conclusions & Future Work

Download - Learning to Map between Ontologies on the Sematic Web

Top Related