a multilingual/multimedia lexicon model for ontologiesmujdricz/referate/referate/onto_ref... ·...
TRANSCRIPT
Paul Buitelaar, Michael Sintek, Malte Kiesel:
A Multilingual/Multimedia Lexicon Modelfor Ontologies
Referat
Alexandra Hagelstein, Éva Mújdricza31.01.2008
Ontologiebasierte Verarbeitung natürlicher Sprache, PSDozenten: Philipp Cimiano, Paul Buitelaar
Ruprecht-Karls-Universität Heidelberg
A.Hagelstein & É.Mújdricza A Multilingual/Multimediea Lexicon Model 2
Übersicht
● Allgemeine Eigenschaften der Ontologien● Ziele des Projektes● Das 4-Ebenen-Modell● Repräsentation der mehrsprachigen und multimedialen Merkmale● Annotation der Klassen● Beispiele● Zusammenfassung● Ausblick● Quellen
A.Hagelstein & É.Mújdricza A Multilingual/Multimediea Lexicon Model 3
Ontologien
● Eine Ontologie baut ein Wissensrepräsentationsmodell für eine zu beschreibende Welt, für eine Diskursdomäne zu einem gewissen Zeitpunkt auf.
● Sie definiert die Semantik (~ die Interpretation) für eine Objektmenge in der Domäne mit Hilfe von Klassen.
● Jedes Objekt hat ein eigenes Symbol.● Beim Aufbau einer Ontologie muss jeder relevante Inhalt mit dem Wissen
entsprechend der Ontologie ausgezeichnet sein, also definiert sein.
A.Hagelstein & É.Mújdricza A Multilingual/Multimediea Lexicon Model 4
Ontologien
● Ontologien stellen auch die Beziehungen des semiotischen Dreiecks dar:
Begriff/Inhalt/Bedeutung
erweckt bezieht sich auf Symbol/Form/Ausdruck Referent/Bezugsobjekt/Denotat steht für
● Ein Objekt in der Welt ist definiert durch seinen Inhalt/Bedeutung und wird repräsentiert durch das ihm zugewiesenen Symbol.
● Bisher hat sich die Forschung viel mehr mit der Inhaltsseite beschäftigt, weniger mit der Symbolseite.
A.Hagelstein & É.Mújdricza A Multilingual/Multimediea Lexicon Model 5
Ontologien
● Alle Symbole der Objektklassen müssen in der Ontologie definiert sein – verschiedene Symbole müssen betrachtet werden: sprachbezogene sowie bildbezogene.
→ Erweiterungen: Mehrsprachigkeit, Multimedialität● Laut OntoSelect (http://olp.dfki.de/ontoselect/) waren 2006 nur ca. 9% der
Ontologien fähig, mehrsprachige Terme zu repräsentieren.● Linguistische Symbole (z.B. Wörter, Ausdrücke) sind in einem Lexikon
gespeichert. Dieses Lexikon liefert für die Wörter bzw. Ausdrücke:● Bedeutung● linguistische Merkmale (z.B. Wortart, morphologische
Eigenschaften)● Ähnlich kann ein Bildlexikon Eigenschaften von Bildern beinhalten:
– prototypisches Bild– welche Bildeigenschaften zu welcher Klasse gehören
A.Hagelstein & É.Mújdricza A Multilingual/Multimediea Lexicon Model 6
Ziele des Projektes
● Motivation: Die text- und bildbezogenen Symbole für das in Ontologien repräsentierte Wissen werden oft vernachlässigt.
● Ziel dieses Projektes: Mehrsprachiges und multimediales Wissen in Ontologien einbinden.
→ Dazu ist eine reichhaltigere Text- und Bildrepräsentation nötig!● Dieses Papier zeigt ein RDF/S-basiertes Lexikonmodell, das selbst eine
Ontologie ist, und das – eine integrierte Darstellung von Domänenwissen sowie – die Darstellung der zugehörigen mehrsprachigen und multimedialen
Merkmale ermöglicht.
A.Hagelstein & É.Mújdricza A Multilingual/Multimediea Lexicon Model 7
Aufbau: das 4-Ebenen-Modell
● Inhalte und Wissen werden integriert in vier Ebenen (layers) organisiert:
A.Hagelstein & É.Mújdricza A Multilingual/Multimediea Lexicon Model 8
Aufbau:1. Inhaltsebene (content layer)
● besteht aus den vorhandenen Daten: – mehrsprachig: Texte– multimedial: Bilder,
Audiodateien, Videos, gemischte Text-Bild-Dokumente
A.Hagelstein & É.Mújdricza A Multilingual/Multimediea Lexicon Model 9
Aufbau:2. Merkmalsebene (feature layer)
● besteht aus Merkmalen der Daten aus der Inhaltsebene
● mehrsprachige Daten: von formlos aufgefassten Merkmalvektoren bis formalen Inhaltsbeschreibungen
● multimediale Daten: in der Regel formlos aufgefasste Merkmale wie farbige Diagramme
A.Hagelstein & É.Mújdricza A Multilingual/Multimediea Lexicon Model 10
Aufbau: 3. Zuordnungsebene (feature association layer)
● besteht aus ontologiebasierter Repräsentation der mehrsprachigen und multimedialen Merkmale, die auch auf der Merkmalsebene erscheinen.
● Die Merkmale werden Klassen und Relationen zugewiesen.
A.Hagelstein & É.Mújdricza A Multilingual/Multimediea Lexicon Model 11
Aufbau:4. Ontologieebene (ontology layer)
● besteht aus Klassen und Relationen, mit denen die Daten aus der 1. Inhaltsebene interpretiert werden können mit Hilfe der extrahierten und interpretierten Merkmalen aus den Ebenen 2 und 3.
A.Hagelstein & É.Mújdricza A Multilingual/Multimediea Lexicon Model 12
Repräsentation der Merkmale
● 2 Fragen:– Wie kann man mehrsprachige und multimediale Merkmale in Ontologien
einbinden?– Wie werden diese Merkmale mit den Konzepten verbunden?
A.Hagelstein & É.Mújdricza A Multilingual/Multimediea Lexicon Model 13
Repräsentation: Mehrsprachige Merkmale
● Mehrsprachige Merkmale bestehen aus einer Liste von Begriffsvarianten/Termvarianten – für jede Sprache der Ontologie.
● Jeder Term hat lexikalische und inhaltsbetreffende Informationen:– ID der Sprache (language-ID): eindeutiger Kennzeichner für alle in der
Ontologie vorhandenen Sprachen (ISO-basiert)– Wortart (part-of-speech): Wortart vom Kopfelement des Termes
(möglichst ISO-basiert)– morphologischer Aufbau (morphological decomposition): morphologische
Struktur des Termes (Bestandteile, Kopf, Modifikatoren)– syntaktischer Aufbau (syntactic decomposition): syntaktische Struktur des
Termes (Segmente, Kopf, Argumente)– statistischer und/oder grammatischer Kontext (statistical and/or
grammatical context model): linguistischer Kontext des Termes, (N-Gramme, Grammatikregeln, ...)
A.Hagelstein & É.Mújdricza A Multilingual/Multimediea Lexicon Model 14
Repräsentation: Multimediale Merkmale
● multimediale Merkmale werden mit MPEG-7 dargestellt:– Farbe (color): Farbraum, Struktur, Layout, dominierende Farben,
skalierbare Farben– Textur (Oberflächeneigenschaften) (texture): homogene Textur,
Textursuche, Kantendiagramm– Gestalt (shape): konturbasiert, bereichsbasiert, dreidimensional, mehrere
Ansichten
● MPEG-7: ein ISO-Standard von der Moving Picture Experts Group zur Beschreibung multimedialer Daten mit Hilfe von Metainformationen, die als XML-Dokumente oder BiM-Dokumente (speicherplatzsparender) gespeichert werden.– Verschiedene Aspekte der Objekte können auch festgehalten werden, z.B.:
Informationen über Erzeugung, Nutzung, Struktur, Interpretation der Inhalte.
A.Hagelstein & É.Mújdricza A Multilingual/Multimediea Lexicon Model 15
Annotation der Klassen mit Merkmalen
● Domänenwissen wird RDF/S-basiert repräsentiert. ● RDF/S = Resource Description Framework Schema: Eine Spezifikation
der W3C, die die Syntax für den gemeinsamen Datenaustausch zur Verfügung stellt.
● Mit RDFS können Ontologien einfach erstellt und bearbeitet werden. ● Wichtig ist: Klassen und Eigenschaften/Merkmale werden getrennt
voneinander repräsentiert.
A.Hagelstein & É.Mújdricza A Multilingual/Multimediea Lexicon Model 16
Annotation der Klassen mit Merkmalen
http://www.w3.org/TR/rdf-schema/
A.Hagelstein & É.Mújdricza A Multilingual/Multimediea Lexicon Model 17
Annotation der Klassen mit Merkmalen
● Neue Metaelemente werden eingeführt, die erlauben, Inhaltsmerkmale mit Klassen und Eigenschaften direkt zu verknüpfen:– ClassWithFeats: Metaklasse– PropertyWithFeats: Metaeigenschaft
A.Hagelstein & É.Mújdricza A Multilingual/Multimediea Lexicon Model 18
Annotation der Klassen mit Merkmalen
● Metaklasse ClassWithFeats: erlaubt auch komplexe Informationen zu den Klassen – mit den Eigenschaften lingFeat und imgFeat.– In der Planung: zusätzliche Eigenschaften für andere Medientypen
(Audio- und Videodaten) sollen eingeführt werden.● Saubere Trennung von linguistischem und semantischem Wissen:
– Die Ontologie stellt semantische Relationen dar, die in RDF/S oder mit OWL-Full definiert werden.
– Die Ontologie verknüpft linguistisches Wissen mit Klassen und Eigenschaften.
A.Hagelstein & É.Mújdricza A Multilingual/Multimediea Lexicon Model 19
Annotation der Klassen mit Merkmalen
● Die integrierte ontologiebasierte Merkmalsrepräsentation basiert auf dem aktuellen SmartWeb-Projekt (http://www.smartweb-project.de/).
● SmartWeb beruht auf einer Ontologie für Sportveranstaltungen und sportbezogene Angelegenheiten.
● Es ist ein komplexes multimodales (verschiedene Eingabemodi wie Sprache, Tastatur usw.) Frage-Antwort-System und Dialogsystem.– Die Antworten werden aus unstrukturierten Daten (z.B. Web), aus
automatisch erfassten Wissensbasen und aus Webdienstleistungen erschlossen und generiert.
● Siehe Beispiele unter: http://smartweb.dfki.de/Intro_Demo/start.html
A.Hagelstein & É.Mújdricza A Multilingual/Multimediea Lexicon Model 20
Die SmartWeb Ontologie
● Ein Beispiel aus der Ontologie mit Klassen und zugeordneten Merkmalen:– Klasse: o:FootballPlayer– Subklassen: o:Defender, o:Midfielder– Die Klassen sind Instanzen von der Metaklasse feat:ClassWithFeats, das den Klassen erlaubt, die Eigenschaften feat:lingFeat und feat:imgFeat zu benuzten.
A.Hagelstein & É.Mújdricza A Multilingual/Multimediea Lexicon Model 21
Linguistische Merkmale
A.Hagelstein & É.Mújdricza A Multilingual/Multimediea Lexicon Model 22
Linguistische Merkmale
● Ein Teil der Ontologie, der linguistische Merkmale darstellt:– morphosyntaktischer Aufbau: Zerlegung der Phrasen und Wortformen
in Stämme, Wurzel, Morpheme, Affixe, ...– grammatische Eigenschaften: Geschlecht, Nummer, Kasus,
Wortart, ...– Wortformen haben die Eigenschaft semantics: ein rückweisender Link
auf die Ontologie, der zu der Wortform Bedeutungen erlaubt.
A.Hagelstein & É.Mújdricza A Multilingual/Multimediea Lexicon Model 23
d
Wort-form-
beispiel:
„Fußball-spielers”
A.Hagelstein & É.Mújdricza A Multilingual/Multimediea Lexicon Model 24
Wortformbeispiel: „Fußballspielers”
● Die Zerlegung der Wortform (Term) „Fußballspielers” in ihre morphologische Bestandteile:– inst1: = „Fußballspielers” flektierte Wortform mit Genitivendung, ihr
Stamm ist inst2– inst2: = „Fußballspieler”, zerlegbar in inst3 und inst8– inst3: = „Fußball”, zerlegbar in inst5 und inst7– inst4: = „Ball” (Wurzel)– inst5: = „Fuß” (Stamm)– inst6: = „Fuß” (Wurzel)– inst7: = „Ball” (Stamm)– inst8: = „Spieler” (Stamm)
A.Hagelstein & É.Mújdricza A Multilingual/Multimediea Lexicon Model 25
Wortformbeispiel: „Fußballspielers”
● Fragen zu Folie 23f:– Wie wird der Unterschied zwischen Stamm (stem) und Wurzel (root)
aufgefasst?– Warum wird das Wort "Spieler" nicht weiter zerlegt? Werden Derivate
grundsätzlich nicht zerlegt?
A.Hagelstein & É.Mújdricza A Multilingual/Multimediea Lexicon Model 26
Zusammenfassung
● Es wurde ein Modell für Repräsentation mehrsprachiger und multimedialer Inhaltsmerkmale in Ontologien vorgestellt.
● Dieses Modell – kann effizienter mit automatischer Auszeichnung von Text- und
Bilddaten umgehen als die bisherigen Versuche, – ist effizienter beim Lernen der Ontologie und auch bei anderen
Anwendungen wie Dialogverarbeitung, Zusammenfassung und maschinelle Übersetzung.
● Dieses Modell trennt das Domänenwissen von linguistischen und semantischen Wissen.– Domänenwissen: über die Objektmenge – linguistisches und semantisches Wissen von Termen und Bildern werden
zum Referieren auf das Objekt verwendet.
A.Hagelstein & É.Mújdricza A Multilingual/Multimediea Lexicon Model 27
Ausblick
● Weitere Ziele: – Das Modell soll mit mehrsprachigen und multimedialen
Inhaltsmerkmalen erweitert werden → um in der Wissensbasis der Ontologie den linguistischen bzw.
bildbezogenen Kontext der erschlossenen Fakten repräsentieren zu können.
– Zusätzliche Eigenschaften für andere Medientypen (Audio- und Videodaten) sollen eingeführt werden.
– Ein halbautomatisches Modul soll aufgebaut werden, das Bilder und ihre Textumgebung automatisch aufeinander bezieht.
– text2image– image2text– text2text– text2class, image2class
A.Hagelstein & É.Mújdricza A Multilingual/Multimediea Lexicon Model 28
Ausblick
?
● Falls wir noch Zeit haben, würden wir euch diese Funktionen gerne näher erläutern :)
A.Hagelstein & É.Mújdricza A Multilingual/Multimediea Lexicon Model 29
Anwendungen: LingInfo
● Das im SmartWeb eingebaute LingInfo-Modul ermöglicht sprachübergreifende (cross-lingual) und medienübergreifende (cross-medial) Merkmalsextraktion, Repräsentation und Benutzung:– text2image: Zwischensprachliche Erfassung von deutschsprachigen
Inhaltsmerkmalen mit Hilfe von dargestellten englischsprachigen Inhaltsmerkmalen.
● z.B.: Von englischsprachigen Termen einer Klasse kann man einen Klassifizierer bauen für Bilder, die im Kontext dieser Terme vorkommen.
.... .... .. ...... ........... ...Tor... ..............
Ziel: Bild ...... goal ... klassifizieren... ...... ........ ... .........
A.Hagelstein & É.Mújdricza A Multilingual/Multimediea Lexicon Model 30
Anwendungen: LingInfo
– image2text: Medienübergreifende Erfassung von deutschsprachigen Inhaltsmerkmalen mit Hilfe von dargestellten multimedialen Merkmalen.
z.B.: Von Bildinstanzen einer englischsprachigen Klasse kann man deutschsprachige Terme für diese Klasse aus der Textumgebung der Instanz erschließen.
.......... ................. ..............
... ...... . ~ „goal” .................. Ziel: deutsche
Terme klassifizieren
A.Hagelstein & É.Mújdricza A Multilingual/Multimediea Lexicon Model 31
Anwendungen: LingInfo
– text2text: Medienübergreifende Erfassung von multimedialen Inhaltsmerkmalen mit Hilfe von dargestellten englischsprachigen Inhaltsmerkmalen.
● z.B.: Von englischsprachigen Termen einer Klasse + von ihren Kontextmerkmalen + von ihren Übersetzungsmöglichkeiten ins Deutsche → kann man einen Klassifizierer bauen für die Erkennung von ungesehenen deutschsprachigen Termen dieser Klasse.
GOAL: im Kontext: shot, score, ... ~ dt. TOR Ziel: ungesehene deutsche Terme klassifizieren
A.Hagelstein & É.Mújdricza A Multilingual/Multimediea Lexicon Model 32
Anwendungen: LingInfo
– text2class, image2class: Datenbankgestützte/automatische (data-driven) Bearbeitung der Repräsentation von Domänenwissen für eine Klasse mit Hilfe von einer dargestellten englischsprachigen Terminologie.
● z.B.: Von englischsprachigen Termen einer Klasse + aus ihrem Kontextfenster (Wörter, bzw. Bilder) → kann man die Änderungen des semantischen Modells dieser Klasse erkennen und das Modell dementsprechend ändern/erweitern.
....K1...... ......K2....... ....K1...... ?goal goal
...K3..... ...K3..... .............
A.Hagelstein & É.Mújdricza A Multilingual/Multimediea Lexicon Model 33
Quellen
● Paul Buitelaar, Michael Sintek, Malte Kiesel: A Lexicon Model for Multilingual/Multimedia Ontologies. In: Proceedings of the 3rd European Semantic Web Conference (ESWC06), Budva, Montenegro, June 2006. www.dfki.de/~paulb/eswc2006.pdf (Stand: 10.12.2007)
● Semiotisches Dreieck: http://de.wikipedia.org/wiki/Semiotisches_Dreieck (Stand: 11.01.2008)
● MPEG-7: http://de.wikipedia.org/wiki/MPEG-7 (Stand: 12.01.2008)
● RDFS: http://www.w3.org/TR/rdf-schema/ (Stand: 11.01.2008)
http://de.wikipedia.org/wiki/RDF-Schema (Stand: 15.01.2008)
● SmartWeb: http://www.smartweb-project.de/ (Stand: 11.01.2008)
http://smartweb.dfki.de/Intro_Demo/start.html (Stand: 11.01.2008)
http://smartweb.dfki.de/CeBIT-2006/smartweb-cebit.pdf (Stand: 11.01.2008)
● Beispielbild: http://www.sf.tv/piccache/webtool/data/pics/sportdiashow/ fu_cupfinal_2004_szq_w_h347_m.jpg (Stand: 28.01.2008)