vortrag zur definitionsextraktion mit evolutionären algorithmen
DESCRIPTION
Vortrag zur Definitionsextraktion mit Evolutionären Algorithmen. von Christian Wellner. Referenz: Claudia Borg, Mike Rosner, Gordon Pace (2009): Evolutionary Algorithms for Definition Extraction In: Workshop on Definition Extraction 2009 , Borrovets, Bulgaria, pp. 26-32. Überblick. - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Vortrag zur Definitionsextraktion mit Evolutionären Algorithmen](https://reader036.vdocument.in/reader036/viewer/2022070413/56814c26550346895db92b59/html5/thumbnails/1.jpg)
Vortrag zur Definitionsextraktion mit Evolutionären Algorithmen
von Christian Wellner
![Page 2: Vortrag zur Definitionsextraktion mit Evolutionären Algorithmen](https://reader036.vdocument.in/reader036/viewer/2022070413/56814c26550346895db92b59/html5/thumbnails/2.jpg)
Referenz:
Claudia Borg, Mike Rosner, Gordon Pace (2009): Evolutionary Algorithms for Definition Extraction
In: Workshop on Definition Extraction 2009, Borrovets, Bulgaria, pp. 26-32.
![Page 3: Vortrag zur Definitionsextraktion mit Evolutionären Algorithmen](https://reader036.vdocument.in/reader036/viewer/2022070413/56814c26550346895db92b59/html5/thumbnails/3.jpg)
Überblick
Definitionsextraktion Schritt 1: Merkmalsfindung Schritt 2: Merkmalsgewichtung Kombination der Schritte Fazit
![Page 4: Vortrag zur Definitionsextraktion mit Evolutionären Algorithmen](https://reader036.vdocument.in/reader036/viewer/2022070413/56814c26550346895db92b59/html5/thumbnails/4.jpg)
Definitionsextraktion
Als „Definitionsextraktion“ wird das Auslesen von Definitionen aus einem Text bezeichnet Dieser Satz war bereits eine solche Definition
Die gesammelten Definitionen werden in einem Glossar zusammengefasst
Teilaufgabe des Information Retrieval Sehr (zeit-)aufwendig „per Hand“ durchzuführen
![Page 5: Vortrag zur Definitionsextraktion mit Evolutionären Algorithmen](https://reader036.vdocument.in/reader036/viewer/2022070413/56814c26550346895db92b59/html5/thumbnails/5.jpg)
Definitionsextraktion
Bisheriger Ansatz: Erkennung von einfachen Mustern, durch Menschen erstellt [X] ist ein [Y] [Y] wird als [X] bezeichnet …
Halbwegs akzeptable Performanz bei gut strukturierten Texten vor allem Lehrbücher
![Page 6: Vortrag zur Definitionsextraktion mit Evolutionären Algorithmen](https://reader036.vdocument.in/reader036/viewer/2022070413/56814c26550346895db92b59/html5/thumbnails/6.jpg)
Definitionsextraktion
Wird umso komplizierter, je freier die linguistische Form des Textes Mehr Muster werden benötigt, um hohe Abdeckung
zu erreichen Jedes zusätzliche Muster kann die Präzision
verringern Muster sind sehr unflexibel (keine Gewichtung)
Für die meisten Textsorten liefert reine Mustererkennung schlechte Ergebnisse
![Page 7: Vortrag zur Definitionsextraktion mit Evolutionären Algorithmen](https://reader036.vdocument.in/reader036/viewer/2022070413/56814c26550346895db92b59/html5/thumbnails/7.jpg)
Definitionsextraktion
Neuer Ansatz: Evolutionäre AlgorithmenZwei dieser Verfahren werden benutzt
Die Genetische Programmierung zum Finden geeigneter Merkmale
Der Genetische Algorithmus zur Gewichtung der Merkmale
![Page 8: Vortrag zur Definitionsextraktion mit Evolutionären Algorithmen](https://reader036.vdocument.in/reader036/viewer/2022070413/56814c26550346895db92b59/html5/thumbnails/8.jpg)
Genetischer Algorithmus
Basiert auf evolutionären Prinzipien
Verwendet einfache Arrays als Individuen
Schnellstes evolutionäres Verfahren
Allerdings sehr beschränkter Suchraum
![Page 9: Vortrag zur Definitionsextraktion mit Evolutionären Algorithmen](https://reader036.vdocument.in/reader036/viewer/2022070413/56814c26550346895db92b59/html5/thumbnails/9.jpg)
Genetische Programmierung
Basiert auf evolutionären Prinzipien
Verwendet Bäume (Programme) als Individuen
Extrem umfangreicher Suchraum
Allerdings entsprechend langsamer
![Page 10: Vortrag zur Definitionsextraktion mit Evolutionären Algorithmen](https://reader036.vdocument.in/reader036/viewer/2022070413/56814c26550346895db92b59/html5/thumbnails/10.jpg)
Das System
Durch Menschen vorgenommene Schritte sind optional und dienen der Kontrolle und Optimierung
Ein annotiertes Trainingsset wird vorausgesetzt
Das eigentliche System arbeitet völlig automatisch
![Page 11: Vortrag zur Definitionsextraktion mit Evolutionären Algorithmen](https://reader036.vdocument.in/reader036/viewer/2022070413/56814c26550346895db92b59/html5/thumbnails/11.jpg)
Merkmalsfindung mit GP
IndividuenReguläre AusdrückeBasiselemente: Part-of-Speech-TagsGeben, angewandt auf einen Satz, einen
Wahrheitswert zurück (Matching)z.B. DET ? . Adj* . N . Vfin
Eine Pflanze wächst. -> true
![Page 12: Vortrag zur Definitionsextraktion mit Evolutionären Algorithmen](https://reader036.vdocument.in/reader036/viewer/2022070413/56814c26550346895db92b59/html5/thumbnails/12.jpg)
Merkmalsfindung mit GP
Verwendete Struktur:
![Page 13: Vortrag zur Definitionsextraktion mit Evolutionären Algorithmen](https://reader036.vdocument.in/reader036/viewer/2022070413/56814c26550346895db92b59/html5/thumbnails/13.jpg)
Merkmalsfindung mit GP
Operatoren: sfeature ? = Optionalität sfeature * = Kleene-Hülle sfeature . sfeature = Verkettung sfeature + sfeature = Alternative
sfeature & feature = Konjunktion
![Page 14: Vortrag zur Definitionsextraktion mit Evolutionären Algorithmen](https://reader036.vdocument.in/reader036/viewer/2022070413/56814c26550346895db92b59/html5/thumbnails/14.jpg)
Merkmalsfindung mit GP
FitnessfunktionWie gut matcht das Individuum die Sätze aus
dem Trainingsset?F-Score wird berechnetTendiert dazu, nur Regeln auszuwählen, die
mehrere Sätze abdecken
![Page 15: Vortrag zur Definitionsextraktion mit Evolutionären Algorithmen](https://reader036.vdocument.in/reader036/viewer/2022070413/56814c26550346895db92b59/html5/thumbnails/15.jpg)
Merkmalsfindung mit GP
Experimente200 – 1000 IndividuenVariation der linguistischen Objekte (lobj)
Spezieller: mit einzelnen Vokabeln (‚to define‘ etc.) Genereller: Zusammenfassung ähnlicher POS-
Tags (z.B. aller Nomen)
![Page 16: Vortrag zur Definitionsextraktion mit Evolutionären Algorithmen](https://reader036.vdocument.in/reader036/viewer/2022070413/56814c26550346895db92b59/html5/thumbnails/16.jpg)
Merkmalsfindung mit GP
ExperimenteErgebnis, aufgeteilt in 3 Kategorien:
Speziellere linguistische Objekte brachten in der Regel bessere Ergebnisse
![Page 17: Vortrag zur Definitionsextraktion mit Evolutionären Algorithmen](https://reader036.vdocument.in/reader036/viewer/2022070413/56814c26550346895db92b59/html5/thumbnails/17.jpg)
Merkmalsfindung mit GP
Zwischenergebnis:Merkmalsfindung mit GP erzielt allein für sich
auch keine wirklich überzeugenden Ergebnisse
Aber immerhin AutomatisierungUnd geringere Chance, dass ein gutes Muster
übersehen wird
![Page 18: Vortrag zur Definitionsextraktion mit Evolutionären Algorithmen](https://reader036.vdocument.in/reader036/viewer/2022070413/56814c26550346895db92b59/html5/thumbnails/18.jpg)
Merkmalsgewichtung mit GA
Individuen Merkmalsvektoren Jedem Merkmal wird ein
Gewicht zugeordnet „Compound Feature“:
Addition aller Werte eines Individuums
Feature Gewicht
f1 1
f2 3
f3 -1
f4 7
f5 -4
f6 0
… …
Compound Feature = 6
![Page 19: Vortrag zur Definitionsextraktion mit Evolutionären Algorithmen](https://reader036.vdocument.in/reader036/viewer/2022070413/56814c26550346895db92b59/html5/thumbnails/19.jpg)
Merkmalsgewichtung mit GA
FitnessfunktionDas Individuum wird auf jede Trainingsinstanz
angewendetDas Compound Feature für die wahren
Features einer Instanz wird berechnetWird ein bestimmter Wert T überschritten,
wird das Individuum als Definition getaggtF-Score wird berechnet
![Page 20: Vortrag zur Definitionsextraktion mit Evolutionären Algorithmen](https://reader036.vdocument.in/reader036/viewer/2022070413/56814c26550346895db92b59/html5/thumbnails/20.jpg)
Merkmalsgewichtung mit GA
Der Wert T („treshold“)Option 1: Fixer Wert (z.B. 0)Option 2: Teil des Chromosoms
Sehr unpraktisch, da nur Single-Point-Crossover verwendet wird
Option 3: Berechnung eines Optimalwerts für jedes Individuum
Option 3 erwies sich als erfolgreicher
![Page 21: Vortrag zur Definitionsextraktion mit Evolutionären Algorithmen](https://reader036.vdocument.in/reader036/viewer/2022070413/56814c26550346895db92b59/html5/thumbnails/21.jpg)
Merkmalsgewichtung mit GA
Experimente Mit 10 einfachen Features
Contains a form of „to be“ Has sequence „is a“ Has sequence „[Foreign Word] is“ Has possessive pronoun Has punctuation in the middle of the sentence Has a marked term (keyword) Has rendering (italic, bold) Has a chunk marked as organization Has a chunk marked as person Has a chunk marked as location
![Page 22: Vortrag zur Definitionsextraktion mit Evolutionären Algorithmen](https://reader036.vdocument.in/reader036/viewer/2022070413/56814c26550346895db92b59/html5/thumbnails/22.jpg)
Merkmalsgewichtung mit GA
Experimente3 verschiedene Experimente (1, 2, 3)das erste mit variierten Parametern, um
Recall bzw. Precision zu favorisieren (1a, 1b)Parameter wurden nicht genau spezifiziert,
vermutlich die Mutations-, Selektions- und Crossover-Algorithmen
![Page 23: Vortrag zur Definitionsextraktion mit Evolutionären Algorithmen](https://reader036.vdocument.in/reader036/viewer/2022070413/56814c26550346895db92b59/html5/thumbnails/23.jpg)
Merkmalsgewichtung mit GA
ExperimenteErgebnis:
![Page 24: Vortrag zur Definitionsextraktion mit Evolutionären Algorithmen](https://reader036.vdocument.in/reader036/viewer/2022070413/56814c26550346895db92b59/html5/thumbnails/24.jpg)
Merkmalsgewichtung mit GA
Vergleich mit Standard-VerfahrenManuell erstellte Regeln ohne GewichtungSteigerung der Precision von 17% auf 62%Kein Vergleichswert für Recall angegeben
In verwandten Experimenten ist ~30% Precision und ~70% Recall üblich (~42% F Measure)
Es sind jedoch auch höhere Werte möglich
![Page 25: Vortrag zur Definitionsextraktion mit Evolutionären Algorithmen](https://reader036.vdocument.in/reader036/viewer/2022070413/56814c26550346895db92b59/html5/thumbnails/25.jpg)
Merkmalsgewichtung mit GA
Zwischenergebnis:Gewichtung der Merkmale verbessert die
Performance spürbarAuch mit nur 10 handgeschriebenen Regeln
schon ein überdurchschnittliches ErgebnisÜberlegene Systeme müssen sehr viel
aufwendiger erstellt werden
![Page 26: Vortrag zur Definitionsextraktion mit Evolutionären Algorithmen](https://reader036.vdocument.in/reader036/viewer/2022070413/56814c26550346895db92b59/html5/thumbnails/26.jpg)
Kombination der Schritte
Nochmal das System:
Experiment: 10 der Is-A-Merkmale aus der GP werden mit dem GA gewichtet
![Page 27: Vortrag zur Definitionsextraktion mit Evolutionären Algorithmen](https://reader036.vdocument.in/reader036/viewer/2022070413/56814c26550346895db92b59/html5/thumbnails/27.jpg)
Kombination der Schritte
Ergebnis:F-Score steigt von 28% auf 68% !
Recall steigt dabei von 39% auf 51%Precision steigt dabei von 22% auf 100% !
![Page 28: Vortrag zur Definitionsextraktion mit Evolutionären Algorithmen](https://reader036.vdocument.in/reader036/viewer/2022070413/56814c26550346895db92b59/html5/thumbnails/28.jpg)
Fazit
Precision von 100%?Klingt ziemlich gutKönnte aber darauf verweisen, dass das
System nur auswendig lernt Und somit nicht auf andere Daten anwendbar ist
Auf jeden Fall unsauberes Design: Trainingsdaten werden mehrmals verwendet
![Page 29: Vortrag zur Definitionsextraktion mit Evolutionären Algorithmen](https://reader036.vdocument.in/reader036/viewer/2022070413/56814c26550346895db92b59/html5/thumbnails/29.jpg)
Fazit
Precision von 100%?Könnte aber auch daran liegen, dass nur Is-A-
Merkmale verwendet wurden „Leichteste“ Kategorie
Muss noch durch weitere Experimente genauer untersucht werden
![Page 30: Vortrag zur Definitionsextraktion mit Evolutionären Algorithmen](https://reader036.vdocument.in/reader036/viewer/2022070413/56814c26550346895db92b59/html5/thumbnails/30.jpg)
Fazit
Dagegen Recall von 51%Andersherum wäre wünschenswerter
Precision kann leicht „nachträglich“ erhöht werden, indem ein Mensch die Ergebnisse durchsieht
Das geht für den Recall nicht Mögliche Verbesserungen:
„Liberalere“ Merkmalsfindung Verwendung von mehr als 10 Merkmalen und von zusätzlichen, menschgemachten
![Page 31: Vortrag zur Definitionsextraktion mit Evolutionären Algorithmen](https://reader036.vdocument.in/reader036/viewer/2022070413/56814c26550346895db92b59/html5/thumbnails/31.jpg)
Fazit
„überwachtes“ SystemLinguistische Objekte werden manuell
gewählt zusätzliche Merkmale werden vorgegebenErgebnis wird manuell überprüft
Trade-off von Precision und Recall
![Page 32: Vortrag zur Definitionsextraktion mit Evolutionären Algorithmen](https://reader036.vdocument.in/reader036/viewer/2022070413/56814c26550346895db92b59/html5/thumbnails/32.jpg)
Fazit
Nicht angesprochen: Rechenzeit In der Trainingsphase vermutlich sehr hoch! In der Testphase vermutlich nur unwesentlich
höher als bei der MustererkennungAlso ein „Eager Learner“Für die Aufgabe eine angemessene
Zeitverteilung Lernphase muss nur einmal durchlaufen werden
![Page 33: Vortrag zur Definitionsextraktion mit Evolutionären Algorithmen](https://reader036.vdocument.in/reader036/viewer/2022070413/56814c26550346895db92b59/html5/thumbnails/33.jpg)
Fazit
Menschlicher AufwandSehr stark steuerbar Im Extremfall nicht viel kleiner als bisherDabei allerdings bessere Ergebnisse, vor
allem durch MerkmalsgewichtungUnd höhere Objektivität
Insgesamt ein nützlicher, wenn auch nicht unbedingt bahnbrechender, Ansatz
![Page 34: Vortrag zur Definitionsextraktion mit Evolutionären Algorithmen](https://reader036.vdocument.in/reader036/viewer/2022070413/56814c26550346895db92b59/html5/thumbnails/34.jpg)
Vielen Dank für die Aufmerksamkeit!