an evolutionary approach for improving the quality of automatic summaries
DESCRIPTION
An evolutionary approach for improving the quality of automatic summaries. Constantin Orasan. Kokou Valentin Seminar Maschinelles Lernen und Experimentelles Design. Referenz. Constantin Orasan (2003): An Evolutionary Approach for Improving the Quality of Automatic Summaries. - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: An evolutionary approach for improving the quality of automatic summaries](https://reader036.vdocument.in/reader036/viewer/2022062520/56816158550346895dd0e32c/html5/thumbnails/1.jpg)
An evolutionary approach for improving the quality of automatic summaries
Kokou ValentinSeminar Maschinelles Lernen und
Experimentelles Design
Constantin Orasan
![Page 2: An evolutionary approach for improving the quality of automatic summaries](https://reader036.vdocument.in/reader036/viewer/2022062520/56816158550346895dd0e32c/html5/thumbnails/2.jpg)
2
Referenz
Constantin Orasan (2003): An Evolutionary Approach for Improving the Quality of Automatic Summaries. In: Proceedings of the ACL 2003 Workshop on Multilingual Summarization and Question Answering, Sapporo, Japan
![Page 3: An evolutionary approach for improving the quality of automatic summaries](https://reader036.vdocument.in/reader036/viewer/2022062520/56816158550346895dd0e32c/html5/thumbnails/3.jpg)
3
Überblick
• automatische Zusammenfassungen• Corpusanalyse• Methoden• Algorithmen• Evaluation• Zusammenfassung
![Page 4: An evolutionary approach for improving the quality of automatic summaries](https://reader036.vdocument.in/reader036/viewer/2022062520/56816158550346895dd0e32c/html5/thumbnails/4.jpg)
4
Automatische Zusammenfassung
2 Ansätze für automatische Zusammenfassungen• extract and rearrange
wichtigsten Sätze aus dem Text extrahieren versuchen die Sätze kohärent neu anzuordnenbevorzugt wenn robuste Methoden benötigt
• understand and generate den Text „verstehen“ Kurzbeschreibung generieren Methoden abhängig von der Domäne um zu „verstehen“
![Page 5: An evolutionary approach for improving the quality of automatic summaries](https://reader036.vdocument.in/reader036/viewer/2022062520/56816158550346895dd0e32c/html5/thumbnails/5.jpg)
5
Automatische Zusammenfassung
continuity principle• benötigt mind. 2 aufeinanderfolgende Äußerungen• Diese beziehen sich auf die gleiche Entität
– Tom hat sich ein Auto gekauft– Es ist 12 Jahre alt– Der Motor muss augestauscht werden.
![Page 6: An evolutionary approach for improving the quality of automatic summaries](https://reader036.vdocument.in/reader036/viewer/2022062520/56816158550346895dd0e32c/html5/thumbnails/6.jpg)
6
Corpusanalyse
• 146 menschliche Kurzbeschreibungen aus JAIR• automatischer Test durch ein simples Skript• prüft Übereinstimmung von Head Noun Phrase • 75% der Paare erfüllen das Prinzip
![Page 7: An evolutionary approach for improving the quality of automatic summaries](https://reader036.vdocument.in/reader036/viewer/2022062520/56816158550346895dd0e32c/html5/thumbnails/7.jpg)
7
Corpusanalyse
Äußerungen welche das Prinzip verletzen werden manuell geprüft• Verbindung zwischen Äußerungen durch rhetorische
Beziehungen (57%)• Wörter wurden durch semantisch äquivalente ersetzt
(34%)• Verzweigungen in der Diskursstruktur durch
bestimmte Wörter (9%)
![Page 8: An evolutionary approach for improving the quality of automatic summaries](https://reader036.vdocument.in/reader036/viewer/2022062520/56816158550346895dd0e32c/html5/thumbnails/8.jpg)
8
Corpusanalyse
• continuity principle vorhanden in von Menschen produzierten Kurzbeschreibungen
• nicht bewusste Nutzung des Prinzips• bessere Ergebnisse bei automatischen
Zusammenfassungen• trotzdem nicht sicher dass man kohärenten
Text bekommt
![Page 9: An evolutionary approach for improving the quality of automatic summaries](https://reader036.vdocument.in/reader036/viewer/2022062520/56816158550346895dd0e32c/html5/thumbnails/9.jpg)
9
Methoden
• Minimierung der continuity principle Verletzungen• Programm muss wichtigen Information erkennen• Informationen zusammenhängend wiedergeben• 2 Methoden um Sätze zu bewerten– Content basierende Bewertung– Kontext basierende Bewertung
• 2 Algorithmen nutzen gleiche Content basierende Bewertung
![Page 10: An evolutionary approach for improving the quality of automatic summaries](https://reader036.vdocument.in/reader036/viewer/2022062520/56816158550346895dd0e32c/html5/thumbnails/10.jpg)
10
Methoden
Content-basierende Bewertung• Keyword : TF-IDF• Indicator phrase: Meta-diskurs Marker (in this paper,
we present) Wert wird erhöht oder verringert• Location method: wichtige Sätze am Anfang und
Ende des Documents• Title and headers: Werte werden erhöht• Special formating rules: Sätze mit Gleichungen
werden ausgeschlossen da selten in Abstracts
![Page 11: An evolutionary approach for improving the quality of automatic summaries](https://reader036.vdocument.in/reader036/viewer/2022062520/56816158550346895dd0e32c/html5/thumbnails/11.jpg)
11
Methoden
Kontext basierende Bewertung• Wert wird erhöht wenn Satz und Vorgänger oder
Nachfolger continuity principle erfüllen• Wenn nicht, wird der Wert verringert• erhöht wird mit dem TF-IDF der gemeinsamen NP
Köpfe• verringert mit dem höchste TF-IDF des Dokuments
![Page 12: An evolutionary approach for improving the quality of automatic summaries](https://reader036.vdocument.in/reader036/viewer/2022062520/56816158550346895dd0e32c/html5/thumbnails/12.jpg)
12
Algorithmen
• Given an extract {Ssumm1,Ssumm2,...,Ssummm} and S the
sentence which is considered for extraction1. Find Sprec and Snext from the extract which are the
closest sentence before and after S in document2. Adjust the score S considering the context Sprec,S,Snext.
![Page 13: An evolutionary approach for improving the quality of automatic summaries](https://reader036.vdocument.in/reader036/viewer/2022062520/56816158550346895dd0e32c/html5/thumbnails/13.jpg)
13
Algorithmen
Greedy Algorithmus• alle noch nicht entnommenen Sätze werden
bewertet• der Satz mit höchstem Wert wird entnommen• Algorithmus wird wiederholt bis verlangte Länge der
Zusammenfassung erreicht ist
![Page 14: An evolutionary approach for improving the quality of automatic summaries](https://reader036.vdocument.in/reader036/viewer/2022062520/56816158550346895dd0e32c/html5/thumbnails/14.jpg)
14
Algorithmen
Genetische Algorithmen• codieren das Problem als „Chromosomen“• Länge der Chromosomen = Anzahl der Sätze der Zus.• nicht sicher das beste Ergebnis zu bekommen• Integer Werte statt binäre Codierung (3,8,10 usw.)• jeder Wert bezeichnet die Position des Satzes im
Dokument
![Page 15: An evolutionary approach for improving the quality of automatic summaries](https://reader036.vdocument.in/reader036/viewer/2022062520/56816158550346895dd0e32c/html5/thumbnails/15.jpg)
15
Algorithmen
3 5 8 10 14 18 66 79
3 5 8 10 14 14 77 83
3 5 8 10 14 15 77 83
2 4 7 9 12 14 77 83
![Page 16: An evolutionary approach for improving the quality of automatic summaries](https://reader036.vdocument.in/reader036/viewer/2022062520/56816158550346895dd0e32c/html5/thumbnails/16.jpg)
16
Algorithmen
• Fitnessfunktion: Summe der Werte welche in Chromosomen eingetragen sind
• Selektion: weighted roulette wheel („fitteres“ )• Genetische Operatoren: – single point crossover – two mutation operators
![Page 17: An evolutionary approach for improving the quality of automatic summaries](https://reader036.vdocument.in/reader036/viewer/2022062520/56816158550346895dd0e32c/html5/thumbnails/17.jpg)
17
Algorithmen
3 5 8 10 14 18 66 79
4 7 9 11 34 67 78 87
3 5 9 11 34 67 78 87
4 7 8 10 14 18 66 79
Single point crossover
![Page 18: An evolutionary approach for improving the quality of automatic summaries](https://reader036.vdocument.in/reader036/viewer/2022062520/56816158550346895dd0e32c/html5/thumbnails/18.jpg)
18
Algorithmen
3 5 8 10 14 18 66 79
3 5 8 12 14 18 66 79
3 5 8 12 14 18 66 79
3 5 8 12 13 18 66 67
first mutation operator
second mutation operator
![Page 19: An evolutionary approach for improving the quality of automatic summaries](https://reader036.vdocument.in/reader036/viewer/2022062520/56816158550346895dd0e32c/html5/thumbnails/19.jpg)
19
Algorithmen
• First mutation operator soll zufällige Sätze einfügen um dem Algorithmus zu helfen
• Second mutation operator fügt zusammenhängende Sätze ein welche die Kohärenz der Zusammenfassung zu verbessern
• jeder Operator hat eine bestimmte Wahrscheinlichkeit• Generell startet Population mit zufällig generierten
Chromosomen• Population: 500 Chromosomen in 100 Generationen• Lösung für Problem ist das Chromosom mit höchsten
Fitnesswert
![Page 20: An evolutionary approach for improving the quality of automatic summaries](https://reader036.vdocument.in/reader036/viewer/2022062520/56816158550346895dd0e32c/html5/thumbnails/20.jpg)
20
Evaluation
• 90.000 Wörter aus 10 wissen. Texten• 8 versch. Zusammenfassungen von jedem Text• jede einzelne von Menschen gelesen und geprüft• Qualität der Zusammenfassung wird gemessen :– Kohärenz– Zusammenhang– Aussagekraft
![Page 21: An evolutionary approach for improving the quality of automatic summaries](https://reader036.vdocument.in/reader036/viewer/2022062520/56816158550346895dd0e32c/html5/thumbnails/21.jpg)
21
Evaluation
• Kohärenz wird gemessen an der Anzahl der Diskursbrüche
• Brüche entstehen wenn ein Satz scheinbar isoliert ist• Meisten markiert durch bestimmte Phrasen:– Firstly– Secondly– However– On the other hand
![Page 22: An evolutionary approach for improving the quality of automatic summaries](https://reader036.vdocument.in/reader036/viewer/2022062520/56816158550346895dd0e32c/html5/thumbnails/22.jpg)
22
Evaluation
• In kürzeren Zusammenfassung haben Kontext Informationen weniger Einfluss auf Diskursbrüche
• Indicating Phrases haben größeren Einfluss als continuity principle
• Bei längeren Zusammenfassung bessere Ergebnisse erzielt• GA in allen Fällen besser als Basic Method• Greedy sehr nah an Basic Method• continuity principle unterschiedliche Beeinflussung der
Ergebnisse je nach Text
![Page 23: An evolutionary approach for improving the quality of automatic summaries](https://reader036.vdocument.in/reader036/viewer/2022062520/56816158550346895dd0e32c/html5/thumbnails/23.jpg)
23
EvaluationMethod Text Total
1 2 3 4 5 6 7 8 9 10
TFIDF 12(29) 5(13) 17(33) 10(16) 7(10) 12(19) 9(15) 14(18) 12(35) 8(15) 106(203)
Basic 8(24) 4(11) 11(23) 5(7) 4(6) 7(14) 9(8) 12(11) 10(16) 7(12) 77(132)
Greedy 8(20) 4(7) 12(20) 4(10) 4(7) 8(16) 11(7) 8(9) 9(14) 8(12) 76(122)
Evolutionary 6(11) 3(9) 14(16) 4(5) 4(4) 7(9) 7(3) 8(3) 9(9) 5(6) 67(75)
Maximum 15(39) 12(21) 20(51) 13(20) 7(13) 15(23) 14(23) 15(25) 17(44) 11(40) 139(299)
Tabelle 1: Anzahl der Diskursbrüche in den Zusammenfassungen
![Page 24: An evolutionary approach for improving the quality of automatic summaries](https://reader036.vdocument.in/reader036/viewer/2022062520/56816158550346895dd0e32c/html5/thumbnails/24.jpg)
24
Evaluation
• Verbesserung der lokalen Kohesion hat untergeordneten Effekt auf „baumelnde“ Referenzen
• Anzahl der Referenzen verringert sich durch GA • Greddy auch hier nicht besser als Basic Method• Häufigsten Referenzen beziehen sich auf Bilder, Tabellen
– As we showed in Table 3…– How you see in Figure 2…
• Oft kein Text und deswegen sollte es nicht vorkommen in Zusammenfassung
![Page 25: An evolutionary approach for improving the quality of automatic summaries](https://reader036.vdocument.in/reader036/viewer/2022062520/56816158550346895dd0e32c/html5/thumbnails/25.jpg)
25
EvaluationMethod Text Total
1 2 3 4 5 6 7 8 9 10
TFIDF 12(31) 3(25) 22(35) 13(15) 4(10) 14(22) 14(16) 11(22) 12(19) 9(15) 144(210)
Basic 12(26) 2(23) 17(19) 7(13) 2(7) 11(20) 10(9) 10(8) 6(12) 8(15) 85(162)
Greedy 11(19) 3(14) 15(20) 4(19) 3(9) 13(23) 16(10) 4(11) 7(12) 7(14) 83(151)
Evolutionary 8(18) 3(16) 15(18) 6(6) 2(6) 9(12) 10(7) 4(5) 5(13) 7(12) 69(113)
Tabelle 2: Anzahl der „baumelnden“ Referenzen in den Zusammenfassungen
![Page 26: An evolutionary approach for improving the quality of automatic summaries](https://reader036.vdocument.in/reader036/viewer/2022062520/56816158550346895dd0e32c/html5/thumbnails/26.jpg)
26
Evaluation
• Content- basierende Metrik zur Beurteilung Kontext-basierender Methoden
• Berechnet die Ähnlichkeit zwischen Zusammenfassung und Originaldokument
• Gute Ergebnisse liegen bei einem Wert nahe 1• GA erzielt für einige Texte die besten Ergebnisse• Greedy scheint nützliche Informationen auszuschliessen• Für einige Texte schlechtere Ergebnisse als bei Basic und
Baseline
![Page 27: An evolutionary approach for improving the quality of automatic summaries](https://reader036.vdocument.in/reader036/viewer/2022062520/56816158550346895dd0e32c/html5/thumbnails/27.jpg)
27
EvaluationMethod Text
1 2 3 4 5 6 7 8 9 10
TFIDF 0.84(0.92)
0.85(0.95)
0.84(0.93)
0.92(0.87)
0.87(0.94)
0.80(0.90)
0.86(0.87)
0.92(0.86)
0.82(0.89)
0.88(0.85)
Basic 0.81(0.91)
0.85(0.87)
0.87(0.90)
0.93(0.87)
0.89(0.93)
0.88(0.87)
0.89(0.83)
0.90(0.89)
0.68(0.88)
0.92(0.86)
Greedy 0.87(0.90)
0.85(0.)94
0.80(0.89)
0.93(0.88)
0.86(0.95)
0.84(0.74)
0.78(0.85)
0.90(0.86)
0.58(0.86)
0.90(0.88)
Evolutionary 0.82(0.86)
0.88(0.95)
0.84(0.91)
0.94(0.89)
0.86(0.88)
0.87(0.88)
0.90(0.88)
0.86(0.87)
0.81(0.82)
0.88(0.91)
Tabelle 3: Ähnlichkeiten zwischen Zusammenfassung und Originaldokument
![Page 28: An evolutionary approach for improving the quality of automatic summaries](https://reader036.vdocument.in/reader036/viewer/2022062520/56816158550346895dd0e32c/html5/thumbnails/28.jpg)
28
Evaluation
Vergleichen der Ergebnisse • Baseline : TF-IDF (Satz mit höchstem TF-IDF Wert)• content-basierende Methode (alle Parameter )• Greddy Algorithmus (+ Kontext Informationen)• Genetische Algorithmus (+ Kontext Informationen)• wie Sätze aus dem Dokument extrahiert werden
![Page 29: An evolutionary approach for improving the quality of automatic summaries](https://reader036.vdocument.in/reader036/viewer/2022062520/56816158550346895dd0e32c/html5/thumbnails/29.jpg)
29
Zusammenfassung
• Zwei Algorithmen kombinieren Content und Kontext Informationen
• Greedy wählt immer einen Satz nach dem anderen aus– Einmal ausgewählt kann er nicht verworfen werden
• GA bestimmt ein Set von extrahierten Sätzen– Überwindet die Begrenzung des Greedy Algorithmus
• GA konsistent bessere Ergebnisse als die andern Methoden• Teilweise textabhängig wie sehr continuity principle
Ergebnisse beeinflusst
![Page 30: An evolutionary approach for improving the quality of automatic summaries](https://reader036.vdocument.in/reader036/viewer/2022062520/56816158550346895dd0e32c/html5/thumbnails/30.jpg)
30
Diskussion
• Da continuity principle manchmal zu geringer Effekt– Kombination der Centering Theory Prinzipien
• Algorithmus auf andere Textarten anwenden – Sportartikel, Wirtschaftstexte