dokumentverarbeitung und textzusammenfassung prof. dr. manfred stede ag angewandte...

35
Dokumentverarbeitung und Textzusammenfassung Prof. Dr. Manfred Stede AG Angewandte Computerlinguistik Institut für Linguistik Universität Potsdam

Upload: lutgardis-bohner

Post on 05-Apr-2015

105 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Dokumentverarbeitung und Textzusammenfassung Prof. Dr. Manfred Stede AG Angewandte Computerlinguistik Institut für Linguistik Universität Potsdam

Dokumentverarbeitung und Textzusammenfassung

Prof. Dr. Manfred StedeAG Angewandte Computerlinguistik

Institut für Linguistik

Universität Potsdam

Page 2: Dokumentverarbeitung und Textzusammenfassung Prof. Dr. Manfred Stede AG Angewandte Computerlinguistik Institut für Linguistik Universität Potsdam

Manfred Stede

Informationsextraktion19 March. A bomb went off this morning near a power tower in San Salvador

leaving a large part of the city without energy, but no casualties have been reported. According to unofficial sources, the bomb allegedly detonated by urban guerrilla commandos blew up a power tower in the northwestern part of San Salvador at 0650.

INCIDENT TYPE

DATE

LOCATION

PERPETRATOR

PHYSICAL TARGET

HUMAN TARGET

EFFECT ON PHYS. TARGET

Page 3: Dokumentverarbeitung und Textzusammenfassung Prof. Dr. Manfred Stede AG Angewandte Computerlinguistik Institut für Linguistik Universität Potsdam

Manfred Stede

Informationsextraktion19 March. A bomb went off this morning near a power tower in San Salvador

leaving a large part of the city without energy, but no casualties have been reported. According to unofficial sources, the bomb allegedly detonated by urban guerrilla commandos blew up a power tower in the northwestern part of San Salvador at 0650.

INCIDENT TYPE bombing

DATE March 19

LOCATION El Salvador: San Salvador

PERPETRATOR urban guerilla commandos

PHYSICAL TARGET power tower

HUMAN TARGET -

EFFECT ON PHYS. TARGET destroyed

Page 4: Dokumentverarbeitung und Textzusammenfassung Prof. Dr. Manfred Stede AG Angewandte Computerlinguistik Institut für Linguistik Universität Potsdam

Manfred Stede

Informationsextraktion19 March. A bomb went off this morning near a power tower in San Salvador

leaving a large part of the city without energy, but no casualties have been reported. According to unofficial sources, the bomb allegedly detonated by urban guerrilla commandos blew up a power tower in the northwestern part of San Salvador at 0650.

INCIDENT TYPE bombing

DATE March 19

LOCATION El Salvador: San Salvador

PERPETRATOR urban guerilla commandos

PHYSICAL TARGET power tower

HUMAN TARGET -

EFFECT ON PHYS. TARGET destroyed

Page 5: Dokumentverarbeitung und Textzusammenfassung Prof. Dr. Manfred Stede AG Angewandte Computerlinguistik Institut für Linguistik Universität Potsdam

Manfred Stede

Automatische Zusammenfassung

Ziel: Aus langem Text erstelle kurzen Text System bietet Kurzfassung an, Leser/in kann dann entscheiden,

ob Originaldokument lesenswert ist E-Mail „gisting“, z.B. für mobile Applikationen Web-Recherche - schnell Überblick verschaffen

Problem: Identifizieren der „wichtigen“ Informationen ...unabhängig von der inhaltlichen Domäne! Techniken der Informationsextraktion nicht verwendbar

Page 6: Dokumentverarbeitung und Textzusammenfassung Prof. Dr. Manfred Stede AG Angewandte Computerlinguistik Institut für Linguistik Universität Potsdam

Manfred Stede

Grundlage: Statistik (Luhn 58) TF/IDF Gewichtung Idee: „wichtige“ Wörter sind im fraglichen Text häufig, im gesamten

Textbestand jedoch selten Sei N: Anzahl aller Texte Sei Df(w): Anzahl der Dokumente (document frequency), in denen

Wort w vorkommt Idf(w) := log(N / Df(w)) (inverted document frequency) Sei Tf(w) die Häufigkeit des Wortes w (term frequency) im Text Tf(w) * Idf(w): Maß für die Gewichtung des Wortes w im Text

Ermittele die „wichtigen“ Wörter des Textes nach Tf*Idf Wähle diejenigen Sätze aus, in denen die wichtigen Wörter am

häufigsten auftreten. Fertig ist die Zusammenfassung! Zusammenfassung = Extraktion

Page 7: Dokumentverarbeitung und Textzusammenfassung Prof. Dr. Manfred Stede AG Angewandte Computerlinguistik Institut für Linguistik Universität Potsdam
Page 8: Dokumentverarbeitung und Textzusammenfassung Prof. Dr. Manfred Stede AG Angewandte Computerlinguistik Institut für Linguistik Universität Potsdam

1. Einleitung: RIU Die zur World of TUI gehörende RIU-Gruppe besticht weltweit durch sehr gute Anlagen der gehoben Preis- und Qualitätsklasse mit herausragendem Service. Daher versuche ich eigentlich immer meinen Erholungsurlaub in einem der Hotels dieser Kette zu genießen.

2. Lage: Hotel RIU Gran Canaria Das 4****-Hotel liegt im Süden Gran Canarias, bei Maspalomas. Zu den bekannten Dünen sind es etwa 1000 Meter entlang der neuen und sehr sauberen Küstenpromenade, die erst 2002 fertig gestellt wurde. Den Leuchturm erreicht man bereits nach 700 Meter. Dort befindet sich auch der nächste Geldautomat der Deutschen Bank. Zwischen Leuchtturm und Hotel liegt ein recht großes Einkaufszentrum mit Supermarkt, Apotheke usw.

3. Die Hotelanlage Das Hotel wurde 2000 eröffnet, so das die Einrichtung noch nicht abgenutzt ist. Die Außenfassade wirk zwar ziemlich luxuriös, allerdings herrscht trotzdem eine überraschend ungezwungene Atmosphäre. Da das Hotel auch eine eigene Kinderanimation bietet, findet man viele Familien in der Anlage. Die Kinder stören aber den Erholungsbetrieb nicht, da das Hotel sehr weitläufig ist. Besonders bemerkenswert finde ich hier die sehr großzügige Poolanlage mit 3 großen Pools, einer davon für Kinder. In dier poolanlage befindet sich auch das Poolrestaurant und zusätzlich noch eine Bar.

<...>

6. Preise Das Hotel ist zwar recht teuer, aber das Geld auf jeden Fall wert. Man kommt deutlich günstiger wenn man über ein Reiseunternehmen bucht (TUI).

7. Meine Meinung Der Aufenthalt im RIU Gran Canaria gehört zweifelslos zu meinen schönsten Urlauben und ich überlege bereits ob ich dort nicht nächstes Weihnachten wieder verbringen sollte. Von der Qualität des Services her ist das Hotel auf jedem Fall 5***** Sterne wert.

Page 9: Dokumentverarbeitung und Textzusammenfassung Prof. Dr. Manfred Stede AG Angewandte Computerlinguistik Institut für Linguistik Universität Potsdam

Manfred Stede

1560506043 Minibar1149846558 Fazit1067714661 Supermarkt1012960063 Aerobic930828166 Sauna876073568 Tischtennis821318970 Albatros684432475 Gartenanlage629677877 Salate602300578 Luxor588611928 Bungalows564783538 Strand554390304 Balkon547545980 Boccia547545980 Billard531119600 Hotel506480031 Verpflegung492791382 RIU

492791382 Aufpreis465414083 Urlauber438036784 Badezimmer434614621 Abendessen410659485 Müsli383282186 Volleyball383282186 Liegestühle383282186 Fußball365030653 Ausflug355904887 Haan355904887 Diskothek328527588 Schlafzimmer328527588 Raucher328527588 Kleiderschrank328527588 Dinar328527588 Bakschisch322443743 Zimmer301150289 Kreta

.....

Page 10: Dokumentverarbeitung und Textzusammenfassung Prof. Dr. Manfred Stede AG Angewandte Computerlinguistik Institut für Linguistik Universität Potsdam

1. Einleitung: RIU Die zur World of TUI gehörende RIU-Gruppe besticht weltweit durch sehr gute Anlagen der gehoben Preis- und Qualitätsklasse mit herausragendem Service. Daher versuche ich eigentlich immer meinen Erholungsurlaub in einem der Hotels dieser Kette zu genießen.

2. Lage: Hotel RIU Gran Canaria Das 4****-Hotel liegt im Süden Gran Canarias, bei Maspalomas. Zu den bekannten Dünen sind es etwa 1000 Meter entlang der neuen und sehr sauberen Küstenpromenade, die erst 2002 fertig gestellt wurde. Den Leuchturm erreicht man bereits nach 700 Meter. Dort befindet sich auch der nächste Geldautomat der Deutschen Bank. Zwischen Leuchtturm und Hotel liegt ein recht großes Einkaufszentrum mit Supermarkt, Apotheke usw.

3. Die Hotelanlage Das Hotel wurde 2000 eröffnet, so das die Einrichtung noch nicht abgenutzt ist. Die Außenfassade wirk zwar ziemlich luxuriös, allerdings herrscht trotzdem eine überraschend ungezwungene Atmosphäre. Da das Hotel auch eine eigene Kinderanimation bietet, findet man viele Familien in der Anlage. Die Kinder stören aber den Erholungsbetrieb nicht, da das Hotel sehr weitläufig ist. Besonders bemerkenswert finde ich hier die sehr großzügige Poolanlage mit 3 großen Pools, einer davon für Kinder. In dier poolanlage befindet sich auch das Poolrestaurant und zusätzlich noch eine Bar.

<...>

6. Preise Das Hotel ist zwar recht teuer, aber das Geld auf jeden Fall wert. Man kommt deutlich günstiger wenn man über ein Reiseunternehmen bucht (TUI).

7. Meine Meinung Der Aufenthalt im RIU Gran Canaria gehört zweifelslos zu meinen schönsten Urlauben und ich überlege bereits ob ich dort nicht nächstes Weihnachten wieder verbringen sollte. Von der Qualität des Services her ist das Hotel auf jedem Fall 5***** Sterne wert.

Page 11: Dokumentverarbeitung und Textzusammenfassung Prof. Dr. Manfred Stede AG Angewandte Computerlinguistik Institut für Linguistik Universität Potsdam

Manfred Stede

Mögliche Extrakt-Probleme• Pronomina

• In Deutschland sind 5 Mio Menschen arbeitslos. Der Bundeskanzler handelt aber nicht. Er hat ein Konjunkturprogramm abgelehnt.

• Temporale und lokale Anaphern• In Deutschland sind 5 Mio Menschen arbeitslos. Am vergangenen

Montag beriet der Bundeskanzler sich mit den Ministerpräsidenten der Länder. Am nächsten Tag traf Schröder den Arbeitgeberpräsidenten.

• Definite NPs• In Deutschland sind 5 Mio Menschen arbeitslos. Dies rief gestern auch

den Bund der Steuerzahler auf den Plan. Der Vorsitzende forderte ein Vereinfachung des Steuersystems.

Page 12: Dokumentverarbeitung und Textzusammenfassung Prof. Dr. Manfred Stede AG Angewandte Computerlinguistik Institut für Linguistik Universität Potsdam

Manfred Stede

Mögliche Extrakt-Probleme

• Komparative• In Deutschland sind 5 Mio Menschen arbeitslos. Die Erwerbslosenquote

stieg um zwei Prozent. Noch höher war der Anstieg in Ostdeutschland.

• Konnektoren• In Deutschland sind 5 Mio Menschen arbeitslos. Wirtschaftsminister

Clement stellte gstern ein rasches Hilfsprogramm der Bundesregierung in Aussicht. Dennoch zeigten die Gewerkschaften sich nicht zufrieden.

Page 13: Dokumentverarbeitung und Textzusammenfassung Prof. Dr. Manfred Stede AG Angewandte Computerlinguistik Institut für Linguistik Universität Potsdam

Manfred Stede

Mögliche Extrakt-Probleme

Statistisch nicht signifikante Sätze können gleichwohl „wichtig“ sein: Schulze (1994) hat ein Verfahren für die Gewichtung von

Termen in Dokumenten vorgeschlagen. Es funktioniert aber nicht.

Redundanz: Taucht dieselbe oder sehr ähnliche Information mehrfach im Text auf, wird sie auch mehrfach extrahiert

Page 14: Dokumentverarbeitung und Textzusammenfassung Prof. Dr. Manfred Stede AG Angewandte Computerlinguistik Institut für Linguistik Universität Potsdam

Manfred Stede

Beyond extraction:PINK-Projekt SUMMaR

Zusammenfassung verschiedener Dokument-Typen mit statistischer und linguistischer Analyse

Technischer Ansatz: „Baukasten“ aus Textanalysemodulen, strikt XML-basiert

Rolle der Linguistik: Robuste syntaktische Analyse (Partielle) Ableitung von Ko-Referenz (Partielle) Ableitung der rhetorischen Textstruktur Textsorten-Wissen: Textaufbau, Relevanz-anzeigende

Formulierungen

Page 15: Dokumentverarbeitung und Textzusammenfassung Prof. Dr. Manfred Stede AG Angewandte Computerlinguistik Institut für Linguistik Universität Potsdam

Manfred Stede

Soll der Steglitzer Kreisel abgerissen werden?

Alles spricht gegen den Steglitzer Kreisel. Selbst wenn man vergisst, dass der olle Schuhkarton in bester Lage einst ein privates Prestigeobjekt war, das der öffentlichen Hand für teures Geld aufgenötigt wurde. Ein Symbol der West-Berliner Filzwirtschaft in den späten sechziger Jahren. Aber lassen wir das ruhig beiseite. Der Kreisel ist Asbest verseucht. Nicht nur hier und da, sondern durch und durch. Zwar könnte man, wie beim Palast der Republik, den Bau bis aufs wackelige Stahlskelett entkleiden und neu aufbauen. Aber das würde mindestens 84 Millionen Euro, vielleicht auch das Doppelte kosten. Was für ein Preis für die Restaurierung eines städtebaulichen Schandflecks, der seit mehr als dreißig Jahren Schatten auf die nette, gutbürgerliche Umgebung wirft. Von allen Seiten versperrt der Kreisel die Sicht. Er ist keine Sehenswürdigkeit. Und für die Mitarbeiter des Bezirks Steglitz, die im Hochhaus arbeiten, kann die Lebensqualität bei einem Umzug in ein anderes Dienstgebäude nur steigen. Der Kreisel ist auch innen hässlich, zudem zugig und Energie verschleudernd. Einzig brauchbar ist die gute Verkehrsanbindung und der Blick aus dem 24. Stock auf den Süden Berlins. Aber beides rechtfertigt es nicht, das marode Gebäude zu sanieren. Für das viele Geld kann man fast zwei neue, wirklich schöne Häuser bauen.

Page 16: Dokumentverarbeitung und Textzusammenfassung Prof. Dr. Manfred Stede AG Angewandte Computerlinguistik Institut für Linguistik Universität Potsdam

Manfred Stede

Soll der Steglitzer Kreisel abgerissen werden?

Alles spricht gegen den Steglitzer Kreisel. Selbst wenn man vergisst, dass der olle Schuhkarton in bester Lage einst ein privates Prestigeobjekt war, das der öffentlichen Hand für teures Geld aufgenötigt wurde. Ein Symbol der West-Berliner Filzwirtschaft in den späten sechziger Jahren. Aber lassen wir das ruhig beiseite. Der Kreisel ist Asbest verseucht. Nicht nur hier und da, sondern durch und durch. Zwar könnte man, wie beim Palast der Republik, den Bau bis aufs wackelige Stahlskelett entkleiden und neu aufbauen. Aber das würde mindestens 84 Millionen Euro, vielleicht auch das Doppelte kosten. Was für ein Preis für die Restaurierung eines städtebaulichen Schandflecks, der seit mehr als dreißig Jahren Schatten auf die nette, gutbürgerliche Umgebung wirft. Von allen Seiten versperrt der Kreisel die Sicht. Er ist keine Sehenswürdigkeit. Und für die Mitarbeiter des Bezirks Steglitz, die im Hochhaus arbeiten, kann die Lebensqualität bei einem Umzug in ein anderes Dienstgebäude nur steigen. Der Kreisel ist auch innen hässlich, zudem zugig und Energie verschleudernd. Einzig brauchbar ist die gute Verkehrsanbindung und der Blick aus dem 24. Stock auf den Süden Berlins. Aber beides rechtfertigt es nicht, das marode Gebäude zu sanieren. Für das viele Geld kann man fast zwei neue, wirklich schöne Häuser bauen.

Page 17: Dokumentverarbeitung und Textzusammenfassung Prof. Dr. Manfred Stede AG Angewandte Computerlinguistik Institut für Linguistik Universität Potsdam

Manfred Stede

Soll der Steglitzer Kreisel abgerissen werden?

Alles spricht gegen den Steglitzer Kreisel. Selbst wenn man vergisst, dass der olle Schuhkarton in bester Lage einst ein privates Prestigeobjekt war, das der öffentlichen Hand für teures Geld aufgenötigt wurde. Ein Symbol der West-Berliner Filzwirtschaft in den späten sechziger Jahren. Aber lassen wir das ruhig beiseite. Der Kreisel ist Asbest verseucht. Nicht nur hier und da, sondern durch und durch. Zwar könnte man, wie beim Palast der Republik, den Bau bis aufs wackelige Stahlskelett entkleiden und neu aufbauen. Aber das würde mindestens 84 Millionen Euro, vielleicht auch das Doppelte kosten. Was für ein Preis für die Restaurierung eines städtebaulichen Schandflecks, der seit mehr als dreißig Jahren Schatten auf die nette, gutbürgerliche Umgebung wirft. Von allen Seiten versperrt der Kreisel die Sicht. Er ist keine Sehenswürdigkeit. Und für die Mitarbeiter des Bezirks Steglitz, die im Hochhaus arbeiten, kann die Lebensqualität bei einem Umzug in ein anderes Dienstgebäude nur steigen. Der Kreisel ist auch innen hässlich, zudem zugig und Energie verschleudernd. Einzig brauchbar ist die gute Verkehrsanbindung und der Blick aus dem 24. Stock auf den Süden Berlins. Aber beides rechtfertigt es nicht, das marode Gebäude zu sanieren. Für das viele Geld kann man fast zwei neue, wirklich schöne Häuser bauen.

Page 18: Dokumentverarbeitung und Textzusammenfassung Prof. Dr. Manfred Stede AG Angewandte Computerlinguistik Institut für Linguistik Universität Potsdam

document structure (XML)

tokenized text

Statistical AnalysisSyntactic Analysis Document StructureAnalysis

dependencystructures

doc info „backbone“

term relevance

sentence relevance

structure-basedrelevance

Summarizer

Coreference Analysis

coreference chains

Page 19: Dokumentverarbeitung und Textzusammenfassung Prof. Dr. Manfred Stede AG Angewandte Computerlinguistik Institut für Linguistik Universität Potsdam

Manfred Stede

Mehrschichtige Repräsentation

Alles spricht gegen den Steglitzer Kreisel. Selbst wenn man vergisst, dass der olle Schuhkarton in

PIS VVFIN APPR ART NN NN ADV KOUS PIS VFIN KOUS ART ADJ NN

NP-DEFNP-DEF

REF-{1,2}REF-1

KON-1-------------EXTERN----------- ---------------INTERN-------------

-----PROGRESSION-1-NUC-------- -------------PROGRESSION-1-SAT-------------

-------STAT/TS-RELEVANT-------

Page 20: Dokumentverarbeitung und Textzusammenfassung Prof. Dr. Manfred Stede AG Angewandte Computerlinguistik Institut für Linguistik Universität Potsdam

Manfred Stede

Page 21: Dokumentverarbeitung und Textzusammenfassung Prof. Dr. Manfred Stede AG Angewandte Computerlinguistik Institut für Linguistik Universität Potsdam

Manfred Stede

Page 22: Dokumentverarbeitung und Textzusammenfassung Prof. Dr. Manfred Stede AG Angewandte Computerlinguistik Institut für Linguistik Universität Potsdam

Manfred Stede

Page 23: Dokumentverarbeitung und Textzusammenfassung Prof. Dr. Manfred Stede AG Angewandte Computerlinguistik Institut für Linguistik Universität Potsdam

Manfred Stede

Page 24: Dokumentverarbeitung und Textzusammenfassung Prof. Dr. Manfred Stede AG Angewandte Computerlinguistik Institut für Linguistik Universität Potsdam

Manfred Stede

Page 25: Dokumentverarbeitung und Textzusammenfassung Prof. Dr. Manfred Stede AG Angewandte Computerlinguistik Institut für Linguistik Universität Potsdam

Manfred Stede

Page 26: Dokumentverarbeitung und Textzusammenfassung Prof. Dr. Manfred Stede AG Angewandte Computerlinguistik Institut für Linguistik Universität Potsdam

Manfred Stede

Page 27: Dokumentverarbeitung und Textzusammenfassung Prof. Dr. Manfred Stede AG Angewandte Computerlinguistik Institut für Linguistik Universität Potsdam

Manfred Stede

XML-Toolbox für Dokumentverarbeitung

Komponenten Dokumentstruktur-Repräsentation Statistische Auswertung Robuste syntaktische Analyse Ko-Referenz Analyse Ableitung der Diskursstruktur

Anwendungsfelder Text-Zusammenfassung Informationsextraktion Frage-/Antwort Systeme Automatische Übersetzung

Page 28: Dokumentverarbeitung und Textzusammenfassung Prof. Dr. Manfred Stede AG Angewandte Computerlinguistik Institut für Linguistik Universität Potsdam

Manfred Stede

Zusammenfassung SUMMaR1. Tf/Idf + Textsortenwissen

Liste relevanter Sätze2. Part-of-speech tagging + robustes parsing3. Ko-Referenz Analyse

unterspezifizierte referentielle Ketten4. Konnektoren-Analyse (+ synt. Merkmale)

unterspezifizierte „rhetorische Textstruktur“5. Partielle Re-Generierung des Extrakts

In Deutschland sind 5 Mio Menschen arbeitslos. { } Schröder traf die Spitzen der Arbeitgeberverbände. {} Der Bundeskanzler kündigte an, die nächste Stufe der Steuerreform vorzuziehen. {} Dennoch mahnte Bsirske an, die Unternehmensgewinne stärker zu besteuern.

Page 29: Dokumentverarbeitung und Textzusammenfassung Prof. Dr. Manfred Stede AG Angewandte Computerlinguistik Institut für Linguistik Universität Potsdam

Manfred Stede

Zusammenfassung SUMMaR1. Tf/Idf + Textsortenwissen

Liste relevanter Sätze2. Part-of-speech tagging + robustes parsing3. Ko-Referenz Analyse

unterspezifizierte referentielle Ketten4. Konnektoren-Analyse (+ synt. Merkmale)

unterspezifizierte „rhetorische Textstruktur“5. Partielle Re-Generierung des Extrakts

In Deutschland sind 5 Mio Menschen arbeitslos. { } Schröder traf die Spitzen der Arbeitgeberverbände. {} Der Bundeskanzler kündigte an, die nächste Stufe der Steuerreform vorzuziehen. {} Dennoch mahnte Bsirske an, die Unternehmensgewinne stärker zu besteuern.

Page 30: Dokumentverarbeitung und Textzusammenfassung Prof. Dr. Manfred Stede AG Angewandte Computerlinguistik Institut für Linguistik Universität Potsdam

Manfred Stede

Zusammenfassung SUMMaR1. Tf/Idf + Textsortenwissen

Liste relevanter Sätze2. Part-of-speech tagging + robustes parsing3. Ko-Referenz Analyse

unterspezifizierte referentielle Ketten4. Konnektoren-Analyse (+ synt. Merkmale)

unterspezifizierte „rhetorische Textstruktur“5. Partielle Re-Generierung des Extrakts

In Deutschland sind 5 Mio Menschen arbeitslos. { } Bundeskanzler Schröder traf die Spitzen der Arbeitgeberverbände. {} Er kündigte an, die nächste Stufe der Steuerreform vorzuziehen. {} Dennoch mahnte Bsirske an, die Unternehmens-gewinne stärker zu besteuern.

Page 31: Dokumentverarbeitung und Textzusammenfassung Prof. Dr. Manfred Stede AG Angewandte Computerlinguistik Institut für Linguistik Universität Potsdam

Manfred Stede

Zusammenfassung SUMMaR1. Tf/Idf + Textsortenwissen

Liste relevanter Sätze2. Part-of-speech tagging + robustes parsing3. Ko-Referenz Analyse

unterspezifizierte referentielle Ketten4. Konnektoren-Analyse (+ synt. Merkmale)

unterspezifizierte „rhetorische Textstruktur“5. Partielle Re-Generierung des Extrakts

In Deutschland sind 5 Mio Menschen arbeitslos. { } Bundeskanzler Schröder traf die Spitzen der Arbeitgeberverbände. {} Er kündigte an, die nächste Stufe der Steuerreform vorzuziehen. {} Dennoch mahnte Bsirske an, die Unternehmens-gewinne stärker zu besteuern.

Page 32: Dokumentverarbeitung und Textzusammenfassung Prof. Dr. Manfred Stede AG Angewandte Computerlinguistik Institut für Linguistik Universität Potsdam

Manfred Stede

Zusammenfassung SUMMaR1. Tf/Idf + Textsortenwissen

Liste relevanter Sätze2. Part-of-speech tagging + robustes parsing3. Ko-Referenz Analyse

unterspezifizierte referentielle Ketten4. Konnektoren-Analyse (+ synt. Merkmale)

unterspezifizierte „rhetorische Textstruktur“5. Partielle Re-Generierung des Extrakts

In Deutschland sind 5 Mio Menschen arbeitslos. { } Bundeskanzler Schröder traf die Spitzen der Arbeitgeberverbände. {} Er kündigte an, die nächste Stufe der Steuerreform vorzuziehen. {} Der DGB zeigte sich im Prinzip einverstanden. Dennoch mahnte Bsirske an, die Unternehmensgewinne stärker zu besteuern.

Page 33: Dokumentverarbeitung und Textzusammenfassung Prof. Dr. Manfred Stede AG Angewandte Computerlinguistik Institut für Linguistik Universität Potsdam

Manfred Stede

Zusammenfassung SUMMaR1. Tf/Idf + Textsortenwissen

Liste relevanter Sätze2. Part-of-speech tagging + robustes parsing3. Ko-Referenz Analyse

unterspezifizierte referentielle Ketten4. Konnektoren-Analyse (+ synt. Merkmale)

unterspezifizierte „rhetorische Textstruktur“5. Partielle Re-Generierung des Extrakts

In Deutschland sind 5 Mio Menschen arbeitslos. { } Bundeskanzler Schröder traf die Spitzen der Arbeitgeberverbände. {} Er kündigte an, die nächste Stufe der Steuerreform vorzuziehen. {} Der DGB zeigte sich im Prinzip einverstanden. Dennoch mahnte Bsirske an, die Unternehmensgewinne stärker zu besteuern.

Page 34: Dokumentverarbeitung und Textzusammenfassung Prof. Dr. Manfred Stede AG Angewandte Computerlinguistik Institut für Linguistik Universität Potsdam

Manfred Stede

Zusammenfassung SUMMaR1. Tf/Idf + Textsortenwissen

Liste relevanter Sätze2. Part-of-speech tagging + robustes parsing3. Ko-Referenz Analyse

unterspezifizierte referentielle Ketten4. Konnektoren-Analyse (+ synt. Merkmale)

unterspezifizierte „rhetorische Textstruktur“5. Partielle Re-Generierung des Extrakts

In Deutschland sind 5 Mio Menschen arbeitslos. { } Bundeskanzler Schröder traf die Spitzen der Arbeitgeberverbände. {} Er kündigte an, die nächste Stufe der Steuerreform vorzuziehen. {} Der DGB zeigte sich im Prinzip einverstanden. Dennoch mahnte Verdi-Chef Bsirske an, die Unternehmensgewinne stärker zu besteuern.

Page 35: Dokumentverarbeitung und Textzusammenfassung Prof. Dr. Manfred Stede AG Angewandte Computerlinguistik Institut für Linguistik Universität Potsdam

Perspektive:Multi-Document Summarization

Japans Ministerpräsident Koizumi hat bei der Unterhauswahl einen überwätigenden Sieg errungen. Die LDP errang {271/276/296} der 480 Sitze. Erstmals seit 15 Jahren verfügt sie über die absolute Mehrheit.