bsb demo day - gotscharek - spezial-lexika

Post on 21-Dec-2014

381 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

 

TRANSCRIPT

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

11. 10. 2011, BSB München – IMPACT Demo Day

Spezial-Lexika zur Erschließung historischer TexteLudwig-Maximilians-Universität München

Centrum für Informations- und Sprachverarbeitung

Annette Gotscharek

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

11. 10. 2011, BSB München – IMPACT Demo Day 2

Spezial-Lexika zur Erschließung historischer Texte:

“Erschließung”?

OCR :Textuelle Repräsentation des Dokuments aus dem Scan gewinnen.

Aufgabe des Lexikons:

Definition der Menge gültiger Wörter (mit Wahrscheinlichkeiten)

... Teil (355.133)

des (1.243.455)

Lexikons (4.625)

Lexika (512) ...

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

11. 10. 2011, BSB München – IMPACT Demo Day 3

Spezial-Lexika zur Erschließung historischer Texte:

“Erschließung”?

Information Retrieval (IR):Zu einer Benutzeranfrage relevante Dokumente aus einer Kollektion

finden.

Aufgabe des Lexikons:

Benutzeranfrage sinnvoll erweitern, um Recall zu erhöhen.

... Lexikon � Lexika, Lexikons

Teil � Teile, Teils, Teilen

Geist � Geister, Geists, Geistern ...

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Problem der historischen Sprachvariation

� Historische Schreibvarianten: geyſte �Geiste

� Veraltetes Vokabular: mirackel �Wunder (?)

� Historische Morphologie: er frug � er fragte

� Veralteter Zeichensatz: ſ � s, aͤ � ä, …

11. 10. 2011, BSB München – IMPACT Demo Day 4

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

11. 10. 2011, BSB München – IMPACT Demo Day 5

Adaptierte Lexika für historische Texte: Struktur

OCR : ...Teil (355.133) Theile (223.405)

des (1.243.455) teyls (41.944)

Lexikons (4.625) Lexicons (1.520)

Lexika (512) frug (2.311)

...

IR: ...Geist � Geister, Geists, Geistern, geyſte, geyſt, geyster

Lexikon � Lexika, Lexikons, Lexicon, Lexica, Lexicons

Teil � Teile, Teils, Teilen, Theyl, Theil, Theyls, Theilen

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

11. 10. 2011, BSB München – IMPACT Demo Day 6

Ressourcen und Spezial-Lexika

für historische Texte

� Diachrones Groundtruth Korpus (1500-1950)

� Hypothetisches Lexikon für regelbasierte Varianten

� Manuell verifiziertes Lexikon

� Lexika für Named Entities

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

11. 10. 2011, BSB München – IMPACT Demo Day 7

Ressourcen und Spezial-Lexika

für historische Texte

� Diachrones Groundtruth Korpus (1500-1950)

� Hypothetisches Lexikon für regelbasierte Varianten

� Manuell verifiziertes Lexikon

� Lexika für Named Entities

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

11. 10. 2011, BSB München – IMPACT Demo Day 8

Diachrones Groundtruth – Korpus (1500-1950)

� Korpus-Erstellung aus verschiedenen Quellen im Web bzw. nicht-öffentlichen elektronischen Korpora (IDS Mannheim).

� Große Lücke insbesondere im 16. /17. Jahrhundert� Mit BSB: Erstellung eines zusätzlichen Korpus aus BSB-Dokumenten.

Insgesamt ~ 3.380.000 token aus 4 Jahrhunderten.

� Basis für verschiedene Analysen und Lexikonerstellung

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

11. 10. 2011, BSB München – IMPACT Demo Day 9

Ressourcen und Spezial-Lexika

für historische Texte

� Diachrones Groundtruth Korpus (1500-1950)

� Hypothetisches Lexikon für regelbasierte Varianten

� Manuell verifiziertes Lexikon

� Lexika für Named Entities

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

11. 10. 2011, BSB München – IMPACT Demo Day 10

Hypothetisches Lexikon: Regelbasierte Varianten

� Regelmäßig auftretende Ersetzungsmuster (Patterns) erklären auf Symbolebene die Unterschiede zwischen moderner und historischer Schreibung:

� Auf Basis des modernen Lexikons und der 140 Patterns kann automatisch die Menge der potentiellen regelbasierten historischen Varianten erzeugt werden („Hypothetisches Lexikon“).

theylteil eyeitht → →→ ,

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

11. 10. 2011, BSB München – IMPACT Demo Day 11

Hypothetisches Lexikon

Esel

Teil

Modernes

Lexikon

e →eh

ei →ey

s →ß

l→ll

t →th

Esel

Esell

Esehl

Esehll

Eßel

Eßell

Eßehll

Hypothetisches

Lexikon

Teil

Teill

Teyl

Teyll

Tehill

Theil

Patternmenge

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

11. 10. 2011, BSB München – IMPACT Demo Day 12

Hypothetisches Lexikon: Regelbasierte Varianten

� Zuordnung von regelbasierten Varianten zu ihren Entsprechungen im modernen Wortschatz automatisch möglich:

Geyst = Geist + (ei � ey)

Theile = Teile + (t �th)

� Bei weitem nicht alle historischen Varianten lassen sich mit einfachen Ersetzungsregeln ableiten:

frug = fragte + ?

Mirackel = ? + ?

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

11. 10. 2011, BSB München – IMPACT Demo Day 13

Abdeckung auf diachronem Korpus

� Einsatz als Lexikon bei der OCR: Verbesserung der Erkennungsqualität über IMPACT Abbyy External Dictionary Interface (publiziert 2009)

� Zentrale Ressource bei Text- und Fehlerprofilierung und im Postkorrektursystem (� vgl. Vortrag Ulrich Reffle)

1500-

1549

1550-

1599

1600-

1649

1650-

1699

1700-

1749

1750-

1799

1800-

1849

1850-

1899

1900-

1949

Modern simple

words

Modern

compounds

Hypothetic

Types (%)

15.3 28.8 29.2 31.5 38.1 52.0 54.7 48.0 60.1

5.1 6.1 6.9 8.6 7.13 15.5 20.6 28.1 27.8

29.5 29.8 27.9 26.0 21.9 14.3 8.1 7.7 2.0

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

11. 10. 2011, BSB München – IMPACT Demo Day 14

Abdeckung auf diachronem Korpus

� Hoher Anteil „schwierigen“ Vokabulars vor 1750, insbesondere im 16. Jhdt.

� manuell verifiziertes Lexikon notwendig!

1500-

1549

1550-

1599

1600-

1649

1650-

1699

1700-

1749

1750-

1799

1800-

1849

1850-

1899

1900-

1949

Modern simple

words

Modern

compounds

Hypothetic

Missing

Types (%)

15.3 28.8 29.2 31.5 38.1 52.0 54.7 48.0 60.1

5.1 6.1 6.9 8.6 7.13 15.5 20.6 28.1 27.8

29.5 29.8 27.9 26.0 21.9 14.3 8.1 7.7 2.0

45.9 28.7 29.7 26.0 23.5 15.1 13.9 13.5 8.1

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

11. 10. 2011, BSB München – IMPACT Demo Day 15

Ressourcen und Spezial-Lexika

für historische Texte

� Diachrones Groundtruth Korpus (1500-1950)

� Hypothetisches Lexikon für regelbasierte Varianten

� Manuell verifiziertes Lexikon

� Lexika für Named Entities

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

11. 10. 2011, BSB München – IMPACT Demo Day 16

Manuell verifiziertes IR-Lexikon: Struktur

Ein Eintrag enthält:– Historische Wortform aus Korpus

– Entsprechende moderne Wortform

– Ggf. Patterns

– Entsprechendes modernes Lemma

– Mindestens eine Textstelle aus dem Korpus als Beleg für die Lesart

� Manuelle Zuordnung von moderner Wortform und Lemma

� Explizites Kodieren nicht regelbasierter historischer Varianten

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

11. 10. 2011, BSB München – IMPACT Demo Day 17

Manuell verifiziertes IR-Lexikon: Erstellung

� Webbasierte, kollaborative Oberfläche

� Unterstützung des Bearbeiters durch:– Vorschläge für entsprechende moderne Wortformen für regelbasierte

Varianten durch Hypothetisches Lexikon (theile -> teile)

– Vorschläge aller möglichen Lemmas für die entsprechende moderne Wortform aus einem großen modernen Lexikon CISLEX

(teile -> der Teil, das Teil, teilen)

– Konkordanz der zu bearbeitenden Variante

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

11. 10. 2011, BSB München – IMPACT Demo Day 18

Aktueller Stand des IR-Lexikons

� Auf dem diachronen Korpus wurden 41.300 Einträge für 24.700 historische Wortformen erstellt, 71.400 Belegstellen annotiert.

� IMPACT-Partner in Slowenien und Bulgarien erstellen entsprechende historische Lexika mithilfe einer adaptierte Version des tools.

� Suchmaschine mit Queryexpansion

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Suchmaschine mit Queryexpansion

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

11. 10. 2011, BSB München – IMPACT Demo Day 20

Ressourcen und Spezial-Lexika

für historische Texte

� Diachrones Groundtruth Korpus (1500-1950)

� Hypothetisches Lexikon für regelbasierte Varianten

� Manuell verifiziertes Lexikon

� Lexika für Named Entities

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

11. 10. 2011, BSB München – IMPACT Demo Day 21

Named Entities (NEs)

� Wörter / Mehrwortlexeme, die auf einzelnes Element der realen Weltreferieren (Personen, geographische Bezeichner, Organisationen).

� NEs sind nicht im allgemeinen Lexikon enthalten und sind besonders problematisch für die OCR.

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

11. 10. 2011, BSB München – IMPACT Demo Day 22

Named Entities

� Evaluationskorpus: NE-Annotation von Materialen u.a. von der Österreichischen Nationalbibliothek

� Gekeyte NE-Daten von der ONB: 85 Dokumente (Adress-Register, Ortsnamenverzeichnisse)

� ~ 300.000 geographische Entitäten, Vor- und Nachnamen-Lexika

� Tests zur NE-Erkennung:– mithilfe lokaler Grammatiken (regelbasiert)

– mithilfe eines statistischen Klassifikators (maschinelles Lernen).

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

11. 10. 2011, BSB München – IMPACT Demo Day 23

NEs – Erkennung: Reichsrat-Protokolle

� Statistische (stat) und regelbasierte (RB) Klassifikatoren.

� Mit speziellen NE-Lexika (+lex) bzw. ohne NE-Lexika (-lex)

� Trainiert auf allgemeinem Korpus (-train) bzw. auf Reichsrat-Korpus (+train)

Classifier Recall Precision F

Stat +train +lex 89,62 96,91 92,98

Stat +train –lex 88,38 96,01 92,04

Stat –train +lex 21,01 90,03 34,07

Stat –train –lex 20,15 87,71 32,77

RB +lex 70,49 85,02 77,07

RB –lex 20,91 86,76 24,07

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Suchmaschine mit NE Highlighting

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

11. 10. 2011, BSB München – IMPACT Demo Day 25

Vielen Dank.

top related