bsb demo day - gotscharek - spezial-lexika
DESCRIPTION
TRANSCRIPT
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
11. 10. 2011, BSB München – IMPACT Demo Day
Spezial-Lexika zur Erschließung historischer TexteLudwig-Maximilians-Universität München
Centrum für Informations- und Sprachverarbeitung
Annette Gotscharek
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
11. 10. 2011, BSB München – IMPACT Demo Day 2
Spezial-Lexika zur Erschließung historischer Texte:
“Erschließung”?
OCR :Textuelle Repräsentation des Dokuments aus dem Scan gewinnen.
Aufgabe des Lexikons:
Definition der Menge gültiger Wörter (mit Wahrscheinlichkeiten)
... Teil (355.133)
des (1.243.455)
Lexikons (4.625)
Lexika (512) ...
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
11. 10. 2011, BSB München – IMPACT Demo Day 3
Spezial-Lexika zur Erschließung historischer Texte:
“Erschließung”?
Information Retrieval (IR):Zu einer Benutzeranfrage relevante Dokumente aus einer Kollektion
finden.
Aufgabe des Lexikons:
Benutzeranfrage sinnvoll erweitern, um Recall zu erhöhen.
... Lexikon � Lexika, Lexikons
Teil � Teile, Teils, Teilen
Geist � Geister, Geists, Geistern ...
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Problem der historischen Sprachvariation
� Historische Schreibvarianten: geyſte �Geiste
� Veraltetes Vokabular: mirackel �Wunder (?)
� Historische Morphologie: er frug � er fragte
� Veralteter Zeichensatz: ſ � s, aͤ � ä, …
11. 10. 2011, BSB München – IMPACT Demo Day 4
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
11. 10. 2011, BSB München – IMPACT Demo Day 5
Adaptierte Lexika für historische Texte: Struktur
OCR : ...Teil (355.133) Theile (223.405)
des (1.243.455) teyls (41.944)
Lexikons (4.625) Lexicons (1.520)
Lexika (512) frug (2.311)
...
IR: ...Geist � Geister, Geists, Geistern, geyſte, geyſt, geyster
Lexikon � Lexika, Lexikons, Lexicon, Lexica, Lexicons
Teil � Teile, Teils, Teilen, Theyl, Theil, Theyls, Theilen
…
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
11. 10. 2011, BSB München – IMPACT Demo Day 6
Ressourcen und Spezial-Lexika
für historische Texte
� Diachrones Groundtruth Korpus (1500-1950)
� Hypothetisches Lexikon für regelbasierte Varianten
� Manuell verifiziertes Lexikon
� Lexika für Named Entities
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
11. 10. 2011, BSB München – IMPACT Demo Day 7
Ressourcen und Spezial-Lexika
für historische Texte
� Diachrones Groundtruth Korpus (1500-1950)
� Hypothetisches Lexikon für regelbasierte Varianten
� Manuell verifiziertes Lexikon
� Lexika für Named Entities
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
11. 10. 2011, BSB München – IMPACT Demo Day 8
Diachrones Groundtruth – Korpus (1500-1950)
� Korpus-Erstellung aus verschiedenen Quellen im Web bzw. nicht-öffentlichen elektronischen Korpora (IDS Mannheim).
� Große Lücke insbesondere im 16. /17. Jahrhundert� Mit BSB: Erstellung eines zusätzlichen Korpus aus BSB-Dokumenten.
Insgesamt ~ 3.380.000 token aus 4 Jahrhunderten.
� Basis für verschiedene Analysen und Lexikonerstellung
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
11. 10. 2011, BSB München – IMPACT Demo Day 9
Ressourcen und Spezial-Lexika
für historische Texte
� Diachrones Groundtruth Korpus (1500-1950)
� Hypothetisches Lexikon für regelbasierte Varianten
� Manuell verifiziertes Lexikon
� Lexika für Named Entities
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
11. 10. 2011, BSB München – IMPACT Demo Day 10
Hypothetisches Lexikon: Regelbasierte Varianten
� Regelmäßig auftretende Ersetzungsmuster (Patterns) erklären auf Symbolebene die Unterschiede zwischen moderner und historischer Schreibung:
� Auf Basis des modernen Lexikons und der 140 Patterns kann automatisch die Menge der potentiellen regelbasierten historischen Varianten erzeugt werden („Hypothetisches Lexikon“).
theylteil eyeitht → →→ ,
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
11. 10. 2011, BSB München – IMPACT Demo Day 11
Hypothetisches Lexikon
…
Esel
…
Teil
…
Modernes
Lexikon
…
e →eh
ei →ey
s →ß
l→ll
t →th
…
Esel
Esell
Esehl
Esehll
Eßel
Eßell
Eßehll
…
Hypothetisches
Lexikon
Teil
Teill
Teyl
Teyll
Tehill
Theil
…
Patternmenge
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
11. 10. 2011, BSB München – IMPACT Demo Day 12
Hypothetisches Lexikon: Regelbasierte Varianten
� Zuordnung von regelbasierten Varianten zu ihren Entsprechungen im modernen Wortschatz automatisch möglich:
Geyst = Geist + (ei � ey)
Theile = Teile + (t �th)
� Bei weitem nicht alle historischen Varianten lassen sich mit einfachen Ersetzungsregeln ableiten:
frug = fragte + ?
Mirackel = ? + ?
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
11. 10. 2011, BSB München – IMPACT Demo Day 13
Abdeckung auf diachronem Korpus
� Einsatz als Lexikon bei der OCR: Verbesserung der Erkennungsqualität über IMPACT Abbyy External Dictionary Interface (publiziert 2009)
� Zentrale Ressource bei Text- und Fehlerprofilierung und im Postkorrektursystem (� vgl. Vortrag Ulrich Reffle)
1500-
1549
1550-
1599
1600-
1649
1650-
1699
1700-
1749
1750-
1799
1800-
1849
1850-
1899
1900-
1949
Modern simple
words
Modern
compounds
Hypothetic
Types (%)
15.3 28.8 29.2 31.5 38.1 52.0 54.7 48.0 60.1
5.1 6.1 6.9 8.6 7.13 15.5 20.6 28.1 27.8
29.5 29.8 27.9 26.0 21.9 14.3 8.1 7.7 2.0
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
11. 10. 2011, BSB München – IMPACT Demo Day 14
Abdeckung auf diachronem Korpus
� Hoher Anteil „schwierigen“ Vokabulars vor 1750, insbesondere im 16. Jhdt.
� manuell verifiziertes Lexikon notwendig!
1500-
1549
1550-
1599
1600-
1649
1650-
1699
1700-
1749
1750-
1799
1800-
1849
1850-
1899
1900-
1949
Modern simple
words
Modern
compounds
Hypothetic
Missing
Types (%)
15.3 28.8 29.2 31.5 38.1 52.0 54.7 48.0 60.1
5.1 6.1 6.9 8.6 7.13 15.5 20.6 28.1 27.8
29.5 29.8 27.9 26.0 21.9 14.3 8.1 7.7 2.0
45.9 28.7 29.7 26.0 23.5 15.1 13.9 13.5 8.1
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
11. 10. 2011, BSB München – IMPACT Demo Day 15
Ressourcen und Spezial-Lexika
für historische Texte
� Diachrones Groundtruth Korpus (1500-1950)
� Hypothetisches Lexikon für regelbasierte Varianten
� Manuell verifiziertes Lexikon
� Lexika für Named Entities
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
11. 10. 2011, BSB München – IMPACT Demo Day 16
Manuell verifiziertes IR-Lexikon: Struktur
Ein Eintrag enthält:– Historische Wortform aus Korpus
– Entsprechende moderne Wortform
– Ggf. Patterns
– Entsprechendes modernes Lemma
– Mindestens eine Textstelle aus dem Korpus als Beleg für die Lesart
� Manuelle Zuordnung von moderner Wortform und Lemma
� Explizites Kodieren nicht regelbasierter historischer Varianten
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
11. 10. 2011, BSB München – IMPACT Demo Day 17
Manuell verifiziertes IR-Lexikon: Erstellung
� Webbasierte, kollaborative Oberfläche
� Unterstützung des Bearbeiters durch:– Vorschläge für entsprechende moderne Wortformen für regelbasierte
Varianten durch Hypothetisches Lexikon (theile -> teile)
– Vorschläge aller möglichen Lemmas für die entsprechende moderne Wortform aus einem großen modernen Lexikon CISLEX
(teile -> der Teil, das Teil, teilen)
– Konkordanz der zu bearbeitenden Variante
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
11. 10. 2011, BSB München – IMPACT Demo Day 18
Aktueller Stand des IR-Lexikons
� Auf dem diachronen Korpus wurden 41.300 Einträge für 24.700 historische Wortformen erstellt, 71.400 Belegstellen annotiert.
� IMPACT-Partner in Slowenien und Bulgarien erstellen entsprechende historische Lexika mithilfe einer adaptierte Version des tools.
� Suchmaschine mit Queryexpansion
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Suchmaschine mit Queryexpansion
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
11. 10. 2011, BSB München – IMPACT Demo Day 20
Ressourcen und Spezial-Lexika
für historische Texte
� Diachrones Groundtruth Korpus (1500-1950)
� Hypothetisches Lexikon für regelbasierte Varianten
� Manuell verifiziertes Lexikon
� Lexika für Named Entities
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
11. 10. 2011, BSB München – IMPACT Demo Day 21
Named Entities (NEs)
� Wörter / Mehrwortlexeme, die auf einzelnes Element der realen Weltreferieren (Personen, geographische Bezeichner, Organisationen).
� NEs sind nicht im allgemeinen Lexikon enthalten und sind besonders problematisch für die OCR.
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
11. 10. 2011, BSB München – IMPACT Demo Day 22
Named Entities
� Evaluationskorpus: NE-Annotation von Materialen u.a. von der Österreichischen Nationalbibliothek
� Gekeyte NE-Daten von der ONB: 85 Dokumente (Adress-Register, Ortsnamenverzeichnisse)
� ~ 300.000 geographische Entitäten, Vor- und Nachnamen-Lexika
� Tests zur NE-Erkennung:– mithilfe lokaler Grammatiken (regelbasiert)
– mithilfe eines statistischen Klassifikators (maschinelles Lernen).
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
11. 10. 2011, BSB München – IMPACT Demo Day 23
NEs – Erkennung: Reichsrat-Protokolle
� Statistische (stat) und regelbasierte (RB) Klassifikatoren.
� Mit speziellen NE-Lexika (+lex) bzw. ohne NE-Lexika (-lex)
� Trainiert auf allgemeinem Korpus (-train) bzw. auf Reichsrat-Korpus (+train)
Classifier Recall Precision F
Stat +train +lex 89,62 96,91 92,98
Stat +train –lex 88,38 96,01 92,04
Stat –train +lex 21,01 90,03 34,07
Stat –train –lex 20,15 87,71 32,77
RB +lex 70,49 85,02 77,07
RB –lex 20,91 86,76 24,07
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Suchmaschine mit NE Highlighting
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
11. 10. 2011, BSB München – IMPACT Demo Day 25
Vielen Dank.