bsb demo day - reffle - analyse und nachkorrektur
Post on 07-Dec-2014
610 Views
Preview:
DESCRIPTION
TRANSCRIPT
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
11.10.2011
Analyse und Nachkorrektur historischer und OCR-
erfasster Ergebnisse
Ulrich Reffle, CIS, LMU München
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Inhalt
� Dokumentenspezifische Analyse historischer und OCR-erfasster Texte
� Ein System zur interaktiven OCR-Nachkorrektur
11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 2
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Dokumentenspezifische Analyse
historischer und OCR-erfasster Texte
date footertext 3
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Warum spezielle Methoden?
Spezifische Probleme in der Verarbeitung historischer Sprache im Kontext
von Digitalisierung und Massendigitalisierung:
– Hohe OCR-Fehlerraten
– Nicht-standardisierte Sprache
� Spezielle Ressourcen und Methoden für OCR, Nachbearbeitung und Retrieval
notwendig
11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 4
OCR-
ResultatOCR
Nach-korrektur
IRDigitales
Bild
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Warum spezielle Methoden?
Heterogenität der Vorlagen erfordert dokumentenspezifische Einstellungen:
– Historische Varianten
– Auswahl von Speziallexika
– Charakterisierung des OCR-Fehlerkanals
11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 5
OCR-
ResultatOCR
Nach-korrektur
IRDigitales
Bild
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Dokumentenspezifische Sprach- und
Fehlerprofile
� Sprach- und Fehlerprofile stellen auf Dokumentebene spezifische
Charakteristika der Sprache und der OCR-Erfassung zur Verfügung.
� Sprachprofile: Anteile fremder Sprachen (etwa Latein), Frequenzmodelle,
wichtige Muster historischer Sprachvariation (etwa t�th, ei�ey)
� Fehlerprofile: geschätzte Fehlerrate, wichtige OCR-Fehler (z.B. e�c, i�l),
Fehlererkennung und Korrekturvorschläge für einzelne Wörter
� Profile werden vollautomatisch und ausschließlich auf Grundlage der OCR-
Ausgabe berechnet.
11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 6
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Dokumentenspezifische Sprach- und
Fehlerprofile
� Sprach- und Fehlerprofile können zur Verbesserung der Qualität von
OCR, Nachkorrektur und Information Retrieval beitragen.
11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 7
OCR-
ResultatOCR
Nach-korrektur
IRDigitales
Bild
Sprach- und
Fehlerprofile
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Globales Profil eines Dokuments
11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 8
Historische
Varianten
OCR-
Fehler
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Lokales Profil eines Dokuments
11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 9
„theil“„theil“„theil“„theil“„Tneil“
� Bewertete Interpretationen/ Korrekturvorschläge für alle Wörter des
Dokuments:
Korrekturvorschlag Moderne Schreibung Wahrscheinlichkeit
Theil Teil 0,98
Keil Keil 0,01
… … …
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Zusammenfassung
� Dokumentenspezifische Sprach- und Fehlerprofile werden vollautomatisch
auf Grundlage eines OCR-erfassten Dokuments berechnet.
� Sie liefern Charakteristika der vorgefundenen Sprache sowie des OCR-
Fehlerkanals, um OCR oder nachverarbeitende Prozesse gezielt auf das
Dokument einzustellen.
11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 10
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
System zur interaktiven
Nachkorrektur von OCR-erfassten
Dokumenten
date footertext 11
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Nachkorrektursystem
� Eine graphische Oberfläche zur schnellen und einfachen Nachkorrektur
speziell von historischen, durch OCR digitalisierten Dokumenten
� Sprach- und Fehlerprofile eröffnen neuartige Möglichkeiten zur Erkennung,
Präsentation und Korrektur von OCR-Fehlern.
11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 12
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Nachkorrektursystem
Anordnung der Arbeitsfläche frei konfigurierbar:
– OCR mit Bildsnippets
– Komplette Bildseite
– Korrekturkandidaten/
spezielle Funktionen
date footertext 13
Spezielle FunktionenSpezielle Funktionen
ImageImage
OCROCR
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Nachkorrektursystem
� Erkannter Text wird Wort für Wort direkt mit dem entsprechenden
Bildausschnitt dargestellt.
� Fehlererkennung durch Profile
11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 14
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Nachkorrektursystem
� Originalbild wird auch komplett dargestellt.
– Nützlich bei schwer lesbaren Wörtern
– Nützlich, wenn Wortsegmentierung der OCR zu mangelhaft
– Aktives Wort wird durch Rahmen hervorgehoben
11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 15
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Behandlung historischer Varianten
� Historische Varianten werden auf Basis historischer Lexika und von
Sprachprofile identifiziert und als korrekt dargestellt.
� Auch Korrekturvorchläge beinhalten nicht-moderne Wörter
11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 16
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Klassische Korrekturwerkzeuge
� Korrekturen in der Textsicht
– Durch manuelle Eingabe
– Durch Auswahl eines Korrekturvorschlags
11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 17
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Batch-Verarbeitung für systematische OCR-
Fehler
� Fehlerprofile identifizieren die häufigen, systematischen OCR-Fehler
� Ganze Gruppen von gleichartigen Fehlern können schneller und besser
korrigiert werden.
11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 18
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Evaluierung
� User-Experiment mit insgesamt 14 Einzelversuchen
� Verwendung der vorgestellten neuen Technologien beschleunigt die
Korrektur um das bis zu 2,7-fache.
11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 19
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Verfügbarkeit
� Graphische Oberfläche wird in den nächsten Wochen frei verfügbar
gemacht.
� Vorverarbeitung von Dokumenten zur Erstellung von Sprach- und
Fehlerprofilen ist durch Patentmeldung geschützt.
– LMU München wird Preprocessing über Webservice anbieten, der bis auf
Weiteres kostenlos sein wird.
11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 20
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Vielen Dank
2111.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de
top related