bsb demo day - reffle - analyse und nachkorrektur

Post on 07-Dec-2014

610 Views

Category:

Documents

1 Downloads

Preview:

Click to see full reader

DESCRIPTION

 

TRANSCRIPT

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

11.10.2011

Analyse und Nachkorrektur historischer und OCR-

erfasster Ergebnisse

Ulrich Reffle, CIS, LMU München

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Inhalt

� Dokumentenspezifische Analyse historischer und OCR-erfasster Texte

� Ein System zur interaktiven OCR-Nachkorrektur

11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 2

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Dokumentenspezifische Analyse

historischer und OCR-erfasster Texte

date footertext 3

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Warum spezielle Methoden?

Spezifische Probleme in der Verarbeitung historischer Sprache im Kontext

von Digitalisierung und Massendigitalisierung:

– Hohe OCR-Fehlerraten

– Nicht-standardisierte Sprache

� Spezielle Ressourcen und Methoden für OCR, Nachbearbeitung und Retrieval

notwendig

11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 4

OCR-

ResultatOCR

Nach-korrektur

IRDigitales

Bild

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Warum spezielle Methoden?

Heterogenität der Vorlagen erfordert dokumentenspezifische Einstellungen:

– Historische Varianten

– Auswahl von Speziallexika

– Charakterisierung des OCR-Fehlerkanals

11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 5

OCR-

ResultatOCR

Nach-korrektur

IRDigitales

Bild

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Dokumentenspezifische Sprach- und

Fehlerprofile

� Sprach- und Fehlerprofile stellen auf Dokumentebene spezifische

Charakteristika der Sprache und der OCR-Erfassung zur Verfügung.

� Sprachprofile: Anteile fremder Sprachen (etwa Latein), Frequenzmodelle,

wichtige Muster historischer Sprachvariation (etwa t�th, ei�ey)

� Fehlerprofile: geschätzte Fehlerrate, wichtige OCR-Fehler (z.B. e�c, i�l),

Fehlererkennung und Korrekturvorschläge für einzelne Wörter

� Profile werden vollautomatisch und ausschließlich auf Grundlage der OCR-

Ausgabe berechnet.

11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 6

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Dokumentenspezifische Sprach- und

Fehlerprofile

� Sprach- und Fehlerprofile können zur Verbesserung der Qualität von

OCR, Nachkorrektur und Information Retrieval beitragen.

11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 7

OCR-

ResultatOCR

Nach-korrektur

IRDigitales

Bild

Sprach- und

Fehlerprofile

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Globales Profil eines Dokuments

11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 8

Historische

Varianten

OCR-

Fehler

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Lokales Profil eines Dokuments

11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 9

„theil“„theil“„theil“„theil“„Tneil“

� Bewertete Interpretationen/ Korrekturvorschläge für alle Wörter des

Dokuments:

Korrekturvorschlag Moderne Schreibung Wahrscheinlichkeit

Theil Teil 0,98

Keil Keil 0,01

… … …

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Zusammenfassung

� Dokumentenspezifische Sprach- und Fehlerprofile werden vollautomatisch

auf Grundlage eines OCR-erfassten Dokuments berechnet.

� Sie liefern Charakteristika der vorgefundenen Sprache sowie des OCR-

Fehlerkanals, um OCR oder nachverarbeitende Prozesse gezielt auf das

Dokument einzustellen.

11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 10

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

System zur interaktiven

Nachkorrektur von OCR-erfassten

Dokumenten

date footertext 11

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Nachkorrektursystem

� Eine graphische Oberfläche zur schnellen und einfachen Nachkorrektur

speziell von historischen, durch OCR digitalisierten Dokumenten

� Sprach- und Fehlerprofile eröffnen neuartige Möglichkeiten zur Erkennung,

Präsentation und Korrektur von OCR-Fehlern.

11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 12

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Nachkorrektursystem

Anordnung der Arbeitsfläche frei konfigurierbar:

– OCR mit Bildsnippets

– Komplette Bildseite

– Korrekturkandidaten/

spezielle Funktionen

date footertext 13

Spezielle FunktionenSpezielle Funktionen

ImageImage

OCROCR

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Nachkorrektursystem

� Erkannter Text wird Wort für Wort direkt mit dem entsprechenden

Bildausschnitt dargestellt.

� Fehlererkennung durch Profile

11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 14

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Nachkorrektursystem

� Originalbild wird auch komplett dargestellt.

– Nützlich bei schwer lesbaren Wörtern

– Nützlich, wenn Wortsegmentierung der OCR zu mangelhaft

– Aktives Wort wird durch Rahmen hervorgehoben

11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 15

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Behandlung historischer Varianten

� Historische Varianten werden auf Basis historischer Lexika und von

Sprachprofile identifiziert und als korrekt dargestellt.

� Auch Korrekturvorchläge beinhalten nicht-moderne Wörter

11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 16

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Klassische Korrekturwerkzeuge

� Korrekturen in der Textsicht

– Durch manuelle Eingabe

– Durch Auswahl eines Korrekturvorschlags

11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 17

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Batch-Verarbeitung für systematische OCR-

Fehler

� Fehlerprofile identifizieren die häufigen, systematischen OCR-Fehler

� Ganze Gruppen von gleichartigen Fehlern können schneller und besser

korrigiert werden.

11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 18

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Evaluierung

� User-Experiment mit insgesamt 14 Einzelversuchen

� Verwendung der vorgestellten neuen Technologien beschleunigt die

Korrektur um das bis zu 2,7-fache.

11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 19

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Verfügbarkeit

� Graphische Oberfläche wird in den nächsten Wochen frei verfügbar

gemacht.

� Vorverarbeitung von Dokumenten zur Erstellung von Sprach- und

Fehlerprofilen ist durch Patentmeldung geschützt.

– LMU München wird Preprocessing über Webservice anbieten, der bis auf

Weiteres kostenlos sein wird.

11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 20

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Vielen Dank

2111.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de

top related