bsb demo day - reffle - analyse und nachkorrektur

21
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. 11.10.2011 Analyse und Nachkorrektur historischer und OCR- erfasster Ergebnisse Ulrich Reffle, CIS, LMU München

Upload: impact-centre-of-competence

Post on 07-Dec-2014

610 views

Category:

Documents


1 download

DESCRIPTION

 

TRANSCRIPT

Page 1: BSB Demo Day - Reffle - Analyse und Nachkorrektur

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

11.10.2011

Analyse und Nachkorrektur historischer und OCR-

erfasster Ergebnisse

Ulrich Reffle, CIS, LMU München

Page 2: BSB Demo Day - Reffle - Analyse und Nachkorrektur

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Inhalt

� Dokumentenspezifische Analyse historischer und OCR-erfasster Texte

� Ein System zur interaktiven OCR-Nachkorrektur

11.10.2011, Ulrich Reffle [email protected] 2

Page 3: BSB Demo Day - Reffle - Analyse und Nachkorrektur

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Dokumentenspezifische Analyse

historischer und OCR-erfasster Texte

date footertext 3

Page 4: BSB Demo Day - Reffle - Analyse und Nachkorrektur

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Warum spezielle Methoden?

Spezifische Probleme in der Verarbeitung historischer Sprache im Kontext

von Digitalisierung und Massendigitalisierung:

– Hohe OCR-Fehlerraten

– Nicht-standardisierte Sprache

� Spezielle Ressourcen und Methoden für OCR, Nachbearbeitung und Retrieval

notwendig

11.10.2011, Ulrich Reffle [email protected] 4

OCR-

ResultatOCR

Nach-korrektur

IRDigitales

Bild

Page 5: BSB Demo Day - Reffle - Analyse und Nachkorrektur

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Warum spezielle Methoden?

Heterogenität der Vorlagen erfordert dokumentenspezifische Einstellungen:

– Historische Varianten

– Auswahl von Speziallexika

– Charakterisierung des OCR-Fehlerkanals

11.10.2011, Ulrich Reffle [email protected] 5

OCR-

ResultatOCR

Nach-korrektur

IRDigitales

Bild

Page 6: BSB Demo Day - Reffle - Analyse und Nachkorrektur

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Dokumentenspezifische Sprach- und

Fehlerprofile

� Sprach- und Fehlerprofile stellen auf Dokumentebene spezifische

Charakteristika der Sprache und der OCR-Erfassung zur Verfügung.

� Sprachprofile: Anteile fremder Sprachen (etwa Latein), Frequenzmodelle,

wichtige Muster historischer Sprachvariation (etwa t�th, ei�ey)

� Fehlerprofile: geschätzte Fehlerrate, wichtige OCR-Fehler (z.B. e�c, i�l),

Fehlererkennung und Korrekturvorschläge für einzelne Wörter

� Profile werden vollautomatisch und ausschließlich auf Grundlage der OCR-

Ausgabe berechnet.

11.10.2011, Ulrich Reffle [email protected] 6

Page 7: BSB Demo Day - Reffle - Analyse und Nachkorrektur

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Dokumentenspezifische Sprach- und

Fehlerprofile

� Sprach- und Fehlerprofile können zur Verbesserung der Qualität von

OCR, Nachkorrektur und Information Retrieval beitragen.

11.10.2011, Ulrich Reffle [email protected] 7

OCR-

ResultatOCR

Nach-korrektur

IRDigitales

Bild

Sprach- und

Fehlerprofile

Page 8: BSB Demo Day - Reffle - Analyse und Nachkorrektur

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Globales Profil eines Dokuments

11.10.2011, Ulrich Reffle [email protected] 8

Historische

Varianten

OCR-

Fehler

Page 9: BSB Demo Day - Reffle - Analyse und Nachkorrektur

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Lokales Profil eines Dokuments

11.10.2011, Ulrich Reffle [email protected] 9

„theil“„theil“„theil“„theil“„Tneil“

� Bewertete Interpretationen/ Korrekturvorschläge für alle Wörter des

Dokuments:

Korrekturvorschlag Moderne Schreibung Wahrscheinlichkeit

Theil Teil 0,98

Keil Keil 0,01

… … …

Page 10: BSB Demo Day - Reffle - Analyse und Nachkorrektur

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Zusammenfassung

� Dokumentenspezifische Sprach- und Fehlerprofile werden vollautomatisch

auf Grundlage eines OCR-erfassten Dokuments berechnet.

� Sie liefern Charakteristika der vorgefundenen Sprache sowie des OCR-

Fehlerkanals, um OCR oder nachverarbeitende Prozesse gezielt auf das

Dokument einzustellen.

11.10.2011, Ulrich Reffle [email protected] 10

Page 11: BSB Demo Day - Reffle - Analyse und Nachkorrektur

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

System zur interaktiven

Nachkorrektur von OCR-erfassten

Dokumenten

date footertext 11

Page 12: BSB Demo Day - Reffle - Analyse und Nachkorrektur

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Nachkorrektursystem

� Eine graphische Oberfläche zur schnellen und einfachen Nachkorrektur

speziell von historischen, durch OCR digitalisierten Dokumenten

� Sprach- und Fehlerprofile eröffnen neuartige Möglichkeiten zur Erkennung,

Präsentation und Korrektur von OCR-Fehlern.

11.10.2011, Ulrich Reffle [email protected] 12

Page 13: BSB Demo Day - Reffle - Analyse und Nachkorrektur

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Nachkorrektursystem

Anordnung der Arbeitsfläche frei konfigurierbar:

– OCR mit Bildsnippets

– Komplette Bildseite

– Korrekturkandidaten/

spezielle Funktionen

date footertext 13

Spezielle FunktionenSpezielle Funktionen

ImageImage

OCROCR

Page 14: BSB Demo Day - Reffle - Analyse und Nachkorrektur

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Nachkorrektursystem

� Erkannter Text wird Wort für Wort direkt mit dem entsprechenden

Bildausschnitt dargestellt.

� Fehlererkennung durch Profile

11.10.2011, Ulrich Reffle [email protected] 14

Page 15: BSB Demo Day - Reffle - Analyse und Nachkorrektur

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Nachkorrektursystem

� Originalbild wird auch komplett dargestellt.

– Nützlich bei schwer lesbaren Wörtern

– Nützlich, wenn Wortsegmentierung der OCR zu mangelhaft

– Aktives Wort wird durch Rahmen hervorgehoben

11.10.2011, Ulrich Reffle [email protected] 15

Page 16: BSB Demo Day - Reffle - Analyse und Nachkorrektur

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Behandlung historischer Varianten

� Historische Varianten werden auf Basis historischer Lexika und von

Sprachprofile identifiziert und als korrekt dargestellt.

� Auch Korrekturvorchläge beinhalten nicht-moderne Wörter

11.10.2011, Ulrich Reffle [email protected] 16

Page 17: BSB Demo Day - Reffle - Analyse und Nachkorrektur

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Klassische Korrekturwerkzeuge

� Korrekturen in der Textsicht

– Durch manuelle Eingabe

– Durch Auswahl eines Korrekturvorschlags

11.10.2011, Ulrich Reffle [email protected] 17

Page 18: BSB Demo Day - Reffle - Analyse und Nachkorrektur

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Batch-Verarbeitung für systematische OCR-

Fehler

� Fehlerprofile identifizieren die häufigen, systematischen OCR-Fehler

� Ganze Gruppen von gleichartigen Fehlern können schneller und besser

korrigiert werden.

11.10.2011, Ulrich Reffle [email protected] 18

Page 19: BSB Demo Day - Reffle - Analyse und Nachkorrektur

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Evaluierung

� User-Experiment mit insgesamt 14 Einzelversuchen

� Verwendung der vorgestellten neuen Technologien beschleunigt die

Korrektur um das bis zu 2,7-fache.

11.10.2011, Ulrich Reffle [email protected] 19

Page 20: BSB Demo Day - Reffle - Analyse und Nachkorrektur

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Verfügbarkeit

� Graphische Oberfläche wird in den nächsten Wochen frei verfügbar

gemacht.

� Vorverarbeitung von Dokumenten zur Erstellung von Sprach- und

Fehlerprofilen ist durch Patentmeldung geschützt.

– LMU München wird Preprocessing über Webservice anbieten, der bis auf

Weiteres kostenlos sein wird.

11.10.2011, Ulrich Reffle [email protected] 20

Page 21: BSB Demo Day - Reffle - Analyse und Nachkorrektur

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Vielen Dank

2111.10.2011, Ulrich Reffle [email protected]