bsb demo day - reffle - analyse und nachkorrektur
DESCRIPTION
TRANSCRIPT
![Page 1: BSB Demo Day - Reffle - Analyse und Nachkorrektur](https://reader034.vdocument.in/reader034/viewer/2022051817/548470665806b5b8588b465d/html5/thumbnails/1.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
11.10.2011
Analyse und Nachkorrektur historischer und OCR-
erfasster Ergebnisse
Ulrich Reffle, CIS, LMU München
![Page 2: BSB Demo Day - Reffle - Analyse und Nachkorrektur](https://reader034.vdocument.in/reader034/viewer/2022051817/548470665806b5b8588b465d/html5/thumbnails/2.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Inhalt
� Dokumentenspezifische Analyse historischer und OCR-erfasster Texte
� Ein System zur interaktiven OCR-Nachkorrektur
11.10.2011, Ulrich Reffle [email protected] 2
![Page 3: BSB Demo Day - Reffle - Analyse und Nachkorrektur](https://reader034.vdocument.in/reader034/viewer/2022051817/548470665806b5b8588b465d/html5/thumbnails/3.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Dokumentenspezifische Analyse
historischer und OCR-erfasster Texte
date footertext 3
![Page 4: BSB Demo Day - Reffle - Analyse und Nachkorrektur](https://reader034.vdocument.in/reader034/viewer/2022051817/548470665806b5b8588b465d/html5/thumbnails/4.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Warum spezielle Methoden?
Spezifische Probleme in der Verarbeitung historischer Sprache im Kontext
von Digitalisierung und Massendigitalisierung:
– Hohe OCR-Fehlerraten
– Nicht-standardisierte Sprache
� Spezielle Ressourcen und Methoden für OCR, Nachbearbeitung und Retrieval
notwendig
11.10.2011, Ulrich Reffle [email protected] 4
OCR-
ResultatOCR
Nach-korrektur
IRDigitales
Bild
![Page 5: BSB Demo Day - Reffle - Analyse und Nachkorrektur](https://reader034.vdocument.in/reader034/viewer/2022051817/548470665806b5b8588b465d/html5/thumbnails/5.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Warum spezielle Methoden?
Heterogenität der Vorlagen erfordert dokumentenspezifische Einstellungen:
– Historische Varianten
– Auswahl von Speziallexika
– Charakterisierung des OCR-Fehlerkanals
11.10.2011, Ulrich Reffle [email protected] 5
OCR-
ResultatOCR
Nach-korrektur
IRDigitales
Bild
![Page 6: BSB Demo Day - Reffle - Analyse und Nachkorrektur](https://reader034.vdocument.in/reader034/viewer/2022051817/548470665806b5b8588b465d/html5/thumbnails/6.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Dokumentenspezifische Sprach- und
Fehlerprofile
� Sprach- und Fehlerprofile stellen auf Dokumentebene spezifische
Charakteristika der Sprache und der OCR-Erfassung zur Verfügung.
� Sprachprofile: Anteile fremder Sprachen (etwa Latein), Frequenzmodelle,
wichtige Muster historischer Sprachvariation (etwa t�th, ei�ey)
� Fehlerprofile: geschätzte Fehlerrate, wichtige OCR-Fehler (z.B. e�c, i�l),
Fehlererkennung und Korrekturvorschläge für einzelne Wörter
� Profile werden vollautomatisch und ausschließlich auf Grundlage der OCR-
Ausgabe berechnet.
11.10.2011, Ulrich Reffle [email protected] 6
![Page 7: BSB Demo Day - Reffle - Analyse und Nachkorrektur](https://reader034.vdocument.in/reader034/viewer/2022051817/548470665806b5b8588b465d/html5/thumbnails/7.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Dokumentenspezifische Sprach- und
Fehlerprofile
� Sprach- und Fehlerprofile können zur Verbesserung der Qualität von
OCR, Nachkorrektur und Information Retrieval beitragen.
11.10.2011, Ulrich Reffle [email protected] 7
OCR-
ResultatOCR
Nach-korrektur
IRDigitales
Bild
Sprach- und
Fehlerprofile
![Page 8: BSB Demo Day - Reffle - Analyse und Nachkorrektur](https://reader034.vdocument.in/reader034/viewer/2022051817/548470665806b5b8588b465d/html5/thumbnails/8.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Globales Profil eines Dokuments
11.10.2011, Ulrich Reffle [email protected] 8
Historische
Varianten
OCR-
Fehler
![Page 9: BSB Demo Day - Reffle - Analyse und Nachkorrektur](https://reader034.vdocument.in/reader034/viewer/2022051817/548470665806b5b8588b465d/html5/thumbnails/9.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Lokales Profil eines Dokuments
11.10.2011, Ulrich Reffle [email protected] 9
„theil“„theil“„theil“„theil“„Tneil“
� Bewertete Interpretationen/ Korrekturvorschläge für alle Wörter des
Dokuments:
Korrekturvorschlag Moderne Schreibung Wahrscheinlichkeit
Theil Teil 0,98
Keil Keil 0,01
… … …
![Page 10: BSB Demo Day - Reffle - Analyse und Nachkorrektur](https://reader034.vdocument.in/reader034/viewer/2022051817/548470665806b5b8588b465d/html5/thumbnails/10.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Zusammenfassung
� Dokumentenspezifische Sprach- und Fehlerprofile werden vollautomatisch
auf Grundlage eines OCR-erfassten Dokuments berechnet.
� Sie liefern Charakteristika der vorgefundenen Sprache sowie des OCR-
Fehlerkanals, um OCR oder nachverarbeitende Prozesse gezielt auf das
Dokument einzustellen.
11.10.2011, Ulrich Reffle [email protected] 10
![Page 11: BSB Demo Day - Reffle - Analyse und Nachkorrektur](https://reader034.vdocument.in/reader034/viewer/2022051817/548470665806b5b8588b465d/html5/thumbnails/11.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
System zur interaktiven
Nachkorrektur von OCR-erfassten
Dokumenten
date footertext 11
![Page 12: BSB Demo Day - Reffle - Analyse und Nachkorrektur](https://reader034.vdocument.in/reader034/viewer/2022051817/548470665806b5b8588b465d/html5/thumbnails/12.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Nachkorrektursystem
� Eine graphische Oberfläche zur schnellen und einfachen Nachkorrektur
speziell von historischen, durch OCR digitalisierten Dokumenten
� Sprach- und Fehlerprofile eröffnen neuartige Möglichkeiten zur Erkennung,
Präsentation und Korrektur von OCR-Fehlern.
11.10.2011, Ulrich Reffle [email protected] 12
![Page 13: BSB Demo Day - Reffle - Analyse und Nachkorrektur](https://reader034.vdocument.in/reader034/viewer/2022051817/548470665806b5b8588b465d/html5/thumbnails/13.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Nachkorrektursystem
Anordnung der Arbeitsfläche frei konfigurierbar:
– OCR mit Bildsnippets
– Komplette Bildseite
– Korrekturkandidaten/
spezielle Funktionen
date footertext 13
Spezielle FunktionenSpezielle Funktionen
ImageImage
OCROCR
![Page 14: BSB Demo Day - Reffle - Analyse und Nachkorrektur](https://reader034.vdocument.in/reader034/viewer/2022051817/548470665806b5b8588b465d/html5/thumbnails/14.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Nachkorrektursystem
� Erkannter Text wird Wort für Wort direkt mit dem entsprechenden
Bildausschnitt dargestellt.
� Fehlererkennung durch Profile
11.10.2011, Ulrich Reffle [email protected] 14
![Page 15: BSB Demo Day - Reffle - Analyse und Nachkorrektur](https://reader034.vdocument.in/reader034/viewer/2022051817/548470665806b5b8588b465d/html5/thumbnails/15.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Nachkorrektursystem
� Originalbild wird auch komplett dargestellt.
– Nützlich bei schwer lesbaren Wörtern
– Nützlich, wenn Wortsegmentierung der OCR zu mangelhaft
– Aktives Wort wird durch Rahmen hervorgehoben
11.10.2011, Ulrich Reffle [email protected] 15
![Page 16: BSB Demo Day - Reffle - Analyse und Nachkorrektur](https://reader034.vdocument.in/reader034/viewer/2022051817/548470665806b5b8588b465d/html5/thumbnails/16.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Behandlung historischer Varianten
� Historische Varianten werden auf Basis historischer Lexika und von
Sprachprofile identifiziert und als korrekt dargestellt.
� Auch Korrekturvorchläge beinhalten nicht-moderne Wörter
11.10.2011, Ulrich Reffle [email protected] 16
![Page 17: BSB Demo Day - Reffle - Analyse und Nachkorrektur](https://reader034.vdocument.in/reader034/viewer/2022051817/548470665806b5b8588b465d/html5/thumbnails/17.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Klassische Korrekturwerkzeuge
� Korrekturen in der Textsicht
– Durch manuelle Eingabe
– Durch Auswahl eines Korrekturvorschlags
11.10.2011, Ulrich Reffle [email protected] 17
![Page 18: BSB Demo Day - Reffle - Analyse und Nachkorrektur](https://reader034.vdocument.in/reader034/viewer/2022051817/548470665806b5b8588b465d/html5/thumbnails/18.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Batch-Verarbeitung für systematische OCR-
Fehler
� Fehlerprofile identifizieren die häufigen, systematischen OCR-Fehler
� Ganze Gruppen von gleichartigen Fehlern können schneller und besser
korrigiert werden.
11.10.2011, Ulrich Reffle [email protected] 18
![Page 19: BSB Demo Day - Reffle - Analyse und Nachkorrektur](https://reader034.vdocument.in/reader034/viewer/2022051817/548470665806b5b8588b465d/html5/thumbnails/19.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Evaluierung
� User-Experiment mit insgesamt 14 Einzelversuchen
� Verwendung der vorgestellten neuen Technologien beschleunigt die
Korrektur um das bis zu 2,7-fache.
11.10.2011, Ulrich Reffle [email protected] 19
![Page 20: BSB Demo Day - Reffle - Analyse und Nachkorrektur](https://reader034.vdocument.in/reader034/viewer/2022051817/548470665806b5b8588b465d/html5/thumbnails/20.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Verfügbarkeit
� Graphische Oberfläche wird in den nächsten Wochen frei verfügbar
gemacht.
� Vorverarbeitung von Dokumenten zur Erstellung von Sprach- und
Fehlerprofilen ist durch Patentmeldung geschützt.
– LMU München wird Preprocessing über Webservice anbieten, der bis auf
Weiteres kostenlos sein wird.
11.10.2011, Ulrich Reffle [email protected] 20
![Page 21: BSB Demo Day - Reffle - Analyse und Nachkorrektur](https://reader034.vdocument.in/reader034/viewer/2022051817/548470665806b5b8588b465d/html5/thumbnails/21.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Vielen Dank
2111.10.2011, Ulrich Reffle [email protected]