europeana newpapers lft infoday neudecker
TRANSCRIPT
![Page 1: Europeana Newpapers LFT Infoday Neudecker](https://reader033.vdocument.in/reader033/viewer/2022052911/559f25731a28ab43578b46e5/html5/thumbnails/1.jpg)
Bessere Suchergebnisse durch
Named Entity Recognition
Historische Zeitungen im digitalen Zeitalter /
I giornali storici nell’era digitale
27.10.2014
EURAC Bozen / Bolzano
Clemens Neudecker, State Library Berlin
@cneudecker
![Page 2: Europeana Newpapers LFT Infoday Neudecker](https://reader033.vdocument.in/reader033/viewer/2022052911/559f25731a28ab43578b46e5/html5/thumbnails/2.jpg)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
2
Was ist eigentlich „Named Entity Recognition“?
• Named Entity Recognition (NER) ist ein Untergebiet der Informationsextraktion (Information Extraction) und wird allgemein als Aufgabe der Computerlinguistik verstanden.
• Es geht dabei um die automatische Extraktion von Wissen bzw. die Klassifikation von Information aus semantisch unstrukturierten Inhalten.
• Bei der NER handelt es sich durchaus noch um ein akademisches Forschungsfeld (vgl. Google/MSR Competition) – praktische Anwendungsbeispiele aus dem Kultur- sowie Digitalisierungsumfeld sind bisher noch die Ausnahme.
![Page 3: Europeana Newpapers LFT Infoday Neudecker](https://reader033.vdocument.in/reader033/viewer/2022052911/559f25731a28ab43578b46e5/html5/thumbnails/3.jpg)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
Oder: Was ist eigentlich ein „Named Entity“?
• PERSON:
• Personennamen, Familiennamen, aber auch Namen von fiktiven Personen („Albert Einstein“, „Präsident der USA“, „Micky Maus“)
• ORGANISATION:
• Bezeichnungen von Firmen, Regierungs- oder Nicht-Regierungsorganisationen („IBM“, „The Beatles“, „Labour Party“)
• ORT:
• Städte, Provinzen, Länder, Gebiete, usw. („Paris“, „Südtirol“, „Alpen“)
3
![Page 4: Europeana Newpapers LFT Infoday Neudecker](https://reader033.vdocument.in/reader033/viewer/2022052911/559f25731a28ab43578b46e5/html5/thumbnails/4.jpg)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
NER (I)
4
1. Erkennen von Personennamen, Ortsbezeichnungen, Organisationen im Volltext
![Page 5: Europeana Newpapers LFT Infoday Neudecker](https://reader033.vdocument.in/reader033/viewer/2022052911/559f25731a28ab43578b46e5/html5/thumbnails/5.jpg)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
NER (II)
5
2. Disambiguieren von Begriffen (Beispiel “Jordan”)
durch Kontextinformationen
![Page 6: Europeana Newpapers LFT Infoday Neudecker](https://reader033.vdocument.in/reader033/viewer/2022052911/559f25731a28ab43578b46e5/html5/thumbnails/6.jpg)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
NER (III)
6
3. Verlinkung mit Normdaten und Online Datenquellen (Linked Data)
![Page 7: Europeana Newpapers LFT Infoday Neudecker](https://reader033.vdocument.in/reader033/viewer/2022052911/559f25731a28ab43578b46e5/html5/thumbnails/7.jpg)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
Sprachunterstützung
3 Sprachen:
• Deutsch
• Niederländisch
• Französisch
7
![Page 8: Europeana Newpapers LFT Infoday Neudecker](https://reader033.vdocument.in/reader033/viewer/2022052911/559f25731a28ab43578b46e5/html5/thumbnails/8.jpg)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
Ansatz
• Machine learning vs. Regelbasierter (rule-based) Ansatz
• Vorteile Machine-learning:
• Keine (quasi) linguistische Expertise notwendig
• Verarbeitung von großen Mengen möglich
• Vorteile Regelbasiert:
• Sehr hohe Genauigkeiten möglich
• Berücksichtigung spezieller Grammatiken
8
![Page 9: Europeana Newpapers LFT Infoday Neudecker](https://reader033.vdocument.in/reader033/viewer/2022052911/559f25731a28ab43578b46e5/html5/thumbnails/9.jpg)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
Software
• Open Source ML Software entwickelt durch die Stanford
Universität, für das Europeana Newspapers Projekt
erweitert durch die KBNL
• Software steht auf Github zum Herunterladen und
Ausprobieren bereit:
https://github.com/KBNLresearch/europeananp-ner
9
![Page 10: Europeana Newpapers LFT Infoday Neudecker](https://reader033.vdocument.in/reader033/viewer/2022052911/559f25731a28ab43578b46e5/html5/thumbnails/10.jpg)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
Training
• Trainieren des NER Systems mit Hilfe von manuell
annotierten Korpora
• Veröffentlichung des annotierten Korpus als Open Data
10
![Page 11: Europeana Newpapers LFT Infoday Neudecker](https://reader033.vdocument.in/reader033/viewer/2022052911/559f25731a28ab43578b46e5/html5/thumbnails/11.jpg)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
Probleme und Herausforderungen
• OCR Fehler reduzieren die Genauigkeit der Erkennung
und verlangsamen die Verarbeitung
• Historische Schreibvarianten für Orts- und Personennamen
• In vielen Fällen sind die historischen Bezeichnungen oder
Schreibvarianten nicht in entsprechenden Normdatenbanken
nachgewiesen
Anpassungen der Software für OCR Problematik
11
![Page 12: Europeana Newpapers LFT Infoday Neudecker](https://reader033.vdocument.in/reader033/viewer/2022052911/559f25731a28ab43578b46e5/html5/thumbnails/12.jpg)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
Erste Resultate: Niederländisch
12
Personen Orte Organisationen
Precision 0.940 0.950 0.942
Recall 0.588 0.760 0.559
F-measure 0.689 0.838 0.671
![Page 13: Europeana Newpapers LFT Infoday Neudecker](https://reader033.vdocument.in/reader033/viewer/2022052911/559f25731a28ab43578b46e5/html5/thumbnails/13.jpg)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
Warum überhaupt Named Entity Recognition?
• Beispiel Analyse von Logfiles der National Library of Wales:
9 von 10 Suchanfragen entfallen auf Personen oder Orte
(Quelle: Paul Gooding, Exploring Usage of Digital Newspaper Archives through Web Log
Analysis: A Case Study of Welsh Newspapers Online, presented at DH2014, Lausanne)
13
![Page 14: Europeana Newpapers LFT Infoday Neudecker](https://reader033.vdocument.in/reader033/viewer/2022052911/559f25731a28ab43578b46e5/html5/thumbnails/14.jpg)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
Beispiel für die Präsentation aus Nutzersicht: Digi20
• Digi20 Projekt der BSB
14
http://digi20.digitale-sammlungen.de/
![Page 15: Europeana Newpapers LFT Infoday Neudecker](https://reader033.vdocument.in/reader033/viewer/2022052911/559f25731a28ab43578b46e5/html5/thumbnails/15.jpg)
Danke für Ihre Aufmerksamkeit! Grazie per la vostra attenzione! @eurnews
http://www.europeana-newspapers.eu
http://www.theeuropeanlibrary.org/tel4/newspapers
http://www.europeana.eu/