themen- und trenderkennung in agenturmeldungen, lswt2013
DESCRIPTION
information extraction, modelling and storage of semantic data to recognize trending topics for journalism and newspaper officesTRANSCRIPT
![Page 1: Themen- und Trenderkennung in Agenturmeldungen, LSWT2013](https://reader033.vdocument.in/reader033/viewer/2022060119/558d2486d8b42a80538b4595/html5/thumbnails/1.jpg)
Sächsische AufbauBank Forschung und Entwicklung - Projektförderung Projektnummer - 99457/2677
http://topic-s.de/
Martin Voigt, Michael Aleythe, Peter Wehner
![Page 2: Themen- und Trenderkennung in Agenturmeldungen, LSWT2013](https://reader033.vdocument.in/reader033/viewer/2022060119/558d2486d8b42a80538b4595/html5/thumbnails/2.jpg)
Struktur
Motivation, Probleme und Ziele
Topic/S Workflow
Demo
Zusammenfassung
Montag, 23.09.2013 Topic/S @ LSWT Slide 1
![Page 3: Themen- und Trenderkennung in Agenturmeldungen, LSWT2013](https://reader033.vdocument.in/reader033/viewer/2022060119/558d2486d8b42a80538b4595/html5/thumbnails/3.jpg)
Motivation
Newsroom
Montag, 23.09.2013 Topic/S @ LSWT Slide 2
Quelle: ringier.com
![Page 4: Themen- und Trenderkennung in Agenturmeldungen, LSWT2013](https://reader033.vdocument.in/reader033/viewer/2022060119/558d2486d8b42a80538b4595/html5/thumbnails/4.jpg)
Problem
Überwältigende Datenmenge für den Redakteur
z.B. WAZ 5000 Artikel/Tag (Agenturen & in-house)
Montag, 23.09.2013 Topic/S @ LSWT
DPA
Reuters
KNA
Blogs
…
Nachrichtenagenturen Web, Social Media
…
In-house Produktion
Archive
Online
Slide 3
![Page 5: Themen- und Trenderkennung in Agenturmeldungen, LSWT2013](https://reader033.vdocument.in/reader033/viewer/2022060119/558d2486d8b42a80538b4595/html5/thumbnails/5.jpg)
Vision
Automatische Themenerkennung unter Verwendung von Named Entities und anderen Stichworten (SemItem)
Identifikation von Thementrends
Information-Push statt Pull
Montag, 23.09.2013 Topic/S @ LSWT
MA1
E1
E2
E4
E3
E7
E6
E5MA2
Media Assets
Named Entities
Pre-Processing
MA1
E1
T1E2
E4
E3
E7
E6
T2
T3
E5MA2
Media Assets
Named Entities
Topics
Pre-Processing Post-Processing
Slide 4
![Page 6: Themen- und Trenderkennung in Agenturmeldungen, LSWT2013](https://reader033.vdocument.in/reader033/viewer/2022060119/558d2486d8b42a80538b4595/html5/thumbnails/6.jpg)
Struktur
Motivation, Probleme und Ziele
Topic/S Workflow Überblick Informationsextraktion Speicherung Themenerkennung
Demo
Zusammenfassung
Montag, 23.09.2013 Topic/S @ LSWT Slide 5
![Page 7: Themen- und Trenderkennung in Agenturmeldungen, LSWT2013](https://reader033.vdocument.in/reader033/viewer/2022060119/558d2486d8b42a80538b4595/html5/thumbnails/7.jpg)
Workflow
Montag, 23.09.2013 Topic/S @ LSWT Slide 6
Mehr in [Voigt2013]
Search Post-Processing
Pre-Processing
Data Storage
1
2
34
![Page 8: Themen- und Trenderkennung in Agenturmeldungen, LSWT2013](https://reader033.vdocument.in/reader033/viewer/2022060119/558d2486d8b42a80538b4595/html5/thumbnails/8.jpg)
Informationsextraktion
Montag, 23.09.2013 Topic/S @ LSWT
Spracherkennung (DE, EN) Regelbasiert
Kategorisierung Quellenabhängig
Slide 7
Source: onelanguageoneposter.com Pre-Processing
Language Detection
Wordlist-based NER
Statistical NER
Categorizer
1
Dis
amb
igu
atio
n
Agentur Genauigkeit
KNA 80,3 %
DPA 94,4 %
EPD 80,3 %
Reuters 90,8 %
OTS 93,5 %
AFP 86 %
![Page 9: Themen- und Trenderkennung in Agenturmeldungen, LSWT2013](https://reader033.vdocument.in/reader033/viewer/2022060119/558d2486d8b42a80538b4595/html5/thumbnails/9.jpg)
Informationsextraktion
Montag, 23.09.2013 Topic/S @ LSWT
Spracherkennung (DE, EN) Regelbasiert
Kategorisierung Quellenabhängig
Named Entity Recognition Wortlisten- & Statistik-basiert
Disambiguierung interne & externe Datenbasis
Slide 8
Source: onelanguageoneposter.com Pre-Processing
Language Detection
Wordlist-based NER
Statistical NER
Categorizer
1
Dis
amb
igu
atio
n
![Page 10: Themen- und Trenderkennung in Agenturmeldungen, LSWT2013](https://reader033.vdocument.in/reader033/viewer/2022060119/558d2486d8b42a80538b4595/html5/thumbnails/10.jpg)
Semantische Fakten
Keine Wortlisten für NER!
preferred und alternative Namen vorgehalten
ID: http://www.topic-s.de/topics-facts/id/person/Rene_Muller
Namen: Rene Muller, Rene Müller, René Muller, René Müller
Triples ohne SemItems: 31,3 Mio.
Montag, 23.09.2013 Topic/S @ LSWT Slide 10
SemItem Anzahl (alternative Namen)
Person 1.504.341 (2.499.962)
Organization 63.332 (98.127)
Place 89.702 (95.178)
Keyword 1351
![Page 11: Themen- und Trenderkennung in Agenturmeldungen, LSWT2013](https://reader033.vdocument.in/reader033/viewer/2022060119/558d2486d8b42a80538b4595/html5/thumbnails/11.jpg)
Speicherung
Oracle 11gR2
Benchmark von Triple Stores [Voigt2012]
Pros
Bereits im Unternehmen für große Datenmengen im Einsatz
Integrierte Anfrage an relationale und semantische Daten
Cons
Inferenz
Unvollständiger SPARQL 1.1 Support
Einsatz von eigenen Regeln kaum möglich
Montag, 23.09.2013 Topic/S @ LSWT Slide 11
Quelle: musingmonika.com
![Page 12: Themen- und Trenderkennung in Agenturmeldungen, LSWT2013](https://reader033.vdocument.in/reader033/viewer/2022060119/558d2486d8b42a80538b4595/html5/thumbnails/12.jpg)
Themenerkennung
Montag, 23.09.2013 Topic/S @ LSWT
Clustering
hierarchisches, agglomeratives Verfahren
Grundlage: Artikel und deren Entitäten
Eigenimplementierung aufgrund spezieller Herausforderungen
Ausführung und Zusammenfassung im Intervall
Slide 12
Euro
Entschädigung
Bundesgerichtshof
Urteil
LufthansaMilliarde
Auftrag
Alternative für Deutschland
Bundestagswahl
UmfrageDeutschland
![Page 13: Themen- und Trenderkennung in Agenturmeldungen, LSWT2013](https://reader033.vdocument.in/reader033/viewer/2022060119/558d2486d8b42a80538b4595/html5/thumbnails/13.jpg)
Top-Cluster (vom 19.09.2013)
Themenerkennung
Montag, 23.09.2013 Topic/S @ LSWT
Artikel 5 wichtigsten SemItems HotTopic
68 Euro / Kind / Deutschland / Berlin / Bundeswehr Nein
52 Euro / Lufthansa / Milliarde / Boeing / Land Nordrhein-Westfalen Ja
44 Alternative für Deutschland / Partei / Umfrage / Bundestagswahl / SPD
Ja
32 Federal Reserve System / US-Notenbank / Entscheidung / Dollar / USA
Ja
28 SPD / Partei / CDU / Bundestagswahl / Wahlkampf Ja
26 Syrien / Vernichtung / Vereinte Nationen / USA / Washington Ja
22 Entschädigung / Euro / Bundesgerichtshof / Urteil / Kläger Ja
18 Präsident / Hassan Rowhani / USA / Regierung / Washington Ja
15 FDP / CDU / SPD / Berlin / Bundestagswahl Ja
Slide 13
![Page 14: Themen- und Trenderkennung in Agenturmeldungen, LSWT2013](https://reader033.vdocument.in/reader033/viewer/2022060119/558d2486d8b42a80538b4595/html5/thumbnails/14.jpg)
Struktur
Motivation, Probleme und Ziele
Topic/S Workflow
Demo
Zusammenfassung
Montag, 23.09.2013 Topic/S @ LSWT Slide 14
![Page 15: Themen- und Trenderkennung in Agenturmeldungen, LSWT2013](https://reader033.vdocument.in/reader033/viewer/2022060119/558d2486d8b42a80538b4595/html5/thumbnails/15.jpg)
Live Demo
Montag, 23.09.2013 Topic/S @ LSWT Slide 15
![Page 16: Themen- und Trenderkennung in Agenturmeldungen, LSWT2013](https://reader033.vdocument.in/reader033/viewer/2022060119/558d2486d8b42a80538b4595/html5/thumbnails/16.jpg)
Struktur
Motivation, Probleme und Ziele
Topic/S Workflow
Demo
Zusammenfassung
Montag, 23.09.2013 Topic/S @ LSWT Slide 16
![Page 17: Themen- und Trenderkennung in Agenturmeldungen, LSWT2013](https://reader033.vdocument.in/reader033/viewer/2022060119/558d2486d8b42a80538b4595/html5/thumbnails/17.jpg)
Sum it up!
Ergebnis
Themenerkennung und Präsentation gegenüber dem Redakteur
Lessons learned
NER: Schlecht für Non-English, Kombination notwendig
Stete Modeloptimierung hinsichtlich der Anfragen
Spezielle UI notwendig
Mögliche, nächste Schritte
„Vorhersage“ von Themen aufgrund von kausalen und temporalen Beziehungen
Montag, 23.09.2013 Topic/S @ LSWT Slide 17
Quelle: ooltapulta.com
http://www.w3.org/community/swisig/
![Page 18: Themen- und Trenderkennung in Agenturmeldungen, LSWT2013](https://reader033.vdocument.in/reader033/viewer/2022060119/558d2486d8b42a80538b4595/html5/thumbnails/18.jpg)
Sächsische AufbauBank Forschung und Entwicklung - Projektförderung Projektnummer - 99457/2677
http://topic-s.de/
Danke! Fragen?
http://topic-s.de/
![Page 19: Themen- und Trenderkennung in Agenturmeldungen, LSWT2013](https://reader033.vdocument.in/reader033/viewer/2022060119/558d2486d8b42a80538b4595/html5/thumbnails/19.jpg)
Quellen
[Voigt2012] Voigt, M., Mitschick, A. & Schulz, J.: Yet Another Triple Store Benchmark? Practical Experiences with Real-World Data Proc. of. the 2nd International Workshop on Semantic Digital Archives (SDA), 2012
[Voigt2013] Voigt, M., Aleythe, M. & Wehner, P.: Towards Topics-based, Semantics-assisted News Search. Proceedings of the 3rd International Conference on Web Intelligence, Mining and Semantics (WIMS'13), ACM,2013
Montag, 23.09.2013 Topic/S @ LSWT Slide 19
![Page 20: Themen- und Trenderkennung in Agenturmeldungen, LSWT2013](https://reader033.vdocument.in/reader033/viewer/2022060119/558d2486d8b42a80538b4595/html5/thumbnails/20.jpg)
Workflow: Preprocessor
Montag, 23.09.2013 Topic/S @ LSWT
Named Entity Recognition
word list
Tool: LingPipe + Extension
Sources: LOD (DBPedia, Geonames, YAGO2, GND)
Advantages: controlled vocabulary, guarantied recognition of entities
statistics
Tool: Stanford NLP
Source: pre-trained model
Advantage: Recognition of unknown entities
Slide 20
Quelle: churchthought.com
![Page 21: Themen- und Trenderkennung in Agenturmeldungen, LSWT2013](https://reader033.vdocument.in/reader033/viewer/2022060119/558d2486d8b42a80538b4595/html5/thumbnails/21.jpg)
Workflow: Preprocessor
Montag, 23.09.2013 Topic/S @ LSWT
Keywords
Lemmatization
Developing a word list
Extraction using the word list
Bonus: frequent terms of an article
Slide 21
Quelle: hugdaily.org
![Page 22: Themen- und Trenderkennung in Agenturmeldungen, LSWT2013](https://reader033.vdocument.in/reader033/viewer/2022060119/558d2486d8b42a80538b4595/html5/thumbnails/22.jpg)
Disambiguation
Montag, 23.09.2013 Topic/S @ LSWT Slide 22
Quelle: fansshare.com Quelle: lounge.espdisk.com
Quelle: de.wikipedia.org
![Page 23: Themen- und Trenderkennung in Agenturmeldungen, LSWT2013](https://reader033.vdocument.in/reader033/viewer/2022060119/558d2486d8b42a80538b4595/html5/thumbnails/23.jpg)
Disambiguation
Problem: not all SemItems available in the LOD
Montag, 23.09.2013 Topic/S @ LSWT
Michael Jackson
Beer
Michael Jackson
Beer
Whiskey
Michael Jackson
Music
King of Pop
Internal Facts
External Facts (DBpedia, etc.)
Identification of Entity Cluster
Slide 23