bdk fachforum (gpec) big data und intelligente datenanalyse
DESCRIPTION
Big Data udn intelligente Analyse. This motivational talk was given at the GPEC conference hosted and organised by BDK. In the talk I address topics of linked data, information extraction, rdf and sparql and provide a real world example from a Russian customer.TRANSCRIPT
09 September 2014
Daniel Hladky Semantic Web Lab at HSE/W3C Vorstand Ontos AG
Na0onal Research University Higher School of Economics
Big Data und intelligente Datenanalyse “ Pak Poisk”
Impulsvortrag BDK-Fachforum 09.09.2014
Täglich werden 2.5 Trillionen Bytes an Daten produziert
Daten und Analyse
2
Structured data sources like CSV, XLS, RDBMS
Unstructured text document sources like HTML
Smart Data Integration based on Linked Data
Data storages
RDBMS
BI, Reporting, Analisys
TextMining
RDF Store
3
Herausforderungen
Herausforderungen (Auszug) • Data Crawling (web, deep
web…) • Aggregation • Daten verstehen, extrahieren • Daten integrieren • Daten speichern (flexibel) • Daten auswerten, analysieren
Semantic Knowledge Base
Datenanalyse Web, Deep Web (External)
(Semi-) Strukturierte und unstrukturierte Daten
Wissen aus Text generieren
4
Läsungsansätze – NLP/HLT 1. Manuelles Annotieren
Mittels Vokabular (Taxonomie/Ontologie) 2. Extraktion mittels Hintergrundwissen
Dictionary, LOD, etc Bsp.: DBpedia Spotlight
3. Regelbasierte Extraktion Formale Sprache Jape/Jape+ Bsp.: OntosMiner, GATE, UIMA
4. Künstliche Intelligenz, statistische Verfahren, maschinelles Lernen Latent Semantic Analysis, Vector Space Model, TF-IDF Bsp.: Eventos
5. Kombination 1-4
Triplifizierung, No-‐SQL / RDF Store
5
No-SQL / RDF Vorteile • Flexibilität (Schema less) • Standard -> RDF / SPARQL • Semantische Suche • Triplifizierung RDBMS nach RDF
Nachteil(e) • Performance (Noch) • (Noch) Keine Out-of-the-box BI
Tools
RDF Store
Datenintegra0on / Linking and Fusion
6
Entity “A” Entity “B”
Pro
perti
es o
f A
Pro
perti
es o
f B
Das Gleiche ? Ein Beispiel…
7
Scores: Best Match „0.89“ vs Worst Match „0.138“
Fuzzy string comparison methods
VSM – TFIDF = 0.92 Vector Space Model
PAK POISK Praxisbeispiel “Special Troops, Russland”
9
Pak Poisk -‐ Portal
10
Pak Poisk -‐ Visualisierungen
Pak Poisk -‐ Timeline Analyse
11
12
Ausblick -‐ LiDaKrA
Danke
13
Research Interest Linked (Open) Data for Government & Enterprises NLP, Seman0c Web, Business Impact of Linked Data Linked Data and Value Chain Ac3vi3es Ontos: Forschung EU FP7 – GeoKnow, Forschung KTI-‐DoW (SAKE, LiDaKrA) NRU/HSE: LOD Russia, RIA Novos0, LOD for City of Moscow KESW 2012 (Lecture Linked Enterprise Data), KESW’13 (Co-‐Chair) PC member at ISWC/WoLE (2012, 2013), MLW Rome (2013) W3C Russia office hosted by NRU HSE
NRU HSE / W3C Russia Slavyanskaya Sq. 4 Bldg. 2 109074 Moscow, Russia E: [email protected] E: [email protected] E: [email protected] http://www.hse.ru/org/hse/iit/semant/
Daniel Hladky
14