linked data service (lindas): status quo of the linked data life-cycle and lessons learned
TRANSCRIPT
Linked Data Service (LINDAS): Status quo of the linked data life-cycle and lessons learned
Daniel Hladky, Ontos AG 7th Oct. 2015, 10:15 – 11:15 (SWBI2015)
1
THE INTERNATIONAL CONFERENCE ON SEMANTIC WEB BUSINESS AND INNOVATION (SWBI2015) October 7-9, 2015
Outline
¤ Motivation (B2.13 LINDAS)
¤ Linked Data Life-Cycle(LOD2, GeoKnow)
¤ LINDAS platform
¤ LINDAS Use Cases
¤ Lessons learned
¤ Outlook Linked Data Stack (Platform)
¤ Summary
2
B2.13 LINDAS Linked Data Service (Linked Open Government Data) Publish Open Linked Data
3
Motivation (LINDAS tender)
4
B2.13 Datendrehscheibe LINDAS Linked Data Service Dieter Wälti und Nadia Zürcher, Project Manager SECO
B2.13 stellt die Datendrehscheibe LINDAS (Linked Data Service) für strukturierte Informationen von und über Behörden bereit. Damit wird die Grundlage für die behördenübergreifende, elektronische Zusammenarbeit gelegt und das Finden von Informationen ermöglicht, vereinfacht und beschleunigt.
http://www.egovernment.ch/b213/00924/index.html?lang=de
Date
nque
llen
Informationen in RDB, CSV, RDF (linked data) Format
Bund Kantone Gemeinden
Linke
d Da
ta S
ervic
e LI
NDAS
Linked Data
Service LINDAS
Import Schnittstelle (Umwandlung ins RDF-Format)
Date
nnut
zung
en
Anwendung A
Anwendung B
Anwendung C
Abfrage
eCH-Standards W3C Standards
Informationen
strukturiert nach
eCH-0177
Unternehmen
Direkt Download Datasets
User A User B User C
SPARQL Endpoint
LINDAS requirements (tender) ¤ Based on Linked Open Data and Linked Government Data
¤ Use of W3C Standards such as RDF, OWL, SPARQL
¤ Triple Store
¤ Search UI for simple exploration
¤ Data import for RDBMS and CSV
¤ RESTfull API (we convinced to use just SPARQL endpoint)
¤ Use eCH standards (eCH-0070, eCH-0073….) Information Model eCH-0177
¤ Multi-User, Multilingual
¤ Based on Open Source and Cloud ready (hosting) in 3 months
¤ 2 initial use cases: Landkarte B1.14(PoC), BVCH (Behördenverzeichnis) 6
Linked Data Life-Cycle (Linked Data Stack)
7
EU FP7 (GA No: 318159), 12/2012-11/2015 http://geoknow.eu
EU FP7, 2010-2014 http://stack.lod2.eu/blog/
The Linked Data Life-Cycle
8
Inter-linking/ Fusing
Classifi-cation/
Enrichment
Quality Analysis
Evolution / Repair
Search/ Browsing/
Exploration
Extraction
Storage/ Querying
Manual revision/ authoring
http://jens-lehmann.org/files/2012/iswc_lod2_stack.pdf
http://www.springer.com/ de/book/9783319098456
Authoring (e.g. RDFaCE)
9
Khalili A., Auer S., Hladky D., “The RDFa Content Editor – From WYSIWYG to WYSIWYM“, COMPSAC 2012, July 16-20, 2012, Izmir, Turkey (Best Paper Award)
LOD Linking
¤ Basic Idea ¤ Discover similar entities (entity matching)
¤ Automatic
¤ Semi-Automatic ¤ SILK, LIMES
¤ Manual
10
SILK
11
LOD2 - GeoKnow
12
• Methodology • A set of tools • Debian packages • No more support !
• New geospatial tools • Integrated Workbench • User/Role management • Batch processing
GeoKnow Generator
13
http://generator.geoknow.eu/
Garcia-Rojas, A., Hladky, D., Wauer, M., Isele, R., Stadler, C., Lehmann, J. The GeoKnow Generator Workbench: An Integration Platform for Geospatial Data. WaSABi 2015.
B2.13 LINDAS Platform Based on the experience of LOD2 and the GeoKnow Generator
14
LINDAS (http://lindas-data.ch/#/start)
15
B2.13 LINDAS Use Cases Current and Future
16
17
Problem-stellung
Das hist. Gemeindeverzeichnis wurde bereits als Linked Data angeboten, jedoch auf einer provisorischen Umgebung.
Lösung Das Gemeindeverzeichnis wird neu auf der LINDAS Plattform betrieben. Zusätzlich wird das Gemeindeverzeichnis auf die LINDAS Ontologie gemappt und es wurden neue Abfragemöglichkeiten und Visualisierungen implementiert.
Nutzen Mit der stabileren Betriebsumgebung, der standardisierten Beschreibung (LINDAS Ontologie) und den funktionalen Erweiterungen können die laufend aktualisierten Daten des hist. Gemeindeverzeichnisses von neuen und bestehenden Anwendungen aus dem privaten wie auch öffentlichen Umfeld genutzt werden.
Partner BFS
Use Case: Historisiertes Gemeindeverzeichnis
18
Problem-stellung
Die für eUmzug relevanten Behörden- und Leistungs-Daten aller an eUmzug beteiligter Gemeinden sollen zentral verfügbar gemacht werden. Die Pflege der Daten soll jedoch bei den Daten-Ownern verbleiben.
Lösung Die Daten der Behörden- und Leistungsverzeichnisse werden aus den bestehenden Gemeinde-Anwendungen extrahiert, auf die Ontologie gemappt und zentral via standardisierte Schnittstellen verfügbar gemacht.
Nutzen Ermöglicht die schweizweite und anbieterübergreifende Umsetzung von eUmzug über Plattformgrenzen hinweg. Zusätzlich stehen die Verzeichnisse auch für andere Anwendungen zentral zu Verfügung.
Partner Geschäftsstelle eGovernment CH, Staatskanzlei Kt. ZH
Use Case: eUmzug CH
19
Problem-stellung
Das Berufsverzeichnis, sowie die Verzeichnisse der Berufsfachschulen und Bildungstypen werden von der Schweizerischen Berufsbildungsämter Konferenz SBBK als Excel Daten (strukturierte Daten **) zur Verfügung gestellt. Die Pflege der Daten in den Anwendungen ist daher aufwändig.
Lösung Die Daten werden als Linked Data via den LINDAS SPARQL Endpoint verfügbar gemacht.
Nutzen Die Daten können einfach gepflegt und schweizweit auf eGovernment-(Lehrstellen)-Portalen diverser Hersteller genutzt werden. LINDAS wird im Berufsbildungswesen etabliert. Direkter Nutzen entsteht für Lehrbetriebe, Anbieter von Behördenlösungen und Behörden
Partner Abraxas, SBBK
Use Case: KMU Lehrstellenportal
20
¤ Anwendungsfälle in Arbeit o Historisiertes Gemeindeverzeichnis BFS via LINDAS (BFS) o eUmzug CH – Leistungsverzeichnisse via LINDAS (E-Gov. CH/ZH) o Behördendaten CH via LINDAS (Anbieter, BK, Kantone)
¤ Anwendungsfälle in Abklärung o Unternehmensdaten: Betriebs- und Unternehmensregister BUR, Unternehmens-
Identifikationsnummer UID, Handelsregister (BFS, EHR) o Historisierte Bundesbudgets und Gesetzessammlungen (BAR) o KMU Lehrstellenportal (Anbieter) o Georeferenzierte Daten (Swisstopo) o Umwelt-Daten via LINDAS (BAFU) o Zug-Fahrplan kombinieren mit weiteren Angeboten (BLS)
¤ Positionspapier LGD (nationale Daten-Infrastruktur) in Zusammenarbeit BAR, BFS, Seco, Swisstopo (Golliez)
¤ Initialisierung gemeinsames Projekt für Weiterausbau LINDAS in Zusammenarbeit BAR, BFS, Seco, Swisstopo und weiteren Partnern
Zusammenfassung LINDAS
21
2015 2016
1
2
3
4 LINDAS 1.0 • Betriebsorganisation / Applikationsmanagement • Release Management / Support • Weiterentwicklung (Use Cases, IAM etc.) • Kommunikation / Verkaufsförderung • Anstossen eCH-Standardisierung (Linked Government Data-
Standard, Entity Name Server ENS)
Use Cases (in Prüfung) Behördenverzeichnis (AG, FR, GR, SG, TG, VD, BJ/UPREG, BK), Landkarte (ISB), eUmzug (ZH/ISB) u.a.(SIK, BFS, OGD, Swisscom)
B2.13
LINDAS Pilotbetrieb (2015-2018)
Projekt/Betrieb/Weiterentwicklung (eGov KMU SECO)
B2.13 LINDAS (Linked Data) Lessons Learned
22
Project Management
¤ JIRA – SCRUM (bi-weekly cycles) ¤ Very positive. All team members had access to the JIRA
system. Monitor stories, burn down chart etc.
¤ HERMES 5. Needed with government and project reports
¤ Linked Data Knowledge ¤ Is not given. Especially at customer side.
¤ Plan a session with a tutorial. Get all on the same level
¤ OGD, LGD, LINDAS (LOD) ¤ Not the same
¤ No eCH standard for ontology modelling
¤ UID (Unique ID) for things
23
Back End and Deployment ¤ CSV to RDF
¤ CSV Import Service based on CSV2RDF.
¤ Information model – ontology ¤ Information Model eCH-0177 (BVCH DB).
¤ Translation Service ¤ Translation on demand based on i18n. WAI
¤ Batch Processing ¤ MultiSteps jobs. Orchestrate import tasks
¤ RDF Store (Open and Closed Graphs) ¤ SPARQL 1.0/1.1 Implementation. Virtuoso 7.x vs OntoQUAD
24
IM eCH-0177-> Ontology
25
LINDAS Ontology (excerpt)
26
http://lindas-data.ch/#/developer/ontology
Frontend / User Interfaces
¤ Styleguide ¤ Government -http://swiss.github.io/styleguide/
¤ Angular JS ¤ UI based on Angular JS. Learn the paradigm with reusability
¤ New UI Frontend ¤ CSV Mapping
¤ LIMES – Linking. Create a better user experience
27
UI LIMES
28
Translation UI
29
Linked Data Stack Outlook / Future Ontos View
30
Research Projects
¤ Generic Evaluation Platform for the Big Data Linked Data value chain. Periodic benchmarking result. Duration 01/2016–12/2018 (EU H2020)
¤ Distributed Search in Large Enterprise Data. Federate search over RDF and No-RDF data. Use of Enterprise Knowledge Graphs, FAST/Solr and integrated search interface. Duration 09/2015–08/2018 (Eurostars2-Eureka)
¤ Linked Enterprise Data Services. Using and improving Linked Data for Enterprise Application, NLP with Background Knowledge. Duration 07/2015-06/2018
¤ Semantic Analysis of Complex Events. Large Data streams of sensor data, internet of things, industry 4.0. Collect, integrate, analyse and predict. Duration 12/2014-11/2017
31
Dashboard und Widgets
32
NLP NER (neural networks)
33
Linked Data Stack Summary
34
Summary B2.13 LINDAS
¤ LINDAS support and hosting until 12/2018. SPARQL Endpoint
¤ Pipeline of various Use Cases
Linked Data Life-Cycle
¤ Maintaining the LD stack http://stack.linkeddata.org/
¤ LD Benchmark, NLP enhancement, Enterprise use cases
¤ Dashboards and Widgets
Food for thought
¤ Linking and Crowd Sourcing
35
Linking
36
Fuzzy string comparison methods
Vector Space Model
Cosine Similarity We need better methods and more automated, learning from feedback
Q&A and Thank You
Daniel Hladky Ontos AG / GmbH Schweiz / Leipzig T: +41 32 33292-50 M: +41 79 35350-43 E: [email protected]
37