heinrich widmann (dkrz) markus ackermann (uni …rda deutschland treffen 2016 : von...
TRANSCRIPT
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
RDA-DE Trainings WorkshopMarkus Ackermann (Uni Leipzig / InfAI)
Heinrich Widmann (DKRZ)
1
RDA Deutschland Treffen 2016 : T4 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
▪▪▪▪▪▪
▪
RDA Deutschland Treffen 2016 : T4 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
▪▪
••
▪•••
▪
RDA Deutschland Treffen 2016 : T4 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
DATAMETADATA
DATAMETADATA
DATAMETADATA
Metadaten beziehen sich über einen ‚Bezeichner‘ auf das (getrennt gespeicherte) Datenobjekt, das sie beschreiben, (z.B. URI, PID oder interne ‚ID‘ eines Repositorys oder Datenbank
Metadaten sind in der Ressource enthalten, aber immer noch abgegrenzt (Z. B. in HTML-Header eingebettete DC-Metadaten)
A
B
CRessource und Metadaten sind ‚verschmolzen‘und möglicherweise MD schwierig zu extrahieren` ( Z.B. MPEG7)
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
SyntaxSchema
u.A. durchMetadatenermöglicht
5
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
▪ Daten ?⇒? Information • Formatangaben, Datenschema, …
▪ interpretierbare Informationen• Zuordnung korrekter semantischer Kategorien• Ableiten korrekter Relationen zw. erwähnten Entitäten• Berücksichtigung von Semantik und Kontextualisierung
▪ Mehrdeutigkeit (Ambiguität) von Bezeichnern je nach Kontext• z.B. ‘Atlas’→ in Wikipedia (DE)
‒ Der Titan, der das Himmelsgewölbe trägt (Mythologie)‒ Ein Gebirge in Mauretanien (Geographie) ‒ Kartografisches Werk in meist gebundener Form (Kartografie)‒ Der oberste Halswirbel, der den Kopf trägt (Medizin)‒ …
6
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
▪ beschreibende Metadaten• Titel, Abstract, Schlagwörter• Verfasser, Herausgeber, Mitwirkende• Zeitpunkt(e) und Ort(e) der Entstehung, Veröffentlichung
▪ strukturelle Metadaten• Teile einer Ressource: Sub-Datensätze, Abschnitte,
Zeitscheiben• verwendete Datenmodell(e) (relational, XML, graph-basiert,
CSV, …), Formate (PNG, Ogg Audio, MPEG-4, …)• ggf. Verweis auf das Datenschema• mehrere Ausführungen (‘distributions’) desselben
Datenbestands in versch. Formaten/Serialisierungen?
7
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
▪ administrative Metadaten
• Referenz auf die beschriebene Ressource
• Speicherung, Verwahrung der Ressource oder des Objektes usw.
• Rechtemanagement, Verwaltung der Zugriffsrechte und Lizenzen
• Herkunft und Entstehungsgeschichte (Provenienz)‒ z.B. Messmethoden, angewandte Digitalisierungstechnologie
8
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
Daten, Metadaten, Datenschema
Daten
5.1 0.2 Iris-setosa
7.0 1.4 Iris-versicolor
6.3 1.8 Iris-virginica
4.9 0.1 Iris-setosa
Datenschema
Kelchblatt-Länge[reelle Zahl; cm]
Kronblatt-Breite[reelle Zahl, cm]
Schwertlilien-Art[Text, 3 mögl. Werte]
Metadaten
<metadata> <dc:creator>Fisher, R.A.</dc:creator> <dc:title>The use of multiple measurements in taxonomic problems</dc:title> <dc:subject>Gen. Statistics</dc:subject> <dc:date>1936-09-01</dc:date></metadata>
Metadaten-Schema
dc:creatorAn entity primarily responsible for making the resource. [xsd:string]
dc:subject The topic of the resource. [xsd:string]
dc:dateA point or period of time associated ... [xsd:date]
9
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
Daten, Metadaten, Datenschema
Daten
Datenschema
Metadaten
Metadaten-Schema
● Kontext / Sachgebiet● Ersteller, Herausgeber● Entstehung (Provenienz)● Lizenz, Nutzungsrechte● Zugriffswege ( z.B. Download)
● Daten-Struktur● Werte-Bereiche● Benennung von
Datenelementen● Validierungskriterien
● Metadaten-Elemente○ Semantik○ Wertebereiche
● Metadaten-Struktur
10
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
▪ Veröffentlichung und Verwaltung von Daten• Auffinden/Entdecken relevanter Daten
(durch vereinheitlichte Beschreibungsverfahren)• Abrufen/Beschaffen der Daten
(schnelle Lokalisierung duch verlässlichen Ressourcen-Indikatoren (URIs, URNs, PIDs, usw.)
▪ Förderung von• Wiederverwendung von Forschungsdaten• fachübergreifender Interoperabilität
▪ Validierung und Qualitätssicherung von Daten
11
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29 12
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
●
●
●
●
13
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29 14
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
RDA-DE Trainings WorkshopMarkus Ackermann (Uni Leipzig / InfAI)
Heinrich Widmann (DKRZ)
I. MetadatenStandards und Schemata
15
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29 16
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
Terminologie -1-
•
17
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
MetadatenformateName Beschreibung Anwendungsfeld Code-Beispiel
MarcXML Maschinenlesbares Format
Bibliotheken <datafileld tag=”245” ind1=”0” ind2=”4”> <subfield code=”a”>The bonny </subfield></datafield>
HTML Hyper Text Markup Language
Webseiten <head> <meta name="Regisseur" content="Peter Jackson"></head>
XML extended Markup Language
Metadaten-Transfer und -Management
<note><to>Tove</to><from>Jani</from><heading>Reminder</heading><body>Don't forget me this weekend!</body>
</note>
JSON JavaScript Object Notation : ‘dictionary with key-value pairs’
MD-Transfer und -Management,Web-Applikation und -Services (REST)
{"Herausgeber": "Xema",
"Inhaber": {"Name":"Mustermann",
"Vorname": "Max",
"maennlich": true,
"Hobbys": [ "Reiten", "Golfen" ]}}
RDF graph-basiertes Datenmodell für Linked Data
LebenswissenschaftenWeb Research
<http://hdl.handle.net/1813/5792> a dc:BibliographicResource ; dc:creator "Carl Lagoze" ; dc:title "Accommodating..."@en ; dc:date "2000-07-01"^^xsd:date ;
18
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
Terminologie -2-
‒
‒
19
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
Allgemeine Metadaten Schemata
Name Beschreibung Anwendungs-/ Forschungsfeld
Dublin Core Einfacher, leicht verständlicher und sehr weit verbreiteter Metadatenstandards.
domänen-agnostisch, u.a. für den Austausch von MD benutzt (z.B. OAI-PMH)
DataCite DOIs (= Digital Object Identifiers) als verbindlich vorgegebene Identifizierer
für veröffentlichte, zitierfähige Daten
DCAT Data Catalog Vocabulary für interoperable Datenkataloge im Web
PROV Provenance-Model Provenance-Modellierung
20
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
Inhalt Geistiges Eigentum
Allg. / techn.
Angaben
Title Creator Date
Subject Publisher Type
Description Contributor Format
Language Rights Identifier
Relation
Coverage
Source
DC-Terms[Beispiele insg. 55 Relationen]
ConformsTo
Coverage
HasVersion
IsFormatOf
IsPartOf
License
….
21
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29 22
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
Name Beschreibung Anwendungs-/Forschungsfeld
ISO19115 / ISO19139
für georeferenzierte Information (Spatial and Temporal Coverage)
Geowissenschaften
CMDI Comonent Metadata InfrastructureFramework, mit der Metadaten-Profile beschrieben und wiederverwendet werden können
Linguistik und Sprachwissenschaften
DDI Data Documentation Initiative : Offener Standard für die Beschreibung von sozial- und wirtschaftswissenschaftlichen Daten. Beschreibung des vollständigen ‘Data Life Cycle` mittels XML.
Sozialwissenschaften
→ Metadata Universe 23
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
▪ Interoperabilität im Vordergrund
• Ihre Daten auch anderen Communities (domänen- und
systemübergreifend) zugänglich machen und
• gemeinhin verstandene Semantik benutzen wollen
▪ Einfachheit und Beschränktheit
• Die 15 DC-‘Core-’Elemente reichen zur semantischen
Beschreibung aus und
• die DC-Vokabulare und -Namensräume sind akzeptabel
▪ Möglichkeiten und Randbedingungen
• Ihre Ressourcen sind beschränkt und
• nur eine limitierte Anzahl von Feldern (=Elementen) kann
verwaltet werden24
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
▪
▪
▪
▪
25
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
Beispiel 1 : Dublin Core als XML
26
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
Beispiel 2 : Dublin Core als RDF (Turtle) ((turtel Metadatenschema Metadatenformat
@prefix dc: <http://purl.org/dc/terms/> .@prefix xsd: <http://www.w3.org/2001/XMLSchema#> .
<http://hdl.handle.net/1813/5792> a dc:BibliographicResource ; dc:creator "Carl Lagoze" ; dc:title "Accommodating Simplicity and Complexity in Metadata: Lessons from theDublin Core Experience"@en ; dc:date "2000-07-01"^^xsd:date ; dc:publisher "Cornell University, Computer Science" ; dc:identifier "https://ecommons.cornell.edu/handle/1813/5792"^^xsd:anyURI .
Dublin Core (Terms) in RDF (Turtle)
27
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
PROV Datenmodell
▪ Provenienz-Modellierung: • Entitäten (Daten, Artikel, Messwerte,...)• Aktivitäten (Erhebungen, Verschriftlichung,
Messungen)• Agenten (Personen, Algorithmen,
automatisierte Maschinen)
▪ Entstehen neuer Entitäten aus vorherigen (Informationsverknüpfung, Kuratierung, Umwandlungen, ...)
▪ standardisiert durch das
World Wide Web Consortium (W3C)
28
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
Data Catalog Vocabulary (DCAT)
▪ für interoperable Datenkataloge im Web▪ agnostisch (keine Annahmen) bezüglich des
Formats der Daten (XML, GIF, OGG, …)▪ baut gezielt auf etablierten Vokabularen
auf ⇒ Dublin Core Terms
29
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
Kontrollierte Vokabulare
‒‒
‒
‒
30
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
▪ Disziplinen• im Sinne von hierarchisch aufgebauten Forschungsfeldern• zur Zuordnung und Kategorisierung von Forschungsdaten zu
einem oder mehreren Forschungsfeldern• siehe anschließende Folie und Facette ‘Discipline’ in
EUDAT-B2FIND▪ DBpedia Ontology
• kontrolliertes Vokabular zur expliziten Konzeptualisierung von Weltwissen Ontology:“An explicit specification of a conceptualization”(Gruber,93)
• siehe Teil ‘Linked Open Data’
31
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
Natural sciencesHumanities ProfessionalsSocial sciences
“Fields of Knowledge”/
LinguisticsHistoryArtsArchaeo-
logyPhysics
Earth Sciences
Biology ….Engineering
Material science
Crystallography
Elementary Particle Physics
taken from “List of Academic disciplines” → http://en.wikipedia.org/wiki/List_of_academic_disciplines_and_sub-disciplines and„The Fields of Knowledge“ → http://www.thingsmadethinkable.com/item/fields_of_knowledge.php?focus=natural_sciences
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
RDA-DE Trainings WorkshopMarkus Ackermann (Uni Leipzig / InfAI)
Heinrich Widmann (DKRZ)
II. Linked Open (Meta-)Data
33
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
Überblick
▪ Vom WWW zum Web of Data
▪ RDF Datenmodell & Linked Data Prinzipien
▪ Trennen und Verbinden von Term, Konzept, Referenziertes
▪ DBpedia und sein Nutzen zur Kontextualisierung
▪ Beispiele: Linghub; Nano Publications
34
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
Das Web - für Mensch und Maschine
für Menschen:
▪ riesige Menge an Informationen und Daten▪ etablierte Standards zur Anzeige und Gestaltung von Hypertext,
Grafikelementen, …▪ schlüsselwortbasierte Suchdienste▪ globales Netzwerk verlinkter Dokumente▪ Erschließen von Bedeutung durch den Leser
für Maschinen:
▪ Großteil des Inhalts / Wissens nicht maschinenverarbeitbar▪ Semantik der Daten zum großen Teil nicht zugänglich (gar nicht
gekennzeichnet, unterspezifiziert, …)
35
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
Web of (Linked) Data - Explicit Semantics
▪ globales Netzwerk verlinkter Aussagen (statements)
▪ AAA-Prinzip: anyone can say anything about anything
▪ Aussagen untereinander verlinkt• Links zwischen Aussagen sind
‒ spezifisch typisiert ‒ granular interpretierbar
▪ Aussagen in einen einheitlichen, universellen Datenformat (RDF) beschrieben
▪ fördert Vernetzung und Re-Use von Informationen und Daten
36
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
Die Sprache des Web: HTTP und URIs
▪ Hyper Text Transmission Protocol
• Hypertext = Text + Hyperlinks
▪ Anfragen (Requests) und Antworten (Response)
• Client: stellt Anfrage(n)
• Server: liefert Antwort(en) aus
▪ Ziel der Anfragen: (Web-) Resourcen
• identifiziert durch:
‒ Uniform Resource Identifier (URI) oder
‒ Internationalized Resource Identifier (IRI)
37
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
HTTP Requests & Responses
Request Bestandteile:
▪ Methode (GET, POST, …)▪ Ziel (URI/IRI)▪ (ggf.) Header-Zeilen▪ (ggf.) Body
GET /page/Potsdam/ HTTP/1.1Host: dbpedia.org
POST /sparql/Host: dbpedia.orgContent-Type: application/sparql-query
SELECT * { ?s ?p ?o } LIMIT 1
▪▪▪
HTTP/1.1 200 OKContent-Type: text/html; charset=UTF-8Date: Fri, 18 Nov 2016 10:54:20 GMT
<?xml version="1.0" encoding="UTF-8" ?><html> [[...]]</html>
38
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
Aufbau von URIs / IRIs
http://dbpedia.org/page/Potsdam
http://dbpedia.org/sparql?query=select+%3Fp+{%3Fp+a+dbo%3APerson+.}+limit+8
http://dublincore.org/documents/2012/06/14/dcmi-terms/?v=terms#elements-creator
▪ Scheme / Protokoll (für Web-Resourcen HTTP(S) )▪ Authority / Hostname▪ Pfad▪ Anfrage(-variablen)▪ Fragment
▪ IRI = internationalisierte URI• erlaubt Unicode-Zeichen:
φ 乶 ど ش
39
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
RDF Datenmodell - Motivation
Aussage: Albert Einstein entdeckte die Relativitätstheorie.
<theorie> <name>Relativitätstheorie</name> <entdecker>Albert Einstein</entdecker></theorie>
<person> <name>Albert Einstein</name> <entdeckte>Relativitätstheorie</entdeckte></person>
<person name="Albert Einstein"> <entdeckte>Relativitätstheorie</entdeckte></person>
40
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
RDF Datenmodell - Überblick
▪ Resource Description Framework▪ konzeptionell Graph-basiert: Menge von Knoten und Kanten
ex:AlbertEinstein ex:Relativitätstheorieex:entdeckte
▪ atomare Aussagen als Subjekt-Prädikat-Objekt Tripel• Subjekt und Prädikat: IRI• Objekt: IRI oder Literal (Datenwert)
▪ strukturiert, universell, maschinenlesbar
Anmerkung: Subjekte und Objekte können in RDF auch Blank Nodes sein, aber dieses Konzept wird zur Vereinfachung in dieser Präsentation nicht besprochen.
41
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
RDF Datenmodell - Literale
▪ beschreiben Datenwerte▪ nicht reifizierbar ⇒ nicht als Subjekt weitere Aussagen
verwendbar▪ Zuordnung eines Datentyps zur klaren Interpretation▪ Zeichenketten kann eine Sprache zugeordnet werden
RDF-Syntax (Turtle) Literal-Wert Datentyp
“Potsdam” “Potsdam” Zeichenkette
“Potsdam”^^xsd:string “Potsdam” Zeichenkette
"Metadato"@es “Metadato” Zeichenkette - Spanisch
“13”^^xsd:integer 13 Ganzzahl
“2016”^^xsd:gYear 2016 Jahr (greg. Kalender)
42
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
RDF Datenmodell - Beispiel
http://en.lodlive.it/?http://dbpedia.org/resource/Potsdam
43
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
RDF Datenmodell - Serialisierung (Turtle)
@prefix dbr: <http://dbpedia.org/resource/> .@prefix dbo: <http://dbpedia.org/ontology/> .@prefix rdfs:
<http://www.w3.org/2000/01/rdf-schema#> .
dbr:Potsdam dbo:country dbr:Germany ; dbo:federalState dbr:Brandenburg ; dbo:populationTotal "161468"^^xsd:nonNegativeInteger ; dbp:website <http://www.potsdam.de/> ; rdfs:label "Potsdam"@en, "Poczdam"@pl, "Потсдам"@ru .
dbr:Brandenburg dbo:country dbr:Germany ; dbo:capital dbr:Potsdam ; dbo:populationTotal "2449600"^^xsd:nonNegativeInteger ; dbo:leader dbr:Dietmar_Woidke .
▪ verschiedene Serialisationsformate:RDF/XML, Turtle, JSON-LD, N-Triples, ...
▪ für dieses Tutorial: Turtle
44
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
1. Verwende zur Bezeichnung von Objekten URIs.2. Verwende HTTP-URIs, so dass sich die Bezeichnungen
nachschlagen lassen.3. Stelle zweckdienliche Informationen bereit, wenn jemand eine
URI nachschlägt (mittels der Standards RDF und SPARQL).4. Zu diesen Informationen gehören insbesondere Links auf andere
URIs, über die weitere Objekte entdeckt werden können.
Linked Data Prinzipien
▪ nutze, sofern passend, bereits etablierte Bezeichner für Typen und Relationen oder erweitere/referenziere auf diese
▪ veröffentliche, wenn möglich, die Daten unter einer offenen Lizenz (Linked Data ⇒ Linked Open Data)
Tim Burners-Lee: Linked Data -Design Issues
45
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
5 ★ Linked Open Data
46
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
DBpedia und sein Nutzen für Metadaten
▪ Extraktion von strukturierten Informationenaus Wikipedia• automatisch verarbeitbar und abfragbar• strukturiert durch DBpedia Ontology
(Klassen/Typen und Relationen)• Nabelpunkt für das Linking im Web of Data
▪ Linked Data zur Kontextualisierung von Daten/Informationen• enzyklopädisch -> universell, große Abdeckung• referenzierbare, verlinkbar Konzept-Identifier• Auflösen lexikalische Ambiguitäten
(vgl. ‘Orange’ im Folgenden)
47
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
Term, Konzept, Referenziertes
‘Term’ in Wikipedia:
https://en.wikipedia.org/wiki/Orange
Auswahl eines Konzepts in Wikipedia:
https://en.wikipedia.org/wiki/Orange_(fruit)
Bedeutungs-Dreieck (Ogden and Richards):
Was wird referenziert?● die konkrete Webseite?● das abstrakte Konzept?
48
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
Information und Non-Information Resources
https://en.wikipedia.org/wiki/Orange_(fruit)
IRI des Konzepts:
https://dbpedia.org/resource/Orange_(fruit)
IRI der Browser-Darstellung:
http://dbpedia.org/page/Orange_(fruit)
IRI für Linked Data (RDF):
http://dbpedia.org/data/Orange_(fruit)
49
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
DBpedia Ontology als kontrolliertes Vokabular
Onlinedurstöbern!
50
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
Linghub - Metadaten Integration mittels LD
▪ Aggregation von vier digitalen Katalogen von Sprachdaten
▪ facettierte Suche und Freitextsuche als Web Portal
▪ Linghub Einträge sind Linked Data ⇒ RDF, SPARQL Endpunkt
▪ Harmonisierung der Metadaten-Schemata und Werte• Zugriffspunkt auf Resource: dcat:accessURL• Sprachangaben: Mapping von versch. Sprachbezeichnern
als Text zu eindeutigen ISO 639-3 Codes:
‘Turkish’, ‘Türkiye’, ‘Türkesi’, ‘turkish’ ⇒ iso639:tur
51
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
Exkurs: SPARQL
SPARQL Protocol And RDF Query Language
▪ Sprache für strukturierte Suchanfragen an RDF Daten• auch Spezifikation für Anfrage- und Datentransfer (HTTP basiert)
▪ graph-basiert, Syntax der Turtle-Serialisation entlehnt
▪ deklarative Anfragesprache mit Ähnlichkeiten zu SQL• viele gemeinsame Schlüsselworte:
SELECT, FROM, GROUP BY, UNION, ORDER BY, …• SPARQL Bindings sehr ähnlich zu SQL Relationen• Konzepte wie Subqueries, Aggregationen, Paging häufig
analog
52
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
SPARQL Anfrage für Linghub Resourcen
?res dcat:Datasetrdf:type
metashare:corpus
dct:type
iso639:poldct:language
?titledc:title
PREFIX dc: <http://purl.org/dc/elements/1.1/>PREFIX dct: <http://purl.org/dc/terms/>PREFIX dcat: <http://www.w3.org/ns/dcat#>PREFIX iso639: <http://www.lexvo.org/id/iso639-3/>PREFIX metashare: <http://purl.org/ms-lod/MetaShare.ttl#>
SELECT ?res ?title { ?res a dcat:Dataset ; dct:type metashare:corpus ; dct:language iso639:pol ; dc:title ?title .}
53
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
Nano Publications
▪ wissenschaftliche Aussage über eindeutig identifizierte Konzepte• granular für atomare
Aussagen (z.B. Gen/Krankheits-Korrelation)
▪ zitierbar und maschinenverarbeitbar
▪ rückverfolgbar (⇒ Impact)▪ Publikationsmöglichkeiten für
große Volumina an Daten-/Beobarchtunspunkten
54
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
RDA-DE Trainings WorkshopMarkus Ackermann (Uni Leipzig / InfAI)
Heinrich Widmann (DKRZ)
III. Metadaten Katalog and Discovery Portal
- EUDAT-B2FIND als ein Beispiel -
55
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
▪ EUDAT und seine Daten-Service
▪ EUDAT-B2FIND - ein interdisziplinärer Metadaten-Service
• ‘FAIR’ als Richtlinie
• Stufen der Ineroperabiltät
• Ingestion Workflow
• Mapping and Validation Procedure
• Status des Metadaten Katalog
• Das Suchportal
56
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
57
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
•
•
•
•
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
MD generation
Schema A
Heterogeneity Homogeneity
010101010101010
010101010101010
010101010101010
010101010101010
010101010101010
Schema B
Schema C
Schema B2S Information
Verlust
Schema B2FIND
Collect and extract MD
B2FIND harvest and
mappingMD generation
MD generation !
!
Forschungs Communities (Daten Provider)
Data Repositories(Archive und Aggregatoren z.B. DataCite, DataHub)
Service Provider( Suchportale )
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
MD Generation and Specification
MD Harvesting
Mapping and Validation
Uploading and Indexer
MD Provider A
Harvest specification :• OAI-URL• OAI subsets• MD formats
Mapping specification :• XPATH rules• Community
specific MD schemas and …
Search and Data Access
Daten Provider
Service Provider
User (Scientist orResearcher)
• For joining B2FIND only a few preconditons has to be fulfilled
• Harvesting endpoint• Spec. of MD format
• Gurantee data synchronisation by frequent and incremental data harvesting
MD Provider
MD Provider
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
Data Provider :Community Specific Schema
Service Provider :UnifiedCommonB2FIND Schema
Der MD ‚Lebenszyklus‘ als Workflow1.MD Generation
2.b MD Harvesting
2.c. MD Mapping and Validation
2.d. MD Uploading and Indexer
2.a MD Repository and
Provider</>
XML
v1,v2
CSV
</>XML
{k:v}JSON
CAT
k v
MD-PIDREGISTERED
MD-PIDB2F-READY
MD-PIDB2F-INDEXED
61
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
1.
2.
3.
●●
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
MetadataType
B2FINDField name
Allowed values Semantic definition Level of Obligation
Occurence
General information
Title Free text (unicode) A name or title a resource is known
Mandatory 1
Description Free text Additional info Recommended 0-1Data Access Source Valid URL or URN Unique link to data
resource
Mandatory (1)
0-1
1-3PID Persistent Identifier + persistent and
resolvable 0-1
DOI Digital Object Identifier
+ citable 0-1
Provenance data
Creator ‘;’-sep. list of names Main researchers involved in data prod.
Recommended 0-n
Discipline List of values from CV Field of research (Controlled Vocab)
Recommended 0-n
Publication Year
YYYY The year data are published
Recommended 1
Formal data Temporal Coverage
Interval of 2 DTimes [ Begin, End ]
The temporal limits of a date-time
Optional 1-n
Spatial Coverage
Spatial box or point [[minlat,minlon…]]
The spatial limits of a place.
Optional 1-n
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
• 17 communities• > 450000 MD records
Natural Sciences
Humanities
Cross Discipline
Social Sciences
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
Stri
cter
Po
licie
s
Type Unique Persistent Resolvable Citable
DOI ✓ ✓ ✓ ✓
PID ✓ ✓ ✓ x
URL (Source)
✓ ? ? x
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
010101010101010
B2FIND
</>
<//dc:identifier value>
XML
Resource
Resolution and Access
Handle Server
DOI Resolver
010101010101010
010101010101010
Data Collection
Landing Page
PID_1
PID_2
PID_3
Source
PID
DOI
B2FIND Metadta
66
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
B2FIND provides ‘faceted’ search for• Free text• Geo spatial• Temporal coverage• Publication year• Textual facets as
• Tags• Creator• Discipline etc.
Dataset view provides display of metadata :• Spatial extent• Table of field-value pairs• Links to data resources
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
• EUDAT-B2FIND• ist ein operativer MD Service und basiert auf
Standards und Richtlinien wie den FAIR Prinzipien• bietet ein Suchportal mit vielen Facetten und
Funktionalitäten• basiert auf einem umfassenden MD Katalog, der
Forschungsdaten aus vielen heterogenen und fächerübergreifende Quellen kombiniert
• Verbesserte Interoperabilität wird durch Homogenisierung auf ein vereinheitlichtes MD Schema
• Weitere Entwicklungen : u.a. Verwendung von LoD, um das Potential des ‘Semantic Web’ zu nutzen.
RDA Deutschland Treffen 2016 : Von Metadatenschemata zu Linked Open Data - 2016-11-29
Linkliste
•••
70