von stanbol nach marmotta - newmedialab · 2016. 12. 1. · head of knowledge and media...
TRANSCRIPT
Von Stanbol nach Marmotta Content Enhancement und Smarte Annotationen für die Medienindustrie
Dr. Sebastian Schaffert
© 21.06.2013 Dr. Sebastian Schaffert 2
“When you can measure what you are speaking
about and express it in numbers, you know
something about it, but when you cannot measure
it, your knowledge is of a meagre and
unsatisfactory kind” - Lord Kelvin
©
(Medien-)Inhalte sind wertvoll!
Art: Golfball
Farbe: weiß
Kategorie: Sport - Golf
Zustand: gebraucht
Durchmesser: 43mm
Preis: $0,50
21.06.2013 Dr. Sebastian Schaffert 3
Quelle: School of Data, http://schoolofdata.org/handbook/courses/what-is-data/
©
(Medien-)Inhalte sind wertvoll!
Art: Golfball
Farbe: weiß
Kategorie: Sport - Golf
Zustand: gebraucht
Durchmesser: 43mm
Preis: $0,50
21.06.2013 Dr. Sebastian Schaffert 4
Quelle: School of Data, http://schoolofdata.org/handbook/courses/what-is-data/
leider sind die wertvollen
Informationen vor Maschinen
versteckt!
©
Versteckte Werte ...
04/12/07
So sieht eine Webseite in natürlicher Sprache für eine Maschine aus ...
Folie von James Hendler (Univ. Maryland)
Das S
em
antisch
e W
eb
Dr. Sebastian Schaffert
©
Versteckte Werte ...
04/12/07
Mit XML (o.ä.) versuchen wir, dem Text durch Tags „Bedeutung“ hinzuzufügen
Folie von James Hendler (Univ. Maryland)
CV
name
education
work
private
< >
< >
< >
< >
< >
Das S
em
antisch
e W
eb
Dr. Sebastian Schaffert
©
Versteckte Werte ...
04/12/07
Aber für die Maschine sehen die Tags in etwa so aus:
Folie von James Hendler (Univ. Maryland)
CV
name
education
work
private
< >
< >
< >
< >
< >
< >
< >
<>
<>
<>
Das S
em
antisch
e W
eb
Dr. Sebastian Schaffert
©
Strukturierte Informationen
21.06.2013 8
Structured content refers to information or content that
has been broken down and classified using metadata.
Dr. Sebastian Schaffert
Broken down into discrete concepts
Classified as real-world things and relationships
Metadata a structure readable by robots and people
Folie von Mike Atherton, BBC
Wikipedia
©
Warum?
manage content at scale
meaningful navigation
expose long-tail content
reuse content assets
bridge across subjects
improve findability
support social sharing
improve SEO
design for all devices
robot friendly
21.06.2013 Dr. Sebastian Schaffert 9
Folie von Mike Atherton, BBC
©
Die 7 Informationsgesetze
1. Information is (Infinitely) Shareable
2. The Value of Information Increases with Use
3. Information is Perishable
4. The Value of Information Increases with Accuracy
5. The Value of Information Increases in Combination
6. More Is Not Necessarily Better
7. Information is Self-propagating
21.06.2013 10
Daniel Moody, Peter Walsh: Measuring the Value of Information: An Asset Valuation Approach. In: European
Conference on Information Systems (ECIS’99), Copenhagen Business School, Frederiksberg, Denmark, June 1999.
Dr. Sebastian Schaffert
© 21.06.2013 11
Leider sind die meisten Informationen
unstrukturiert, weil das Strukturieren mit
sehr viel (Hand-)Arbeit verbunden ist …
Dr. Sebastian Schaffert
© 21.06.2013 12
Demo:
Ein Prozess, wie man basierend auf Open Source Software
Bedeutung aus unstrukturierten Inhalten gewinnen kann!
Dr. Sebastian Schaffert
©
Beispielszenario: IKS Blog
21.06.2013 13 Dr. Sebastian Schaffert
©
Prozess: von Marmotta nach Stanbol und zurück
21.06.2013 14
Provide Background Knowledge
Extract & Link Facts
Provide Data
Make Sense of Data
unstructured
content
actionable
knowledge
Dr. Sebastian Schaffert
what?
how?
public datasets
(GeoNames,
DBPedia, …)
domain
thesaurus
legacy systems
(CRM, ERP, ...)
RSS feeds
(blogs, news, …)
office
documents
HTML/Web
pages (Intranet,
Website, ...)
Linked Data
SPARQL Query
data
management
semantic
search
meaningful
navigation
data analytics
©
Hintergrundwissen bereitstellen
Ziel: Domänenwissen maschinenlesbar bereitstellen, um
Informationen darauf basierend zu analysieren und zu
verknüpfen
Beispiele:
Domänenthesaurus (z.B. Produkte, Abteilungen, Themen, …)
Öffentliche Datensätze (z.B. Geodaten, Enzyklopädie, andere
Datenbanken)
Andere Datenquellen (ERP, CRM, Telefonverzeichnis, ...)
21.06.2013 Titel Vorname Nachname 15
©
Hintergrundwissen bereitstellen: Werkzeuge
Thesaurus-Manager: SKOSjs
21.06.2013 Titel Vorname Nachname 16
©
Hintergrundwissen bereitstellen: Werkzeuge
Datenaufbereitung: OpenRefine
21.06.2013 Titel Vorname Nachname 17
©
Fakten extrahieren und verknüpfen
Ziel: Fakten in unstrukturierten Inhalten erkennen und mit
Hintergrundwissen verknüpfen
Beispiele:
Orte im Text mit Geoinformationen (z.B. GeoNames)
Produkte im Text mit Firmenthesaurus oder Produktdatenbank
Personen im Text mit CRM-System oder Addressbuch
21.06.2013 Titel Vorname Nachname 18
©
Fakten extrahieren und verknüpfen
21.06.2013 Titel Vorname Nachname 19
©
Daten bereitstellen
Ziel: Daten in einheitlichem Datenmodell anderen
Anwendungen zur Weiterverarbeitung zur Verfügung
stellen
Technologien:
Linked Data / RDF
SPARQL Anfragesprache
21.06.2013 Titel Vorname Nachname 20
©
Daten bereitstellen: Linked Data
21.06.2013 Titel Vorname Nachname 21
©
Daten bereitstellen: SPARQL
21.06.2013 Titel Vorname Nachname 22
©
Nutzen stiften
Ziel: aus den Daten neues Wissen gewinnen und daraus
Handlungen ableiten.
Beispiel:
Semantische Suche
Datenanalyse
Wiederverwendung von Inhalten
21.06.2013 Titel Vorname Nachname 23
©
Nutzen stiften: Semantische Suche
21.06.2013 Titel Vorname Nachname 24
©
Nutzen stiften: Datenanalyse
21.06.2013 Titel Vorname Nachname 25
©
Vielen Dank!
21.06.2013 26 Dr. Sebastian Schaffert
©
Kontakt
Forschungsfragen:
Umsetzung, Wartung, Support:
21.06.2013 Titel Vorname Nachname 27
© © Salzburg Research Forschungsgesellschaft 2012. No reproduction without written permission. Certified in accordance with ISO 9001:2008
Thanks for your Attention!
Dr. Sebastian Schaffert
Head of Knowledge and Media Technologies
Salzburg Research Forschungsgesellschaft m.b.H.
Jakob-Haringer-Straße 5/III | Salzburg, Austria
Tel. +43 662 2288-423| Fax +43 662 2288-222