wissenschaftliche Übung metadatenformate und -standards volker herrmann philosophikum, raum 232...

48
Wissenschaftliche Übung Metadatenformate und -standards Volker Herrmann Philosophikum, Raum 232 (2.Stock) Tel. 470 5228 Sprechstunde nach Vereinbarung per Mail: [email protected]

Upload: aldrik-arenz

Post on 05-Apr-2015

106 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Wissenschaftliche Übung Metadatenformate und -standards Volker Herrmann Philosophikum, Raum 232 (2.Stock) Tel. 470 5228 Sprechstunde nach Vereinbarung

Wissenschaftliche Übung

Metadatenformate und -standards

Volker Herrmann

Philosophikum, Raum 232 (2.Stock)

Tel. 470 5228

Sprechstunde nach Vereinbarung per Mail:

[email protected]

Page 2: Wissenschaftliche Übung Metadatenformate und -standards Volker Herrmann Philosophikum, Raum 232 (2.Stock) Tel. 470 5228 Sprechstunde nach Vereinbarung

Metadaten sind…

„Metadata is sometimes defined literally as 'data about data,' but the term is normally understood to mean structured data about resources that can be used to help support a wide range of operations.“ (M.Day, 2001)

Page 3: Wissenschaftliche Übung Metadatenformate und -standards Volker Herrmann Philosophikum, Raum 232 (2.Stock) Tel. 470 5228 Sprechstunde nach Vereinbarung

Metadaten sind…

„Metadata is sometimes defined literally as 'data about data,' but the term is normally understood to mean structured data about resources that can be used to help support a wide range of operations.“ (M.Day, 2001)

„Daten über Daten“: Kanzler Schröder Autor Harold Pinter

Page 4: Wissenschaftliche Übung Metadatenformate und -standards Volker Herrmann Philosophikum, Raum 232 (2.Stock) Tel. 470 5228 Sprechstunde nach Vereinbarung

Metadaten sind…

„Metadata is sometimes defined literally as 'data about data,' but the term is normally understood to mean structured data about resources that can be used to help support a wide range of operations.“ (M.Day, 2001)

„Daten über Daten“: Kanzler Schröder Autor Harold Pinter

„in strukturierter Form“: <Kanzler>Schröder</Kanzler> 100: Pinter, Harold

Page 5: Wissenschaftliche Übung Metadatenformate und -standards Volker Herrmann Philosophikum, Raum 232 (2.Stock) Tel. 470 5228 Sprechstunde nach Vereinbarung

Metadaten sind…

„Metadata is sometimes defined literally as 'data about data,' but the term is normally understood to mean structured data about resources that can be used to help support a wide range of operations.“ (M.Day, 2001)

„Daten über Daten“: Kanzler Schröder Autor Harold Pinter

„in strukturierter Form“: <Kanzler>Schröder</Kanzler> 100: Pinter, Harold

SemantikKanzler= Vom deutschen Bundestag gewählter Regierungschef

Page 6: Wissenschaftliche Übung Metadatenformate und -standards Volker Herrmann Philosophikum, Raum 232 (2.Stock) Tel. 470 5228 Sprechstunde nach Vereinbarung

Metadaten sind…

„Metadata is sometimes defined literally as 'data about data,' but the term is normally understood to mean structured data about resources that can be used to help support a wide range of operations.“ (M.Day, 2001)

„Daten über Daten“: Kanzler Schröder Autor Harold Pinter

„in strukturierter Form“: <Kanzler>Schröder</Kanzler> 100: Pinter, Harold

SemantikKanzler= Vom deutschen Bundestag gewählter Regierungschef

SyntaxEin xml-Element (tag) muß immer in spitze Klammern gefasst sein, ein

Endtag enthält zusätzlich vor dem Elementnamen einen Slash

Page 7: Wissenschaftliche Übung Metadatenformate und -standards Volker Herrmann Philosophikum, Raum 232 (2.Stock) Tel. 470 5228 Sprechstunde nach Vereinbarung

Metadaten – wozu?

1. Information Retrieval: Suchen und Finden von Daten

- Suchen nach bestimmten Kriterien

- ähnliche Quellen zusammenfassen, verschiedenenartige Quellen auseinanderhalten

- den Ort der Datenquelle festhalten

Page 8: Wissenschaftliche Übung Metadatenformate und -standards Volker Herrmann Philosophikum, Raum 232 (2.Stock) Tel. 470 5228 Sprechstunde nach Vereinbarung

Das World Wide Web – Growing and growing …

Source: http://news.netcraft.com/archives/web_server_survey.html

Page 9: Wissenschaftliche Übung Metadatenformate und -standards Volker Herrmann Philosophikum, Raum 232 (2.Stock) Tel. 470 5228 Sprechstunde nach Vereinbarung

Einige weitere Fakten

(nach Gill, 2000):- Überwiegende Suchstrategien der User: Suchmaschinen und

Hyperlinks - Nur ein Teil der Gesamtmenge der Daten im Web machen den

eigentlichen Gehalt an Informationen aus (40 %)

User statistics

Page 10: Wissenschaftliche Übung Metadatenformate und -standards Volker Herrmann Philosophikum, Raum 232 (2.Stock) Tel. 470 5228 Sprechstunde nach Vereinbarung

Informationssuche über Suchmaschinen: Google

- Page Ranking

- Verankerter Text

- Visuelle Merkmale

- Volltext Parser

- Location information

- Verteiltes System

Page 11: Wissenschaftliche Übung Metadatenformate und -standards Volker Herrmann Philosophikum, Raum 232 (2.Stock) Tel. 470 5228 Sprechstunde nach Vereinbarung
Page 12: Wissenschaftliche Übung Metadatenformate und -standards Volker Herrmann Philosophikum, Raum 232 (2.Stock) Tel. 470 5228 Sprechstunde nach Vereinbarung
Page 13: Wissenschaftliche Übung Metadatenformate und -standards Volker Herrmann Philosophikum, Raum 232 (2.Stock) Tel. 470 5228 Sprechstunde nach Vereinbarung
Page 14: Wissenschaftliche Übung Metadatenformate und -standards Volker Herrmann Philosophikum, Raum 232 (2.Stock) Tel. 470 5228 Sprechstunde nach Vereinbarung

Probleme von Suchmaschinen

- Hohes Recall, niedrige Precision Relevanz der Ergebnisse Ergebnismenge

- Aktualität der Suchergebnisse

- Erfasste Datenmenge Qualität Indexierungstiefe

- versteckte Daten dynamisch generierte Daten

Page 15: Wissenschaftliche Übung Metadatenformate und -standards Volker Herrmann Philosophikum, Raum 232 (2.Stock) Tel. 470 5228 Sprechstunde nach Vereinbarung

Metadaten zur Beschreibung von Webseiten?

• Meta-Tags für Suchmaschinen:

<META name=„keywords“ content=„Metadaten, WWW, World Wide Web, ….“><META name=„description“ content=„Artikel über Metadaten im World Wide Web“>

• Dublin Core Metadata Initiative (DCMI)

• Resource Description Framework (RDF)

Page 16: Wissenschaftliche Übung Metadatenformate und -standards Volker Herrmann Philosophikum, Raum 232 (2.Stock) Tel. 470 5228 Sprechstunde nach Vereinbarung

DC Elemente

Webseite als HTML mit eingebetteten DC Elementen

Page 17: Wissenschaftliche Übung Metadatenformate und -standards Volker Herrmann Philosophikum, Raum 232 (2.Stock) Tel. 470 5228 Sprechstunde nach Vereinbarung

Metadaten zur Beschreibung von Webseiten? Ja, aber…

Problem 1: Spamming

Problem 2: Wie zuverlässig sind die Metadaten bzgl. ihrer Inhaltsbeschreibung?

Problem 3: Interoperabilität

Problem 4: Zusatzkosten

Lösung:z.B.: Mechanismen finden, um Webseiten bzgl. ihrer Vertrauenswürdigkeit einstufen zu können.

Page 18: Wissenschaftliche Übung Metadatenformate und -standards Volker Herrmann Philosophikum, Raum 232 (2.Stock) Tel. 470 5228 Sprechstunde nach Vereinbarung

Beispiel: PICS (Platform for Internet Content Selection)

Grundprinzipien:• Rating einer Webseite nach bestimmten Themenbereichen• Rating System• Software, die PICS-Metadaten lesen und verarbeiten kann

Page 19: Wissenschaftliche Übung Metadatenformate und -standards Volker Herrmann Philosophikum, Raum 232 (2.Stock) Tel. 470 5228 Sprechstunde nach Vereinbarung

Beispiel: Vancouver Webpages Rating Service

• Multiculturalism • Educational Content • Environmental Awareness • Tolerance -----------------------------------• Violence • Sex • Profanity • Safety • Canadian Content • Commercial Content • Gambling

<META http-equiv="PICS-Label" content='(PICS-1.1 "http://vancouver-webpages.com/VWP1.0/" l gen true comment "VWP1.0" on "2005.10.17T06:33-0700" r (P 0 S 0 V 0 Com 3 Tol 0 Env 0 SF 2 Edu 1 Can 0 MC 2 Gam 0 ))'>

Category: TolerancePromotion: Promotion of tolerant behaviour. Positive: Portrayal of tolerant behaviour. Neutral: No Intolerant content; reference works, etc. Negative: Portrayal of intolerant behaviour by minor characters Intolerance: Portrayal of intolerant behaviour by role-model figures. Active Intolerance: Promoting hatred based on differences in religion, culture, race, sexual orientation etc. Unlimited Intolerance: Active promotion of intolerant behaviour; calling for ethnic cleansing, Jihad, genocide etc.

Page 20: Wissenschaftliche Übung Metadatenformate und -standards Volker Herrmann Philosophikum, Raum 232 (2.Stock) Tel. 470 5228 Sprechstunde nach Vereinbarung

Metadaten – wozu?

2. Daten eindeutig identifizieren

• Daten(-objekte) lokalisieren durch Persistent Identifier:- DOI (Digital Object Identifier)- PURL (Persistent Uniform Resource Locator)

• Metadatenelemente zur standardisierten Identifikation,z.B. über standardisierte Nummerierungen

Page 21: Wissenschaftliche Übung Metadatenformate und -standards Volker Herrmann Philosophikum, Raum 232 (2.Stock) Tel. 470 5228 Sprechstunde nach Vereinbarung

Beispiel: PURL (Persistent Uniform Resource Locator)

Page 22: Wissenschaftliche Übung Metadatenformate und -standards Volker Herrmann Philosophikum, Raum 232 (2.Stock) Tel. 470 5228 Sprechstunde nach Vereinbarung
Page 23: Wissenschaftliche Übung Metadatenformate und -standards Volker Herrmann Philosophikum, Raum 232 (2.Stock) Tel. 470 5228 Sprechstunde nach Vereinbarung
Page 24: Wissenschaftliche Übung Metadatenformate und -standards Volker Herrmann Philosophikum, Raum 232 (2.Stock) Tel. 470 5228 Sprechstunde nach Vereinbarung
Page 25: Wissenschaftliche Übung Metadatenformate und -standards Volker Herrmann Philosophikum, Raum 232 (2.Stock) Tel. 470 5228 Sprechstunde nach Vereinbarung
Page 26: Wissenschaftliche Übung Metadatenformate und -standards Volker Herrmann Philosophikum, Raum 232 (2.Stock) Tel. 470 5228 Sprechstunde nach Vereinbarung

PURL - Funktionsprinzip

• PURL ist funktional ein URL• PURL verweist auf einen Resolvermechanismus

Quelle:http://purl.oclc.org/docs/purl_faq.html#toc1.1

URL=

http://my.address.org/very/long/path/name/and/obscure/file_name.txt

PURL=

http://purl.oclc.org/foo/bar

Page 27: Wissenschaftliche Übung Metadatenformate und -standards Volker Herrmann Philosophikum, Raum 232 (2.Stock) Tel. 470 5228 Sprechstunde nach Vereinbarung
Page 28: Wissenschaftliche Übung Metadatenformate und -standards Volker Herrmann Philosophikum, Raum 232 (2.Stock) Tel. 470 5228 Sprechstunde nach Vereinbarung

Metadaten - wozu?

3. Daten Aufbewahren und Bereitstellen

- in geordnetem System ablegen

- Indexieren

- Katalogisieren

- Organisieren

- Beschreiben

- Langfristige digitale Erhaltung

Page 29: Wissenschaftliche Übung Metadatenformate und -standards Volker Herrmann Philosophikum, Raum 232 (2.Stock) Tel. 470 5228 Sprechstunde nach Vereinbarung

Bibliothekarische Metadaten

Page 30: Wissenschaftliche Übung Metadatenformate und -standards Volker Herrmann Philosophikum, Raum 232 (2.Stock) Tel. 470 5228 Sprechstunde nach Vereinbarung

Bibliographische Metadaten

Page 31: Wissenschaftliche Übung Metadatenformate und -standards Volker Herrmann Philosophikum, Raum 232 (2.Stock) Tel. 470 5228 Sprechstunde nach Vereinbarung

Bibliographische Metadaten

Page 32: Wissenschaftliche Übung Metadatenformate und -standards Volker Herrmann Philosophikum, Raum 232 (2.Stock) Tel. 470 5228 Sprechstunde nach Vereinbarung

Bibliographische Metadaten

Page 33: Wissenschaftliche Übung Metadatenformate und -standards Volker Herrmann Philosophikum, Raum 232 (2.Stock) Tel. 470 5228 Sprechstunde nach Vereinbarung

MAB2 und MARC - Metadatenformate für bibliothekarische Daten

• Bibliographische Angaben werden in bibliothekarischen Metadatenformaten in Kategorien gefasst.

Die MAB2 Felder

• Jedem MAB2 Feld sind Regeln zugeordnet, mit welchem Inhalt und in welcher Syntax das Feld gefüllt werden darf. Das Basisregelwerk für die Katalogisierung in der BRD sind die „Regeln für die Formalkatalogisierung“ (früher RAK).

RFKGBV Katalogisierungsrichtlinien

Page 34: Wissenschaftliche Übung Metadatenformate und -standards Volker Herrmann Philosophikum, Raum 232 (2.Stock) Tel. 470 5228 Sprechstunde nach Vereinbarung

MAB2 und MARC - Metadatenformate für bibliothekarische Daten

• Bibliographische Angaben werden in bibliothekarischen Metadatenformaten in Kategorien gefasst.

Die MAB2 Felder

• Jedem MAB2 Feld sind Regeln zugeordnet, mit welchem Inhalt und in welcher Syntax das Feld gefüllt werden darf. Das Basisregelwerk für die Katalogisierung in der BRD sind die „Regeln für die Formalkatalogisierung“ (früher RAK).

RFKGBV Katalogisierungsrichtlinien

Page 35: Wissenschaftliche Übung Metadatenformate und -standards Volker Herrmann Philosophikum, Raum 232 (2.Stock) Tel. 470 5228 Sprechstunde nach Vereinbarung
Page 36: Wissenschaftliche Übung Metadatenformate und -standards Volker Herrmann Philosophikum, Raum 232 (2.Stock) Tel. 470 5228 Sprechstunde nach Vereinbarung

TEI (Text Encoding Initiative)

• Gedruckte und elektronische Dokumente enthalten i.d.R. mehr Information als den „eigentlichen“ Text.

• Z.B.: – Ein Dokument kann durch mehrgliedrige Überschriften strukturiert

sein; – Bücher verfügen typischerweise über Einleitung und Register. – Sowohl gedruckte als auch elektronische Texte können

Kommentare, Fußnoten und Varianten aufweisen.

• Elektronische Texte sind dynamisch. Man kann elektronischem Text ständig neue Zusatzinformation hinzufügen.

• Ausgewählt werden kann z.B., welche Informationen bei der Wiedergabe des Textes, aufgeführt werden sollen.

Page 37: Wissenschaftliche Übung Metadatenformate und -standards Volker Herrmann Philosophikum, Raum 232 (2.Stock) Tel. 470 5228 Sprechstunde nach Vereinbarung

TEI (Text Encoding Initiative)

• TEI hat ein unabhängiges, portables und offenes Format zu Speicherung, Austausch und Analyse von Texten in den Geisteswissenschaften entwickelt.

• Das TEI folgte in der Kodierung zunächst der SGML, neuere Versionen folgen der XML.

• Nach TEI ausgezeichnete Texte sind also in SGML oder XML gehalten, wobei die verwendeten Elemente über eine zugehörige DTD (=Datei, die angibt, welche Kodierungsregeln in den dazugehörigen Dokumenten erlaubt sind) validiert werden.

Beispiel einer TEI Kodierung

Page 38: Wissenschaftliche Übung Metadatenformate und -standards Volker Herrmann Philosophikum, Raum 232 (2.Stock) Tel. 470 5228 Sprechstunde nach Vereinbarung

Encoded Archival Description (EAD)

• EAD basiert ebenfalls auf SGML/ XML.

• Mit EAD lassen sich digitalisierte Dokumente in ihrem Zusammenhang beschreiben und über das WWW präsentieren.

Beispiel EAD Archive und Findhilfen

Page 39: Wissenschaftliche Übung Metadatenformate und -standards Volker Herrmann Philosophikum, Raum 232 (2.Stock) Tel. 470 5228 Sprechstunde nach Vereinbarung
Page 40: Wissenschaftliche Übung Metadatenformate und -standards Volker Herrmann Philosophikum, Raum 232 (2.Stock) Tel. 470 5228 Sprechstunde nach Vereinbarung
Page 41: Wissenschaftliche Übung Metadatenformate und -standards Volker Herrmann Philosophikum, Raum 232 (2.Stock) Tel. 470 5228 Sprechstunde nach Vereinbarung
Page 42: Wissenschaftliche Übung Metadatenformate und -standards Volker Herrmann Philosophikum, Raum 232 (2.Stock) Tel. 470 5228 Sprechstunde nach Vereinbarung
Page 43: Wissenschaftliche Übung Metadatenformate und -standards Volker Herrmann Philosophikum, Raum 232 (2.Stock) Tel. 470 5228 Sprechstunde nach Vereinbarung
Page 44: Wissenschaftliche Übung Metadatenformate und -standards Volker Herrmann Philosophikum, Raum 232 (2.Stock) Tel. 470 5228 Sprechstunde nach Vereinbarung
Page 45: Wissenschaftliche Übung Metadatenformate und -standards Volker Herrmann Philosophikum, Raum 232 (2.Stock) Tel. 470 5228 Sprechstunde nach Vereinbarung
Page 46: Wissenschaftliche Übung Metadatenformate und -standards Volker Herrmann Philosophikum, Raum 232 (2.Stock) Tel. 470 5228 Sprechstunde nach Vereinbarung
Page 47: Wissenschaftliche Übung Metadatenformate und -standards Volker Herrmann Philosophikum, Raum 232 (2.Stock) Tel. 470 5228 Sprechstunde nach Vereinbarung
Page 48: Wissenschaftliche Übung Metadatenformate und -standards Volker Herrmann Philosophikum, Raum 232 (2.Stock) Tel. 470 5228 Sprechstunde nach Vereinbarung