informationsintegration schema mapping 3.1.2006 – 10.1.2006 felix naumann

Informationsintegration

Schema Mapping

3.1.2006 – 10.1.2006

Felix Naumann

3.1.2006 Felix Naumann, VL Informationsintegration, WS 05/06 2

Überblick

Schema Mapping Überblick Schema Mapping

(Matching) Mapping Interpretation (Transformation)

Schema Matching (Ausblick) Demo

ProblemstellungArchitekturenModellierungOptimierung

10,000 feet

1. Einführung in die Informationsintegration2. Szenarien der Informationsintegration3. Verteilung und Autonomie4. Heterogenität5. Materialisierte und virtuelle Integration6. Klassifikation integrierter Informationssysteme und 5-Schichten

Architektur 7. Mediator/Wrapper-Architektur8. Global-as-View und Lokal-as-View Modellierung9. Global-as-View Anfragebearbeitung 10. SchemaSQL11. Verteilte Anfragebearbeitung12. Dynamische Programmierung in verteilten Datenbanken13. Top-N Anfragen

KonflikteAnfragen

Systeme

Mapping

10,000 feet

1. Schema Mapping2. Schema Matching 3. Containment & Local-as-View Anfragebearbeitung4. Bucket Algorithmus 5. Peer-Data-Management Systeme (PDMS) 6. Informationsqualität7. Duplikaterkennung8. ETL & Data Lineage 9. Datenfusion - Union & Co.10. Hidden Web11. Semantic Web12. Forschungsprojekte - TSIMMIS, Garlic, Revere, etc13. Data Streams

Wdh: Virtuelle Integration

Datenfluss Anfragebearbeitung Entwicklung

Top-down Schema

Quelle 1 Quelle 2 Quelle 3

Mediator

Anwendung 1 Anwendung 2

Wrapper 2 Wrapper 3Wrapper 1

Wdh: Bottom-up oder Top-down Entwurf

Beim Entwurf des integrierten Systems Bottom-up:

Ausgelöst durch den Bedarf, mehrere Quellen integriert anzufragen

Schemaintegration ist wichtig. Änderungen schwierig, da neu integriert werden muss. Typisches Szenario: Data Warehouse

Top-down Ausgelöst durch globalen Informationsbedarf Vorteilhaft bei labilen Quellen Schemaintegration nicht nötig, bzw. leichter

Wdh: Bottom-up Entwicklung

Wesentliche Merkmale Vorhandene

lokale Schemata

ALLE Daten sollen integriert werden

Deshalb Schema-

integration

Wdh: Top-down Entwicklung

Wesentliche Merkmale Vorhandenes

globales Schema Passende lokale

Systeme werden gesucht

Deshalb LaV und Schema Mapping

Schemaintegration vs. Schema Mapping

Beide Probleme müssen strukturelle und semantische Heterogenität überwinden.

Aber: Schemaintegration liefert Schema Mapping „frei

Haus“. Zielschema hat keine eigene Semantik. Schemaintegration ist unflexibel.

Deshalb nun: Schema Mapping

Verwendung von Schema Mappings

Datentransformation

Q uellschem a

Q uelldaten

Transform ationsanfrage

Zie lschem aQ uellschem a

Transform ationsanfrageQ uelldaten Zie ldaten

M apping

Folie: Frank Legler

Schemaintegration

Schem a 2Schem a 1

in tegriertes Schem a

M apping

M apping M apping

Folie: Frank Legler

Schemaevolution

D atenQ uery (Insert/U pdate/D ele te)

verändertesSchem a

Schem a M apping

Schem aevolution

Folie: Frank Legler

Datentransformation Materialisierte Integration Virtuelle Integration

Zie lschem aQ uellschem a

Transform ationsanfrageQ uelldaten Z ie ldaten

M apping

Anfrage

Überblick

(Matching) Mapping Interpretation (Transformation)

Aus [FHP+02] und aus VLDB 2002 Vortragsfolien

Schema Mapping - Definitionen (Inter-Schema) Korrespondenz

Eine Zuordnung eines oder mehrerer Elemente eines (Quell-) Schemas zu einem oder mehreren Elementen eines anderen (Ziel-) Schemas

Auch: Value-correspondence (High-level) Mapping

Eine Menge von Korrespondenzen zwischen zwei Schemas. (Low-Level) Logisches Mapping

Logische Übersetzung eines oder mehrerer Mappings, die den Integritätsbedingungen beider Schemas gehorcht und die Intention des Nutzers wiederspiegelt.

Interpretation Übersetzung eines Mappings in ein oder mehrere logische Mappings Übersetzung eines logischen Mappings in eine Transformationsanfrage

Transformationsanfrage Anfrage in einer Anfragesprache (z.B. SQL), die Daten des Quellschemas in

die Struktur des Zielschemas überführt

Wdh: Schematische Heterogenität

Struktur Modellierung

Relation vs. Attribut Attribut vs. Wert Relation vs. Wert

Benennung Relationen Attribute

Normalisiert vs. Denormalisiert Geschachtelt vs. Fremdschlüssel

Motivation Datentransformation zwischen heterogenen

Schemas Altes aber immer wiederkehrendes Problem Üblicherweise schreiben Experten komplexe Anfragen oder

Programme Zeitintensiv Experte für die Domäne, für Schemata und für Anfrage XML macht alles noch schwieriger

XML Schema, XQuery Idee: Automatisierung

Gegeben: Zwei Schemata und ein high-level Mapping dazwischen.

Gesucht: Anfrage zur Datentransformation

Motivation – Probleme

Generierung der „richtigen“ Anfrage unter Berücksichtigung der Schemata und des Mappings

Garantie, dass die transformierten Daten dem Zielschema entsprechen

Effiziente Datentransformation Für Materialisierung (Ausführung, inkrementell) Für virtuelle Integration (query-unfolding)

Hier: Nur Effektivität, nicht Effizienz

Motivation – Weitere Probleme Geschachtelte Strukturen

unterstützen Geschachteltes

relationales Modell XML Geschachtelte

Integritätsbedingungen Korrespondenzen

Nutzerfreundlich Automatische

Entdeckung

Intention des Nutzers erkennen und repräsentieren

Semantik der Daten erhalten Assoziationen entdecken

& erhalten Schemata und deren

Integritätsbedingungen nutzen

Neue Datenwerte erzeugen Korrekte Gruppierungen

erzeugen …

Quell- schema S

Ziel- schema T

• Möchte Daten aus S• Versteht/Kennt T• Versteht nicht immer S

(High-level) Mapping

“entspricht”

Mapping Compiler

(Low-level) Logisches Mapping(Transformationsprogramm oder

Anfrage)

“entspricht”

Schema Mapping im Kontext

Quelle: [FHP+02]

Schema Mapping im Kontext

1. Schema Matching &

Korrespondenzen

2. Schema Mapping

3. Mapping Interpretation

4. Daten-transformation

Wdh: Schematische Heterogenität – Beispiel

Normalisiert vs. Denormalisiert 1:n Assoziationen zwischen Werten wird

unterschiedlich dargestellt Durch Vorkommen im gleichen Tupel Durch Schlüssel-Fremdschlüssel Beziehung

Lösung: Schema Mapping

Schema Mapping Beispiel

•ARTICLE•artPK•title•pages

•AUTHOR•artFK•name

•PUBLICATION•pubID•title•date•author

SELECT artPK AS pubID title AS title null AS date null AS authorFROM ARTICLE

UNION SELECT null AS pubID null AS title null AS date name AS author FROM AUTHOR

Schematische Heterogenität – Lösungen

SELECT artPK AS pubIDtitle AS titlenull AS datename AS author

FROM ARTICLE, AUTHORWHERE ARTICLE.artPK = AUTHOR.artFK

Schematische Heterogenität – Lösungen

SELECT artPK AS pubIDtitle AS titlenull AS datename AS author

FROM ARTICLE LEFT OUTER JOIN AUTHORON ARTICLE.artPK = AUTHOR.artFK

Gilt Schlüssel-eigenschaft?

Wdh: Schematische Heterogenität – Lösungen

•PUBLICATION•title•date•author

SELECT SK(title) AS artFK author AS name

FROM PUBLICATION

SELECT SK(title) AS artPK title AS title

null AS pagesFROM PUBLICATION

Wdh: Schematische Heterogenität – Beispiel

Geschachtelt vs. Flach 1:n Assoziationen werden unterschiedlich

dargestellt Als geschachtelte Elemente Als Schlüssel-Fremdschlüssel Beziehung

Lösung: Schema Mapping

•ARTICLE•artPK•title•pages•AUTHOR

•name

•PUBLICATION•pubID•title•author

LET $doc0 := document(“articles.xml") RETURN<root> { distinct-values ( FOR $x0 IN $doc0/authorDB/ARTICLE, $x1 IN $x0/AUTHOR RETURN

<publication> <pubID> { $x0/artPK/text() } </pubID><title> { $x0/title/text() } </title><author> { $x1/name/text() } </author></publication> )

} </root>

LET $doc0 := document(“publication.xml")RETURN<articles> { distinct-values ( FOR $x0 IN $doc0/dblp/publication RETURN <ARTICLE> <title> { $x0/title/text() } </title> { distinct-values ( FOR $x0L1 IN $doc0/dblp/publication WHERE $x0/title/text() = $x0L1/title/text() RETURN <AUTHOR> <name> { $x0L1/author/text() } </name>

</AUTHOR> )} </ARTICLE> ) } </articles>

•ARTICLE•title•AUTHOR

•name

•PUBLICATION•title•date•author

Überblick

(Matching) Mapping Interpretation

Algorithmus (Transformation)

Mapping – Das Problem Gegeben: Zwei Schemata

Unabhängig voneinander erzeugt Relational Geschachtelt Mit Integritätsbedingungen (Schlüssel/Fremdschlüssel) Stellen teilweise unterschiedliche Daten dar

Gegeben: Eine Menge von Korrespondenzen zwischen den Schemata

Gesucht: Anfrage, die Daten des einen in Daten des anderen Schemas transformiert, wobei Semantik des Quellschemas erhalten bleibt, Integritätsbedingungen des Zielschemas berücksichtigt werden, und möglichst alle Korrespondenzen berücksichtigt werden.

Relationale vs. XML Schemata

Relationale Schemata Flach

XML Schemata Flach oder geschachtelt

Mapping – Beispiel

haushaltDB stadtHaushalt stadt: string

organisationen org orgID: integer

orgname: string

einnahmen einnahme spendeID: integer

proj: string

buchungID: integer

buchungen buchung buchungID: integer

datum: date

menge: decimal

spendenDB firmen firma firmaID: integer

stadt: string

spenden spende firmaID: integer

spendeID: integer

betrag: decimal

projekt: string

spender: string

Quelle für Beispiel: [FHP+02]

orgname: string

proj: string

buchungID: integer

datum: date

menge: decimal

stadt: string

spendeID: integer

betrag: decimal

projekt: string

spender: string

Interpretation:- Erzeuge für jede firma in spendenDB. eine org in haushaltDB.- orgID muss „erfunden“ werden- stadt muss „erfunden“ werden

orgname: string

proj: string

buchungID: integer

datum: date

menge: decimal

stadt: string

spendeID: integer

betrag: decimal

projekt: string

spender: string

Interpretation:- Erzeuge für jede firma in spendenDB. eine org in haushaltDB.- stadt muss „erfunden“ werden

„Erfinden“ von Werten Zwei Gründe zum Erfinden: non-null und Identität Non-null Werte

Erfundener Wert egal Z.B. „unbekannt“ oder „null“ (oder „Berlin“)

ID Werte Skolemfunktion:

Input: n Werte (beliebige Domäne) Output: bezgl. Input eindeutiger Wert (beliebiger Domäne) Beispiel: Konkatenation aller Inputwerte als String

Wert für org.orgID nicht egal, sondern je nach firma.name eindeutig!

orgname: string

proj: string

buchungID: integer

datum: date

menge: decimal

stadt: string

spendeID: integer

betrag: decimal

projekt: string

spender: string

Interpretation:- Erzeuge für jede spendenDB.firma.stadt ein haushaltDB.stadthaushalt mit gleichem Namen.- Gruppiere jede firma unter den entsprechenden stadtHaushalt.

orgname: string

proj: string

buchungID: integer

datum: date

menge: decimal

stadt: string

spendeID: integer

betrag: decimal

projekt: string

spender: stringInterpretation:- Erzeuge für jede firma in spendenDB. eine org in haushaltDB.- Erzeuge für jede spende in spendenDB eine einnahme in haushaltDB- Erzeuge für jede spende in spendenDB eine buchung in haushaltDB- Gruppiere korrekt: Schachtelung & Fremdschlüssel!

orgname: string

proj: string

buchungID: integer

datum: date

menge: decimal

stadt: string

spendeID: integer

betrag: decimal

projekt: string

spender: string

Weitere Interpretation: &

Verschiedene Mapping Situationen

Team s [1, 1]

Team Nam e:string [1, 1]

Team [0, *]

ID:integer [1, 1]

Team URL:string [1, 1]

Nam e:string [1, 1]

Person [0, *]

ID:integer [1, 1]

DOB:date [0, 1]

root [1, 1]

Team Nam e:VARCHAR (10) [1, 1]

Team [0, *]

ID:VARCHAR [1, 1]

Team URL:VARCHAR (100) [0, 1]

Vornam e:VARCHAR (10) [1, 1]

Person [0, *]

ID:VARCHAR [1, 1]

Nachnam e:VARCHAR (10) [1, 1]

Team FK:INTEGER [1, 1]

Adresse

concat()

Quellschem aZielschem a

verschiedene Datentypen

2:1 Korrespondenz Attribute nicht Teil des Mappings

verschiedene Kardinalitäten

FK-Beziehung vs. Schachtelung

Folie: Frank Legler

Klassifikation von Mapping Situationen

Q uelle

M apping Situationen

Mapping S ituationen info lge fehlender K o rres pondenzen

Attribut des Q uellschemas n icht Te il des M appings

Attribut des Z ie lschemas n icht Te il des M appings

Teil e ines Schlüssel oder UN IQ UE-Constra in ts

Teil e ines F remd-schlüssels

erforderlich mit/ohne Vorgabewert

n icht erforderlich

E lement des Q uell- oder Z ie lschemas n icht Teil des M appings

Mapping Situationen, die einzelne Korrespondenzenbetreffen

Situationen in Abhängigke it von der Kard ina litaet

S ituationen in Abhängigke it vom Datentyp

Transformationsfunktionund/oder F ilter vorhanden

Zusammenhang der Q uellstrukturen

strukture lle r Zusammenhang

F remdschlüsselbasierter Zusammenhang

kein (offensichtlicher) Zusammenhang

Zusammenhang der Z ie lstrukturen

strukture lle r Zusammenhang

F remdschlüsselbasierterZusammenhang

kein (offensichtlicher) Zusammenhang

unterschied liche Strukturen in Q uelle und Z ie l

alle Kombinationen

1:1 Korrespondenzen n:1 Korrespondenzen m:n Korrespondenzen 1:n Korrespondenzen

(n icht untersucht)

Unterscheidungen je nach Zusammenhang der Q uell- und/oder Z ie lstrukturen ähnlich

Mapping Situationen, die mehr als eine Korrespondenzbetreffen

spezie lle S ituationen mit Choice-G ruppierungen

Erzeugung von Duplikaten

Element

Attribut

Z ie l

E lement

Attribut

(nur fü r A ttribute)

Folie: Frank Legler

Mapping Situationen infolge fehlender Korrespondenzen

Attribut des Quellschemasnicht Teil des Mappings

Attribut des Zielschemas nicht Teil des Mappings

Element des Quell- oderZielschemas nicht Teil desMappings

Teil eines Schlüssel oder UNIQUE-Constraints

Teil eines Fremd-schlüssels

erforderlich mit/ohneVorgabewert

nicht erforderlich

Folie: Frank Legler

nicht hier

Mapping Situationen, die einzelne Korrespondenzenbetreffen

1:1 Korrespondenzen n:1 Korrespondenzen m:n Korrespondenzen 1:n Korrespondenzen

Unterscheidungen je nachZusammenhang der Quell-und/oder Zielstrukturen

(nicht untersucht)

Quelle

Attribut

Element

(nur für Attribute)

Situationen inAbhängigkeit von derKardinalität

Transformationsfunktionund/oder Filter vorhanden

Situationen inAbhängigkeit vomDatentyp

Attribut

Element

Folie: Frank Legler

Mapping Situationen, die mehrals eine Korrespondenzbetreffen

spezielle Situationen mit Choice-Gruppierungen

unterschiedliche Strukturen in Quelle und Ziel

Zusammenhang der Zielstrukturen

struktureller Zusammenhang

Fremdschlüsselbasierter Zusammenhang

kein (offensichtlicher)Zusammenhang

Zusammenhang der Quellstrukturen

struktureller Zusammenhang

Fremdschlüsselbasierter Zusammenhang

kein (offensichtlicher)Zusammenhang

alle Kombinationen

Folie: Frank Legler

nicht hier

Überblick

Mapping – Algorithmus

Drei Schritte1. Entdeckung von

intra-Schema Assoziationen

2. Entdeckung von inter-Schema logischen Mappings

3. Anfrage-erzeugung

orgname: string

proj: string

buchungID: integer

datum: date

menge: decimal

stadt: string

spendeID: integer

betrag: decimal

projekt: string

spender: string

Entdeckung von Assoziationen Schritt 1

Intra-schema Assoziationen zwischen Schemaelementen Relationale Sichten enthalten maximale Gruppen assoziierter Elemente Jede Sicht repräsentiert eine eigene „Kategorie“ an Daten der Datenquelle Unabhängig vom Mapping (aber beschränkt auf „gemappte“ Elemente)

Quell- schema S

Ziel- schema T

Assoziationen des Quellschemas

Assoziationen des Zielschemas

Quelle: [FHP+02]

Entdeckung von Assoziationen

Start: Alle „primären“ Pfade (primary paths) Assoziationen im Schema

ohne Integritätsbedingungen Relationale Schemas

Jede Relation entspricht einem primären Pfad

Geschachtelte Schemas Attribute einer Ebene Attribute geschachtelter

Ebenen

orgname: string

proj: string

buchungID: integer

datum: date

menge: decimal

Betrachte nun Schlüssel / Fremdschlüssel (ICs)

Logische Relation Erweitere jeden

primären Pfad durch „Verfolgen“ der ICs (chase)

orgname: string

proj: string

buchungID: integer

datum: date

menge: decimal

orgname: string

proj: string

buchungID: integer

datum: date

menge: decimal

stadt: string

spendeID: integer

betrag: decimal

projekt: string

spender: string

Spielen noch keine Rolle.

Entdeckung von logischen Mappings Schritt 2

Entdecke logische Mappings zwischen Quell- und Zielschema Betrachte alle Kombinationen aus Assoziationen des

Quellschemas und Assoziationen des Zielschemas Unter Berücksichtigung aller Korrespondenzen (sofern Korrespondenzen

zwischen ihnen überhaupt existieren)

Quell- schema S

Ziel- schema T

Element - Element Korrespondenzen

Logische Mappings

Entdeckung von logischen Mappings

orgname: string

proj: string

buchungID: integer

datum: date

menge: decimal

stadt: string

spendeID: integer

betrag: decimal

projekt: string

spender: string

Ausgehende Korrespondenzen: Finden alle ein Ziel in der Kombination?

orgname: string

proj: string

buchungID: integer

datum: date

menge: decimal

stadt: string

spendeID: integer

betrag: decimal

projekt: string

spender: string

Eingehende Korrespondenzen: Stammen sie alle aus Assoziationen der Kombination?

orgname: string

proj: string

buchungID: integer

datum: date

menge: decimal

stadt: string

spendeID: integer

betrag: decimal

projekt: string

spender: string

Input des Nutzers bzw. Domänenexperten

orgname: string

proj: string

buchungID: integer

datum: date

menge: decimal

stadt: string

spendeID: integer

betrag: decimal

projekt: string

spender: string

1. Nutzer „malt“ Korrespondenzen

2. Nutzer wählt logische Mappings

(Interpretationen) aus

Erzeugung der Anfragen

Schritt 3 Erzeuge für jedes (ausgewählte) logische Mapping eine

Anfrage Auswahl und verknüpfen der entsprechenden Quelldaten Generierung der entsprechenden Zieldaten

Logisches MappingAnfrage:- entschachteln- joinen

Anfrage (target):- schachteln- splitten- Werte erfinden

Quell- schema S

Ziel- schema T

Element - Element Korrespondenzen

2 Probleme Erfinden von Werten

NULL-Werte nicht immer ausreichend. Schlüssel und passende Fremdschlüssel müssen

erzeugt werden. Schachtelung

Es soll nicht eine logische Relation (flach) materialisiert werden, sondern geschachtelte Strukturen.

Es muss entsprechend gruppiert werden.

Erfinden neuer Werte Logische Relation: buchungen Wert für buchungID wird nicht gefüllt

Entweder: Egal Oder: Not-null: Dann Default-Wert, z.B. „null“ Oder ID: Dann eindeutigen Werte erzeugen Skolemfunktion, basierend auf

allen Werten des Mappings dieser logischen Relation haushaltDB

proj: string

buchungID: integer

datum: date

menge: decimal

spendenDB spenden spende firmaID: integer

spendeID: integer

projekt: string

betrag: decimal spender: string

buchungID = Sk(betrag)

Erfinden neuer Werte Logische Relation: einnahmen, buchungen buchungID-Attribute haben keine

Korrespondenz Assoziationen gingen verloren Also neue ID erfinden Wieder: Skolemfunktion basierend auf allen

Werten des Mappings dieser logischen Relation Trick wie gehabt: Gleiche Funktion für Schlüssel

und Fremdschlüssel

haushaltDB einnahmen einnahme spendeID: integer

proj: string

buchungID: integer

datum: date

menge: decimal

spendeID: integer

projekt: string

buchungID = Sk(spendeID,projekt,betrag)

Erfinden neuer Werte

orgname: string

proj: string

buchungID: integer

datum: date

menge: decimal

stadt: string

spendeID: integer

betrag: decimal

projekt: string

spender: string

buchungID = Sk(betrag, projekt)

Frage: Warum nicht Sk(betrag,spendeID,firmaID)?

Erfinden neuer Werte

orgname: string

proj: string

buchungID: integer

datum: date

menge: decimal

stadt: string

spendeID: integer

betrag: decimal

projekt: string

spender: string

buchungID = Sk(betrag,projekt,name)

Jetzt erst recht: Warum nicht Sk(betrag,projekt,name,firmaID)?

Erfinden neuer Werte Gegenfrage: Warum nicht gleiche ALLE ungemappten Werte? Vier Antworten (von Lucian Popa)

Prinzipiell ginge das, aber Duplikate könnten entstehen

2 Spenden, mit gleichem Betrag und gleichem Projekt aber von unterschiedlichen Firmen

firmenID könnte für User völlig uninteressant sein. Mapping hätte dann die Rolle

einer Projektion, in der Duplikate fehl am Platz wären

Sie wären sogar völlig uner-klärlich für den Nutzer

Minimalität Beide Varianten sind in

Ordnung, aber eine ist kleiner:Keine Duplikate

Gruppierung Alle Attribute erhalten Werte Aber:

Assoziationen könnten verloren gehen. Neue (falsche) Assoziationen könnten erzeugt werden

Deshalb: Gruppierung notwendig Trick: Virtuelle ID Generierung mittels Skolemfunktion basierend auf allen

Werten hierarchisch über der aktuellen Relation. Im Beispiel: Jedes Tupel haushaltDB erhält ID Sk(land, stadt) Jedes weitere Tupel aus firmen mit gleichen Werten für stadt und land errechnet

gleiche ID und wird unter gleichem Element geschachtelt.

haushaltDB land: string

stadtHaushalt stadt: string

orgname: string

stadt: string

land: string

Implementationsspezifisch Abhängig von Datenmodell

Relational Relational: SQL Relational XML: SQLX (Schachtelung und tagging des

Ergebnisses)

XML Relational: XQuery oder XSLT (tags weglassen)

XML XML: XQuery oder XSLT

In Clio Erzeugung proprietärer Regeln Dann: Übersetzung der Regeln in jeweilige Anfragesprache

Erzeugung proprietärer Regeln in Clio for x in spenden

let a = x.spende.spendeID, b = x.spende.projekt return <einnahme = <spendeID = a, proj = b, buchungID = null>>

in einnahmenhaushaltDB einnahmen einnahme spendeID: integer

proj: string

buchungID: integer

datum: date

menge: decimal

spendeID: integer

projekt: string

Erzeugung proprietärer Regeln in Clio for x in spenden

let a = x.spende.spendeID, b = x.spende.projekt, c = x.spende.betrag return <einnahme = <spendeID = a, proj = b, buchungID = Sk(a,b,c)>> in einnahmen, <buchung = <buchingID = Sk(a,b,c), datum = null, menge = c>> in buchungen

haushaltDB einnahmen einnahme spendeID: integer

proj: string

buchungID: integer

datum: date

menge: decimal

spendeID: integer

projekt: string

Erzeugung der Anfragen – XQuery

for x in spendenlet a = x.spende.spendeID, b = x.spende.projekt, c = x.spende.betrag return <einnahme = <spendeID = a, proj = b, buchungID = Sk(a,b,c)>> in einnahmen, <buchung = <buchingID = Sk(a,b,c), datum = null, menge = c>> in buchungen

LET $doc0 := document("input XML file goes here")RETURN <haushaltDB> { distinct-values ( FOR $x0 IN $doc0/spendenDB/spende RETURN <einnahme> <spendeID> { $x0/spendeID/text() } </spendeID> <proj> { $x0/projekt/text() } </proj> <buchungID> { "Sk32(", $x0/betrag/text(), ", ", $x0/spendeID/text(), ", ", $x0/projekt/text(), ")" } </buchungID> </einnahme> ) } { distinct-values ( FOR $x0 IN $doc0/spendenDB/spende RETURN <buchung> <buchungID> { "Sk32(", $x0/betrag/text(), ", ", $x0/spendeID/text(), ", ", $x0/projekt/text(), ")" } </buchungID> <menge> { $x0/betrag/text() } </menge> </buchung> ) } </haushaltDB>

Erzeugung der Anfragen – SQL

for x in spendenlet a = x.spende.spendeID, b = x.spende.projekt, c = x.spende.betrag return <einnahme = <spendeID = a, proj = b, buchungID = Sk(a,b,c)>> in einnahmen, <buchung = <buchingID = Sk(a,b,c), datum = null, menge = c>> in buchungen

-- CREATE VIEW einnahme ASSELECT x0.spendeID AS spendeID, x0.projekt AS proj, RTRIM('Sk32(` CHAR(x0.betrag) || ',' || (CHAR(x0.spendeID) || ',' || CHAR(x0.projekt) || ')') AS buchungIDFROM spendenDB.spende x0------------------------------------------------------- CREATE VIEW buchung ASSELECT RTRIM('Sk32(' || CHAR(x0.betrag) || ',' || CHAR(x0.spendeID) || ',' || CHAR(x0.projekt) || ')') AS buchungID, x0.betrag AS mengeFROM spendenDB.spende x0

Einbettung in GaV/LaV Ergebnis des Schema Mapping Prozess sind Anfragen

Eine oder mehrere Anfragen pro Assoziation Relationales Modell:

Jede Ziel-Relation entspricht einem primären Pfad Verwerfe Fremdschlüssel Jede Ziel-Relation entspricht einer Assoziation Jede Anfrage (oder Vereinigung von Anfrage) liefert Daten für

eine Relation, also wie GaV. Schema Mapping leistet aber mehr!

Erzeugung von Daten für mehrere Zielrelationen zugleich Unter Berücksichtigung von Integritätsbedingungen in Quell- und

Zielschema „Kombination von LaV und GaV“: GLaV

Schematische Heterogenität

Struktur Modellierung

Relation vs. Attribut Attribut vs. Wert Relation vs. Wert

Benennung Relationen Attribute

Normalisiert vs. Denormalisiert Geschachtelt vs. Fremdschlüssel Geschachtelt vs. Flach

bisher

Higher-order Mappings

High-order Mappings

Person( Id, Vorname, Nachname,männlich,

weiblich)

Männer( Id, Vorname, Nachname)Frauen( Id, Vorname, Nachname)

Person( Id, Vorname, Nachname, Geschlecht)

Attribut vs. Wert

Relation vs. Wert

Relation vs. Attribut

High-order Mappings

Männer Vorname NachnameFrauen Vorname Nachname

Person Vorname Nachname Geschlecht

High-order Mappings

Männer Vorname NachnameFrauen Vorname Nachname

Person Vorname Nachname Geschlecht

= `m´

= `w´

Überblick

Schema Matching

Ausblick auf nächste Woche: Schema Matching erzeugt automatisch

Korrespondenzen Basierend auf

Namen der Schemaelemente (label-based) Darunterliegende Daten (instance-based) Struktur des Schemas (structure-based) Mischformen, Meta-Matcher

Siehe auch [RB01]

Zusammenfassung

Drei Schritte1. Entdeckung von

intra-Schema Assoziationen

2. Entdeckung von inter-Schema logischen Mappings

3. Anfrage-erzeugung

orgname: string

proj: string

buchungID: integer

datum: date

menge: decimal

stadt: string

spendeID: integer

betrag: decimal

projekt: string

spender: string

Überblick

Vergleich dreier Tools

Altovas MapForce IBMs Clio [IBMs WSAD] Szenario

expenseDB -> statisticsDB Definition des Mappings Generierung der Transformation Vergleich der XML Ergebnisse

XML Screenshots aus XMLSpy www.xmlspy.com

Szenario - ExpenseDB

Szenario StatisticsDB

Zu WSAD

Altovas MapForce

Zusammenfassung Informationen gehen nicht verloren Joins

werden nicht erkannt können manuell in GUI erstellt werden

Gruppierung wird nicht erkannt

IBMs Clio

Zusammenfassung Joins werden erkannt

Aber nicht erzwungen: Interpretation Gruppierung wird erkannt

IBMs WSAD

Zusammenfassung Mögliche Joins werden nicht erkannt Gruppierung wird nicht erkannt Informationen werden verworfen

Nur erste Stadt Information wird „erfunden“

Jede Organization erhält jedes Projekt

Zusammenfassung der Demo IBMs WSAD

Mögliche Joins werden nicht erkannt. Gruppierung wird nicht erkannt. Daten werden verworfen. Assoziationen zw. Daten werden „erfunden“.

Altovas MapForce Daten gehen nicht verloren. Joins werden nicht erkannt, aber können

manuell in GUI erstellt werden. Gruppierung wird nicht erkannt.

IBMs Clio Joins werden erkannt, aber nicht erzwungen:

Interpretationen möglich Gruppierung wird erkannt.

Literatur [FHP+02] Ron Fagin, Mauricio Hernandez, Lucian Popa, Renee

Miller, and Yannis Velegrakis, Translating Web Data, VLDB 2002, Hong Kong, China.

[RB01] Erhard Rahm and Philip Bernstein, A survey of approaches to automatic schema matching, VLDB Journal 10(4), 2001.

Zu der Problematik, ob Duplikate Teil des Outputs sein sollten: Ronald Fagin, Phokion G. Kolaitis, Renée J. Miller, Lucian Popa:

Data Exchange: Semantics and Query Answering. ICDT 2003: 207-224

Clio: http://www.almaden.ibm.com/software/projects/criollo/ oder http://www.cs.toronto.edu/db/clio/

informationsintegration schema mapping 3.1.2006 – 10.1.2006 felix naumann

Documents

informationsintegration schemasql

informationsintegration anwendungsszenarien 20.10.2004 felix...

informationsintegration information quality

informationsintegration etl & datenherkunft ( lineage )

generic entity resolution with...

informationsintegration global-as-view: gav 15.11.2005 felix...

informationsintegration mediator/wrapper-architektur &...

data profiling - hasso-plattner-institut · data profiling...

1 thomas naumann acat05 23.05.2005 research at desy th....

thorsten papenbrock felix naumann spark batch processing ·...

thorsten papenbrock felix naumann consistency and...

(almost) hands-off information integration for the life...

data fusion – resolving data conflicts in integration xin...

assessment methods for information quality criteria felix...

11.6.2013 felix naumann - hasso plattner institute · pdf...

informationsintegration anwendungsszenarien

informationsintegration schema matching

relationship-based duplicate detection - hu-berlin.de...

einführung informationsintegration - komplexe ... ·...

thorsten papenbrock felix naumann stream processing ·...