on the integration of large data banks by a powerful cataloguing method

14
© Kardkovács, Surányi, Gajdo On the integration of Large Data Banks by a Powerful Cataloguing Method Nagy adattárak integrációjának nyomában egy hatékony katalogizáló eljárással Kardkovács Zsolt – Surányi Gábor – dr. Gajdos Sándor Adatb Adatb ázisok oktatási labor ázisok oktatási labor Knowledge and Database Management Budapesti Műszaki és Gazdaságtudományi Egyetem Távközlési és Médiainformatikai Tanszék

Upload: edward

Post on 15-Jan-2016

25 views

Category:

Documents


0 download

DESCRIPTION

Adatb ázisok oktatási labor. Knowledge and Database Management. On the integration of Large Data Banks by a Powerful Cataloguing Method. Kardkovács Zsolt – Surányi Gábor – dr. Gajdos Sándor. Nagy adattárak integrációjának nyomában egy hatékony katalogizáló eljárással. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: On the integration of Large Data Banks by a Powerful Cataloguing Method

© Kardkovács, Surányi, Gajdos

On the integration of Large Data Banksby a Powerful Cataloguing Method

Nagy adattárak integrációjának nyomábanegy hatékony katalogizáló eljárással

Kardkovács Zsolt – Surányi Gábor – dr. Gajdos Sándor

AdatbAdatbázisok oktatási laborázisok oktatási laborKnowledge and Database Management

Budapesti Műszaki és Gazdaságtudományi EgyetemTávközlési és Médiainformatikai Tanszék

Page 2: On the integration of Large Data Banks by a Powerful Cataloguing Method

2003. október 2.Neumann János emlékkonfencia

2

© Kardkovács, Surányi, Gajdos

Miről lesz szó?

• A probléma környezete – megoldandó feladatok

• A megoldás ötlete – elméleti alapok

• A megoldás finomítása

• Katalogizáló eljárás megvalósítása

• Katalogizáló eljárás alapműveleteiről

• Tapasztalatok

Page 3: On the integration of Large Data Banks by a Powerful Cataloguing Method

2003. október 2.Neumann János emlékkonfencia

3

© Kardkovács, Surányi, Gajdos

Hová forduljak?

Hová fordulhatok, ha…• egy izgalmas tudományos–fantasztikus könyvet keresek?• utazni szeretnénk egy nyugalmas, festői vidékre?• a betegségemre a leghatékonyabb gyógykezelést akarom?• szeretném megállapítani, mire képesek az egyes gének?• a legmegfelelőbb személyt akarom kiválasztani a munkára?

… és …• az információt rejtő adatbázisok rendelkezésre állnak• nincs sok időm, hogy megtaláljam a választ• nem akarok drága szakembereket fizetni ilyen információért• én akarok dönteni

Page 4: On the integration of Large Data Banks by a Powerful Cataloguing Method

2003. október 2.Neumann János emlékkonfencia

4

© Kardkovács, Surányi, Gajdos

Hogyan szolgálhatnám ki a felhasználót?

Hogyan találom meg a helyes választ, ha bár…

• rendelkezem ugyan a megfelelő adatokkal

• rendelkezésre áll az ismeretanyag, amiből megválaszolható kérdés

• tudom, hogy kell a különböző attribútumokat megfeleltetni

• az adatbázisok adatai „tiszták”

…de nem tudom, hogy…

• lekérdezhető–e (hogyan?) a jól ismert lekérdezőnyelveken

• hogyan integrálhatóak a különböző adatbázisok

• hogyan igazolható a relációkon belüli fogalmak azonossága

• két tulajdonság (kijelentés) közül melyik az erősebb

• milyen módszerekkel gyorsíthatom a keresést

Page 5: On the integration of Large Data Banks by a Powerful Cataloguing Method

2003. október 2.Neumann János emlékkonfencia

5

© Kardkovács, Surányi, Gajdos

Rendezzük az adatokat!

Elég, ha 0NF (NFNF) sémákban gondolkodunk! Pl.

R = ( könyvszerző, könyvcím )r ( {Neumann János, Oskar Morgenstern} ,

{Theory of Games and Economic Behaviour} )

NULL értékeknek az üres halmaz felel meg! (NULL = NULL?)

Helyettesíthetőség:Definiáljuk az m attribútum elemein értelmezett előrendezési relációt! Pl.

legyen a jól ismert reláció és m = könyvszerző{Neumann János} / könyvszerző {Neumann János, Oskar Morgenstern}

Page 6: On the integration of Large Data Banks by a Powerful Cataloguing Method

2003. október 2.Neumann János emlékkonfencia

6

© Kardkovács, Surányi, Gajdos

Rendezzük az összetett adatokat!

Fedés:Terjesszük ki a helyettesíthetőséget attribútumok egy M halmazára! Pl.

1 legyen a jól ismert reláció és m1 = könyvszerző2 legyen az alfabetikus rendezés és m2 = könyvcímM = { m1, m2 } = { 1, 2 }

r1: ( { Neumann János, Oskar Morgenstern }, { Theory of Game and Economic Behavior } )

r2: ( { Neumann János },{ The Computer and the Brain } )

Ekkor…

r1 / M r2

Page 7: On the integration of Large Data Banks by a Powerful Cataloguing Method

2003. október 2.Neumann János emlékkonfencia

7

© Kardkovács, Surányi, Gajdos

Vizsgáljuk meg a rendezést!

Helyettesíthetőség:Kiterjeszthetjük–e származtatott attribútumokra is?

f : X1, X2, …, Xn Y P( X1, X2, …, Xn, Y )

Bernays – Schönfinkel – Ramsey osztály (adott struktúrán):

X1 X2 …Xn Y1 Y2

P1( X1, X2, …, Y1 ) P2( X1, X2, …, Y2 ) ( Y1, Y2 )

Fedés:Viselkedése hasonlít az objektumorientált specializációra

Page 8: On the integration of Large Data Banks by a Powerful Cataloguing Method

2003. október 2.Neumann János emlékkonfencia

8

© Kardkovács, Surányi, Gajdos

Építsünk katalógust!

Építsünk gráfot az m attribútum helyettesíthetősége alapján!

V = { reláció elemei }E = { egy csúcsból mutat él egy v csúcsba,

ha m attribútumban a csúcs helyettesíthető v-vel }

Építsünk gráfot az M attribútum halmaz fedése alapján!

E = { egy csúcsból mutat él egy v csúcsba, ha M attribútum halmazon v fedi a csúcsot }

Észrevétel: Az erősen összefüggő komponensek klikkeket alkotnak.

V = { reláció klikkjei }E = { egy csúcsból mutat él egy v csúcsba,

ha a klikk egy csúcsából mutat él a v klikk egy csúcsábaés nincs olyan u klikk, amelyen át v a csúcsból elérhető }

Page 9: On the integration of Large Data Banks by a Powerful Cataloguing Method

2003. október 2.Neumann János emlékkonfencia

9

© Kardkovács, Surányi, Gajdos

Keressünk értéket a gráfban!

Algoritmus:

1. Induljunk a gyökér elemből (legyen ez a NULL elem)

2. Keresési kulcs egy elemével vizsgáljuk meg a csúcsot!

3. Az elem mentén haladjunk az irányítás mentés a gráfban addig, míg a fedés teljesül vagy véget nem ér a gráf!

4. Létezik–e másik eleme a kulcsnak?

5.a. Ha igen, akkor vedd a kulcs újabb elemét5.b. Menj a 2-es pontra

6.a. Ha véget ért a gráf, akkor nincs ilyen elem6.b. Egyéb esetben a keresett elemhez jutottunk

Page 10: On the integration of Large Data Banks by a Powerful Cataloguing Method

2003. október 2.Neumann János emlékkonfencia

10

© Kardkovács, Surányi, Gajdos

Keressünk minimum értéket a gráfban!

Keressünk egy dolgozót, aki…• beszél angolul és németül• ért a számítógép–tervezéshez

Legyen tehát:

M = { nyelvtudás, gyakorlat } és

k = { {német, angol}, {számítógép–tervezés} }

Megoldás:

1. Tegyük fel a csúcs (virtuálisan) létezik a gráfban

2. A csúcsból induló (esetleg virtuális) utakon elérhető csúcsok

elemei kielégítik a kritériumot

Page 11: On the integration of Large Data Banks by a Powerful Cataloguing Method

2003. október 2.Neumann János emlékkonfencia

11

© Kardkovács, Surányi, Gajdos

Keressünk korlátos értéket a gráfban!

Keressük azokat a honvédeket, akik…• csak magyarul beszélnek• és legfeljebb tiszthelyettesi rangban szolgálnak

Legyen tehát:

M = { nyelvtudás, rangfokozat } és

k = { {magyar}, {főtörzsőrmester} }

Megoldás:

1. Tegyük fel, hogy a csúcs (virtuálisan) létezik a gráfban

2. A gyökér elem(ek)ből induló (esetleg virtuális) a csúcsba

vezető

utakon elérhető csúcsok elemei kielégítik a kritériumot

Page 12: On the integration of Large Data Banks by a Powerful Cataloguing Method

2003. október 2.Neumann János emlékkonfencia

12

© Kardkovács, Surányi, Gajdos

Keressünk hasonló értéket a gráfban!

Szeretnék egy olyan helyen nyaralni, ahol…• nyugalom van, tengerpart és múzeum• repülővel vagy hajóval megközelíthető• és 250.000Ft érték körül eljuthatok

Legyen tehát:

M = { tulajdonságok, megközelítés, ár } és

k = { {nyugalom, tengerpart, múzeum}, {repülő, hajó}, {250.000} }

Megoldás:

1. Ha a csúcs létezik a gráfban, akkor ez a tökéletes ajánlat

2. Ha nem létezik, akkor a virtuális csúcsba belépő és kilépő

éleken közvetlen elérhető ajánlatok a megfelelőek

Page 13: On the integration of Large Data Banks by a Powerful Cataloguing Method

2003. október 2.Neumann János emlékkonfencia

13

© Kardkovács, Surányi, Gajdos

Mire jutottunk?

Definiáltunk egy eljárást és módszert, amely…• általában működik az adatbázistípusokra• alkalmas adatbázisok integrált katalogizálására• kiterjeszthető származtatott attribútumokra• számítható• támogatja

a felső– és alsókorlátos keresést a hasonlósági mértékek létrehozását a hasonlósági keresést

lehetővé teszi a webszolgáltatások működtetését

Page 14: On the integration of Large Data Banks by a Powerful Cataloguing Method

2003. október 2.Neumann János emlékkonfencia

14

© Kardkovács, Surányi, Gajdos

Van kérdésük?

Kérem, tegyék fel a katalogizáló eljárással kapcsolatos kérdéseiket!

Köszönöm a megtisztelő figyelmüket!