data mining seminarski - k-support anonymity based on pseudo taxonomy for outsourcing of frequent...

21
Seminarski rad TEMA: k-support anonymity based on pseudo taxonomy for outsourcing of frequent itemset mining Predmet: Data mining Profesor: Savo Tomović Student: Tamara Mijanović 1

Upload: tachkarella

Post on 11-Sep-2015

227 views

Category:

Documents


9 download

DESCRIPTION

k-support anonymity based on pseudo taxonomy for outsourcing of frequent itemset miningseminarski rad iz predmeta Data mining tj. Analticka obrada podataka

TRANSCRIPT

Seminarski rad

TEMA:

k-support anonymity based on pseudo taxonomy for outsourcing of frequent itemset mining

Predmet: Data mining

Profesor: Savo Tomovi

Student: Tamara Mijanovi

Sadraj:

Contents

31.Uvod

42.ema outsourcing-a i problemi sigurnosti

53.Opis problema:

74.Naivno rjeenje

85.ALGORITAM

125.3 k-support anonymity i taxonomy stablo

156.Dekripcija rezultata

167.Zakljuak

16Reference

1. Uvod

U posljednjih nekoliko godina, sve vei broj ljudi u razliitim poljima, kao to su poslovno okruenje, mree, bioinformatika su zainteresovani za data mining zbog njegovih obeavajuih mogunosti. Oni kojima nedostaje sturnosti u data mining-u i/ili raunarskim resursima moraju vriti outsourcing data mining zadataka profesionalnoj treoj strani. Istovremeno, napredak cloud izraunavanja olakava pruanje outsourcing usluga, posebno za zadatke koji su intenzivno izraunskog karaktera. Potrebno je napomenuti da itemset mining moe predstavljati znaajan utroak vremena ako su skupovi podataka ili obrasci dugaki.Kod problema outsourcing-a uestalog itemset mining-a, vlasnik podataka se najvie brine oko:

Ispravnosti i potpunosi rezultata miming-a;

Zatite privatnosti osjetljivih informacija, ukljuujui sirove podatke i frequent itemsets;Perturbation approach i bloom filter approach zahtijevaju rtvu preciznosti rezultata mining-a radi bolje zatite podataka, dok encryption approach omoguava dosta zatite podataka, uz ouvanje preciznosti rezultata mining-a.

Prema naem znanju, encryption approach je prvo ifrovano rjeenje za sigurnost outsourcing-a mining-a preciznih asocijativnih pravila,koje je usko povezano s outsourcing-om mining-a frequent itemset-ova jer su frequent itemset-ovi neophodni za dobijanje asocijativnih pravila. Njihov metod enkriptuje stvarne iteme pomou funkcije za mapiranje i dodaje lane iteme u enkriptovane transakcije da povea prostor za traenje inverznog mapiranja i time povea zatitu. Meutim, vrlo skoro je zapaeno da lani item-i mogu vrlo lako biti eliminisani detektovanjem male korelacije izmeu item-a i postojao je neki uspijeh u identifikovanju frequent itemset-ova.Izazov u zatiti privatnosti outsourcing mining-a estih itemset-ova je u tome to, poto je trea strana profesionalac u data mining-u, moe da stekne znanje o frequent itemset-ovima i njihovoj podrci iz prethodnog iskustva. Tada nisu samo frequent skupovi klju ka dekripciji ve i informacije o njihovoj podrci mogu drastino da smanje prostor pretrage za inverznom funkcijom mapiranja. Top frequent items (najei itemi) su esto jedinstveni u okviru nekog ranga podrke i zato mogu vrlo lako biti identifikovani pomou precizne ili pribline vrijednosti podrke ili opsega podrke.Branei se od napada pomou informacija o podrci, pojavio se jo jedan pristup zatite privatnosti, group based approach koji sakriva pojedinane entitete iza grupe entiteta. Postoji vie varijacija ovog pristupa,a neki su:

1. k-anonymity

2. l-diversity 3. t-closenessitd.

Ovaj pristup se primenjivao ne samo na podatke tradicionalnih baza podataka, ve i na tipove podataka kao to su grafovi ili drutvene mree.

2. ema outsourcing-a i problemi sigurnosti

Ovaj rad se osvre na problem poboljanja sigurnosti outsorcinga sa zadravanjem preciznih rezultata data mining-a. Pretpostavlja se da iskusni napada, koji e se zvati Alfa-knowledgeable attacker , poznaje ne samo alfa% frequent item-a, ve i tanu podrku za svaki item. Da bi se odbranili od Alfa-knowledgeable napadaa, koristiemo k-support anonymity pomou kojeg titimo svaki ifrovani bitni item sa k-1 drugih ifrovanih item-a sa slinom podrkom. Vlasnik podataka teko moe da zna koliko znanja napada ima o podacima, meutim, zatita protiv napada sa znanjem tane podrke takoe titi i od napada sa znanjem pribline podrke do kojeg bi napada lake doao uz pomo prethodnog znanja. Ako postoje k item-a sa istom podrkom sup(x) u enkriptovsnoj bazi, da bi se spreila jedinstvena identifikacija svakog od njih znajui tanu podrku, postoji makar k item-a sa podrkom u opsegu e [sup(x), sup(x) +]. Slino, postoji k item-a u enkriptovanoj bazi koje su este koliko i najei stvarni item. Dakle, cilj je da se ostvari k-anonimnost i zadre svi originalni frequent itemset-ovi u enkriptovanoj bazi.

Slika 1.

Pregled direktne eme za outsourcing frequent itemset mining-a. Naivno rjeenje za k-anonimnost je dodavanje dosta pojavljivanja lanih item-a u transakcijama enkriptovane baze tako da lani itemi imaju jedaku podrku kao i stvarni. Meutim ovo dovodi do nerazumno velikog prekoraenja u veliini baze kada se zahteva k-support anonymity za veliko k.

Slika 2.

Alternativni metod je korienje pseudo taxonomy drveta tako da trea strana rudari frequent itemset-ove pod generalizovanim pravilima,time traei generalizovane frequent itemset-ove.

Pseudo taxonomy je vjetaka konstrukcija koja olakava sakrivanje originalnih item-a i ostvarije bolju efikasnost u veliini podataka. Ideja se vodi time da svaki item moemo da sakrijemo ili u listu ili unitranjem voru stabla i kreiramo ostale vorove stabla kao susjede za k-support anonymity. Unutranji vor se nee direktno pojavljivati u transakcijama,ali dobija podrku kroz transakcije koje sadre njegove potomke u taxonomy drvetu. Koristei unutranje vorove moemo izbei poveavanje transakcione baze koje nastaje kada dodajemo lane item-e. Svi lani vorovi dodati su spram pseudo taxonomy stabla. Poto lani itemi nisu meusobno nezavisni, obini metod izbacivanja lanih item-a ovdje ne bi mogao da razbije ifru. Izazov je dakle kako kreorati pseudo taxonomy stablo koje omoguava k-support anonymity i osigurati da se originalni frequent itemset-ovi ouvaju.

3. Opis problema:

Neka je I skup item-a i Ti transakciona baza gdje je svaka transakcija t poskup od I. Transakcija t sadrzi skup itema (itemset) X akko je X podskup t. Podrka X u bazi Ti, u oznaci supTi(X), je broj transakcija u Ti koje sadre X. Itemset X je frekventan ako je podrka X ea ili jednaka datoj minimalnoj podrci. Problem traenja estih (frequent) itemset-ova jeste pronalaenje svih frequent itemset-ova u Ti.

Problem kojim se bavi ovaj seminarski rad je sigurnost podataka o frequent itemset-ovima od iskusnog napadaa. Napada moe da stekne znanje o bazi Ti iz prethodnog iskustva i prethodnog znanja. Definicija 1: (alfa-knowledgeable attacker)

Neka je L skup frequent itemset-ova u Ti, i alfa-L skup koji sadri alfa% frequent itemset-ova iz L. Napada je alfa-knowledgeable attacker ako poznaje alfa-L i tane informacije o podrci podrci frequent items-a.

Enkripcija originalne baze podataka je efektivan nain zatite originalnih podataka od napadaa. Kako bi osigurali tanost i potpunost rezultata mining-a, kao i sigurnost outsource-ovanih podataka, primijenjeni metod enkripcije trebalo bi da ima sljedea svojstva:

1. Neka je E (.) funkcija enkripcije, i Tn enkriptovana baza podataka gdje je N skup enkriptovanih item-a. Za bilo koji itemset X I, podrka E(X) u enkriptovanoj bazi TN jednaka je podrci X u originalnoj bazi TI , tj. supTN (E(X)) = supTI (X)

2. Postoji dekripciona funkcija D(.). Za bilo koji enkriptovani itemset Y N, D(Y ) = X ako postoji itemset X I i E(X) = Y . Inae je D(Y ) = .

3. Originalna baza TI , funkcije E(.) i D(.) su poznati samo vlasniku podataka. Napadau je teko da izvede TI , E(.) i D(.) iz znanja L i date enkriptovane baze TN.

Svojstva 1 i 2 osiguravaju da nijedan frequent itemsetnije proputen i da nijedan nefrekventan itemset nee nastati u enkriptovanoj bazi zbog enkripcije/dekripcije. Svojstvo 3 dozvoljava samo vlasniku da pravilno otkrije stvarne frequent itemset-ove iz rezultata data mining-a enkriptovane baze podataka.

napada, -knowledgeable atacker, moe da napada koristei se tanim informacijama o podrci, da bismo poveali sigurnost dodajemo k-support anonymity da sakrijemo svaki item inutar grupe pd bar k enkriptovanih item-a sa istom podrkom.Definicija 2: (k-support anonymity)

Neka je S skup osjetljivij item-a u transakcionoj bazi e TI , tj. , S I . Enkriptovana baza TN od TI zadovoljava k-support anonymity ako i samo ako za svaki osjetljivi item x S postoji najmanje k enkriptovanih item-a y N takvih da je supTN (y) = supTI (x). .

Primjer:

Slika3.

Data je originalna baza TI na Slici 3. Pretpostavimo da su beer i tea osjetljivi itemi u TI i TN na Slici 3 je enkriptovana baza od TI. TN zadovoljava 3-support anonymity jer postoje 3 enkriptovana item-a a,g i h sa podrkom 2. Napada ne moe tano da odredi identitet za beer ili tea iz TN za iteme s podrkom 2.Lema 1:

Ako skup podataka zadovoljava k1-support anonymity onda takoe zadovoljava i k2-support anonymity za svako k2, A= and A< kao to je objanjeno dalje u tekstu. A> je skup listova sa podrkom veom od supTI (xM). A= je skup vorova sa podrkom supTI (xM). A< je skup vorova sa poodrkom manjom od supTI (xM), gdje roditelji imaju podrku veu od supTI (xM). Definicija 4. (k-bud pseudo taxonomy tree, k)

Taxonomy stablo je k-bud pseudo taxonomy stablo za transakcionu bazu TI ako i samo ako svi itemi u I su na nivou listova i k |A>| + |A=| + |A prazan skup, A= je skup {p1,wine} i A< je skup {tea}.

Lema2:Ako je taxonomy stablo k1-bud stablo, onda je ono takoe i k2-bud stablo za svako k2 i roditelje vorova iz skupa A| + |A=| + |A