08/12/2002 charm 1 céline frambourg - zhao xin wu et jean-paul minh truong - axel van leeuw...
Post on 04-Apr-2015
102 Views
Preview:
TRANSCRIPT
08/12/200208/12/2002 ChARMChARM 11
Céline Frambourg - Zhao Xin WuCéline Frambourg - Zhao Xin Wuetet
Jean-Paul Minh Truong - Axel Van LeeuwJean-Paul Minh Truong - Axel Van Leeuw
Présentent l'algorithme Présentent l'algorithme
ChARMChARM(Close Association Rules Mining)(Close Association Rules Mining)
Références: Références: ChARM : An efficient Algorithm for Closed Association Rule MiningChARM : An efficient Algorithm for Closed Association Rule Mining
ZAKI, M. j., Hsiao C.-J., 1999ZAKI, M. j., Hsiao C.-J., 1999Les entrepôts de données et l’analyse de données, GODIN, R., 2002Les entrepôts de données et l’analyse de données, GODIN, R., 2002
2208/12/200208/12/2002 ChARMChARM
L'extraction de règles d'associations L'extraction de règles d'associations s'effectue en deux étapes:s'effectue en deux étapes:
Trouver l'ensemble de tous les itemsets Trouver l'ensemble de tous les itemsets fréquentsfréquents
Tester et extraire toutes les règles ayant Tester et extraire toutes les règles ayant une confiance élevée parmi ces itemsets.une confiance élevée parmi ces itemsets.
3308/12/200208/12/2002 ChARMChARM
Avantages de ChARMAvantages de ChARM
Il n'est pas nécessaire d'extraire tous les Il n'est pas nécessaire d'extraire tous les itemsets fréquentsitemsets fréquents, mais seulement , mais seulement l'ensemble des l'ensemble des itemsets fermés frequentsitemsets fermés frequents
Il n'est pas nécessaire d'extraire l'ensemble Il n'est pas nécessaire d'extraire l'ensemble de toutes les règles possiblesde toutes les règles possibles
4408/12/200208/12/2002 ChARMChARM
Particularités de ChARMParticularités de ChARM
Charm explore à la fois l'espace des Charm explore à la fois l'espace des itemsetsitemsets et celui des et celui des tidsetstidsets..
ChARM utilise les opérations d’union sur ChARM utilise les opérations d’union sur les itemsets et d’intersection sur les tidsetsles itemsets et d’intersection sur les tidsets
ChARM élague :ChARM élague : Les itemsets non fréquentsLes itemsets non fréquents Les itemsets non fermés.Les itemsets non fermés.
5508/12/200208/12/2002 ChARMChARM
Quelques rappels et notionsQuelques rappels et notions
Soit Soit II={1,2,…,m}={1,2,…,m} un ensemble d’ un ensemble d’itemsetsitemsets
Soit Soit TT={1,2,…,n}={1,2,…,n} un ensemble de un ensemble de tidsetstidsets ou d'identificateurs de transactions.ou d'identificateurs de transactions.
L’entrée d’une base de donnée est une L’entrée d’une base de donnée est une relation binaire : relation binaire : δ δ I x T I x T
6608/12/200208/12/2002 ChARMChARM
Une règle d'association est une Une règle d'association est une expression de la forme : expression de la forme :
La confiance d’une règle est :La confiance d’une règle est :
21 XX p
)(
)(
1
21
XXXp
7708/12/200208/12/2002 ChARMChARM
Treillis de GaloisTreillis de Galois
Un treillis un ensemble ordonné non vide Un treillis un ensemble ordonné non vide (P, (P, )) dans lequel chaque couple dans lequel chaque couple d’éléments x,y d’éléments x,y P admet un supremum P admet un supremum (join) (x (join) (x vv y) et un infimum (meet) (x y) et un infimum (meet) (x y) y)
Un treillis est complet si tous les sous-Un treillis est complet si tous les sous-ensemble Sensemble SP admettent un supremum et P admettent un supremum et un infimumun infimum
8808/12/200208/12/2002 ChARMChARM
Connexion(s) de GaloisConnexion(s) de GaloisContexte d’extraction C= (I,T, Contexte d’extraction C= (I,T, ))
Soit XSoit XI et YI et YT alors:T alors:t: I t: I T, t(X)={y T, t(X)={yT | T | xxX, xX, xy}y}i: T i: T I, i(Y)={x I, i(Y)={xI | I | yyY, xY, xy}y}
Où :Où :t(X) est l'ensemble de toutes t(X) est l'ensemble de toutes les transactions (tidset) les transactions (tidset) contenant l'itemset Xcontenant l'itemset X i(Y) est l'itemset qui est contenu i(Y) est l'itemset qui est contenu dans toutes les transactions dans toutes les transactions dans Y.dans Y.
9908/12/200208/12/2002 ChARMChARM
ThéorèmesThéorèmes
La règle La règle
est équivalente à la règle est équivalente à la règle
où q=poù q=p
Pour tout itemset X, son support est égal Pour tout itemset X, son support est égal au support de sa fermetureau support de sa fermeture
)()(21 XcXc it
q
it
21 XX p
101008/12/200208/12/2002 ChARMChARM
Propriétés de base pour les Propriétés de base pour les couples itemsets-tidsetscouples itemsets-tidsets
Soit XSoit X11 et X et X22 deux itemsets tels que X deux itemsets tels que X11≤X≤X22
qui implique que qui implique que σσ((XX11)≤)≤σσ((XX22).).
ChARM construit l’arbre des itemsets ChARM construit l’arbre des itemsets fermés fréquents en suivant quatre fermés fréquents en suivant quatre propriétés.propriétés.
111108/12/200208/12/2002 ChARMChARM
Première propriétéPremière propriété
Si t(XSi t(X11)=t(X)=t(X22) alors ) alors
t(Xt(X11XX22)=t(X)=t(X11))t(Xt(X22)=t(X)=t(X11)=t(X)=t(X22). Dans ce ). Dans ce
cas, on remplace toutes les occurrences de cas, on remplace toutes les occurrences de XX11 par X par X11XX22 et on enlève X et on enlève X22 de toutes les de toutes les
considérations ultérieures. En effet, sa considérations ultérieures. En effet, sa fermeture est la même que la fermeture de fermeture est la même que la fermeture de XX11XX22..
121208/12/200208/12/2002 ChARMChARM
Deuxième propriétéDeuxième propriété
Si t(XSi t(X11))t(Xt(X22) alors ) alors
t(Xt(X11XX22)=t(X)=t(X11))t(Xt(X22)=t(X)=t(X11)≠t(X)≠t(X22). Dans ce ). Dans ce
cas, on remplace toutes les occurrences de cas, on remplace toutes les occurrences de XX11 par X par X11XX22 mais on ne peut pas enlever mais on ne peut pas enlever
XX22 de toutes considérations ultérieures de toutes considérations ultérieures
parce que t(Xparce que t(X11)≠t(X)≠t(X22).).
131308/12/200208/12/2002 ChARMChARM
Troisième propriétéTroisième propriété
Si t(XSi t(X11))t(Xt(X22) alors ) alors
t(Xt(X11XX22)=t(X)=t(X11))t(Xt(X22)=t(X)=t(X22)≠t(X)≠t(X11). Dans ce ). Dans ce
cas, on remplace toutes les occurrences de cas, on remplace toutes les occurrences de XX22 par X par X11XX22 mais on ne peut pas enlever mais on ne peut pas enlever
XX11 de toutes considérations ultérieures de toutes considérations ultérieures
parce que t(Xparce que t(X22)≠t(X)≠t(X11).).
141408/12/200208/12/2002 ChARMChARM
Quatrième propriétéQuatrième propriété
Si t(XSi t(X11)≠t(X)≠t(X22) alors ) alors
t(Xt(X11XX22)=t(X)=t(X11))t(Xt(X22)≠t(X)≠t(X11)≠t(X)≠t(X22). Dans ce ). Dans ce
cas, on ne peut rien éliminer parce qu’à la cas, on ne peut rien éliminer parce qu’à la fois Xfois X11 et X et X22 ont une fermeture différentes. ont une fermeture différentes.
Par contre, on ajoute le nœud XPar contre, on ajoute le nœud X11XX22 avec avec
son tidset associé qui est :son tidset associé qui est :
t(Xt(X11XX22)=t(X)=t(X11))t(Xt(X22))
151508/12/200208/12/2002 ChARMChARM
Contexte d’extractionContexte d’extraction
161608/12/200208/12/2002 ChARMChARM
Pseudo code de l’algorithmePseudo code de l’algorithme
171708/12/200208/12/2002 ChARMChARM
Construction de l’arbre des Construction de l’arbre des itemsets fermés fréquentsitemsets fermés fréquents
Ax1345 Dx2456 Tx1356 Wx12345 Cx123456
{}x123456
On commence par mettre les 1-itemsets ainsi que
leurs tidsets associés.
181808/12/200208/12/2002 ChARMChARM
Construction de l’arbre des Construction de l’arbre des itemsets fermés fréquentsitemsets fermés fréquents
ADx45
Ax1345 Dx2456 Tx1356 Wx12345 Cx123456
{}x123456
t(A) ≠ t(D) =>On utilise la propriété 4
191908/12/200208/12/2002 ChARMChARM
Construction de l’arbre des Construction de l’arbre des itemsets fermés fréquentsitemsets fermés fréquents
ADx45
Ax1345 Dx2456 Tx1356 Wx12345 Cx123456
{}x123456
AD n’est pas un itemset fréquent donc ChARM l’élague
202008/12/200208/12/2002 ChARMChARM
Construction de l’arbre des Construction de l’arbre des itemsets fermés fréquentsitemsets fermés fréquents
Ax1345 Dx2456 Tx1356 Wx12345 Cx123456
ATx135
{}x123456
t(A) ≠ t(T) =>On utilise la propriété 4
212108/12/200208/12/2002 ChARMChARM
Construction de l’arbre des Construction de l’arbre des itemsets fermés fréquentsitemsets fermés fréquents
AWx1345 Dx2456 Tx1356 Wx12345 Cx123456
ATWx135
{}x123456
t(A) t(W) =>On utilise la propriété 2
222208/12/200208/12/2002 ChARMChARM
Construction de l’arbre des Construction de l’arbre des itemsets fermés fréquentsitemsets fermés fréquents
ACWx1345 Dx2456 Tx1356 Wx12345 Cx123456
ACTWx135
{}x123456
t(A) t(C) =>On utilise la propriété 2
232308/12/200208/12/2002 ChARMChARM
Construction de l’arbre des Construction de l’arbre des itemsets fermés fréquentsitemsets fermés fréquents
DTx56
ACWx1345 Dx2456 Tx1356 Wx12345 Cx123456
ACTWx135
{}x123456
t(D) ≠ t(T) =>On utilise la propriété 4
242408/12/200208/12/2002 ChARMChARM
Construction de l’arbre des Construction de l’arbre des itemsets fermés fréquentsitemsets fermés fréquents
DTx56
ACWx1345 Dx2456 Tx1356 Wx12345 Cx123456
ACTWx135
{}x123456
DT n’est pas un itemset fréquent donc ChARM l’élague
252508/12/200208/12/2002 ChARMChARM
Construction de l’arbre des Construction de l’arbre des itemsets fermés fréquentsitemsets fermés fréquents
ACWx1345 Dx2456 Tx1356 Wx12345 Cx123456
ACTWx135 DWx245
{}x123456
t(D) ≠ t(W) =>On utilise la propriété 4
262608/12/200208/12/2002 ChARMChARM
Construction de l’arbre des Construction de l’arbre des itemsets fermés fréquentsitemsets fermés fréquents
ACWx1345 CDx2456 Tx1356 Wx12345 Cx123456
ACTWx135 CDWx245
{}x123456
t(D) t(C) =>On utilise la propriété 2
272708/12/200208/12/2002 ChARMChARM
Construction de l’arbre des Construction de l’arbre des itemsets fermés fréquentsitemsets fermés fréquents
ACWx1345 CDx2456 Tx1356 Wx12345 Cx123456
ACTWx135 CDWx245
{}x123456
TWx135
t(T) ≠ t(W) =>On utilise la propriété 4
282808/12/200208/12/2002 ChARMChARM
Construction de l’arbre des Construction de l’arbre des itemsets fermés fréquentsitemsets fermés fréquents
ACWx1345 CDx2456 Tx1356 Wx12345 Cx123456
ACTWx135 CDWx245
{}x123456
TWx135
TW ⊆ ACTW et σ(TW) = σ(ACTW)
donc ChARM l’élague
292908/12/200208/12/2002 ChARMChARM
Construction de l’arbre des Construction de l’arbre des itemsets fermés fréquentsitemsets fermés fréquents
ACWx1345 Dx2456 CTx1356 Wx12345 Cx123456
ACTWx135 DWx245
{}x123456
t(T) t(C) =>On utilise la propriété 2
303008/12/200208/12/2002 ChARMChARM
Construction de l’arbre des Construction de l’arbre des itemsets fermés fréquentsitemsets fermés fréquents
ACWx1345 Dx2456 CTx1356 CWx12345 Cx123456
ACTWx135 DWx245
{}x123456
t(W) t(C) =>On utilise la propriété 2
top related