data mining analyse discriminante
DESCRIPTION
TRANSCRIPT
TECHNIQUES PRÉDICTIVES DU DATA MINING
MODÈLES PARAMÉTRIQUES :
ANALYSE DISCRIMINANTE CLASSIFICATION SUPERVISÉ, SCORING
MOHAMED HENY SELMI
ECOLE SUPÉRIEURE PRIVÉE D'INGÉNIERIE ET DE TECHNOLOGIES
POSITION DU PROBLÈME
Observations multidimensionnelles
réparties en k groupes définis a
priori.
Classification Supervisée
Mohamed Heny SELMI © ESPRIT [email protected]
TYPES
DESCRIPTIVE
trouver une
représentation des
individus qui sépare
le mieux les groupes
PRÉDICTIVE
trouver des règles
d’affectation des
individus à leur
groupe
Mohamed Heny SELMI © ESPRIT [email protected]
on a un ensemble d’individus caractérisés par une variable à expliquer Y qualitative et des variables explicatives Xi quantitatives
PROPRIÉTÉ DE L’ANALYSE
DISCRIMINANTE
Y variable à expliquer qualitative à k catégories
X1, X2, … , Xp variables explicatives
i. Objectfi1: Décrire Étude de la distribution des Xi/ Y
Géométrie : Analyse factorielle discriminante AFD
Tests : Analyse de variance multidimensionnelle
ii. Objectif2: Classer Étude de P(Y/ X1, X2, … , Xp )
Modélisation fonctionnelle : Approche bayésienne
Modélisation logique : Arbre de décision
Méthodes géométriques.
Mohamed Heny SELMI © ESPRIT [email protected]
PRINCIPE DE L’ANALYSE
DISCRIMINANTE
Créer une méthode pour choisir entre les combinaisons linéaires des variables celle qui maximise l'homogénéité de chaque classe (Fisher)
Théorème de Huyghens : décomposer la matrice de covariances de la population de taille n en deux matrices différentes, l'une donnant la variabilité dans chacune des k classes et l'autre la variabilité entre les k classes:
S = E + H S matrice des variances/covariances
E matrice de la variabilité inter-classes
H matrice de la variabilité intra-classes
Mohamed Heny SELMI © ESPRIT [email protected]
PRINCIPE DE L’ANALYSE
DISCRIMINANTE
Chercher des fonctions qui séparent le mieux entre les classes
des fonctions qui maximisent la variabilité inter-classes :
calculer le vecteur F qui maximise
Ft EF / FtSF
on déduit la relation :
EF = λ SF
qui devient, lorsque la matrice de covariances est inversible
S-1EF = λ F
Mohamed Heny SELMI © ESPRIT [email protected]
PRINCIPE DE L’ANALYSE
DISCRIMINANTE
Les variables qui maximise la variabilité inter-classes est donnée par XF1 :
où F1 est le vecteur propre associé à la plus grande valeur propre de la matrice S-1E.
La variabilité inter-classes associée représente ainsi la proportion λ1 de la variabilité totale.
Cette valeur est une mesure de la capacité discriminante de F1, elle sera d'autant plus importante que λ1 s'approchera de 1.
Mohamed Heny SELMI © ESPRIT [email protected]
RECHERCHE DES FACTEURS
DISCRIMINANTS
Mohamed Heny SELMI © ESPRIT [email protected]
Exemple : analyse discriminante pour k=3
RECHERCHE DES FACTEURS
DISCRIMINANTS
Mohamed Heny SELMI © ESPRIT [email protected]
Exemple : analyse discriminante pour k=3
RECHERCHE DES FACTEURS
DISCRIMINANTS
Le 1er facteur discriminant (F1) est une nouvelle variable,
combinaison linéaire des variables descriptives (centrées), dont
la variance inter-classe est maximum (ou, de façon équivalente
la variance intra-classe est minimum).
Mohamed Heny SELMI © ESPRIT [email protected]
GÉOMÉTRIQUEMENT
le 1er facteur détermine un axe dans le nuage de points (passant par l'origine) tel que les projections des points sur cet axe aient une variance inter-classe (variance des moyennes de classe) maximale.
Mohamed Heny SELMI © ESPRIT [email protected]
PROPRIÉTÉS DES
FACTEURS DISCRIMINANTS
Les facteurs sont entièrement déterminés par la matrice définie par: S-1E (vecteurs propres)
Le nombre maximum de facteurs discriminants = k– 1
La part de variance inter-classes expliquée =
[variance inter/ variance totale est décroissante entre les facteurs
successifs]
Mohamed Heny SELMI © ESPRIT [email protected]
ANALYSE DISCRIMINANTE
DESCRIPTIVE
Si 2 groupes => 1 seul facteur = axe de projection où la
séparation inter-classe est la mieux exprimée =>
coordonnées sur cet axe = scores discriminants.
Si + de 2 groupes => plan discriminant (F1) et (F2)
= plan de projection ou la variance inter-classe B (=>
dispersion des centroïdes dans le plan) sera la mieux
représentée
Mohamed Heny SELMI © ESPRIT [email protected]
ANALYSE DISCRIMINANTE
PRÉDICTIVE
Mohamed Heny SELMI © ESPRIT [email protected]
Les facteurs discriminants donnent la meilleure représentation de la séparation des k centroïdes de classe (dans un espace orthonormé) pour un individu x projeté dans l'espace des facteurs: attribuer la classe dont le centroïde est le plus proche.
détermination de 3 régions de décision (R1, R2 , R3) délimitant les points 'sensés‘ appartenir aux différentes classes
ANALYSE DISCRIMINANTE
PRÉDICTIVE
NOTIONS MATHÉMATIQUE
Distance d de 2 points x et y :
avec H : matrice intra-classes des groupes.
On classe x dans le groupe Gi pour lequel la distance au centre gi est minimale :
Mohamed Heny SELMI © ESPRIT [email protected]
)()(),²( 1 yxHyxyxd t
i
t
i
t
i
t
i
t
ii gHgxHgxHxgxHgxgxd 1111 2)()(),²(
),²(min igxd )2(max 11
i
t
i
t
i gHgxHg
ANALYSE DISCRIMINANTE
PRÉDICTIVE
NOTIONS MATHÉMATIQUE
Pour chacun des k groupes Gi, on a une fonction discriminante de Fisher :
On classe X dans le groupe pour lequel la fonction est maximale
Mohamed Heny SELMI © ESPRIT [email protected]
ppiiii XXX ,22,11, ...
EXEMPLE D’ANALYSE
DISCRIMINANTE PRÉDICTIVE
Mohamed Heny SELMI © ESPRIT [email protected]
But : construire les fonctions prédictives des groupes de fleurs selon leurs caractéristiques via une analyse discriminante