analyses multivari´ees avec r commander (via le … · entrer le code : library(rcmdr) pour re...
TRANSCRIPT
Analyses multivariees avec R Commander(via le package FactoMineR)
Plate-forme de Support en Methodologie et Calcul Statistique (SMCS) - UCL
Cedric Taverne
Institut de Statistique, UCLVoie du Roman Pays, 20
Bureau : C113
1er fevrier 2010
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 1 / 254
Analyses multivariees avec R Commander
1 Introduction a R
2 Analyse en composantes principales
3 Analyse des correspondances multiples
4 Analyse factorielle multiple
5 Clustering
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 2 / 254
Introduction a R Qu’est ce que R ?
Analyses multivariees avec R Commander
1 Introduction a RQu’est ce que R ?Qu’est ce que R Commander ?Importer une base de donnees en R CommanderQuelques statistiques descriptives en R CommanderQuelques references pour aller plus loin en R
2 Analyse en composantes principales
3 Analyse des correspondances multiples
4 Analyse factorielle multiple
5 Clustering
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 4 / 254
Introduction a R Qu’est ce que R ?
Qu’est ce que ?
R est un langage de programmation oriente objet
R est un logiciel libre (GNU Public Licence)
R est un outil statistique puissant, flexible et collaboratif
Deux interfaces utilisees dans cette formation : RGui et R Commander
Demarrer R en salles Socrate :
Demarrer > Programmes > R > R 2.9.2
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 5 / 254
Introduction a R Qu’est ce que R ?
L’interface classique sous Windows : RGui
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 6 / 254
Introduction a R Qu’est ce que R ?
Qu’est ce que ?
R est un logiciel dynamique :
> 1 + 1
[1] 2
a = 1 + 1
> a
[1] 2
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 7 / 254
Introduction a R Qu’est ce que R ?
Qu’est ce que ?
R est un langage oriente objet :
> a = c(1, 2, 3)
> is.vector(a)
[1] TRUE
> a
[1] 1 2 3
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 8 / 254
Introduction a R Qu’est ce que R ?
Les Packages et l’Aide dans RGui
Installation d’un package sur votre ordinateur :
1 Menu RGui : Packages > Installer le(s) package(s) puisselectionner le packageDans cette formation : Rcmdr, FactoMineR, RcmdrPlugin.FactoMineR
2 Entrer le code : library(nom_du_package ) dans RGui
Utiliser l’aide de R :
Aide html sur une fonction : ?nom_de_fonction
Recherche dans l’aide html : help.search("mot cle ")
Recherche dans l’aide en ligne : RSiteSearch("mot cle ")
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 9 / 254
Introduction a R Qu’est ce que R ?
Ouvrir un script
Conseil : Sauver les scripts avec l’extension .R
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 10 / 254
Introduction a R Qu’est ce que R Commander ?
Analyses multivariees avec R Commander
1 Introduction a RQu’est ce que R ?Qu’est ce que R Commander ?Importer une base de donnees en R CommanderQuelques statistiques descriptives en R CommanderQuelques references pour aller plus loin en R
2 Analyse en composantes principales
3 Analyse des correspondances multiples
4 Analyse factorielle multiple
5 Clustering
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 11 / 254
Introduction a R Qu’est ce que R Commander ?
Qu’est ce que R Commander ?
R Commander est une interface ”clique-boutons”pour R developpee parJohn Fox. (http ://socserv.mcmaster.ca/jfox/Misc/Rcmdr/)
Pour lancer R Commander : charger le package Rcmdr
Entrer le code : library(Rcmdr)
Pour relancer R Commander : Commander()
Pour un lancement plus complet :
library(RcmdrPlugin.Export)
library(RcmdrPlugin.FactoMineR)
library(RcmdrPlugin.TeachingDemos)
options(Rcmdr=list(plugins=c("RcmdrPlugin.Export",
"RcmdrPlugin.FactoMineR", "RcmdrPlugin.TeachingDemos")))
library(Rcmdr)
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 12 / 254
Introduction a R Qu’est ce que R Commander ?
R Commander
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 13 / 254
Introduction a R Qu’est ce que R Commander ?
Les menus de R Commander
Fichier : Changer de repertoire de travail et sauver les scripts et sorties
Edition : Copier, coller...
Donnees : Importer et gerer le(s) jeu(x) de donnees, modifier des variables, etc.
Statistiques : Les principales methodes d’analyse statistique
Graphes : Tous les graphiques et leur sauvegarde
Modeles : Gestion des options des modeles (suite du menu Statistiques)
Distributions : Analyse et generation de nombreuses distributions
Export : Module d’exportation de donnees
FactoMineR : Module d’analyses multivariees
Demos : Demonstrations pour l’enseignement des statistiques
Outils : Chargement de Packages, etc.
Aide : Aide et introduction a R Commander
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 14 / 254
Introduction a R Importer une base de donnees en R Commander
Analyses multivariees avec R Commander
1 Introduction a RQu’est ce que R ?Qu’est ce que R Commander ?Importer une base de donnees en R CommanderQuelques statistiques descriptives en R CommanderQuelques references pour aller plus loin en R
2 Analyse en composantes principales
3 Analyse des correspondances multiples
4 Analyse factorielle multiple
5 Clustering
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 15 / 254
Introduction a R Importer une base de donnees en R Commander
Changer le repertoire de travail
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 16 / 254
Introduction a R Importer une base de donnees en R Commander
La base de donnees Eurojob
Donnees concernent 26 pays europeens
Informe sur la repartition (en %) des travailleurs dans 9 secteursd’activite
Source : Euromonitor (1979), European Marketing Data and Statistics, London :Euromonitor Publications, 76-77.
(http ://lib.stat.cmu.edu/DASL/Datafiles/EuropeanJobs.html)
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 17 / 254
Introduction a R Importer une base de donnees en R Commander
De SPSS a R Commander
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 18 / 254
Introduction a R Importer une base de donnees en R Commander
De SPSS a R Commander
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 19 / 254
Introduction a R Importer une base de donnees en R Commander
De SPSS a R Commander
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 20 / 254
Introduction a R Importer une base de donnees en R Commander
R Commander : Visualiser et editer une base de donnees
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 21 / 254
Introduction a R Quelques statistiques descriptives en R Commander
Analyses multivariees avec R Commander
1 Introduction a RQu’est ce que R ?Qu’est ce que R Commander ?Importer une base de donnees en R CommanderQuelques statistiques descriptives en R CommanderQuelques references pour aller plus loin en R
2 Analyse en composantes principales
3 Analyse des correspondances multiples
4 Analyse factorielle multiple
5 Clustering
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 22 / 254
Introduction a R Quelques statistiques descriptives en R Commander
La fonction summary
La fonction summary fournit un resume descriptif de chaque variable
Variables qualitative : frequencesVariables quantitative : minimum, quartiles, moyenne, maximum
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 23 / 254
Introduction a R Quelques statistiques descriptives en R Commander
La fonction numSummary
La fonction numSummary fournit des statistiques descriptives pour lesvariables selectionnees
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 24 / 254
Introduction a R Quelques statistiques descriptives en R Commander
Matrice de correlations - la fonction cor
La fonction cor fournit la matrice des correlations (Pearson, Spearman ouPartielles) entre les variables selectionnees
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 25 / 254
Introduction a R Quelques statistiques descriptives en R Commander
Tester une correlation - la fonction cor.test
La fonction cor.test fournit un test d’hypothese (uni ou bilateral) sur lacorrelation (Pearson ou Spearman) ou le Tau de Kendall entre les variablesselectionnees
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 26 / 254
Introduction a R Quelques statistiques descriptives en R Commander
Tester une correlation...
Peut-on interpreter sans risque les resultats ci-dessous ?
Il faut verifier l’hypothese de normalite posee par la statistique de Pearson !
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 27 / 254
Introduction a R Quelques statistiques descriptives en R Commander
Verifier une hypothese de normalite
Test formel QQ-plot
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 28 / 254
Introduction a R Quelques statistiques descriptives en R Commander
Verifier une hypothese de normalite
Test formelQQ-plot
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 29 / 254
Introduction a R Quelques statistiques descriptives en R Commander
Verifier une hypothese de normalite
Histogramme QQ-plot
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 30 / 254
Introduction a R Quelques statistiques descriptives en R Commander
Verifier une hypothese de normalite
Histogramme QQ-plot
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 31 / 254
Introduction a R Quelques statistiques descriptives en R Commander
Verifier une hypothese de normalite
Ajouter la fonction de densite normale correspondante :
curve(dnorm(x, mean=mean(Eurojob$Agr), sd=sd(Eurojob$Agr)), add=TRUE)
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 32 / 254
Introduction a R Quelques statistiques descriptives en R Commander
Sauver un graphe
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 33 / 254
Introduction a R Quelques references pour aller plus loin en R
Analyses multivariees avec R Commander
1 Introduction a RQu’est ce que R ?Qu’est ce que R Commander ?Importer une base de donnees en R CommanderQuelques statistiques descriptives en R CommanderQuelques references pour aller plus loin en R
2 Analyse en composantes principales
3 Analyse des correspondances multiples
4 Analyse factorielle multiple
5 Clustering
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 34 / 254
Introduction a R Quelques references pour aller plus loin en R
Quelques references pour aller plus loin avec R
Initiation au langage R avec exemples dans RGui et R Commander :http ://www.stat.ucl.ac.be/SMCS/formation/FormationsIS/support.html
Le langage de programmation S et les environnements R-Gui et S-Plussous Windows (STAT2020 - Calcul Statistique sur ordinateur) :http ://www.stat.ucl.ac.be/cours/stat2020/documents/manuelslogiciels/syllabusR.pdf
Le site officiel de R :
http ://cran.r-project.org/
Avant tout, un mot d’ordre : R est un logiciel tres flexible, il sedecouvre donc facilement par essais-erreurs...
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 35 / 254
Introduction a R Quelques references pour aller plus loin en R
Quelques references pour aller plus loin avec FactoMineR
Le site de FactoMineR :http ://factominer.free.fr/
Husson F., Le S., Pages J. (2009) Analysede donnees avec R, Rennes : PressesUniversitaires de Rennes
L’ensemble des bases de donnees exploiteesdans le bouquin :http ://factominer.free.fr/livre/
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 36 / 254
Analyse en composantes principales Petite introduction au calcul matriciel
Analyses multivariees avec R Commander
1 Introduction a R
2 Analyse en composantes principalesPetite introduction au calcul matricielLa decomposition spectrale d’une matriceL’analyse en composantes principalesL’ACP sur les donnees Eurojob
3 Analyse des correspondances multiples
4 Analyse factorielle multiple
5 Clustering
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 38 / 254
Analyse en composantes principales Petite introduction au calcul matriciel
Petite introduction au calcul matriciel
Une section pour vous aider a comprendre les notations mathematiquesdes methodes d’analyses multivariees et, par la, ce que l’on effectuecomme calculs sur les donnees
Qu’est ce qu’une matrice ?
Un tableau de donnees a deux entrees (lignes, colonnes)
Une table de contingence
Une base de donnees
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 39 / 254
Analyse en composantes principales Petite introduction au calcul matriciel
Exemples de matrices
A =
3 2 11 4 32 2 1
B =
3 1 42 2 41 2 3
Section suivante
Eurojob =
3.3 0.9 27.6 0.9 8.2 19.1 6.2 26.6 7.29.2 0.1 21.8 0.6 8.3 14.6 6.5 32.2 7.110.8 0.8 27.5 0.9 8.9 16.8 6.0 22.6 5.76.7 1.3 35.8 0.9 7.3 14.4 5.0 22.3 6.123.2 1.0 20.7 1.3 7.5 16.8 2.8 20.8 6.115.9 0.6 27.6 0.5 10.0 18.1 1.6 20.1 5.77.7 3.1 30.8 0.8 9.2 18.5 4.6 19.2 6.26.3 0.1 22.5 1.0 9.9 18.0 6.8 28.5 6.82.7 1.4 30.2 1.4 6.9 16.9 5.7 28.3 6.412.7 1.1 30.2 1.4 9.0 16.8 4.9 16.8 7.013.0 0.4 25.9 1.3 7.4 14.7 5.5 24.3 7.641.4 0.6 17.6 0.6 8.1 11.5 2.4 11.0 6.79.0 0.5 22.4 0.8 8.6 16.9 4.7 27.6 9.427.8 0.3 24.5 0.6 8.4 13.3 2.7 16.7 5.722.9 0.8 28.5 0.7 11.5 9.7 8.5 11.8 5.56.1 0.4 25.9 0.8 7.2 14.4 6.0 32.4 6.87.7 0.2 37.8 0.8 9.5 17.5 5.3 15.4 5.766.8 0.7 7.9 0.1 2.8 5.2 1.1 11.9 3.223.6 1.9 32.3 0.6 7.9 8.0 0.7 18.2 6.716.5 2.9 35.5 1.2 8.7 9.2 0.9 17.9 7.04.2 2.9 41.2 1.3 7.6 11.2 1.2 22.1 8.421.7 3.1 29.6 1.9 8.2 9.4 0.9 17.2 8.031.1 2.5 25.7 0.9 8.4 7.5 0.9 16.1 6.934.7 2.1 30.1 0.6 8.7 5.9 1.3 11.7 5.023.7 1.4 25.8 0.6 9.2 6.1 0.5 23.6 9.348.7 1.5 16.8 1.1 4.9 6.4 11.3 5.3 4.0
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 40 / 254
Analyse en composantes principales Petite introduction au calcul matriciel
Dimensions d’une matrice
Les dimensions d’une matrice informent sur sa taille
C =
3 2 4 44 1 4 21 2 1 3
3 lignes
4 colonnes
⇒ C est une matrice de dimension (3× 4)
(3 lignes × 4 colonnes )
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 41 / 254
Analyse en composantes principales Petite introduction au calcul matriciel
Transposer une matrice
Transposer une matrice, c’est la faire pivoter sur sa diagonale
F =
3 2 11 4 32 2 13 2 1
t(F ) = F′ =
3 1 2 32 4 2 21 3 1 1
Les lignes deviennent les colonnes
Les colonnes deviennent les lignes
Les dimensions d’inversent (4× 3) → (3× 4)
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 42 / 254
Analyse en composantes principales Petite introduction au calcul matriciel
Transposer un vecteur
E =
221
t(E ) = E ′ =(
2 2 1)
vecteur colonne vecteur ligne
Si la transposition n’est pas indiquee,un vecteur est toujours un vecteur colonne.
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 43 / 254
Analyse en composantes principales Petite introduction au calcul matriciel
Matrices symetriques
D =
1 0 00 2 30 3 2
D ′ =
1 0 00 2 30 3 2
= D
D est une matrice symetrique ⇔ D = D ′
Lorsque l’on transpose, rien ne change
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 44 / 254
Analyse en composantes principales Petite introduction au calcul matriciel
Matrices diagonales
E =
1 0 00 2 00 0 2
E ′ =
1 0 00 2 00 0 2
= diag (1, 2, 2)
E est une matrice symetrique et diagonale
Tous les elements non-nuls de la matrice sont sur sa diagonale
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 45 / 254
Analyse en composantes principales Petite introduction au calcul matriciel
Additions et multiplications
Un scalaire est un nombre isole en calcul matriciel
Addition d’un scalaire
3 + A = 3 +
3 2 11 4 32 2 1
=
3 + 3 3 + 2 3 + 13 + 1 3 + 4 3 + 33 + 2 3 + 2 3 + 1
=
6 5 44 7 65 5 4
Addition de deux matrices
A+D =
3 2 11 4 32 2 1
+
1 0 00 2 30 3 2
=
3 + 1 2 + 0 1 + 01 + 0 4 + 2 3 + 32 + 0 2 + 3 1 + 2
=
4 2 11 6 62 5 3
Multiplication par un scalaire
3× A = 3×
3 2 11 4 32 2 1
=
3× 3 3× 2 3× 13× 1 3× 4 3× 33× 2 3× 2 3× 1
=
9 6 33 12 96 6 3
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 46 / 254
Analyse en composantes principales Petite introduction au calcul matriciel
Produit scalaire de deux vecteurs
Attention : Multiplication 6= Produit (scalaire ou matriciel)
E ′ × F =(
2 2 1)
×
111
= 2× 1 + 2× 1 + 1× 1 = 5
On obtient un scalaire !
Que donnerait le produit dans l’ordre inverse ?
F ′ × E =(
1 1 1)
×
221
= 1× 2 + 1× 2 + 1× 1 = 5
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 47 / 254
Analyse en composantes principales Petite introduction au calcul matriciel
Produit matriciel de deux vecteurs
Et si on place le vecteur transpose derriere ?
F × E ′ =
(
111
)
× ( 2 2 1 ) =
(
1× 2 1× 2 1× 11× 2 1× 2 1× 11× 2 1× 2 1× 1
)
=
(
2 2 12 2 12 2 1
)
Attention : E × F ′ =
2 2 22 2 21 1 1
Que dire des dimensions ?
111
×
(
2 2 1)
=
2 2 12 2 12 2 1
( × ) ( × ) ( × )
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 48 / 254
Analyse en composantes principales Petite introduction au calcul matriciel
Produit matriciel de deux matrices
B × D = B D =
3 1 42 2 41 2 3
1 0 00 2 30 3 2
=
3× 1 + 1× 0 + 4× 0 3× 0 + 1× 2 + 4× 3 3× 0 + 1× 3 + 4× 22× 1 + 2× 0 + 4× 0 2× 0 + 2× 2 + 4× 3 2× 0 + 2× 3 + 4× 21× 1 + 2× 0 + 3× 0 1× 0 + 2× 2 + 3× 3 1× 0 + 2× 3 + 3× 2
1eligne de B × 1ecolonne de D 1eligne de B × 2ecolonne de D 1eligne de B × 3ecolonne de D
2eligne de B × 1ecolonne de D 2eligne de B × 2ecolonne de D 2eligne de B × 3ecolonne de D
3eligne de B × 1ecolonne de D 3eligne de B × 2ecolonne de D 3eligne de B × 3ecolonne de D
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 49 / 254
Analyse en composantes principales Petite introduction au calcul matriciel
Produit matriciel de deux matrices
Attention aux dimensions !
B D =
3 1 42 2 41 2 3
1 0 00 2 30 3 2
=
3 14 112 16 141 13 12
( × ) ( × ) ( × )
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 50 / 254
Analyse en composantes principales Petite introduction au calcul matriciel
Produit matriciel de deux matrices
Quelques regles a retenir concernant le produit de deux matrices :
Les matrices doivent avoir au moins une dimension commune
La matrice obtenue (si le calcul est possible) a pour dimensions lenombre de ligne de la premiere matrice et le nombre de colonnes de laseconde
La matrice obtenue se calcule comme suit :
Soit X une matrice (n × p) et Y une matrice (p ×m)
X Y = Z = {zik} ou zik =∑p
j=1 xij × yjk
avec i = 1, 2, ...n, j = 1, 2, ...p et k = 1, 2, ...m
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 51 / 254
Analyse en composantes principales Petite introduction au calcul matriciel
Premultiplier et postmultiplier par une matrice diagonale
diag (1, 2, 3) B =
1 0 00 2 00 0 3
3 1 42 2 41 2 3
=
3 1 44 4 83 6 9
Premultiplier par une matrice diagonale revient a multiplierles lignes uniquement !
B diag (1, 2, 3) =
3 1 42 2 41 2 3
1 0 00 2 00 0 3
=
3 2 122 4 121 4 9
Postmultiplier par une matrice diagonale revient a multiplierles colonnes uniquement !
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 52 / 254
Analyse en composantes principales Petite introduction au calcul matriciel
Inverser une matrice
L’inverse d’un nombre, c’est quoi ?
= Le nombre qui conduit a 1 par multiplication
Ex : l’inverse de 8 est 1/8 ; l’inverse de -1 est -1...
L’inverse d’une matrice, c’est quoi ?
= La matrice qui conduit a la matrice identite par produit matriciel
La matrice identite, c’est quoi ?
= Une matrice diagonale composee uniquement de 1
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 53 / 254
Analyse en composantes principales Petite introduction au calcul matriciel
La matrice identite
Matrice identite est une matrice diagonale dont la diagonale estuniquement composee de 1
I3 =
1 0 00 1 00 0 1
= diag (1, 1, 1)
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 54 / 254
Analyse en composantes principales Petite introduction au calcul matriciel
La matrice que l’on veut inverser doit :
Etre carree
Une matrice carree est une matrice dont le nombre de lignes egale lenombre de colonnes.
A =
3 2 11 4 32 2 1
C =
3 2 4 44 1 4 21 2 1 3
Etre de rang complet
Un matrice de rang complet a autant de lignes/colonnes independantesque de lignes/colonnes dans la matrice.
B =
3 1 42 2 41 2 3
D =
1 0 00 2 30 3 2
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 55 / 254
Analyse en composantes principales Petite introduction au calcul matriciel
Inverse de la matrice A
A =
3 2 11 4 32 2 1
A−1 =
−1 0 −1−2.5 −0.5 4
3 1 −5
A A−1 =
3 2 11 4 32 2 1
−1 0 −1−2.5 −0.5 4
3 1 −5
=
1 0 00 1 00 0 1
= I3
Une propriete bien utile a connaıtre :
A A−1 = A−1 A = Ip
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 56 / 254
Analyse en composantes principales Petite introduction au calcul matriciel
Exercice : Inversez la matrice ci-dessous
(
2 00 3
)(
2 00 3
)
−1
= ?
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 57 / 254
Analyse en composantes principales Petite introduction au calcul matriciel
Exercice : Inversez la matrice ci-dessous(
2 00 3
)(
2 00 3
)
−1
= ?
Piste 1 pour resoudre :(
2 00 3
) (
a bc d
)
=
(
1 00 1
)
Piste 2 pour resoudre :
2× a + 0× c = 1
2× b + 0× d = 0
0× a + 3× c = 0
0× b + 3× d = 1
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 58 / 254
Analyse en composantes principales Petite introduction au calcul matriciel
Exemple de code R pour la manipulation de matrices
A =
3 2 11 4 32 2 1
> A1 = matrix(c(3, 1, 2, 2, 4, 2, 1, 3, 1), ncol = 3)
> v1 = c(3, 1, 2)
> v2 = c(2, 4, 2)
> v3 = c(1, 3, 1)
> A2 = cbind(v1, v2, v3)
> A1
[,1] [,2] [,3]
[1,] 3 2 1
[2,] 1 4 3
[3,] 2 2 1
> A2
v1 v2 v3
[1,] 3 2 1
[2,] 1 4 3
[3,] 2 2 1
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 59 / 254
Analyse en composantes principales Petite introduction au calcul matriciel
Exemple de code R pour la manipulation de matrices
A =
3 2 11 4 32 2 1
C =
3 2 4 44 1 4 21 2 1 3
> A = A1 = matrix(c(3, 1, 2, 2, 4, 2, 1, 3, 1), ncol = 3)
> C = matrix(c(3, 4, 1, 2, 1, 2, 4, 4, 1, 4, 2, 3), nrow = 3)
Produit matriciel : C A ou C ′ A ?
> t(C)
[,1] [,2] [,3]
[1,] 3 4 1
[2,] 2 1 2
[3,] 4 4 1
[4,] 4 2 3
> t(C) %*% A
[,1] [,2] [,3]
[1,] 15 24 16
[2,] 11 12 7
[3,] 18 26 17
[4,] 20 22 13
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 60 / 254
Analyse en composantes principales La decomposition spectrale d’une matrice
Analyses multivariees avec R Commander
1 Introduction a R
2 Analyse en composantes principalesPetite introduction au calcul matricielLa decomposition spectrale d’une matriceL’analyse en composantes principalesL’ACP sur les donnees Eurojob
3 Analyse des correspondances multiples
4 Analyse factorielle multiple
5 Clustering
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 61 / 254
Analyse en composantes principales La decomposition spectrale d’une matrice
La decomposition spectrale d’une matrice
Section precedente
La decomposition spectrale d’une matrice (d’une base de donnees)consiste a rechercher son squelette en :
reorganisant l’information de maniere hierarchique(avec l’idee que l’on veut reduire le nombre de dimensions)
de sorte a discriminer au mieux les points(inertie decroissante sur les nouvelles dimensions)
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 62 / 254
Analyse en composantes principales La decomposition spectrale d’une matrice
La Decomposition spectrale d’une matrice
Les r couples de valeurs propres (λi ) et de vecteurs propres (vi ) forment ladecomposition spectrale de la matrice M.
Ils correspondent aux r solutions possibles a l’equation suivante :
Mvi = λivi
r = rang(M) = nombre minimal de lignes/colonnes independantes
Quelques proprietes interessantes :
r∑
i=1
λi = trace(M)r
∏
i=1
λi = |M| = det(M)
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 63 / 254
Analyse en composantes principales La decomposition spectrale d’une matrice
La Decomposition spectrale d’une matrice
Les vecteurs propres (vi ) sont :
orthogonaux v ′i vj = 0 pour i 6= j
normes v ′i vi = 1
→ on dit qu’ils sont orthonormes
Aucune information n’est perdue par la decomposition spectrale !
(on peut toujours reconstruire la matrice de depart)
La decomposition spectrale d’une matrice est la methode de base desanalyses factorielles (ACP, ACM, AFM, etc.)
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 64 / 254
Analyse en composantes principales L’analyse en composantes principales
Analyses multivariees avec R Commander
1 Introduction a R
2 Analyse en composantes principalesPetite introduction au calcul matricielLa decomposition spectrale d’une matriceL’analyse en composantes principalesL’ACP sur les donnees Eurojob
3 Analyse des correspondances multiples
4 Analyse factorielle multiple
5 Clustering
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 65 / 254
Analyse en composantes principales L’analyse en composantes principales
L’analyse en composantes principales
L’Analyse en Composantes Principales (ACP) consiste en unedecomposition spectrale d’une matrice particuliere :
la matrice de variances-covariances
la matrice des correlations
L’objectif reste le meme :
reorganiser l’information de maniere hierarchique(avec l’idee que l’on veut reduire le nombre de dimensions)
de sorte a discriminer au mieux les individus(variance decroissante sur les nouvelles dimensions)
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 66 / 254
Analyse en composantes principales L’analyse en composantes principales
L’analyse en Composantes Principales
Les r couples (r = rang(X ′X )) de valeurs propres (λi ) et de vecteurspropres (vi ) forment la decomposition spectrale de la matrice (X ′X ).
Il s’agit des r solutions possibles a l’equation suivante :
(X ′X )vi = λivi
Deux proprietes interessantes :∑r
i=1 λi = trace((X ′X )) =∑p
j=1 sjj = somme des variancessi l’on travaille sur la matrice de variances-covariances∑r
i=1 λi = trace((X ′X )) =∑p
j=1 rjj = psi l’on travaille sur la matrice de correlations
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 67 / 254
Analyse en composantes principales L’analyse en composantes principales
L’analyse en Composantes Principales
Les vecteurs propres obtenus vont fournir l’orientation des nouvellesdimensions, appelees Composantes Principales
Ces Composantes Principales sont hierarchisees :
λ1 ≥ λ2 ≥ ... ≥ λp (avec seulement r valeurs propres non-nulles)
la variance des projections des points (individus) sur les composantesprincipales decroıt proportionnellement aux valeurs propres associees
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 68 / 254
Analyse en composantes principales L’analyse en composantes principales
Variances-covariances ou Correlations
L’utilisation de la matrice de variances-covariances n’influence pas lesresultats tant que :
les unites des variables restent les memes
les variances des variables restent sensiblement les memes
L’utilisation de la matrice de correlations :
ne peut qu’ameliorer le resultat de l’ACP
en mettant toutes les variables sur le meme pied(pas de hierarchie a priori)
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 69 / 254
Analyse en composantes principales L’ACP sur les donnees Eurojob
Analyses multivariees avec R Commander
1 Introduction a R
2 Analyse en composantes principalesPetite introduction au calcul matricielLa decomposition spectrale d’une matriceL’analyse en composantes principalesL’ACP sur les donnees Eurojob
3 Analyse des correspondances multiples
4 Analyse factorielle multiple
5 Clustering
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 70 / 254
Analyse en composantes principales L’ACP sur les donnees Eurojob
La base de donnees Eurojob
Donnees concernent 26 pays europeens
Informe sur la repartition (en %) des travailleurs dans 9 secteursd’activite
Source : Euromonitor (1979), European Marketing Data and Statistics, London :Euromonitor Publications, 76-77.
(http ://lib.stat.cmu.edu/DASL/Datafiles/EuropeanJobs.html)
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 71 / 254
Analyse en composantes principales L’ACP sur les donnees Eurojob
la fonction row.names
La fonction row.names permet d’extraıre ou imputer des noms aux”individus”d’une matrice ou d’un data frame.
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 72 / 254
Analyse en composantes principales L’ACP sur les donnees Eurojob
Analyser les variances et covariances
Dans le cas d’une ACP, les variables sont toutes considerees commecontinues. Il faut donc :
Analyser et comparer les distributions (min, max, moyenne, variance, etc.)
summary : Statistiques > Resumes > Jeu de donnees actif
numSummary : Statistiques > Resumes > Stat. Descriptives
Analyser les correlations (ou covariances) entre variables
cor : Statistiques > Resumes > Matrice de correlations
scatterplot.matrix : Graphes > Matrice de nuages de points
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 73 / 254
Analyse en composantes principales L’ACP sur les donnees Eurojob
La fonction scatterplot.matrix
La fonction scatterplot.matrix fournit une matrice de graphes XYpermettant d’observer en un coup d’oeil tous les couples de variables.Menu R Commander : Graphes > Matrice de nuages de points
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 74 / 254
Analyse en composantes principales L’ACP sur les donnees Eurojob
La fonction scatterplot.matrix
La fonction scatterplot.matrix fournit une matrice de graphes XYpermettant d’observer en un coup d’oeil tous les couples de variables.Menu R Commander : Graphes > Matrice de nuages de points
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 75 / 254
Analyse en composantes principales L’ACP sur les donnees Eurojob
Analyser les variances et correlations
Agr Min Man PS Con SI Fin SPS TCminimum 2.70 0.10 7.90 0.10 2.80 5.20 0.50 5.30 3.20
Q1 7.70 0.52 23.00 0.60 7.53 9.25 1.22 16.25 5.70mediane 14.45 0.95 27.55 0.85 8.35 14.40 4.65 19.65 6.70moyenne 19.13 1.25 27.01 0.91 8.17 12.96 4.00 20.02 6.55
ecart-type 15.55 0.97 7.01 0.38 1.65 4.58 2.81 6.83 1.39variance 241.70 0.94 49.11 0.14 2.71 20.93 7.88 46.64 1.94
Q3 23.67 1.80 30.20 1.17 8.97 16.88 5.92 24.12 7.07maximum 66.80 3.10 41.20 1.90 11.50 19.10 11.30 32.40 9.40
Agr Min Man PS Con SI Fin SPS TCAgr 1.00 0.04 -0.67 -0.40 -0.54 -0.74 -0.22 -0.75 -0.56Min 0.04 1.00 0.44 0.40 -0.03 -0.40 -0.44 -0.28 0.16Man -0.67 0.44 1.00 0.38 0.49 0.20 -0.16 0.15 0.35
PS -0.40 0.40 0.38 1.00 0.06 0.20 0.11 0.13 0.38Con -0.54 -0.03 0.49 0.06 1.00 0.36 0.02 0.16 0.39
SI -0.74 -0.40 0.20 0.20 0.36 1.00 0.37 0.57 0.19Fin -0.22 -0.44 -0.16 0.11 0.02 0.37 1.00 0.11 -0.25
SPS -0.75 -0.28 0.15 0.13 0.16 0.57 0.11 1.00 0.57TC -0.56 0.16 0.35 0.38 0.39 0.19 -0.25 0.57 1.00
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 76 / 254
Analyse en composantes principales L’ACP sur les donnees Eurojob
L’ACP dans R Commander
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 77 / 254
Analyse en composantes principales L’ACP sur les donnees Eurojob
Les sorties de l’ACP : les valeurs propres
Deux manieres (parmi d’autres) de visualiser ces valeurs propres :
barplot(resultACP$eig[,2], names.arg=seq(1,9), xlab=NULL,
ylab="Pourcentage de variance")
plot(resultACP$eig[,2],type=’l’,xlab="Valeurs
propres",ylab="Pourcentage de variance")
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 78 / 254
Analyse en composantes principales L’ACP sur les donnees Eurojob
Les sorties de l’ACP : les valeurs propres
barplot(res$eig[,2], names.arg=seq(1,9),
xlab=NULL, ylab="Pourcentage de
variance")
plot(resultACP$eig[,2], type=’l’, xlab=
"Valeurs propres", ylab= "Pourcentage de
variance" )
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 79 / 254
Analyse en composantes principales L’ACP sur les donnees Eurojob
Combien de composantes principales retenir ?
Trois regles sont generalement proposees :
Toutes les composantes dont la valeur propre est superieure a 1
Toutes les composantes dont le pourcentage de variance est superieura (100% / nombre de variables)
Toutes les composantes se situant avant un ”coude” sur le graphe desvaleurs propres (ou des pourcentages de variance)
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 80 / 254
Analyse en composantes principales L’ACP sur les donnees Eurojob
Les sorties de l’ACP : l’analyse des variables
resultACP$var
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 81 / 254
Analyse en composantes principales L’ACP sur les donnees Eurojob
Les sorties de l’ACP : l’analyse des variables
resultACP$var
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 82 / 254
Analyse en composantes principales L’ACP sur les donnees Eurojob
Les sorties de l’ACP : l’analyse des variables
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 83 / 254
Analyse en composantes principales L’ACP sur les donnees Eurojob
Interpretation des Composantes Principales
Etape 1 : Quelles variables sont bien representees sur le plan ?
Correlation forte avec au moins une des composantes
La somme des carres des correlations avec les deux composantes duplan s’approche de 1 (vecteur proche du cercle des correlations)
Etape 2 : Composante par composante, interpretez en fonction...
de l’importance des correlations
du sens des correlations (positives, negatives)
de la contribution des variables dans la composante
de la qualite de representation des variables
mais aussi de votre connaissance sur le sujet !
Etape 3 : Interpreter en terme de cadrant (quart de plan)
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 84 / 254
Analyse en composantes principales L’ACP sur les donnees Eurojob
Interpretation des Composantes Principales
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 85 / 254
Analyse en composantes principales L’ACP sur les donnees Eurojob
Interpretation des Composantes Principales
La fonction dimdesc presente les variables les plus fortement correleesavec les composantes principales.
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 86 / 254
Analyse en composantes principales L’ACP sur les donnees Eurojob
Les sorties de l’ACP : l’analyse des individus
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 87 / 254
Analyse en composantes principales L’ACP sur les donnees Eurojob
Les sorties de l’ACP : l’analyse des individus
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 88 / 254
Analyse des correspondances multiples
Importer le jeu de donnees Ronfle.sav
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 90 / 254
Analyse des correspondances multiples Analyse factorielle des correspondances simples
Analyses multivariees avec R Commander
1 Introduction a R
2 Analyse en composantes principales
3 Analyse des correspondances multiplesAnalyse factorielle des correspondances simplesDiscretiser une variable continueAnalyse des Correspondances MultiplesL’analyse des Correspondances Multiples en R Commander
4 Analyse factorielle multiple
5 Clustering
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 91 / 254
Analyse des correspondances multiples Analyse factorielle des correspondances simples
Consommation d’alcool et de tabac
Effectifs observesTabac
TotalNon-fumeur Fumeur
Alc
ool Aucun verre 23 19 42
De 1 a 4 verres 10 23 33Plus de 4 verres 3 22 25
Total 36 64 100
Quelles relations entre ces deux variables ?
Test d’independance (chi-carre)
Force de l’association (le φ, le V de Cramer)
Analyse factorielle des correspondances
Section suivante
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 92 / 254
Analyse des correspondances multiples Analyse factorielle des correspondances simples
Test d’independance
Tester l’independance entre deux variables revient a mesurer l’ecart entrece qu’on observe et ce que l’on s’attend a observer dans une situationtheorique d’independance
Effectifs observesTabac
TotalNon-fumeur Fumeur
Alc
ool Aucun verre 23 19 42
De 1 a 4 verres 10 23 33Plus de 4 verres 3 22 25
Total 36 64 100
Effectifs attendusTabac
TotalNon-fumeur Fumeur
Alc
ool Aucun verre 15.12 26.88 42
De 1 a 4 verres 11.88 21.12 33Plus de 4 verres 9.00 16.00 25
Total 36 64 100
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 93 / 254
Analyse des correspondances multiples Analyse factorielle des correspondances simples
Test d’independance
Tester l’independance entre deux variables revient a mesurer l’ecart entrece qu’on observe et ce que l’on s’attend a observer dans une situationtheorique d’independance
Q =
I∑
i=1
J∑
j=1
(nij − eij)2
eij
≈I
∑
i=1
J∑
j=1
(nij − ni•n•j/n••)2
ni•n•j/n••
H0∼ χ2(I−1)(J−1)
H0 : Proba(i ,j) = Proba(i) Proba(j) H1 : Proba(i ,j) 6= Proba(i) Proba(j)
Si l’hypothese d’independance est rejetee (ici : p − valeur = 0.001408), ilest interessant d’observer la contribution de chaque modalite a ce rejet→ Analyse factorielle des correspondances simples
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 94 / 254
Analyse des correspondances multiples Analyse factorielle des correspondances simples
L’AFCS sur une base de donnees
On peut appliquer l’analyse des correspondances simples directement surune base de donnee (a la place d’un tableau croise) si :
Lorsque l’on additionne toutes les valeurs d’une ligne, on peut tirer duresultat une interpretation pertinente(egalement avec les autres operations mathematiques telle la moyenne)
Lorsque l’on additionne toutes les valeurs d’une colonne, on peut tirerdu resultat une interpretation pertinente(egalement avec les autres operations mathematiques telle la moyenne)
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 95 / 254
Analyse des correspondances multiples Analyse factorielle des correspondances simples
La base de donnees Eurojob
Agr Min Man PS Con SI Fin SPS TC
Belgium 3.30 0.90 27.60 0.90 8.20 19.10 6.20 26.60 7.20Denmark 9.20 0.10 21.80 0.60 8.30 14.60 6.50 32.20 7.10
France 10.80 0.80 27.50 0.90 8.90 16.80 6.00 22.60 5.70W. Germany 6.70 1.30 35.80 0.90 7.30 14.40 5.00 22.30 6.10
Ireland 23.20 1.00 20.70 1.30 7.50 16.80 2.80 20.80 6.10Italy 15.90 0.60 27.60 0.50 10.00 18.10 1.60 20.10 5.70
Luxembourg 7.70 3.10 30.80 0.80 9.20 18.50 4.60 19.20 6.20Netherlands 6.30 0.10 22.50 1.00 9.90 18.00 6.80 28.50 6.80
United Kingdom 2.70 1.40 30.20 1.40 6.90 16.90 5.70 28.30 6.40Austria 12.70 1.10 30.20 1.40 9.00 16.80 4.90 16.80 7.00Finland 13.00 0.40 25.90 1.30 7.40 14.70 5.50 24.30 7.60Greece 41.40 0.60 17.60 0.60 8.10 11.50 2.40 11.00 6.70Norway 9.00 0.50 22.40 0.80 8.60 16.90 4.70 27.60 9.40
Portugal 27.80 0.30 24.50 0.60 8.40 13.30 2.70 16.70 5.70Spain 22.90 0.80 28.50 0.70 11.50 9.70 8.50 11.80 5.50
Sweden 6.10 0.40 25.90 0.80 7.20 14.40 6.00 32.40 6.80Switzerland 7.70 0.20 37.80 0.80 9.50 17.50 5.30 15.40 5.70
Turkey 66.80 0.70 7.90 0.10 2.80 5.20 1.10 11.90 3.20Bulgaria 23.60 1.90 32.30 0.60 7.90 8.00 0.70 18.20 6.70
Czechoslovakia 16.50 2.90 35.50 1.20 8.70 9.20 0.90 17.90 7.00E. Germany 4.20 2.90 41.20 1.30 7.60 11.20 1.20 22.10 8.40
Hungary 21.70 3.10 29.60 1.90 8.20 9.40 0.90 17.20 8.00Poland 31.10 2.50 25.70 0.90 8.40 7.50 0.90 16.10 6.90
Rumania 34.70 2.10 30.10 0.60 8.70 5.90 1.30 11.70 5.00USSR 23.70 1.40 25.80 0.60 9.20 6.10 0.50 23.60 9.30
Yugoslavia 48.70 1.50 16.80 1.10 4.90 6.40 11.30 5.30 4.00
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 96 / 254
Analyse des correspondances multiples Analyse factorielle des correspondances simples
Somme et moyenne sur la base de donnees Eurojob
Agr Min Man PS Con SI Fin SPS TC Total
Belgium 3.30 0.90 27.60 0.90 8.20 19.10 6.20 26.60 7.20 100.00Denmark 9.20 0.10 21.80 0.60 8.30 14.60 6.50 32.20 7.10 100.00
France 10.80 0.80 27.50 0.90 8.90 16.80 6.00 22.60 5.70 100.00W. Germany 6.70 1.30 35.80 0.90 7.30 14.40 5.00 22.30 6.10 100.00
Ireland 23.20 1.00 20.70 1.30 7.50 16.80 2.80 20.80 6.10 100.00Italy 15.90 0.60 27.60 0.50 10.00 18.10 1.60 20.10 5.70 100.00
Luxembourg 7.70 3.10 30.80 0.80 9.20 18.50 4.60 19.20 6.20 100.00Netherlands 6.30 0.10 22.50 1.00 9.90 18.00 6.80 28.50 6.80 100.00
United Kingdom 2.70 1.40 30.20 1.40 6.90 16.90 5.70 28.30 6.40 100.00Austria 12.70 1.10 30.20 1.40 9.00 16.80 4.90 16.80 7.00 100.00Finland 13.00 0.40 25.90 1.30 7.40 14.70 5.50 24.30 7.60 100.00Greece 41.40 0.60 17.60 0.60 8.10 11.50 2.40 11.00 6.70 100.00Norway 9.00 0.50 22.40 0.80 8.60 16.90 4.70 27.60 9.40 100.00
Portugal 27.80 0.30 24.50 0.60 8.40 13.30 2.70 16.70 5.70 100.00Spain 22.90 0.80 28.50 0.70 11.50 9.70 8.50 11.80 5.50 100.00
Sweden 6.10 0.40 25.90 0.80 7.20 14.40 6.00 32.40 6.80 100.00Switzerland 7.70 0.20 37.80 0.80 9.50 17.50 5.30 15.40 5.70 100.00
Turkey 66.80 0.70 7.90 0.10 2.80 5.20 1.10 11.90 3.20 100.00Bulgaria 23.60 1.90 32.30 0.60 7.90 8.00 0.70 18.20 6.70 100.00
Czechoslovakia 16.50 2.90 35.50 1.20 8.70 9.20 0.90 17.90 7.00 100.00E. Germany 4.20 2.90 41.20 1.30 7.60 11.20 1.20 22.10 8.40 100.00
Hungary 21.70 3.10 29.60 1.90 8.20 9.40 0.90 17.20 8.00 100.00Poland 31.10 2.50 25.70 0.90 8.40 7.50 0.90 16.10 6.90 100.00
Rumania 34.70 2.10 30.10 0.60 8.70 5.90 1.30 11.70 5.00 100.00USSR 23.70 1.40 25.80 0.60 9.20 6.10 0.50 23.60 9.30 100.00
Yugoslavia 48.70 1.50 16.80 1.10 4.90 6.40 11.30 5.30 4.00 100.00Moyenne 19.13 1.25 27.01 0.91 8.17 12.96 4.00 20.02 6.55
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 97 / 254
Analyse des correspondances multiples Analyse factorielle des correspondances simples
AFCS vs ACP
En travaillant avec l’AFCS :
On change de standardisation(de centrer-reduire a une division par la racine du profil moyen)
On change de metrique(d’Euclidienne a Chi-carre)
On obtient une representation simultanee
des variables et des individus
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 98 / 254
Analyse des correspondances multiples Analyse factorielle des correspondances simples
AFCS dans R Commander : la fonction CA
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 99 / 254
Analyse des correspondances multiples Analyse factorielle des correspondances simples
Sorties de la fonction CA
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 100 / 254
Analyse des correspondances multiples Analyse factorielle des correspondances simples
Valeurs propres
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 101 / 254
Analyse des correspondances multiples Analyse factorielle des correspondances simples
Les sorties cles pour les colonnes
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 102 / 254
Analyse des correspondances multiples Analyse factorielle des correspondances simples
Les sorties cles pour les lignes
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 103 / 254
Analyse des correspondances multiples Analyse factorielle des correspondances simples
La fonction dimdesc : Description des dimensions
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 104 / 254
Analyse des correspondances multiples Analyse factorielle des correspondances simples
Analyse Factorielle des Correspondances Simples
On obtient :
Toutes les modalites des deux meta-variables representees sur un meme plan
La projection d’un profil ligne (colonne) est, a une constante pres, lamoyenne ponderee des projections de tous les profils colonnes (lignes)
Effet des relations quasi-barycentriques :
ψk(i) = ψki =1√λk
J∑
j=1
rijφkj φk(i) = φki =1√λk
I∑
i=1
cijψki
Par consequent :
Profils lignes (colonnes) proches ↔ profils semblables
Profils lignes (colonnes) loin du centre ↔ Profils eloignes du profil moyen
Deux profils ligne (indiv.) et colonnes (var.) loin du centre et proche l’un del’autre ↔ association forte et positive
Deux profils ligne (indiv.) et colonnes (var.) loin du centre et eloignes l’un del’autre ↔ association forte et negative
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 105 / 254
Analyse des correspondances multiples Analyse factorielle des correspondances simples
Sortie graphique de l’AFCS : la fonction plot.CA
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 106 / 254
Analyse des correspondances multiples Discretiser une variable continue
Analyses multivariees avec R Commander
1 Introduction a R
2 Analyse en composantes principales
3 Analyse des correspondances multiplesAnalyse factorielle des correspondances simplesDiscretiser une variable continueAnalyse des Correspondances MultiplesL’analyse des Correspondances Multiples en R Commander
4 Analyse factorielle multiple
5 Clustering
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 107 / 254
Analyse des correspondances multiples Discretiser une variable continue
Discretiser une variable continue, utile ?
Jump2back
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 108 / 254
Analyse des correspondances multiples Discretiser une variable continue
Discretiser une variable continue, utile ?
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 109 / 254
Analyse des correspondances multiples Discretiser une variable continue
Discretiser une variable continue, utile ?
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 110 / 254
Analyse des correspondances multiples Discretiser une variable continue
Discretiser une variable continue, utile ?
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 111 / 254
Analyse des correspondances multiples Discretiser une variable continue
Discretiser une variable continue, utile ?
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 112 / 254
Analyse des correspondances multiples Discretiser une variable continue
Discretiser une variable continue, utile ?
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 113 / 254
Analyse des correspondances multiples Discretiser une variable continue
Discretiser une variable continue en R Commander
Via les menus
Classes de taille egale (fonction de l’etendue)
Classes basees sur les quantiles (effectifs egaux)
Classes ’naturelles’ (algorithme k-means - cf. Clustering)
Avec la fonction cut
Classes de taille egale (fonction de l’etendue)
Classes predefinies (ex : classes d’age)
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 114 / 254
Analyse des correspondances multiples Discretiser une variable continue
Discretiser une variable continue via les menus
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 115 / 254
Analyse des correspondances multiples Discretiser une variable continue
Statistiques descriptives sur les classes
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 116 / 254
Analyse des correspondances multiples Discretiser une variable continue
Discretiser une variable continue via les menus
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 117 / 254
Analyse des correspondances multiples Discretiser une variable continue
La fonction cut
cut( x, breaks, labels=NULL,
include.lowest=FALSE, right=TRUE, ... )
x : la variable a discretiser
breaks : soit le nombre de classessoit les limites des classes sous forme vectorielle
labels : labels des classes
include.lowest : une valeur egale a la plus petite (grande) bornedoit-elle etre incluse dans la premiere (derniere) classe ? (siright=FALSE )
right : Borne fermee a droite ? (ex : (1,2] )
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 118 / 254
Analyse des correspondances multiples Discretiser une variable continue
Discretiser une variable continue via la fonction cut
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 119 / 254
Analyse des correspondances multiples Analyse des Correspondances Multiples
Analyses multivariees avec R Commander
1 Introduction a R
2 Analyse en composantes principales
3 Analyse des correspondances multiplesAnalyse factorielle des correspondances simplesDiscretiser une variable continueAnalyse des Correspondances MultiplesL’analyse des Correspondances Multiples en R Commander
4 Analyse factorielle multiple
5 Clustering
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 120 / 254
Analyse des correspondances multiples Analyse des Correspondances Multiples
Objectif de l’analyse des correspondances multiples
En ACM, l’objectif est d’obtenir une representation graphique ou...
toutes les modalites des variables initiales et les individus sontrepresentes sur un meme plan
la proximite (l’eloignement) de d’une modalite et d’un individu prendun sens intrinseque
le centre du plan ou de l’axe (le zero) a egalement du sens intrinseque
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 121 / 254
Analyse des correspondances multiples Analyse des Correspondances Multiples
La table disjonctive complete
Lorsque l’on applique une ACM, le logiciel transforme la base de donneescontenant p variables discretes (ou discretisees) en un table disjonctivecomplete (Z ) contenant Q variables binaires (avec Q =
∑pj=1 (lj − 1) ou lj
est le nombre de niveau de la variable j)
Sexe Ronfle Tabac AlcoolDisc AgeDiscr IMCDiscrFemme Ne ronfle pas Fumeur Aucun verre <40 NormalHomme Ne ronfle pas Fumeur De 1 a 4 verres <40 Insuf.Femme Ne ronfle pas Fumeur Aucun verre 50-59 Insuf.Homme Ronfle Fumeur De 1 a 4 verres 60-69 Insuf.
Sexe Ronfle Tabac Alc.1 Alc.2 Age.1 Age.2 Age.3 Age.4 IMC.1 IMC.2 IMC.21 0 1 0 0 0 0 0 0 1 0 00 0 1 1 0 0 0 0 0 0 0 01 0 1 0 0 0 1 0 0 0 0 00 1 1 1 0 0 0 1 0 0 0 0
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 122 / 254
Analyse des correspondances multiples Analyse des Correspondances Multiples
La table de Burt
Ensuite, une table de Burt (B) est formee. Il s’agit d’une sorte de table decontingence multivariee :
B = Z ′Z =
D1 Z ′1Z2 . . . Z ′1Zp
Z ′2Z1 D2...
.... . .
...Z ′pZ1 . . . . . . Dp
Avec Z ′j Zk = la table de contingence (partielle) entre la variable j et k etDj = la matrice diagonale des effectifs des (lj − 1) niveaux de la variable j
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 123 / 254
Analyse des correspondances multiples Analyse des Correspondances Multiples
Decomposition spectrale de l’ACM
C’est sa decomposition spectrale de la table de Burt (B) qui permet al’analyse des correspondances multiples.
(
1
pD−1
B B
)
φq = λqφq
Avec DB = diag(D1,D2, ...,Dp) = la diagonale de la table de Burt
Il y a Q solutions possibles a l’equation ci-dessus (avec Q =∑p
j=1 (lj − 1)ou lj est le nombre de niveau de la variable j)
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 124 / 254
Analyse des correspondances multiples Analyse des Correspondances Multiples
Interpretation graphique
Les deux elements cles de l’interpretation des resultats graphiques del’ACM sont les relations quasi-barycentriques :
φq =1
√
λq
D−1B Z ′ψq ψq =
1√
λq
1
pZφq
Dont on peut tirer deux grandes regles d’interpretation des graphes :
La projection d’une categorie est, a une constante pres, la moyennearithmetique des projections des individus qui la compose
La projection d’un individu est, a une constante pres, la moyennearithmetique des projections des modalites auxquelles il appartient
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 125 / 254
Analyse des correspondances multiples Analyse des Correspondances Multiples
Interpretation graphique
La projection d’une categorie est, a une constante pres, la moyennearithmetique des projections des individus qui la compose
La projection d’un individu est, a une constante pres, la moyennearithmetique des projections des modalites auxquelles il appartient
Modalites proches ↔ Beaucoup d’individus en commun ↔Association forte positive
Modalites opposees ↔ Peu d’individus en commun ↔ Associationforte negative
Le centre du graphe est le centre de gravite du nuage de points
La moyenne arithmetique des projections des individusLa moyenne ponderee des projections des modalitesConsequence : les modalites ayant beaucoup plus de poids que lesautres resteront toujours proche du centre
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 126 / 254
Analyse des correspondances multiples L’analyse des Correspondances Multiples en R Commander
Analyses multivariees avec R Commander
1 Introduction a R
2 Analyse en composantes principales
3 Analyse des correspondances multiplesAnalyse factorielle des correspondances simplesDiscretiser une variable continueAnalyse des Correspondances MultiplesL’analyse des Correspondances Multiples en R Commander
4 Analyse factorielle multiple
5 Clustering
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 127 / 254
Analyse des correspondances multiples L’analyse des Correspondances Multiples en R Commander
L’analyse des Correspondances Multiples en R Commander
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 128 / 254
Analyse des correspondances multiples L’analyse des Correspondances Multiples en R Commander
Les valeurs propres
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 129 / 254
Analyse des correspondances multiples L’analyse des Correspondances Multiples en R Commander
Les valeurs propres
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 130 / 254
Analyse des correspondances multiples L’analyse des Correspondances Multiples en R Commander
Les resultats pour les variables
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 131 / 254
Analyse des correspondances multiples L’analyse des Correspondances Multiples en R Commander
La fonction dimdesc
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 132 / 254
Analyse des correspondances multiples L’analyse des Correspondances Multiples en R Commander
La fonction plot.MCA
plot.MCA( x, axes=c(1, 2), xlim=NULL, ylim=NULL, invisible = NULL,
col.ind="blue", col.var="red", label="all", title=NULL,
habillage="none", palette=NULL, new.plot=TRUE, ...)
x : un objet resultat de la fonction MCA
axes : les numeros des facteurs que l’on desire representer
xlim et ylim : l’etendue representee des facteurs (cf. minmax dans le code)
invisible : liste de ce que l’on desire rendre invisible (”ind”, ”var”, ”ind.sup”,”quali.sup”, ”quanti.sup”)
col.ind : couleur pour les individus
col.var : couleur pour les variables
label : liste des points pour lesquels on souhaite ajouter un label (”ind”, ”var”,”ind.sup”, ”quali.sup”, ”quanti.sup”)
title : titre (entre guillemets)
habillage : ’none’ = une couleur pour les indiv., une autre pour les var. ; ’quali’= une couleur differente pour chaque variable ; position d’une variable = couleursdifferentes pour les indiv. en fonction de leur reponse
palette : liste de couleur a utiliser (ex : palette=palette(c(’black’,’red’)) )
new.plot : FALSE permet d’ajouter de nouveaux point au graphe existant
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 133 / 254
Analyse des correspondances multiples L’analyse des Correspondances Multiples en R Commander
Resultats graphiques
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 134 / 254
Analyse des correspondances multiples L’analyse des Correspondances Multiples en R Commander
Resultats graphiques
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 135 / 254
Analyse factorielle multiple Qu’est ce que l’analyse factorielle multiple ?
Analyses multivariees avec R Commander
1 Introduction a R
2 Analyse en composantes principales
3 Analyse des correspondances multiples
4 Analyse factorielle multipleQu’est ce que l’analyse factorielle multiple ?L’AFM avec R Commander
5 Clustering
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 137 / 254
Analyse factorielle multiple Qu’est ce que l’analyse factorielle multiple ?
ACP, ACM,... AFM
Variables continues ou pseudo-continues→ Analyse en composantes principales (ACP)
Variables discretes ou discretisees→ Analyse des correspondances multiples (ACM)
Mix de variables continues et discretes→ Analyse factorielle multiple (AFM)
Groupes variables continues et/ou discretes→ Analyse factorielle multiple (AFM)
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 138 / 254
Analyse factorielle multiple Qu’est ce que l’analyse factorielle multiple ?
Une generalisation des correlations canoniques
Les correlations canoniques :
Deux groupes de variables continues
L’objectif est de trouver une combinaison lineaire des variables danschaque groupe → variables canoniques
Avec la contrainte de maximiser la correlation entre ces deux variablescanoniques
Cette correlation et la representation graphique des variables initialessur le plan forme par les variables canoniques informent sur l’intensitede la relation entre les deux groupes de variables
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 139 / 254
Analyse factorielle multiple Qu’est ce que l’analyse factorielle multiple ?
Une generalisation des correlations canoniques
L’analyse factorielle multiple (AFM) :
Plusieurs groupes de variables continues ou discretes(on impose une coherence interne des groupes)
L’objectif est de trouver les axes factoriels principaux de l’ensembledes variables ainsi que ceux de chaque groupe de variables
Avec la contrainte d’egaliser l’information apportee par chaque groupe(ponderation des variables) dans l’analyse globale
L’analyse simultanee des axes factoriels principaux issus de l’ensembledes variables et des groupes ainsi que le positionnement des variablesinitiales informent sur l’intensite de la relation entre les groupes devariables et la/les structure(s) commune(s) a l’ensemble
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 140 / 254
Analyse factorielle multiple Qu’est ce que l’analyse factorielle multiple ?
Mise en oeuvre de l’analyse factorielle multiple
L’algorithme AFMULT (1) se decompose en 3 etapes :
1 ACP et/ou ACM sur chaque groupe de variables
2 Ponderation des variables en fonction de la premiere valeur propre del’ACP/ACM du groupe dont la/les variable(s) fait/font partie→ Chaque groupe apporte alors une unite d’information
3 ACP sur l’ensemble des variables en tenant compte des ponderations(les axes factoriels principaux des ACP/ACM preliminaires sontajoutes en variables illustratives)
(1) Escofier, B. and Pages, J. (1994) Multiple Factor Analysis (AFMULTpackage), Computational Statistics and Data Analysis, 18, 121-140.
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 141 / 254
Analyse factorielle multiple Qu’est ce que l’analyse factorielle multiple ?
Mise en oeuvre de l’analyse factorielle multiple
Ponderation variable k = a(k)λ(j ,1)
Ou a(k) est le poids initial de la variable k. En l’absence de specification parl’utilisateur, a(k) = 1 pour les continues et a(k) = proportion des individus quine possedent pas la caracteristique k pour les discretes.
Et λ(j , 1) est la premiere valeur propre de l’ACP/ACM preliminaire du groupe jdont la variable k fait partie
Dans toutes les directions, l’inertie maximum du nuage de point d’ungroupe est 1
La premiere valeur propre de l’ACP/ACM sur le groupe j une foispondere vaut 1
Aucun groupe ne va dominer le premier axe factoriel commun
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 142 / 254
Analyse factorielle multiple Qu’est ce que l’analyse factorielle multiple ?
Mise en oeuvre de l’analyse factorielle multiple
Groupe :Groupe 1 Groupe 2
· · · Groupe j · · · Groupe J(ex : continues) (ex : discretes)
D.1 D.2 · · ·
Variable : V.1 V.2 V.3 V.4 V.5 V.6 V.7 · · · · · · V.k · · · V.K
Individu : 12
.
.
.i
.
.
.I
Groupe 1 (continues) Groupe 2 (discretes)
Age IMC AlcoolSexe Ronfle Tabac
F H Oui Non Oui NonIndividu : 1 33 25.00 0 1 0 0 1 1 0
2 38 16.20 4 0 1 0 1 1 0...
100 46 30.02 8 0 1 1 0 0 1
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 143 / 254
Analyse factorielle multiple L’AFM avec R Commander
Analyses multivariees avec R Commander
1 Introduction a R
2 Analyse en composantes principales
3 Analyse des correspondances multiples
4 Analyse factorielle multipleQu’est ce que l’analyse factorielle multiple ?L’AFM avec R Commander
5 Clustering
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 144 / 254
Analyse factorielle multiple L’AFM avec R Commander
La fonction MFA
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 145 / 254
Analyse factorielle multiple L’AFM avec R Commander
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 146 / 254
Analyse factorielle multiple L’AFM avec R Commander
Resultats des ACP et/ou ACM preliminaires
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 147 / 254
Analyse factorielle multiple L’AFM avec R Commander
Resultats des ACP et/ou ACM preliminaires
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 148 / 254
Analyse factorielle multiple L’AFM avec R Commander
Resultats des ACP et/ou ACM preliminaires
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 149 / 254
Analyse factorielle multiple L’AFM avec R Commander
Valeurs propres de l’AFM (analyse globale)
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 150 / 254
Analyse factorielle multiple L’AFM avec R Commander
Mesure de similarite entre les groupes de variables
L’inertie des I × J projections d’individus sur un axe factoriel global peutetre decomposee en deux inerties complementaires :
l’inertie intra individuelle (Within)
l’inertie inter individuelle (Between)
Ratio d’inerties = Inertie Between / Inertie Totale
0 ≤ Ratio d’inerties ≤ 1L’axe represente une structure L’axe represente une structure
propre a un groupe commune aux differents groupes
Remarque : les ratios d’inerties ne sont pas necessairement decroissants !
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 151 / 254
Analyse factorielle multiple L’AFM avec R Commander
Mesure de similarite entre les groupes de variables
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 152 / 254
Analyse factorielle multiple L’AFM avec R Commander
Les groupes de variables sur les axes de l’AFM
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 153 / 254
Analyse factorielle multiple L’AFM avec R Commander
ACP et/ou ACM preliminaires sur les axes de l’AFM
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 154 / 254
Analyse factorielle multiple L’AFM avec R Commander
ACP et/ou ACM preliminaires sur les axes de l’AFM
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 155 / 254
Analyse factorielle multiple L’AFM avec R Commander
Le(s) groupe(s) de variables quantitatives
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 156 / 254
Analyse factorielle multiple L’AFM avec R Commander
Le(s) groupe(s) de variables quantitatives
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 157 / 254
Analyse factorielle multiple L’AFM avec R Commander
Le(s) groupe(s) de variables qualitatives
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 158 / 254
Analyse factorielle multiple L’AFM avec R Commander
Le(s) groupe(s) de variables qualitatives
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 159 / 254
Analyse factorielle multiple L’AFM avec R Commander
La fonction dimdesc
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 160 / 254
Analyse factorielle multiple L’AFM avec R Commander
L’analyse globale par les variables
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 161 / 254
Analyse factorielle multiple L’AFM avec R Commander
Resultats pour les individus
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 162 / 254
Analyse factorielle multiple L’AFM avec R Commander
Resultats pour les individus (lab.ind.moy=FALSE)
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 163 / 254
Analyse factorielle multiple L’AFM avec R Commander
Resultats pour les individus (invisible=’quali’)
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 164 / 254
Clustering
Problemes de groupes...
Groupe = ensemble d’observations (individus) partageant un profil dereponse semblable sur une ou plusieurs variable(s)
Plusieurs questions possibles :
Q1 : Existe-t-il des groupes naturels dans ma base de donnees ?
Q2 : Comment discriminer au mieux des groupes existants ?
Q3 : Dans quel groupe classer un nouveau venu ?
Q1 → Clustering
Q2, Q3 → Analyse discriminante et regression logistique
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 166 / 254
Clustering
Existe-t-il des groupes naturels dans ma base de donnees ?
Avec le clustering, on va :
repartir d’un probleme a p dimensions (p variables)
sans a priori ni hierarchie entre les variables
en se concentrant sur la structure du nuage des n points
Deux problemes a regler avant de faire cela :
Quelle regle de ressemblance, de proximite choisir ?
→ Choix de la mesure de distance
De quelle maniere proceder et avec quelles implications ?
→ Choix de l’algorithme
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 167 / 254
Clustering Choix de la mesure de distance
Analyses multivariees avec R Commander
1 Introduction a R
2 Analyse en composantes principales
3 Analyse des correspondances multiples
4 Analyse factorielle multiple
5 ClusteringChoix de la mesure de distanceChoix de l’algorithmeClustering avec R CommanderExporter des resultats en SPSS
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 168 / 254
Clustering Choix de la mesure de distance
Quelle regle de ressemblance, de proximite choisir ?
Qu’est-ce qui fait groupe ?
Une reponse formulee en terme de distance entre observations
Distance ”numerique”↔ Distance pythagoricienne
Distance ”normalisee”↔ Distance de l’ACP appliquee a une matrice de correlation
Distance ou proximite entre des profils de reponses↔ Distance χ2 de l’analyse des correspondances
Analyse de (dis)similarite d’une table disjonctive
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 169 / 254
Clustering Choix de la mesure de distance
Metrique pythagoricienne et metrique normalisee
Distance pythagoricienne : d2(x , y) = (x − y)′Ip(x − y)
Distance normalisee : d2(x , y) = (x − y)′D−1S2 (x − y)
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 170 / 254
Clustering Choix de la mesure de distance
Metrique pythagoricienne et metrique normalisee
Distance pythagoricienne : d2(x , y) = (x − y)′Ip(x − y)
Distance normalisee : d2(x , y) = (x − y)′D−1S2 (x − y)
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 171 / 254
Clustering Choix de la mesure de distance
Metrique pythagoricienne et metrique normalisee
Distance pythagoricienne : d2(x , y) = (x − y)′Ip(x − y)
Distance normalisee : d2(x , y) = (x − y)′D−1S2 (x − y)
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 172 / 254
Clustering Choix de la mesure de distance
Metrique du χ2
Distance entre deux profils lignes : d2(ri , ri ′) = (ri − ri ′)′D−1
J (ri − ri ′)
avec D−1J = diag(f −1
•1 , ..., f−1•J )
Profils lignesTabac
TotalNon-fumeur Fumeur
Alc
ool Aucun verre 0.55 0.45 1
De 1 a 4 verres 0.30 0.70 1Plus de 4 verres 0.12 0.88 1
Total 0.36 0.64 1
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 173 / 254
Clustering Choix de la mesure de distance
Metrique de similarite
Mesurer la similarite de deux observations dans une table disjonctive
ID Sexe Prof-empl Prof-indep Prof-ouvr Similarite
1 0 0 1 02 1 0 0 13 0 1 0 04 0 1 0 05 1 0 1 06 1 1 0 07 0 0 0 1... ... ... ... ...
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 174 / 254
Clustering Choix de la mesure de distance
Metrique de similarite
Mesurer la similarite de deux observations dans une table disjonctive
ID Sexe Prof-empl Prof-indep Prof-ouvr Similarite
3 0 1 0 0 3
6 1 1 0 0 3
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 175 / 254
Clustering Choix de l’algorithme
Analyses multivariees avec R Commander
1 Introduction a R
2 Analyse en composantes principales
3 Analyse des correspondances multiples
4 Analyse factorielle multiple
5 ClusteringChoix de la mesure de distanceChoix de l’algorithmeClustering avec R CommanderExporter des resultats en SPSS
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 176 / 254
Clustering Choix de l’algorithme
De quelle maniere proceder et avec quelles implications ?
Deux grandes familles d’algorithme :
Algorithmes hierarchiques
Le nombre de clusters n’est pas decide a priori
Algorithmes de partition
Le nombre de clusters est fixe a priori
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 177 / 254
Clustering Choix de l’algorithme
Les algorithmes hierarchiques
Quelques algorithmes hierarchiques :
Single Linkage (lien simple) : travaille sur les distances entre les points
Average Linkage (lien moyen) : travaille sur les distances entre lesgroupes deja formes
Ward : decompose l’inertie du nuage de points et minimise la perted’information a chaque etape
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 178 / 254
Clustering Choix de l’algorithme
Single Linkage
Single Linkage Algorithm (lien simple) : distances entre les points
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 179 / 254
Clustering Choix de l’algorithme
Single Linkage
Single Linkage Algorithm (lien simple) : distances entre les points
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 180 / 254
Clustering Choix de l’algorithme
Single Linkage
Single Linkage Algorithm (lien simple) : distances entre les points
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 181 / 254
Clustering Choix de l’algorithme
Single Linkage
Single Linkage Algorithm (lien simple) : distances entre les points
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 182 / 254
Clustering Choix de l’algorithme
Single Linkage et Average Linkage
Single Linkage Algorithm (lien simple) : distances entre les points
Average Linkage Algorithm (lien moyen) : distances entre les groupes
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 183 / 254
Clustering Choix de l’algorithme
Single Linkage et Average Linkage
Single Linkage Algorithm (lien simple) : distances entre les points
Average Linkage Algorithm (lien moyen) : distances entre les groupes
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 184 / 254
Clustering Choix de l’algorithme
Single Linkage et Average Linkage
Single Linkage Algorithm (lien simple) : distances entre les points
Average Linkage Algorithm (lien moyen) : distances entre les groupes
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 185 / 254
Clustering Choix de l’algorithme
Single Linkage et Average Linkage
Single Linkage Algorithm (lien simple) : distances entre les points
Average Linkage Algorithm (lien moyen) : distances entre les groupes
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 186 / 254
Clustering Choix de l’algorithme
Algorithme de Ward
Ward : decompose l’inertie du nuage de points et minimise la perted’information a chaque etape
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 187 / 254
Clustering Choix de l’algorithme
Algorithme de Ward
Ward : decompose l’inertie du nuage de points et minimise la perted’information a chaque etape
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 188 / 254
Clustering Choix de l’algorithme
Algorithme de Ward
Ward : decompose l’inertie du nuage de points et minimise la perted’information a chaque etape
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 189 / 254
Clustering Choix de l’algorithme
Algorithme de Ward
Ward : decompose l’inertie du nuage de points et minimise la perted’information a chaque etape
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 190 / 254
Clustering Choix de l’algorithme
Algorithme de Ward
Ward : decompose l’inertie du nuage de points et minimise la perted’information a chaque etape
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 191 / 254
Clustering Choix de l’algorithme
Les algorithmes de partition
Quelques algorithmes de partition :
Moving Centers (centres mobiles) : succession d’etapes de classementet de calcul de nouveau centre de classe (a la fin de chaque etape declassement)
K-Means (K-Moyennes) : succession d’etapes de classement et decalcul de nouveau centre de classe (apres chaque classement)
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 192 / 254
Clustering Choix de l’algorithme
Moving Centers
Moving Centers : classement (tous) → centre de classe ←
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 193 / 254
Clustering Choix de l’algorithme
Moving Centers
Moving Centers : classement (tous) → centre de classe ←
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 194 / 254
Clustering Choix de l’algorithme
Moving Centers
Moving Centers : classement (tous) → centre de classe ←
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 195 / 254
Clustering Choix de l’algorithme
Moving Centers
Moving Centers : classement (tous) → centre de classe ←
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 196 / 254
Clustering Choix de l’algorithme
Moving Centers
Moving Centers : classement (tous) → centre de classe ←
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 197 / 254
Clustering Choix de l’algorithme
Moving Centers et K-Means
Moving Centers : classement (tous) → centre de classe ←
K-Means (K-Moyennes) : classement (un seul) → centre de classe ←
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 198 / 254
Clustering Choix de l’algorithme
Moving Centers et K-Means
Moving Centers : classement (tous) → centre de classe ←
K-Means (K-Moyennes) : classement (un seul) → centre de classe ←
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 199 / 254
Clustering Choix de l’algorithme
Moving Centers et K-Means
Moving Centers : classement (tous) → centre de classe ←
K-Means (K-Moyennes) : classement (un seul) → centre de classe ←
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 200 / 254
Clustering Choix de l’algorithme
Moving Centers et K-Means
Moving Centers : classement (tous) → centre de classe ←
K-Means (K-Moyennes) : classement (un seul) → centre de classe ←
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 201 / 254
Clustering Choix de l’algorithme
Moving Centers et K-Means
Moving Centers : classement (tous) → centre de classe ←
K-Means (K-Moyennes) : classement (un seul) → centre de classe ←
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 202 / 254
Clustering Choix de l’algorithme
Moving Centers et K-Means
Moving Centers : classement (tous) → centre de classe ←
K-Means (K-Moyennes) : classement (un seul) → centre de classe ←
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 203 / 254
Clustering Choix de l’algorithme
Moving Centers et K-Means
Moving Centers : classement (tous) → centre de classe ←
K-Means (K-Moyennes) : classement (un seul) → centre de classe ←
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 204 / 254
Clustering Clustering avec R Commander
Analyses multivariees avec R Commander
1 Introduction a R
2 Analyse en composantes principales
3 Analyse des correspondances multiples
4 Analyse factorielle multiple
5 ClusteringChoix de la mesure de distanceChoix de l’algorithmeClustering avec R CommanderExporter des resultats en SPSS
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 205 / 254
Clustering Clustering avec R Commander
Le clustering avec FactoMineR
Deux manieres de faire du clustering :
Travailler sur les donnees brutes
Statistiques > Analyse multivariee > Classification > ...
Enchaıner analyse factorielle et clustering
PCA, MCA, etc. + HCPC
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 206 / 254
Clustering Clustering avec R Commander
Enchaıner analyse factorielle et clustering
Deux alternatives :
Retenir tous les facteurs de l’analyse factorielle
Conserve toute l’information
Tient compte de la nature des donnees (continue, categorielle) tout enmenant a un espace euclidien pour l’etape de classification
Conserver un nombre reduit de facteurs
Conserve l’information principale (les k premiers facteurs) et elimine lebruit
Tient compte de la nature des donnees (continue, categorielle) tout enmenant a un espace euclidien pour l’etape de classification
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 207 / 254
Clustering Clustering avec R Commander
Etape 1 : Analyse en Composantes Principales
Charger la base de donnees Eurojob.sav dans R Commander puisexecuter une ACP en conservant toutes les composantes
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 208 / 254
Clustering Clustering avec R Commander
Etape 1 : Analyse en Composantes Principales
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 209 / 254
Clustering Clustering avec R Commander
Etape 1 : Analyse en Composantes Principales
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 210 / 254
Clustering Clustering avec R Commander
Etape 2 : la fonction HCPC
HCPC(res, nb.clust=0, consol=TRUE, iter.max=10, min=3, max=NULL,
metric="euclidean", method="ward", order=TRUE,
graph.scale="inertia", nb.par=5, graph=TRUE, proba=0.05, ...)
res : n’importe quel objet resultant d’une analyse factorielle ou undataframe quelconque
nb.clust : 0 si choix sur le dendrogramme, -1 si choix par R, n’importequel autre entier pour un choix fixe d’avance
consol : controle si l’etape de consolidation par K-Means est appliquee(iter.max pour le nombre d’iterations)
metric : Metrique choisie ("euclidean",...)
method : Algorithme choisi ("average", "single", "ward",...)
nb.par : Nombre de parangons edites
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 211 / 254
Clustering Clustering avec R Commander
Etape 2.1 : Clustering hierarchique sans consolidation enconservant toute l’information disponible
HCPC(res.PCA, consol=FALSE)
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 212 / 254
Clustering Clustering avec R Commander
Etape 2.1 : HCPC(res.PCA, consol=FALSE)
Cliquer sur la solution proposee (3 groupes) pour obtenir tous les graphes
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 213 / 254
Clustering Clustering avec R Commander
Etape 2.1 : HCPC(res.PCA, consol=FALSE)
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 214 / 254
Clustering Clustering avec R Commander
Etape 2.1 : HCPC(res.PCA, consol=FALSE)
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 215 / 254
Clustering Clustering avec R Commander
Etape 2.1 : HCPC(res.PCA, consol=FALSE)
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 216 / 254
Clustering Clustering avec R Commander
Etape 2.1 : HCPC(res.PCA, consol=FALSE)
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 217 / 254
Clustering Clustering avec R Commander
Etape 2.1 : HCPC(res.PCA, consol=FALSE)
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 218 / 254
Clustering Clustering avec R Commander
Etape 2.1 : HCPC(res.PCA, consol=FALSE)
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 219 / 254
Clustering Clustering avec R Commander
Etape 2.1 : HCPC(res.PCA, consol=FALSE)
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 220 / 254
Clustering Clustering avec R Commander
Etape 2.1 : HCPC(res.PCA, consol=FALSE)
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 221 / 254
Clustering Clustering avec R Commander
Etape 2.1 : HCPC(res.PCA, consol=FALSE)
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 222 / 254
Clustering Clustering avec R Commander
Etape 2.1 : HCPC(res.PCA, consol=FALSE)
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 223 / 254
Clustering Clustering avec R Commander
Etape 2.1 : HCPC(res.PCA, consol=FALSE)
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 224 / 254
Clustering Clustering avec R Commander
Etape 2.2 : Clustering hierarchique avec consolidation enconservant toute l’information disponible
HCPC(res.PCA, consol=TRUE)
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 225 / 254
Clustering Clustering avec R Commander
Etape 2.2 : HCPC(res.PCA, consol=TRUE)
Cliquer sur la solution proposee (3 groupes) pour obtenir tous les graphes
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 226 / 254
Clustering Clustering avec R Commander
Etape 2.2 : HCPC(res.PCA, consol=FALSE)
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 227 / 254
Clustering Clustering avec R Commander
Etape 2.2 : HCPC(res.PCA, consol=FALSE)
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 228 / 254
Clustering Clustering avec R Commander
Etape 2.2 : HCPC(res.PCA, consol=FALSE)
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 229 / 254
Clustering Clustering avec R Commander
Etape 2.3 : Clustering hierarchique avec un nombre reduit(4) de facteurs
On reduit le nombre de composantes principales retenues :PCA(Eurojob.PCA , scale.unit=TRUE, ncp=4, graph=FALSE)
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 230 / 254
Clustering Clustering avec R Commander
Etape 2.3 : HCPC(res.PCA2, consol=TRUE)
Cliquer sur la solution proposee (3 groupes) pour obtenir tous les graphes
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 231 / 254
Clustering Clustering avec R Commander
Etape 2.3 : HCPC(res.PCA2, consol=TRUE)
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 232 / 254
Clustering Clustering avec R Commander
Etape 2.3 : HCPC(res.PCA2, consol=TRUE)
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 233 / 254
Clustering Clustering avec R Commander
Etape 2.3 : HCPC(res.PCA2, consol=TRUE)
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 234 / 254
Clustering Clustering avec R Commander
Etape 2.4 : Clustering hierarchique avec un nombre reduit(2) de facteurs
On reduit le nombre de composantes principales retenues :PCA(Eurojob.PCA , scale.unit=TRUE, ncp=2, graph=FALSE)
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 235 / 254
Clustering Clustering avec R Commander
Etape 2.4 : HCPC(res.PCA3, consol=TRUE)
Cliquer sur la solution proposee (3 groupes) pour obtenir tous les graphes
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 236 / 254
Clustering Clustering avec R Commander
Etape 2.4 : HCPC(res.PCA3, consol=TRUE)
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 237 / 254
Clustering Clustering avec R Commander
Etape 2.4 : HCPC(res.PCA3, consol=TRUE)
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 238 / 254
Clustering Clustering avec R Commander
Etape 2.4 : HCPC(res.PCA3, consol=TRUE)
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 239 / 254
Clustering Clustering avec R Commander
HCPC : 9 CP, sans consolidation
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 240 / 254
Clustering Clustering avec R Commander
HCPC : 9 CP, avec consolidation
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 241 / 254
Clustering Clustering avec R Commander
HCPC : 4 CP, avec consolidation
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 242 / 254
Clustering Clustering avec R Commander
HCPC : 2 CP, avec consolidation
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 243 / 254
Clustering Clustering avec R Commander
HCPC : 9 CP, sans consolidation
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 244 / 254
Clustering Clustering avec R Commander
HCPC : 9 CP, avec consolidation
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 245 / 254
Clustering Clustering avec R Commander
HCPC : 4 CP, avec consolidation
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 246 / 254
Clustering Clustering avec R Commander
HCPC : 2 CP, avec consolidation
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 247 / 254
Clustering Exporter des resultats en SPSS
Analyses multivariees avec R Commander
1 Introduction a R
2 Analyse en composantes principales
3 Analyse des correspondances multiples
4 Analyse factorielle multiple
5 ClusteringChoix de la mesure de distanceChoix de l’algorithmeClustering avec R CommanderExporter des resultats en SPSS
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 248 / 254
Clustering Exporter des resultats en SPSS
Exporter le resultat du clustering en SPSS
Une fois une solution stable et satisfaisante trouvee, la fonctionwrite.foreign permet d’exporter les donnees vers SPSS, SAS, etc.
write.foreign(dataframe, datafile, codefile,
package=c("SPSS","Stata","SAS"), ...)
dataframe : le dataset a exporter
datafile : chemin et nom de fichier texte (extension .txt) a creer.Il contient la base elle-meme et est enregistre en CSV
codefile : chemin et nom de fichier syntaxe du logiciel choisi(extension .sps pour SPSS, .sas pour SAS, etc.). Il contient lefichier de syntaxe a ouvrir dans le logiciel pour importer les donnees
package : choisir le nom du logiciel (entre guillemets)
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 249 / 254
Clustering Exporter des resultats en SPSS
Ex : Exporter le resultat du clustering sur 4CP
Code de l’ACP
res.PCA2 = PCA(Eurojob.PCA, scale.unit=TRUE, ncp=4,
graph=FALSE)
Assigner le resultat du clustering a un objet res.HCPC
res.HCPC = HCPC(res.PCA2, consol=TRUE)
Soumettre l’objet dans R affichera les resultats complets
res.HCPC
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 250 / 254
Clustering Exporter des resultats en SPSS
Ex : Exporter le resultat du clustering sur 4CP
Selectionner la partie des sorties qui contient la base de donneesaugmentee d’une colonne clust et l’assigner a une nouvelle base dedonnees EuroClust
EuroClust = res.HCPC1$data.clust
Exporter la base de donnee avec write.foreign
write.foreign(EuroClust,"D :/Taverne/My Documents/08
LaTeX/PSYM2132/TP7-Cluster/EurojobClust.txt", "D :/Taverne/My
Documents/08
LaTeX/PSYM2132/TP7-Cluster/EurojobClust.sps",package="SPSS")
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 251 / 254
Clustering Exporter des resultats en SPSS
Ouvrir la base de donnees en SPSS
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 252 / 254
Clustering Exporter des resultats en SPSS
Ouvrir la base de donnees en SPSS
C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 253 / 254