statistique & machine learningagarivie/telecom/pesto/pesto_171011… · machine learning... un...
TRANSCRIPT
![Page 1: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/1.jpg)
Statistique & Machine Learning
![Page 2: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/2.jpg)
Intervenants
Stephan Clemencon (Telecom ParisTech - Departement TSI)
I Contact: [email protected]
I Profil: Enseignement/Recherche/Conseil/Industrie
I Mots-cles: processus stochastiques (markoviens, empiriques, etc.),apprentissage statistique, applications: finance, high tech, biosciences
Aurelien Garivier (CNRS - Departement TSI)
I Contact: [email protected]
I Profil: Enseignement/Recherche
I Mots-cles: theorie de l’information, apprentissage on-line et parrenforcement, processus de decision markoviens
![Page 3: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/3.jpg)
Data mining = Fouille de donnees
![Page 4: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/4.jpg)
Motivations pour la fouille de donnees
Explosion des capacites de stockage
Bases de donnees massives
I finance, genomique, marketing, industrie ...
Les donnees sont partout !
I de grande dimension, heterogenes, structurees
Il existe des approches generiques et automatisables
Le but de ce cours : les decouvrir !
![Page 5: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/5.jpg)
Motivations pour la fouille de donnees
Explosion des capacites de stockage
Bases de donnees massives
I finance, genomique, marketing, industrie ...
Les donnees sont partout !
I de grande dimension, heterogenes, structurees
Il existe des approches generiques et automatisables
Le but de ce cours : les decouvrir !
![Page 6: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/6.jpg)
Les donnees aujourd’hui
![Page 7: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/7.jpg)
Les chiffres du travail (1)
![Page 8: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/8.jpg)
Les chiffres du travail (2)
Taux d’activite par tranche d’age hommes vs. femmes
http://www.insee.fr/
![Page 9: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/9.jpg)
Les chiffres du travail (2)
Taux d’activite par tranche d’age hommes vs. femmes
http://www.insee.fr/
![Page 10: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/10.jpg)
Les chiffres du travail (3)
Taux d’activite par tranche d’age hommes vs. femmes
![Page 11: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/11.jpg)
Le monde de la finance (1)
Wall Street a la cloture, un lundi...
![Page 12: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/12.jpg)
Le monde de la finance (2)
http://fr.finance.yahoo.com/
![Page 13: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/13.jpg)
Le monde de la finance (2)
http://fr.finance.yahoo.com/
![Page 14: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/14.jpg)
L’imagerie medicale (1)
![Page 15: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/15.jpg)
L’imagerie medicale (2)
![Page 16: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/16.jpg)
Internet (1)
![Page 17: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/17.jpg)
Internet (2)
![Page 18: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/18.jpg)
Sequencage du genome humain (1)
Plate-forme de sequencage genotypage OUEST-genopole
![Page 19: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/19.jpg)
Sequencage du genome humain (2)
Alignement d’une sequence identifiee dans le foie humain avec l’ADNgenomique de la banque Ensembl.
![Page 20: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/20.jpg)
Barcoding Of Life Data Systems (1)
![Page 21: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/21.jpg)
Barcoding of Life Data Systems (2)
http://www.barcodinglife.org/
![Page 22: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/22.jpg)
Barcoding of Life Data Systems (2)
http://www.barcodinglife.org/
![Page 23: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/23.jpg)
E-marketing (1)- Livres
![Page 24: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/24.jpg)
E-marketing (1)- Jeux videos
![Page 25: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/25.jpg)
Nature des donnees
Vecteurs/Matrices
Chaınes de caracteres
Graphes/Reseaux
Fonctions/Series temporelles
![Page 26: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/26.jpg)
Les questions de data mining
Identification de dependances
Segmentation/Clustering/Classification
Detection d’anomalies
Reduction de la dimension
Selection de variables
Interpretation/Parcimonie
Visualisation
![Page 27: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/27.jpg)
Le preprocessing, une etape critique
Nettoyage ou filtrage des donnees
Donnees incompletes
Donnees aberrantes
Donnees heterogenes ou multi-echelles
Indexation
![Page 28: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/28.jpg)
Le desert du reel...
![Page 29: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/29.jpg)
Les outils
![Page 30: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/30.jpg)
Domaines afferents
Informatique :
I BDDI algorithmique
Machine Learning :
I methodes effectives pour la grande dimension
Mathematiques :
I algebre lineaireI modelisation aleatoire,I probabilites / statistiqueI apprentissage statistiqueI optimisationI traitement du signal
![Page 31: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/31.jpg)
Cours de statistique ”typique”
Estimation parametrique
Intervalles/Domaines de confiance
Tests d’hypotheses
Regression
Analyse en composantes principales
![Page 32: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/32.jpg)
Aspects non abordes dans ce type de cours
Classification
Methodes non-parametriques
Statistique bayesienne
Selection de modeles
Theorie de la decision
![Page 33: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/33.jpg)
Pourquoi faire appel a l’apprentissage statistique?
Typologie des problemes
No Free Lunch !
Choix des criteres de performance
Notion de risque
Controle de la complexite
Validation des regles de decision
Role du reechantillonnage
Monitoring des modeles de prevision
![Page 34: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/34.jpg)
Machine Learning... un peu plus que des stats
Methodes non-parametriques operationnelles
Traitement de donnees complexes / de grande dimension
Diversite des contextes
I supervise, non-supervise, semi-supervise, sequentiel, one-pass, ...
Couplage des principes inferentiels avec des algorithmes !
![Page 35: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/35.jpg)
Programme des premieres seances
Seances 1 - 2 : Introduction - ContexteIntroductionElements de statistique (Rappels)Nomenclature des problemes rencontresApplications (exemples)Reduction de la dimension - ACP & co.
Seance 3 : Un peu de theorie: classification binaireLe principe de la minimisation du risque empiriqueTheorie de Vapnik-Chervonenkis (complexite combinatoire)Une solution statistique.... un probleme informatique!
![Page 36: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/36.jpg)
Programme des premieres seances (2)
Seance 4 : Algorithmes ”classiques” pour la classificationAnalyse discriminante lineaire et regression logistiqueLes ”plus proches voisins” et variantesMethodes de partitionnement - l’algorithme CARTLe perceptron - methodes lineairesReseaux de Neurones
Seance 5: Algorithmes ”avances” pour la classificationSVMBoostingRandom Forest
Seances 6 et 7: D’autres problemes supervisesRanking/scoringClassification multi-labelRegression ordinale et Regression
![Page 37: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/37.jpg)
Statistical learning - Historical milestones
1943: Artificial neuron model - McCullough, Pitts
1958: Perceptron algorithm - Rosenblatt
60’s: Data-mining - John Tukey
1971: Uniform laws of large numbers - Vapnik, Chervonenkis
1974, 1986: Backpropagation algorithm
1984: CART - Breiman, Friedman, Stone, Olshen
1984: Theory of the learnable - Valiant
1995: Statistical learning theory - Vapnik
![Page 38: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/38.jpg)
Documentation
Livres:
I Pattern classification (2001) - Wiley-Intersciencepar R. Duda, P. Hart, D. Stork
I The Elements of Statistical Learning (2001) - Springerpar T. Hastie, R. Tibshirani, J. Friedman
I All of Statistics (2004) - Springerpar L. Wasserman
I Matrix Methods in Data Mining and Pattern Recognition (2007) -SIAMpar L. Elden
Article :
I ”The curse and blessings of dimensionnality” D. Donoho - IMS
![Page 39: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/39.jpg)
Logiciels
Librairie ”state-of-the-art”:
I The R Project for Statistical Computing
I http://www.r-project.org/
Autres applications (logiciels libres) :
I WEKAI OrangeI RapidMiner
![Page 40: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/40.jpg)
Machine-Learning: les acteurs
Monde academique:I Departements: Maths (Appli), Informatique, Bioinformatique, etc.
Un savoir fondamental selon le panorama dresse par Carnegie MellonI Journaux: JMLR, Machine Learning, Data-Mining Knowledge
Discovery, etc.I Conferences: NIPS, ICML, COLT, UAI, etc.
Industrie:I High-tech: google labs, yahoo labs, Exalead, biotechI CRMI Finance, credit-scoringI Signal, image or speech processing, automatic anomaly detection
![Page 41: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/41.jpg)
Rappels de statistique
![Page 42: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/42.jpg)
Detendez-vous...
le film va commencer !
![Page 43: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/43.jpg)
Detendez-vous...le film va commencer !
![Page 44: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/44.jpg)
Modele statistique
Observation comme realisation de X variable aleatoire de loiinconnue P∗
On suppose X a valeurs dans (E , E)
Modele statistique = triplet M = (E , E,P)
ou P = {Pθ : θ ∈ Θ} famille de lois candidates pour P∗
Θ est un parametrage de P , on note P∗ = Pθ∗
Le modele est parametrique si Θ est un sev d’un espace euclidien
Le modele est dit non-parametrique sinon (dim ∞).
Modele identifiable : θ 7→ Pθ est injective
![Page 45: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/45.jpg)
Vraisemblance du parametre
On represente P par la classe des densites associees
{f (x , θ) : θ ∈ Θ}
Vraisemblance : pour x fixe,
Lx(θ) = f (x , θ) .
Exemple : X = (X1, . . . , Xn) i.i.d. de loi de Bernoulli B(θ)
L(θ) =n∏
i=1
(θXi (1− θ)1−Xi
)= θSn(1− θ)n−Sn
ou Sn =n∑
i=1
Xi .
![Page 46: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/46.jpg)
Notion de statistique
Soit X une observation/ un echantillon. Une statistique est unefonction mesurable T : E → Rk de X . On dira que T (X ) ouT (X1, . . . , Xn) est une statistique de l’echantillon.
Exemple : Moyenne empirique
X =1
n
n∑i=1
Xi
Exemple : Variance empirique
s2 =1
n
n∑i=1
(Xi − X
)2
Estimation de parametres g(θ∗)
![Page 47: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/47.jpg)
Estimation
Exemple d’estimateur = Maximum de vraisemblance
Dans le modele de Bernoulli B(θ) avec θ ∈ [0, 1] :
θn = X
Risque quadratique et decomposition biais-variance :
R(θn, θ∗) = Eθ∗
((θn − θ∗)2
)=
(E(θn)− θ∗
)2+ Vθ∗(θn) =
θ∗(1− θ∗)
n≤ 1
4n
Proprietes : consistance, normalite asymptotique (vitesse)
Et si θ∗ /∈ Θ ? Et si le modele est faux ?
![Page 48: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/48.jpg)
Intervalle de confiance - parametre d’une Bernoulli
Intervalle aleatoire I (n, α) t.q. P(θ∗ ∈ I (n, α)) ≥ 1− α
Par l’inegalite de Bienayme-Tchebychev :
I (n, α) =
[X − 1√
4nα, X +
1√4nα
].
Par l’inegalite de Hoeffding :
I (n, α) =
[X −
√log(2/α)
2n, X +
√log(2/α)
2n
].
Par la loi limite (Φ fdr de la loi N (0, 1)) : I∞(n, α) =X − Φ−1(1− α/2)
√X (1− X )
n, X + Φ−1(1− α/2)
√X (1− X )
n
![Page 49: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/49.jpg)
Regression
Modele lineaire gaussien
Y = Xβ + ε .
ou Y ∈ Rn, X ∈ Rn×p sont les donnees
et β ∈ Rn, ε ∼ Nn(0, σ2In)
On suppose : XTX inversible (identifiabilite)
Estimateur des moindres carres :
β =(XTX
)−1XTY
s2 =1
n‖Y − Xβ‖2
![Page 50: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/50.jpg)
Questions autour de l’estimateur des moindrescarres
Problemes :
Precision de la prediction : biais faible - grande variance
Interpretabilite si p est grand
Solutions :
Reduction de la dimension de la matrice X
Methodes penalisees (shrinkage des coefficients)
Estimation vs. Prediction
![Page 51: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/51.jpg)
Les problemes statistiquesrevisites
![Page 52: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/52.jpg)
Generic setup for supervised learning
Random pair = (X , Y ) ∼ P unknown
X = observation vector in X (Rd), ici d � 1
Y = univariate label in Y ⊂ R
Predictor: g : X → Y in a class G
Loss function: ` : Y × Y → R+
Risk functional (unknown!) = Generalization error
L(g) = E (`(Y , g(X )))
to minimize over g ∈ G.
Data = Dn = {(X1, Y1), . . . , (Xn, Yn)} i.i.d. as P
![Page 53: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/53.jpg)
Example 1 - Regression
Example: Prediction of a stock price
X = vector of descriptors (financial information, macro-economicindicators, ...)
Y = R
Loss function = quadratic error
`(y , z) = (y − z)2
Optimal solution: g ∗(x) = E(Y | X = x)
![Page 54: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/54.jpg)
Example 2 - Scoring
Classification data: Y = {0, 1}
Set η(x) = E(Y | X = x) = P{Y = 1 | X = x}
Logistic regression
f (x) = log
(η(x)
1− η(x)
)Additive logistic model
→ back to linear regression
![Page 55: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/55.jpg)
Example 3 - Binary classification
Example: Prediction of the state of a system
Y = {−1, +1}
Loss function:`(y , z) = I{y 6= z}
Risk functional:
L(g) = P{Y 6= g(X )}
= P{Y · g(X ) < 0} = E (IR+(−Y · g(X )))
![Page 56: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/56.jpg)
Example 4 - Multiclass Classification
Example: handwritten character recognition
Y = {1, . . . , M}
Loss function`(y , z) = I{y 6= z}
In practice:
I One Against All
I One vs. One
I Error-Correcting Output Coding
![Page 57: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/57.jpg)
Example 5 - Unsupervised learning
No label information Y
Statistical model: {p(x , θ) : θ ∈ Θ}
Recover the density function of X based on Dn
Loss function:`(x , θ) = − log p(x , θ)
Applications: clustering, modes vs. anomaly detection
Subproblem: Level set estimation
![Page 58: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/58.jpg)
Example 6 - Ranking and scoring
Classification data
Set η(x) = P{Y = 1 | X = x}
Prediction based on scoring rules s : X → R
Goal: find s which ranks as η
![Page 59: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/59.jpg)
Example 6 - Scoring and ROC Curves
True positive rate:
tprs(x) = P (s(X ) ≥ x | Y = 1)
False positive rate:
fprs(x) = P (s(X ) ≥ x | Y = −1)
Receiving Operator Characteristic curve: x 7→(fprs(x),tprs(x)
)
AUC = Area Under an ROC Curve
![Page 60: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/60.jpg)
Example 6 - Scoring and ROC Curves
True positive rate:
tprs(x) = P (s(X ) ≥ x | Y = 1)
False positive rate:
fprs(x) = P (s(X ) ≥ x | Y = −1)
Receiving Operator Characteristic curve: x 7→(fprs(x),tprs(x)
)AUC = Area Under an ROC Curve
![Page 61: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/61.jpg)
Data analysis
Standard tools revisited
Nonlinear PCA, kernel PCA
Sparse PCA
Independent Component Analysis
![Page 62: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/62.jpg)
Reduction de la dimension
![Page 63: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/63.jpg)
Exemple 1 - Finance
Analyse des taux d’interet
![Page 64: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/64.jpg)
Exemple 1 - Finance (2)
Variables = 18 maturites= 1M, 3M, 6M, 9M, 1Y, 2Y, ..., 30Y
Observations = Historique mensuel sur 8 ans= 96 valeurs
![Page 65: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/65.jpg)
Exemple 2 - Web 2.0
Last-FM - webradio de type collaboratif
![Page 66: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/66.jpg)
Exemple 2 - Web 2.0 (2)
28302 artistes et leurs ”tags”
Variables = 735 tags= trance, techno, ambient, alternative,
rap metal, rock, ...
Observations = 2840 utilisateurs
![Page 67: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/67.jpg)
Exemple 3 - Reconnaissance de visages
![Page 68: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/68.jpg)
Exemple 3 - Reconnaissance de visages (2)
Variables = 256 x 256 pixels
Observations = 64 images
![Page 69: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/69.jpg)
Traits communs
Donnees multivariees
Besoin d’interpretation
Variabilite expliquee par des combinaisons de variables
![Page 70: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/70.jpg)
Donnees
Dimension = nombre de variables = p
Taille de l’echantillon = nombre d’observations = n
Tableau n × p de variables quantitatives
![Page 71: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/71.jpg)
Representation graphique
⇒ Nuage de n points dans Rp
![Page 72: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/72.jpg)
Objectifs
Reduction de la dimension
Visualisation du nuage en 2D ou 3D
Explication de la variabilite
![Page 73: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/73.jpg)
Analyse en ComposantesPrincipales (ACP)
![Page 74: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/74.jpg)
Philosophie de l’ACP
→ Projeter le nuage selon la ”bonne” direction
Idee : maximiser la dispersion
![Page 75: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/75.jpg)
Philosophie de l’ACP
→ Projeter le nuage selon la ”bonne” direction
Idee : maximiser la dispersion
![Page 76: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/76.jpg)
Cadre statistique : Tableau de donnees
Observations : Xi ∈ Rp , 1 ≤ i ≤ n
Variable j : X1j , . . . , Xnj
Matrice n × p de donnees X = (X1, . . . , Xn)T
X = (Xij)i ,j =
X11 . . . X1p...
. . ....
Xn1 . . . Xnp
![Page 77: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/77.jpg)
Matrice de covariance empirique
Barycentre
X =1
n
n∑i=1
Xi ∈ Rp
Matrice de covariance empirique (p × p)
S = (skj)k,j =1
n
n∑i=1
XiXTi − X XT
![Page 78: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/78.jpg)
Meilleure direction
Direction de projection a ∈ Rp
Echantillon (1D) = (aTX1, . . . , aTXn)
Maximiser la variance empirique en a :
s2a = aTSa
Solution :
vecteur propre g(1) de la plus grande valeur propre l1
![Page 79: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/79.jpg)
Diagonalisation de S symetrique reelle
Valeurs propres : l1 ≥ . . . ≥ lp
Vecteurs propres orthonormes g(1), . . . , g(p)
Reduction de la matrice S = GLGT ou
I L = diag(l1, . . . , lp) matrice diagonale p × p
I G matrice orthogonale p × p
G = (g(1), . . . , g(p)) = (gkj)k,j
![Page 80: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/80.jpg)
Composantes principales (CP)
Composantes principales : pour tout vecteur z ∈ Rp
yj(z) = gT(j)(z − X ) , 1 ≤ j ≤ p
La matrice n × p
Y = (yj(Xi))1≤i≤n, 1≤j≤p
remplace la matrice X des donnees initiales.
![Page 81: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/81.jpg)
Correlation empirique ”Variable vs. CP”
Correlations empiriques entre la variable k et la CP yj :
rkj = gkj
√ljskk
(definition)
Propriete :p∑
j=1
r 2kj = 1
![Page 82: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/82.jpg)
Variance empirique de la k-eme variable
Part de la variance empirique de la k-eme variable expliquee parles 2 premieres CP (y1, y2) :
r 2k1 + r 2
k2
On a :
l1 + l2 =
p∑k=1
skk(r2k1 + r 2
k2)
Visualisation 2D : Disque des correlations
![Page 83: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/83.jpg)
Disque des correlations
Point (rk1, rk2) correspond la variable k
![Page 84: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/84.jpg)
Variance empirique des donnees
Part de la variance empirique du nuage de points expliquee par laCP yj :
vj =lj
Tr(S)
ou Tr(S) =
p∑j=1
lj .
Visualisation : scree-graph
![Page 85: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/85.jpg)
Scree-graph
Axes = indice j de la CP et part de variance vj
![Page 86: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/86.jpg)
Resultats de l’ACP - Last-FM (1)
Projection du nuage de points sur (CP1, CP2)
![Page 87: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/87.jpg)
Resultats de l’ACP - Last-FM (2)
Projection du nuage de points sur (CP3, CP4)
![Page 88: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/88.jpg)
Resultats de l’ACP - Visages (1)
Donnees
![Page 89: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/89.jpg)
Resultats de l’ACP - Visages (2)
”Visages propres”
![Page 90: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/90.jpg)
Resultats de l’ACP - Visages (3)
Reconstruction partielle (sous-colonne de la matrice Y)
![Page 91: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/91.jpg)
Resultats de l’ACP - Visages (4)
Projection d’autres images
![Page 92: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/92.jpg)
Quelques remarques
ACP = outil lineaire
Orthogonalite des composantes principales
En pratique :
Reduction de la matrice R = (rkj)k,j des correlations
rkj =skj√skksjj
Obstacle numerique :
Reduction de S en tres grande dimension
![Page 93: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/93.jpg)
Quand est-ce que ca marche ?
Nuages de points ellipsoıdaux
Modele implicite = modele gaussien
Information portee par les statistiques d’ordre 2
Absence de valeurs aberrantes
![Page 94: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/94.jpg)
Echec de l’ACP
⇒ Extension : ACP non-lineaire (a noyau)
![Page 95: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/95.jpg)
Noyaux positifs
![Page 96: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/96.jpg)
Definition
Soit X l’espace ou vivent les observations.
Noyau positif
Une fonction k : X × X → R est un noyau positif si et seulement si
1 k est symetrique: k(x , x ′) = k(x ′, x) , ∀x , x ′ ∈ X2 k est positive:
n∑i=1
n∑j=1
cicjk(xi , xj) ≥ 0, ∀ci ∈ R, ∀xi ∈ X , ∀n ≥ 1
![Page 97: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/97.jpg)
Un theoreme d’analyse
Theoreme de Mercer
Pour tout noyau positif k sur X il existe un espace de Hilbert H et uneapplication Φ tels que:
k(x , x ′) =< Φ(x),Φ(x ′) >, ∀x , x ′ ∈ X
ou < , > represente le produit scalaire sur H.
![Page 98: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/98.jpg)
Commentaires
Le theoreme de Mercer est non constructif: il ne fournit ni H, ni Φ
En pratique:
I H est un espace de grande dimensionI Φ est une application non-lineaire
H est un espace de representation des donnees, connu sous le nom de”feature space” ou espace de caracteristiques
L’astuce du noyau consiste a faire l’impasse sur H et Φ si on saitqu’ils existent!
![Page 99: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/99.jpg)
Commentaires
Le theoreme de Mercer est non constructif: il ne fournit ni H, ni Φ
En pratique:
I H est un espace de grande dimensionI Φ est une application non-lineaire
H est un espace de representation des donnees, connu sous le nom de”feature space” ou espace de caracteristiques
L’astuce du noyau consiste a faire l’impasse sur H et Φ si on saitqu’ils existent!
![Page 100: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/100.jpg)
Commentaires
Le theoreme de Mercer est non constructif: il ne fournit ni H, ni Φ
En pratique:I H est un espace de grande dimension
I Φ est une application non-lineaire
H est un espace de representation des donnees, connu sous le nom de”feature space” ou espace de caracteristiques
L’astuce du noyau consiste a faire l’impasse sur H et Φ si on saitqu’ils existent!
![Page 101: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/101.jpg)
Commentaires
Le theoreme de Mercer est non constructif: il ne fournit ni H, ni Φ
En pratique:I H est un espace de grande dimensionI Φ est une application non-lineaire
H est un espace de representation des donnees, connu sous le nom de”feature space” ou espace de caracteristiques
L’astuce du noyau consiste a faire l’impasse sur H et Φ si on saitqu’ils existent!
![Page 102: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/102.jpg)
Commentaires
Le theoreme de Mercer est non constructif: il ne fournit ni H, ni Φ
En pratique:I H est un espace de grande dimensionI Φ est une application non-lineaire
H est un espace de representation des donnees, connu sous le nom de”feature space” ou espace de caracteristiques
L’astuce du noyau consiste a faire l’impasse sur H et Φ si on saitqu’ils existent!
![Page 103: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/103.jpg)
Commentaires
Le theoreme de Mercer est non constructif: il ne fournit ni H, ni Φ
En pratique:I H est un espace de grande dimensionI Φ est une application non-lineaire
H est un espace de representation des donnees, connu sous le nom de”feature space” ou espace de caracteristiques
L’astuce du noyau consiste a faire l’impasse sur H et Φ si on saitqu’ils existent!
![Page 104: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/104.jpg)
Distances images
Norme euclidienne sur Rm: ∀u ∈ Rm, ‖u‖ =√
< u, u > ou < , >produit scalaire sur Rm
Distance euclidienne:d(u, v) = ‖u − v‖ =
√< u, u > + < v , v > −2 < u, v >
Transformation non-lineaire : Φ : Rd → Rm avec m > d
Noyau: k(x , x ′) =< Φ(x),Φ(x ′) >
Distance image:
dΦ(x , x ′) = ‖Φ(x)− Φ(x ′)‖ =√
k(x , x) + k(x ′, x ′)− 2k(x , x ′)
⇒ la distance induite par Φ ne fait intervenir que le noyau
![Page 105: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/105.jpg)
Distances images
Norme euclidienne sur Rm: ∀u ∈ Rm, ‖u‖ =√
< u, u > ou < , >produit scalaire sur Rm
Distance euclidienne:d(u, v) = ‖u − v‖ =
√< u, u > + < v , v > −2 < u, v >
Transformation non-lineaire : Φ : Rd → Rm avec m > d
Noyau: k(x , x ′) =< Φ(x),Φ(x ′) >
Distance image:
dΦ(x , x ′) = ‖Φ(x)− Φ(x ′)‖ =√
k(x , x) + k(x ′, x ′)− 2k(x , x ′)
⇒ la distance induite par Φ ne fait intervenir que le noyau
![Page 106: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/106.jpg)
Distances images
Norme euclidienne sur Rm: ∀u ∈ Rm, ‖u‖ =√
< u, u > ou < , >produit scalaire sur Rm
Distance euclidienne:d(u, v) = ‖u − v‖ =
√< u, u > + < v , v > −2 < u, v >
Transformation non-lineaire : Φ : Rd → Rm avec m > d
Noyau: k(x , x ′) =< Φ(x),Φ(x ′) >
Distance image:
dΦ(x , x ′) = ‖Φ(x)− Φ(x ′)‖ =√
k(x , x) + k(x ′, x ′)− 2k(x , x ′)
⇒ la distance induite par Φ ne fait intervenir que le noyau
![Page 107: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/107.jpg)
Distances images
Norme euclidienne sur Rm: ∀u ∈ Rm, ‖u‖ =√
< u, u > ou < , >produit scalaire sur Rm
Distance euclidienne:d(u, v) = ‖u − v‖ =
√< u, u > + < v , v > −2 < u, v >
Transformation non-lineaire : Φ : Rd → Rm avec m > d
Noyau: k(x , x ′) =< Φ(x),Φ(x ′) >
Distance image:
dΦ(x , x ′) = ‖Φ(x)− Φ(x ′)‖ =√
k(x , x) + k(x ′, x ′)− 2k(x , x ′)
⇒ la distance induite par Φ ne fait intervenir que le noyau
![Page 108: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/108.jpg)
Distances images
Norme euclidienne sur Rm: ∀u ∈ Rm, ‖u‖ =√
< u, u > ou < , >produit scalaire sur Rm
Distance euclidienne:d(u, v) = ‖u − v‖ =
√< u, u > + < v , v > −2 < u, v >
Transformation non-lineaire : Φ : Rd → Rm avec m > d
Noyau: k(x , x ′) =< Φ(x),Φ(x ′) >
Distance image:
dΦ(x , x ′) = ‖Φ(x)− Φ(x ′)‖ =√
k(x , x) + k(x ′, x ′)− 2k(x , x ′)
⇒ la distance induite par Φ ne fait intervenir que le noyau
![Page 109: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/109.jpg)
Interet pour la classification
Aucune complication algorithmique en remplacant le produit scalairepar une autre mesure de similarite
Transformer un probleme initialement non-lineaire en un problemelineaire en envoyant les donnees dans un espace plus grand
Exemple
Soit f (x , y) = ax2 + bx + c − y = 0 une surface de decision polynomiale(parabole dans R2).
Role cle de la transformation:
Φ : R2 → R4
x 7→(x2, x , 1, y
)T
![Page 110: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/110.jpg)
Interet pour la classification
Aucune complication algorithmique en remplacant le produit scalairepar une autre mesure de similarite
Transformer un probleme initialement non-lineaire en un problemelineaire en envoyant les donnees dans un espace plus grand
Exemple
Soit f (x , y) = ax2 + bx + c − y = 0 une surface de decision polynomiale(parabole dans R2).
Role cle de la transformation:
Φ : R2 → R4
x 7→(x2, x , 1, y
)T
![Page 111: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/111.jpg)
Interet pour la classification
Aucune complication algorithmique en remplacant le produit scalairepar une autre mesure de similarite
Transformer un probleme initialement non-lineaire en un problemelineaire en envoyant les donnees dans un espace plus grand
Exemple
Soit f (x , y) = ax2 + bx + c − y = 0 une surface de decision polynomiale(parabole dans R2).
Role cle de la transformation:
Φ : R2 → R4
x 7→(x2, x , 1, y
)T
![Page 112: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/112.jpg)
Interet pour la classification
Aucune complication algorithmique en remplacant le produit scalairepar une autre mesure de similarite
Transformer un probleme initialement non-lineaire en un problemelineaire en envoyant les donnees dans un espace plus grand
Exemple
Soit f (x , y) = ax2 + bx + c − y = 0 une surface de decision polynomiale(parabole dans R2).
Role cle de la transformation:
Φ : R2 → R4
x 7→(x2, x , 1, y
)T
![Page 113: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/113.jpg)
Interet pour la classification
Aucune complication algorithmique en remplacant le produit scalairepar une autre mesure de similarite
Transformer un probleme initialement non-lineaire en un problemelineaire en envoyant les donnees dans un espace plus grand
Exemple
Soit f (x , y) = ax2 + bx + c − y = 0 une surface de decision polynomiale(parabole dans R2).
Role cle de la transformation:
Φ : R2 → R4
x 7→(x2, x , 1, y
)T
![Page 114: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/114.jpg)
Du non-lineaire au lineaire
Exemple (suite)
On peut ecrire:
g(x2, x , 1, y) = ax2 + bx + c − y = 0
ou g(u, v ,w , y) = au + bv + cw − y .
L’equation g(u, v ,w , y) = 0 definit une surface de decision lineaire dansR4.
Un probleme non-lineaire dans un certain espace peut parfois se formulercomme un probleme lineaire dans un espace plus grand.
![Page 115: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/115.jpg)
Du non-lineaire au lineaire
Exemple (suite)
On peut ecrire:
g(x2, x , 1, y) = ax2 + bx + c − y = 0
ou g(u, v ,w , y) = au + bv + cw − y .
L’equation g(u, v ,w , y) = 0 definit une surface de decision lineaire dansR4.
Un probleme non-lineaire dans un certain espace peut parfois se formulercomme un probleme lineaire dans un espace plus grand.
![Page 116: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/116.jpg)
Du non-lineaire au lineaire
![Page 117: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/117.jpg)
ACP a noyau
![Page 118: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/118.jpg)
ACP classique
On considere un nuage de points x1, . . . , xn centres en l’origine.
Buts de l’ACP
methode de visualisation des donnees
reduction de la dimension effective des donnees
L’ACP consiste a identifier les composantes principales de l’echantillonconstituees par
1 la meilleure direction de projection du nuage de pointsi.e. celle de variance maximale
2 puis, la meilleure direction de projection orthogonale a la premiere
3 et, ainsi de suite, jusqu’a la n-ieme
![Page 119: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/119.jpg)
ACP classique
On considere un nuage de points x1, . . . , xn centres en l’origine.
Buts de l’ACP
methode de visualisation des donnees
reduction de la dimension effective des donnees
L’ACP consiste a identifier les composantes principales de l’echantillonconstituees par
1 la meilleure direction de projection du nuage de pointsi.e. celle de variance maximale
2 puis, la meilleure direction de projection orthogonale a la premiere
3 et, ainsi de suite, jusqu’a la n-ieme
![Page 120: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/120.jpg)
ACP classique
On considere un nuage de points x1, . . . , xn centres en l’origine.
Buts de l’ACP
methode de visualisation des donnees
reduction de la dimension effective des donnees
L’ACP consiste a identifier les composantes principales de l’echantillonconstituees par
1 la meilleure direction de projection du nuage de pointsi.e. celle de variance maximale
2 puis, la meilleure direction de projection orthogonale a la premiere
3 et, ainsi de suite, jusqu’a la n-ieme
![Page 121: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/121.jpg)
ACP classique
On considere un nuage de points x1, . . . , xn centres en l’origine.
Buts de l’ACP
methode de visualisation des donnees
reduction de la dimension effective des donnees
L’ACP consiste a identifier les composantes principales de l’echantillonconstituees par
1 la meilleure direction de projection du nuage de pointsi.e. celle de variance maximale
2 puis, la meilleure direction de projection orthogonale a la premiere
3 et, ainsi de suite, jusqu’a la n-ieme
![Page 122: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/122.jpg)
ACP classique
On considere un nuage de points x1, . . . , xn centres en l’origine.
Buts de l’ACP
methode de visualisation des donnees
reduction de la dimension effective des donnees
L’ACP consiste a identifier les composantes principales de l’echantillonconstituees par
1 la meilleure direction de projection du nuage de pointsi.e. celle de variance maximale
2 puis, la meilleure direction de projection orthogonale a la premiere
3 et, ainsi de suite, jusqu’a la n-ieme
![Page 123: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/123.jpg)
ACP
![Page 124: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/124.jpg)
ACP (suite)
Projection orthogonale d’un vecteur x sur la direction w ∈ Rd :
pw (x) =< x ,w >
‖w‖
Variance empirique du nuage de points selon la direction w :
V(pw ) =1
n
n∑i=1
< xi ,w >2
‖w‖2
Matrice de covariance empirique Σ = 1n
∑ni=1 xi xT
i
On a donc :
V(pw ) =wTΣw
‖w‖2
![Page 125: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/125.jpg)
ACP (suite)
Projection orthogonale d’un vecteur x sur la direction w ∈ Rd :
pw (x) =< x ,w >
‖w‖
Variance empirique du nuage de points selon la direction w :
V(pw ) =1
n
n∑i=1
< xi ,w >2
‖w‖2
Matrice de covariance empirique Σ = 1n
∑ni=1 xi xT
i
On a donc :
V(pw ) =wTΣw
‖w‖2
![Page 126: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/126.jpg)
ACP (suite)
Projection orthogonale d’un vecteur x sur la direction w ∈ Rd :
pw (x) =< x ,w >
‖w‖
Variance empirique du nuage de points selon la direction w :
V(pw ) =1
n
n∑i=1
< xi ,w >2
‖w‖2
Matrice de covariance empirique Σ = 1n
∑ni=1 xi xT
i
On a donc :
V(pw ) =wTΣw
‖w‖2
![Page 127: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/127.jpg)
ACP (suite)
Projection orthogonale d’un vecteur x sur la direction w ∈ Rd :
pw (x) =< x ,w >
‖w‖
Variance empirique du nuage de points selon la direction w :
V(pw ) =1
n
n∑i=1
< xi ,w >2
‖w‖2
Matrice de covariance empirique Σ = 1n
∑ni=1 xi xT
i
On a donc :
V(pw ) =wTΣw
‖w‖2
![Page 128: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/128.jpg)
Probleme d’optimisation
Premiere composante principale
arg maxw
V(pw ) =wTΣw
‖w‖2
Solution
Les composantes principales sont les vecteurs propres de la Σ ranges selonla decroissance des valeurs propres correspondantes.
Remarque : la matrice Σ est symetrique reelle donc diagonalisable dansune base orthonormee.
![Page 129: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/129.jpg)
Probleme d’optimisation
Premiere composante principale
arg maxw
V(pw ) =wTΣw
‖w‖2
Solution
Les composantes principales sont les vecteurs propres de la Σ ranges selonla decroissance des valeurs propres correspondantes.
Remarque : la matrice Σ est symetrique reelle donc diagonalisable dansune base orthonormee.
![Page 130: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/130.jpg)
Probleme d’optimisation
Premiere composante principale
arg maxw
V(pw ) =wTΣw
‖w‖2
Solution
Les composantes principales sont les vecteurs propres de la Σ ranges selonla decroissance des valeurs propres correspondantes.
Remarque : la matrice Σ est symetrique reelle donc diagonalisable dansune base orthonormee.
![Page 131: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/131.jpg)
ACP (suite)On cherche un vecteur v et un reel λ tels que:
Σv = λv
Or, on a :
Σv =1
n
n∑i=1
< xi , v > xi
D’ou:
v =n∑
i=1
(< xi , v >
nλ
)xi =
n∑i=1
αixi
On utilisexTj Σv = λ < xj , v >, ∀j
et on y substitue les expressions de Σ et v :
1
n
n∑i=1
αi
⟨xj ,
n∑k=1
< xk , xi > xk
⟩= λ
n∑i=1
αi < xj , xi >
![Page 132: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/132.jpg)
ACP (suite)On cherche un vecteur v et un reel λ tels que:
Σv = λv
Or, on a :
Σv =1
n
n∑i=1
< xi , v > xi
D’ou:
v =n∑
i=1
(< xi , v >
nλ
)xi =
n∑i=1
αixi
On utilisexTj Σv = λ < xj , v >, ∀j
et on y substitue les expressions de Σ et v :
1
n
n∑i=1
αi
⟨xj ,
n∑k=1
< xk , xi > xk
⟩= λ
n∑i=1
αi < xj , xi >
![Page 133: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/133.jpg)
ACP (suite)
On note K = (< xi , xj >)i ,j la matrice de Gram
On peut ecrire alors le systeme:
K 2α = nλKα
Pour resoudre en α, on resout donc le probleme aux elements propres
Kα = nλα
![Page 134: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/134.jpg)
ACP (suite)
On note K = (< xi , xj >)i ,j la matrice de Gram
On peut ecrire alors le systeme:
K 2α = nλKα
Pour resoudre en α, on resout donc le probleme aux elements propres
Kα = nλα
![Page 135: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/135.jpg)
ACP (suite)
On note K = (< xi , xj >)i ,j la matrice de Gram
On peut ecrire alors le systeme:
K 2α = nλKα
Pour resoudre en α, on resout donc le probleme aux elements propres
Kα = nλα
![Page 136: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/136.jpg)
Defauts de l’ACP classique
elle est adaptee surtout au cas de realisations de gaussiennesmultivariees
I en general, la non-correlation n’implique pas l’independance desdirections principales
I alternative : Analyse en Composantes Independantes (plutot quePrincipales)
elle est adaptee aux structures lineaires
I les nuages de points ne sont pas tous ellipsoidaux!!I alternative : Kernel PCA
![Page 137: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/137.jpg)
Defauts de l’ACP classique
elle est adaptee surtout au cas de realisations de gaussiennesmultivariees
I en general, la non-correlation n’implique pas l’independance desdirections principales
I alternative : Analyse en Composantes Independantes (plutot quePrincipales)
elle est adaptee aux structures lineaires
I les nuages de points ne sont pas tous ellipsoidaux!!I alternative : Kernel PCA
![Page 138: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/138.jpg)
Defauts de l’ACP classique
elle est adaptee surtout au cas de realisations de gaussiennesmultivariees
I en general, la non-correlation n’implique pas l’independance desdirections principales
I alternative : Analyse en Composantes Independantes (plutot quePrincipales)
elle est adaptee aux structures lineaires
I les nuages de points ne sont pas tous ellipsoidaux!!I alternative : Kernel PCA
![Page 139: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/139.jpg)
Defauts de l’ACP classique
elle est adaptee surtout au cas de realisations de gaussiennesmultivariees
I en general, la non-correlation n’implique pas l’independance desdirections principales
I alternative : Analyse en Composantes Independantes (plutot quePrincipales)
elle est adaptee aux structures lineaires
I les nuages de points ne sont pas tous ellipsoidaux!!I alternative : Kernel PCA
![Page 140: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/140.jpg)
Defauts de l’ACP classique
elle est adaptee surtout au cas de realisations de gaussiennesmultivariees
I en general, la non-correlation n’implique pas l’independance desdirections principales
I alternative : Analyse en Composantes Independantes (plutot quePrincipales)
elle est adaptee aux structures lineairesI les nuages de points ne sont pas tous ellipsoidaux!!
I alternative : Kernel PCA
![Page 141: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/141.jpg)
Defauts de l’ACP classique
elle est adaptee surtout au cas de realisations de gaussiennesmultivariees
I en general, la non-correlation n’implique pas l’independance desdirections principales
I alternative : Analyse en Composantes Independantes (plutot quePrincipales)
elle est adaptee aux structures lineairesI les nuages de points ne sont pas tous ellipsoidaux!!I alternative : Kernel PCA
![Page 142: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/142.jpg)
ACP a noyau
On applique une transformation Φ qui envoie le nuage de points Xdans un espace ou la structure est lineaire
La matrice de covariance de Φ(X ) = (Φ(x1), . . . ,Φ(xn))T est alors
Σ =1
n
n∑i=1
Φ(xi )Φ(xi )T
Astuce du noyau : K =(k(xi , xj)
)i ,j
=(Φ(xi )
TΦ(xj))i ,j
![Page 143: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/143.jpg)
ACP a noyau
On applique une transformation Φ qui envoie le nuage de points Xdans un espace ou la structure est lineaire
La matrice de covariance de Φ(X ) = (Φ(x1), . . . ,Φ(xn))T est alors
Σ =1
n
n∑i=1
Φ(xi )Φ(xi )T
Astuce du noyau : K =(k(xi , xj)
)i ,j
=(Φ(xi )
TΦ(xj))i ,j
![Page 144: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/144.jpg)
ACP a noyau
On applique une transformation Φ qui envoie le nuage de points Xdans un espace ou la structure est lineaire
La matrice de covariance de Φ(X ) = (Φ(x1), . . . ,Φ(xn))T est alors
Σ =1
n
n∑i=1
Φ(xi )Φ(xi )T
Astuce du noyau : K =(k(xi , xj)
)i ,j
=(Φ(xi )
TΦ(xj))i ,j
![Page 145: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/145.jpg)
ACP a noyau (suite)
”Directions” principales de la forme:
pi (x) =n∑
j=1
αi ,jk(xj , x)
le vecteur αi = (αi ,1, . . . , αi ,n) est solution du problemed’optimisation:
maxα
αTK 2α
αTKα
sous les contraintes: αTi Kαj pour j = 1, . . . , i − 1
on resout le probleme aux elements propres:
Kα = nλα
![Page 146: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/146.jpg)
ACP a noyau (suite)
”Directions” principales de la forme:
pi (x) =n∑
j=1
αi ,jk(xj , x)
le vecteur αi = (αi ,1, . . . , αi ,n) est solution du problemed’optimisation:
maxα
αTK 2α
αTKα
sous les contraintes: αTi Kαj pour j = 1, . . . , i − 1
on resout le probleme aux elements propres:
Kα = nλα
![Page 147: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/147.jpg)
ACP a noyau (suite)
”Directions” principales de la forme:
pi (x) =n∑
j=1
αi ,jk(xj , x)
le vecteur αi = (αi ,1, . . . , αi ,n) est solution du problemed’optimisation:
maxα
αTK 2α
αTKα
sous les contraintes: αTi Kαj pour j = 1, . . . , i − 1
on resout le probleme aux elements propres:
Kα = nλα
![Page 148: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/148.jpg)
Analyse en ComposantesIndependantes (ACI)
![Page 149: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/149.jpg)
Probleme du ”cocktail-party”
ACP = fondee sur la notion de correlation
Bonne notion = notion d’independance
![Page 150: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/150.jpg)
Correlation vs. Independance
Or : X et Y independants ⇒ cov(X , Y ) = 0
Reciproque fausse en general, sauf cas gaussien...
De l’ACP vers l’ACI... (beaucoup plus difficile !)
![Page 151: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/151.jpg)
Formulation du probleme
S = (S1, . . . , Sd)T sources independantes et non-gaussiennesinconnues
A matrice de melange d × d inconnue
X = (X1, . . . , Xd)T observations (capteurs), on supposeCov(X ) = I
On a le systeme : X = AS
On cherche A orthogonale telle que :
S = ATX ait des composantes independantes
![Page 152: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/152.jpg)
Theorie de l’information
Entropie d’une v.a. Z ∼ p(z) :
H(Z ) = −E(log(p(Z )))
Considerons les v.a. T de variance v , alors
Z ∼ N (0, 1) → maxT
H(T )
Information mutuelle pour S = (S1, . . . , Sd)T :
I (S) =d∑
i=1
H(Si)− H(S)
![Page 153: Statistique & Machine Learningagarivie/Telecom/PESTO/Pesto_171011… · Machine Learning... un peu plus que des stats M´ethodes non-param´etriques op´erationnelles Traitement de](https://reader034.vdocument.in/reader034/viewer/2022042116/5e931d37f0835d64675ee3b7/html5/thumbnails/153.jpg)
ACI par methode entropique
Propriete de l’entropie : si S = ATX
H(S) = H(X ) + log(| det(A)|)
On a donc le probleme d’optimisation suivant :
→ minA:AT A=I
I (ATX ) =d∑
i=1
H(Si)− H(X )
Interpretation : ecart du comportement gaussien (minimisationde l’entropie des composantes)