reconnaissance de formes iar-6002. approches non-paramétriques u les histogrammes u les estimateurs...

RECONNAISSANCE DE FORMES

IAR-6002

Approches non-paramétriques

Les histogrammes Les estimateurs de densités Technique de classification NN Technique de classification k-NN Erreurs de classification NN

Les histogrammes

Les histogrammes nous permettent d’estimer les pdf lorsque nous ne connaissons pas leurs formes paramétriques

Un histogramme est formé d’intervalles adjacents représentant un découpage de la plage des valeurs des caractéristiques x

Le nombre d’observations tombant dans chaque intervalle est ensuite affiché en fonction de x

Les histogrammes (exemples d’histogrammes)

50 observations

Les histogrammes Les probabilités sont alors estimées par

j

jjNw

nP

nj: nombre d’observations dans l’intervalle jwj: largeur de l’intervalle j

Les histogrammes (Exemple)

Avec 2 classes et 1 caractéristique

Les histogrammes (Exemple) Sachant que N=60 et wj=1, nous devons diviser les

nombres d’occurences par 60, P(A) = P(B) = 0.5 Pour classifier une observation x=7.5, nous devons

calculer des estimations de p(x|A) et p(x|B)

7860

145.7

7860

25.7

BP

AP

Les histogrammes (Exemple) Par le théorème de Bayes

875.0)5.7(15.7

125.0)5.0)(5.7(5.0)5.7(

5.0)5.7(5.7

)()5.7()()5.7(

)()5.7(5.7

APBP

BPAP

APAP

BPBPAPAP

APAPAP

P(B|7.5) > P(A|7.5) alors x est classé dans B

Les estimateurs de densités

Les observations représentent une approximation grossière de la fonction de densité réelle

Les observations sont en fait un ensemble de delta de dirac, un pour chaque observation

La surface de chaque pic correspond au nombre d’observations divisé par le nombre total d’obser-vations


Si nous remplaçons chaque pic par un noyau (kernel), leur sommation produira alors une estimation plus douce de la densité

De plus, si nous estimons des valeurs ponctuelles de densité, nous pouvons alors centrée une fonction (window function) à une position donnée x et ainsi calculée par convolution l’estimation de la densité à cette position

Les estimateurs de densités (Exemple noyau triangulaire)


L’expression de convolution

)(1

)(ˆ

)()(ˆ)(*)(ˆ)(ˆ

1i

N

is

ss

xyN

yP

dyyxKyPxKxPxP

Les estimateurs de densités (formes de divers noyaux)

Formes des noyaux (K(x))

Les estimateurs de densités (exemples d’estimation de densité)

Noyau triangulaire Noyau gaussien

Technique de classification NN

La technique du voisin le plus proche nous permet d’éviter le problème de calcul des probabilités

En fait, nous classons une observation x inconnue dans la classe la plus proche (NN), ou à l’observa-tion la plus proche dans les données d’entraînement


Nous devons alors déterminer l’observation de référence la plus proche. La distance Euclidienne est donnée par

n

iiie

n

n

abbad

bbb

aaa

1

2

1

1

)(),(

),....,(

),....,(


Autres distances

rrn

iiir

ii

n

im

n

iiicb

abbad

abbad

abbad

/1

1

1

1

),(

max),(

),(

Différence absolue

Distance maximale

Minkowski


Exemple de classification NN

Technique de classification k-NN

Une généralisation de la technique NN consiste à associer la classe Ci à une observation x dont font partie une majorité des k voisins les plus proches de x

Si nous utilisons 3 voisins, l’observation de l’exemple précédent sera classé dans B puisque 2/3 voisin appartiennent à B

Technique de classification k-NN (Comparaison de l’erreur)

Erreurs de classification NN

La probabilité d’erreur d’un classificateur NN est toujours plus grande ou égale à celle d’un classifica-teur de Bayes

Le classificateur de Bayes choisit toujours la classe la plus vraisemblable, ce qui représente le choix optimale

Avec un classificateur NN, il peut arriver qu’un voi-sin d’une classe donnée qui n’est pas la classe la plus vraisemblable soit le plus proche d’une obser-vation à classifier


La probabilité de bonne classification des éléments de la classe Ci, est obtenue par

)()()(

)(

)()()(

)()()(

2

ii

i

R

iiNNi

R iiNNi

CxpCpxp

dxxp

CxpCPCCP

dxCxpxCpCCP

n

n


La probabilité d’erreur de classification des éléments de la classe Ci, est obtenue par

)()()(

)(1)()(

)(

)()()()(

ii

i

ijiji

R

ii

iNNi

CxpCpxp

CPCPCP

dxxp

CxpCxpCPCEP

n


La probabilité d’erreur de classification totale, est obtenue par

c

iR

iiNN

c

iNNiiNN

dxxp

CxpCPEP

CEPCpEP

n

1

2

2

1

)(

)()(1)(

)()()(

Erreurs de classification NN (Exemple)

Si nous avons 2 classes A et B avec P(A) = P(B) = 0.5, et p(x|A) est distribué uniformément entre 0 et 2 alors que p(x|B) est distribué uniformément entre 1 et 5

Quelle est l’erreur de classification NN ? Comment cette erreur se compare-t-elle à l’erreur

Bayesienne


p(x|A), p(x|B) avec p(x) en pointillée


Calcul des probabilités d’erreur

6

1

3

21

2

11

0)4/1)(2/1()2/1)(2/1(

2/1

0)2/1)(2/1(

2/1

2

11)(

)(1)(

5

2

2

1

2

1

0

2

dxdx

dxAEP

ACPAEP

NN

NN


Calcul des probabilités d’erreur

6

1)4/1)(2/1(0

4/1

)4/1)(2/1()2/1)(2/1(

4/10

2

11)(

5

2

2

2

1

21

0

dx

dxdxBEP NN


Calcul de la probabilité d’erreur totale

6

16

1

2

1

6

1

2

1)()()()()(

NNNNNN BEPBPAEPAPEP


Calcul de la probabilité d’erreur totale Bayesienne

BayesNN

BayesBayesBayes

EPEP

BEPBPAEPAPEP

)()(8

14

1

2

10

2

1

)()()()()(

Erreurs de classification NN (Borne)

La borne d’erreur de P(E)NN

2)(1

)(2)( BayesBayesNN EPc

cEPEP

reconnaissance de formes iar-6002. approches non-paramétriques u les histogrammes u les estimateurs...

Documents