réseaux de neurones convolutifs avec apprentissage minimax

HAL Id: hal-03339661https://hal.archives-ouvertes.fr/hal-03339661

Submitted on 9 Sep 2021

HAL is a multi-disciplinary open accessarchive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come fromteaching and research institutions in France orabroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, estdestinée au dépôt et à la diffusion de documentsscientifiques de niveau recherche, publiés ou non,émanant des établissements d’enseignement et derecherche français ou étrangers, des laboratoirespublics ou privés.

Réseaux de Neurones Convolutifs avec ApprentissageMinimax pour des Proportions par classe incertaines et

déséquilibréesMarie Guyomard, Cyprien Gilet, Susana Barbosa, Lionel Fillatre

To cite this version:Marie Guyomard, Cyprien Gilet, Susana Barbosa, Lionel Fillatre. Réseaux de Neurones Convolutifsavec Apprentissage Minimax pour des Proportions par classe incertaines et déséquilibrées. ORASIS2021, Centre National de la Recherche Scientifique [CNRS], Sep 2021, Saint Ferréol, France. �hal-03339661�

https://hal.archives-ouvertes.fr/hal-03339661

https://hal.archives-ouvertes.fr

Réseaux de Neurones Convolutifs avec Apprentissage Minimax pour desProportions par classe incertaines et déséquilibrées

Marie Guyomard1, Cyprien Gilet1, Susana Barbosa2, Lionel Fillatre1

1 Université Côte d’Azur, CNRS, I3S, Sophia-Antipolis, France2 Université Côte d’Azur, CNRS, IPMC, Sophia-Antipolis, France

Laboratoire I3S, Euclide B, 2000 Route des Lucioles, 06900 [email protected]

RésuméCe papier propose une nouvelle approche ajustant les ré-seaux de neurones convolutifs appliqués sur des jeux dedonnées déséquilibrés dont les proportions par classessont incertaines. La règle de décision constitutant la sor-tie du réseau de neurones est remplacée par le classifieurMinimax dont la particularité est de chercher à égaliserles risques conditionnels. De ce fait, le réseau de neu-rones devient robuste au déséquilibre des bases de don-nées ainsi qu’au changement de probabilités a priori. Desexpériences numériques sur des images médicales mettenten évidence la pertinence de notre approche quand il estnécessaire de classifier correctement les classes les moinsreprésentées. Les résultats obtenus sur la base de don-nées CIFAR100 démontre l’extensibilité de notre méthodeen présence d’un grand nombre de classes. 1

Mots ClefRéseau de Neurones Convolutifs, Bases de données dés-équilibrées, Changement de probabilités a priori, Classi-fieur Minimax.

AbstractThis paper proposes a new approach for adjusting convo-lutional neural networks when dealing with imbalanceddatasets and prior probability shifts. The output decisionrule of the trained neural network is replaced by a mini-max classifier that tends to equalize the class-conditionalrisks of misclassification. Hence, the neural network be-comes robust face to imbalanced classes and prior pro-bability shifts. Numerical experiments on medical imagesshow the relevance of our approach when it is necessary towell classify the classes with the smallest number of trai-ning images. Results on the CIFAR100 dataset show thescalability of our method when the number of classes islarge.

1. Un article présentant cette méthode a été soumis à l’IEEE Interna-tional Conference on Image Processing 2021. Cette version contient plusde détails.

KeywordsConvolutional Neural Network, Imbalanced datasets, Priorprobability shift, Minimax classifier.

1 IntroductionL’utilisation de réseaux de neurones convolutifs (CNNs)est devenue incontournable pour la classification d’imagesdans un grand nombre de domaines d’application. Ce-pendant, en présence de bases de données déséquilibréesla performances de classification des CNNs est impactée[1, 2, 3, 4]. Lorsque les classes sont inégalement représen-tées la plupart des CNNs cherchent naturellement à pré-dire les classes dominantes, à savoir celles contenant leplus grand nombre d’images, et tendent à sous-estimer lesmoins représentées. Autrement dit, les classes minoritairesavec seulement peu d’images auront un risque conditionneld’erreur de classification très élevé.De plus, comme la plupart des méthodes de Machine Lear-ning, les CNNs sont sensibles à d’éventuels changementsde proportions par classe. Ces changements de proportionspar classe se produisent lorsque la vrai distribution a prioriévolue au cours du temps pour des raisons inconnues, etque les proportions par classe d’observations test diffèrentde celles observées dans la base d’apprentissage [5, 6].Lorsque un changement de probabilité a priori survient, lerisque d’erreur moyen évolue de manière linéaire et signi-ficative [7, 8]. Il est alors crucial de les prendre en consi-dération lorsque l’on construit un CNN. Comme discutédans [8, 9], la sensibilité d’un classifieur à un changementde probabilité a priori est davantage importante lorsque lesrisques conditionnels sont déséquilibrés.Ainsi, les changements de probabilité a priori et la pré-sence de bases de données déséquilibrées partagent un traitcommun, à savoir la sensibilité aux risques conditionnelsdéséquilibrés. Égaliser les risques conditionnels apparaîtalors essentiel à l’obtention d’un classifieur robuste faceaux difficultés de proportions par classe qui plus est inter-viennent dans un grand nombre d’applications comme par

exemple en médecine de précision.

1.1 Gérer le problème des bases de donnéesdéséquilibrées

Dans [1], les auteurs apportent un panorama intéressantd’approches visant à résoudre le problème des bases dedonnées déséquilibrées dans le Deep Learning. Une ap-proche commune est de ré-échantillonner la base d’ap-prentissage (sur-échantillonnage ou sous-échantillonnage)en équilibrant les proportions par classe [3]. Néanmoins,cette approche introduit un biais puisque le vrai état de na-ture reste déséquilibré. Une autre méthode que les auteurscitent est le cost-sensitive learning, étudié dans [10, 11],visant à assigner différents coûts d’erreur de classificationpar classe afin de contrebalancer le nombre d’occurrencesde chaque classe. Cependant, ces coûts sont difficiles à op-timiser lorsque les bases de données contiennent un grandnombre de classes. D’autres approches comme le seuillage(thresholding) [12], la classification uni-classe (one-classclassification) [13] ou encore un hybride de ces méthodes(hybrid of methods) [14] tentent également de résoudre leproblème des proportions par classe déséquilibrées. Les au-teurs dans [15] proposent de remplacer la fonction objectifstandard de cross-entropy durant la procédure d’apprentis-sage. Dans [16] les auteurs proposent quant à eux une mé-thode rééquilibrant les probabilité a priori à l’issue de laphase d’apprentissage.D’un point de vue théorique, une manière raisonnable derendre un classifieur robuste aux problèmes de classes dés-équilibrées et aux changements de probabilités a prioriest de considérer un classifieur Minimax [8]. Le classi-fieur Minimax cherche en effet à minimiser le maximumdes risques conditionnels lors de la phase d’apprentissage.Ainsi, cette méthode tend à égaliser les risques par classece qui induit une robustesse dur risque d’erreur global faceaux changementx de proportions par classe. L’approcheMinimax appliquée aux réseaux de neurones a déjà étéétudiée dans [17]. Les auteurs proposent un algorithmenécessitant le rééchantillonnage de la base d’apprentis-sage. En revanche un tel rééchantillonnage n’est pas réali-sable lorsque certaines classes ne contiennent que quelqueséchantillons, que le nombre total d’échantillons d’appren-tissage est limité ou que le nombre de classes est important,ce qui apparaît généralement dans de nombreuses applica-tions réelles.

1.2 Gérer le problème de changement deprobabilités a priori

Dans le but de palier au problème de changement de proba-bilité a priori, une nouvelle méthode de classification su-pervisée a émergé, appelée la quantification, comme men-tionnée dans [9]. A partir de l’échantillon d’apprentissage,cette approche vise à estimer les proportions pas classede l’échantillon de test afin d’améliorer la performancegénérale associée à ces nouvelles observations test. Ce-pendant les approches de quantification nécessitent que la

prédiction se fasse sur un ensemble d’observation test enmême temps, ce qui n’est pas toujours envisageable pourgrands nombres d’application réelles comme la médecine.Dans le contexte des CNNs, la méthode proposée dans [16]convient également pour traiter le problème de change-ments de probabilités a priori.

1.3 ContributionsLa contribution de ce papier est triple. Premièrement, nouscouplons le classifieur Minimax à un CNN pré-entraîné afinde rééquilibrer les risques conditionnels de ce réseau deneurones. Deuxièmement, nous proposons un algorithmede sous-gradient projeté pour entraîner le classifieur Mini-max. Cet algorithme peut prendre en considération toutesfonctions de perte permettant de mesurer l’erreur de clas-sification entre les classes. Enfin, nous testons notre al-gorithme sur plusieurs bases de données d’images médi-cales pour lesquelles il est crucial d’assurer un faible risqueconditionnel pour la classe minoritaire. Nous appliquonsaussi notre algorithme sur la base de données CIFAR100contenant 100 classes.La structure du papier est la suivante. La partie 2 expliquecomment coupler un CNN pré-entraîné avec le classifieurMinimax. La section 3 illustre les bénéfices de notre ap-proche sur différentes bases de données d’images. Enfin, ladernière partie 4 conclue le papier.

2 Couplage d’un CNN et classifieurMinimax

Cette section présente comment coupler un réseau deneurones convolutif avec le classifieur Minimax et décritl’étape d’apprentissage du classifieur Minimax.

2.1 Coupler un CNN pré-entraîné avec unclassifieur en couche de sortie

Soit Y = {1, . . . ,K} l’ensemble des étiquettes de chaqueclasse où K ≥ 2 dénote le nombre de classes. Soit Φ :X → Y un CNN qui assigne une classe à chaque imageX ∈ X . L’architecture d’un CNN Φ composé de s couchescachées h1, . . . , hs peut être modélisé comme étant [18]

Φ(X) = hs+1 ◦ hs ◦ · · · ◦ h1(X) = hs+1 ◦ ϕ(X), (1)

avec hs+1(·) la couche de sortie, ϕ(X) la sortie de la der-nière couche cachée, et où f ◦ g(X) = f(g(X)) dénote lacomposition de entre deux fonctions f et g. Dans la suite dece papier, Z = ϕ(X) ∈ Rd correspondra aux variables ex-plicatives deep et hs+1 dénotera le classifieur de la couchede sortie. Généralement la règle de décision hs+1 est unclassifieur Softmax, dénotée ici par δsoft, fondée sur unecouche linéaire [18].Ce papier a pour but de remplacer le classifieur de lacouche de sortie par un classifieur Minimax. Pour ce fairenous étudions les réseaux de neurones profonds pouvantêtre modélisés comme étant

Φδ(X) = δ ◦ ϕ(X) = δ(Z), (2)

avec δ : Rd → Y une règle de décision jouant le rôle decouche de sortie. En d’autres termes, Φδ(X) est un CNNprenant des décisions par rapport aux variables explicativesdeep Z. Dans cet article, nous ne souhaitons pas entraînerà nouveau les couches cachées du CNN mais seulementcoupler les variables explicatives deep avec un classifieurspécifique (seulement ce classifieur sera entraîné). Ainsi,notre approche est une sorte de fine tunning puisque notreattention se concentre seulement sur le classifieur en sortie.Soit ∆ := {δ : Rd → Y} l’ensemble de toutes les règlesde décisions possibles à partir de l’ensemble des variablesexplicatives deep définies dans Rd.Soit S = {(Yi, Xi) , i ∈ I} l’échantillon d’apprentissagecontenant m images d’entraînement étiquettées, où I estun ensemble d’indices fini. Soit L : Y × Y → [0,+∞) lafonction de perte telle que L(k, l) := Lkl correspond aucoût d’erreur de prédire la classe l quand la vraie classe estk. Ainsi, le risque empirique d’erreurs de classification duCNN Φδ est donné par

r (Φδ) =1

m

∑

i∈IL(Yi,Φδ(Xi)) =

1

m

∑

i∈IL(Yi, δ(Zi)),

(3)avec Zi = ϕ(Xi). Ainsi, tous les CNN de la forme Φδ(X)peuvent être comparés en évaluant seulement le risque

rϕ (δ) = r (Φδ) = r (δ ◦ ϕ) , (4)

puisque ϕ(·) est commun à tous les CNN Φδ .En d’autres termes, le risque empirique r (Φδ) d’un CNNΦδ est égal au risque empirique r (Φδ) de la règle de dé-cision δ appliquée sur les variables explicatives deep. Il sedoit de noter que la performance (accuracy) d’un CNN estégale à 1 − r (Φδ) lorsque nous utilisons la fonction deperte classique L0-1 défine par Lkl = 0 si k = l et Lkl = 1sinon.Notons π := [π1, . . . , πK ] les proportions par classe del’échantillon d’apprentissage telles que, pour tout k ∈ Y ,πk est la proportions d’images observées de classe k.Comme expliqué dans [7, 8], le risque empirique rϕ (δ)peut se réécrire comme étant

rϕ (δ) =∑

k∈Y

πkRk (δ) , (5)

Rk (δ) =∑

l∈Y

LklP(δ ◦ ϕ(Xi) = l | Yi = k), (6)

avec Rk (δ) les risques conditionnels empiriques de δ as-sociés à la classe k et P(· | ·) la probabilité conditionnelleestimée sur l’échantillon d’apprentissage.Habituellement dans un CNN, la règle de décision Soft-max a pour but d’approximer le classifieur de Bayes, dé-noté par δBπ , minimisant rϕ (δ). Ainsi, si nous remplaçonsla couche Softmax par δBπ , la performance du CNN doitrester la même. De manière plus générale, soit δBπ le clas-sifieur de Bayes associé aux probabilité à priori π, où πappartient au simplexe S de dimensions K. Nous pouvons

alors définir le risque minimum de Bayes V (π) := rϕ(δBπ )comme étant une fonction des probabilités à priori sur lesimplexe S.

2.2 Apprentissage MinimaxÉtant donné une base de test S ′ = {(Y ′

i , X′i) , i ∈ I ′},

où I ′ est un ensemble d’indices fini, contenant m′ imagestest satisfaisant des proportions par classe inconnues π =[π1, . . . , πK ], le CNN Φδ entraîné sur l’échantillon d’ap-prentissage S est par la suite utilisé afin de prédire lesclasses Y ′

i des images de l’échantillon test. Comme décritdans [7, 8], le risque empirique d’erreur global du CNN Φδdépend des proportions par classe π de la base de test, etest défini par

r (π,Φδ) = rϕ (π, δ) =∑

k∈Y

πkRk (δ) . (7)

Ainsi, ce risque d’erreur global évolue linéairement quandun changement de probabilité a priori se produit. Le risquemaximum pouvant être atteint par le CNN Φδ est alorsM(δ) := maxk∈Y Rk (δ).

V (⇡)

R1

��B⇡

�R2

��B⇡

�

R2

��B⇡

�

R1

��B⇡

�

⇡1 ⇡10 1Priors ⇡1

Risk

s

r�⇡, �B

⇡

�

r� ⇡, �

B⇡

�

Minimization

L11

L22

r� ⇡, �

B⇡

�

r�⇡, �B

⇡

�

Risques

FIGURE 1 – Évolution du risque pour K = 2 classes.Dans ce cas, le risque (7) peut se réécrire comme étantrϕ (π, δ) = π1[R1 (δ)− R2 (δ)] + R2 (δ).

Afin de disposer d’un classifieur en couche de sortie duCNN qui soit robuste malgré des proportions par classedéséquilibrées ou incertaines, une approche pertinente estalors d’utiliser le classifieur Minimax minimisant M(δ).Comme démontré dans [7, 8], ce problème d’optimisa-tion est équivalent à calculer les probabilités à priori π ∈S maximisant V (π) tel que le classifieur Minimax, notéδBπ , soit le classifieur de Bayes associé aux probabilités àpriori π.Cette approche est illustrée dans la figure 1 pour K = 2classes. La valeur maximale de V est atteinte par le clas-sifieur égalisateur δBπ tel que Rk

(δBπ)

= maxπ V (π) pourchaque classe k ∈ Y . Ce classifieur égalisateur est donc ro-buste à n’importe quel changement de probabilité a priori.Afin d’apprendre le classifieur Minimax, nous utilisonsl’approche établie dans [8]. Cette méthode nécessite de dis-crétiser les variables explicatives deep Z (à l’aide de l’al-gorithme des k-means) afin d’obtenir une approximation

précise de V (π). Comme démontré dans [8], V est unefonction concave et affine par morceaux sur le simplexe S.Ainsi, la maximisation non-différentiable de V est réaliséepar un algorithme de sous-gradient projeté [19] suivant leschéma

π(n+1) = PS

(π(n) +

γnηn

g(n)

), (8)

avec, à chaque itération n ≥ 1, g(n) le sous-gradientde V au point π(n), γn le pas du sous-gradient, ηn =max{1, ‖g(n)‖2}, et PS la projection exacte sur le simplexeprobabiliste S [20]. Il a été démontré que cet algorithmeconverge fortement vers π = argmaxπ∈SV (π).La figure 2 résume notre approche d’ajustement d’un CNNpré-entraîné en considérant le classifieur Minimax. Les va-riables explicatives deep issues du CNN forment l’échan-tillon d’apprentissage. Cet échantillon est par la suite dis-crétisé par l’algorithme des k-means. Enfin le classifieurMinimax est construit avec l’algorithme de sous-gradientprojeté (8).

Entrées TransformationsNon-Linéaires Softmax Sortie

Réseau de Neurones

Classifieur MinimaxSortieClassifieur

Minimax

Deep Features

Var. Desc.Deep

DiscrétisationK-means

FIGURE 2 – Schéma de la méthode couplée.

3 ExpériencesCette partie illustre l’intérêt de notre approche sur troisbases de données médicales [21]. Une expérience est aussimenée sur la base de données CIFAR100 [22] contenant untrès grand nombre de classes dans le but de diversifier lescas d’application et de mettre en avant les performancesde notre méthode avec un grand nombres de classe.

Bases de données médicales : la base de données Der-maMNIST [23] est une collection d’images dermatosco-piques de lésions cutanées pigmentées courantes contenant7 catégories. BreastMNIST [24] quant à elle, est un re-cueil d’échographies du sein comprenant 2 classes tandisque OCTMNIST [25] regroupe en 4 catégories des images3D du foie. Les trois bases de données médicales que nousavons considérées [21] diffèrent selon le nombre d’échan-tillons, de classes, mais aussi en termes de proportions parclasses (voir Tableau 1). Ces bases de données font partie

FIGURE 3 – Aperçu des bases de données médicales.

de MedMNIST, une collection de 10 bases de données mé-dicales réelles en accès libre. MedMNIST est standardiséeafin de mener différentes tâches de classification sur desimages de petites tailles (28×28). Chaque base de donnéescontient un échantillon d’apprentissage, un échantillon devalidation et enfin un échantillon de test. Tout comme dans[26], nous avons entraîné le CNN sur l’échantillon d’ap-prentissage avec 100 itérations en utilisant la fonction deperte cross-entropy et l’optimiseur SGD. Nous avons uti-lisé les algorithmes disponibles sur [27] où les auteurs ontpris le soin de limiter le sur-apprentissage en choisissant unmodèle optimal sur l’échantillon de validation. Enfin, lesperformances de généralisation sont évaluées sur l’échan-tillon de test. Une fois le modèle ResNet entraîné les va-riables explicatives deep du meilleur modèle sont extraites.Pour calibrer notre règle de décision minimax sur la couchede sortie du CNN, nous utilisons ensuite l’échantillon devalidation afin de limiter le sur-apprentissage pouvant pro-venir des variables explicatives deep associées à l’échan-tillon d’apprentissage. Enfin, l’échantillon de test nous per-met d’évaluer la performance du CNN ajusté. Le tableau 2offre une comparaison des résultats sur les échantillons devalidation et de test associés au CNN ResNet initial consi-dérant la règle de décision softmax, au CNN considérantle Classifieur de Bayes Discret (DBC) δBπ calculé commedans [8], et au CNN ajusté avec notre classifieur Minimaxdiscret (DMC) δBπ . Le DBC et le DMC ont été construit surles mêmes variables explicatives extraites et discrétisées. Ilest attendu que le DBC ait un risque global similaire à celuidu CNN ayant comme couche de sortie la règle de décisionSoftmax.Nous pouvons observer dans le tableau 2 que le DMC ob-tient le plus fable maximum des risques conditionnels. Deplus, la différence ψ(δ) entre le maximum et le minimumdes risques conditionnels étant définie par

ψ(δ) := maxk∈Y

Rk(δ)−mink∈Y

Rk(δ), (9)

est la plus faible pour le DMC. Ainsi, comme nous l’avonssouligné précédemment, le DMC tente de prédire toutesles classes, même les moins représentées. Cependant, pourla plupart des bases de données, le risque d’erreur globalsur l’échantillon de test est le plus élevé pour le DMC quepour les deux autres méthodes. En effet, un compromis doitêtre fait afin d’égaliser les risques conditionnels. Le risqueglobal est minimum lorsque les risques conditionnels sont

Bases de données # Classes # Apprentissage # Validation # Test πtrain πval πtest

DermaMNIST 7 7,007 1,003 2,005Min = 0.01Max = 0. 67

Min = 0.01Max = 0.67

Min = 0.01Max = 0.67

BreastMNIST 2 4,709 524 624Min = 0.27Max = 0.73

Min = 0.27Max = 0.73

Min = 0.27Max = 0.73

OCTMNIST 4 97,477 10,832 1,000Min = 0.08Max = 0.47

Min = 0.08Max = 0.47

Min = 0.25Max = 0.25

TABLE 1 – Panorama des bases de données médicales (Min, resp. Max, dénote le minimum, resp. le maximum, des propor-tions par classe).

Bases de données Échantillons ResNet-18 CNN ResNet-18-DBC ResNet-18-DMCr maxk∈Y Rk ψ r maxk∈Y Rk ψ r maxk∈Y Rk ψ

DermaMNIST Val 0.29 1 0.83 0.26 1 0.9 0.48 0.54 0.21Test 0.3 1 0.84 0.32 1 0.87 0.54 0.83 0.37

BreastMNIST Val 0.17 0.43 0.36 0.14 0.43 0.39 0.17 0.19 0.03Test 0.16 0.5 0.46 0.18 0.57 0.54 0.19 0.19 0

OCTMNIST Val 0.06 0.35 0.33 0.07 0.47 0.46 0.13 0.13 0.01Test 0.28 0.76 0.69 0.20 0.41 0.33 0.21 0.32 0.24

TABLE 2 – Résultats sur les échantillons de validation et de test du ResNet-18 CNN, du DBC et du DMC appliqués surles variables explicatives extraites du ResNet-18. Pour chaque classifieur, r fait référence au risque global (3), maxk∈Y Rkcorrespond au maximum des risques conditionnels (6), et ψ est la différence entre le maximum et le minimum des risquesconditionnels par classe (9).

fortement déséquilibrés et que les classes les plus représen-tées sont très bien prédites. Les deux méthodes comparéesau DMC ne fournissent pas de prédictions précises pour lesclasses contenant le plus petit nombre d’images, bien quece soient les classes d’intérêt car correspondant aux patho-logies. Il est à noter ici qu’un changement de proportionspar classe survient dans la bases de données OCTMNISTentre les échantillons d’apprentissage et de validation (voirTableau 1). Par construction, le DMC apparaît significati-vement moins sensible à ce changement de proportions parclasse que les autres méthodes.Afin de souligner davantage ces conclusions, concentrons-nous sur l’échantillon de validation de DermaMNIST.Nous observons sur la figure 4 que malgré les proportionspar classe hautement déséquilibrées (Tableau 1), le DMCpermet une meilleure égalisation des risques d’erreurs parclasse que les deux autres méthodes. De plus, concernantle DBC et le CNN initial, nous pouvons observer queles risques conditionnels associés aux classes les moinsreprésentées sont situés bien au-dessus du risque moyen.Puisque la classe la plus représentée est bien prédite, lerisque moyen est faible bien que les pus petites classessoient fortement mal classifiées.

Base de données CIFAR100 : Nous avons dans un der-nier temps considéré la base de données CIFAR100 conte-nant 60 000 images avec K = 100 classes. Pour cette ex-périence nous considérons un échantillon d’apprentissage,respectivement de test, composé de 40 000 images, respec-tivement 20 000 images. Cette fois ci, les deux échantillonssatisfont des proportions par classe parfaitement équili-

Ris

ques

Classes

Risques Globaux

Risques Conditionnels

FIGURE 4 – Risques associés à l’échantillon de validationde DermaMNIST. La taille de chaque point dépend desproportions par classe.

brées π = [1/100, . . . , 1/100]. Pour cette expérience,nous considérons des variables explicatives extraites de ladernière couche cachée d’un CNN EfficientNet-B0 [28],et nous comparons deux règles de décision en dernièrecouche du réseau de neurone, le DMC et la RégressionLogistique Repondérée (WLR), appliquées toutes deux surles variables explicatives deep. La WLR, connue poursa capacité à faire face au problème de proportions pasclasse déséquilibrées, est construite en considérant despoids par classe inversement proportionnels aux fréquencesde classe.Ici, puisque les proportions par classes sont parfaitementéquilibrées, il en résulte que la WLR équivaut à considérerle classifieur initial Softmax composant la dernière couchedu CNN. Comme illustré à la figure 5, ce classifieur est

Régression Logistique Repondérée

ClassesRégression Logistique Repondérée

ClassesClassifieur Minimax Discret

Classifieur Minimax Discret

Classes Classes

FIGURE 5 – Risques Conditionnels sur la base de donnéesCIFAR-100.

dans l’incapacité d’égaliser les risques conditionnels. Deplus, dans cet exemple les classes sont trop nombreusespour être manuellement en mesure de calculer les poidsoptimaux par classe. Malgré ces difficultés, nous pouvonsobserver que notre approche minimax est très satisfaisantpour chercher à égaliser les risques d’erreur par classe surcette grande base de données.

4 ConclusionDans cet article nous avons présenté une nouvelle approchepermettant d’ajuster des réseaux de neurones convolutifspré-entraînes pour traiter des problèmes de proportionspar classe déséquilibrées ou pouvant évoluer au cours dutemps. Pour ce faire, notre approche couple un réseau deneurones convolutif pré-entraîne avec une règle de décisionminimax en couche de sortie. Des résultats sur plusieursbases de données réelles ont illustré l’intérêt de notre ap-proche. Nos prochaines recherches vont s’orienter sur l’er-reur de généralisation de notre approche.

Références[1] M. Buda, A. Maki, and M. A. Mazurowski, “A syste-

matic study of the class imbalance problem in convo-lutional neural networks,” Neural Networks, 2018.

[2] M. A. Mazurowski, P. A. Habas, J. M. Zurada, J. Y.Lo, J. A. Baker, and G. D. Tourassi, “Training neuralnetwork classifiers for medical decision making : Theeffects of imbalanced datasets on classification per-formance,” Neural Networks, vol. 21, pp. 427–436,2008.

[3] H. He and E. A. Garcia, “Learning from imbalanceddata,” IEEE Transactions on Knowledge and DataEngineering, pp. 1263–1284, 2009.

[4] Q. Dong, S. Gong, and X. Zhu, “Imbalanced deeplearning by minority class incremental rectification,”IEEE Transactions on Pattern Analysis and MachineIntelligence, 2019.

[5] J. G. Moreno-Torres, T. Raeder, R. Alaiz-Rodríguez,N. V. Chawla, and F. Herrera, “A unifying view ondataset shift in classification,” Pattern Recognition,2012.

[6] J. Quiñonero-Candela, M. Sugiyama, A. Schwaigho-fer, and N. D. Lawrence, Dataset Shift in MachineLearning. MIT Press, 2008.

[7] H. V. Poor, An Introduction to Signal Detection andEstimation, 2nd ed. Springer-Verlag New York,1994.

[8] C. Gilet, S. Barbosa, and L. Fillatre, “Discrete box-constrained minimax classifier for uncertain and im-balanced class proportions,” IEEE Transactions onPattern Analysis and Machine Intelligence, 2020.

[9] P. González, A. Castaño, C. Nitesh, and J. J. Del Coz,“A review on quantification learning,” ACM Compu-ting Surveys, 2017.

[10] M. Kukar and I. Kononenko, “Cost-sensitive learningwith neural networks,” European Conference on Arti-ficial Intelligence, 1998.

[11] Z.-H. Zhou and X.-Y. Liu, “Training cost-sensitiveneural networks with methods addressing the classimbalance problem,” EEE Transactions on Know-ledge and Data Engineering, 2006.

[12] S. Lawrence, I. Burns, A. Back, A. C. Tsoi, and C. L.Giles, Neural Network Classification and Prior ClassProbabilities. Springer Berlin Heidelberg, 1998.

[13] H.-j. Lee and S. Cho, “The novelty detection ap-proach for different degrees of class imbalance,” inNeural Information Processing, I. King, J. Wang, L.-W. Chan, and D. Wang, Eds. Springer Berlin Hei-delberg, 2006.

[14] N. V. Chawla, A. Lazarevic, L. O. Hall, and K. W.Bowyer, “Smoteboost : Improving prediction of theminority class in boosting,” in Knowledge Discoveryin Databases : PKDD 2003, 2003.

[15] K. Cao, C. Wei, A. Gaidon, N. Arechiga, andT. Ma, “Learning imbalanced datasets with label-distribution-aware margin loss,” in Advances in Neu-ral Information Processing Systems, vol. 32, 2019,pp. 1567–1578.

[16] J. Tian, Y.-C. Liu, N. Glaser, Y.-C. Hsu, and Z. Kira,“Posterior re-calibration for imbalanced datasets,” inAdvances in Neural Information Processing Systems(NeurIPS), vol. 33, 2020.

[17] A. Guerrero-Curieses, R. Alaíz-Rodríguez, andJ. Cid-Sueiro, “A fixed-point algorithm to minimaxlearning with neural networks,” IEEE Transactionson Systems, Man, and Cybernetics, Part C (Applica-tions and Reviews), vol. 34, pp. 383–392, 2004.

[18] I. Goodfellow, Y. Bengio, and A. Cour-ville, Deep Learning. MIT Press, 2016,http ://www.deeplearningbook.org.

[19] Y. I. Alber, A. N. Iusem, and M. V. Solodov, “On theprojected subgradient method for nonsmooth convexoptimization in a hilbert space,” Mathematical Pro-gramming, vol. 81, pp. 23–35, 1998.

[20] L. Condat, “Fast projection onto the simplex and the`1 ball,” Mathematical Programming, vol. 158, no. 1,pp. 575–585, 2016.

[21] K. He, X. Zhang, S. Ren, andJ. Sun, “MedMNIST databases,”https ://zenodo.org/record/4269852.XmdsulKiHE.

[22] A. Krizhevsky, “Learning multiple layersof features from tiny images,” 2009,https ://www.cs.toronto.edu/ kriz/cifar.html.

[23] P. Tschandl, C. Rosendahl, and H. Kittler, “Theham10000 dataset, a large collection of multi-sourcedermatoscopic images of common pigmented skin le-sions,” Scientific data, vol. 5, no. 1, pp. 1–9, 2018.

[24] W. Al-Dhabyani, M. Gomaa, H. Khaled, andA. Fahmy, “Dataset of breast ultrasound images,”Data in brief, vol. 28, p. 104863, 2020.

[25] D. S. Kermany, M. Goldbaum, W. Cai, C. C. Valen-tim, H. Liang, S. L. Baxter, A. McKeown, G. Yang,X. Wu, F. Yan et al., “Identifying medical diagnosesand treatable diseases by image-based deep learning,”Cell, vol. 172, no. 5, pp. 1122–1131, 2018.

[26] J. Yang, R. Shi, and B. Ni, “Medmnist classificationdecathlon : A lightweight automl benchmark for me-dical image analysis,” arXiv :2010.14925, 2020.

[27] K. He, X. Zhang, S. Ren, and J. Sun, “Github MedM-NIST,” 2020, https ://medmnist.github.io/.

[28] M. Tan and Q. V. Le, “Efficientnet : Rethinking mo-del scaling for convolutional neural networks,” Pro-ceedings of the 36th International Conference on Ma-chine Learning, 2019.

réseaux de neurones convolutifs avec apprentissage minimax

Documents