modèle de scoring pour la clientèle
TRANSCRIPT
ELABORATION D’UN MODÈLE DE SCORING POUR
LA CLIENTÈLE « ENTREPRISES »
Présenté par: FRIRAH Sara
EL RHARMOULI Ghita
Présenté le: 27 Juin 2013
Devant le jury :
M. Said Ramadan NSIRI Encadrant interne (INSEA)
M. Idriss EFFINA Examinateur (INSEA)
M. Alaaeddine BENNANI Encadrant externe (CAM)
Projet de Fin d’Etude
Introduction
Plan
I
II
III
IV
V
Contexte général du projet
Présentation de la base de données
Traitement et analyse univariée de la base de données
Elaboration d’un modèle de score pour les PME et GE
Automatisation des modèles sous VBA
Contexte général du projet
Présentation de la
base de données
Traitement et analyse
univariée de la BD
Elaboration d’un modèle de
score pour les PME et GEAutomatisation
sous VBAContexte général
du projet
Bale II
Exigence de
fonds propres
Procédure de
surveillance de
la gestion des
fonds propres
Discipline de
marché et
communication
financière
Pilier I Pilier II Pilier III Pilier I
Calcul du RC
Approche
standard
Approche NI
(Notation Interne)
(Fondation) (Avancée)
Dispositif Bâle II
Définition du défaut bâlois au sens 8/G/2010
1. Un retard de paiement de plus de 90 jours.
2. Un ou plusieurs arriérés de paiement de plus de 90
jours sur des crédits escompte.
3. Des dépassements persistants de plus de 90 jours.
4. Des comptes gelés depuis plus de 90 jours.
Retard de 90
jours
Notion du défaut
Présentation de la
base de données
Traitement et analyse
univariée de la BD
Elaboration d’un modèle de
score pour les PME et GEAutomatisation
sous VBAContexte général
du projet
31/12/1131/12/12
Stock de dossiers
présentant un
encours
Observation du
Défaut
12 mois
Présentation de la
base de données
Traitement et analyse
univariée de la BD
Elaboration d’un modèle de
score pour les PME et GEAutomatisation
sous VBAContexte général
du projet
Horizon de prévision
Comment mesurer le
risque de crédit ?
L’entreprise va-t-elle
rembourser sa dette ?
Présentation de la
base de données
Traitement et analyse
univariée de la BD
Elaboration d’un modèle de
score pour les PME et GEAutomatisation
sous VBAContexte général
du projet
La problèmatique
Méthode statistique d’estimation de la probabilité de défaut de la contrepartie
Données historiques
& Quantifier Effets des caractéristiques des emprunteurs sur leur probabilité de
défaut
Isoler
Scoring
Score obtenu Score seuil
Prise de décision
Présentation de la
base de données
Traitement et analyse
univariée de la BD
Elaboration d’un modèle de
score pour les PME et GEAutomatisation
sous VBAContexte général
du projet
Scoring
Elaborer deux modèles de prédiction
Grandes Entreprises
( CA > 175 Mdhs)
Petites et Moyennes Entreprises
(10 Mdhs < CA< 175 Mdhs)
65 % des expositions brutes au
titre du risque de crédit
Présentation de la
base de données
Traitement et analyse
univariée de la BD
Elaboration d’un modèle de
score pour les PME et GEAutomatisation
sous VBAContexte général
du projet
Objectif du projet
Transformer sous
format numérique
Construire
la BD
Comparer les
méthodes
utilisées
Choisir les
variables
discriminantes
Elaborer deux
modèles
prédictifs
Présentation de la
base de données
Traitement et analyse
univariée de la BD
Elaboration d’un modèle de
score pour les PME et GEAutomatisation
sous VBAContexte général
du projet
Étapes du projet
Présentation de la base de données
Présentation de la
base de données
Traitement et analyse
univariée de la BD
Elaboration d’un modèle de
score pour les PME et GEAutomatisation
sous VBAContexte général
du projet
Population
entière
Nouvelle
base
50% des entreprises
défaillantes
50% des entreprises
non défaillantes
9% des entreprises
défaillantes
91% des entreprises
non défaillantes
Présentation de la
base de données
Traitement et analyse
univariée de la BD
Elaboration d’un modèle de
score pour les PME et GEAutomatisation
sous VBAContexte général
du projet
Echantillon de travail
TAILLE CA
Total Bilan
TC_CA
TC_RN
DYNAMISMEENDETTEMENT
DCT /AC
DLT/T Bilan
T DETTES/ FP
RENTABILITÉ
EBE / CA
FDR / AC
RN / FP
RN / CA
STRUCTURE
FP / Fin Permanent FDR / CA FDR / T Bilan FP / T Bilan BFR / CA
TRÉSORERIE TN / T Bilan LIQUIDITÉ AC / PC AUTRES
Age de l’entreprise
Ancienneté de la relation
Forme juridique
Ville
Secteur d’activité
Qualité de l’actionnariat
Présentation de la
base de données
Traitement et analyse
univariée de la BD
Elaboration d’un modèle de
score pour les PME et GEAutomatisation
sous VBAContexte général
du projet
Présentation des variables de la base de données
Traitement et analyse univariée de
la base de données
Présentation de la
base de données
Traitement et analyse
univariée de la BD
Elaboration d’un modèle de
score pour les PME et GEAutomatisation
sous VBAContexte général
du projet
Traitement des valeurs extrêmes
Numéro des observations associées aux
valeurs extrêmes du ratio T_Dettes / FP
Présentation de la
base de données
Traitement et analyse
univariée de la BD
Elaboration d’un modèle de
score pour les PME et GEAutomatisation
sous VBAContexte général
du projet
Discrétisation des variables
Manuelle
(CAM)
Automatique
sous SAS
Discrétisation
Intervalle <0.1 [0.1 ; 0.35 [ ≥0.35
Code 1 2 3
Fonds propres/ Total Bilan
Présentation de la
base de données
Traitement et analyse
univariée de la BD
Elaboration d’un modèle de
score pour les PME et GEAutomatisation
sous VBAContexte général
du projet
Manuelle
(CAM)
Discrétisation des variables
Intervalle < 5 ans 5-10 ans 10-15 ans > 15 ans
Code 0 1 2 3
Ancienneté de la relation avec CAM
Présentation de la
base de données
Traitement et analyse
univariée de la BD
Elaboration d’un modèle de
score pour les PME et GEAutomatisation
sous VBAContexte général
du projet
Analyse univariée
Analyse
univariée
Analyse de
corrélation
Analyse
d’indépendance
Test de KHI-2 V de Cramer
Présentation de la
base de données
Traitement et analyse
univariée de la BD
Elaboration d’un modèle de
score pour les PME et GEAutomatisation
sous VBAContexte général
du projet
Test de KHI-2
Test de KHI-2
H0 : Absence de relation entre deux variables catégorielles
Thème Variable
Test de KHI-2
P-value V de
Cramer
CC
Taille CA 0.9494 0.0498 0.0498
T_Bilan 0.2706 0.1655 0.1633
Dynamisme TC_CA <0.0001 0.4731 0.4277
TC_RN 0.0084 0.2585 0.2503
Endettement DCT/AC <0.0001 0.3997 0.3711
DLT/T_Bilan 0.0121 0.2485 0.2412
T_Dettes/FP <0.0001 0.3874 0.3612
Rentabilité EBE/CA 0.0156 0.2694 0.2601
RN/CA 0.2524 0.1690 0 .1667
RN/FP 0.0040 0 .2726 0.2675
FDR/AC <0.0001 0.4206 0.3877
Structure FP/T_Bilan <0.0001 0.4050 0.3754
FP/Fin_Permnt <0,0001 0.2147 0.2099
FDR/T_Bilan 0,0371 0.4206 0.3877
FDR/CA <0,0001 0.4735 0.4279
BFR/CA <0,0001 0.4595 0.4175
Trésorerie TN/T_Bilan 0.0034 0.2458 0.2387
Liquidité AC/PC <0.0001 0.4392 0.4021
Autres Age_entp 0.0010 0.3634 0.3415
Dynamisme
TC_CA; TC_RN
Endettement
DCT/AC; DLT/T_Bilan;
T_Dettes/FP
Rentabilité
EBE/CA; RN/FP; FDR/AC
Structure
FP/T_Bilan; FP/Fin_Prmnt;
FDR/T_Bilan ; BFR/CA
Trésorerie
TN /T_Bilan
Autres
Age; Ville; Actionnariat
La variable CA
n’est pas retenue
Présentation de la
base de données
Traitement et analyse
univariée de la BD
Elaboration d’un modèle de
score pour les PME et GEAutomatisation
sous VBAContexte général
du projet
Analyse de corrélation
V de Cramer
V de Cramer élevé signifie une forte corrélation entre deux variables catégorielles
FP/T_Bilan
et T_Dettes/FP
FDR/T_Bilan
et FDR/AC
FDR/CA
et FDR/AC
FDR/CA
et FDR/T_Bilan
Elaboration d’un modèle de score
pour les PME et GE
Présentation de la
base de données
Traitement et analyse
univariée de la BD
Elaboration d’un modèle de
score pour les PME et GEAutomatisation
sous VBAContexte général
du projet
E (Yi/Xi=xi) = Pi =
Odds-ratios
facilement
interprétables
Modélise
directement une
probabilité
Pas d’hypothèse de
normalité ni
d’homoscédasticité
Données sans
valeurs
manquantes
Inconvénients
Avantages
La régression logistique
Présentation de la
base de données
Traitement et analyse
univariée de la BD
Elaboration d’un modèle de
score pour les PME et GEAutomatisation
sous VBAContexte général
du projet
La régression logistique pour les PME
Méthode
ascendante de
Wald sous SPSS
H0 : ‘βi = 0 ’
P-Value ≤ 5%
8 fois plus
suscéptible
de tomber
en défaut
Modalité 2 = [3;7[
Présentation de la
base de données
Traitement et analyse
univariée de la BD
Elaboration d’un modèle de
score pour les PME et GEAutomatisation
sous VBAContexte général
du projet
La régression logistique pour les PME
Présentation de la
base de données
Traitement et analyse
univariée de la BD
Elaboration d’un modèle de
score pour les PME et GEAutomatisation
sous VBAContexte général
du projet
Qualité de la modélisation
Test de vraisemblance
Récapitulatif des modèles
Etape -2log-vraisemblance R-deux de Cox & Snell R-deux de Nagelkerke
1 164,040 ,213 ,284
2 147,385 ,299 ,399
3 133,697 ,363 ,484
4 123,005 ,409 ,545
5 113,786 ,446 ,595
6 105,391 ,478 ,637
63,7%
Test de Hosmer-Lemshow
H0 : L’ajustement du modèle est bon
Etape Khi-Chi-deux ddl Sig.
6 10,737 8 ,217
> 5%
Présentation de la
base de données
Traitement et analyse
univariée de la BD
Elaboration d’un modèle de
score pour les PME et GEAutomatisation
sous VBAContexte général
du projet
Validation du modèle : échantillon d’apprentissage
De/vers 0 1 % correct
0 59 13 81,9%
1 13 58 81,7%
Total 81,8%
Zone sous la courbe
Variable(s) de résultats tests:Groupe prédit
Zone Erreur Std.a
Signif.
asymptotiqueb
Intervalle de confiance 95%
asymptotique
Borne inférieure Borne supérieure
,839 ,036 ,000 ,769 ,909
Taux de bon classement
Indice de GINI = 68%
Présentation de la
base de données
Traitement et analyse
univariée de la BD
Elaboration d’un modèle de
score pour les PME et GEAutomatisation
sous VBAContexte général
du projet
La méthode Disqual pour les PME
ACM sur les
variables
qualitatives
Coordonnées
continues des
observations sur
les axes factoriels
Analyse
discriminante de
Fisher
Présentation de la
base de données
Traitement et analyse
univariée de la BD
Elaboration d’un modèle de
score pour les PME et GEAutomatisation
sous VBAContexte général
du projet
Analyse des correspondances multiples
Inertie expliquée par les axes
Les 12 premiers axes expliquent environ de 64,70% de l’inertie totale
Axe factoriel
Observation
Application de l’AFD sur les variables continues
Présentation de la
base de données
Traitement et analyse
univariée de la BD
Elaboration d’un modèle de
score pour les PME et GEAutomatisation
sous VBAContexte général
du projet
Analyse discriminante de Fisher
Lambda 0,502
F (Valeur observée) 10,749
F (Valeur critique) 1,827
DDL1 12
DDL2 130
p-value < 0,0001
alpha 0,05
Significativité globale du modèle: lambda de Wilks
H0 : Les vecteurs moyens des deux classes sont égaux
Test de Box
-2Log(M) 162,087
F (Valeur observée) 1,192
F (Valeur critique) 1,277
DDL1 78
DDL2 62755
p-value 0.061
alpha 0,050
L’homogénéité des variances dans chacune des deux
classes est vérifiée
La fonction discriminante
Le modèle est discriminant
Coordonnées des modalités sur les 12 axes
F1
F1 2,378
F2 -0,157
F3 -1,089
F4 -0,068
F5 0,958
F6 0,235
F7 0,409
F8 0,489
F9 -0,418
F10 -0,551
F11 -0,269
F12 -0,343
F(x) = 2,378*F1-0,157*F2-1,089*F3-0,068*F4+0,958*F5+0,235*F6+0,409*F7
+0,489*F8-0,418*F9-0,551*F10-0,269*F11-0,343*F12
Présentation de la
base de données
Traitement et analyse
univariée de la BD
Elaboration d’un modèle de
score pour les PME et GEAutomatisation
sous VBAContexte général
du projet
Analyse discriminante de Fisher
Extrait des scores des modalités
Variables Modalités Score
modalités
1 -2,107
FP_Nets/T_Bilan 2 -0,416
3 1,647
1 -1,069
Trésorerie_Net/T_Bilan 2 -0,754
3 0,669
4 0,955
1 -2,097
AC/PC 2 -0,314
3 1,739
0 0,032
Actionnariat 1 1,414
2 -0,501
3 -1,047
Age-entp 1 2,388
Critère d’affectation
F1
0 0,982
1 -0,982
Fonctions aux barycentres F(x) > 0 l’entreprise est affectée à la classe des « saines »
F(x) < 0 L’entreprise est affectée à la classe des « défaillantes »
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0 0 0 0 0 1 1 1 1 1 1
Sen
sib
ilité
1 - Spécificité
Courbe ROC (AUC=0,926)
Présentation de la
base de données
Traitement et analyse
univariée de la BD
Elaboration d’un modèle de
score pour les PME et GEAutomatisation
sous VBAContexte général
du projet
Validation de modèle : échantillon d’apprentissage
De/vers 0 1 % correct
0 60 12 83%
1 9 62 87%
Total 85%
Zone sous la courbe
Variable(s) de résultats tests:Groupe prédit
Zone Erreur Std.a
Signif.
asymptotiqueb
Intervalle de confiance 95%
asymptotique
Borne inférieure Borne supérieure
,839 ,036 ,000 ,769 ,909
Taux de bon classement
Indice de GINI = 68%
Méthode statistique
1er échantillon test 2ème échantillon test
Taux de bon
classement
AUC Taux de bon
classement
AUC
Régression
logistique
80,6% 0,808 78,4% 0,753
Méthode Disqual 75,8% 0,758 75% 0,716
Présentation de la
base de données
Traitement et analyse
univariée de la BD
Elaboration d’un modèle de
score pour les PME et GEAutomatisation
sous VBAContexte général
du projet
Validation du modèle : Les deux échantillons testComparaison des deux méthodes statistiques
La régression logistique est retenue pour la
classification des petites et moyennes entreprises
Classes
Probabilité de défaut
Taux du défautMinimum Maximum Moyenne Médiane
1
2
3
4
5
0.00124
0.08523
0.32262
0.61530
0.93138
0.08522
0.32261
0.61529
0.93137
0.99597
0.0338
0.1955
0.4668
0.8282
0.4059
0.0224
0.1740
0.4431
0.8293
0.4218
4%
17%
46%
86 %
96%
96%83%
54%
14%4%
4%17%
46%
86%96%
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
1 2 3 4 5
1
0
Présentation de la
base de données
Traitement et analyse
univariée de la BD
Elaboration d’un modèle de
score pour les PME et GEAutomatisation
sous VBAContexte général
du projet
Critère d’affectation : Répartition en classes de risque
Analyse univariée
Corrélation
Dynamisme
TC_CA
TC_RN
Endettement
DCT/AC
DLT/T_Bilan
Rentabilité
RN/FP
Structure
FP/T_Bilan
Procéder à une
AFD
Test de BOX
Présentation de la
base de données
Traitement et analyse
univariée de la BD
Elaboration d’un modèle de
score pour les PME et GEAutomatisation
sous VBAContexte général
du projet
p- value > 0,05
Analyse discriminante de Fisher pour les GE
p-value 0,061
alpha 0,05
Variable Lambda F DDL1 DDL2 p-value
TC_CA 0,815 15,867 1 70 0,000
TC_RN 0,932 5,140 1 70 0,026
Dettes_CT/AC 0,856 11,798 1 70 0,001
Dettes court terme
/ Actif circulant
Taux de
croissance du
chiffre d’affaires
Constante
F(x) = -2.122 + 2.018 TC_CA + 0.413 TC_RN + 2,224 Dettes_CT/AC
Présentation de la
base de données
Traitement et analyse
univariée de la BD
Elaboration d’un modèle de
score pour les PME et GEAutomatisation
sous VBAContexte général
du projet
Analyse discriminante de Fisher pour les GE
Taux de croissance
du résultat net
De \ Vers 0 1 Total %
correct
0 28 8 36 77,78%
1 4 32 36 88,89%
Total 32 40 72 83,33%
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0 0 0 1 1 1
Sen
sib
ilité
1 - Spécificité
Courbe ROC (AUC=0,867)
INDICE DE GINI
73%
Présentation de la
base de données
Traitement et analyse
univariée de la BD
Elaboration d’un modèle de
score pour les PME et GEAutomatisation
sous VBAContexte général
du projet
Validation du modèle : échantillon d'apprentissage
A E.S. Wald ddl Sig. Exp(B)
Etape 1a TC_CA -4,396 1,346 10,661 1 ,001 ,012
Constante ,469 ,297 2,493 1 ,114 1,598
Etape 2b TC_CA -5,282 1,598 10,928 1 ,001 ,005
Dettes_CT_AC -2,989 ,970 9,483 1 ,002 ,050
Constante 3,203 ,960 11,134 1 ,001 24,594
Etape 3c TC_CA -4,400 1,705 6,659 1 ,010 ,012
TC_RN -,795 ,379 4,409 1 ,036 ,452
Dettes_CT_AC -3,814 1,146 11,069 1 ,001 ,022
Constante 3,430 1,030 11,091 1 ,001 30,867
1
1 exp( 3, 430 4, 40 _ 0,795 _ 3,814 _ _ )P
TC CA TC RN Dettes CT AC
Présentation de la
base de données
Traitement et analyse
univariée de la BD
Elaboration d’un modèle de
score pour les PME et GEAutomatisation
sous VBAContexte général
du projet
La régression logistique pour les GE
De/vers 0 1 % correct
0 29 7 80,6%
1 8 28 77,8%
Total 79,2%
INDICE DE GINI 58,4 %
Présentation de la
base de données
Traitement et analyse
univariée de la BD
Elaboration d’un modèle de
score pour les PME et GEAutomatisation
sous VBAContexte général
du projet
Qualité et validation du modèle
R² de Nagelkerke = 0,523 Le pouvoir explicatif est assez bon
L’aire sous la courbe de ROC est de 0,792
Méthode statistique
1er échantillon test 2ème échantillon test
Taux de bon
classement
AUC Taux de bon
classement
AUC
Régression
logistique
76% 0,768 73% 0,725
AFD 80% 0,805 82% 0,786
Présentation de la
base de données
Traitement et analyse
univariée de la BD
Elaboration d’un modèle de
score pour les PME et GEAutomatisation
sous VBAContexte général
du projet
Validation du modèle sur les deux échantillons test Comparaison des méthodes
L’analyse discriminante de Fisher est retenue pour la
classification des grandes entreprises
classeScore Probabilité de défaut
Taux du défaut
min max moyenne médiane min max moyenne médiane
1 49,28 100 67,09 67,08 0,0030 0,2200 0,086 0,052 6%
2 36,81 48,41 41,57 40,8 0,2201 0,4690 0,3665 0,38 19%
3 26,49 36,52 32,41 32,58 0,4691 0,6860 0,5681 0,566 67%
4 17,92 26,21 22,53 22,99 0,6861 0,8330 0,7629 0,7585 79%
5 0 17,35 11,647 11,46 0,8331 0,9150 0,8942 0,8915 86%
94%81%
33%21%
14%
6%19%
67%79%
86%
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
1 2 3 4 5
1
0
Présentation de la
base de données
Traitement et analyse
univariée de la BD
Elaboration d’un modèle de
score pour les PME et GEAutomatisation
sous VBAContexte général
du projet
Critère d’affectation : Répartition en classes de risque
Automatisation des modèles sous
VBA
Présentation de la
base de données
Traitement et analyse
univariée de la BD
Elaboration d’un modèle de
score pour les PME et GEAutomatisation
sous VBAContexte général
du projet
Utilisation de l’application sous VBA
Présentation de la
base de données
Traitement et analyse
univariée de la BD
Elaboration d’un modèle de
score pour les PME et GEAutomatisation
sous VBAContexte général
du projet
Exemple de l’application sous VBA
Conclusion
MERCI DE VOTRE ATTENTION
ELABORATION D’UN MODÈLE DE SCORING POUR
LA CLIENTÈLE « ENTREPRISES »
Présenté par: FRIRAH Sara
EL RHARMOULI Ghita
Présenté le: 27 Juin 2013
Devant le jury :
M. Said Ramadan NSIRI Encadrant interne (INSEA)
M. Idriss EFFINA Examinateur (INSEA)
M. Alaaeddine BENNANI Encadrant externe (CAM)
Projet de Fin d’Etude