modèle de scoring pour la clientèle

42
ELABORATION DUN MODÈLE DE SCORING POUR LA CLIENTÈLE « ENTREPRISES » Présenté par: FRIRAH Sara EL RHARMOULI Ghita Présenté le: 27 Juin 2013 Devant le jury : M. Said Ramadan NSIRI Encadrant interne (INSEA) M. Idriss EFFINA Examinateur (INSEA) M. Alaaeddine BENNANI Encadrant externe (CAM) Projet de Fin d’Etude

Upload: oulaya-chouay

Post on 08-Jul-2015

358 views

Category:

Data & Analytics


1 download

TRANSCRIPT

Page 1: modèle de scoring pour la clientèle

ELABORATION D’UN MODÈLE DE SCORING POUR

LA CLIENTÈLE « ENTREPRISES »

Présenté par: FRIRAH Sara

EL RHARMOULI Ghita

Présenté le: 27 Juin 2013

Devant le jury :

M. Said Ramadan NSIRI Encadrant interne (INSEA)

M. Idriss EFFINA Examinateur (INSEA)

M. Alaaeddine BENNANI Encadrant externe (CAM)

Projet de Fin d’Etude

Page 2: modèle de scoring pour la clientèle

Introduction

Page 3: modèle de scoring pour la clientèle

Plan

I

II

III

IV

V

Contexte général du projet

Présentation de la base de données

Traitement et analyse univariée de la base de données

Elaboration d’un modèle de score pour les PME et GE

Automatisation des modèles sous VBA

Page 4: modèle de scoring pour la clientèle

Contexte général du projet

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

Bale II

Exigence de

fonds propres

Procédure de

surveillance de

la gestion des

fonds propres

Discipline de

marché et

communication

financière

Pilier I Pilier II Pilier III Pilier I

Calcul du RC

Approche

standard

Approche NI

(Notation Interne)

(Fondation) (Avancée)

Dispositif Bâle II

Page 5: modèle de scoring pour la clientèle

Définition du défaut bâlois au sens 8/G/2010

1. Un retard de paiement de plus de 90 jours.

2. Un ou plusieurs arriérés de paiement de plus de 90

jours sur des crédits escompte.

3. Des dépassements persistants de plus de 90 jours.

4. Des comptes gelés depuis plus de 90 jours.

Retard de 90

jours

Notion du défaut

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

Page 6: modèle de scoring pour la clientèle

31/12/1131/12/12

Stock de dossiers

présentant un

encours

Observation du

Défaut

12 mois

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

Horizon de prévision

Page 7: modèle de scoring pour la clientèle

Comment mesurer le

risque de crédit ?

L’entreprise va-t-elle

rembourser sa dette ?

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

La problèmatique

Page 8: modèle de scoring pour la clientèle

Méthode statistique d’estimation de la probabilité de défaut de la contrepartie

Données historiques

& Quantifier Effets des caractéristiques des emprunteurs sur leur probabilité de

défaut

Isoler

Scoring

Score obtenu Score seuil

Prise de décision

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

Scoring

Page 9: modèle de scoring pour la clientèle

Elaborer deux modèles de prédiction

Grandes Entreprises

( CA > 175 Mdhs)

Petites et Moyennes Entreprises

(10 Mdhs < CA< 175 Mdhs)

65 % des expositions brutes au

titre du risque de crédit

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

Objectif du projet

Page 10: modèle de scoring pour la clientèle

Transformer sous

format numérique

Construire

la BD

Comparer les

méthodes

utilisées

Choisir les

variables

discriminantes

Elaborer deux

modèles

prédictifs

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

Étapes du projet

Page 11: modèle de scoring pour la clientèle

Présentation de la base de données

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

Population

entière

Nouvelle

base

50% des entreprises

défaillantes

50% des entreprises

non défaillantes

9% des entreprises

défaillantes

91% des entreprises

non défaillantes

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

Echantillon de travail

Page 12: modèle de scoring pour la clientèle

TAILLE CA

Total Bilan

TC_CA

TC_RN

DYNAMISMEENDETTEMENT

DCT /AC

DLT/T Bilan

T DETTES/ FP

RENTABILITÉ

EBE / CA

FDR / AC

RN / FP

RN / CA

STRUCTURE

FP / Fin Permanent FDR / CA FDR / T Bilan FP / T Bilan BFR / CA

TRÉSORERIE TN / T Bilan LIQUIDITÉ AC / PC AUTRES

Age de l’entreprise

Ancienneté de la relation

Forme juridique

Ville

Secteur d’activité

Qualité de l’actionnariat

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

Présentation des variables de la base de données

Page 13: modèle de scoring pour la clientèle

Traitement et analyse univariée de

la base de données

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

Traitement des valeurs extrêmes

Numéro des observations associées aux

valeurs extrêmes du ratio T_Dettes / FP

Page 14: modèle de scoring pour la clientèle

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

Discrétisation des variables

Manuelle

(CAM)

Automatique

sous SAS

Discrétisation

Intervalle <0.1 [0.1 ; 0.35 [ ≥0.35

Code 1 2 3

Fonds propres/ Total Bilan

Page 15: modèle de scoring pour la clientèle

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

Manuelle

(CAM)

Discrétisation des variables

Intervalle < 5 ans 5-10 ans 10-15 ans > 15 ans

Code 0 1 2 3

Ancienneté de la relation avec CAM

Page 16: modèle de scoring pour la clientèle

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

Analyse univariée

Analyse

univariée

Analyse de

corrélation

Analyse

d’indépendance

Test de KHI-2 V de Cramer

Page 17: modèle de scoring pour la clientèle

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

Test de KHI-2

Test de KHI-2

H0 : Absence de relation entre deux variables catégorielles

Thème Variable

Test de KHI-2

P-value V de

Cramer

CC

Taille CA 0.9494 0.0498 0.0498

T_Bilan 0.2706 0.1655 0.1633

Dynamisme TC_CA <0.0001 0.4731 0.4277

TC_RN 0.0084 0.2585 0.2503

Endettement DCT/AC <0.0001 0.3997 0.3711

DLT/T_Bilan 0.0121 0.2485 0.2412

T_Dettes/FP <0.0001 0.3874 0.3612

Rentabilité EBE/CA 0.0156 0.2694 0.2601

RN/CA 0.2524 0.1690 0 .1667

RN/FP 0.0040 0 .2726 0.2675

FDR/AC <0.0001 0.4206 0.3877

Structure FP/T_Bilan <0.0001 0.4050 0.3754

FP/Fin_Permnt <0,0001 0.2147 0.2099

FDR/T_Bilan 0,0371 0.4206 0.3877

FDR/CA <0,0001 0.4735 0.4279

BFR/CA <0,0001 0.4595 0.4175

Trésorerie TN/T_Bilan 0.0034 0.2458 0.2387

Liquidité AC/PC <0.0001 0.4392 0.4021

Autres Age_entp 0.0010 0.3634 0.3415

Dynamisme

TC_CA; TC_RN

Endettement

DCT/AC; DLT/T_Bilan;

T_Dettes/FP

Rentabilité

EBE/CA; RN/FP; FDR/AC

Structure

FP/T_Bilan; FP/Fin_Prmnt;

FDR/T_Bilan ; BFR/CA

Trésorerie

TN /T_Bilan

Autres

Age; Ville; Actionnariat

La variable CA

n’est pas retenue

Page 18: modèle de scoring pour la clientèle

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

Analyse de corrélation

V de Cramer

V de Cramer élevé signifie une forte corrélation entre deux variables catégorielles

FP/T_Bilan

et T_Dettes/FP

FDR/T_Bilan

et FDR/AC

FDR/CA

et FDR/AC

FDR/CA

et FDR/T_Bilan

Page 19: modèle de scoring pour la clientèle

Elaboration d’un modèle de score

pour les PME et GE

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

E (Yi/Xi=xi) = Pi =

Odds-ratios

facilement

interprétables

Modélise

directement une

probabilité

Pas d’hypothèse de

normalité ni

d’homoscédasticité

Données sans

valeurs

manquantes

Inconvénients

Avantages

La régression logistique

Page 20: modèle de scoring pour la clientèle

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

La régression logistique pour les PME

Méthode

ascendante de

Wald sous SPSS

H0 : ‘βi = 0 ’

P-Value ≤ 5%

8 fois plus

suscéptible

de tomber

en défaut

Modalité 2 = [3;7[

Page 21: modèle de scoring pour la clientèle

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

La régression logistique pour les PME

Page 22: modèle de scoring pour la clientèle

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

Qualité de la modélisation

Test de vraisemblance

Récapitulatif des modèles

Etape -2log-vraisemblance R-deux de Cox & Snell R-deux de Nagelkerke

1 164,040 ,213 ,284

2 147,385 ,299 ,399

3 133,697 ,363 ,484

4 123,005 ,409 ,545

5 113,786 ,446 ,595

6 105,391 ,478 ,637

63,7%

Test de Hosmer-Lemshow

H0 : L’ajustement du modèle est bon

Etape Khi-Chi-deux ddl Sig.

6 10,737 8 ,217

> 5%

Page 23: modèle de scoring pour la clientèle

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

Validation du modèle : échantillon d’apprentissage

De/vers 0 1 % correct

0 59 13 81,9%

1 13 58 81,7%

Total 81,8%

Zone sous la courbe

Variable(s) de résultats tests:Groupe prédit

Zone Erreur Std.a

Signif.

asymptotiqueb

Intervalle de confiance 95%

asymptotique

Borne inférieure Borne supérieure

,839 ,036 ,000 ,769 ,909

Taux de bon classement

Indice de GINI = 68%

Page 24: modèle de scoring pour la clientèle

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

La méthode Disqual pour les PME

ACM sur les

variables

qualitatives

Coordonnées

continues des

observations sur

les axes factoriels

Analyse

discriminante de

Fisher

Page 25: modèle de scoring pour la clientèle

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

Analyse des correspondances multiples

Inertie expliquée par les axes

Les 12 premiers axes expliquent environ de 64,70% de l’inertie totale

Axe factoriel

Observation

Application de l’AFD sur les variables continues

Page 26: modèle de scoring pour la clientèle

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

Analyse discriminante de Fisher

Lambda 0,502

F (Valeur observée) 10,749

F (Valeur critique) 1,827

DDL1 12

DDL2 130

p-value < 0,0001

alpha 0,05

Significativité globale du modèle: lambda de Wilks

H0 : Les vecteurs moyens des deux classes sont égaux

Test de Box

-2Log(M) 162,087

F (Valeur observée) 1,192

F (Valeur critique) 1,277

DDL1 78

DDL2 62755

p-value 0.061

alpha 0,050

L’homogénéité des variances dans chacune des deux

classes est vérifiée

La fonction discriminante

Le modèle est discriminant

Coordonnées des modalités sur les 12 axes

F1

F1 2,378

F2 -0,157

F3 -1,089

F4 -0,068

F5 0,958

F6 0,235

F7 0,409

F8 0,489

F9 -0,418

F10 -0,551

F11 -0,269

F12 -0,343

F(x) = 2,378*F1-0,157*F2-1,089*F3-0,068*F4+0,958*F5+0,235*F6+0,409*F7

+0,489*F8-0,418*F9-0,551*F10-0,269*F11-0,343*F12

Page 27: modèle de scoring pour la clientèle

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

Analyse discriminante de Fisher

Extrait des scores des modalités

Variables Modalités Score

modalités

1 -2,107

FP_Nets/T_Bilan 2 -0,416

3 1,647

1 -1,069

Trésorerie_Net/T_Bilan 2 -0,754

3 0,669

4 0,955

1 -2,097

AC/PC 2 -0,314

3 1,739

0 0,032

Actionnariat 1 1,414

2 -0,501

3 -1,047

Age-entp 1 2,388

Critère d’affectation

F1

0 0,982

1 -0,982

Fonctions aux barycentres F(x) > 0 l’entreprise est affectée à la classe des « saines »

F(x) < 0 L’entreprise est affectée à la classe des « défaillantes »

Page 28: modèle de scoring pour la clientèle

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 0 0 0 0 1 1 1 1 1 1

Sen

sib

ilité

1 - Spécificité

Courbe ROC (AUC=0,926)

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

Validation de modèle : échantillon d’apprentissage

De/vers 0 1 % correct

0 60 12 83%

1 9 62 87%

Total 85%

Zone sous la courbe

Variable(s) de résultats tests:Groupe prédit

Zone Erreur Std.a

Signif.

asymptotiqueb

Intervalle de confiance 95%

asymptotique

Borne inférieure Borne supérieure

,839 ,036 ,000 ,769 ,909

Taux de bon classement

Indice de GINI = 68%

Page 29: modèle de scoring pour la clientèle

Méthode statistique

1er échantillon test 2ème échantillon test

Taux de bon

classement

AUC Taux de bon

classement

AUC

Régression

logistique

80,6% 0,808 78,4% 0,753

Méthode Disqual 75,8% 0,758 75% 0,716

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

Validation du modèle : Les deux échantillons testComparaison des deux méthodes statistiques

La régression logistique est retenue pour la

classification des petites et moyennes entreprises

Page 30: modèle de scoring pour la clientèle

Classes

Probabilité de défaut

Taux du défautMinimum Maximum Moyenne Médiane

1

2

3

4

5

0.00124

0.08523

0.32262

0.61530

0.93138

0.08522

0.32261

0.61529

0.93137

0.99597

0.0338

0.1955

0.4668

0.8282

0.4059

0.0224

0.1740

0.4431

0.8293

0.4218

4%

17%

46%

86 %

96%

96%83%

54%

14%4%

4%17%

46%

86%96%

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

1 2 3 4 5

1

0

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

Critère d’affectation : Répartition en classes de risque

Page 31: modèle de scoring pour la clientèle

Analyse univariée

Corrélation

Dynamisme

TC_CA

TC_RN

Endettement

DCT/AC

DLT/T_Bilan

Rentabilité

RN/FP

Structure

FP/T_Bilan

Procéder à une

AFD

Test de BOX

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

p- value > 0,05

Analyse discriminante de Fisher pour les GE

p-value 0,061

alpha 0,05

Page 32: modèle de scoring pour la clientèle

Variable Lambda F DDL1 DDL2 p-value

TC_CA 0,815 15,867 1 70 0,000

TC_RN 0,932 5,140 1 70 0,026

Dettes_CT/AC 0,856 11,798 1 70 0,001

Dettes court terme

/ Actif circulant

Taux de

croissance du

chiffre d’affaires

Constante

F(x) = -2.122 + 2.018 TC_CA + 0.413 TC_RN + 2,224 Dettes_CT/AC

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

Analyse discriminante de Fisher pour les GE

Taux de croissance

du résultat net

Page 33: modèle de scoring pour la clientèle

De \ Vers 0 1 Total %

correct

0 28 8 36 77,78%

1 4 32 36 88,89%

Total 32 40 72 83,33%

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 0 0 1 1 1

Sen

sib

ilité

1 - Spécificité

Courbe ROC (AUC=0,867)

INDICE DE GINI

73%

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

Validation du modèle : échantillon d'apprentissage

Page 34: modèle de scoring pour la clientèle

A E.S. Wald ddl Sig. Exp(B)

Etape 1a TC_CA -4,396 1,346 10,661 1 ,001 ,012

Constante ,469 ,297 2,493 1 ,114 1,598

Etape 2b TC_CA -5,282 1,598 10,928 1 ,001 ,005

Dettes_CT_AC -2,989 ,970 9,483 1 ,002 ,050

Constante 3,203 ,960 11,134 1 ,001 24,594

Etape 3c TC_CA -4,400 1,705 6,659 1 ,010 ,012

TC_RN -,795 ,379 4,409 1 ,036 ,452

Dettes_CT_AC -3,814 1,146 11,069 1 ,001 ,022

Constante 3,430 1,030 11,091 1 ,001 30,867

1

1 exp( 3, 430 4, 40 _ 0,795 _ 3,814 _ _ )P

TC CA TC RN Dettes CT AC

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

La régression logistique pour les GE

Page 35: modèle de scoring pour la clientèle

De/vers 0 1 % correct

0 29 7 80,6%

1 8 28 77,8%

Total 79,2%

INDICE DE GINI 58,4 %

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

Qualité et validation du modèle

R² de Nagelkerke = 0,523 Le pouvoir explicatif est assez bon

L’aire sous la courbe de ROC est de 0,792

Page 36: modèle de scoring pour la clientèle

Méthode statistique

1er échantillon test 2ème échantillon test

Taux de bon

classement

AUC Taux de bon

classement

AUC

Régression

logistique

76% 0,768 73% 0,725

AFD 80% 0,805 82% 0,786

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

Validation du modèle sur les deux échantillons test Comparaison des méthodes

L’analyse discriminante de Fisher est retenue pour la

classification des grandes entreprises

Page 37: modèle de scoring pour la clientèle

classeScore Probabilité de défaut

Taux du défaut

min max moyenne médiane min max moyenne médiane

1 49,28 100 67,09 67,08 0,0030 0,2200 0,086 0,052 6%

2 36,81 48,41 41,57 40,8 0,2201 0,4690 0,3665 0,38 19%

3 26,49 36,52 32,41 32,58 0,4691 0,6860 0,5681 0,566 67%

4 17,92 26,21 22,53 22,99 0,6861 0,8330 0,7629 0,7585 79%

5 0 17,35 11,647 11,46 0,8331 0,9150 0,8942 0,8915 86%

94%81%

33%21%

14%

6%19%

67%79%

86%

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

1 2 3 4 5

1

0

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

Critère d’affectation : Répartition en classes de risque

Page 38: modèle de scoring pour la clientèle

Automatisation des modèles sous

VBA

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

Utilisation de l’application sous VBA

Page 39: modèle de scoring pour la clientèle

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

Exemple de l’application sous VBA

Page 40: modèle de scoring pour la clientèle

Conclusion

Page 41: modèle de scoring pour la clientèle

MERCI DE VOTRE ATTENTION

Page 42: modèle de scoring pour la clientèle

ELABORATION D’UN MODÈLE DE SCORING POUR

LA CLIENTÈLE « ENTREPRISES »

Présenté par: FRIRAH Sara

EL RHARMOULI Ghita

Présenté le: 27 Juin 2013

Devant le jury :

M. Said Ramadan NSIRI Encadrant interne (INSEA)

M. Idriss EFFINA Examinateur (INSEA)

M. Alaaeddine BENNANI Encadrant externe (CAM)

Projet de Fin d’Etude