rapport de projet data mining - ceremade …€¦ · de no jours, le monde de l’entreprise est...

30
RAPPORT DE PROJET DATA MINING « Analyse des endettements par niveau de développement des pays » Réalisé par : BELEM MAHAMADOU Sous la direction de : M. EDWIN DIDAY DEA 127 : INFORMATIQUE SYSTEMES INTELLIGENTS

Upload: dodat

Post on 15-Sep-2018

220 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: RAPPORT DE PROJET DATA MINING - CEREMADE …€¦ · De no jours, le monde de l’entreprise est caractérisé par une concurrence de plus en plus accrue. ... le taux d’importation

RAPPORT DE PROJET

DATA MINING

« Analyse des endettements par niveau de

développement des pays »

Réalisé par : BELEM MAHAMADOU

Sous la direction de : M. EDWIN DIDAY

DEA 127 : INFORMATIQUE

SYSTEMES INTELLIGENTS

Page 2: RAPPORT DE PROJET DATA MINING - CEREMADE …€¦ · De no jours, le monde de l’entreprise est caractérisé par une concurrence de plus en plus accrue. ... le taux d’importation

Projet Data Minin-2004/2005-DEA127 2

TABLE DES MATIERES

INTRODUCTION ............................................................................................................................... 3

II ETAT DE L’ART DU DATA MINING ............................................................................... 4

II.1 LES ENJEUX DE DATA MINING .................................................................................... 4 II.2 DOMAINES D’APPLICATION ........................................................................................... 4 II.3 LES LOGICIELS DE DATA MINING .............................................................................. 5 II.4 LE LOGICIEL SODAS ........................................................................................................... 5

II ETUDE CONCEPTUELLE ................................................................................................... 6

III.1 LES INDIVIDUS ET LES CONCEPTS.............................................................................. 6 III.2 LES VARIABLES .................................................................................................................... 6 III.3 LA STRUCTURE DE LA BASE DE DONNEES ............................................................ 7 III.4 LES REQUETES ...................................................................................................................... 9 II.5 IMPORTATION DES DONNEES .................................................................................... 11

IV APPLICATION DES METHODES DE SODAS ................................................. 14

IV.1 LA METHODE SOE ............................................................................................................. 14 IV.2 LA METHODE PCM ........................................................................................................... 19 IV.3 LA METHODE PYR ............................................................................................................ 21 IV.4 LA METHODE DIV ............................................................................................................. 23 IV.5 LA METHODE TREE .......................................................................................................... 25 IV.6 LA METHODE STAT ........................................................................................................... 27 IV.7 LA METHODE SCLUST ...................................................................................................... 29

CONCLUSION……………………………………………………………………………….30

Page 3: RAPPORT DE PROJET DATA MINING - CEREMADE …€¦ · De no jours, le monde de l’entreprise est caractérisé par une concurrence de plus en plus accrue. ... le taux d’importation

Projet Data Minin-2004/2005-DEA127 3

INTRODUCTION

De no jours, le monde de l’entreprise est caractérisé par une concurrence de plus en plus accrue.

Cette intensification de la concurrence oblige les entreprises à renforcer leur marketing à travers

une analyse détaillée des besoins des clients pour aboutir à de nouvelles connaissances. Ce qui

dénote quelque part la conservation des masses de données importantes sur les profils et les

achats des clients.

Ainsi, des systèmes opérationnels qui ont permis l’automatisation des traitements de masse, les

entreprises se tournent de plus en plus vers des systèmes décisionnels qui ont une valeur ajoutée

concurrentielle réelle. C’est face à ce besoin croissant que le data mining fit son apparition.

Ce présent projet a pour objectif de nous faire mieux connaître le data mining et son utilité à

travers une application sur le logiciel SODAS.

Dans notre document, nous parlerons premièrement de l’état de l’art du data mining, en seconde

partie nous présenterons notre sujet d’étude et en troisième partie, nous présenterons les

différentes méthodes de SODAS appliquées sur notre base, les résultats obtenus et leurs

interprétations.

Page 4: RAPPORT DE PROJET DATA MINING - CEREMADE …€¦ · De no jours, le monde de l’entreprise est caractérisé par une concurrence de plus en plus accrue. ... le taux d’importation

Projet Data Minin-2004/2005-DEA127 4

II ETAT DE L’ART DU DATA MINING

II.1 LES ENJEUX DE DATA MINING

De nos jours, le monde des entreprises drainent des quantités énormes d’informations pouvant

atteindre des milliards d’informations par jour. Plus la quantité d’informations collectées devient

importante, leur exploitation devient très complexe. Si l’esprit humain est disposé à analyser des

donner de petites quantités et d’en tirer des connaissances, il lui par contre impossible d’analyser

simultanément des plusieurs millions de données produites par des systèmes opérationnels qui ne

permettent aucune décision stratégique. Pourtant les entreprises ont besoin d’exploiter ces

données pour mener à bien leurs activités.

Avec la concurrence grandissante, les entreprises savent que la maîtrise de l’information est un

élément incontournable pour face à cette nouvelle donne. Ce qui nécessite des outils performants

ayant une valeur ajoutée concurrentielle et permettant une exploitation stratégique des données.

C’est face à ses différentes exigences du monde de l’entreprise que les outils comme le data

mining ont fait apparition. Et furent rapidement adoptés car répondant au mieux aux attentes des

décideurs. Il s’agît à partir des données détaillées, d’effectuer un résumé, à l’aide des concepts

sous-jacents afin de mieux les appréhender.

II.2 DOMAINES D’APPLICATION

Les domaines d’application de Data Mining sont très variés. Parmi ces domaines d’application,

nous avons :

1. Le laboratoires pharmaceutiques 2. Les banques 3. L’assurance 4. L’aéronautique, automobile et industries 5. transport 6. Télécommunication 7. Gestion d’eau 8. Energie 9. etc

Page 5: RAPPORT DE PROJET DATA MINING - CEREMADE …€¦ · De no jours, le monde de l’entreprise est caractérisé par une concurrence de plus en plus accrue. ... le taux d’importation

Projet Data Minin-2004/2005-DEA127 5

II.3 LES LOGICIELS DE DATA MINING

Il existe de nous jours plusieurs logiciels de data mining dont :

1. Intelligent Miner d’IBM permettant de faire la segmentation, la discrimination, la prédiction, les associations et les séries chronologiques.

2. Clementine de SPSS 3. SAS entrepise Miner de SAS 4. TeraMiner de NCR pour la prédiction, la discrimination, la factorisation, la typologie. 5. KXEN components de KXEN 6. SPAD, du CISIA 7. Smart Miner, de Grimmer Soft, etc.

II.4 LE LOGICIEL SODAS

Le logiciel SODAS est un logiciel lire issu du projet EUROSTAT et destiné à l’analyse des

données symboliques.

Son idée générale est la suivante : à partir d’une base de données, construire un tableau de

données symboliques, parfois muni de règles et de taxonomies, dans le but de décrire des

concepts résumant un vaste ensemble de données, analyser ensuite ce tableau pour en extraire des

connaissances par des méthodes d’analyse de données symboliques.

Une analyse de données dans SODAS se réalise selon les étapes suivantes :

1. Partir d’une base de données relationnelle ;

2. Définir un contexte par des unités statistiques de premier niveau liées à un concept et des

variables décrivant ces unités. Ce contexte est ainsi défini par une requête à la base ;

3. on construit un tableau de données symboliques dont les nouvelles unités sont des

concepts décrits par généralisation des propriétés des unités statistiques de premier niveau

qui leur sont associés.

4. un fichier d’objets symboliques est créé sur lequel on peut appliquer les différentes

méthodes d’analyse de données symboliques.

Page 6: RAPPORT DE PROJET DATA MINING - CEREMADE …€¦ · De no jours, le monde de l’entreprise est caractérisé par une concurrence de plus en plus accrue. ... le taux d’importation

Projet Data Minin-2004/2005-DEA127 6

II ETUDE CONCEPTUELLE

Le but de notre étude est d’analyser les endettements des pays liés à leur niveau de

développement. Ainsi cette analyse permettra de comparer le niveau d’endettement des pays

ayant le même niveau de développement et d’observer les caractéristiques liées à chaque groupe.

III.1 LES INDIVIDUS ET LES CONCEPTS

La base de données de notre projet comporte des données sur 156 pays, extraites à partir des

indicateurs de la Banque Mondiale et les rapports des Nations Unies, pour l’année 2001. Il faut

noter que notre base de données a déjà fait l’objet d’une étude qui s’est intéressée aux niveaux de

richesse des pays recensés. Contrairement à cette étude, notre analyse portera sur les

endettements des pays liés à leur niveau de développement.

Ainsi, à travers notre base de données nous avons dégagé 12 concepts qui sont les suivants :

1. Pays développé endettement Elevé

2. Pays développé endettement faible

3. Pays développé endettement hors classement

4. Pays développé endettement modéré

5. Pays émergent endettement élevé

6. Pays émergent endettement faible

7. Pays émergent endettement hors classement

8. Pays émergent endettement modéré

9. Pays émergent endettement élevé

10. Pays en voie de développement endettement faible

11. Pays en voie de développement endettement hors classement

12. Pays en voie de développement endettement modéré

13. Pays en voie de développement endettement élevé

Comme individus, nous avons les 156 pays de notre base de données.

III.2 LES VARIABLES

Elles sont de deux sortes :

1. les variables qualitatives

le niveau de richesse économique

Page 7: RAPPORT DE PROJET DATA MINING - CEREMADE …€¦ · De no jours, le monde de l’entreprise est caractérisé par une concurrence de plus en plus accrue. ... le taux d’importation

Projet Data Minin-2004/2005-DEA127 7

le niveau de développement associé au niveau d’endettement

le continent

le niveau d’alphabétisation

2. les variables quantitatives

le produit national brut par habitant (PNB /habitant, en USD)

le taux d’inflation (en pourcentage)

le taux de croissance de la population (en pourcentage)

le montant des investissements directs étrangers (en pourcentage)

le taux d’exportation par rapport par rapport au PNB (en pourcentage)

le taux d’importation par rapport par rapport au PNB (en pourcentage)

III.3 LA STRUCTURE DE LA BASE DE DONNEES

La base de données est constituée des tables suivantes :

1. Pays : La table décrit les différents pays de notre étude. Elle comporte des données aussi

bien qualitatives que quantitatives concernant chacun de ses pays

2. Richesse : décrit les différents niveaux de richesse

3. Développement : décrit les différents niveaux de développement

4. Endettement : décrit les différents niveaux d’endettement

5. Continent : liste des différents continents

6. Analphabétisme : liste des niveaux d’analphabétisme.

Pour donner une meilleure présentation de notre base de données nous allons décrire les attributs

des différentes tables.

Table Pays

Désignation Description Type

Id_Pays Identifiant du pays Texte

pays Le nom du pays Texte

Id_richesse L’identifiant du niveau d’endettement Texte

Id_developpement Le niveau de développement Texte

Id_endettement Le niveau d’endettement Texte

Id_continent Le continent Texte

PNB/Habitant Le produit national brut par habitant Réel

Page 8: RAPPORT DE PROJET DATA MINING - CEREMADE …€¦ · De no jours, le monde de l’entreprise est caractérisé par une concurrence de plus en plus accrue. ... le taux d’importation

Projet Data Minin-2004/2005-DEA127 8

Exportation Les exportations Réel

Importation Les importations réalisées par le pays Réel

Investissements directs étrangers Les investissements directs étrangers Réel

inflation Le taux d’inflation Réel

Croissance population Le taux de croissance Réel

Tableau 1 : description de la table Pays

Table Richesse

Désignation Description Type

Id_Richesse Identifiant du niveau de richesse Texte

Niveau de richesse économique Niveau de richesse économique Texte

Tableau 2 : Description de la table richesse

Table développement

Désignation Description Type

Id_Developpement L’identifiant du niveau de développement Texte

Niveau de développement Le niveau de développement Texte

Tableau 3 : description de la table développement

Table Endettement

Désignation Description Type

Id_Endettement Identifiant du niveau d’endettement Texte

Niveau d’endettement Description du niveau d’endettement Texte

Tableau 4 : Description de la table Endettement

Table continent

Page 9: RAPPORT DE PROJET DATA MINING - CEREMADE …€¦ · De no jours, le monde de l’entreprise est caractérisé par une concurrence de plus en plus accrue. ... le taux d’importation

Projet Data Minin-2004/2005-DEA127 9

Désignation Description Type

Id_Continent L’identifiant du continent Texte

Continent Le nom du continent Texte

Tableau 5 : description de la table continent

Table Analphabétisme

Désignation Description Type

Id_Analphabétisme Identifiant du niveau d’analphabétisme Texte

Niveau d’analphabétisme Le niveau d’analphabétisme Texte

Tableau 6 : Description de la table Analphabétisme

Le schéma relationnel de notre base de données se présente ainsi :

Figure 1 : Schéma de la base de données

III.4 LES REQUETES

DB2SO est un élément du logiciel SODAS qui permet à l’utilisateur de construire un ensemble

d’assertions à partir de données stockées dans une base de données relationnelle. Il est supposé

Page 10: RAPPORT DE PROJET DATA MINING - CEREMADE …€¦ · De no jours, le monde de l’entreprise est caractérisé par une concurrence de plus en plus accrue. ... le taux d’importation

Projet Data Minin-2004/2005-DEA127 10

qu’un ensemble d’individus est stocké dans une base de données et que ces individus sont

distribués dans des groupes. Alors, DB2SO peut construire une assertion pour chaque groupe

d’individus. Dans ce processus, les variables mère/fille et les taxonomies sur des domaines de

variables peuvent aussi être associées à des assertions générées.

Pour que SODAS puisse exploiter les données de notre base, il convient de préparer la structure

des tables en fonctions de convention propres aux données symboliques. Pour ce faire, nous

avons crée les requêtes suivantes :

1. Requete_Pays_Endettement

Cette première requête renvoie les individus du premier ordre et leur description. Elle permet

ainsi de ressortir de la base les individus, les concepts puis les caractéristiques des individus.

Figure 2 : Construction de la requête Requete_Pays_Endettement

2. Requete_Taxo

Cette requête permettra de déterminer la taxonomie de notre base. Cette taxonomie sera

utilisée pour établir des lien entre les pays et leur continent.

Page 11: RAPPORT DE PROJET DATA MINING - CEREMADE …€¦ · De no jours, le monde de l’entreprise est caractérisé par une concurrence de plus en plus accrue. ... le taux d’importation

Projet Data Minin-2004/2005-DEA127 11

Figure 3 : construction de la requête_taxo

3. Requête AddSingle Comme variables de classe, nous avons choisi le niveau d’endettement.

II.5 IMPORTATION DES DONNEES

Ces requêtes nous ont donc permis de disposer les données de manières exploitables pour

DB2SO, et par de même SODAS.

Le module DB2SO est accessible via le menu SODAS file > import... > importation (DB2SO) : Dans la fenêtre SodasDB, cliquer sur File > New puis sur Nouveau pour indiquer le type de driver :

Page 12: RAPPORT DE PROJET DATA MINING - CEREMADE …€¦ · De no jours, le monde de l’entreprise est caractérisé par une concurrence de plus en plus accrue. ... le taux d’importation

Projet Data Minin-2004/2005-DEA127 12

Après avoir sélectionné le driver Microsoft Access, il faut maintenant sélectionner la source de

données ODBC de votre base de données.

Une fois la source de données ODBC créée, il faut la lier à la base de données sur laquelle l’étude

s’effectuera.

Page 13: RAPPORT DE PROJET DATA MINING - CEREMADE …€¦ · De no jours, le monde de l’entreprise est caractérisé par une concurrence de plus en plus accrue. ... le taux d’importation

Projet Data Minin-2004/2005-DEA127 13

Après avoir spécifié la base de données, on spécifie la requête d’extraction des individus.

La figure suivante vient confirmer l’extraction des individus à travers la requête spécifiée.

Ensuite, on crée la taxonomie sur la variable continent.

Page 14: RAPPORT DE PROJET DATA MINING - CEREMADE …€¦ · De no jours, le monde de l’entreprise est caractérisé par une concurrence de plus en plus accrue. ... le taux d’importation

Projet Data Minin-2004/2005-DEA127 14

Toutes les données nécessaires étant maintenant introduites, il ne reste plus qu’à les exporter vers

SODAS pour pouvoir les exploiter.

IV APPLICATION DES METHODES DE SODAS

IV.1 LA METHODE SOE

Notre analyse se fera en deux parties qui concerneront les pays en voie de développement et les

pays émergents. Le troisième groupe c’est à dire les pays développés ne fournit pas assez

d’informations.

1. les pays en voie de développement

On constate que les pays très endettés sont majoritairement africains (57%), américains

(19%), asiatiques (17%) et très peu de pays européens (0.02%). Par contre le nombre de pays

européens augmente considérablement parmi les pays en voie de développement faiblement

endetté (20%) avec une majorité des pays africains (38%), américains et asiatiques (24%)

On remarque que les importations sont plus élevées dans les pays en voie de développement très

endetté par contre les exportations sont moins importantes que dans les autres pays en voie de

développement.

Page 15: RAPPORT DE PROJET DATA MINING - CEREMADE …€¦ · De no jours, le monde de l’entreprise est caractérisé par une concurrence de plus en plus accrue. ... le taux d’importation

Projet Data Minin-2004/2005-DEA127 15

L’inflation se situe entre –5,2 et 408 dans les pays en voie de développement très endettés, entre

5,1 et 185 dans les pays en voie de développement faiblement endettés et –5.0 et 59 dans les pays

en voie de développement modérément endettés.

Quant au PNB/habitant, il est entre [100, 7480] dans les pays très endettés, [20, 9250] dans les

pays faiblement endettés et [220, 3830] dans les pays ayant un endettement modéré.

Les figures suivantes appuient nos différents commentaires.

Page 16: RAPPORT DE PROJET DATA MINING - CEREMADE …€¦ · De no jours, le monde de l’entreprise est caractérisé par une concurrence de plus en plus accrue. ... le taux d’importation

Projet Data Minin-2004/2005-DEA127 16

2. Les pays émergents

Les pays émergents très endettés sont des pays américains (100%) ayant un niveau de richesse

économique moyennement élevé. Le niveau d’importation dans ces pays reste faible (entre 2,4%

et 20,7%) par rapport aux pays émergents faiblement endettés (entre 16,3% et 75,2%). Aussi

l’exportation reste faible dans ces pays que dans les pays faiblement (entre 25,9% et 71,5%) et

modérément (entre 125,9 et 240,5%) endettés .

Les pays émergents faiblement endettés sont en majorité américains (50%), européens (25%), et

asiatiques (25%). Par contre, les pays européens (63%) sont majoritaires parmi les pays

Page 17: RAPPORT DE PROJET DATA MINING - CEREMADE …€¦ · De no jours, le monde de l’entreprise est caractérisé par une concurrence de plus en plus accrue. ... le taux d’importation

Projet Data Minin-2004/2005-DEA127 17

modérément endettés alors que les pays asiatiques et américains représentent respectivement 25%

et 13% de ces pays.

Les figures suivantes confirment les interprétations faites.

Page 18: RAPPORT DE PROJET DATA MINING - CEREMADE …€¦ · De no jours, le monde de l’entreprise est caractérisé par une concurrence de plus en plus accrue. ... le taux d’importation

Projet Data Minin-2004/2005-DEA127 18

A travers ces deux analyses, nous constatons que les pays européens se situent plutôt parmi les

pays faiblement endettés. Ce qui s’explique par le fait que d’une part que ces pays ont une

meilleure gestion de leur ressource et d’autre part, ils bénéficient du niveau de croissance

économique du continent européen. La grande présence des pays africains parmi les pays en voie

développement montre le retard du continent africain par rapport aux autres continents.

Page 19: RAPPORT DE PROJET DATA MINING - CEREMADE …€¦ · De no jours, le monde de l’entreprise est caractérisé par une concurrence de plus en plus accrue. ... le taux d’importation

Projet Data Minin-2004/2005-DEA127 19

IV.2 LA METHODE PCM La méthode PCM donne les résultats suivants : Correlations Matrix, initiales Variables/principals components PC1...PC4

PNB/habitant_($) 0.781 -0.306 0.102 0.067

Exportations_(%_PNB) 0.585 0.415 0.267 -0.224

Importations_(%_PNB) 0.489 0.617 0.175 -0.064

Investissements_Directs_Etrangers_($) 0.645 -0.382 -0.161 0.493

Inflation -0.325 0.213 0.629 0.662

Croissance_population_(%) -0.019 -0.531 0.721 -0.378

Nous constatons que le PNB, les exportations et les investissements directs étrangers sont

fortement corrélés avec l’axe PC1. L’axe PC2 explique mieux les importations et la croissance de

la population. L’axe PC3 explique mieux les investissements directs étrangers. L’inflation est

fortement corrélées à L’axe PC4.

Ainsi, nous avons choisi l’axe PC1 et l’axe PC2 pour la représentation graphique de nos résultats.

Pour faciliter la lecture des résultats, nous avons répartis les graphiques en trois parties :

1. Les pays en voie de développement

2. Les pays émergents

Page 20: RAPPORT DE PROJET DATA MINING - CEREMADE …€¦ · De no jours, le monde de l’entreprise est caractérisé par une concurrence de plus en plus accrue. ... le taux d’importation

Projet Data Minin-2004/2005-DEA127 20

3. Les pays développés

A travers ces graphiques, nous remarquons d’une part que les groupes qui sont situés le plus à

droite sont ceux dont le PNB, le taux d’exportation et le niveau des investissements directs

étrangers sont les plus importants et d’autre part les groupes qui sont situés le plus en haut sont

ceux dont le taux d’importation et le taux de croissance de la population sont les plus élevés.

Ainsi, nous pouvons dire plus on avance vers la droite de l’axe PC1, le PNB, le taux d’exportation

et les investissement directs étrangers augmentent et inversement. Mais lorsqu’on se déplace vers

Page 21: RAPPORT DE PROJET DATA MINING - CEREMADE …€¦ · De no jours, le monde de l’entreprise est caractérisé par une concurrence de plus en plus accrue. ... le taux d’importation

Projet Data Minin-2004/2005-DEA127 21

le haut de l’axe PC2, le taux d’importation et le taux de croissance de la population augmentent et

inversement.

IV.3 LA METHODE PYR

Le modèle d’échantillonnage pyramidal généralise les hiérarchies en permettant les classes non-

disjointes à un niveau donné au lieu d’une partition. De plus, les échantillons de la pyramide sont

des intervalles. La méthode proposée permet d’échantillonner des données plus complexes que

les modèles tabulaires peuvent traiter, en considérant la variation des valeurs prises par les

variables.

Les données en entrée pour PYR sont une matrice de données symboliques ou une matrice ou

une matrice de distance. S’il s’agît de matrice de données symboliques, le résultat sera une

pyramide symbolique, dans ce cas, le critère d’agrégation sera le « degré de généralité ». S’il s’agit

de matrice de distance, le résultat sera une pyramide numérique (classique) et le critère

d’agrégation, le « Maximum ».

Dans notre cas, nous avons construit deux pyramides. La première pyramide est réalisée en

fonction des variables taux d’importation et taux d’exportation et la seconde en tenant de toutes

les variables.

Ainsi, nous constatons au niveau de la première pyramide que les pays ayant un niveau

d’endettement hors classement sont regroupés. Cela peut s’expliquer peut être par la similitude de

leur politique d’importation et d’exportation.

Nous constatons aussi que les pays ayant un endettement modéré, faible ou très élevés sont

regroupés à partir de la pyramide P39. Dans ce second groupe les pays en voie de développement

ayant un endettement faible ou modéré sont proches. De même, les pays ayant un endettement

modéré ou faible ou tendance à se regrouper. Un autre constat important, est le regroupement

des pays émergeants faiblement endettés et les pays développés moins endettés. Cela peut

s’expliquer par le fait que les pays émergents ont une politique d’exportation et d’importation un

peu similaire.

Page 22: RAPPORT DE PROJET DATA MINING - CEREMADE …€¦ · De no jours, le monde de l’entreprise est caractérisé par une concurrence de plus en plus accrue. ... le taux d’importation

Projet Data Minin-2004/2005-DEA127 22

Page 23: RAPPORT DE PROJET DATA MINING - CEREMADE …€¦ · De no jours, le monde de l’entreprise est caractérisé par une concurrence de plus en plus accrue. ... le taux d’importation

Projet Data Minin-2004/2005-DEA127 23

IV.4 LA METHODE DIV

La méthode d’échantillonnage DIV est une méthode d’échantillonnage hiérarchique qui regroupe

tous les objets en seul échantillon et procède par division successive de chaque échantillon formé.

A chaque étape, un échantillon est divisé en deux selon une question binaire. Cette question

binaire induit la meilleure partition en deux selon l’extension du critère d’inertie : maximiser la

variance interclasse et minimiser la variance interclasse.

L’algorithme s’arrête après k-1 divisions où K est le nombre d’échantillons donné par l’utilisateur.

Les données en entrée pour DIV sont une matrice de données classique ou une matrice de

données symboliques.

Nous avons appliqué cette méthode aux paramètres suivants : l PNB/Habitant, le niveau de

richesse et le niveau d’endettement

THE CLUSTERING TREE :

---------------------

- the number noted at each node indicates

the order of the divisions

- Ng <-> yes and Nd <-> no

+---- Classe 1 (Ng=2)

!

!----4- [PNB/habitant_($) <= 3417.500000]

! !

! +---- Classe 5 (Nd=4)

!

!----2- [PNB/habitant_($) <= 6977.500000]

! !

! ! +---- Classe 3 (Ng=2)

! ! !

! !----3- [PNB/habitant_($) <= 11955.000000]

! !

! +---- Classe 4 (Nd=1)

!

!----1- [PNB/habitant_($) <= 19512.500000]

!

+---- Classe 2 (Nd=1)

L’échantillon est divisé en deux parties selon que lePNB/Habitant est supérieur à 19512 (classe

2 : il s’agît des pays les "Pays développés Endettement Hors classement") ou inférieur ou égal à

19512.

La classe ayant un PNB/habitant inférieur ou égal à 19512 se divise en deux en fonction que le

PNB/habitant est inférieur ou égal à 6977,500 ou pas.

Page 24: RAPPORT DE PROJET DATA MINING - CEREMADE …€¦ · De no jours, le monde de l’entreprise est caractérisé par une concurrence de plus en plus accrue. ... le taux d’importation

Projet Data Minin-2004/2005-DEA127 24

Les deux nouvelles classes vont à leur tour se diviser en deux. Ainsi, l’échantillon ayant un

PNB/habitant supérieur à 6977,500 se divise en deux selon que le PNB/Habitant est supérieur à

11955 (classe 4 : les pays "Pays en voie de développement Endettement Hors classement" ) ou

inférieur ou égal à 11955 (il s’agît de la classe 3 comportant les "Pays émergent Endettement

Hors classement", les "Pays émergent Endettement Hors classement",

les "Pays développés Endettement Faible" et les "Pays

développés Endettement Hors classement" ).

Quant au dernier échantillon, c’est à dire ceux qui ont un PNB/Habitant inférieur ou égal à

6977,500 se divise en deux selon que le PNB/habitant est supérieur à 3417,500 (classe 5 ) ou

inférieur ou égal à 3417,500 (classe 1 comportant les "Pays en voie de développement

Endettement Modéré" "Pays émergent Endettement Faible" ).

On constate que les pays développés ayant un niveau d’endettement hors classement, ont le

PNB/Habitant le plus important

THE CLUSTERING TREE :

---------------------

- the number noted at each node indicates

the order of the divisions

- Ng <-> yes and Nd <-> no

THE CLUSTERING TREE :

---------------------

- the number noted at each node indicates

the order of the divisions

- Ng <-> yes and Nd <-> no

+---- Classe 1 (Ng=3)

!

!----2- [Niveau_d'endettement <= Faible]

! !

! ! +---- Classe 3 (Ng=2)

! ! !

! !----3- [Niveau_d'endettement <= Elevé]

! !

! +---- Classe 4 (Nd=2)

!

!----1- [Niveau_de_Richesse_économique <= Moyennement élevée]

!

! +---- Classe 2 (Ng=2)

! !

!----4- [Niveau_de_Richesse_économique <= Elevé - Membres de l'OCDE]

!

+---- Classe 5 (Nd=1)

Page 25: RAPPORT DE PROJET DATA MINING - CEREMADE …€¦ · De no jours, le monde de l’entreprise est caractérisé par une concurrence de plus en plus accrue. ... le taux d’importation

Projet Data Minin-2004/2005-DEA127 25

IV.5 LA METHODE TREE

Pour la réalisation de cette méthode, nous avons choisi comme variable de classe le niveau

d’endettement et comme variables prédictives, le PN/Habitant, le taux d’inflation, le taux de

croissance et l’importation.

Le listing suivant représente le résultat de la méthode :

==================================

| EDITION OF DECISION TREE |

==================================

PARAMETERS :

Learning Set : 10

Number of variables : 4

Max. number of nodes: 7

Soft Assign : ( 1 ) FUZZY

Criterion coding : ( 3 ) LOG-LIKELIHOOD

Min. number of object by node : 5

Min. size of no-majority classes : 2

Min. size of descendant nodes : 1.00

Frequency of test set : 0.00

+ --- IF ASSERTION IS TRUE (up)

!

--- x [ ASSERTION ]

!

+ --- IF ASSERTION IS FALSE (down)

+---- [ 8 ]Modéré ( 1.28 0.00 1.07

2.00 )

!

!----4[ PNB/habitant_($) <= 4710.000000]

! !

! +---- [ 9 ]Elevé ( 0.51 0.00 0.93 0.00

)

!

!----2[ PNB/habitant_($) <= 7480.000000]

! !

! +---- [ 5 ]Faible ( 1.19 0.14 0.00 0.00 )

!

!----1[ PNB/habitant_($) <= 9120.000000]

!

+---- [ 3 ]Hors classement ( 0.01 2.86 0.00 0.00

)

A travers l’analyse des résultats obtenus, il s’en sort que le PNB/Habitant est la variable la plus

explicative.

Page 26: RAPPORT DE PROJET DATA MINING - CEREMADE …€¦ · De no jours, le monde de l’entreprise est caractérisé par une concurrence de plus en plus accrue. ... le taux d’importation

Projet Data Minin-2004/2005-DEA127 26

On constate aussi que les pays ayant un PNB/Habitant supérieur à 9120 ont un niveau

d’endettement hors classement. Les pays ayant un PNB/Habitant inférieur ou égal à 9120, se

divisent premièrement en deux groupes :

1. Ceux dont le PNB/Habitant est supérieur à 7480, ont un niveau d’endettement faible ; 2. Ceux dont le PNB/Habitant est inférieur ou égal à 7480, on constate à ce niveau deux

autres groupes : les pays ayant un PNB/Habitant supérieur à 4710, ont un endettement élevé et les autres ont un endettement modéré

Page 27: RAPPORT DE PROJET DATA MINING - CEREMADE …€¦ · De no jours, le monde de l’entreprise est caractérisé par une concurrence de plus en plus accrue. ... le taux d’importation

Projet Data Minin-2004/2005-DEA127 27

IV.6 LA METHODE STAT

La méthode STAT de SODAS nous permet d’utiliser des statistiques classiques étendues aux

variables symboliques. STAT est donc un ensemble de méthodes permettant de voir sous forme

de document texte ou de graphe les statistiques élémentaires relatives à nos données symboliques.

Nous avons appliqué la méthode STAT sur les variables exportation et importation.

.

Page 28: RAPPORT DE PROJET DATA MINING - CEREMADE …€¦ · De no jours, le monde de l’entreprise est caractérisé par une concurrence de plus en plus accrue. ... le taux d’importation

Projet Data Minin-2004/2005-DEA127 28

Biplots pour les variables d’intervalles :

On constate que les plus gros importateurs et exportateurs sont des pays développés à

endettement hors classement. Les pays développés faiblement endettés viennent en seconde

position sur le plan exportation mais importent moins que la plus part des pays en voie de

développement et émergeants. Les plus petits exportateurs et importateurs sont des pays

émergeants très endettés.

Page 29: RAPPORT DE PROJET DATA MINING - CEREMADE …€¦ · De no jours, le monde de l’entreprise est caractérisé par une concurrence de plus en plus accrue. ... le taux d’importation

Projet Data Minin-2004/2005-DEA127 29

On constate également que les pays en voie de développement en tendance à se regrouper ainsi

que les pays émergeants.

Les pays développés en endettement hors classement importent entre 8,44 et 161,145. les plus

grands importateurs sont parmi ces pays. Par contre les pays émergeants ayant un endettement

élevé importent entre 12,42 et 20,71 et constituent par conséquent des faibles importateurs

IV.7 LA METHODE SCLUST

On constate à partir de graphique que la classe Prototyp5 comporte uniquement les pays avec un

niveau endettement hors classement et un niveau de richesse OCDE. Par contre la classe

Prototype 1 comportement essentiellement les pays en voie de développement faiblement ou très

endettés.

Page 30: RAPPORT DE PROJET DATA MINING - CEREMADE …€¦ · De no jours, le monde de l’entreprise est caractérisé par une concurrence de plus en plus accrue. ... le taux d’importation

Projet Data Minin-2004/2005-DEA127 30

CONCLUSION

A travers ce projet, nous avons pu en effet consolider les connaissances acquises et d’enrichir

notre expérience en matière d’analyse. A travers le sujet choisi « développement des pays », on

constate que le date mining peut être appliqué dans tous les domaines et s’avère utile pour tous

les décideurs.

Néanmoins, cet projet ne s’est pas terminé sans difficulté. La base de donnée ayant fait l’objet

d’autre projet, malgré notre volonté de faire une étude totalement différente de la première, la

limitation des données nous faisait énormément dans le choix des variables lors de l’application

des méthodes. Ce qui a entraîné un certain retard dans la réalisation de ce projet.