faculte des sciences departement d’informatique …

REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE MINISTERE DE L’ENSEIGNEMENT SUPERIEUR

ET DE LA RECHERCHE SCIENTIFIQUE UNIVERSITE D’ORAN

FACULTE DES SCIENCES DEPARTEMENT D’INFORMATIQUE

MEMOIRE

Présenté par :

ABDICHE FETHI

Pour obtenir LE DIPLOME DE MAGISTER

Spécialité : Informatique

Option : Informatique et automatique

Intitulé : EXPLOITATION DES BASES DE DONNEES A REFERENCES SPATIALES POUR

LA FOUILLE DE DONNEE : ADAPTATION ET EXPLOITATION DE LA MACHINE CELLULAIRE.

Soutenu le : / /

Devant le jury composé de :

Pr. Beldjilali Bouziane Président (Professeur à l'Université d’Oran)

Dr. Atmani Baghdad Rapporteur (Maître de conférences à l'Université d’Oran)

Dr. Benamrane Nacera Examinatrice (Maître de conférences à l’USTMB d’Oran)

Dr. Abdi Mustapha Kamel Examinateur (Maître de conférences à l'Université d’Oran)

2008/2009

Je dédie ce travail A: Toi mon Dieu Tout Puissant, pour ton amour, ta grâce et ton assistance sans fin. Je lève mes yeux vers toi et le secours me vient oh Eternel qui a fait les cieux et la terre. Mon Dieu tu es un bouclier pour moi, tu es ma gloire, celui qui relève ma tête. Mes parents, parce qu'il est impossible de trouver des qualificatifs et de mots à la hauteur de l'amour et le soutien que vous m’avez toujours témoigné. A mes frères Hocine, Zakaria, Karim et ma soeur Wahida et, ma Grand-mère Hadja Fatima, pour votre chère et solide affection. A mon directeur de thèse, Mr. ATMANI pour m’avoir orienté vers un sujet aussi intéressant et formateur, et son aide remarquable dans mon travail tout en me laissant un maximum de libertés et d'initiatives. A tous mes amis dont je ne saurais passer sous silence l'amour et l'affection qu'ils ne cessent de me faire preuve. A vous, qui êtes entrain de lire cette dédicace à cet instant-ci.

ABDICHE Fethi

Dédicace

Grâce à Dieu, j’ai terminé ce travail qui a été jugé difficilement réalisable dans un tel délai, mais comme je viens de dire, c’est le Dieu tout Puissant qui m’a facilité la tâche, soit par la force morale qui a été forgée dans mon esprit au cours de ces dernières années, soit par m’avoir récompensé après une longue attente, par un thème d’actualité. Au seuil de ce travail, j’ai l'obligation morale d'exprimer nos sentiments de gratitude et de profonds remerciements à tous ceux qui m’ont apporté leur aide tout au long de mes études et pendant la réalisation de ce travail, notamment : Mon directeur de thèse, Mr B. ATMANI pour la confiance qu’il à eu en moi, son aide, ces remarques rigoureuses qui visaient le perfectionnement de ce travail, sa patience en corrigeant ce mémoire mot par mot, je le remercie aussi pour ces orientations vers de futures perspectives.

J’adresse mes vifs remerciements au président de jury Mr B. BELDJILALI et les membres Melle N. BENAMRANE et Mr M.K ABDI pour leurs honorables présences. Je remercie aussi Mr Med. Ghézzene et Mr K. Kadaoui pour m’avoir facilité l’accès aux différents bureaux de la Direction de la Sureté d’Oran et m’avoir fournie les données nécessaires afin de pouvoir réaliser ce travail. J’aimerai également Remercier tous ceux qui ont eu la gentillesse de nous en consacré leurs temps, leurs savoir et leurs expériences :

Remerciement

A tous ceux qui n'ont pas vu leurs noms cités et qui m’ont toujours comblés de leurs animations, sentiments, amours et amitiés ; qu'ils trouvent ici l'expression de ma profonde gratitude.

Remerciement

Dédicace

Tables des matières

Liste des Figures

Liste des Tables

Glossaire

Introduction générale 1

Chapitre 1 : Fouille de données spatiales

1.1. Introduction 8

1.2. Définition 9

1.2.1. Les domaines d’applications de la fouille de données 9

1.2.1.1. La gestion de relation client 9

1.2.1.2. Les banques et attribution de crédits 10

1.2.1.3. La médecine et la biologie 10

1.2.1.4. Le world Wilde web 10

1.3 Extraction de la connaissance à partir des données à références spatiales 11

1.3.1. Définition de la fouille de données spatiales 11

1.3.2. Le processus de la fouille de données spatiales 11

1.3.2.1. L’identification du problème 13

1.3.2.2. La sélection des données 14

1.3.2.3. Le nettoyage des données 14

1.3.2.4. La transformation et réduction 14

1.3.2.5. La fouille de données 14

1.3.2.6. L’évaluation des résultats 15

1.4. Les outils de la fouille de données spatiales 15

1.4.1. Les méthodes à base de clustering des données spatiale 16

1.4.1.1. La méthode des K-moyennes 16

1.4.1.2 La méthode PAM (partitioning around medoïdes) 17

1.4.1.3 La méthode CLARA (Clustering LARge Applications) 19

1.4.1.4 La méthode CLARANS 20

Table des Matières

1.4.2 La méthode STING 21

1.4.3. Les règles d’associations 23

1.4.4. Hiérarchies et généralisation 24

1.4.5. Classification supervisée par arbres de décisions spatiales 26

1.5 Conclusion 27

Chapitre 2 : Apprentissage Artificielle par Graphe d’Induction

2.1. Introduction 32

2.2. Notations 33

2.3. Exemple illustratif 34

2.4. Définitions et Principe 38

2.4.1. Critère de segmentation 38

2.5. Les méthodes à base de graphe d’induction 41

2.5.1. Les méthodes ID3 et C4.5 41

2.5.1.1. La méthode ID3 (Induction Decision Tree) 41

2.5.1.2. La méthode C4.5 48

2.5.2. La méthode CART (Classification and regression Trees) 49

2.5.3. La méthode SIPINA (Système Interactif pour les processus d'Interrogation

Non Arborescents) 50

2.5.3.1. Passage de la partition À 51

2.5.3.2. Algorithme SIPINA 55

2.6. Conclusion 56

Chapitre 3 : Classification spatiale Guidée par CASI


3.2. Travaux connexes 59

3.3. Problématiques 60

3.4. Primitives des relations spatiales 62

3.4.1. Les relations de voisinage 63

3.4.1.1. Les relations topologiques 63

3.4.1.2. Les relations de distance 63

3.4.1.3. Les relations de direction 63

3.5. La classification spatiale 65

3.5.1. Algorithme 66

3.5.2. Automate cellulaire pour des systèmes d’inférence CASI 66

3.5.2.1. Exemple d’apprentissage symbolique à partir de données à

références spatiales 66

3.5.2.2. Complexité théorique 87

3.6. Conclusion 88

Chapitre 4 : CGISS, un Système d'Information Géographique Cellulo-Symbolique


4.2. Les Systèmes d’informations Géographiques 93

4.2.1. L’acquisition de l’information géographique 94

4.3. Les bases de données géographiques 96

4.3.1. Archivage de l’information géométrique 96

4.3.2. Unification de format de stockage des images vectorielles 96

4.4. Déroulement du processus d’extraction de connaissances à partir des

données à références spatiales 97

4.4.1. Sélection et préparation des couches thématiques 98

4.4.2. Analyse spatiale et extraction des relations de voisinage 100

4.4.3. Conception et implémentation 104

4.5. Expérimentation 106

4.5.1. Construction d’un graphe d’induction 107

4.5.2. Génération des règles conjonctives 109

4.6. Conclusion 110

Conclusion générale 113

Figure 1.1 : Processus d’extraction de connaissance à partir des données 13

Figure 1.2 : (a) configuration initiale, (b) les centres initiaux et affectation selon la distance

minimale (c) recalcule des centre (d) nouvelle affectation des points 17

Figure 1.3 : Algorithme des K-moyennes 17

Figure 1.4 : L’algorithme PAM 18

Figure 1.5 : L’Algorithme CLARA 20

Figure 1.6 : L’Algorithme CLARANS 21

Figure 1.7 : Exemple d’une hiérarchie de gilles STING à trois niveaux 22

Figure 1.8 : L’Algorithme de STING 23

Figure 1.9 : Hiérarchie et généralisation de concepts de partitionnement des types de productions

d’agriculture 25

Figure 1.10 : La méthode de généralisation spatiale 25

Figure 2.1 : Arbre de décision 36

Figure 2. 2 : Construction de , , , 44

Figure 2.3 : Construction de , 46

Figure 2.4 : Construction de , 47

Figure 2.5 : Sélection de la borne de discrétisation 49

Figure 2.6 : La partition courante 52

Figure 2.7 : Les partitions générées par le regroupement des pairs 52

Figure 2.8 : Regroupement-Éclatement du premier regroupement à l’aide de trois variables 53

Figure 2.9 : Regroupement-Éclatement du deuxième regroupement à l’aide de trois variables 53

Figure 2.10 : Regroupement-Éclatement du troisième regroupement à l’aide de trois variables 54

Figure 2.11 : Éclatement du premier sommet avec les trois variables 54



Figure 3.1 : L’analyse spatiale entre les différentes couches et construction de l’échantillon

d’apprentissage 60

Liste des Figures

Figure 3.2 : Analyse spatiale utilisant la technique du Buffering 62

Figure 3.3 : Les Régions pollués au tour d’une zone industrielle 63

Figure 3.4 : Les relations topologiques et de distance 64

Figure 3.5 : Arbre de décision spatial [Che, 02] 65

Figure 3.6 : Voisinage des objets spatiaux par rapport au lieu d’impact 67

Figure 3.7 : Diagramme général de notre système cellulaire CASI 70

Figure 3.8 : Construction de , , . 72

Figure 3.9 : Les partitions , , , …. 72

Figure 3.10 : (a) Base de connaissance, (b) Configuration initiale de l’automate cellulaire 75

Figure 3.11 : Les matrices d’incidence d’entrée RE et de sortie RS de l’automate 76

Figure 3.12 : Automate cellulaire pour des systèmes d’inférence 77

Figure 3.13 : Différents modes du chaînage avant 78

Figure 3.14 : Configuration abstenue après exécution de 79

Figure 3.15 : configuration = ∆( ) obtenue après exécution de ( ) et ( ) 79

Figure 3.16 : Configuration finale obtenue après deux itérations synchrones 80

Figure 3.17 : Initialisation de l’automate cellulaire 82

Figure 3.18 : Génération des règles conjonctives 84

Figure 3.19 : Base de connaissances du graphe d’induction de la figure 3.9 86

Figure 3.20 : Validation de par l’automate cellulaire 87

Figure 4.1 : Le découpage administratif de la ville d’Oran : Carte vectorielle 94

Figure 4.2 : Vue satellitaire de la ville d’Oran : Image en raster 95

Figure 4.3 : Superposition des couches indépendantes 95

Figure 4.4 : La structure d’une image vectorielle sous MapInfo 95

Figure 4.5 : Processus d’extraction des règles à partir de la base de données à références

spatiales 95

Figure 4.6 : Conversion des couches thématique vers le format MapInfo 99

Figure 4.7 : Connexion MapInfo à la Base de données Oracle 100

Figure 4.8 : Affichage des couches thématique candidates 101

Figure 4.9 : Sélection des couches thématique candidates 102

Figure 4.10 : Echantillon d’apprentissage suite à l’analyse de voisinage 102

Figure 4.11 : Approche cellulaire pour la fouille de données spatiales 103

Figure 4.12 : Cellular Geographic Information System for Spatial datamining (CGISS) 105

Figure 4.13 : Construction de l’arbre de décision par IGSS 108

Figure 4.14 : Génération des règles conjonctives par l’IGSS 109

Table 1.1 Résumé des symboles et leurs définitions 19

Table 2.1 Un échantillon d’apprentissage 34

Table 2.2 Les attributs prédictifs, valeurs et significations 35

Table 2.3 Tableau de contingence 39

Table 3.1 Un exemple d’échantillon d’apprentissage 68

Table 3.2 attributs prédictifs, valeurs et significations 69

Table 3.3 Codage de l’échantillon d’apprentissage 71

Table 3.4 Exemple d’un échantillon test 86

Liste des Tables

ADN : Acide désoxyribonucléique.

API : Application programming interface.

CASI : Automate cellulaire pour des systèmes d’inférence.

CART : Classification and regression Trees.

CIE : Cellular Inference Engine : Moteur d’inférence cellulaire.

CGISS : Cellular Geographic Information System for Spatial datamining.

CLARA : Clustering LARge Applications.

CLARANS : Clustering Large Applications based on RANdomized Search.

COG : Graphe cellulaire Optimisé.

CV : Validation par automate cellulaire.

ECD : Extraction des connaissances à partir des données.

ECDRS : Extraction de Connaissances à partir des Données à Références Spatiales.

FDS : fouille de données spatiales.

GML : Geography Markup Language.

ID3 : Induction Decision Tree.

IGSS : Inductive Graph Symbolic system.

JVM : Java Virtual Machine.

J2SE : Java 2 Platform, Standard Edition.

J2EE : Java 2 Platform, Entreprise Edition.

PDA : Personal Digital Assistant.

PAM : Partitioning around médoïdes.

SIGFDS : Systèmes d’Informations Géographiques pour la Fouille de Données Spatiales.

SIG : Systèmes d'informations géographiques.

SIPINA : Système Interactif pour les processus d'Interrogation Non Arborescents.

STING : Statistical Information Grid.

SGBDR : Système de Gestion de Base de Données Relationnelle.

SQL : Structured Query Language.

TDIDT : Top Down Induction of Decision Trees.

URBOR : Centre d'Etudes et de Réalisation en Urbanisme Oran.

XML : Extensible Markup Language.

Glossaire

Introduction Générale

1

1. I NTRODUCTION

Aujourd'hui, le Mégaoctet est l'unité pour la mémoire vive et nous produisons des

machines stockant plusieurs Petaoctets (des millions de milliards d'octets). Ce besoin de

stockage est justifié et il est indispensable. En effet, depuis quelques années une quantité

croissante de données est générée de toute part par des organismes médicaux, industriels,

commerciaux, etc... Cet écoulement continue et croissant d’informations peut maintenant être

stocké et préparé à l’étude grâce aux nouvelles techniques d’Entrepôt de Données (ou Data

Wharehouse). Les fournisseurs de la téléphonie, par exemple, gardent au moins un an les

positions géographiques et les consommations de leurs abonnés. Les grands magasins et les

entreprises de vente par correspondance (VPC) conservent les achats de leurs clients,

collectent des informations sur leurs clients grâce à des systèmes de cartes de fidélité [Tom,

00] Les sites web conservent des traces de connexions sur leurs sites marchands. En résumé,

les entreprises en secteur très concurrentiel conservent les données de leurs activités et

achètent même des données.

Les motifs qui ont présidé à la conservation de ces données étaient : des obligations légales

pour pouvoir justifier les facturations, des raisons de sécurité pour pouvoir détecter les

fraudes, des motifs commerciaux pour suivre l'évolution des clients et des marchés. Quelle

que soit la raison initiale, les entreprises se sont rendues compte que ces données pouvaient

être une source d'informations à leurs services [Tom, 00]. Ce constat, valable pour les

sociétés du secteur marchand, peut être étendu à de nombreux domaines et services. Il faut

donc définir des environnements permettant de mémoriser de grands jeux de données et d'en

extraire de l'information.

La complexité et la taille de ces bases de données dépasse la capacité humaine d’analyse.

Delà, la nécessité est apparue de développer et appliquer des outils pour extraire des

informations utiles. Ces derniers, sont reconnus comme un moyen très efficace d’analyse

avancée de données, permettant d’extraire des connaissances cachées depuis de grandes

masses de données pour des applications décisionnelles.

Les techniques d’extraction de la connaissance (ECD) sont utilisées dans le monde

professionnel pour l’aide à la décision dans différents domaines d’applications, allant de la

gestion de relation client à la maintenance préventive, en passant par la détection des fraudes

ou encore l'optimisation dans les sites Web.

L’extraction de la connaissance pour certaines applications est limitée car elle ne prend pas

en considération l’environnement géographique. En effet, la donnée géographique désigne


2

toute information sur des objets ou des phénomènes (appelés entités géographiques)

localisables à la surface de la terre, ce qui explique la naissance des Systèmes d'Informations

Géographiques (SIG). On cite souvent comme première application des SIG l'étude menée

avec succès par le docteur John Snow pendant l'épidémie de choléra dans le quartier de Soho

à Londres en 1854 : ayant représenté sur un plan la localisation des malades et l'endroit où ils

puisaient leurs eaux, il détermina que c'était l'eau d'un certain puits qui était le foyer de

contamination. Donc, l’idée du SIG existe.

En 1989, la Société française de Photogrammétrie et de télédétection définissait le SIG

comme étant "un système informatique permettant, à partir de diverses sources, de rassembler

et d'organiser, de gérer, d'analyser et de combiner, d'élaborer et de présenter des informations

localisées géographiquement (géo référencées). L'ensemble des informations géographiques

intégrées dans le SIG forment une base de données géographiques.

En schématisant, un logiciel SIG est donc un système de gestion de bases de données (SGBD)

localisées qui comprend une ou plusieurs couches géographiques qui peuvent conserver des

relations entre elles en étant entre croisées, interrogées, etc...

L’apparition des moyens matériels et logiciels de production, stockage et diffusion des

images satellitaires et des cartes géographiques a pour conséquences la production des bases

de données géographiques très volumineuses. Tout comme les bases de données

traditionnelles, la taille des bases de données géographiques ne cesse d’augmenter, d’où le

besoin d’un processus d’extraction de la connaissance à partir des données géographiques.

L’ECD est reconnue comme un moyen très efficace d’analyse avancée, permettant

d’extraire des connaissances cachées depuis des grandes masses de données [Gar, 99] Etant

donné le volume croissant des données spatiales, la fouille de données spatiales, qui est

l’étape majeure du processus de l’extraction des connaissances, qui permet d’extraire des

propriétés de voisinages cachées dans ces données et qui présente donc un intérêt certain pour

les applications spatiales décisionnelles. La fouille de données spatiale (FDS) est aujourd’hui

identifiée comme un domaine de la fouille de données à part entière [Zei, 06a]. Elle résulte de

la combinaison de la fouille de données et des bases de données spatiales.

Dans ce contexte, beaucoup de travaux existent, mais la majorité consiste à appliquer des

techniques de la fouille de données pour extraire de la connaissance à partir des données non

spatiales. Nous pouvons citer à titre d’exemple les travaux de Han [Han, 97] qui proposent un

algorithme pour l’extraction des relations d’hiérarchie. Cette technique suppose que

l’utilisateur ou l’expert doit fournir à l’algorithme une hiérarchie de concepts, qui n’est

souvent pas possible. Nous pouvons citer aussi la méthode STING [Wan, 97], qui est une


3

méthode hiérarchique et qui consiste à diviser le territoire en plusieurs zones de taille plus

réduite afin de minimiser la complexité de la recherche.

Nous distinguons aussi les travaux sur les règles d’associations spatiales [Kop, 99] [Mic,

06] qui sont une extension des règles d’associations classiques appliquées pour l’extraction

d’un motif fréquent. De même nous soulignons l’importance du clustering qui est une

méthode de classification automatique permettant le regroupement d’objets par classes

homogènes. Pour cela, elle cherche à maximiser la similarité intra-classe et à minimiser la

similarité inter-classes. Les principales méthodes sont celles par agrégation autour de centres

mobiles, comme les k-means, les nuées dynamiques, la classification automatique

hiérarchique (CAH) et enfin, les méthodes par densité comme DBSCAN [Est, 96], BIRCH

[Zha, 96] et OPTICS [Ank, 99]. La transposition au domaine spatial s’appuie sur une mesure

de similarité d’objets localisés suivant leurs distances métriques. Néanmoins, l’application de

ces méthodes au domaine spatial vise moins à classifier qu’à détecter les concentrations ou les

points critiques d’un phénomène. Par exemple, dans l’étude de criminalité ou des zones

accident en sécurité routière.

2. PROBLEMATIQUE DE LA THESE

Cette thèse s’inscrit dans le cadre de l’extraction de la connaissance à partir des bases de

données géographiques en sécurité routière. Ce type d’analyse a été souvent basée, comme il

a était signalé par [Zei, 06a], sur les statistiques sans prendre en considération les relations

spatiales relatives à l’accident. En effet, l’analyse en sécurité routière combine des

informations concernant l’accident en lui-même, des informations thématiques du réseau

routier, le tissus urbain et d’autres détails de voisinage géographique [Zei, 06a].

Toutes les méthodes citées précédemment considèrent l’espace avec une seule mesure, une

catégorie unique. Or, les bases de données spatiales et la majorité des SIG organisent les

données en couches thématiques, chacune avec une description ou schéma propre. Les

méthodes à bases de clustering ou de généralisation ne prennent pas en compte cette

organisation et par conséquent, ne peuvent révéler des relations inter-thèmes cachées.

Dans ce travail, on utilise les graphes d’inductions comme un outil efficace de fouille de

données. Ces derniers peuvent ramener l’analyse des relations de voisinages implicites entre

l’accident et sont environnement à un problème de classification. Delà, une question

fondamentale se pose : comment ramener le problème d’analyse de voisinages entre plusieurs

couches thématiques vers une seule table à deux dimensions, exploitable par un

graphe d’induction ?


4

La réponse à cette impératif est déjà abordée dans les travaux de Chelghoum [Che, 02], par

la proposition de l’algorithme SCART (Spatial CART) et les travaux de Zeitouni [Zei, 06a],

[Zei, 06b] qui ont considéré le problème de la fouille de données spatiales comme étant

l’optimisation d’exécution des requêtes topologiques dans la base de données en utilisant les

index de voisinage.

Dans cette thèse, nous avons développé des recherches sur les systèmes d’apprentissage

automatiques symboliques, et en particulier sur la classification par graphe d’induction :

acquisition automatique de règles de classification à partir de couches thématique. Un

nouveau système, nommé CGISS a été étudié et réalisé. Notre système permet, à partir d’une

base de données spatiale, de faire coopérer un graphe d’induction (GI) et un automate

cellulaire (CA) pour l’exploration des relations de voisinage entre thèmes et la construction

d’un modèle de prédiction des accidents de la route. Le résultat de la fouille de données

spatiale ainsi obtenu, est affiné par un processus d’apprentissage automatique symbolique à

base de graphe d’induction (méthode SIPINA). Ce raffinement se fait par l’automate cellulaire

qui va assister SIPINA à l’optimisation du graphe d’induction et assurer, par la suite, la

représentation et la génération des règles de production sous formes conjonctives avant

d’entamer la phase de validation par un système expert cellulaire [Atm, 07], [Bel, 08], [Abd,

08a].

Nous avons deux principaux objectifs à réaliser dans cette thèse :

• L’élaboration d’un processus d’extraction de la connaissance à partir des données

spatiales et plus précisément le problème d’accidents de la route, en se basant sur

une bases de données réelle issue de différentes sources d’information, en allant de

la Direction Générale de la sureté de la wilaya d’Oran DGSN, vers les différents

bureaux d’études.

• L’exploitation de l’outil IGSS, déjà réalisé par l’équipe de recherche BIOSIF, pour

analyser les données à références spatiales.

Ce mémoire s’articule autour de quatre chapitres :

Le chapitre I introduit l’extraction de la connaissance, les domaines d’application, la

différence par rapport à une analyse de bases de données à références spatiales ainsi que des

explications détaillées de l’Extraction de Connaissances à partir d’une base de Données à


5

Références Spatiales (ECDRS). Nous présentons les différentes méthodes appliquées dans

l’ECDRS et leurs inconvénients.

Le chapitre II aborde le principe de l’apprentissage automatique ainsi que son apport pour

la fouille de données. Nous y présentons les Graphes d’inductions comme étant une méthode

d’apprentissage supervisé.

Le chapitre III est consacré à l’adaptation des graphes d’induction cellulaires pour

effectuer une fouille de données spatiales. Cette adaptation par automate cellulaire concerne

l’élaboration, la représentation, l’optimisation par automate cellulaire du graphe engendré par

la méthode SIPINA, suivi de la génération des règles de production conjonctives et la

validation. Nous concluons ce chapitre par une étude de complexité et des expérimentations.

Le chapitre IV est consacré à notre contribution dans ce domaine [Abd, 08b]. Nous

présentons l’organisation générale du système CGISS et nous détaillons son mode de

fonctionnement. Puis nous concluons par un ensemble de résultats obtenus.

Finalement, nous concluons en synthétisant les différentes étapes de notre contribution et

en discutant les perspectives envisagées pour poursuivre cette recherche.


6

BIBLIOGRAPHIE

[Abd, 08a] Abdelouhab, F., Atmani, B., Intégration automatique des données semi-structurées dans un entrepôt cellulaire, Troisième atelier sur les systèmes décisionnels, Mohammadia, Maroc, PP 109—120, 10 et 11 octobre 2008.

[Abd, 08b] Abdiche, F., Atmani, B., Vers un système d'unification des systèmes d'informations géographiques, International Conference on Web and Information Technologies "ICWIT '08", Université de Sidi Belabess, PP 140—146, 29-30 juin 2008.

[Ank, 99] Ankerst M., Breunig M.M., Kriegel H-P., Sander J., OPTICS: Ordering Points

To Identify the Clustering Structure. SIGMOD Conference, PP 49—60, 1999.

[Atm, 07a] Atmani, B., Beldjilali, B., Knowledge Discovery in Database : Induction Graph and Cellular Automaton, Computing and Informatics Journal, Vol.26, N°2, PP 171—197, 2007.

[Bel, 08] Beldjilali, B., Atmani, B., Traitement des coefficients d’incertitudes dans les

arbres de décision : application sur la machine cellulaire CASI, Journée des Jeunes Chercheurs en Informatique JCI'08, Université 08 Mai 45, Guelma – Algérie, PP 223—234, 20 Mai 2008

[Che, 02] Chelghoum N., Zeitouni K., Boulmakoul A., A Decision Tree for Multi-layered

Spatial Data, In 10th International Symposium on Spatial Data Handling (SDH’02), Ottawa, Canada, PP 1-10, 2002

[Est, 96] Ester M., Kriegel H .P., Sander J., Xu X., A density-Based algorithm for

discovering clusters in lager spatial databases with noise, In proceeding of second international conference on knowledge discovery and data mining, Portland, PP 226—231, 1996.

[Han, 97] Han J., Koperski K., and Stefanovic N.: GeoMiner : A System Prototype for

Spatial Data Mining, Proc. ACM-SIGMOD Int'l Conf. on Management of Data (SIGMOD'97), Tucson, Arizona (1997) System prototype demonstration, 1997.

[Mic, 06] Michel, W.B., Murray B., Lecture Notes in data Mining, World Scientific

Publishing Co. Pte. Ltd, 2006. [Kop, 99] Kopersky, K., A progressive refinement approach to spatial data mining, a

thesis submitted in spatial fulfillment of the requirement for the degree of Doctor of Philosophy, Simon Fraser University, 1999.

[Tom, 00] Tommasi, M., Gilleron, R., Découverte de connaissances à partir de données,

Cours d’apprentissage à partir des exemples, université de Lille 3, 2008. [Wan, 97] Wang, W., Yang, J., Muntz, R., STING: A statistical information grid approach

to spatial data mining, in Proceedings of the International VLDB Conference, 1997.


7

[Zei, 06a] Zeitouni, K., Analyse et extraction de connaissances des bases de données spatiotemporelles. Habilitation à Diriger des Recherches Spécialité Informatique, Université de Versailles Saint-Quentin-en-Yvelines, 2006.

[Zei, 06b] Zeitouni, K., Chelghoum, N., Application du Data Mining Spatial pour la prédiction du risque d’accidents de la circulation en milieu urbain : Extension du projet TOPASE par la prise en compte des interactions entre le réseau viaire et l’environnement urbain, Université de Versailles Saint-Quentin-en-Yvelines, 2006.

[Zha, 96] Zhang T., Ramakrishnan R., Livny M., BIRCH: An Efficient Data Clustering Method for Very Large Databases, SIGMOD Conference, PP 103—114, 1996.

Chapitre 1

Fouille de Données Spatiales

Plan

1.1. Introduction

1.2. Définition

1.2.1. Les domaines d’applications de la fouille de données

1.2.1.1. La gestion de relation client

1.2.1.2. Les banques et attribution de crédits

1.2.1.3. La médecine et la biologie

1.2.1.4. Le world Wilde web

1.3 Extraction de la connaissance à partir des données à références spatiales

1.3.1. Définition de la fouille de données spatiales

1.3.2. Le processus de la fouille de données spatiales

1.3.2.1. L’identification du problème

1.3.2.2. La sélection des données

1.3.2.3. Le nettoyage des données

1.3.2.4. La transformation et réduction

1.3.2.5. La fouille de données

1.3.2.6. L’évaluation des résultats

1.4. Les outils de la fouille de données spatiales

1.4.1. Les méthodes à base de clustering des données spatiale

1.4.1.1. La méthode des K-moyennes

1.4.1.2 La méthode PAM (partitioning around medoïdes)

1.4.1.3 La méthode CLARA (Clustering LARge Applications)

1.4.1.4 La méthode CLARANS

1.4.2 La méthode STING

1.4.3. Les règles d’associations

1.4.4. Hiérarchies et généralisation

1.4.5. Classification supervisée par arbres de décisions spatiales

1.5 Conclusion

Fouille de Données Spatiales Chapitre 1

8

1.1. I NTRODUCTION

De nombreux organismes gouvernementaux, commerciaux, médicaux… collectent et

gèrent des masses volumineuses d’informations dans leurs bases de données. Ces dernières

sont dans le cas général très peu exploitées en vue d’extraire de nouvelles connaissances sur

les divers phénomènes.

Alors que la découverte de connaissances dans les bases de données devient un enjeu

stratégique afin de mieux gérer les parts de marché, cibler les consommateurs, évaluer les

risques financiers, diagnostiquer des patients, etc. une nouvelle préoccupation est apparue

dans la recherche informatique depuis ces dernières années : L’Extraction de Connaissance à

partir des données, qui est une succession d’opérations en allant de la sélection et le nettoyage

des données jusqu’à la validation du modèle en passant par la fouille de données elle-même

qui est la phase primordiale dans ce processus.

La fouille de données classique est utilisée dans le monde professionnel pour résoudre des

problématiques très diverses, allant de la gestion de relation client [Lef, 01] à la maintenance

préventive, en passant par la détection des fraudes ou encore de l'optimisation dans les sites

webs [Gar, 06].

De nos jours, une multitude d’applications utilisent des données à références spatiales,

comme la gestion de l’environnement, le transport, la santé, la météo. D’un coté, ces données

sont devenues une source importante pour l’aide à la décision quoi que le volume de ces

données commence à se multiplier, et cela dépasse la capacité humaine d’analyse. De l’autre

coté, environ 80% des données ont une composante spatiale qui est souvent implicite [Mar,

06]. La fouille de données est reconnue comme un moyen très efficace d’analyse avancée de

données, permettant d’extraire des connaissances cachées depuis des grandes masses de

données [Atm, 07a, 07b]. Etant donné le volume croissant des données spatiales, la fouille de

données spatiales permet d’extraire des règles spatiales cachées dans ces dernières et présente

donc un intérêt certain pour les applications décisionnelles [Zei, 06a].

Une multitude d’outils existent, ces derniers sont limités à cause de l’utilisation des

données numériques classiques et ne permettent pas d’exploiter la référence spatiale implicite.

Tans dit que la fouille de données spatiales est une extension de l’approche classique,

permettant donc l’interaction avec l’environnement géographique [Zei, 06b] en incluant des

relations spatiales.

Le terme ECD désigne en réalité un processus complet interactif de découverte de la

connaissance [Kod, 94]. D’une façon générale, les méthodes d’ECD exploitent les recherches


9

en intelligence Artificielle et en apprentissage automatique. En effet, l’apprentissage

automatique peut être perçu comme un processus d’extraction de connaissance et les

méthodes associées peuvent être désigner comme des méthodes d’ECD. Bien que ces

dernières ont montré leurs efficacités sur des données alphanumériques mais n’exploitent pas

le géo référencement. Notre contribution consiste à intégrer le caractère spatial des données

par l’adaptation des méthodes de la fouille de données classique afin de pouvoir extraire les

relations spatiales implicites.

1.2. DEFINITION

La fouille de données est l’étape centrale du processus de l’extraction de la connaissance

(ECD). Elle consiste à extraire automatiquement de la connaissance intéressante, intelligible

et cachée dans les bases de données. Le terme fouille de données est souvent employé pour

désigner l’ensemble des outils permettant d’accéder aux données et de les analyser [Gar, 99].

L’extraction de la connaissance à partir des bases de données par fouille de données est le

processus qui consiste à identifier des modèles, valide, original, utiles et compréhensibles

dans les données [Fay, 96].

1.2.1. L ES DOMAINES D’ APPLICATIONS DE LA FOUILLE DE DONNEES

Grace aux différentes méthodes de l’apprentissage automatique et la vulgarisation de

l’outil informatique, la fouille de données n’est plus un ensemble de techniques expérimentées

uniquement aux laboratoires de recherches, mais plutôt un outil utilisable dans beaucoup de

secteurs : l’industrie, la médecine, biologie ou encore la gestion de relation clients qui est le

champ d’application par excellence.

Les entreprises bancaires et d’assurances, les grandes surfaces commerciales ont mis en

œuvre ces outils afin de comprendre les habitudes de leurs clientèles ensuite prévoir leurs

comportements [Khi, 07] .

1.2.1.1. L A GESTION DE RELATION CLIENT

La gestion de la relation client consiste à cibler, attirer et à conserver les bons clients. Elle

représente un facteur déterminant du succès de l’entreprise. Construire et développer des

relations avec ses clients est un défi à entreprendre, Notamment lorsque l’entreprise possède

des milliers (voir des millions) de clients qui sont en expansion continue.

La fouille de données s'emploie en marketing pour l'analyse des données dans le but de

d’étudier le comportement du client. Par exemple, des habitudes d'achat des consommateurs.


10

La fouille de données est donc utilisée dans les programmes informatiques pour développer

une relation client stable, pérenne et rentable, car le client demeure à jamais au cœur de la

stratégie des entreprises. On peut citer comme champs d’applications :

• L’optimisation du réseau de distribution : Mieux connaître votre zone, mieux

comprendre les habitudes de vos clients et consommateurs, mieux appréhender

l’environnement sociodémographique, économique et social dans lequel vous

évoluez.

• L’identification des clients à risques : cette tâche consiste à détecter une éventuelle

perte des clients en identifiant ceux qui vont aller chez le concurrent. Qui sont mes

clients actuels et potentiels ? Que consomment-ils ? Quels sont leurs besoins ?

Comment appréhender mon potentiel client et le valoriser ?

• La prédiction du volume de vente d’un produit dans les mois qui suivent.

• L’analyse du panier de la ménagère : Dans les grandes surfaces commerciales,

regrouper les objets qui vont naturellement ensemble.

1.2.1.2. L ES BANQUES ET ATTRIBUTION DE CREDITS

Les banques possèdent une masse de données importantes qui stockent l’historique des

clients ainsi que leurs comportements, donc elles peuvent aisément déterminer les bon clients,

ainsi qu’anticiper les accidents financiers pour les clients fragiles. L’analyse de ces bases de

données permet de cibler des clients afin de leur proposer des services spécifiques [Sch, 04].

1.2.1.3. L A MEDECINE ET LA BIOLOGIE

Les dix dernières années ont connu des avancés remarquables dans le domaine de la

bioinformatique et particulièrement la recherche en ADN et les génomes humain. La

technologie des séquences d’ADN ainsi que leurs publications a rendu possible l’application

de la fouille de données en biologie. De nombreuses avancées en médecines ont eu lieu grâce

à l’analyse des bio-séquences [Sch, 04].

1.2.1.4. L E WORLD W ILDE WEB

La fouille de données sur internet est l’exploration des différentes formes d’accès de

l’usagé sur des serveurs web. Les organisations collectent de larges volumes de données de

leurs activités journalisées, générées automatiquement par les serveurs web et stockées sur des

fichiers log. L’analyse de ces données peut fournir des informations utiles qui serviront à

l’amélioration des performances des sites web [Khi, 06] .


11

1.3. EXTRACTION DE LA CONNAISSANCE A PARTIR DES DONNEES A

REFERENCES SPATIALES

Nous voyons notre monde quotidien changer de plus en plus vite, et l'information qui en

est l'image instantanée, devient de plus en plus difficilement assimilable directement. Sa

représentation classique, est maintenant peu adaptée. Elles nécessitent de connaître quasi

instantanément les informations sur les besoins sanitaires, économiques, écologiques. Les

systèmes d'informations géographiques (SIG) sont une réponse à ces impératifs dans

différents domaines : intégrer de nouvelles sources de nature différentes, les combiner et les

analyser pour présenter l'information de façon efficace et directement utilisable [Agr, 93].

Une masse considérable de données à références spatiales issues des différents SIG rend

nécessaire le développement d’un outil pour l’extraction de connaissance utiles à partir des

bases de données spatiales volumineuses [Kop, 99].

1.3.1. DEFINITION DE LA FOUILLE DE DONNEES SPATIALES

La fouille de données spatiales est définie comme l’extraction de connaissances implicites

de relations spatiales ou d’autres propriétés non explicitement stockées dans les bases de

données spatiales [Han, 97].

La fouille de données spatiales a pour objectif la découverte des connaissances implicite

dans des données spatiales [Ber, 06].

Les algorithmes de fouille de données spatiales (FDS) dépendent largement du traitement

efficace des relations de voisinage puisque chaque objet spatial est influencé par son

voisinage. Par conséquent, l’intégration des notions générales pour des relations de voisinage

ainsi qu'une exécution efficace des algorithmes de la fouille de données permettra une

exécution efficace des algorithmes spatiaux d'exploitation de données au sein d’un système

de gestion spatiale de base de données [Arm, 06] .

1.3.2. LE PROCESSUS DE LA FOUILLE DE DONNEES SPATIALES

Le processus de la fouille de données spatiales est une succession d’étapes fortement

interactives qui nécessitent l’implication de l’utilisateur afin de transformer les données en

connaissances. Sa caractéristique par rapport au processus de la fouille de données classique

est l’utilisation des prédicats d’analyse topologique ou spatiale [Kop, 99].


12

Le processus global qui consiste à interpréter des modèles des données implique

l'application répétée des étapes suivantes :

• L’identification du problème : C’est le facteur clé du succès du processus de

l’extraction de la connaissance (ECD). Par exemple, dans une entreprise de

télécommunication qui cherche à cibler les interlocuteurs fréquents afin de les

proposer des offres particuliers.

• Le fenêtrage : cela consiste à sélectionner les données descriptives et spatiales utiles

au lieu que toutes les données disponibles.

• Le nettoyage des données : Les données réelles sont souvent incomplètes (valeurs

manquantes) ou bruitées.

• La transformation et réduction : Les données doivent encore être transformées afin de

disposer d’une représentation standard et uniforme.

• La fouille de données : Qui consiste à appliquer une méthode intelligente afin de

déduire des hypothèses sur les données.

• L’évaluation des résultats : C’est l’étape qui mesure l’intérêt du modèle extrait.


13

Figure 1.1. Processus d’extraction de connaissance à partir des données

1.3.2.1. L’ IDENTIFICATION DU PROBLEME

La tâche principale de cette étape est de mettre en évidence le projet de l’extraction de la

connaissance, de cerner les besoins, fixer les objectifs, cibler les données et les ressources

disponibles. C’est une étape très sensible et primordiale pour la réussite du processus de

l’extraction de la connaissance.

Données

Sélection

Pré traitement

Transformation

Fouille de données

Evaluation

Données ciblées

Données traitées

Données transformées

Modèle

Connaissance


14

1.3.2.2. L A SELECTION DES DONNEES

Elle consiste à pré sélectionner et collecter les données nécessaires aux traitements. Il

s’agit de recenser aussi les données utiles ainsi que les moyens à mettre en œuvre pour les

récupérer.

Les données sont généralement sélectionnées à partir d’un entrepôt de données « Data

Warehouse », c’est un lieu particulier de stockage de toutes les données de l’entreprise.

1.3.2.3. L E NETTOYAGE DES DONNEES

Parfois la base de données colletée contient des données erronées ou manquantes. Durant

la phase du nettoyage et du pré traitement, les données floues sont éliminées. Les anomalies

au niveau de ces données peuvent poser un problème du moment où l’objectif est de découvrir

des modèles à partir de ces derniers.

Les données manquantes se caractérisent par l’absence de valeur dans certains attributs, à

cause du mauvais fonctionnement de l’équipement, non saisies ou considérées non

importantes au moment de la saisie, d’où la nécessité de les inférer.

Pour remédier aux problèmes des données manquantes, plusieurs solutions existent comme

la suppression du tuple ou compléter manuellement les données ou même utiliser la moyenne

de l’attribut

1.3.2.4. L A TRANSFORMATION ET REDUCTION

Il s’agit de trouver les meilleurs dispositifs pour représenter les données selon l’objectif du

projet de la fouille de données et réduire le nombre de variables.

La réduction des données emploie des techniques de transformation qui son utilisées pour

réduire le nombre de variables dans la base de données. Ces techniques peuvent aussi

transformer la forme des données qui sont dans la plupart des cas inadaptées directement pour

un algorithme de fouille de données.

1.3.2.5. L A FOUILLE DE DONNEES

La fouille de données proprement dite est l’étape primordiale durant le processus de

l’extraction de la connaissance. Il est important à ce niveau de décider l’algorithme de la

fouille de données approprié (réseaux de neurones, règles associatives, arbres d’inductions,

etc.) afin d’accomplir une tâche bien déterminée (classification, segmentation, génération des

règles, etc.)


15

Nous distinguons deux familles de méthodes pour la fouille de données :

• Supervisée : le but est de trouver une description générale et caractéristique décrivant

une classe. Il faut extraire les points en communs entre les exemples d’apprentissage

pour en déduire comme étant la description de la classe. Pour cela, les exemples

d’apprentissages doivent être déjà groupés selon des classes prédéfinies. Comme

principales approches, nous distinguons les algorithmes génétiques, le système

CHARADE [Gan, 87], les réseaux de neurones, les graphes d’induction : CART [Bre,

94], C4.5 [Qui, 83], SIPINA [Zig, 92]…, etc.

• Non supervisée : le système d’apprentissage considère un ensemble d’exemples

d’apprentissages sans avoir une connaissance préalable s’ils appartiennent ou non à la

même classe. L’objectif est de regrouper les objets de la meilleure façon possible

[Rab, 96]

1.3.2.6. L’ EVALUATION DES RESULTATS

Cette étape consiste à mesurer l’intérêt du modèle extrait ainsi que visualiser les résultats

selon les différentes techniques de visualisation. Cette dernière dépond de la tâche de la

fouille de données.

Après l’affichage et la validation des résultats par un expert, nous parlons plutôt de

connaissances.

1.4. L ES OUTILS DE LA FOUILLE DE DONNEES SPATIALES

L’étape de la fouille de données du processus de l’extraction de la connaissance implique

l’application ou la répétition interactive des méthodes particulières de la fouille de données.

Dans ce qui suit, nous présentons un aperçu des objectifs principaux de la fouille de données

et la description des méthodes utilisées pour atteindre ces objectifs.

Les objectifs de fouille de données sont définis selon l’utilisation du système. Nous

distinguons deux types d’objectifs : la vérification et la découverte [Fay, 96]. A l’aide de la

vérification le système est limité à la vérification des hypothèses de l’utilisateur. Par contre,

avec la découverte, le système cherche de nouveaux modèles de façon autonome.

La plupart des méthodes de la fouille de données sont basées sur les techniques

d’apprentissage et les statistiques : classification, régression, clustering, …etc. dans ce qui


16

suit, nous discutons les différentes méthodes en se focalisant sur celles appliquées à la fouille

de données spatiales.

1.4.1. L ES METHODES A BASE DE CLUSTERING DES DONNEES SPATIALE

Le clustering consiste à rassembler les éléments du même ensemble en plusieurs clusters

disjoints. Les éléments semblables sont regroupés dans le même cluster, et ceux appartenant à

deux clusters différents sont différents [Gue, 94]. Le clustering était largement étudié dans le

domaine de l’extraction de la connaissance [Fay, 96].

Le clustering joue un rôle important dans la fouille de données spatiales. Néanmoins, les

données spatiales peuvent imposer des limitations ou des complications non réalisées dans

d’autres domaines. Les algorithmes du clustering spatial regroupent les objets spatiaux selon

leurs localités [Mic, 06]. Pour des objets de types points, la métrique Euclidienne ou la

distance de Manhattan sont suffisantes.

1.4.1.1. L A METHODE DES K- MOYENNES

Pour résoudre certains problèmes complexes, il peut s'avérer utile de commencer par

diviser la population en groupes (segmenter) en espérant que le problème soit alors plus

simple à résoudre sur les groupes ainsi constitués. La segmentation est une tâche

d'apprentissage non supervisée car on ne dispose d’aucune information préalable à part la

description des exemples. Une fois les groupes sont constitués, une expertise est nécessaire

afin de dégagé la signification et l’intérêt de la segmentation.

La méthode des K-moyens est basée sur la notion de similarité entre enregistrements

constitués de n points : xxxx1111, , , , xxxx2222,…,,…,,…,,…,xxxxnnnn. Nous allons, pour introduire l'algorithme, considérer un

espace géométrique RRRRdddd muni d'une distance (Euclidienne par exemple). L'algorithme suppose

choisi a priori un nombre k de groupes à constituer. On choisit alors k enregistrements, soit k

points de l'espace appelés les centres. On constitue alors les k groupes initiaux en affectant

chacun des enregistrements dans le groupe correspondant au centre le plus proche. Pour

chaque groupe ainsi constitué, on calcule son nouveau centre en effectuant la moyenne des

points du groupe et on réitère le procédé. Le critère d'arrêt est : d'une itération à la suivante,

aucun point n'a changé de groupe, c à d que les groupes sont stables [Fah, 06].


17

Figure 1.2. (a) configuration initiale, (b) les centres initiaux et affectation selon la distance

minimale (c) recalcule des centre (d) nouvelle affectation des points

L’algorithme se déroule sur des enregistrements de dimension N (n-uplets), la mesure de

distance est la formule euclidienne , ∑ , le calcule de moyenne pour

les nouveaux centres.

Figure 1.3. L’Algorithme des K-moyennes

1.4.1.2 LA METHODE PAM (PARTITIONING AROUND MEDOÏDE S)

Similaire à la méthode des K-moyennes, PAM (partitioning around médoïdes) ou

l’algorithme des K-médoïdes crée itérativement des clusters au tour des médoïdes prédéfinies.

Algorithme des K-moyennes

1. Choisir k centres initiaux 1, …... k

2. Affecter chaque au cluster correspondant

dont , est minimale avec j : 1…k

3. Si aucun élément ne change de groupe alors

arrêté le déroulement.

4. Calculer les nouveaux centres : chaque

(avec j : 1…k) est la moyenne des éléments du

groupe

5. Aller à 2


18

Au lieu de calculer la nouvelle moyenne dans un cluster, PAM améliore le groupement en

remplaçant des médoïdes existantes par d’autres points en se basant sur une fonction de coût

Le coût total de la permutation d’une médoïde par un non-médoïde est donné par :

!

" !#$%&', ( $%&', $)

"

Où *+,- représente le gain en distance globale que l’on va avoir en remplaçant h par j, Si

*+,- est négatif alors on va perdre en distance. Ça veut dire que les clusters seront plus

compacts [Dun, 03].

La médoïde est l’objet représentatif dans le cluster (au lieu de la moyenne).

L’algorithme commence par la sélection des k objets médoïdes parmi les n points de

données puis associer pour chaque point à une médoïde de sorte que la similarité soit

maximale. La mesure de similarité est définie par la distance d’Euclide, Manhattan ou

Minkowski. Sélectionner aléatoirement un autre point non-médoïde O’ est calculer le coût S

de remplacer un ancien médoïde par O’. Si S < 0 alors remplacer l’ancienne médoïde par O’,

et répéter itérativement ce procédé jusqu’à ce qui n’y a aucun changement des médoïdes.

Figure 1.4 L’algorithme PAM

1. Choisir arbitrairement k médoïde

2. Affecter chaque au médoïde le plus proche k

dont la distance est minimale

3. Choisir aléatoirement un non- médoïde Or

4. Pour chaque médoïde Oj

Calculer le coût TC du remplacement de Oj par Or

Si TC < 0 alors

Remplacer Oj par Or

Calculer les nouveaux clusters

Finsi

FinPour

Jusqu’à ce ce qu’il n’y ait plus de changement

5. Aller à 2


19

1.4.1.3 L A METHODE CLARA (CLUSTERING LAR GE APPLICATIONS )

Une multitude d’algorithmes de clustering sont proposés dans la littérature CLARA [Kau,

90], CLARANS [Ngr, 94]. Comme pour PAM, la méthode CLARA est également basée sur

la recherche de k objets représentatifs. Mais l'algorithme CLARA est construit spécialement

pour l'analyse des grands jeux de données. Donc nous choisissons un sous ensemble de

données.

Afin de faciliter la compréhension de la méthode, les symboles utilisés dans la formule ci-

dessous ainsi que leurs définitions sont donnés dans la Table 1.1

Table 1.1 Résumé des symboles et leurs définitions

La méthode CLARA fonctionne en deux étapes. D'abord, un échantillon est tiré du jeu

d'objets (observations) et partagé en k classes en utilisant la méthode PAM. Ensuite, chaque

objet n'appartenant pas à l'échantillon est envoyé au plus proche des k objets représentatifs.

Ce processus doit être réitérer sur 5 échantillons de taille 40+2k chacun. L’ensemble des

méthoïdes retenues sont celles qui présentent une meilleure qualité.

La qualité de cette classification est définie comme la distance moyenne entre chaque objet

et son objet représentatif. Les échantillons sont tirés et classés chacun à leurs tour, et

l'échantillon sélectionné est celui qui a obtenu la distance moyenne la plus petite selon la

fonction coût (D, M) [Chi, 00].

./û1 2, 3 ∑ 4,55,6,789,1é ;,, 9<= 2, ;, >,"?>

Symbole Définition

D L’ensemble de données

n Nombre d’objets dans D

Oi Objet i dans D

K Nombre de cluster

S Echantillon de D

s La taille de S


20

La dissimilitude 4,55,6,789,1é ;,, 9<= 2, ;,, est la distance entre deux objets Oi et Oj et

9<= 2, ;, retourne la médoïde relative à l’objet Oi.

Figure 1.5 L’Algorithme CLARA

CLARA répète le processus d’échantillonnage et de clustering un nombre prédéfinie de

fois et selecte comme le résultat final l’ensemble des médoïdes dont le coût et minimal.

1.4.1.4 La méthode CLARANS

CLARANS (Clustering Large Applications based on RANdomized Search) considère le

problème de recherche des k médoïde comme étant une recherche dans un graphe [Ngr, 94],

Sur ce graphe, un nœud est représenté par un ensemble de k objets@A, … . ACD, en

indiquant que A, … . AC sont les médoïdes sélectionnées. Deux nœuds sont voisins (c à d

connecté par un arc) s’ils diffèrent uniquement d’un seul élément. Du moment où chaque

nœud représente une collection de k médoïdes, chaque nœud correspond à une solution de

clustering possible.

L’algorithme commence d’un nœud arbitraire dans le graphe et sélectionne aléatoirement

un nœud voisin. Si le coût sur le nœud voisin sélectionné est inferieur au coût du nœud en

court, CLARANS procède sur le nœud voisin. Le processus se déroule de la même manière

sur tout le graphe jusqu’à ce qu’un nœud meilleur soit sélectionné ou le nombre prédéfini

maximal de voisins à vérifier est atteint. La fonction du coût est la même que pour la méthode

CLARA.

Initialisation : Mincost = ∞

Répéter q fois :

1. Générer un sous ensemble S à partir de

l’ensemble de données D.

2. Générer un ensemble de médoïde M à partir de

S en appliquant l’algorithme PAM.

3. Si coût (D, M) < Mincost alors

Mincost = coût (D, M)

Fin si

Fin répéter


21

Figure 1.6. L’Algorithme CLARANS

1.4.2 LA METHODE STING

L’approche STING (STatistical Information Grid) pour la fouille de données spatiales a

été introduite dans [Wan, 97]. STING est une méthode hiérarchique qui divise la zone

spatiale en cellules à plusieurs niveaux avec des informations statistiques sur les objets dans

chaque cellule.

Initialisation :

mincost = ∞

Max_voisin : Nombre maximum de voisins d’un nœud

C dans le graphe

1. Sélectionner aléatoirement un nœud C comme le

nœud en court dans le graphe.

2. initialiser J à 1

3. répéter :

Sélectionner aléatoirement un nœud N voisin de C

Si COST (N, D) < COST (C, D) alors

Remplacer C par N

Réinitialiser J à 1

Sinon J++

Fin si

Jusqu’à J > Max_voisin

Si COST (C, D)< Mincost

Mincost = COST (D, M)

Nœud_final = C

Fin si


22

Figure 1.7. Exemple d’une hiérarchie de gilles STING à trois niveaux

Contrairement à la technique de généralisation, STING ne nécessite pas une hiérarchie

prédéfinie de concepts. L’étape initiale avant l’application de l’algorithme STING est de créer

une structure hiérarchique de cellules, le premier niveau est une cellule singulière contenant

toute la région spatiale en question. A partir de là, la région est divisée récursivement jusqu’à

un niveau d’hiérarchie donné. La taille des cellules du plus bas niveau dépendent de la densité

des objets spatiaux. [Wan, 97] suggère que le nombre moyen d’objets dans chaque cellule

soit dans un intervalle allons de dizaines à des milliers. Une extension de SQL est proposée

dans [Wan, 97] pour la prise en charge des requêtes STING :

SELECT REGION

FROM house-map

WHERE DENSITY IN (100, ∞)

AND price RANGE (400000, ∞)

WITH PERCENT (0.7, 1)

AND AREA (100, ∞)

Cette requête sélectionne des régions contenant au moins 100 maisons par unité de zone,

avec au moins 70% des maisons qui coûtent 400 000 $ et un nombre minimum de zones égale

à 100.

Niveau 1

Niveau 2

Niveau 3


23

L’algorithme STING effectue une recherche selon l’hiérarchie des cellules pour trouver les

régions qui satisfont une requête donnée. Les régions des cellules satisfaisant les critères de

recherches peuvent être fusionnées successivement jusqu’à ce qu’il n’y a aucune autre cellule

à ajouter.

Figure 1.8. L’Algorithme de STING

1.4.3. L ES REGLES D’ ASSOCIATIONS

Une règle d’association est une forme générale de règle de dépendance et définie sur les

bases de données transactionnelles [Agr, 93]. Elle est de la forme W→B, c’est une implication

de la forme «Si W apparait dans la transaction alors, alors B aussi », avec W et B est un

ensemble d’attributs. Formellement la force d’une règle W→B dans un ensemble D a une

mesure de confiance C si le pourcentage des transactions dans D contenant la prémisse W

contient aussi la conclusion B. par exemple, dans une base de données transactionnelle

d’achats on peut trouver une règle de la forme ‘beurre → pain (90 %), cela veut dire que

Entrée :

T arborescence d’hiérarchie de gilles

Q requête

Sortie :

R Régions contenant les cellules satisfaisant la Q

i=1 le niveau hiérarchique actuel

c cellule courante

Répéter

Pour c Є Ti sachant que c est prometteuse faire

Selon la requête Q, marqué c comme prometteuse

ou non.

Fin pour

i ++

jusqu’à tous les niveau de l’arborescence sont

parcourus.

Retourner R


24

90 % des clients qui achètent le beurre achètent aussi le pain. D’ailleurs, pour s’assurer

qu’une règle est suffisamment intéressante, le concept du support est introduit, qui est défini

comme étant le rapport entre le nombre d’occurrence de W et de B ensemble dans les

transactions et le nombre total des transactions dans la base de données [Kop, 99].

La fouille de données spatiales à base du concept de généralisation, découvre les relations

spatiales et non spatiales au niveau d’un concept plus général où les objets spatiaux sont

comme étant des régions fusionnées [Mic, 06]. Cependant, cette méthode ne permet pas de

découvrir les règles reflétant la structure des relations spatiales / spatiales ou spatiales / non

spatiales qui contiennent des prédicats du genre : Inside, Covers, Touch, Equal, Contain,

Within_Distance, Nearest_Neighbor, Neighbor [Adb, 07].

Une règle d’association spatiale est de la forme : A→B, dont A et B sont des ensembles de

prédicats [Mic, 06]. .. De telles relations topologiques peuvent être vues comme des

associations spatiales, avec 100 % de confiance nous citons à titre d’exemple la relation

Contain :

EF&G$F H, I J EF&G$F I, K L EF&G$F H, K

Par contre, de telles règles dépendent habituellement du domaine d’étude, par exemple on

peut trouver que 92% des villes de British Columbia (BC) sont adjacentes à des sources d’eau

et prêts des états unis d’Amérique (US).

$%H, $& J $F I, M J H, NG&OP L Q$&($F_$%&GFO H, S%

Bien que ces règles sont à 100 % vrais, elles sont porteuses de certaines connaissances non

triviales, ceci est intéressant pour découvrir des associations spatiales dans les bases de

données à références spatiales.

Beaucoup de méthodes sont proposées dans la littérature. Pour d’avantage d’informations, le

lecteur peut consulter [Kop, 99].

1.4.4. H IERARCHIES ET GENERALISATION

Une base de données contient souvent des informations détaillées. Il est désirable de les

résumer et de les présenter à un niveau de concept plus haut, ce processus est appelé

« Généralisation ». Elle consiste à remplacer les valeurs détaillées de bas niveaux par d’autres


25

moins détaillées. Cette méthode nécessite au préalable une hiérarchie de concepts donnée

explicitement par l’expert ou automatiquement par analyse de données [Zei, 06b].

Figure 1.9. Hiérarchie et généralisation de concepts de partitionnement des

types de productions d’agriculture

Une hiérarchie de concept est une structure arborescente qui montre un ensemble des

relations entre les objets. Appliquée aux données spatiales, les niveaux hiérarchiques peuvent

illustrer des relations spatiales.

Un exemple de généralisation de concepts est présenté dans [Kop, 99], dans ce dernier, un

intervalle de température de [20, 27] est généralisé à modérée, et la température dans [27,∞]

est généralisée à chaud. Delà, les zones seront groupées en les fusionnant selon l’hiérarchie

des concepts.

Figure 1.10. La méthode de généralisation spatiale

Nord-est,

modérée.

Est-central, chaud

ou modérée.

Agriculture

Non Nourriture Nourriture

Fruit Grain Boisson Tissu

Maïs Riz Blé Pommes Coton Lin textile Café Thé


26

1.4.5. CLASSIFICATION SUPERVISEE PAR ARBRES DE DECISIONS SPATIALES

Nous nous situons dans le cadre de l’apprentissage supervisé qui est une technique

d'apprentissage automatique où l'on cherche à produire automatiquement des règles à partir


28

BIBLIOGRAPHIE

[Adb, 07] Abdiche, F., Hamdadou, D., Proposition d'un Modèle pour l’Exploitation des Bases de Données à Références Spatiales Distantes. Les troisièmes journées internationales sur l’information graphique, Constantine , PP 229-234, 2007.

[Agr, 93] Agrawal, R., Imielinski, T., Swami, A., Mining Association Rules Between Sets

of Items in Large Data bases, In Proc. 1993 ACM-SIGMOD Int. Conf. Management of Data, Washington, DC, PP 207-216, 1993.

[Arm, 06] Armitage T., Getting started with oracle spatial, Oracle Corporation, United

States, 2006. [Atm, 07a] Atmani, B., Beldjilali, B., Knowledge Discovery in Database: Induction Graph

and Cellular Automaton, Computing and Informatics Journal, V.26, N°2, PP 171-197, 2007.

[Atm, 07b] Atmani, B., Beldjilali, B., Neuro-IG: A Hybrid System for Selection and

Elimination of Predictor Variables and non Relevant Individuals, Informatica, Journal International, Vol. 18, N°2, PP 163-186, 2007.

[Ber, 06] Berry. M.W., Browne. B.: Lecture notes in Data Mining, World Scientific

Publishing Co. Pte. Ltd. United states, 2006. [Bre, 94] Breiman, L., Bagging Predictors. Technical Report No, 421, Department of

statistics, University of California, 1994. [Chi, 00] Chih-Ping, W., Yen-Hsien, L., Che-Ming, H., Empirical Comparison of Fast

Clustering Algorithms for Large Data Sets, Proceedings of the 33rd Hawaii International Conference on System Sciences, 2000.

[Dun, 03] Dunham, M., Data Mining: Introductory and advanced Topics, Prentice Hall,

Upper Saddle River, NJ, 2003. [Est, 97] Ester, M., Kriegel, H. P., Sander, J., Spatial data mining: A database approach,

in Proceedings of the Fifth SSD Symposium, 1997. [Fay, 96] Fayyad, U., Piatetsky-Shapiro, G., and Smyth, P., From data mining to

knowledge discovery: An overview, in Advances in Knowledge Discovery and Data Mining, AAAI Press/MIT Press, Menlo Park, CA,1996.

[Fah, 06] Fahim, A.M., Salem, A.M., Torkey, F.A., Ramadan, M.A, An efficient

enhanced K-means clustering algorithm, Journal of Zhejiang University, 2006. [Gar, 06] Gardarin, G., Le Data Mining : Méthodologie, support de cours, laboratoire

PRISM, Université de Versailles Saint-Quentin-en-Yvelines, 2006. [Gar, 99] Gardarin, G., Internet / Intranet et bases de données: Data web, Data Media,

Data warehouse, Data Mining, Edition Eyrolles, 1999.


29

[Gue, 94] Gueting R. H.: An Introduction to Spatial Database Systems, Special Issue on Spatial Database Systems of the VLDB Journal, Vol. 3, No. 4, October 1994.

[Gan, 87] Ganascia, J.G., Deux techniques d’apprentissages symboliques appliquées à la

construction de bases de connaissances. Thèse d’Etat. Université de paris-Sud, 1987.

[Han, 97] Han J., Koperski K., and Stefanovic N.: GeoMiner : A System Prototype for

Spatial Data Mining, Proc. 1997 ACM-SIGMOD Int'l Conf. on Management of Data (SIGMOD'97), Tucson, Arizona (1997) System prototype demonstration.

[Kau, 90] Kaufman, L., Rousseeuw, P. J., Finding Groups in Data: An Introduction to

Cluster Analysis, John Wiley & Sons, Inc., New York, NY, 1990. [Khi, 06] Khiat, S., Web Mining, Mini projet de post graduation : systèmes, réseaux et

bases de données Département d’informatique Université USTO, 2006. [Khi, 07] Khiat, S., Data Mining Industriel : Application à la maintenance AVAL /

SONATRACH, Mémoire en vue d’obtention du diplôme de magister, Université des sciences et de la technologies Oran, 2007.

[Kod, 94] Kodratoff Y., “Induction and the Organization of Knowledge”, Machine

Learning: A Multistrategy Approach, volume 4, 85-106. Morgan-Kaufmann, San Francisco CA, 1994

[Kop, 99] Kopersky, K., A progressive refinement approach to spatial data mining, a

thesis submitted in spatial fulfillment of the requirement for the degree of Doctor of Philosophy, Simon Fraser University, 1999.

[Lef, 01] Lefébure, R., Gilles Venturi, G., Data Mining : Gestion de la relation client,

personnalisations de site web ,Eyrolles, mars 2001. [Mar, 06] Margareth M., Rodrigo F., Ramalho Filho, A., Heterogeneous Geographic

Objects Interoperability. 8th brazilian symposium on GeoInformatics, 2006. [Mic, 06] Michel, W.B., Murray B., Lecture Notes in data Mining, World Scientific

Publishing Co. Pte. Ltd, 2006. [Ngr, 94] Ng, R., Han, J., Efficient and Effective Clustering Methods for Spatial Data

Mining, Proceedings of International Conference on Very Large Data Bases, Santiago, Chile, pp.144−155, 1994.

[Qui, 83] Quinlan, J.R., Learning efficient classification procedures and their

applications to chess endgames. In Machine Learning: An artificial Intelligence approach, Volume 1. Morgan Kaufmann, 1983.

[Rak, 97] Rakotomalala .R., Graphes D’induction, Thèse pour l’obtention d’un diplôme

de doctorat, université claude bernard, Lyon 1, 1997.


30

[Rab, 96] Rabaseda, L.S., Contribution à l’extraction autolatique de connaissance :

application à l’analyse cllinique de lamarche, Mémoire présentée pour l’obtention du diplôme de doctorat, Université Claude Bernard-Lyon 1, 1996.

[Sch, 04] Scharff, C., Introduction à la fouille de données, Cours de fouilles de données

Institut Francophone d'Informatique (IFI), Hanoi, Vietnam, 2004. [Wan, 97] Wang, W., Yang, J., Muntz, R., STING: A statistical information grid approach

to spatial data mining, in Proceedings of the International VLDB Conference, 1997.

[Zig, 92] Zigher, D.A., Auray, J.P., Duru, G., SIPINA : Méthode et logiciel, Lacassagne,

1992. [Zei, 06a] Zeitouni, K., Analyse et extraction de connaissances des bases de données

spatiotemporelles. Habilitation à Diriger des Recherches Spécialité Informatique, Université de Versailles Saint-Quentin-en-Yvelines, 2006.

[Zei, 06b] Zeitouni, K., Chelghoum, N., Application du Data Mining Spatial pour la

prédiction du risque d’accidents de la circulation en milieu urbain : Extension du projet TOPASE par la prise en compte des interactions entre le réseau viaire et l’environnement urbain, Université de Versailles Saint-Quentin-en-Yvelines, 2006.

Chapitre 2

Apprentissage Artificiel par Graphe

d'Induction

Plan

2.1. Introduction

2.2. Notations

2.3. Exemple illustratif

2.4. Définitions et Principe

2.4.1. Critère de segmentation

2.5. Les méthodes à base de graphe d’induction

2.5.1. Les méthodes ID3 et C4.5

2.5.1.1. La méthode ID3 (Induction Decision Tree)

2.5.1.2. La méthode C4.5

2.5.2. La méthode CART (Classification and regression Trees)

2.5.3. La méthode SIPINA (Système Interactif pour les processus

d'Interrogation Non Arborescents)

2.5.3.1. passage de la partition À

2.5.3.2. Algorithme SIPINA

2.6. Conclusion

Apprentissage Artificiel par Graphe d'Induction Chapitre 2

32

2.1. I NTRODUCTION

L’apprentissage automatique est certainement, en intelligence artificielle, le champ

d’application le plus fertile de ces dernières années. On sait de manière générale qu’une des

prérogatives de l’intelligence artificielle est d’apprendre à partir de l’expérience passée de

sorte que son comportement devient adaptable [Atm, 07].

Rakotomalala [Rak, 97] confirme que Simon interprète l’apprentissage automatique comme

un ensemble de changements dans un système qui permet à ce dernier d’accomplir mieux la

même tâche, ou, une tâche similaire dans la même population dans l’avenir. Dietterich [Die,

86] propose une approche plus fonctionnelle à l’apprentissage automatique qui permet de

l’évaluer, en le reliant à la notion de connaissance. Dietterich distingue ainsi trois niveaux de

description d’un système d’apprentissage :

• Un système qui ne reçoit aucune entrée et qui accomplit le mieux une tâche,

• Un système qui reçoit des connaissances en entrée, mais n’accomplit aucune induction,

• Et enfin, un système qui reçoit des entrées et en extrait des connaissances qui ne sont

connues ni implicitement ni explicitement, c’est l’apprentissage inductif.

C’est cette dernière qui nous intéresse dans cette thèse. Plus particulièrement

l’apprentissage qui vise à produire des règles générales à partir d’une série d’observations :

l’apprentissage supervisé.

Parmi les méthodes d’apprentissage supervisé nous citons les graphes d’induction [Rak,

05]. Les statisticiens sont les premiers qui ont construit des arbres de régressions [Mor, 63]

(où la variable à prédire est continue), pour donner ensuite lieu à toute la famille des

classifieurs AID [Kas, 80], CART de [Bre, 84] et [Hun, 66] avec la méthode ACLS. Les

méthodes de référence suivant cette voie sont : ID3 [Qui, 79] et C4.5 [Qui, 93].

Dans le domaine de la fouille de données, certains algorithmes produisent des graphes

d’induction, utilisés pour répartir une population d'individus en groupes homogènes, selon un

ensemble de variables discriminantes (l'âge, la catégorie socio-professionnelle, ...) en fonction

d'un objectif fixé et connu (chiffres d'affaires, réponse à un mailing, ...).

L’objectif derrière la construction des graphes d’induction est d’effectuer un classement.

On parle de méthode d’induction descendante et on trouve dans la littérature anglaise le terme

TDIDT (Top Down Induction of Decision Trees) [Rab, 96].

Le principe général des graphes d’induction s’exprime comme suit ; chercher à discriminer

les exemples en fonction d’attributs considérés. On cherche sur l’échantillon d’apprentissage

l’attribut qui discrimine le mieux les exemples, puis on dégage des sous ensembles


33

d’échantillons selon le nombre de valeurs que possède l’attribut. Le processus est itératif sur

chaque sous ensemble.

Jusqu’ici nous utilisons indifféremment les termes « Graphes » et « Arbres » d’induction.

Du point de vue de la théorie des graphes, un arbre est un graphe orienté sans cycle avec une

racine où à chaque nœud non terminal est assigné une variable X, à partir de laquelle est

induit une segmentation par des arcs [Rak, 97].

2.2. NOTATIONS

Soit Ω=ω,ω, … ,ω une population ou l’échantillon d’apprentissage, et soit A

l’algorithme d’apprentissage qui produit un modèle M. Dans cet apprentissage, connu

également sous le terme de classification, l’algorithme A utilise un vecteur d’attributs =, , … , . Dans l’apprentissage supervisé on vise toujours à partir d’un vecteur

d’attributs X que l’on nomme attributs prédictifs ou variable exogènes, de construire une

fonction . Les variables exogènes sont notées pour chaque ω ∈ Ω par :

ω=ω, ω, … , ω

Chaque variable exogène possède pour tout individu ω, des modalités ω avec

= 1, 2,…, p.

Y la variable à prédire, ou encore la variable endogène. Chaque individu peut être associé

à une classe correspondante notée ω . La variable Y prend ses valeurs dans l’ensemble des

étiquettes, appelé également ensemble des classes et noté C= !, !, … , !". Y : Ω $ %= !, !, … , !" $ ω !&

Nous adoptons la notation suivante pour la suite du chapitre. Soient : ' Le sommet de l’arbre ou l’échantillon considéré ( Le nombre d’exemples présents sur le sommet, %)*+ ' ( , Le nombre de classes !, !&, !" Les , classes, d’effectif (. sur le sommet '

Un attribut quelconque ayant - valeurs notées , , . - Le nombre de modalité d’une variable

' Le sous échantillon compose des exemples ayant la valeur

'= ∈ '; ω


34

(. Le nombre d’exemples dans le sous échantillon ' %)*+ ' (. ( Le nombre d’exemple dans l’échantillon ' appartenant à la classe ! d’où

(. = ∑ (-1

2' L’incertitude de sommet ' 23' L’incertitude de sommet ' après segmentation selon les valeurs de .

2.3. EXEMPLE ILLUSTRATIF

Un arbre de décision est un outil d'aide à la décision et à l'exploration de données. Il

permet de modéliser simplement, graphiquement et rapidement un phénomène mesuré plus ou

moins complexe. Sa lisibilité, sa rapidité d'exécution et le peu d'hypothèses nécessaires a

priori expliquent sa popularité actuelle.

Pour mieux illustrer le principe des graphes d’inductions, nous allons reprendre un

exemple extrait de [Qui, 93]. Il s’agit de prédire le comportement des sportifs (Jouer ;

variable à prédire) en fonction de données météo (Ensoleillement, Température, Humidité,

Vent ; variables prédictives).

Numéro Perspective Température (°F) Humidité (%) Venteux ? Jouer

1 soleil 75 70 Oui Oui

2 soleil 80 90 Oui Non

3 soleil 85 85 Non Non

4 soleil 72 95 Non Non

5 soleil 69 70 Non Oui

6 couvert 72 90 Oui Oui

7 couvert 83 78 Non Oui

8 couvert 64 65 Oui Oui

9 couvert 81 75 Non Oui

10 pluie 71 80 Oui Non

11 pluie 65 70 Oui Non

12 pluie 75 80 Non Oui



Table 2.1. Un échantillon d’apprentissage


35

La variable à prédire jouer est le comportement du joueur, prenant deux modalité oui,

non. Voici quelques notations pour les symboles utilisés :

- n = !)*+ Ω, avec Ω l’échantillon d’apprentissage à partir duquel on va construire

l’arbre.

- p est le nombre d’attributs prédictifs

Table 2.2. Les attributs prédictifs, valeurs et significations

Chaque individu ω ∈ Ω est donc représenté par une ligne de la Table 2.1. avec le

composants suivant 4ω5 … … 5ω65ω7. L’objectif de la construction de l’arbre est de

poser successivement différentes questions de manière à produire des groupes homogènes

selon la variable à prédire. Voici l’effectif du sommet initial :

Effectif

Jouer = oui Card(ω ∈ Ω / Jouer(ω) = oui)

Jouer = non Card(ω ∈ Ω / Jouer(ω) = non)

Si on considère l’exemple d’apprentissage dans Table 2.1, la population Ω est l’ensemble

des sportifs et Y la réaction du joueur : Jouer noté ! et pas Jouer noté ! alors ω sera le

résultat de la décision du joueur ω .

Variable Signification Valeurs

- 3 Perspective Soleil ; Couvert ; Pluie

- 3 Température (°F) <64° Fraîche ; 9 64° et <75° Tiède ; 9 75° Chaud

< -< 2 Humidité (%) <77.5% Normal; 9 77.5% Élevée

= -= 2 Venteux ? Oui ; Non


36

Figure 2.1. Arbre de décision

Sur chaque sommet de l’arbre est décrite la distribution de la variable à prédire. Dans le

cas du premier sommet qui est la racine de l’arbre, nous constatons qu’il y a 14 observations

dans notre fichier, 9 d’entre eux ont décidé de jouer (Jouer = oui), 5 ont décidé le contraire

(Jouer = non).

Ce premier sommet est segmenté à l’aide de la variable Ensoleillement, 3 sous-groupes ont

été produits. Le premier groupe à gauche (Ensoleillement = Soleil) comporte 5 observations,

2 d’entre elles correspondent à Jouer = oui, 3 à Jouer = non.

Ω>?@>ABC>1@D.>. = 1, 2, 3, 4, 5, avec une distribution des classes EFGH

Ω ω ω <ω =ω ω

ω ω= Soleil ω 9 75% ω I77.5 <ω = Oui ω = Oui

ω ω= Soleil ω 9 75% ω 977.5 <ω = Oui ω = Non

ω< ω<= Soleil ω< 9 75% ω< 977.5 <ω< = Non ω< = Non

ω= ω== Soleil ω= ; 9 64° et <75° ω= 977.5 <ω= = Non ω= = Non

ωJ ωJ= Soleil ωJ ; 9 64° et <75° ωJ< 77.5 <ωJ = Non ωJ = Oui

…. …. …. …. ….. …..


37

Chaque sommet est ainsi itérativement traité jusqu’à ce que l’on obtienne des groupes

suffisamment homogènes. Ces derniers correspondent aux feuilles de l’arbre et sont appelés

les sommets qui ne peuvent plus être segmentés.

Ω>?@>ABC>1ADKC>?B = 6, 7, 8, 9, avec la distribution de classes ELMH on peut dire que

cette partition doit s’arrêter à ce niveau puisque on a que des représentations pour la classe

(Jouer = oui).

Ω>?@>ABC>1ADKC>?B = 10, 11, 12, 13, 14, avec EGFH

Nous constatons que le second groupe est pure et ne contient que les individus portant

l’étiquette oui sur la variables Jouer, par opposition au premier et au troisième groupe sur

lesquels nous posons à nouveau des questions mais à l’aide des variable restantes humidité,

venteux afin d’améliorer la discrimination. On décide dans un premier temps de fixer le

seuil à 77.5% pour la variable humidité.

Ω>?@>ABC>1@D.>.,NK"OBéQRR.J% = 4, 5 avec la distribution de classes EFMH

Ω>?@>ABC>1@D.>.,NK"OBéTRR.J% = 1, 2, 3 avec la distribution de classes EMGH

De la même manière, nous partitionnons l’ensemble Ω>?@>ABC>1.K> mais en utilisant

l’attribut venteux :

Ω>?@>ABC>1.K>,U>B>K31DK = 10, 11 avec la distribution de classes EMFH

Ω>?@>ABC>1.K>,U>B>K31D = 12, 13, 14 avec la distribution de classes EGMH

Finalement, les feuilles de l’arbre de décision sont isolées en 5 groupes. La lecture d’un arbre

de décision est très intuitive, c’est ce qui fait son succès. L’arbre peut être traduit en base de

règles sans pertes d’informations. Si l’on considère la feuille la plus à gauche, nous pouvons


38

aisément lire la règle d’affectation suivante : « Si ensoleillement = soleil et humidité < 77.5%

alors jouer = oui »

2.4. DEFINITIONS ET PRINCIPE

Un graphe de décision est un graphe orienté sans cycle permettant de classifier une

variable à prédire contenant k classes. On a les propriétés suivantes [Rak, 97]:

• Il possède des feuilles terminales, chacune correspond à une classe.

• Un nœud non terminal s’appelle nœud de branchement, il possède un label qui

correspond à la variable de segmentation et possède l arcs correspondants au nombre

de modalité de cette variable.

• Le premier nœud s’appelle la racine, il ne possède pas de père.

L’apprentissage permet de mettre à jour un modèle de prédiction M permettant pour un

individu d’une population Ω dont on ne connais pas au préalable la classe à laquelle il doit

appartenir mais tout en connaissant les valeurs des variables exogènes ce qui permettra de

prédire la classe grâce au modèle M.

La détermination d’une fonction de classement à partir d’un graphe d’induction repose sur

trois éléments [Rab, 96] :

• Un ensemble d’attributs et d’exemples. Dans un premier temps, nous supposons que

les attributs sont tous de natures qualitatives.

• Une stratégie de partition qui dépend de :

• Un critère de sélection des attributs.

• Un critère de limitation de la taille du graphe.

• Une affectation à chaque feuille d’une classe.

Le critère de sélection d’attribut repose sur le choix d’une variable qui permet de réduire

l’incertitude dans laquelle on se trouve lorsque l’on veut classer des exemples.

2.4.1. CRITERE DE SEGMENTATION [RAK , 97]

Un graphe d’induction a pour objectif la prédiction de la classe à laquelle un individu ω sera affecté avec le plus de certitude possible. Donc il repose sur le choix du meilleur attribut

pour la segmentation des sommets.


39

Pour choisir la variable de segmentation, l’algorithme teste toutes les variables potentielles

et choisit celles qui maximisent un critère donné. Il faut que le critère utilisé caractérise la

pureté lors du passage du sommet à segmenter vers les feuilles produites par la segmentation.

Et soit ' = V, V, … , V& une partition de k éléments ou sommet engendrés par

l’ensemble des attributs X sur l’échantillon d’apprentissage Ω et I(S) la fonction

d’incertitude relative à cette partition définie par la fonction :

I : P Ω, $ 2WX

' $ 2' Avec P(Ω, X) ensemble des partitions et I(S) l’incertitude relative à chaque partition.

• Selon la loi de Shannon :

2'=Y ∑ (Z.[&1 log (Z.[

23'=∑ [._[._1 Y ∑ [a_[._&1 log [a_[._b • Selon l’entropie quadratique :

2' = ∑ [_[&1 c1 Y d[._[ ef

23' = ∑ [._[._1 g∑ [a_[._&1 h1 Y c[a_[._fij

Avec 23' est la mesure d’incertitude du sommet S après la segmentation selon le critère X. à

toute partitions S de Ω, on peut associer Table 2.3. de m lignes et de - colonnes.

Table 2.3. Tableau de contingence

X=x1 ……. X=xj ……. X=. Total

Y= c1 ( ……. ( ……. (. N1.

Y= ck ( …….. ( ……. (. Ni.

Y=cm (" …….. (" ……. (". Nm.

Total N.1 …….. N.j ……. (.. (


40

Propriété 1 : minimalité par répartition unimodale :

L’incertitude est minimale lorsque la répartition est homogène. ∀si, i=1,…..,k, ∃yj ∈ c1,…..,cm, P(yj/si)=1

D’une autre manière : ∀l ∈ 1,…..,k, ∃k ∈ 1,…..,k tel que nkl=n.l l’incertitude est

minimale.

Cette formule se traduit par pour toutes les feuilles dans une partition S il existe au moins une

classe majoritaire.

Propriété 2 : maximalité par équirépartition :

L’incertitude est maximale si dans chaque sommet les exemples ont la même probabilité

d’appartenance aux différentes classes. ∀si, i=1,…..,k, ∀yj,yi∈ c1,…..,cm 2, P(yj/si) = P(yi/si)

D’une autre manière : ∀l ∈ 1,…..,k, ∃k ∈ 1,…..,k tel que n1l=…….....=nkl .

Propriété 3 : symétrie :

L’incertitude d’une partition ne doit pas être sensible à l’ordre des sommets.

Si, les partitions S= s1,s2,s3 et S’= s’1,s’2,s’3, alors l’une doit être déduite par une simple

permutation des classes de l’autre. Donc I(S)=I(S’).

Propriété 4 : indépendance :

Le calcul des certitudes ne dépend que des sommets actifs lors d’une segmentation. Donc la

variation des incertitudes d’une partition ∆I(S) ne dépend que du sommet qui a été segmenté.

Si S= s1, s2, s3 et S’= s1, s3, s4, s5 où s4, s5 résultent de la segmentation du sommet s2.

Alors ∆I(S) = ƒ(I(s2),I(s 4,s5)), l’attribut qui minimise l’incertitude entre S et S’ et le

même qui que celui la minimise entre S2 et S4, S5.

Le principe de construction d’une graphe d’induction est basé sur la répartition des

ensembles d’individus en sous ensembles plus restreins qui minimisent l’incertitude 2'.

Généralement, la construction d’un graphe d’induction respect les étapes suivantes :

1. Calculer l’incertitude 2' de la partition '.

2. Pour chaque attribut et sommet candidat à la segmentation, on calcule 2'm où 'm représente la partition issue de ' après la segmentation d’un sommet selon l’attribut .


41

3. Sélectionner l’attribut qui maximise la réduction de l’incertitude ∆2'= 2' - 2'm et

effectuer la segmentation selon cet attribut. La réduction de l’incertitude peut être

appelée un gain.

4. ' o 'm 5. Si ' est une partition homogène alors affecter à chacune des feuilles une classe

majoritaire sinon aller en 1.

Le critère de sélection des attributs candidats est le gain ∆2'= 2' - 2'm de réductions de

l’incertitude. Parmi les critères possibles pour mesurer l’incertitude d’une partition 2' nous

distinguons ceux provenant de la théorie de l’information en utilisant la mesure d’entropie

comme l’entropie de Shannon ou quadratique.

2.5. L ES METHODES A BASE DE GRAPHE D’ INDUCTION

Après avoir décrit les principes des graphes d’inductions et leurs principales

caractéristiques ainsi que quelques notations générales. Nous nous focalisons sur les détails

des principales méthodes qui sont à l’origine de beaucoup de travaux. Ces dernières sont ID3,

C4.5, CART et SIPINA.

2.5.1. L ES METHODES ID3 ET C4.5

2.5.1.1. L A MÉTHODE ID3 (I NDUCTION DECISION TREE)

Il existe de nombreuses variantes pour construire des arbres de décision. L'algorithme ID3

(Induction Decision Tree ) développé par Quinlan [Qui, 83] utilise la mesure statistique

appelée Information de Gain. On constate expérimentalement que ces algorithmes sont très

performants : ils construisent rapidement des arbres de décision qui prédisent avec une assez

grande fiabilité la classe de nouvelles données. ID3 ne prend en compte que des attributs

nominaux. Son successeur, C4.5, prend en charge des attributs quantitatifs.

ID3 utilise la mesure d’incertitude basée sur l’entropie de Shannon [Sha, 48], L’entropie

exprime l’information nécessaire pour identifier la classe des exemples d’un échantillon, cela

revient à dire que l’entropie exprime l’incertitude dans laquelle on se trouve si l’on veut

classer les exemples, notion héritée de la thermodynamique où l'entropie d'un système est

d'autant plus grande qu'il est désordonné.


42

Soit * un nombre. Il existe un entier p unique tel que 2q Y 1 r * I 2q. Il faut alors p bits

pour coder *. On dit que p est la quantité d’information [Mic, 09].

Soit une variable qualitative qui prend - modalités , , … , .. Soit s la taille de la

population et (. la taille de la population prenant la valeur ) pour la variable . On a donc

les fréquences suivantes : t (1.( , ….., t. (u.(

La quantité d’information ou encore l’entropie est donné par v :

v YEt w log2 t x . . . x t. w log2 t. H

Le Gain d’information, noté y)Zs , , apporté par la segmentation du sommet ' selon les

valeurs de l’attribut est défini par la réduction d'entropie causée par la partition de selon

sa modalité z.

y)Zs , = v – ∑ 53_1 C5||C ∈ C.>K?@ O> 3_ v d3_1Ce

avec :

v 2'=Y ∑ (Z.[&1 log (Z.[

∑ ~_ ~||C ∈ C.>K?@ O> 3_ v d3_1Ce 2' = ∑ [._[._1 `Y ∑ [a_[._&1 - [a_[._b

d’où : y)Zs , = ∆2'= 2' - 2' • Déroulement de l’algorithme

Sur la base de la population considérée dans la Table 2.1, on montre la construction d'un

arbre de décision par ID3. L'attribut cible est donc : Jouer au tennis ?

Étape 1. La création de la racine ' qui est la partition initiale contenant tout l’échantillon

d’apprentissage, dont 9 individus appartenant à la classe oui et 5 à la classe non.

Étape 2. La partition n’est pas pure et l’ensemble des attributs n’est pas vide, donc la partition

suivante ' est engendrée en calculant le gain selon les variables restantes :

• Calcule de l’entropie Nœud racine

v= Y d 914 log2 914 x 514 log2 514 e = 0,940


43

La partition suivante ' est engendrée sur la base des variables restantes qui maximisent le

Gain : Perspective, Température (°F), Humidité (%),Venteux ?.

• Calcule de gain par rapport à la variable = Perspective

Perspective = soleil : v d3_1@D.>.e = Y dJ log J x <J log <J e = 0,971

Perspective = couvert : v d3_1e = Y d== log == x = log = e = 0

Perspective = pluie : v d3_1.K>e = Y dJ log J x <J log <J e = 0,971

Gain(Perspective) = v Y v d3_1Ce

= 0,940 – [(J=) w (0,971) + (

==) w (0) + (J=) w (0,971)] = 0,247

• Calcule de gain par rapport à la variable = Température

Température = Chaud : v d3_1KOe = Y d= log = x = log = e = 1

Température = Tiède : v d3_1 èe = Y d= log = x log e = 0,918

Température = Fraîche : v d3_1¡¢î£e = Y d<= log <= x = log = e = 0,811

Gain(Température) = v Y v d3_1Ce

= 0,940 – [(==) w (1) + (

=) w (0,918) + (==) w (0,811)] = 0,029

• Calcule de gain par rapport à la variable = Humidité

Humidité = Elevée : v d3_1¦.>Cé>e = Y d<R log <R x =R log =R e = 0,985

Humidité = Normale : v d3_1©ª¢«e = Y dR log R x R log R e = 0,592

Gain(Humidité) = v Y v d3_1Ce

= 0,940 – [(R=) w (0,985) + (

R=) w (0,592)] = 0,152

• Calcule de gain par rapport à la variable = Venteux ?

Venteux ? = Oui : v d3_1Ke = Y d® log ® x ® log ® e = 0,811


44

Venteux ? = Non : v d3_1[De = Y d< log < x < log < e = 1

Gain(Venteux) = v Y v d3_1Ce

= 0,940 – [(=) w (1) + (

®=) w (0,811)] = 0,048

Donc, la racine de l'arbre de décision testera l'attribut Perspective puisque elle maximise le

gain d’information.

La partition ' est engendrée par la variable Perspective, c’est une variable de segmentation.

Elle est composée de 3 modalités donc elle produit 3 sommets enfants. s ω ∈ Ω | Xω Soleil s ω ∈ Ω | Xω Couvert s< ω ∈ Ω | Xω Pluie La figure 2.2 illustre la construction des partitions ', '.

Figure 2.2. Construction de s , s , s , s<

Étape 3. La partition n’est pas pure et l’ensemble des attributs n’est pas vide, donc la partition

suivante ' est engendrée en calculant le gain selon les variables restantes : Température (°F),

Humidité (%),Venteux ?.

• Calcule de l’entropie Nœud Perspective = ´µ¶·¸¶ v= Y d35 log2 35 x 25 log2 25 e = 0,97

s

2

3

s

4

0

s<

3

2

s

9

5

X Soleil X Couvert X Pluie

Oui

Non

Oui

Non

Oui

Non

Partitions S

Partitions S


45


Température = Chaud : v d3_1KOe = Y d log x log e = 0

Température = Tiède : v d3_1 èe = Y d log x log e = 1

Température = Fraîche : v d3_1¡¢î£e = Y d log x log e = 0


= 0,97 – [(J) w (0) + (

J) w (1) + (J) w (0)] = 0,57

• Calcule de gain par rapport à la variable = Humidité

Humidité = Elevée : v d3_1¦.>Cé>e = Y d<< log << x < log < e = 0

Humidité = Normale : v d3_1©ª¢«e = Y d log x log e = 0

Gain(Humidité) = v Y v d3_1Ce

= 0,97 – [(<J) w (0) + (

J) w (0)] = 0,97


Venteux ? = Oui : v d3_1Ke = Y d< log < x < log < e = 0,91

Venteux ? = Non : v d3_1[De = Y d log x log e = 1


= 0,97 – [(<J) w (0,91) + (

J) w (1)] = 0,024

Le Gain informationnelle le plus élevé est au niveau de la variable Humidité, cette dernière

est donc sélectionnée a cette étape.

La partition ' est engendrée par la variable Humidité, c’est une variable de segmentation.

Elle est composée de 2 modalités donc elle produit 2 sommets enfants. s= ω ∈ Ω | Xω Normal sJ ω ∈ Ω | Xω Elevée


46

La figure 2.3 illustre la construction de la partition '

Figure 2.3. Construction de s= , sJ

Étape 4. La partition n’est pas pure et l’ensemble des attributs n’est pas vide, donc il reste la

possibilité de segmentation sur le nœud s< en calculant le gain selon les variables restantes :

Température (F°), Venteux ?

• Calcule de l’entropie Nœud Perspective = ¹¶º¸·

v = Y d25 log2 25 x 35 log2 35 e = 0,97


Venteux ? = Oui : v d3_1Ke = Y d log x log e = 0

Venteux ? = Non : v d3_1[De = Y d<< log << x < log < e = 0


= 0,97 – [(<J) w (0) + (

J) w (0)] = 0,97

9

5


Oui

Non

Oui

Non

Oui

Non

Partitions S

Partitions S s

2

3

s

4

0

s<

3

2

X Normal X Elevée

Oui

Non

Oui

Non

s=

2

0

sJ

0

3

Partitions S

s


47


Température = Chaud : v d3_1KOe = 0

Température = Tiède : v d3_1 èe = Y d< log < x < log < e = 0.91

Température = Fraîche : v d3_1¡¢î£e = Y d log x log e = 1


= 0,97 – [ (<J) w (0.91) + (

J) w (1)] = 0,024

Le Gain informationnelle le plus élevé est au niveau de la variable Venteux, cette dernière est

donc sélectionnée a cette étape. C’est une variable de segmentation. Elle est composée de 2

modalités donc elle produit donc 2 sommets fils. s ω ∈ Ω | X<ω Oui sR ω ∈ Ω | X<ω Non

Figure 2.4. Construction de s , sR

9

5


Oui

Non

Oui

Non

Oui

Non

Partitions S

Partitions S s

2

3

s s<

3

2

X Normal X Elevée

Oui

Non

Oui

Non

s=

2

0

sJ

0

3

Partitions S

s

X< Non X< Oui Oui

Non

Oui

Non

s

3

0

sR

0

2

4

0


48

2.5.1.2. L A METHODE C4.5

Successeur d'ID3, C4.5 prend en compte les attributs numériques, c'est-à-dire des attributs

dont l'arité est élevée. La construction d'un arbre de décision par C4.5 est identique dans son

principe à la construction par ID3.

• Critère de sélection des attributs :

Il est apparu que le Gain d’information d’ID3 favorisait les attributs avec beaucoup de

valeurs. Ayant reconnu cette défaillance Quinlan utilise dans C4.5 [Qui, 93], [Qui, 90] une

variante du Gain d’Information.

La notion de Gain introduite plutôt tend à favoriser les attributs qui ont un nombre important

de valeurs. Pour contrecarrer cet effet, C4.5 utilise le rapport de gain au lieu du gain

d'information pour déterminer l'attribut à utiliser dans un noeud.

W)½½*¾ +¿ )Zs , y)Zs , '½-Z¾2s,

'½-Z¾2s, À Á ~3_1C~||C ∈ C.>K?@ O> 3_ log ~3_1C~|| Â

Cela ne favorisera pas la participation des attributs à la segmentations en ayant un nombre de

modalité important du moment où le '½-Z¾2s, sera élevé et qui est un calcule

d’entropie, ce qui affaiblira le W)½½*¾ +¿ )Zs , .

• Traitement des variables continues :

Ce sont les données entières ou réelles : l'âge, le revenu, La température, ... mais aussi les

données pouvant prendre un grand nombre de valeurs ordonnées. Si nous considérons le

sommet le plus à gauche sur la partition S du graphe donné dans la figure 2.4, ce dernier

couvre 5 individus et a été segmenté à l’aide de l’attribut humidité, le seuil de coupure utilisé

étant <77.5% Normal; 9 77.5% Élevée. Ce résultat est la conséquence de deux tâches

élémentaires :


49

• Sélectionner la meilleure valeur de coupure pour chaque variable continue.

• Sélectionner globalement la meilleure segmentation en comparant la pertinence de

tous les descripteurs : les descripteurs discrets et les descripteurs continus qui ont été

découpés en intervalles.

La première opération consiste à déterminer le meilleur point de coupure pour les variables

continues. Nous considérons le cas du découpage binaire. Les études évaluant l’opportunité

d’une discrétisation n-aire ont par ailleurs montré qu’il n’y avait pas d’avantage à réaliser ce

type de découpage, mis à part que l’on réduit visuellement le nombre de niveaux de l’arbre,

sans en réduire le nombre de feuilles [Rak, 05].

Figure 2.5. Sélection de la borne de discrétisation

Détaillons les calculs et commentons-les.

• Il y a 5 observations sur le sommet, avec 4 valeurs distinctes de la variable humidité .

Nous pouvons tester 3 points de coupures candidats.

• Généralement, le point de coupure est pris à mi-chemin entre 2 points successifs ; en

réalité toute valeur située dans l’intervalle pourrait être utilisée. Si on coupe entre deux

valeurs z et w (z < w) de l'attribut, le seuil q est fixé à Ã X Ä )

• Choisir s de telle manière que le gain d'information soit maximal.

Jouer Hum< 77.5 Hum>=77.5

Oui 2 0

Non 0 3


Oui 2 0

Non 1 2


Oui 2 0

Non 2 1

70 85 90 95

70 x 852 77.5


50

2.5.2. L A METHODE CART (CLASSIFICATION AND REGRESSION TREES)

La méthode CART est basée sur le même algorithme d’induction utilisé par la méthode

C4.5 et ses prédécesseurs pour la sélection des attributs candidats à la segmentation [Ber, 06].

Dans la méthode CART, une segmentation est toujours binaire. Les attributs d’une modalité >

2, sont systématiquement rendus binaires en regroupant les valeurs en deux nouvelles

modalités.

Les attributs symboliques à È valeurs nominales produisent 2&É Y 1 groupements binaires

possibles. Par exemple, un attributs nominal à quatre modalités produits sept groupement

possibles : 1 et 2, 3, 4 4 et 1, 2, 3 1, 2 et 1, 2 2 et 1, 3, 4 1, 2 et 3, 4 3 et 1, 2, 4 1, 3 et 2, 4 Lors de la construction du graphe ou bien l’arbre de décision, CART examine tous les

attributs, recherche pour chacun d’entre eux le meilleur regroupement binaire qui maximise le

gain d’incertitude [Rab, 96].

2.5.3. L A METHODE SIPINA (SYSTEME I NTERACTIF POUR LES PROCESSUS

D'I NTERROGATION NON ARBORESCENTS) [Z IG , 85], [Rab, 96]

Dans les méthodes présentées jusqu’ici, la démarche est arborescente et la seule opération

l’hors du passage d’une partition S à S X est la segmentation des exemples. Un graphe

d’induction dans ce cas là est désigné aussi par le terme Arbre de décision.

L’algorithme SIPINA procède de la même manière que les autres algorithmes (ID3, C4.5,...) à

l’exception du concept du fusionnement, le passage d’une partition S à S X ne se fais pas

uniquement par éclatement mais par fusionnement ou fusionnement éclatement, ce que

qualifie SIPINA comme une méthode non arborescente.

Si on passe à des éclatements on risque d’avoir un graphe qui est statistiquement faible par

diminution des effectifs. Pour cette raison nous procédons à des fusions ou des fusions –

éclatements en vue d’obtenir une meilleure partition,

Le gain d’incertitude, noté Gain, apporté par la segmentation du sommet ' selon les

modalité de la variables est définie comme suit :

2' = ∑ [._X Ë[X "Ë&1 c1 Y d [._X Ë[X "Ëef


51

23' = ∑ [_.[._1 g∑ [a_X Ë[_.X "Ë&1 h1 Y c [a_X Ë[_.X "Ëfij Gain ∆2'= 2' - 2'm

Le paramètre λ de la mesure d’incertitude contrôle la construction de l’arbre en pénalisant les

sommets de faibles effectifs. Le paramètre λ peut être fixé à 1 [Zig, 96].

Soit S= (s1|…|si|…|sj|…|sL) un tableau de contingence. S’il existe un doublet si , sj alors la

fusionnée S" =( s1|…|si+sj|…|sL) et tel que la qualité de partition de S" soit maximale par

rapport à T. Cette qualité est la minimisation de l’incertitude

si sj

t

0

…

0

t+1

0

…

0

Avec Si est le sommet de faible effectif, en fixant un effectif minimal noté (t), ainsi tout

sommet dont l’effectif est inférieur à (t) est indésirable même s’il est homogène.

La valeur de λÍ est telle que λÍ Î)E2'Í Y 2'XH 2'Í et 2'X sont calculées à partir de la mesure d’incertitude basée sur l’entropie

quadratique :

2'Í = BX ËBX "Ë c1 Y d BXËBX "Ëef x , Y 1 d ËBX "Ë c1 Y d ËBX "Ëef e

2'X = BXX ËBXX "Ë c1 Y d BXXËBXX "Ëef x , Y 1 d ËBXX "Ë c1 Y d ËBXX "Ëef e

et soit ÏÐ= 2'Í Y 2'X = Ð , Y 1 d "ËXBXBÑXB"ËBX"ËÑBXX "ËÑe

La valeur de λÍ est telle que ÒÓÒË = 0.


52

2.5.3.1. PASSAGE DE LA PARTITION ´¸ À ´¸XÔ

Soit la partition ' = V, V, V< de p éléments, Pour passer de la partition 'à la partition 'X

nous effectuerons les trois phases suivantes [Zig, 00] :

Phase 1 : Passage par regroupement

Sur la base de l’exemple de la figure 2.3 nous pouvons de générer trois partitions par

regroupement :

Figure 2.6. La partition courante '

'X= VU V, V< qui donne un gain d'incertitude 2' Y 2E'XH

'X= V, V U V< qui donne un gain d'incertitude 2' Y 2E'XH

'X<= V U V, V< qui donne un gain d'incertitude 2' Y 2E'X<H

La partition choisie est celle qui maximise le gain informationnel, c à d :

y)Zs Î)1,,< d2' Y 2E'XHe

Figure 2.7. Les partitions générées par le regroupement des pairs V, V, V<

S1

S3

S1 S2

S3

S1

S4

S2

S3

S4

S2

S4

S2

S3

S1


53

Phase 2 : Passage par Regroupement - Éclatement

Après avoir effectué toutes les fusions possibles présenté dans la Figure 2.7, on cherche par

éclatement des nœuds fusionnés selon toutes les variables possibles ; la meilleur partition

admissibles.

Figure 2.8. Regroupement-Éclatement du premier regroupement à l’aide de trois variables

Figure 2.9. Regroupement-Éclatement du deuxième regroupement avec trois variables

S1 S2

S3

S4

S5 S6

S3

S1 S2

S4

S5 S6

S1 S2

S3

S4

S5 S6

S1 S2

S3

S4

S5 S6

S3

S1 S2

S4

S5 S6

S3

S1 S2

S4

S5 S6

X1 X2 X3

X1 X2 X3


54

Parmi les différents gains, faire le choix du maximum positif. S'il existe au moins une

partition admissible on ré exécute la phase 1, sinon on passe à la phase 3.

Figure 2.10. Éclatement du premier regroupement avec trois variables

Phase 3 : Passage par Éclatement

Nous cherchons par éclatement sur chaque sommet de la partition ', avec toutes les

variables , la meilleure partition admissible.

Figure 2.11. Éclatement du premier sommet ' avec les trois variables

S2

S3

S1

S4

S5 S6

S2

S3

S1

S4

S5 S6

S2

S3

S1

S4

S5 S6

X1 X2 X3

S2

S3

S1 S2

S3

S1 S2

S3

S1

S5 S4 S5 S4 S5 S4

X1 X2 X3


55

Figure 2.12. Éclatement du premier sommet ' avec les trois variables

Figure 2.13. Éclatement du premier sommet '< avec les trois variables

2.5.3.2. Algorithme SIPINA

Début

1. Choix de la mesure d'incertitude, la formule de calcul utilisée est l'entropie

quadratique, donnée par :

2' = ∑ [._X Ë[X "Ë&1 c1 Y d [._X Ë[X "Ëef

2. Fixation du paramètre λ

S2

S3

S1

S5 S4

X1

S2

S3

S1

S5 S4

X2

S2

S3

S1

S5 S4

X3

X1 S2 S1

S5 S4

X1 S2 S1

S5 S4

S3

X1 S2 S1

S5 S4

S3 S3


56

3. Génération de la première partition à partir du sommet initial;

4. Tentative de fusion :

Si gain > 0 alors Générer la partition (fusion) et Aller à 4

5. Tentative de fusion — éclatement :

Si gain > 0 alors Générer la partition (fusion - éclatement)

et Aller à 4

6. Tentative d'éclatement , si succès (gain > 0)

Si gain > 0 alors Générer la partition (éclatement) et Aller à 4

7. Fin de l'algorithme.

Fin.

2.6 CONCLUSION

Nous avons présenté dans ce chapitre les méthodes à base de graphes d'inductions, ces

dernières se basent sur le même principe que celui adapté dans la construction d’un graphe,

c'est-à-dire segmenter récursivement les nœuds afin de réduire l'incertitude. Cependant, les

méthodes à base de graphes d'inductions diffèrent dans la stratégie de réduction de la taille du

graphe. Pour ce dernier point, on a vu que par rapport aux différentes méthodes utilisées dans

l’extraction des règles, la méthode SIPINA a pallié à l’inconvénient majeur de toutes les

autres qui est le faible apport statistique du graphe d’induction dû au faible effectif des

feuilles de ce dernier. Dans le chapitre suivant, nous étudions l’adaptation des graphes

d’inductions pour le traitement des données géo référencés et leurs optimisations en utilisant

une technique à base d’automate cellulaire.


57

BIBLIOGRAPHIE

[Bre, 84] Breiman, L., J.H. Friedman, R.A., Olshen, C.L., Stone, Classification and Regression Trees, Chapman and Hall, 1984.

[Die, 86] Dietterich, T. G., Learning at the knowledge level, Machine Learning, PP

287-316, 1986. [Hun, 66] Hunt, E.B., Martin, P.J. Stone, Experiments In Induction. Academic Press,

1966. [Kas, 80] Kass, G., An exploratory technique for investigating large quantities of

categorical data, Applied Statistics, PP 119-127, 1980. [Mor, 63] Morgan, J., Sonquist J.A., Problems in the Analysis of Survey Data, and a

Proposal, Journal of the American Statistical Association, PP 415-435, 1963. [Mic, 09] Micheli, A., Arbres de décision, Cours de Licence BI, Université de Paris

Diderot. [Qui, 79] Quinlan, J.R., Discovering rules by induction from large collections of

examples, Expert Systems in the Microelectronic age, PP 168-201, 1979. [Qui, 93] Quinlan, J.R., C4.5: Programs for Machine Learning, Morgan Kaufman, 1993. [Qui, 90] Quinlan, J.R, Probabilstic decision trees, In Machine Learning : An Artificial

Intelligence Approch, Volume 3, Morgan Kaufman, 1990. [Rak, 05] Rakotomalala, R., Arbre de decision, Revue MODULAR, 2005. [Rak, 97] Rakotomalala, R., Graphes d’induction, These pour l’obtention du Diplôme de

Doctorat, Université Claude Bernard-Lyon 1, 1997. [Sha, 48] Shannon. C., A mathematical theory of communication. The Bell System

Technical Journal, 27, 1948. [Zig, 85] Zighed, D.A., Méthodes et outils pour les processus d'interrogation non

arborescents. PhD thesis, Université Claude Bernard - Lyon 1, 1985. [Zig, 96] Zighed, D.A., Rakotomalala, R., Rabaseda, S., A discretization method of

continuous attributes in induction graphs. Proceedings of the 13th European Meetings on Cybernetics and System Research, PP 997-1002, 1996.

[Zig, 00] Zighed, D.A., R.Rakotomalala, Graphes d’induction : apprentissage

automatique et data mining. Hermès 2000.

Chapitre 3

Classification Spatiale guidée par CASI

Plan

3.1. Introduction

3.2. Travaux connexes

3.3. Problématique

3.4. Primitives des relations spatiales

3.4.1. Les relations de voisinage

3.4.1.1. Les relations topologiques

3.4.1.2. Les relations de distance

3.4.1.3. Les relations de direction

3.5. La classification spatiale

3.5.1. Algorithme

3.5.2. Automate cellulaire pour des systèmes d’inférence CASI

3.5.2.1. Exemple d’apprentissage symbolique à partir de

données à références spatiales

3.5.2.2. Complexité théorique

3.6. Conclusion

Classification Spatiale guidée par CASI Chapitre 3

59

3.1. I NTRODUCTION

La plupart des méthodes de classification ne prennent en charge que la représentation des

données sous format relationnelles. Une donnée spatiale est généralement composée de trois

parties : une partie géométrique (la forme par exemple ligne, point, polygone), une partie

descriptive (par exemple le nom, la population d’une ville) et une partie métrique calculée

(par exemple la superficie, le périmètre) [Rig, 02]. La description non-spatiale des objets

spatiaux peut être stockée dans une base de données relationnelle classique alors qu’un

attribut supplémentaire est un pointeur vers la description spatiale de l’objet [Are, 91].

Pendant le processus de la fouille de données spatiales, on cherche à trouver les règles qui

divisent l’ensemble des objets on plusieurs classes en utilisant non seulement leurs attributs

descriptifs mais aussi leurs relations spatiales.

La représentation de la connaissance est aussi une question fondamentale dans la

conception d’un système d’apprentissage automatique, car la représentation utilisée peut

réduire la complexité en terme de traitement et de stockage.

Dans ce chapitre nous nous focalisons sur la classification des objets spatiaux en adaptons

les techniques d’arbres de décision existantes afin de lancer une fouille sur des données

spatiales, représentées sous forme de couches thématiques.

3.2. Travaux connexes

Parmi les travaux qui se sont focalisés sur la classification des données spatiales nous

pouvons citer ceux de Fayyad [Fay, 96] par l’utilisation des arbres de décision pour la

classification des objets stellaires pour les étoiles et les galaxies. Environs 3 Terabytes

d’images ont été analysées. Ces données ont été traitées à l’aide du système FOCAS, qui

sélectionne les objets et fourni des attributs de base comme : la magnitude, les régions,

l’intensité, l’orientation, …. Les objets ont été classifiés par des astronomes. Basé sur cette

classification, dix bases de données d’apprentissages ont été conçues pour construire l’arbre

de décision et extraire les règles. La méthode ne s’applique pas à la base de données sous

format vectoriel, souvent utilisée dans les systèmes d’informations géographiques.

Une méthode de classification des objets spatiaux utilisant les graphes de voisinages a été

proposée par Ester [Est, 97]. L’algorithme est basé sur la méthode ID3. Les objets sont traités

comme voisins si les relations de voisinages suivantes sont vérifiées :


60

• Les relations topologiques

• Les relations de métriques

• Les relations de directions

3.3. PROBLEMATIQUES

La complexité d’aboutir à un modèle prédictif pour prévoir les accidents de la route est

située à deux niveaux :

• En tenant compte du contexte géographique de l’accident d’un coté. De l’autre coté,

la structure de l’information spatiale qui est organisée en couche sous une

représentation vectorielle [Abd, 07]. Alors, le calcule de la relation de voisinage d’un

accident par rapport aux différents objets voisins doit être effectuer entre l’accident

lui-même et les différents objets spatiaux voisins qui appartiennent à des couches

thématiques distinctes afin d’aboutir à un échantillon d’apprentissage, où chaque tuple

constitue un exemple à classer par les graphes d’inductions. Le principe est illustré par

la Figure 3.1.

Figure 3.1. L’analyse spatiale entre les différentes couches et construction de l’échantillon

d’apprentissage

ID_Accident Age Date_Accident distance Nature de l’accident

Accident_1 01 33 13/09/1999 78 Piéton

Accident_2 02 28 13/09/1999 88 voiture

Accident_3 03 44 13/09/1999 120 Piéton

………. …………… ………. …………. … …

Distance (Accident, équipement publique)


61

• On doit cerner nos besoins vis à vis la structure de l’entité géographique car c’est

l’unité de base dans tous systèmes d’informations géographiques. Elle est caractérisée

par plusieurs types d’informations. On peu classifier les attributs décrivant et les

opérations applicables sur l’entité géographique, en quatre catégories distinctes [Kos,

99]:

a . Les attributs non spatiaux des objets comme le type d’accident ou l’âge de la

victime.

b. Les attributs spatiaux relatifs, comme la localisation de l’objet par rapport à

son voisinage, comme la population au sein d’un périmètre de 1 Km à partir

d’un point donné.

c. Les prédicats spatiaux : Dénote la relation en question entre deux objets

géométriques comme la proximité de deux entités dans un périmètre de 10

Kilomètres : Distance_less_than10_KM (magasin, centre commercial)

d. Les fonctions spatiales : C’est l’application des différentes opérations sur des

données géographiques Ces fonctions d'analyse de données géographiques

peuvent être utilisées dans plusieurs contextes, comme un programme SQL

interactif, mysql ou une application écrite dans un langage qui dispose du

support des bibliothèques clientes Comme MapXtreme

Chacune de ces catégories peut être utiliser pour extraire des valeurs pour les attributs

prédictifs ou à prédire. Par exemple le calcul de la population dans un périmètre de 1

kilomètre à partir d’un magasin exige d’effectuer la somme de cette dernière dans tous les

bloques en intersection avec le buffer au tour du magasin, comme l’illustre la Figure 3.2.


62

Figure 3.2. Analyse spatiale utilisant la technique du Buffering

Dans notre démarche de fouille de données spatiales, les données sont organisées sous

plusieurs couches thématiques donc en plusieurs tables relationnelles. Pour ce fait, nous

proposons d’organiser les données en une seule table relationnelle et en mettant en valeurs

dans les différents champs, toutes les relations de voisinages. Par exemple, dans le cas de la

Figure 3.1, un ou plusieurs champs sont ajoutés à la table des accidents, ce dernier

correspond à la distance du lieu d’accident par rapport à un équipement publique.

En représentant les relations topologiques sous forme relationnelle, nous pourrons

aisément appliquer les méthodes à base d’arbres de décisions.

Dans la suite de ce chapitre, des primitives de relations spatiales sont présentées, qui

permettent de calculer les relations de voisinages.

3.4. PRIMITIVES DES RELATIONS SPATIALES

La construction de l’exemple d’apprentissage est basée sur la prise en compte des relations

spatiales entre les différents objets géométriques. Ces derniers représentent des entités dans

l’espace ou des phénomènes du territoire urbain (accident, épidémie, séisme, …) qui

fournissent des informations implicites, nécessaires pour le processus de l’extraction de la

connaissance. L’extraction de la connaissance à partir des données à références spatiales est

une extension de l’extraction de la connaissance classique [Est, 99].


63

3.4.1. L ES RELATIONS DE VOISINAGE [EST, 99]

L'influence mutuelle entre deux objets dépend des facteurs tels que la topologie, la distance

ou la direction entre les objets. Par exemple, un nouvel ensemble industriel peut polluer son

voisinage selon la distance et sur la direction principale du vent. La Figure 3.3 montre une

carte utilisée dans l'évaluation d'un endroit possible pour un nouvel ensemble industriel. La

carte montre trois régions avec différents degrés de pollution (indiquées par les différentes

couleurs) provoqués par l'usine prévue.

Figure 3.3. Les Régions pollués au tour d’une zone industrielle

Dans cette section, nous présentons trois types de relations spatiales : relation topologique,

de distance et de direction qui sont des relations binaires, entre les paires d'objets. Les objets

spatiaux peuvent être des points ou des objets dans l'espace prolongés tels que des lignes, des

polygones. Des objets dans l'espace prolongés peuvent être représentés par un ensemble de

points sur sa surface, par exemple par les bords d'un polygone (représentation de vecteur) ou

par les points contenus dans l'objet, par exemple les Pixels d'un objet.

3.4.1.1. L ES RELATIONS TOPOLOGIQUES

Les relations topologiques sont les relations qui restent invariables sous des

transformations topologiques, elles sont préservées si les deux objets sont changés d’échelle,

translatés ou pivotés simultanément. Les définitions formelles sont basées sur les frontières,

les intérieurs et les compléments des deux objets connexes.


64

Ces relations selon les extensions SQL d’oracle spatial sont [Arm, 06] :

Inside, Touch, Covers, Equal, Contains, Disjoint, Coverded By, Overlap Boundary.

3.4.1.2. L ES RELATIONS DE DISTANCE

Les relations de distance sont ces relations comparant la distance de deux objets à une

constante donnée utilisant un des opérateurs arithmétiques. La distance entre deux objets est

définie par la distance minimum entre leurs points. Nous citons selon SQL étendu d’oracle

spatial les relations [Arm, 06] : Within Distance, Nearest Neighbor.

3.4.1.3. L ES RELATIONS DE DIRECTION

Pour définir les relations de direction , nous distinguons l'objet source et

l'objet destination de la relation de direction. Il y a plusieurs possibilités pour définir des

relations de direction selon le nombre de points qu'ils considèrent dans la source et l'objet de

destination.

Nous définissons la relation de direction de deux objets dans l'espace prolongé utilisant un

représentant de l'objet de source et tous les points de la destination de l’objet .

a. Relation topologique b. Relation de distance c. Relation de direction

Figure 3.4. Les relations topologiques et de distance

Dans la construction de l’échantillon d’apprentissage, nous nous basons sur les relations de

distance comme relations de voisinage entre les points de la couche thématique des accidents

et les équipements publiques de la seconde couche (École, administration, supermarché , …).


65

3.5. L A CLASSIFICATION SPATIALE

La tâche de la classification consiste à assigner un objet à une classe donnée basée sur les

valeurs d'attributs de cet objet. Dans la classification spatiale les valeurs d'attribut des objets

voisins sont également considérées.

L'algorithme présenté dans [Kop, 98] fonctionne comme suit : Les attributs en question

sont extraits en comparant les valeurs d'attributs des objets cibles aux valeurs d'attribut de

leurs voisins plus proches. La détermination des attributs appropriés est basée sur le concept

du voisin le plus proche (le voisin le plus proche appartenant à la même classe) et le voisin

manqué le plus proche (le voisin le plus proche appartenant à des classes différentes). Dans la

construction de l'arbre de décision, les voisins des objets cibles ne sont pas considérés

individuellement. Un Buffer est créé autour de l’objet cible et les valeurs d'attributs de tous

les objets contenus dans le Buffer sont agrégés. Par exemple, dans le cas des centres

commerciaux un Buffer peut représenter le secteur où ses clients vivent ou travaillent. La

taille du Buffer rapportant le gain maximum de l'information est choisi et cette taille est

appliquée pour calculer les agrégats pour tous les attributs appropriés. La Figure 3.5 montre

un exemple d’arbre de décision spatial.

Figure 3.5. Arbre de décision spatial [Che, 02]

150 accidents

15 accidents

piétons

55 accidents

piétons

45 accidents

piétons

95 accidents

Distance>= 100 m (Accident, École)=Vrai Distance>= 100 m (Accident, École)=Vrai

Distance>= 100 m (Accident, École)=Vrai Distance>= 100 m (Accident, École)=Vrai


66

3.5.1. ALGORITHME

Les paramètres d’entrés de l’algorithme :

• N tables qu’on sélectionne à partir de la base de données, n≥2. :

a. Target_Tab : la table contenant les objets à classer

b. Neighbor_Tab : la Jè table contenant les voisins des objets des tables

cibles.

c. Les attributs d’analyse qu’on choisit parmi les attributs des objets à classer et les

objets voisins.

Répéter

Pour chaque Neighbor_Tab , insérer dans la table cible une colonne correspondant

à la description du voisinage avec Target_Tab, et enregistrer dans cette colonne la

relation spatiale de voisinage.

Les paramètres de sortie est la tables cible Target_Tab, avec les attributs non spatiaux et les

évaluations de voisinages des attributs spatiaux.

Une fois les données restructurées dans une seule table Target_Tab ou ce qu’on appel

l’échantillon d’apprentissage. N’importe quel algorithme de construction d’arbre de décision

est applicable.

Dans ce qui suit, nous présentons notre approche de construction d’arbre de décision

cellulaire basés sur le principe de la méthode SIPINA.

3.5.2. AUTOMATE CELLULAIRE POUR DES SYSTEMES D ’ INFERENCE (CASI)

3.5.2.1. EXEMPLE D ’ APPRENTISSAGE SYMBOLIQUE A PARTIR DE DONNEES A

REFERENCES SPATIALES

Nous présentons dans cette section un exemple d’apprentissage basé sur le principe de la

méthode SIPINA. Nous appliquons l’algorithme décrit dans la section précédente. Les

données en entrée est l’ensemble d’accidents de routes comme Target_Tab.


67

a. La table contenant les objets à classer :

• Target_Tab : PLAN_ORAN_ACCIDENTS, la couche thématique représentant les

accidents de routes sous forme de points.

b. Les autres couches thématiques candidates pour un calcule de voisinage par rapport à

Target_Tab sont :

• Neighbor_Tab 1 : PLAN_ORAN_BAT_PUB, la couche thématique des bâtiments

publiques concernant les différentes administrations (PTT, Police, banque, …)

• Neighbor_Tab 2 : PLAN_ORAN_SCOLARITE, la couche thématique des

différentes établissements scolaires (écoles primaires, CEM, Lysée)

• Neighbor_Tab 3 : PLAN_ORAN_PASSAGE : la couche thématique à proximité des

passages piétons.

• Neighbor_Tab 4 : PLAN_ORAN_MARCHE : la couche thématique des marchés.

L’exemple d’apprentissage final est constitué d’attributs de la table des accidents de la route

ainsi que quatre attributs supplémentaires correspondants à la distance entre le lieu de chaque

accidents par rapport au objets de voisinages des autres couches thématiques déjà citées.

Figure 3.6. Voisinage des objets spatiaux par rapport au lieu d’impact

Soit Ω=ω,ω, … ,ω l’ensemble des accidents représentants l’échantillon

d’apprentissage. Les attributs prédictifs représentent le voisinage des différentes couches

thématiques par rapport au lieu d’accident. Chaque individu est associé à une classe


68

correspondante notée ω. La variable à prédire Y prend ses valeurs dans l’ensemble des

étiquettes C= è !, " #$%, avec: 1 : accident de type voiture, 2 : accident de piéton.

Y : Ω & '= è !, " #$%

& ω ( )*

Après avoir effectuer le calcule de voisinage entre le lieu d’accident et la couche thématique

concernée, la population Ω est donnée par Table 3.1

Table 3.1 Un exemple d’échantillon d’apprentissage

Ω ID Date_Accident BAT_PUB SCOLARITE PASSAGE MARCHE Nature

01 13/09/1999 78 240 OUI 450 voiture

02 13/09/1999 8 40 NON 12 Piéton

+ 03 13/09/1999 120 13 OUI 129 Piéton

, 04 13/09/1999 76 22 NON 348 Piéton

- 05 13/09/1999 16 445 OUI 98 Piéton

. 06 13/09/1999 80 18 NON 100 Voiture

/ 07 13/09/1999 10 11 NON 755 Voiture

0 08 13/09/1999 120 700 OUI 453 Piéton

1 09 13/09/1999 7 12 OUI 300 Piéton

10 13/09/1999 34 300 NON 204 Voiture

11 13/09/1999 300 13 OUI 543 Piéton

12 13/09/1999 23 33 OUI 32 Piéton

+ 13 13/09/1999 5 24 NON 513 Piéton

, 14 13/09/1999 200 323 OUI 300 Piéton

- 15 13/09/1999 234 150 OUI 411 Piéton

. 16 13/09/1999 40 900 NON 623 Voiture

/ 17 13/09/1999 403 16 OUI 12 Piéton

0 18 13/09/1999 340 103 NON 311 Voiture

1 19 13/09/1999 120 230 NON 45 Piéton

20 13/09/1999 19 22 OUI 750 Piéton


69

Nous adoptons les notations mentionnées dans le chapitre précédent. Pour illustrer cette forme

de notation, considérons le problème de l’identification du type d’accident et supposons qu’un

individu peut être décrit, par exemple, par quatre variables exogènes :

1. 2 : BAT_PUB : Voisinage du lieu l’accident par rapport aux bâtiment publique, qui

prend les valeurs : 2 : PRET,1 : LOIN.

2. 2 : SCOLARITE : Voisinage du lieu l’accident par rapport aux établissements

scolaires, prend les valeurs : 2 : PRET,1 : LOIN.

3. 2+ : PASSAGE : Voisinage du lieu l’accident par rapport au passage piéton, prend les

valeurs : 2 : NON, 1 : OUI.

4. 2, : MARCHE : Voisinage du lieu l’accident par rapport aux marchés, prend les

valeurs : 2 : PRET,1 : LOIN.

Table 3.2 attributs prédictifs, valeurs et significations

Le processus général d’apprentissage que le système cellulaire CASI [Atm, 07] applique à une

population Ω est organisé sur quatre étapes :

1. Initialisation du graphe d’induction par automate cellulaire (coopération entre les

modules COG et CIE)

2. Optimisation du graphe d’induction cellulaire (coopération entre les modules COG et

CIE)

3. Génération des règles de production (coopération entre les modules COG et CIE)

4. Validation des règles cellulaires (coopération entre les modules CV et CIE)


2 3 ( 2 BAT_PUB Distance 4 50 PRET , Distance 7 50 LOIN

2 3 ( 2 SCOLARITE Distance 4 50 PRET , Distance 7 50 LOIN

2+ 3+ ( 2 PASSAGE OUI ; NON

2, 3, ( 2 MARCHE Distance 4 50 PRET , Distance 7 50 LOIN


70

Figure 3.7. Diagramme général du système cellulaire CASI

A partir de l’échantillon Ω nous commençons le traitement symbolique pour la construction

du graphe d’induction (méthode SIPINA).

1. Choisir la mesure d’incertitude (Shannon ou quadratique).

2. Initialiser les paramètres λ, µ et la partition initiale S0.

3. Appliquer la méthode SIPINA pour passer de la partition 8 à 89 et générer le graphe

d’induction.

4. Enfin, génération des règles de prédiction [Rab, 96].

L’algorithme de la méthode SIPINA est une heuristique non arborescente pour la construction

d’un graphe d’induction.

Son principe consiste à générer une succession de partitions par fusion et/ou éclatement des

nœuds du graphe. Dans ce qui suit nous allons décrire le déroulement du processus.

Supposons que notre échantillon d’apprentissage Ω se compose de 20 accidents de la route

qui répartissent en deux classes 1 et 2 (voir la table 3.3).


71

Ω 2 2 2+ 2, '3:;;%

1 1 1 1 1

2 2 2 2 2

+ 1 2 1 1 2

, 1 2 2 1 2

- 2 1 1 1 2

. 1 2 2 1 1

/ 2 2 2 1 1

0 1 1 1 1 2

1 2 2 1 1 2

2 1 2 1 1

1 2 1 1 2

2 2 1 2 2

+ 2 3 2 1 2

, 1 1 1 1 2

- 1 1 1 1 2

. 2 1 2 1 1

/ 1 2 1 2 2

0 1 1 2 1 1

1 1 1 2 2 2

2 2 1 1 2

Table 3.3 Codage de l’échantillon d’apprentissage

La création de la racine 8 qui est la partition initiale contenant tout l’échantillon

d’apprentissage, dont 6 individus appartenant à la classe voiture et 14 à la classe piéton.

La partition 8 est engendrée par la variable PASSAGE, c’est la variable de segmentation.

Elle est composée de 2 modalités (OUI, NON) elle fournie donc 2 sommets enfants.

s ( ω = Ω | X+ω ( 1

s ( ω = Ω| X+ω ( 2


72

La Figure 3.8 illustre la construction des partitions 8, 8.

Figure 3.8. Construction de s , s , s .

à partir de la partition S1 le processus est réitéré à la recherche de meilleurs partitions. Sur la

figure 3.9 sont résumées les étapes principales qui ont conduit à ce graphe.

Figure 3.9 Les partitions S, S, S+, …..

s

1

10

s

5

4

s

6

14

X+ ( 1 X+ ( 2

Partitions S

Partitions S

s s

s

X+ ( 1 X+ ( 2

s+ s,

X, ( 1 X, ( 2

s-

s. s/

X ( 1 X ( 2

Fusion

Éclatement


73

Définition d’un automate cellulaire

Un automate cellulaire est une grille composée de cellules qui changent d’état dans des

étapes discrètes. Après chaque étape, l’état de chaque cellule est modifié selon les états de ses

voisines dans l’étape précédente. Les cellules sont mises à jour d’une manière synchrone, et

les transitions sont effectuées dans la théorie, simultanément [Sch, 99]. En appliquant des

règles simples et des transitions spécifiques, un automate cellulaire peut effectuer d’une

manière globale, des opérations complexes [Cho, 96], [Ker, 02], [Nan, 94], [Sir, 02], [Wol,

99]. Certains des concepts principaux pour les automates cellulaires sont :

• Configuration : L’état global de l’automate cellulaire, appelé configuration, est défini

par les états de toutes ses cellules.

• Voisinage : Le prochain état de chaque cellule dépend de l’état actuel de ses voisines.

La transition de l’automate cellulaire, d’une configuration à une autre, est la

conséquence des transitions locales de toutes les cellules. Le voisinage d’une cellule

est défini par l’ensemble de ses voisines dont les états sont pris en compte pour chaque

transition.

• Parallélisme : Toutes les cellules constituant l’automate cellulaire sont mises à jour

d’une manière simultanée et synchrone.

• Déterministe : Le nouvel état de chaque cellule est déterminé par son état, et l’état de

son voisinage seulement.

• Homogénéité : Toutes les cellules utilisent la même règle de transition pour

déterminer leur prochain état.

• Discrétisation : Un automate cellulaire évolue discrètement dans le temps.

Un automate cellulaire peut être décrit par les quatre composants suivants :

– Dimension : Il n’y a aucune limite à la dimension d’un automate cellulaire, mais dans la

pratique on utilise des automates avec 1, 2 ou, 3 dimensions.

–Voisinage de la cellule : Ceci définit l’ensemble de cellules voisines dont l’état sera pris en

compte pour déterminer le prochain état de chaque cellule.

–Espace d’état : C’est l’ensemble fini d’éléments que peut prendre une cellule.

–Fonction de transition : C’est l’ensemble de règles qui détermine le nouvel état de chaque

cellule selon son état précédant, et les états précédents des cellules de son voisinage.


74

Moteur d’inférence cellulaire –CIE–

Le module CIE (Cellular Inference Engine) [Atm, 07] simule le fonctionnement du cycle

de base d’un moteur d’inférence en utilisant deux couches finies d’automates finis.

La première couche, CELFACT, pour la base des faits et, la deuxième couche, CELRULE,

pour la base de règles. Chaque cellule au temps t+1 ne dépend que de l’état des ses voisines et

du sien au temps t. Dans chaque couche, le contenu d’une cellule détermine si et comment

elle participe à chaque étape d’inférence : à chaque étape, une cellule peut être active (1) ou

passive (0), c’est-à-dire participe ou non à l’inférence. Le principe est simple :

– Toute cellule i de la première couche CELFACT est considérée comme fait établi si sa

valeur est 1, sinon, elle est considérée comme fait à établir.

– Toute cellule j de la deuxième couche CELRULE est considérée comme une règle

candidate si sa valeur est 1, sinon, elle est considérée comme une règle qui ne doit pas

participer à l’inférence.

Nous supposons qu’il y a l cellules dans la couche CELFACT, et r cellules dans la couche

CELRULE.

Notations et définitions

Les états des cellules se composent de trois parties : EF, IF et SF, respectivement ER, IR et

SR, sont l’entrée, l’état interne et la sortie d’une cellule de CELFACT, respectivement d’une

cellule de CELRULE. L’état interne, IF d’une cellule de CELFACT indique le rôle du fait :

dans le cas d’un graphe d’induction IF = 0 correspond à un fait du type sommet

s, IF = 1 correspond à un fait du type attribut=valeur (2 = valeur). Pour une cellule de

CELRULE, l’état interne IR peut être utilisé comme coefficient de probabilité que nous ne

l’utiliserons pas dans ce mémoire.

Pour illustrer l’architecture et le principe de fonctionnement du module CIE, nous

considérons la partie du graphe, extraite de la Figure 3.9, obtenue en utilisant les partitions

S ( s, S ( s, s, S ( s+, s,.


75

La Figure 3.10 montre comment la base de connaissance extraite à partir de ce graphe est

représentée par les couches CELFACT et CELRULE. Initialement, toutes les entrées des

cellules dans la couche CELFACT sont passives (EF = 0), excepté ceux qui représentent la

base des faits initiale (EF(1) = 1).

Dans la Figure 3.11 sont respectivement représentées les matrices d’incidence d’entrée RE

et de sortie RS de l’automate.

(a) Base de connaissance

(b) Configuration initiale de l’automate cellulaire

Figure 3.10 : (a) Base de connaissance, (b) Configuration initiale de l’automate cellulaire

Règle : Prémisse : Conclusion :

Règle 1 8 ; Alors 2+ ( 1, ;

Règle 2 8 ; Alors 2+ ( 2, ;

Règle 3 8 ; Alors 2, ( 1, ;+

Règle 4 8 ; Alors 2, ( 2, ;,

Fait i

Fait 1 ;

Fait 2 2+ ( 1

Fait 3 ;

Fait 4 2+ ( 2

Fait 5 ;

Fait 6 2, ( 1

Fait 7 ;+

Fait 8 2, ( 2

Fait 9 ;,

EF IF SF

1 0 0

0 1 0

0 0 0

0 1 0

0 0 0

0 1 0

0 0 0

0 1 0

0 0 0

CELFACT

Règle j

Règle 1

Règle 2

Règle 3 +

Règle 4 ,

ER IR SR

1 1 1

0 1 1

0 1 1

0 1 1

CELRULE


76

– la relation d’entrée, notée iREj, est formulée comme suit : ∀i = [1, l], ∀j = [1, r], si (le

Fait i = à la Prémise de la règle j) alors RE(i, j) ← 1.

– la relation de sortie, notée iRSj, est formulée comme suit : ∀i = [1, l], ∀j = [1, r], si (le

Fait i = à la Conclusion de la règle j) alors RS(i, j) ← 1.

Les matrices d’incidence RE et RS représentent la relation entrée/sortie des Faits et sont

utilisées en chaînage avant. On peut également utiliser RS comme relation d’entrée et RE

comme relation de sortie pour lancer une inférence en chaînage arrière [ELG, 99], [Den, 00],

[Ham, 00]. Notez qu’aucune cellule du voisinage d’une cellule qui appartient à CELFACT

(respectivement à CELRULE) n’appartient pas à la couche CELFACT (respectivement à

CELRULE).

Enfin, puisqu’il y a l cellules dans la couche CELFACT, EF, IF et SF seront considérées en

tant que vecteurs de dimension l (EF, IF, SF = 0, 1 l). De même, puisqu’il y a r cellules dans

la couche CELRULE, ER, IR et SR seront considérées en tant que vecteurs de dimension r

(ER, IR, SR = 0, 1r). La Figure 3.12 représente le schéma général de notre automate

cellulaire.

Figure 3.11 Les matrices d’incidence d’entrée RE et de sortie RS de l’automate

RE R1 R2 R3 R4

; 1 1

2+ ( 1

;

2+ ( 2

; 1 1

2, ( 1

;+

2, ( 2

;,

RS R1 R2 R3 R4

;

2+ ( 1 1

; 1

2+ ( 2 1

; 1

2, ( 1 1

;+ 1

2, ( 2 1

;, 1


77

Figure 3.12 Automate cellulaire pour des systèmes d’inférence

Les fonctions de transition du moteur d’inférence cellulaire –CIE–

Le cycle de base d’un moteur d’inférence, pour établir un fait F en chaînage avant, fonctionne

traditionnellement comme suit :

1. Recherche des règles applicables (évaluation et sélection) ;

2. Choisir une parmi ces règles, par exemple R (filtrage) ;

3. Appliquer et ajouter la partie conclusion de R à la base des faits (exécution).

Le cycle est répété jusqu’à ce que le fait F soit ajouté à la base des faits, ou s’arrête lorsque

aucune règle n’est applicable.

La dynamique de l’automate cellulaire CIE [Atm, 07], pour simuler le fonctionnement d’un

Moteur d’Inférence, utilise deux fonctions de transitions BCDE et BFGHI, où BCDE correspond à

la phase d’évaluation, de sélection et de filtrage, et JKLMN correspond à la phase d’exécution.

- La fonction de transition BCDE :

(EF, IF,SF, ER, IR, SR) → BCDE (EF, IF, EF, ER + (OP · EF), IR,SR)

- La fonction de transition BFGHI :

(EF, IF,SF, ER, IR, SR) → BFGHI (EF + (Q · ER), IF, SF, ER, IR, RSSSS)

Où la matrice OP désigne la transposé de O.

Couche des Faits Couche des Règles Couche des Faits

CELFACT CELRULE RE RS


78

Nous considérons T la configuration initiale de notre automate cellulaire (voir la Figure

3.10) et, ∆ = BFGHI BCDE la fonction de transition globale : ∆(T) = T, si T → BCDET′ et

T′ → BFGHIT. Supposons que T = UT, T, … , TVW est l’ensemble des configurations de notre

automate cellulaire. L’évolution discrète de l’automate, d’une génération à une autre, est

définie par la séquence T, T, … , TV, où T9 = ∆(T).

Essayons, par exemple, d’établir le fait s4 avec la base de connaissance de la Figure 3.9 et

sans employer le principe cellulaire. La Figure 3.13 illustre le déroulement du moteur

d’inférence, en chaînage avant, selon différents modes :

– mode synchrone en largeur, où toutes les règles candidates sont déclenchées ;

– mode asynchrone en largeur ;

– mode asynchrone en profondeur.

En utilisant maintenant notre principe cellulaire, la Figure 3.14 présente l’état global des deux

couches, CELFACT et CELRULE, après évaluation, sélection et filtrage en mode synchrone :

application de la première loi de transition BCDE).

Cycle Évolution de la base de Faits Règles

1 ; X 2+ ( 1, 2+ ( 2, ;, ; 1, 2

2 ; X 2 ( 1, 2 ( 2, ;, ; X 2, ( 1, 2, ( 2, ;+, ;, 3, 4


1 ; X 2+ ( 1, ; 1

2 ; , 2+ ( 1, ; X 2+ ( 2, ; 2

3 ; , 2+ ( 1, ; , 2+ ( 2, ; X 2, ( 1, ;+ 3

4 ; , 2+ ( 1, ; , 2+ ( 2, ;, 2, ( 1, ;+ X 2, ( 2, ;, 4


1 ; X 2+ ( 1, ; 1

2 ; , 2+ ( 1, ; X 2, ( 2, ;, 4

Figure 3.13. Différents modes du chaînage avant.

Mode 1 : mode synchrone en largeur

Mode 2 : mode asynchrone en largeur

Mode 3 : mode asynchrone en profondeur


79

Figure 3.14. Configuration abstenue après exécution de BCDE

De même, après l’application de la seconde règle de transition, BFGHI, nous obtenons la

configuration T qui est illustrée par la Figure 3.15.

La fonction ∆ constitue une loi de transition globale en chaînage avant, qui transforme

itérativement, notre automate cellulaire d’une configuration initiale T en une configuration

finale T présentée dans la Figure 3.16.

Figure 3.15. configuration T = ∆(T) obtenue après exécution de BCDE(T) et BFGHI(T)

Fait i

Fait 1 ;

Fait 2 2+ ( 1

Fait 3 ;

Fait 4 2+ ( 2

Fait 5 ;

Fait 6 2, ( 1

Fait 7 ;+

Fait 8 2, ( 2

Fait 9 ;,

EF IF SF

1 0 1

0 1 0

0 0 0

0 1 0

0 0 0

0 1 0

0 0 0

0 1 0

0 0 0

CELFACT

Règle j

Règle 1

Règle 2

Règle 3 +

Règle 4 ,

ER IR SR

1 1 1

1 1 1

0 1 1

0 1 1

CELFACT

Fait i

Fait 1 ;

Fait 2 2+ ( 1

Fait 3 ;

Fait 4 2+ ( 2

Fait 5 ;

Fait 6 2, ( 1

Fait 7 ;+

Fait 8 2, ( 2

Fait 9 ;,

EF IF SF

1 0 1

1 1 0

1 0 0

1 1 0

1 0 0

0 1 0

0 0 0

0 1 0

0 0 0

CELFACT

Règle j

Règle 1

Règle 2

Règle 3 +

Règle 4 ,

ER IR SR

1 1 0

1 1 0

0 1 1

0 1 1

CELFACT


80

Figure 3.16. Configuration finale T obtenue après deux itérations synchrones

Élaboration du graphe d’induction cellulaire –COG–

Pour la construction du graphe d’induction à partir de Ω, en utilisant le principe de la

méthode SIPINA, nous devons générer les deux couches CELFACT et CELRULE. Le module

COG utilise, pour cette finalité, trois procédures et agit comme suit :

– Choisir la mesure d’incertitude (Shannon ou Quadratique).

– Initialiser les paramètres λ, µ et la partition initiale S0.

– i ← 2 ; (indice de ligne)

– j ← 1 ; (indice de colonne)

– (EF, IF, SF)[1] ← (0, 0, 0) ; ( initialisation du noeud s0)

– Appliquer la méthode SIPINA pour passer de la partition 8 à 89 et générer le graphe

d’induction cellulaire.

Pour passer de la partition 8 à 89, le module COG [Atm, 07] utilise l’algorithme suivant :

Répéter

Si la Fusion est possible Alors appeler Fcell

Sinon

Si la Fusion-Eclatement est possible Alors appeler FScell

EF IF SF

1 0 1

1 1 1

1 0 1

1 1 1

1 0 1

1 1 0

1 0 0

1 1 0

1 0 0

CELFACT

Règle j

Règle 1

Règle 2

Règle 3 +

Règle 4 ,

ER IR SR

1 1 0

1 1 0

1 1 0

1 1 0

CELFACT

Fait i

Fait 1 ;

Fait 2 2+ ( 1

Fait 3 ;

Fait 4 2+ ( 2

Fait 5 ;

Fait 6 2, ( 1

Fait 7 ;+

Fait 8 2, ( 2

Fait 9 ;,


81

Sinon

Si l’ Eclatement est possible Alors appeler Scell

Sinon Fin ;

Afin de définir les procédure Fcell , FScell et Scell , nous reprenons le graphe d’induction

déjà obtenue, illustré par la Figure 3.9.

La procédure Scell : La première partition 8 possède un seul élément ; qui regroupe tout

l’échantillon d’apprentissage Ω. La deuxième partition 8 = s , s. est engendrée par la

variable 2+.

s ( ω = Ω | X+ω ( 1

s ( ω = Ω | X+ω ( 2

La procédure Scell trouve dans la couche CELFACT l’indice de ligne de s, noté iracine

(iracine = 1 dans ce cas), et effectue les opérations suivantes pour chaque sommet sY avec j=1, 2.

1. J ← iracine ;

2. initialiser la matrice d’incidence d’entrée : RE[iracine, j] ← 1 ;

3. créer deux cellules dans CELFACT d’indices J + 1 et J + 2;

4. créer une cellule dans CELRULE d’indice j ;

5. initialiser la matrice d’incidence de sortie : RS[J+1, j] ← 1 et RS[J+2, j] ← 1 ;

6. J ← J + 2;

7. aller à 2 (pour la prochaine modalité de X+) ;

Pour la partition 8 , par exemple, les opérations effectuées par la procédure Scell sont :

– pour j = 1

– initialiser la matrice d’incidence d’entrée : RE[1, 1] ← 1 ;

– créer deux cellules dans CELFACT : (EF, IF, SF)[2] ← (0, 1, 0) pour représenter le fait

(2+ = 0) et (EF, IF, SF)[3] ← (0, 0, 0) pour représenter le fait s ;

– créer une cellule dans CELRULE : (ER, IR,SR)[1] ← (0, 1, 1) pour représenter la règle

si s alors ((X+ = 0) et s)

– initialiser la matrice d’incidence de sortie : RS[2, 1] ← 1 et RS[3, 1] ← 1


82

Figure 3.17 Initialisation de l’automate cellulaire

De la partition S, nous réitérons le processus à la recherche d’une partition S. Selon le

déroulement de la méthode SIPINA, la prochaine partition est effectuée à l’aide d’une

segmentation du sommet s en deux nouveaux sommets s+ ,s,, au moyen de l’une des

variables XY restantes. La nouvelle partition qui apparaît sur le graphe est S = s+ , s,.

Pour la partition 8 , par exemple, les opérations effectuées par la procédure Scell sont :

– j = 3

– iracine = 5

– initialiser la matrice d’incidence d’entrée : RE[5, 3] ← 1 ;

– créer deux cellules dans CELFACT : (EF, IF, SF)[6] ← (0, 1, 0) pour représenter le fait

(2+ = 0) et (EF, IF, SF)[3] ← (0, 0, 0) pour représenter le fait s ;

– créer une cellule dans CELRULE : (ER, IR, SR)[3] ← (0, 1, 1) pour représenter la règle

si s alors ((X, = 0) et s+)

– initialiser la matrice d’incidence de sortie : RS[6, 1] ← 1 et RS[7, 1] ← 1

CELFACT CELRULE

(0,0,0)[1] (0,1,1)[1]

(0,1,0)[2] (0,1,1)[2]

(0,0,0)[3] (0,1,1)[3]

(0,1,0)[4] (0,1,1)[4]

(0,0,0)[5] (0,1,1)[5]

(0,1,0)[6]

(0,0,0)[7]

(0,1,0)[8]

(0,0,0)[9]

(0,0,0)[10]

Fcell

CELFACT CELRULE

(0,0,0)[1] (0,1,1)[1]

(0,1,0)[2] (0,1,1)[2]

(0,0,0)[3]

(0,1,0)[4]

(0,0,0)[5]

Scell

CELFACT CELRULE

(0,0,0)[1] (0,1,1)[1]

(0,1,0)[2] (0,1,1)[2]

(0,0,0)[3] (0,1,1)[3]

(0,1,0)[4] (0,1,1)[4]

(0,0,0)[5]

(0,1,0)[6]

(0,0,0)[7]

(0,1,0)[8]

(0,0,0)[9]

Scell

CELFACT CELRULE

(0,0,0)[1] (0,1,1)[1]

(0,1,0)[2] (0,1,1)[2]

(0,0,0)[3] (0,1,1)[3]

(0,1,0)[4] (0,1,1)[4]

(0,0,0)[5] (0,1,1)[5]

(0,1,0)[6] (0,1,1)[6]

(0,0,0)[7] (0,1,1)[7]

(0,1,0)[8]

(0,0,0)[9]

(0,0,0)[10]

(0,1,0)[11]

(0,0,0)[12]

(0,1,0)[13]

(0,0,0)[14]

Scell


83

Aller à 2 pour la prochaine modalité de X,, donc pour j = 4.

La procédure Fcell : De la partition S, nous réitérons le processus (méthode SIPINA) à la

recherche d’une partition S+ qui soit meilleure. Pour cela nous pouvons soit effectuer un

regroupement (Fusion deux à deux des sommets s ,s+ et s,) soit un éclatement, de l’un des

trois sommets, au moyen de l’une des variables XY restantes. Dans notre exemple, le

déroulement de la méthode SIPINA indique qu’un regroupement des sommets s et s, donne

une meilleure partition. La nouvelle partition qui apparaît sur le graphe est S+ = s , s,.

La procédure Fcell trouve dans la couche CELFACT les indices de s , s,, notés i , i ,

avec i = 3 et i = 9 dans notre cas et effectue les opérations suivantes pour créer une

nouvelle règle j dans la couche CELRULE :

1. initialiser la matrice d’incidence d’entrée : RE[i, j] ← 1 et RE[i, j] ← 1 ;

2. créer une cellule dans CELFACT d’indice i fusion ;

3. créer une cellule dans CELRULE d’indice j ;

4. initialiser la matrice d’incidence de sortie : RS[i fusion, j] ← 1 ;

Pour notre exemple, j = 5, i = 3 et i = 9, la procédure Fcell effectue les opérations

suivantes :

– initialiser la matrice d’incidence d’entrée : RE[3, 5] ← 1 et RE[9, 5] ← 1 ;

– créer une cellule dans CELFACT d’indice i fusion = 10 : cela correspond à la création du

sommet s, dans CELFACT ((EF, IF, SF)[10] ← (0, 0, 0)) ;

– créer une cellule dans CELRULE d’indice j = 5 : (ER, IR,SR)[5] ← (0, 1, 1) pour

représenter la règle si s et s, alors s-

– initialiser la matrice d’incidence de sortie : RS[10, 5] ← 1

La prochaine partition S, Selon le déroulement de la méthode SIPINA, est obtenue à

l’aide d’une segmentation du sommet s- en deux nouveaux sommets s. ,s/, au moyen de

l’une des variables XY restantes. La nouvelle partition qui apparaît sur le graphe est

S, = s. , s/.

Le déroulement de la procédure Scell est effectué de la même manière avec les sommets

s et s.


84

La procédure FScell : En utilisant les procédure Fcell et Scell, la procédure FScell complète

l’initialisation des couches CELFACT et CELRULE, cette procédure est appliquée dans le cas

d’une Fusion-Éclatement.

Génération des règles conjonctives –COG–

Pour produire automatiquement des règles conjonctives, le module COG [Atm, 07]

coopère avec le moteur d’inférence cellulaire (CIE) qui utilise les mêmes fonctions de

transition BCDE et BFGHI avec la permutation de RE et de RS. En partant du nœud terminal vers

la racine s, et en utilisant le moteur d’inférence cellulaire CIE en chaînage arrière, avec le

mode asynchrone en profondeur, la génération des règles est représentée par la Figure 3.18.


1 ;+, 2, ( 1 X ; 3

2 ;+, 2, ( 1, ;, 2+ ( 2 X ; 2

3 ;., 2 ( 1 X ;- 6

4 ;., 2 ( 1, ;- X ; 5

5 ;., 2 ( 1, ;-, ;, 2+ ( 1 X ; 1

6 ;/, 2 ( 2 X ;- 7

7 ;/, 2 ( 2, ;- X ;, 5

8 ;/, 2 ( 2, ;-, ;,, 2, ( 2 X ; 4

9 ;/, 2 ( 2, ;-, ;,, 2, ( 2 X ;, 2+ ( 2 X ; 2

Base de règles :

if 24 ( 1 et 23 ( 2 alors )3:;;% b:c $:$% d% ;3

if 22 ( 1 et 23 ( 1 alors )3:;;% b:c $:$% d% ;6

if 22 ( 2 et 24 ( 2 and 23 ( 2 alors )3:;;% b:c $:$% d% ;7

Figure 3.18. Génération des règles conjonctives

Nous procédons de la même manière sur le graphe de la Figure 3.9, nous obtenons les règles

conjonctives suivantes :


85

: if 2+ ( 1 et 2 ( 1 alors classe majoritaire de ;.

: if 2+ ( 1 et 2 ( 2 alors classe majoritaire de ;/

+ : if 2+ ( 2 et 2, ( 1 alors classe majoritaire de ;+

, : if 2+ ( 2 et 2, ( 2 et 2 ( 1 alors classe majoritaire de ;.

- : if 2+ ( 2 et 2, ( 2 et 2 ( 2 alors classe majoritaire de ;/

La représentation de cette base de connaissance par la machine cellulaire est illustrée sur la

Figure 3.19. Sur l’accomplissement de ce processus, la machine cellulaire est prête à lancer la

phase de validation. En employant le même principe de base d’un moteur d’inférence et avec

les mêmes fonctions de transition BCDE et BFGHI, l’automate cellulaire avance d’une

configuration vers une autre, pour produire finalement l’ensemble ΩO (ensemble des individus

non classés).

Validation par automate cellulaire –CV–

Sur l’accomplissement de ce processus, le module CV (voir Figure 3.7) est prêt à lancer la

phase de validation. En employant le même principe de base du moteur d’inférence cellulaire

CIE, et les mêmes fonctions de transition BCDE et BFGHI, l’automate cellulaire avance d’une

configuration vers une autre, dans le but de produire l’ensemble ΩO (prévision fausse).

Fait i

Fait 1 2 ( 1

Fait 2 2 ( 2

Fait 3 2+ ( 1

Fait 4 2+ ( 2

Fait 5 2, ( 1

Fait 6 2, ( 2

Fait 7 '3:;; ;3

Fait 8 '3:;; ;6

Fait 9 '3:;; ;7

EF IF SF

0 1 0

0 1 0

0 1 0

0 1 0

0 1 0

0 1 0

0 1 0

0 1 0

0 1 0

CELFACT

Règle j

Règle 1

Règle 2

Règle 3 +

Règle 4 ,

Règle 5 -

ER IR SR

0 1 1

0 1 1

0 1 1

0 1 1

0 1 1

CELRULE


86

Figure 3.19 Base de connaissances du graphe d’induction de la figure 3.9

Supposons que notre échantillon de test ΩP est composé de 10 accidents de la route

appartenant à deux classes 1 et 2, où la classe 1, accident de voiture, est la classe majoritaire

de ;+, et la classe 2, accident de piéton, est la classe majoritaire de ;. et ;/. La Figure 3.20

résume la validation de l’individu -.

Table 3.4 Exemple d’un échantillon test

RE R1 R2 R3 R4 R5

2 ( 1 1 1

2 ( 2 1 1

2+ ( 1 1 1

2+ ( 2 1 1 1

2, ( 1 1

2, ( 2 1 1

'3:;;% ;3

'3:;;% ;6

'3:;;% ;7

RS R1 R2 R3 R4 R5

2 ( 1

2 ( 2

2+ ( 1

2+ ( 2

2, ( 1

2, ( 2

'3:;;% ;3 1

'3:;;% ;6 1 1

'3:;;% ;7 1 1

ΩP 2+ 2, 2 '3:;;%

2 1 1 1

2 2 2 2

+ 1 1 2 2

, 2 1 2 2

- 1 1 1 2

. 2 1 2 1

/ 2 1 2 1

0 1 1 1 2

1 1 1 2 2

2 1 1 1


87

Figure 3.20 Validation de - par l’automate cellulaire

3.5.2.2 COMPLEXITE THEORIQUE

La connaissance acquise, représentée et traitée à partir des exemples d’apprentissage est

sous forme booléenne. Ceci peut être réalisé en un temps d’exécution et un espace de

stockage réduit. Cela est due à l’utilisation d’une représentation booléenne des deux matrice

RE et RS et le traitement booléen effectué par les deux fonctions de transition BCDE et BFGHI.

Les deux processus intensifs de calcul dans CASI sont le stockage et la multiplication

booléenne des matrices d’incidences :

Stockage en mémoire de RE et RS : RE et RS sont des matrices booléennes qui peuvent être

exprimées sous forme de deux vecteurs de plusieurs séquences binaires. La quantité de

1 0 / . no , +

1 1 1 1 2 ( 1

1 1 1 1 1 1 2 ( 2

1 1 1 1 2+ ( 1

1 1 1 1 1 1 2+ ( 2

1 1 1 1 1 1 1 1 1 2, ( 1

1 2, ( 2

1 1 1 1 pMqrrN s

1 1 1 1 1 1 pMqrrN t

EF IF SF

0 1 0

0 1 0

0 1 0

0 1 0

0 1 0

0 1 0

0 1 0

0 1 0

CELLFACT

ER IR SR

0 1 1

0 1 1

0 1 1

0 1 1

0 1 1

CELLRULE

1 0 / . - , +

1 1 1 1 2 ( 1

1 1 1 1 1 1 2 ( 2

1 1 1 1 2+ ( 1

1 1 1 1 1 1 2+ ( 2

1 1 1 1 1 1 1 1 1 2, ( 1

1 2, ( 2

1 1 1 1 pMqrrN s

1 1 1 1 1 1 pMqrrN t

EF IF SF

1 1 1

0 1 0

1 1 1

0 1 0

1 1 1

0 1 0

0 1 0

1 1 0

CELLFACT

ER IR SR

1 1 0

0 1 1

0 1 1

0 1 1

0 1 1

CELLRULE


88

mémoire requise pour stocker les matrices booléennes est de l’ordre de u, quand on

utilise u séquences.

Temps de traitement : le temps de traitement des matrices RE et RS est exécuté en u v $

étapes.

La multiplication binaire OP · Rx par exemple de, utilisée par fonction de transition BCDE

peut être exprimer par un algorithme séquentiel de multiplication booléenne vecteur-matrice

exécuter en un temps $u avec u est la dimension du vecteur Rx et u v $ est la dimension

de la matrice OP. La multiplication de O

P avec EF peut être exécuté, en utilisant la technique

de vectorisation booléenne de matrice, dans un temps ≈ O(r log q) où le produit intérieur

d’une ligne de OP avec le vecteur EF est réduit au calcul du bit de parité (bit-wise AND)

[Atm, 07][Abd, 08].

Après la génération des règles conjonctives cellulaires, le système CASI lance la phase de

validation. Soit ΩP=ω, ω, … , ωy une population des individus ou d’objets concernés par

le problème d’apprentissage. A cette population est associé un attribut particulier appelé

attribut classe noté Y .A chaque individu ω peut être associé sa classe Y (ω). On dit que la

variable Y prend ses valeurs dans l’ensemble des étiquettes, appelé également ensemble des

classes et noté C.

Y : ΩP & '= c, c, … , cy

& ω ( )*

En respectant la représentation élémentaire des matrices booléennes d’entrée / sortie RE et

RS, le temps d’exécution globale de OP (r× (q−m)) · EF(q−m) et RS(m×r) · ER(m) est

proportionnel à V

z (O(r log(q − m)) + O(r logm)), avec m q et où w désigne la longueur du

mot après vectorisation des matrices booléennes.

3.6. CONCLUSION

Dans ce chapitre nous avons abordé la fouille de données spatiale comme un cas particulier

de la fouille de données classique par l’enrichissement avec des requêtes de voisinage. Étant

donné la diversité de solutions logicielles existantes implémentant une multitude

d’algorithmes d’apprentissage, nous avons choisi dans un premier temps d’intégrer les

fonctionnalités d’analyse des propriétés de voisinages. Nous avons réussi donc à ramener


89

plusieurs couches thématiques en une table relationnelle afin d’appliquer n’importe quel

algorithme de classification.

Ensuite, nous avons présenté le système : CASI, Induction Symbolique par Automate

Cellulaire [Atm, 07][Bel, 08]. Cette étude, concerne la représentation et l’optimisation, par

automate cellulaire, le graphe engendré par la méthode SIPINA, la génération des règles de

production conjonctives et la validation. Dans le contexte de l’analyse des accidents de la

route, le graphe d’induction engendré est un modèle qui nous permettra de voir de plus prêt

les relations entre l’accident est sont environnement ainsi que les éléments responsables de ce

dernier, donc le graphe d’induction engendré facilitera l’identification des problèmes de

sécurité sur le réseau routier en vue de proposer des mesures de sécurité pour y remédier.


90

BIBLIOGRAPHIE

[Abd, 08] Abdelouhab, F., Atmani, B., Intégration automatique des données semi-structurées dans un entrepôt cellulaire, Troisième atelier sur les systèmes décisionnels, Mohammadia, Maroc, PP 109—120, 10 et 11 octobre 2008.

[Abd, 07] Abdiche, F., Hamdadou, D. : Proposition d'un Modèle pour l’Exploitation des Bases de Données à Références Spatiales Distantes. Les troisièmes journées internationales sur l’information graphique, PP 229-234, Constantine, 2007.

[Arm, 06] Armitage, T., Getting started with oracle spatial, Oracle Corporation, United

States, 2006. [Are, 91] Aref, W.G., Samet, H., Optimisation Strategies for Spatial Query Processing,

In Proc. 17th VLDB Conference, Barcelona, Spain, PP 81-90, 1991. [Atm, 07] Atmani, B., Beldjilali, B., Knowledge Discovery in Database: Induction Graph

and Cellular Automaton, Computing and Informatics Journal, V.26, N°2, PP 171-197, 2007.

[Bel, 08] Beldjilali, B., Atmani, B., Traitement des coefficients d’incertitudes dans les

arbres de décision : application sur la machine cellulaire CASI, Journée des Jeunes Chercheurs en Informatique JCI'08, Université 08 Mai 45, Guelma – Algérie, PP 223—234, 20 Mai 2008

[Che, 02] Chelghoum N., Zeitouni K., Boulmakoul A., A Decision Tree for Multi-layered

Spatial Data, In 10th International Symposium on Spatial Data Handling (SDH’02), Ottawa, Canada, PP 1-10, 2002

[Cho, 96] Chopard, B., Luthi, P. O., Queloz, P. A., Cellular automata model of car traffic

in a two-dimensional street network, Physica, 1996. [Den, 00] Denouni, N., El-Amrani, A., Validation de l’approche cellulaire ACSIR,

application au diagnostic des pannes du PC, Mémoire de fin d’études pour obtenir le Diplôme d’Ingénieur d’Etat en Informatique. Université Es-Senia, Oran, 2000.

[Ege, 91] Egenhofer, M. J., Reasoning about Binary Topological Relations, Proceeding

of the 2nd International Symposium. on Large Spatial Databases, Zurich, Switzerland, PP 143-160. 1991.

[ELG, 99] El-Goutni, A., Vers un automate cellulaire pour détection des incohérences

dans les bases de connaissances, Mémoire de fin d’études pour obtenir le Diplôme d’Ingénieur d’Etat en Informatique. Université Es-Senia, Oran, 1999.

[Est, 99] Ester, M., Frommelt, A., Hans-Peter, K., Jörg S., Spatial Data Mining:

Database Primitives, Algorithms and Efficient DBMS Support. Data Mining and Knowledge Discovery, Kluwer Academic Publishers, 1999.


91

[Fay, 96] Fayyad, U.M., Djorgovsky, S.G., Weir, N., Authomating the Analysis and

Cataloging of Sky Survey. AAAI/MIT Press, Menlo Park, CA, 1996. [Ham, 00] Hamidi, T., Zidi, M., Les automates cellulaires pour des systèmes

d’apprentissage, Mémoire de fin d’études pour obtenir le Diplôme d’Ingénieur d’Etat en Informatique. Université Es-Senia, Oran, 2000.

[Ker, 02] Kernerl, B. S., Klenov, S. L., Wolf, D. E., Cellular automata approach to

three-phase traffic theory, Physica, 2002. [Kop, 98] Koperski K., Han J., Stefanovic N. An Efficient Two-Step Method for

Classification of Spatial Data, Proceeding. Symposium on Spatial Data Handling (SDH ‘98), Vancouver, Canada, 1998.

[Nan, 94] Nandi, S., Kar, B. K., Chaudhuri, P. P., Theory and Applications of Cellular

Automata in Cryptography, IEEE Transaction on Computers, Vol 43 (12), PP 1346-1357, 1994.

[Rig,02] Rigaux, P., Scholl, M., Voisard, A.: Spatial databases with application to GIS.

Morgan Kaufmann Publishers Inc, San Francisco, United States, 2002. [Sch, 99] Schonfisch, B., Roos, A., Synchronous and asynchronous updating in cellular

automata, Biosystems, PP 123-143, 1999. [Sir, 02] Sirakoulis, G. C., Karafyllidis, I., Thanailakis, A., A cellular automaton

methodology for the simulation of integrated circuit fabrication processes, Future Generation Computer Systems, Vol 18, PP 639-657, 2002.

[Wol, 99] Wolfrman, D. E., Cellular automata for traffic simulations, Physica, Vol 263,

438-451, 1999. [Wol, 86] Wolfram, S., Theory and Application of Cellular Automata, World Scientific,

1986. [Wol, 02] Wolfram, S., Cellular Automata and Complexity, Perseus Books Group, 2002.

Chapitre 4

CGISS : un Système d'Information Géographique Cellulo-Symbolique

Plan

4.1. Introduction

4.2. Les Systèmes d’informations Géographiques

4.2.1. L’acquisition de l’information géographique

4.3. Les bases de données géographiques

4.3.1. Archivage de l’information géométrique

4.3.2. Unification de format de stockage des images vectorielles

4.4. Déroulement du processus d’extraction de connaissances à partir des

données à références spatiales

4.4.1. Sélection et préparation des couches thématiques

4.4.2. Analyse spatiale et extraction des relations de voisinage

4.4.3. Conception et implémentation

4.5. Expérimentation

4.5.1. construction d’un graphe d’induction

4.5.2. génération des règles conjonctives

4.6. Conclusion

CGISS : un Système d'Information Géographique Cellulo-Symbolique Chapitre 4

93

4.1. I NTRODUCTION

L’information devient de plus en plus difficilement assimilable directement. Sa

représentation classique, sous des formes longtemps satisfaisantes, est maintenant peu

adaptée. Les décisions ne peuvent plus être prises sur la base d’une seule idée toute faite, elles

nécessitent de connaître quasi instantanément les informations sur les besoins sanitaires,

économiques, écologiques. Les systèmes d'informations géographiques (SIG) sont une

réponse à ces impératifs dans différents domaines : intégrer de nouvelles sources de nature

différentes, les combiner et les analyser pour présenter l'information de façon efficace et

directement utilisable.

Réservés aux professionnels de la géographie, les SIG ont vus rapidement leurs champs

d'application s'étendre dans tous les domaines où la prise de décision rapide en fonction de

données spatiales est primordiale: environnement, gestion des réseaux (eau, électricité,

téléphone...), aménagement urbain, marketing, prospection géologique,…, etc.

Au cours du chapitre 3, nous nous somme intéressés à l’extraction et la validation des

règles par l’application de la machine cellulaire à partir d’un échantillon d’apprentissage. Ce

dernier étant une table individus / variables classique.

Il est important de remarquer que l’étape de transformation des couches géographiques en

table individus / variables est totalement absente. En effet, cette étape est nécessaire puisque

les données manipulées par la machine cellulaire sont numériques alors que la base de

données est un ensemble d’images sous représentation vectorielle propre à un système

d’information géographique bien spécifique.

Notre principale contribution, objet de ce 4ième chapitre, se résume en quatre points :

• Transformation des données géographiques vectorielles en format relationnelle.

• Intégration de la librairie MapXtreme.

• Application de l’analyse spatiale et extraction de relation de voisinage

• Intégration de la fonctionnalité d’extraction des règles conjonctives aux systèmes

d’informations géographiques.

4.2. L ES SYSTEMES D’ INFORMATIONS GEOGRAPHIQUES

Les systèmes d’informations géographiques (SIG) est un système de gestion de bases de

données pour la saisie, le stockage, l’extraction, l’interrogation, l’analyse et l’affichage de

données localisées [Lau, 93]. Le succès connu par les SIG témoigne du besoin de gérer des


94

représentations spatiales. Les SIG sont de puissants outils pour manipuler, interroger et

visualiser les bases des données spatiales. Une donnée spatiale est généralement composée de

trois parties : une partie géométrique (la forme par exemple ligne, point, polygone), une partie

descriptive (par exemple le nom, la population d’une ville) et une partie métrique calculée

(par exemple la superficie, le périmètre) [Rig, 02].

Les SIG sont caractérisés par cinq fonctionnalités principales : L’Abstraction, L’Acquisition,

L’Archivage, L’Affichage et L’Analyse de l’information géographique. Nous nous

intéressons dans ce chapitre qu’à deux seulement qui sont l’Acquisition et l’Archivage.

4.2.1. L’ ACQUISITION DE L ’ INFORMATION GEOGRAPHIQUE

Les données peuvent provenir de fournisseurs extérieurs, de numérisation directe ou de

traitements particuliers. Elles peuvent être fournies sous forme de bases de données

relationnelles ou orienté objet, sous forme de documents XML ou GML et même sous forme

vectorielle ou raster. Cette diversité peut être résumée en deux principales catégories

d’informations : Informations descriptives ou Spatiales (géométriques). Nous abordons ici le

coté géométrique de l’information géographique. La partie géométrique fournit des

informations sur la position et la forme des objets étudiés. Cette information peut être sous

forme vectorielle ou de raster [Arm, 06] :

Les vecteurs: les données sont représentées sous forme d'objets géographiques : point, ligne

ou polygone et stockées dans la base de données. A chacun de ces objets, seront reliés des

attributs. Par exemple, à l'objet "commune Essédikya" pourront être affectés la population de

cette commune, le pourcentage de chômeurs, le nombre d’incidents de grippe, etc.

Figure. 4.1. Le découpage administratif de la ville d’Oran : Carte vectorielle


95

Les Rasters : un numériseur d'images (scanner) est utilisé pour permettre, à partir de la

représentation de points enregistrés, de reconstituer les éléments géographiques homogènes,

soit automatiquement (certains logiciels l'effectuent avec plus ou moins de bonheur), soit

manuellement, à l'aide de la souris, etc.

Figure. 4.2. Vue satellitaire de la ville d’Oran : Image en raster

Le mode de stockage utilisé dans ce travail est la couche. En effet, les objets sont organisés

en couches, chaque couche rassemble l'ensemble des objets homogènes (bâtis, rivières, voirie,

parcelles, etc.) [Abd, 07]. C’est le format de représentation des formes géométriques le plus

souvent utilisé par les SIG vis-à-vis la possibilité de manipulation et d’analyse offerte sur un

support cartographique.

Figure. 4.3. Superposition des couches indépendantes


96

4.3. L ES BASES DE DONNEES GEOGRAPHIQUES

L’une des structures les plus adéquates pour le stockage de l’information géographique

numérique est les bases de données Géographiques. Selon que l’information géographique

soit représentée en mode vecteur ou raster nous parlons de base de données vecteurs ou

rasters. Dans la suite de ce chapitre, nous ne nous intéressons qu’au mode vecteur. Cette

représentation est mieux adaptée aux requêtes d’extraction de relations entre objets spatiaux.

La spécificité des bases de données géographiques, par rapport aux bases de données dites

standards, repose sur la représentation de la localisation et de la forme des informations

géographiques. Nous pouvons considérer une base de données géographique comme une

extension d’une base de données standard à la représentation géométrique des objets qu’elle

regroupe.

4.3.1. ARCHIVAGE DE L ’ INFORMATION GEOMETRIQUE

Certains systèmes d’informations géographiques gèrent simultanément les données

géométriques ainsi que les données attributaires alors que d’autres séparent ces deux types de

données [Mar, 02] . Les SGBDR sont des exemples de gestion simultanée de ces deux types

de données.

L’organisation et la maintenance des données en général sont des tâches complexes.

L’ajout des composantes spatiales de plusieurs bases de données augmente encore cette

complexité. L’intégration des données spatiales sous un SGBDR unique est apparue en cours

des dix dernières années [Mic, 03].

4.3.2. UNIFICATION DE FORMAT DE STOCKAGE DES IMAGES VECTORI ELLES

Le SIG est un logiciel qui structure les informations en tables. Une table est un ensemble

de fichiers qui sont manipulés ensemble par le logiciel. On trouve généralement deux

catégories de formats de stockages :

• Sous forme de plusieurs fichiers : chaque SIG propose une structure de

représentation de ces fichiers de stockage, l’accès et la manipulation des données

dans ce mode nécessitent un API propre au SIG lui-même. Nous citons par

exemple Spatial Database Engine (SDE API) de ESRI, ou Mapbasic API, de

MapInfo.


97

Figure. 4.4. La structure d’une image vectorielle sous MapInfo

Cette structure diffère d’un SIG à un autre, ce qui complique l’unification de plusieurs bases

de données hétérogènes conçues sur des SIG différents d’une part. D’autre part, ce mode de

stockage ne respecte pas une modélisation conceptuelle, ce qui complique la réutilisation et la

maintenance des cartes géographiques.

• Sous forme de table relationnelle : Dans les tables relationnelles à références

spatiales, les objets géométriques ainsi que leurs données attributaires ou

descriptifs sont stockés dans la même table relationnelle. Le SGBDR utilisé dans

notre travail est Oracle Spatial.

4.4. DEROULEMENT DU PROCESSUS D’ EXTRACTION DE CONNAISSANCES A

PARTIR DES DONNEE A REFERENCES SPATIALES

L’Extraction de Connaissances à partir des Données à Références Spatiales (ECDRS) est le

processus non trivial d'identification de connaissances valides, originales et potentiellement

utiles. Il est illustré par la figure 4.5.

Structure de

la table

Données

descriptives

Géométrie

des objets

Géométrie

|

Donnée

Index


98

Figure. 4.5. Processus d’extraction des règles à partir de la base de données à références

spatiales

4.4.1. SELECTION ET PREPARATION DES COUCHES THEMATIQUES

Les couches récupérées depuis les bureaux d’études et le département de la géographie à

l’université d’Oran représentaient le même contexte géographique qui est la ville d’Oran.

Nous distinguons en premier lieu la couche représentant le découpage administratif de la

wilaya d’Oran fournie par le département de la géographie, en suite plusieurs couches

fournies par le bureau d’étude URBOR qui représentent plus de détailles sur la ville d’Oran

qui sont : la couche du réseau d’eau potable, la couche des ilots et la couche du tissu

bâtis…etc.

Translation des images multicouches vers le

SGBD Oracle

Evaluation

Représentation relationnelle

Sélection et

préparation des

couches thématiques

Construction de la machine cellulaire

Construction du graphe

d’induction

Extraction des règles

Analyse Spatiale et extraction des relation de

voisinage


99

Nous nous intéressons dans notre travail aux données provenant des couches : Carrefours,

Etablissements scolaires, les marchés et les points de repères des accidents de la route.

La couche accident de la route ou PLAN_ORAN_ID_AC, est conçue manuellement sous

MapInfo, les localisations des accidents sont faites par le biais d’un agent de la direction de la

sureté de la wilaya d’Oran.

Les sources des couches thématiques sont multiples, les couches thématiques sont

principalement conçues par deux applications, Mapinfo et AutoCad d’où l’hétérogénéité du

format de stockage.

Donc la première tâche consiste à convertir les données vers un format unique sous le SIG

MapInfo pour que les données partages les même propriétés.

Figure. 4.6. Conversion des couches thématique vers le format MapInfo

Plusieurs organisations ont adopté oracle spatial comme leurs support de stockage de base,

par la migration de leurs méthodes traditionnelles de maintenances des objets spatiaux vers un

modèle relationnel. Oracle spatial à permit la possibilité d’attacher une colonne spatiale à une

table relationnelle. Cette colonne permet à l’utilisateur de maintenir les données spatiales sans

avoir besoin d’une API spécifique. Les langages de programmation comme java ou C++

peuvent être utilisé pour créer, maintenir et extraire les données à partir d’Oracle spatial [Mic,

03].


100

Nous utilisons EasyLoader, l’outil intégré au SIG MapInfo pour convertir les couches

thématiques vers la base de données Oracle.

Figure. 4.7. Connexion MapInfo à la Base de données Oracle

4.4.2. ANALYSE SPATIALE ET EXTRACTION DES RELATIONS DE VOIS INAGE

Dans ce travail l’échantillon d’apprentissage n’est pas fourni directement par la base de

données mais c’est le résultat d’une analyse topologique. Nous calculons les relations de

voisinage entre la couche PLAN_ORAN_ID_AC portant les variables endogènes et les autres

couches candidates contenant les variables exogènes.

La sélection des couches thématiques descriptives et la couche contenant le phénomène en

cours d’étude qui est dans notre cas l’existence ou non d’un accident de la route et sa nature

s’effectue par l’utilisateur. Dans un premier temps, la sélection des couches s’effectue par le

biais d’une interface de sélection, le principe de superposition est appliqué et la modification

des caractéristiques des objets spatiaux est conforme à n’importe quel SIG commercial.


101

Figure. 4.8. Affichage des couches thématique candidates

L’analyse topologique de voisinage entre les objets spatiaux est calculée en fonction de la

distance Euclidienne. Pour chaque objet de chaque couche candidate, il faut calculer la

distance en fonction des coordonnées spatiales. Un seuil minimal fixé par l’utilisateur pour

juger le voisinage d’un accident par rapport aux autres entités spatiales.

Le résultat final est l’échantillon d’apprentissage proprement dit. C’est une matrice dont les

individus sont les accidents et les variables sont les couches candidates. Le contenu est le

voisinage de l’accident qui prend une valeur prêt, loin par rapport aux objets spatiaux

comme ceux de la couche établissements scolaires.


102

Figure 4.9 Sélection des couches thématique candidates

L’utilisateur choisit les couches candidates. C’est les cartes qui serviront à décrire le

voisinage par rapport à l’accident. Ensuite, la couche cible ou le phénomène en question est

sélectionné. Donc, pour chaque accident dans la couche cible, son voisinage est calculé par

rapport aux objets de toutes les couches thématiques sélectionnées.

Figure 4.10 Echantillon d’apprentissage suite à l’analyse de voisinage

CGISS : un Système d'Information

Une fois le calcule de la relation de voisinage est terminé

PRET, LOIN par rapport à une couche thématique. L’ensemble des accidents et leurs

voisinages selon les différents objets des autres couches thématiques constituent l’échantillon

d’apprentissage présenté par la

Notre démarche se résume en trois principales étapes, illustrées par la figure

1. Sélection et transformation des couches thématiques

processus d’ECDRS.

2. Analyse Spatiale afin d’expliciter les relations topologiques entre le lieu de l’accident

et son environnement représenté

3. Application du principe

Figure 4.11 Approche cellulaire pour la fouille de données spatiales

Intégration des données géographiques

de sources hétérogènes

Représentation Multi relationnelles des

données spatiales sous SGBD

GISS : un Système d'Information Géographique Cellulo-Symbolique

103

Une fois le calcule de la relation de voisinage est terminé. Chaque accident aura une valeur



d’apprentissage présenté par la figure 4.10.

ume en trois principales étapes, illustrées par la figure

Sélection et transformation des couches thématiques en un format adapté à notre

Analyse Spatiale afin d’expliciter les relations topologiques entre le lieu de l’accident

représenté par les différentes couches thématiques.

principe cellulaire à l’échantillon d’apprentissage issu de l’étape 2.

Approche cellulaire pour la fouille de données spatiales

Intégration des données géographiques

hétérogènes

Représentation Multi relationnelles des

données spatiales sous SGBD

Explicitation des

relations de

voisinage et

construction de

l’échantillon

d’apprentissage

Chapitre 4

haque accident aura une valeur



ume en trois principales étapes, illustrées par la figure 4.11 :

un format adapté à notre

Analyse Spatiale afin d’expliciter les relations topologiques entre le lieu de l’accident

couches thématiques.

d’apprentissage issu de l’étape 2.

Approche cellulaire pour la fouille de données spatiales

Adaptation des

graphes

d’induction pour

la fouille de

données

spatiales

Construction de

la base de

connaissance du

graphe

d’induction


104

4.4.3. CONCEPTION ET IMPLEMENTATION

L’objectif de notre projet et en premier lieu réaliser un processus de fouille données

spatiales, principalement concevoir un module assurant un minimum de fonctionnalités d’un

SIG que ça soit l’extraction, l’affichage et l’analyse d’une base de données spatiales.

La particularité de ce genre de processus de fouille données est par définition le type de la

base de données elle même, d’où la conception et la réalisation du module chargé de l’accès à

la base de données Oracle, l’exécution des requêtes spatiales et l’affichage, d’où l’utilisation

d’une bibliothèque de primitives dédiées au traitement des données spatiales.

Outils de développement : Nous avons adopté une solution monoposte qui permettra

l’extension vers l’utilisation à distance.

• JBuilder 2007 : L’outil utilisé pour le développement de l’application est le JBuilder.

C’est un environnement de développement intégré pour Java, permettant le RAD, et

édité par Borland. L'application est elle-même développée en grande partie en Java.

JBuilder apporte certaines fonctionnalités spécifiques, disposant notamment d'une

JVM propre, permettant notamment l'exécution de code Java pas à pas. Selon les

éditions, il ne permet que la réalisation d'applications clientes (J2SE) ou également

serveur (J2EE). Des modules supplémentaires pour les applications mobiles, en

particulier pour les téléphones mobiles et les PDA, ou pour les services Web, sont

également disponibles.

• MapXtreme : Le module supplémentaire intégré est la bibliothèque de développent

pour le MapXtreme. Il permet de créer des applications intégrant une dimension

cartographique aussi bien en environnement monoposte, client/serveur que Web.

Voici la liste des fonctionnalités les plus fréquentes :

a. La thématique : c’est visualiser les données sur la carte géographique ou les

attacher à des équipements puis leurs associer un codage coloré.

b. L’annotation : c’est rendre la carte géographique informatisée en lui ajoutant du

texte, des symboles et des labels.

c. L’affichage en couches : Contrôle l’affichage d’une couche de la carte de façon à

lui permettre elle seule d’apparaître. Le concept de cartographie en couches est utilisé

aussi pour traiter des tables de données séparément.

d. La sélection : c’est la sélection d’un ensemble de régions par glissement de sourie,

ou selon une propriété commune….etc.

CGISS : un Système d'Information

e. L’édition : On peut donner à l’utilisateur la capacit

supprimer des éléments sur la carte.

f. La connectivité à des se

MAPINFO peuvent être connectées à des systèmes de gestion de base de données via

MapXtreme, et leurs appliquées toutes les opérations sensées appliquées sur une table

ordinaire notamment les requêtes SQL

Notre CGISS proposé : le système conçu a plusieurs objectifs

l’intégration des données issues de plusieurs sources de données hétérogènes,

fonctionnalités de base d’un SIG, effectuer l’analyse topologique de voisinage pour fournir

l’échantillon d’apprentissage, et générer la base de règles.

Figure 4.12 Cellular Geographic

Le système CGISS proposé dans

1. Le module Intégration des données hétérogènes est chargé de stocker ces

dans la même base de données. En effet, les données descriptives ont été

indépendantes par rapport aux formes géométriques situées dans les couches

Module et

Sélection et

représentation

Module

Intégration

des données

hétérogènes

CGISS

GISS : un Système d'Information Géographique Cellulo-Symbolique

105

On peut donner à l’utilisateur la capacité d’ajouter, de modifier et de

primer des éléments sur la carte.

. La connectivité à des serveurs de base de données : Les tables Crées sur

peuvent être connectées à des systèmes de gestion de base de données via

, et leurs appliquées toutes les opérations sensées appliquées sur une table

ordinaire notamment les requêtes SQL

: le système conçu a plusieurs objectifs qui commencent par

l’intégration des données issues de plusieurs sources de données hétérogènes,


l’échantillon d’apprentissage, et générer la base de règles.

eographic Information System for Spatial datamining

proposé dans cette thèse est composé de trois modules :

Le module Intégration des données hétérogènes est chargé de stocker ces

base de données. En effet, les données descriptives ont été

par rapport aux formes géométriques situées dans les couches

Interface Utilisateur

Module et

Sélection et

représentation

Module

d’analyse

spatiale Interface

Module Machine cellulaire

Plateforme Weka

SIGFDS

Interface SIGFDS Interface IGSS

Chapitre 4

é d’ajouter, de modifier et de

Les tables Crées sur

peuvent être connectées à des systèmes de gestion de base de données via

, et leurs appliquées toutes les opérations sensées appliquées sur une table

qui commencent par

l’intégration des données issues de plusieurs sources de données hétérogènes, assurer les


patial datamining (CGISS)

:

Le module Intégration des données hétérogènes est chargé de stocker ces dernières

base de données. En effet, les données descriptives ont été

par rapport aux formes géométriques situées dans les couches

Interface d’affichage

Module Machine cellulaire

Plateforme Weka

IGSS

Interface IGSS


106

thématiques. Le résultat sera stocké dans une base de données de type Oracle [Abd,

08].

2. Le Composant SIGFDS (Système d’Information Géographique pour la Fouille de

Données Spatiales), est équipé de deux modules :

• Le Module sélection et représentation est équipé des fonctionnalités de bases

d’un SIG. Il permet d’extraire et d’afficher les couches thématiques à partir de la

base de données stockée sous Oracle. Ainsi d’autres options avancées comme

l’ajout ou élimination des couches, la modification de leurs apparitions, affichage

des labels, …, etc.

• Le module d’analyse spatiale a pour objectif d’expliciter les relations de

voisinage entre le lieu d’accident et sont environnement.

SIGFDS fourni l’échantillon d’apprentissage nécessaire pour l’exécution du composant IGSS.

3. Le Module IGSS est le cœur du système. Il a été développé afin d’intégrer le principe

cellulaire [Atm, 07] et enrichir l’environnement graphique de la plateforme Weka. Il

prend en entrée l’échantillon d’apprentissage issu d’une base de données

géographiques afin de fournir en sortie une base en binaire.

4.5. EXPERIMENTATION

L’échantillon d’apprentissage Ω = ω,ω, … ,ω donné par la figure 4.10 est un

ensemble de 133 accidents, chacun à une valeur représentant la proximité entre le lieu de

chaque accident par rapport aux objets de voisinages des autres couches thématiques :

Carrefour, Etablissement, Marché. Nous avons choisi ces trois deniers afin de cibler en

premier lieu une population forte et un flux important de circulation. Nous avons ignoré les

cas particulier et les accidents en dehors de notre champ d’intérêt.

Pour la première couche, c’est l’ensemble des carrefours et des intersections représentant

un flux important de circulation routière au niveau de la ville d’Oran, donc un nombre

important d’accidents dans les deux catégories : voitures et piétons.

La seconde couche contient des objets spatiaux de type établissements scolaires. En plus

de l’information géométrique contenue dans la base de données, nous distinguons aussi des

informations descriptives de l’objet comme le nom de l’établissement ainsi que sont type.


107

La troisième couche est celle des marchés ainsi que les grands magasins. L’objectif

d’utilisation de cette dernière comme variable descriptive dans le processus de l’extraction

des règles est de viser une concentration de la population.

La variable à prédire Y prend ses valeurs dans l’ensemble des C= è , , avec:

1 : accident de type voiture, 2 : accident de piéton.

Y : Ω = è ,

ω

Conformément au chapitre précédent, le processus général d’apprentissage que notre système

cellulaire CASI appliqué à un échantillon d’apprentissage Ω est organisé sur quatre étapes :

1. Initialisation du graphe d’induction pour l’automate cellulaire : A partir de l’échantillon

Ω nous commençons le traitement symbolique pour la construction du graphe d’induction

(méthode SIPINA).

2. Optimisation du graphe d’induction cellulaire : Cela consiste à la génération des deux

couches CELFACT et CELRULE. Le module COG utilise, pour cette finalité les trois

procédures Fcell , FScell et Scell.

3. Génération des règles de production

4. Validation des règles cellulaires : à partir d’un échantillon de test, l’automate cellulaire

avance d’une configuration vers une autre, dans le but de produire l’ensemble Ω

(prévision fausse).

Nous nous détaillerons pas à ce niveau les quatre étapes. Pour davantage d’information, le

lecteur peut consulter le chapitre précédent.

4.5.1. CONSTRUCTION D ’ UN GRAPHE D’ INDUCTION

La méthode appliquée pour la construction du graphe d’induction est SIPINA. Son

principe consiste à générer une succession de partitions par fusion et/ou éclatement des nœuds

du graphe selon les trois variables exogènes !, !, ! :

1. ! : Carrefour : Voisinage du lieu de l’accident par rapport aux carrefours et des grands

croisements, qui prend les valeurs : 2 : PRET,1 : LOIN.


108

2. ! : Etablissement : Voisinage du lieu de l’accident par rapport aux établissements

scolaires, prend les valeurs : 2 : PRET,1 : LOIN.

3. ! : Marché : Voisinage du lieu de l’accident par rapport aux Marchés et super marchés,

prend les valeurs : 2 : NON, 1 : OUI.

Table .4.1 attributs prédictifs, valeurs et significations

La valeur de proximité est un paramètre subjectif, nous considérons que deux objets spatiaux

sont proches si la distance euclidienne est inférieure à 10 mètres.

À la fin de cette phase d’analyse de propriété de voisinage, nous fournissons au module

chargé de la génération des règles un échantillon d’apprentissage. Nous utilisons l’outil IGSS

développé au sein de notre équipe de recherche, pour la partie arbre de décision et génération

des règles.

Figure 4.13 Construction de l’arbre de décision par IGSS


! " 2 Carrefour Distance % 10 PRET , Distance ( 10 LOIN

! " 2 Etablissement Distance % 10 PRET , Distance ( 10 LOIN

! " 2 Marché Distance % 10 PRET , Distance ( 10 LOIN


109

4.5.2. GENERATION DES REGLES CONJONCTIVES

À partir de notre échantillon d’apprentissage issu de l’analyse de voisinage, nous

appliquons le principe de la machine cellulaire au sein du module IGSS. Ce dernier aide à

l’extraction des règles conjonctives qui seront insérées dans la base de règles du système

CASI.

Figure 4.14 Génération des règles conjonctives par l’IGSS

L’interprétation des règles est comme suit :

R1: IF (X1 = 2 et X2 = 2 et X3 = 2) => 1

Si l’accident est à proximité d’un carrefour, un établissement scolaire ainsi qu’un marché

alors il est de type accident de Piéton.

Cette règle est consistante car un établissement scolaire ainsi qu’un marché est un endroit de

forte population. La présence d’un carrefour augmente la possibilité d’un accident vue le flux

élevé de circulation de voitures.

R2: IF (X1 = 1 et X3 = 2) => 2


110

Si l’accident est à proximité d’un marché mais loin d’un Carrefour alors il est de type

accident de voiture.

Les accidents qui sont prêts d’un marché sont de type accident de voiture, cela est justifiable

par le fait que la présence des véhicule de transport des acheteurs et des livreurs dans un

endroit restreint augmente la possibilité d’accident entre les véhicules.

R3: IF (X1 = 2 et X2 = 1 et X3 = 2) => 1

Si l’accident est à proximité d’un carrefour et un marché mais loin d’un établissement scolaire

alors il est de type piéton.

Cette règle est consistance aussi car au moins deux facteurs d’un accident de type piéton sont

présents : la forte population autour d’un marché est le carrefour d’où le flux élevé de

circulation des voitures.

R4: IF (X2 = 1) => 1

Si l’accident est loin d’un carrefour alors il est de type piéton.

Cette règle ne représente pas un grand intérêt du fait qu’elle possède une seule prémisse donc

elle n’est pas porteuse d’information consistante.

En exploitant les propriétés de voisinages entre les objets spatiaux de trois couches

thématiques, nous avons réussi à extraire trois règles utiles et porteuses d’information qui

n’ont pas été implicite au préalable.

4.6. CONCLUSION

Dans ce chapitre nous avant présenté notre module d’analyse spatiale pour l’extraction des

propriétés de voisinage entre les accidents de la routes et les différentes couches thématiques.

L’utilisation d’oracle comme SGBD nous a parmi d’exploiter des tables relationnelles ainsi

que toutes leurs avantages comme structure de données standard pour le stockage de données.

À l’aide des fonctions d’administration des bases de données, ce SGBD nous a facilité la

manipulation des tables qui ont été un ensemble de fichiers hétérogènes au départ.

Après la sélection et la transformation des données à références spatiales, nous avons

réussi à construire un échantillon d’apprentissage facilement exploitable par notre plateforme

IGSS, développée au sein de notre équipe de recherche, d’où la réussite du premier objectif.


111

À la fin du processus de l’extraction des connaissances à partir des bases de données à

références spatiales, nous avons réussi à extraire quatre règles dont trois sont consistantes. ces

dernières n’ont pas été implicites d’où notre deuxième objectif.


112

BIBLIOGRAPHIE

[Abd, 08] Abdiche, F., Atmani, B., Vers un système d’unification des systèmes d’informations géographiques, International Conference on Web and Information Technologies ICWIT '08, PP 140—146, 2008.

[Atm, 07] Atmani, B., CNSS : Cellular Neuro Symbolic System, Thèse pour l’obtention du diplôme de doctorat d’Etat en informatique, université Es Senia, Oran, 2007.

[Lau, 93] Laurini, R., Les base des données en géomatiques, Traité des nouvelles technologies, Hermé, Paris, 1993.

[Rig, 02] Rigaux, P., Scholl, M., Voisard, A., Spatial databases with application to GIS.

Morgan Kaufmann Publishers Inc, SanFrancisco, United States, 2002.

[Mar, 02] Marmonier, P., L’information géographique, document de l'Ecole Nationale des Sciences Géographiques ENSG, France, 2002.

[Mic, 03] Michael, D., Integrating ArcGIS to Enterprise Oracle Spatial Using Direct

Connect. Twenty-Third Annual ESRI International User Conference GIS Serving Our World, San Diego, California, United States, 2003.

Conclusion générale et perspectives

113

CONCLUSION GENERALE ET PERSPECTIVES

Le thème principal abordé dans cette thèse concerne l’extraction de la connaissance à partir

des données à références spatiales (ECDRS). Il s’agit d’extraire des règles pour la description

ou la prévision d’un phénomène du monde réel qui est dans le cadre de cette recherche les

accidents de la route de la ville d’Oran. Ces derniers atteignent le domaine de la géographie et

plus précisément le stockage des données à références spatiales en plusieurs couches.

Cette thèse a démontré que l’exploitation des relations de voisinages entre les objets

géométriques des différentes couches thématiques joue un rôle important dans l’ECDRS.

En exploitant l’IGSS, on a pu fournir un outil complet qui permettra d’exécuter une

multitude d’algorithmes de fouille de données ainsi que l’application de la machine cellulaire

sur des données à références spatiales.

La stratégie proposée pour l’intégration du SIG et l’IGSS au sein d’un processus d’ECDRS

nous a permis de développer les deux modules du CGISS séparément. Etant donné que le SIG

est un composant très complexe, son utilisation dans ce travail était limitée à l’exploitation

des cartes géographique y compris son extraction à partir de la base de données spatiales ou

l’affichage et les modifications thématiques afin de permettre aux utilisateurs de comprendre

les phénomènes de façon très proche de la réalité et de sélectionner les données utiles pour le

processus de l’ECDRS. D’autres fonctionnalités élémentaires d’analyse spatiale sont aussi

disponibles afin de calculer le voisinage d’un objet par rapport aux autres.

Les données fournies au module SIGFDS ont été soumis à une forte structuration vue que

leurs formats de stockage dans les registres des agents de la direction de la sureté de la wilaya

d’Oran ne permettent pas un traitement automatique. D’où la localisation manuelle de

l’accident sur la carte en passant par l’intégration dans une base de données Oracle pour palier

au problème d’hétérogénéité des sources de données.

Le rôle de l’IGSS était l’application du principe cellulaire pour l’optimisation du graphe

d’induction, ainsi que l’extraction des règles sous une représentation binaire. Cet outil

développé au sein de l’équipe BIOSIF a prouvé dans plusieurs revus et conférences son

optimalité par rapport aux autres méthodes à base de graphes d’inductions.

Donc on a divisé le problème de l’ECDRS en deux sous tâches : Une analyse spatiale pour

construire l’échantillon d’apprentissage à l’aide du SIGFDS ensuite l’extraction des règles par

IGSS.

Conclusion générale et perspectives

114

Ce projet reste modeste par rapport aux problématiques qu’il aborde, mais représente une

initiative dans ce sens et met l’accent sur les principes qui peuvent être une plateforme pour

les prochains travaux.

L’application CGISS propose une adaptation des techniques de la fouille de données

classiques pour la fouille de données spatiales. L’utilisation d’un SIG est importante car elle

peut décrire chaque couche thématique d’une façon détaillée et cibler les zone à forte

fréquence d’accidents.

Nos perspectives consistent à exploiter le système CGISS, que nous avons développé, pour

contribuer à la mise en service d’une cyber infrastructure destinée à la prévention et la

sécurité routière.

Résumé :

La fouille de données spatiales est un processus d’exploration des connaissances implicites dans des bases de données volumineuses à références spatiales. Le caractère géométrique des objets que ces bases de données représentent, rend le processus de fouille de données plus compliqué contrairement aux bases de données classiques. La représentation de la connaissance est aussi une question fondamentale dans la conception d’un système d’apprentissage automatique, car le mode de représentation utilisée peut réduire la complexité en terme de traitement et de stockage.

L’objectif de ce travail consiste d’abord à ramener le problème de la fouille de données spatiales en une analyse de voisinage à l’aide du module SIGFDS, afin de construire l’échantillon d’apprentissage. Ensuite, l’outil IGSS déjà développé au sein de l’équipe de recherche BIOSIF est utilisé afin d’expérimenter une machine cellulaire pour des systèmes d’inférence à base de règles qui se base sur les graphes produits par la méthode SIPINA.

Mots Clé :

Bases de données à références spatiales, Fouille de donnée spatiales, Apprentissage symbolique, Graphe d’induction, Automate cellulaire, Extraction de règles.

Abstract:

Data mining is a process of exploration of the tacit knowledge in spatial databases. The geometrical character of the objects which these databases represent makes the process of data mining more complicated contrary to the traditional databases. The representation of knowledge is also a fundamental question in the design of a machine learning system, because the mode of representation used can reduce complexity in term of treatment and storage.

Initially, the purpose of this project consists in bringing back the problem of spatial data mining in an analysis of vicinity using the SIGFDS component, in order to build the training dataset. Then, the IGSS tool which is already developed within the BIOSIF team is used in order to try out a cellular machine for system inference; according to rules which are based on the graphs produced by SIPINA.

Key words:

Spatial databases, Spatial data mining, Symbolic learning, Induction trees, Cellular automata, Rules Extraction.

faculte des sciences departement d’informatique …

Documents