download

Fouille de données (Data Mining)

Karine Zeitouni

ISTY - 3ème année

Université de Versailles Saint-Quentin

Edition 2010-2011

Fouille de données 2

Plan Général du Cours

1.  Introduction 2.  Principales techniques

1.  Motifs fréquents 2.  Associations 3.  Classification et prédiction 4.  Groupage et segmentation 5.  Préparation des données 6.  Filtrage et validation 7.  Méthodologie et Standards

3.  Fouille de données complexes 1.  Motifs séquentiels 2.  Fouille de texte 3.  Fouille de données spatiales et spatiotemporelles 4.  Fouille de flots de données

4.  Etude de cas K. Zeitouni

I. Introduction

K. Zeitouni Fouille de données 4

I. Introduction

1.  Motivation : pourquoi le data mining ?

2.  Métaphore

3.  Définition

4.  Applications

5.  Fonctions du data mining

6.  Lien aux autres disciplines

7.  Historique

8.  Marché du data mining et de la BI


1. Motivation (1)

!  Problème de l’augmentation de taille des données (tera à petabytes) –  Accumulation de données dans diverses sources due :

"  à la maturité des technologies de bases de données

"  et à l’automatisation de collecte de données

–  Caractéristiques à certaines sources

"  Entrepôts du Web : ex. Google

"  Générées par le commerce électronique : ex. Transactions

"  Réseaux sociaux et hébergement de documents : ex. Facebook, gmail…

"  Générées par des capteurs : ex. Images de télédétection

"  + Surveillance, Logs de tout genre, simulations, …

6

Motivation (2)

!  Croissance exponentielle des bases de données

K. Zeitouni Fouille de données

Motivation (3)

!  Pourquoi maintenant ? –  L’utilisation dans l’industrie du data mining est récente –  Les données sont produites électroniquement –  Le contexte est ultra-concurrentiel –  Les données sont archivées –  Plateformes de calculs disponibles à bas prix –  Des solutions et des compétences data mining disponibles

!  Un nouveau marché –  Nouveau concept : Information as a product –  Toute société ou organisme qui collecte des données valorisables est

potentiellement un broker d’information, qu’il peut vendre ou en exploiter commercialement les modèles pour des utilisations essentiellement marketing.

–  Ex: Mots-clés pour les moteurs de recherche. K. Zeitouni Fouille de données 7


Trop de données...

Paradoxe : !  trop données mais pas assez d’informations


Difficulté d’accès à l’information…

!  Trop de données tue …l’information


Trop de pistes à explorer...


…pas d’accès facile à l’information

Jane, we need

a solution !

Oh John, the computer doesn’t

provide any ! What are we going to do ?


Ce dont on a besoin….

Automatisation

K. Zeitouni Fouille de données 13 Génération d’hypothèses

Ce dont on a besoin….

Extraction des connaissances des bases de données


Qu’est ce que le Data Mining ?

!  Objectif : –  Par analogie à la recherche des pépites d ’or dans

un gisement, le data mining vise : 1.  à extraire des informations cachées par analyse

globale ; 2.  à découvrir des modèles (“patterns”) difficiles à

percevoir car : "  le volume de données est très grand "  le nombre de variables à considérer est important "  ces “patterns” sont imprévisibles (même à titre

d’hypothèse à vérifier)

#  Générateur valideur d’hypothèses


3. Définition

!  Définition : –  Extraction de connaissances, non triviales, implicites,

préalablement inconnues et potentiellement utiles, depuis des données stockées dans de larges bases de données.

!  Ce qui n’est pas data mining –  L’analyse par requêtes. –  Les bases de données déductives et les systèmes experts –  Les méthodes d’apprentissage (IA) et l’analyse statistique sur un

petit ensemble d’observations.

Applications par domaine


Services financiers –  Attrition (churn) –  Détection de fraudes –  Identification opportunités de ventes

Marketing –  Gestion de la relation client (CRM) –  Optimisation de campagnes marketing –  Ventes croisées

Télécommunications –  Fidélisation (anti-churn) –  Ventes croisées –  Incidentologie

Assurances, Secteur public –  Indiquer les anomalies des comptes –  Réduire le coût d’investissement

d’activité suspecte –  Détection de la fraudes

Grande Distribution –  Fidélisation –  Ventes croisées –  Analyses de panier –  Détection de fraudes

Sciences de la vie –  Trouver les facteurs de diagnostic

typiques d’une maladie –  Alignement gênes & protéïnes –  Identifier les capacités d’interaction de

médicaments Internet –  Personnalisation des pub affichées –  Optimisation des sites web –  Profilage et Recommendation

Autre –  Rech. d’info (web ou document) –  Recherche par similarité (images…) –  Analyse spatiale…


Domaines phares

La maîtrise de l’information et de la connaissance permet : ! CRM (Customer Relationship Management)

–  Améliorer la connaissance client, Identifier et prévoir la rentabilité client. –  Accroître l’efficacité du marketing client pour le garder.

!  SRM (Supplier Relationship Management) –  Classifier et évaluer l’ensemble des fournisseurs. –  Planifier et piloter la stratégie Achat.

!  FI (Finance Intelligence) –  Mesurer et gérer les risques.

! SPM (Strategic Performance Management) –  Déterminer et contrôler les indicateurs clé de la performance de l’entreprise –  Tirer parti d’un avantage concurrentiel

!  HCM (Human Capital Management) –  Modéliser la carte des RH (Ressources Humaines) –  Aligner les stratégies RH, les processus et les technologies.


Exemples d’application !  Gestion et analyse commerciales

–  Analyse clientèle ou CRM analytique (gestion de la relation client) : "  Qui sont mes clients ? Pourquoi sont-ils mes clients ? Comment les

conserver ou les faire revenir ? –  Marketing ciblé, actions commerciales, vente croisée :

"  Où placer ce produit dans les rayons ? Comment cibler plus précisément le mailing concernant ce produit ?

!  Analyse du risque –  Prédiction, fidélisation des clients, contrôle qualité, compétitivité

–  Détection des fraudes, analyse des incidents

!  Autres applications –  Gestion, indexation et classification de documents, du web et de la

navigation sur Internet.

–  Moteurs de recherche intelligents.

19

Data mining pour le CRM

!  Mieux connaître le client ! Pour mieux le servir

! Pour augmenter sa satisfaction ! Pour augmenter sa fidélité (+ coûteux d’acquérir un client que le conserver)

!  Data mining pour savoir : "  Quel client restera fidèle et qui partira? "  Quels produits proposer à quels clients? "  Qu’est-ce qui détermine qu’une personne répondra à une offre

donnée? "  Quel est le prochain produit ou service qu’un client particulier

désirera?



Exemple 1 – analyse commerciale

!  Gisement de données –  Opérations de carte de crédit, de cartes de fidélité, plaintes des clients,

en plus des sondages marketing (publics), Web logs

!  CRM –  Grouper les clients par classes homogènes selon leurs propriétés : âge,

situation familiale, CSP, revenu, type de résidences, types de dépenses, etc.

–  Profilage des clients par classification : qui achète quoi ?

!  Ventes croisées –  Associations/corrélations entre produits vendus

!  Usage du web – marketing et ventes sur internet –  Découverte des préférences des clients, optimisation du site, etc.


Exemple 2 : Anti-Churn

!  Application type dans le secteur des télécom !  Bases de données des clients et des appels !  Fichiers des réclamations !  Qui sont les clients susceptibles de partir chez

un concurrent ?


Exemple 3 – Détection de fraudes

!  Santé "  Anomalies dans les prescriptions

!  Assurances –  détecte les fausses déclarations d’accidents

!  Finance –  Transactions financières suspectes

!  Télécommunications –  Caractérisation des modèles d’appels en fonction de la

destination, du moment et de la durée et détection de déviation par rapport à la normale


Exemple 4 : Application boursière

!  Portail boursier –  conseil en achat / vente d'actions

!  Données de base –  historique des cours –  portefeuille client

!  Analyse du risque !  Analyse technique du signal !  Conseils d'achat – vente !  Mise à disposition sur portail


5. Fonctions du Data Mining (1)

!  Caractérisation et discrimination –  Généraliser, résumer, retrouver et contraster les caractéristiques

des données (ou d’une partie)

!  Association –  Association traditionnelle : PC $ Pack Office [support = 1%, confiance = 75%] Diaper $ Beer [support = 0.5%, confiance = 75%] –  Association multi-dimensionnelle : âge(X, “20..29”) ^ revenu(X, “20..29K”) $ achat(X, “PC”) [support =

2%, confiance = 60%] Corrélation ou causalité ?


Fonctions du Data Mining (2)

!  Classification et prédiction

–  Apprentissage de modèles permettant de décrire et de différencier des classes afin de classer les futures « individus »

–  Présentation : règles de classement (si ...alors), arbre de décision, réseaux neuronal

–  Ex : solvabilité des clients

!  Régression –  Fonction mathématique

y=a1*x1+a2*x2+...+an*xn + r ; r = résidu et y = variable à prédire –  Ex : prédire le % de profit ou de perte des prêts d'une banque

26

Illustration : Modèle prédictif

Mining Model

DM Engine

DM Engine

Predicted Data

Training Data

Mining Model

Mining Model Data to Predict




!  Classification ou segmentation non supervisée(clustering) –  Découpage d’une population en sous-ensembles homogènes permettant

de découvrir des classes –  Son principe est de maximiser la similarité intra-classe tout en minimisant

la similarité inter-classes –  Ex : trouver une segmentation pertinente des clients pour guider les

actions commerciales ou les affectations à des conseillers,…



!  Analyse de déviations (bruit ou anomalies ?) –  Par la non conformité au comportement général

–  Peut-être interprété comme un bruit à ne pas prendre en compte

–  ou comme une anomalie dans la détection de fraude

–  ou comme un événement intéressant par sa rareté

!  Tendances et évolutions –  Analyse de séries temporelles dans le but de prédire l’évolution

–  Détection de motifs séquentiels fréquents ou périodiques

"  Ex1 : séquence d’achat d’un client

"  Ex2 : comportement collectif d’achats (périodicité)

!  Et la tendance et déviations sur des flots de données ?


6. Lien aux autres disciplines

Data Mining

Bases de données Statistique

Autres disciplines

Science de L’information

Intelligence Artificielle (IA) Visualisation

30

Data mining versus statistique

!  En statistique : –  Quelques centaines d’individus –  Quelques variables –  Fortes hypothèses sur les lois statistiques –  Importance accordée au calcul –  Échantillon aléatoire.

!  En Data mining –  Des millions d’individus –  Des centaines de variables –  Données recueillies sans étude préalable –  Nécessité de calculs rapides –  Corpus d’apprentissage.


31

Data mining versus statistique et IA



Ce qui est nouveau en data mining

!  Expression et résolution des règles d'association –  analyse de la consommation depuis <Num. transaction, articles achetés>

!  Extension de SQL par des requêtes inductives (ex. DMQL)

–  intro. de connaissances tq hiérarchie de concepts et définition des seuils

!  Nouveaux algorithmes : –  ex. pour le clustering utilise des techniques d’indexation de bases de

données pour l ’efficacité sur de GROS volumes de données

!  L’intégration de l’OLAP et du data mining –  Par exemple, génération de hiérarchies de dimension par la classification

automatique hiérarchique.


DM versus Systèmes décisionnels (1)

!  Knowledge Discovery in Databases (KDD) –  Processus complet d’Extraction de Connaissances

des Données (ECD) !  Comprend plusieurs phases dont :

–  Le data warehousing –  L’OLAP –  Le data mining –  Le reporting


!  Datawarehouse (Entrepôt de données) –  Base de données construite dans un but décisionnel

construite depuis des bases de production souvent multi-sources et archivant des données historisées "  actualisées soit par interrogation des bases sources (data pull),

soit par envoie automatiques des modifications par les serveurs (data push)

"  généralement de gde taille corr. à l’archivage du résultat des requêtes

–  Datamart : magasin de données ciblé sur qq sujets particuliers à l ’échelle d’un département de l’entreprise



!  On-Line Analytical Processing (OLAP) –  exploration (lecture) d’un datawarehouse par analyse multi-

dimensionnelle et interactive –  représente les données dans des «Data Cubes» donnant des

comptages, totaux, ..., pour chaque variable et pour toute combinaison de variables avec différents niveaux de détail (ex : total annuel, sous-totaux mensuels, par semaine, ...)



Processus de KDD

37

Business Intelligence

!  La Business Intelligence (BI) est un concept proposé par IBM, Microsoft, Oracle, … pour :

–  « Consolider la quantité gigantesque de données atomiques que les entreprises génèrent en information pour que les gens puissent les accéder, les comprendre et les utiliser »

=> Présenter l’information dans des formats plus utiles, en utilisant des outils d’exploration, de reporting et de visualisation avancés.

!  But : –  Améliorer les performances décisionnelles de l'entreprise en

répondant aux demandes d’analyse des décideurs non informaticiens et non statisticiens


38

Processus de KDD revu



Pyramide de la BI Niveau d’aide à la décision Utilisateur final

Analyste métier

Analyste de données

DBA

Aide à la décision

Présentation Techniques de Visualisation

Data Mining Découverte des connaissances

Exploration des données

Intégration, OLAP

Analyse statistique, requêteurs, rapports

Entrepôts et magasins de données

Sources de données Documents, fichiers, SGBD opérationnels (OLTP), fournisseurs


BD Web (>90) - BD semi-structurée (XML)

- BD documents

Création et alimentation de fichiers (60)

SGBD (70 - 80) BD Relationnelles & OLTP

BD avancées (>mi 80) - Relationnel étendu, déductif

- Objet, objet-relationnel - Types spatial, multimédia, tempo.

Datawarehouse/ Datamining (>fin 80)

- OLAP - KDD

BD mondiales (> 2000) - Réseaux sociaux énormes

-  Flots de données => Besoin de flexibilité et d’auto-admin

BD & RI convergents (> 2000) - Requêtes flexibles (Top-K, similarité)

-  BD probabilistes -  KDD essentiel !

7. Historique (1)

41

Historique (2)

!  Le data mining n’est pas nouveau : –  1875 : Régression linéaire –  1936 : Analyse discriminante –  1943 : Réseaux de neurone –  1944 : Régression logistique –  1984 : Arbres de décision –  1990 : Apparition du concept de data mining



Historique (3): domaine de recherche !  1989 IJCAI Workshop on Knowledge Discovery in Databases

–  Knowledge Discovery in Databases (G. Piatetsky-Shapiro and W. Frawley, 1991)

!  1991-1994 Workshops on Knowledge Discovery in Databases

–  Advances in Knowledge Discovery and Data Mining (U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 1996)

!  1995-1998 International Conferences on Knowledge Discovery in Databases and Data Mining (KDD’95-98)

–  Journal of Data Mining and Knowledge Discovery (1997)

!  ACM SIGKDD conferences since 1998 and SIGKDD Explorations

!  More conferences on data mining

–  PAKDD (1997), PKDD (1997), SIAM-Data Mining (2001), (IEEE) ICDM (2001), etc.

!  ACM Transactions on KDD starting in 2007

43

8. Marché de la Business Intelligence

Marché d’après Estimations de Gartner (Juin 2009) : 7.2 Milliard $ en 2007 $ 8.8 Milliards $ en 2008 (+21.7%)

BI, Analytics and Performance Management Revenue (Millions of U.S. Dollars)!

Company 2008 Revenue 2008 Market Share (%) SAP 2,096.0 23.8 SAS Institute 1,286.6 14.6 Oracle 1,284.0 14.6 IBM 996.5 11.3 Microsoft 681.5 7.7 MicroStrategy 280.0 3.2 Others 2,177.1 24.7 . Total 8,801.6 100.0



Produits de data mining

SAS Poids lourd en stat.

Racheté par SPSS Workflows Convivial

DataMind Basé réseaux d’agents


Quelques produits

!  SAS Entreprise Miner de SAS –  Statistiques, groupage, arbres de

décision, réseaux de neurones, associations, ...

!  SPSS et Clementine de SPSS –  statistiques, classification, réseaux de

neurones !  Intelligent Miner d'IBM

–  modélisation prédictive (stat.), groupage, segmentation, analyse d'associations, détection de déviation, analyse de texte libre

!  KXEN –  Utilise SVM pour le SRM (Structural Risk

Minimization)

!  Oracle 10g ODM !  SQL Server DM

Logiciels libres : !  Weka !  RapidMiner (Univ. Dortmund) !  Tanagra (Univ. Lyon 2)

Site de référence : –  kdnuggets.com

K. Zeitouni 46 Fouille de données

Standards

!  Predictive Model Markup Language (PMML) –  Standard de Data Mining Group (DMG) : www.dmg.org –  Pour les modèles générés par différents algorithmes de data mining

ainsi que pour la transformation de données et les statistiques descriptives.

–  Adopté par une majorité d’outils : SAS®, SPSS®, Microsoft®, Oracle®, IBM®, KXEN™, ANGOSS, …

!  CRoss Industry Standard Process for Data Mining (CRISP-DM)

–  CRISP-DM standardise la méthodologie pour le data mining et l’analyse predictive.

!  SQL/ MM DM !  Java DM (JDM) API


50

Offre de postes en Data Mining



Références ouvrages

!  René Lefébure et Gilles Venturi, Data Mining : Gestion de la relation client, personnalisations de site

web, Eyrolles, mars 2001

!  J. Han and M. Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann, 2nd ed., 2006 (3ed. 2011)

!  D. J. Hand, H. Mannila, and P. Smyth, Principles of Data Mining, MIT Press, 2001

!  T. Hastie, R. Tibshirani, and J. Friedman, The Elements of Statistical Learning: Data Mining, Inference, and Prediction, 2nd ed., Springer-Verlag, 2009

!  P.-N. Tan, M. Steinbach and V. Kumar, Introduction to Data Mining, Wiley, 2005

!  S. M. Weiss and N. Indurkhya, Predictive Data Mining, Morgan Kaufmann, 1998

!  U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy. Advances in Knowledge Discovery and Data Mining. AAAI/MIT Press, 1996

!  G. Piatetsky-Shapiro and W. J. Frawley. Knowledge Discovery in Databases. AAAI/MIT Press, 1991

download

Documents

donnes trop

donnes motivation

donnes et lautomatisation

donnes dductives et

donnes complexes1

zeitouni fouille

donnes ce dont

donnes stockes dans