download
TRANSCRIPT
Fouille de données (Data Mining)
Karine Zeitouni
ISTY - 3ème année
Université de Versailles Saint-Quentin
Edition 2010-2011
Fouille de données 2
Plan Général du Cours
1. Introduction 2. Principales techniques
1. Motifs fréquents 2. Associations 3. Classification et prédiction 4. Groupage et segmentation 5. Préparation des données 6. Filtrage et validation 7. Méthodologie et Standards
3. Fouille de données complexes 1. Motifs séquentiels 2. Fouille de texte 3. Fouille de données spatiales et spatiotemporelles 4. Fouille de flots de données
4. Etude de cas K. Zeitouni
I. Introduction
K. Zeitouni Fouille de données 4
I. Introduction
1. Motivation : pourquoi le data mining ?
2. Métaphore
3. Définition
4. Applications
5. Fonctions du data mining
6. Lien aux autres disciplines
7. Historique
8. Marché du data mining et de la BI
K. Zeitouni Fouille de données 5
1. Motivation (1)
! Problème de l’augmentation de taille des données (tera à petabytes) – Accumulation de données dans diverses sources due :
" à la maturité des technologies de bases de données
" et à l’automatisation de collecte de données
– Caractéristiques à certaines sources
" Entrepôts du Web : ex. Google
" Générées par le commerce électronique : ex. Transactions
" Réseaux sociaux et hébergement de documents : ex. Facebook, gmail…
" Générées par des capteurs : ex. Images de télédétection
" + Surveillance, Logs de tout genre, simulations, …
6
Motivation (2)
! Croissance exponentielle des bases de données
K. Zeitouni Fouille de données
Motivation (3)
! Pourquoi maintenant ? – L’utilisation dans l’industrie du data mining est récente – Les données sont produites électroniquement – Le contexte est ultra-concurrentiel – Les données sont archivées – Plateformes de calculs disponibles à bas prix – Des solutions et des compétences data mining disponibles
! Un nouveau marché – Nouveau concept : Information as a product – Toute société ou organisme qui collecte des données valorisables est
potentiellement un broker d’information, qu’il peut vendre ou en exploiter commercialement les modèles pour des utilisations essentiellement marketing.
– Ex: Mots-clés pour les moteurs de recherche. K. Zeitouni Fouille de données 7
K. Zeitouni Fouille de données 8
Trop de données...
Paradoxe : ! trop données mais pas assez d’informations
K. Zeitouni Fouille de données 9
Difficulté d’accès à l’information…
! Trop de données tue …l’information
K. Zeitouni Fouille de données 10
Trop de pistes à explorer...
K. Zeitouni Fouille de données 11
…pas d’accès facile à l’information
Jane, we need
a solution !
Oh John, the computer doesn’t
provide any ! What are we going to do ?
K. Zeitouni Fouille de données 12
Ce dont on a besoin….
Automatisation
K. Zeitouni Fouille de données 13 Génération d’hypothèses
Ce dont on a besoin….
Extraction des connaissances des bases de données
K. Zeitouni Fouille de données 14
Qu’est ce que le Data Mining ?
! Objectif : – Par analogie à la recherche des pépites d ’or dans
un gisement, le data mining vise : 1. à extraire des informations cachées par analyse
globale ; 2. à découvrir des modèles (“patterns”) difficiles à
percevoir car : " le volume de données est très grand " le nombre de variables à considérer est important " ces “patterns” sont imprévisibles (même à titre
d’hypothèse à vérifier)
# Générateur valideur d’hypothèses
K. Zeitouni Fouille de données 15
3. Définition
! Définition : – Extraction de connaissances, non triviales, implicites,
préalablement inconnues et potentiellement utiles, depuis des données stockées dans de larges bases de données.
! Ce qui n’est pas data mining – L’analyse par requêtes. – Les bases de données déductives et les systèmes experts – Les méthodes d’apprentissage (IA) et l’analyse statistique sur un
petit ensemble d’observations.
Applications par domaine
K. Zeitouni Fouille de données 16
Services financiers – Attrition (churn) – Détection de fraudes – Identification opportunités de ventes
Marketing – Gestion de la relation client (CRM) – Optimisation de campagnes marketing – Ventes croisées
Télécommunications – Fidélisation (anti-churn) – Ventes croisées – Incidentologie
Assurances, Secteur public – Indiquer les anomalies des comptes – Réduire le coût d’investissement
d’activité suspecte – Détection de la fraudes
Grande Distribution – Fidélisation – Ventes croisées – Analyses de panier – Détection de fraudes
Sciences de la vie – Trouver les facteurs de diagnostic
typiques d’une maladie – Alignement gênes & protéïnes – Identifier les capacités d’interaction de
médicaments Internet – Personnalisation des pub affichées – Optimisation des sites web – Profilage et Recommendation
Autre – Rech. d’info (web ou document) – Recherche par similarité (images…) – Analyse spatiale…
K. Zeitouni Fouille de données 17
Domaines phares
La maîtrise de l’information et de la connaissance permet : ! CRM (Customer Relationship Management)
– Améliorer la connaissance client, Identifier et prévoir la rentabilité client. – Accroître l’efficacité du marketing client pour le garder.
! SRM (Supplier Relationship Management) – Classifier et évaluer l’ensemble des fournisseurs. – Planifier et piloter la stratégie Achat.
! FI (Finance Intelligence) – Mesurer et gérer les risques.
! SPM (Strategic Performance Management) – Déterminer et contrôler les indicateurs clé de la performance de l’entreprise – Tirer parti d’un avantage concurrentiel
! HCM (Human Capital Management) – Modéliser la carte des RH (Ressources Humaines) – Aligner les stratégies RH, les processus et les technologies.
K. Zeitouni Fouille de données 18
Exemples d’application ! Gestion et analyse commerciales
– Analyse clientèle ou CRM analytique (gestion de la relation client) : " Qui sont mes clients ? Pourquoi sont-ils mes clients ? Comment les
conserver ou les faire revenir ? – Marketing ciblé, actions commerciales, vente croisée :
" Où placer ce produit dans les rayons ? Comment cibler plus précisément le mailing concernant ce produit ?
! Analyse du risque – Prédiction, fidélisation des clients, contrôle qualité, compétitivité
– Détection des fraudes, analyse des incidents
! Autres applications – Gestion, indexation et classification de documents, du web et de la
navigation sur Internet.
– Moteurs de recherche intelligents.
19
Data mining pour le CRM
! Mieux connaître le client ! Pour mieux le servir
! Pour augmenter sa satisfaction ! Pour augmenter sa fidélité (+ coûteux d’acquérir un client que le conserver)
! Data mining pour savoir : " Quel client restera fidèle et qui partira? " Quels produits proposer à quels clients? " Qu’est-ce qui détermine qu’une personne répondra à une offre
donnée? " Quel est le prochain produit ou service qu’un client particulier
désirera?
K. Zeitouni Fouille de données
K. Zeitouni Fouille de données 20
Exemple 1 – analyse commerciale
! Gisement de données – Opérations de carte de crédit, de cartes de fidélité, plaintes des clients,
en plus des sondages marketing (publics), Web logs
! CRM – Grouper les clients par classes homogènes selon leurs propriétés : âge,
situation familiale, CSP, revenu, type de résidences, types de dépenses, etc.
– Profilage des clients par classification : qui achète quoi ?
! Ventes croisées – Associations/corrélations entre produits vendus
! Usage du web – marketing et ventes sur internet – Découverte des préférences des clients, optimisation du site, etc.
K. Zeitouni Fouille de données 21
Exemple 2 : Anti-Churn
! Application type dans le secteur des télécom ! Bases de données des clients et des appels ! Fichiers des réclamations ! Qui sont les clients susceptibles de partir chez
un concurrent ?
K. Zeitouni Fouille de données 22
Exemple 3 – Détection de fraudes
! Santé " Anomalies dans les prescriptions
! Assurances – détecte les fausses déclarations d’accidents
! Finance – Transactions financières suspectes
! Télécommunications – Caractérisation des modèles d’appels en fonction de la
destination, du moment et de la durée et détection de déviation par rapport à la normale
K. Zeitouni Fouille de données 23
Exemple 4 : Application boursière
! Portail boursier – conseil en achat / vente d'actions
! Données de base – historique des cours – portefeuille client
! Analyse du risque ! Analyse technique du signal ! Conseils d'achat – vente ! Mise à disposition sur portail
K. Zeitouni Fouille de données 24
5. Fonctions du Data Mining (1)
! Caractérisation et discrimination – Généraliser, résumer, retrouver et contraster les caractéristiques
des données (ou d’une partie)
! Association – Association traditionnelle : PC $ Pack Office [support = 1%, confiance = 75%] Diaper $ Beer [support = 0.5%, confiance = 75%] – Association multi-dimensionnelle : âge(X, “20..29”) ^ revenu(X, “20..29K”) $ achat(X, “PC”) [support =
2%, confiance = 60%] Corrélation ou causalité ?
K. Zeitouni Fouille de données 25
Fonctions du Data Mining (2)
! Classification et prédiction
– Apprentissage de modèles permettant de décrire et de différencier des classes afin de classer les futures « individus »
– Présentation : règles de classement (si ...alors), arbre de décision, réseaux neuronal
– Ex : solvabilité des clients
! Régression – Fonction mathématique
y=a1*x1+a2*x2+...+an*xn + r ; r = résidu et y = variable à prédire – Ex : prédire le % de profit ou de perte des prêts d'une banque
26
Illustration : Modèle prédictif
Mining Model
DM Engine
DM Engine
Predicted Data
Training Data
Mining Model
Mining Model Data to Predict
K. Zeitouni Fouille de données
K. Zeitouni Fouille de données 27
Fonctions du Data Mining (3)
! Classification ou segmentation non supervisée(clustering) – Découpage d’une population en sous-ensembles homogènes permettant
de découvrir des classes – Son principe est de maximiser la similarité intra-classe tout en minimisant
la similarité inter-classes – Ex : trouver une segmentation pertinente des clients pour guider les
actions commerciales ou les affectations à des conseillers,…
K. Zeitouni Fouille de données 28
Fonctions du Data Mining (4)
! Analyse de déviations (bruit ou anomalies ?) – Par la non conformité au comportement général
– Peut-être interprété comme un bruit à ne pas prendre en compte
– ou comme une anomalie dans la détection de fraude
– ou comme un événement intéressant par sa rareté
! Tendances et évolutions – Analyse de séries temporelles dans le but de prédire l’évolution
– Détection de motifs séquentiels fréquents ou périodiques
" Ex1 : séquence d’achat d’un client
" Ex2 : comportement collectif d’achats (périodicité)
! Et la tendance et déviations sur des flots de données ?
K. Zeitouni Fouille de données 29
6. Lien aux autres disciplines
Data Mining
Bases de données Statistique
Autres disciplines
Science de L’information
Intelligence Artificielle (IA) Visualisation
30
Data mining versus statistique
! En statistique : – Quelques centaines d’individus – Quelques variables – Fortes hypothèses sur les lois statistiques – Importance accordée au calcul – Échantillon aléatoire.
! En Data mining – Des millions d’individus – Des centaines de variables – Données recueillies sans étude préalable – Nécessité de calculs rapides – Corpus d’apprentissage.
K. Zeitouni Fouille de données
31
Data mining versus statistique et IA
K. Zeitouni Fouille de données
K. Zeitouni Fouille de données 32
Ce qui est nouveau en data mining
! Expression et résolution des règles d'association – analyse de la consommation depuis <Num. transaction, articles achetés>
! Extension de SQL par des requêtes inductives (ex. DMQL)
– intro. de connaissances tq hiérarchie de concepts et définition des seuils
! Nouveaux algorithmes : – ex. pour le clustering utilise des techniques d’indexation de bases de
données pour l ’efficacité sur de GROS volumes de données
! L’intégration de l’OLAP et du data mining – Par exemple, génération de hiérarchies de dimension par la classification
automatique hiérarchique.
K. Zeitouni Fouille de données 33
DM versus Systèmes décisionnels (1)
! Knowledge Discovery in Databases (KDD) – Processus complet d’Extraction de Connaissances
des Données (ECD) ! Comprend plusieurs phases dont :
– Le data warehousing – L’OLAP – Le data mining – Le reporting
K. Zeitouni Fouille de données 34
! Datawarehouse (Entrepôt de données) – Base de données construite dans un but décisionnel
construite depuis des bases de production souvent multi-sources et archivant des données historisées " actualisées soit par interrogation des bases sources (data pull),
soit par envoie automatiques des modifications par les serveurs (data push)
" généralement de gde taille corr. à l’archivage du résultat des requêtes
– Datamart : magasin de données ciblé sur qq sujets particuliers à l ’échelle d’un département de l’entreprise
DM versus Systèmes décisionnels (2)
K. Zeitouni Fouille de données 35
! On-Line Analytical Processing (OLAP) – exploration (lecture) d’un datawarehouse par analyse multi-
dimensionnelle et interactive – représente les données dans des «Data Cubes» donnant des
comptages, totaux, ..., pour chaque variable et pour toute combinaison de variables avec différents niveaux de détail (ex : total annuel, sous-totaux mensuels, par semaine, ...)
DM versus Systèmes décisionnels (3)
K. Zeitouni Fouille de données 36
Processus de KDD
37
Business Intelligence
! La Business Intelligence (BI) est un concept proposé par IBM, Microsoft, Oracle, … pour :
– « Consolider la quantité gigantesque de données atomiques que les entreprises génèrent en information pour que les gens puissent les accéder, les comprendre et les utiliser »
=> Présenter l’information dans des formats plus utiles, en utilisant des outils d’exploration, de reporting et de visualisation avancés.
! But : – Améliorer les performances décisionnelles de l'entreprise en
répondant aux demandes d’analyse des décideurs non informaticiens et non statisticiens
K. Zeitouni Fouille de données
38
Processus de KDD revu
K. Zeitouni Fouille de données
K. Zeitouni Fouille de données 39
Pyramide de la BI Niveau d’aide à la décision Utilisateur final
Analyste métier
Analyste de données
DBA
Aide à la décision
Présentation Techniques de Visualisation
Data Mining Découverte des connaissances
Exploration des données
Intégration, OLAP
Analyse statistique, requêteurs, rapports
Entrepôts et magasins de données
Sources de données Documents, fichiers, SGBD opérationnels (OLTP), fournisseurs
K. Zeitouni Fouille de données 40
BD Web (>90) - BD semi-structurée (XML)
- BD documents
Création et alimentation de fichiers (60)
SGBD (70 - 80) BD Relationnelles & OLTP
BD avancées (>mi 80) - Relationnel étendu, déductif
- Objet, objet-relationnel - Types spatial, multimédia, tempo.
Datawarehouse/ Datamining (>fin 80)
- OLAP - KDD
BD mondiales (> 2000) - Réseaux sociaux énormes
- Flots de données => Besoin de flexibilité et d’auto-admin
BD & RI convergents (> 2000) - Requêtes flexibles (Top-K, similarité)
- BD probabilistes - KDD essentiel !
7. Historique (1)
41
Historique (2)
! Le data mining n’est pas nouveau : – 1875 : Régression linéaire – 1936 : Analyse discriminante – 1943 : Réseaux de neurone – 1944 : Régression logistique – 1984 : Arbres de décision – 1990 : Apparition du concept de data mining
K. Zeitouni Fouille de données
K. Zeitouni Fouille de données 42
Historique (3): domaine de recherche ! 1989 IJCAI Workshop on Knowledge Discovery in Databases
– Knowledge Discovery in Databases (G. Piatetsky-Shapiro and W. Frawley, 1991)
! 1991-1994 Workshops on Knowledge Discovery in Databases
– Advances in Knowledge Discovery and Data Mining (U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 1996)
! 1995-1998 International Conferences on Knowledge Discovery in Databases and Data Mining (KDD’95-98)
– Journal of Data Mining and Knowledge Discovery (1997)
! ACM SIGKDD conferences since 1998 and SIGKDD Explorations
! More conferences on data mining
– PAKDD (1997), PKDD (1997), SIAM-Data Mining (2001), (IEEE) ICDM (2001), etc.
! ACM Transactions on KDD starting in 2007
43
8. Marché de la Business Intelligence
Marché d’après Estimations de Gartner (Juin 2009) : 7.2 Milliard $ en 2007 $ 8.8 Milliards $ en 2008 (+21.7%)
BI, Analytics and Performance Management Revenue (Millions of U.S. Dollars)!
Company 2008 Revenue 2008 Market Share (%) SAP 2,096.0 23.8 SAS Institute 1,286.6 14.6 Oracle 1,284.0 14.6 IBM 996.5 11.3 Microsoft 681.5 7.7 MicroStrategy 280.0 3.2 Others 2,177.1 24.7 . Total 8,801.6 100.0
K. Zeitouni Fouille de données
K. Zeitouni Fouille de données 44
Produits de data mining
SAS Poids lourd en stat.
Racheté par SPSS Workflows Convivial
DataMind Basé réseaux d’agents
K. Zeitouni Fouille de données 45
Quelques produits
! SAS Entreprise Miner de SAS – Statistiques, groupage, arbres de
décision, réseaux de neurones, associations, ...
! SPSS et Clementine de SPSS – statistiques, classification, réseaux de
neurones ! Intelligent Miner d'IBM
– modélisation prédictive (stat.), groupage, segmentation, analyse d'associations, détection de déviation, analyse de texte libre
! KXEN – Utilise SVM pour le SRM (Structural Risk
Minimization)
! Oracle 10g ODM ! SQL Server DM
Logiciels libres : ! Weka ! RapidMiner (Univ. Dortmund) ! Tanagra (Univ. Lyon 2)
Site de référence : – kdnuggets.com
K. Zeitouni 46 Fouille de données
K. Zeitouni 47 Fouille de données
metagroup.com Copyright © 2004 META Group, Inc. All rights reserved. METAspectrum 60.1
Classement des logiciels de DM
K. Zeitouni 48 Fouille de données
Standards
! Predictive Model Markup Language (PMML) – Standard de Data Mining Group (DMG) : www.dmg.org – Pour les modèles générés par différents algorithmes de data mining
ainsi que pour la transformation de données et les statistiques descriptives.
– Adopté par une majorité d’outils : SAS®, SPSS®, Microsoft®, Oracle®, IBM®, KXEN™, ANGOSS, …
! CRoss Industry Standard Process for Data Mining (CRISP-DM)
– CRISP-DM standardise la méthodologie pour le data mining et l’analyse predictive.
! SQL/ MM DM ! Java DM (JDM) API
K. Zeitouni Fouille de données 49
50
Offre de postes en Data Mining
K. Zeitouni Fouille de données
K. Zeitouni Fouille de données 51
Références ouvrages
! René Lefébure et Gilles Venturi, Data Mining : Gestion de la relation client, personnalisations de site
web, Eyrolles, mars 2001
! J. Han and M. Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann, 2nd ed., 2006 (3ed. 2011)
! D. J. Hand, H. Mannila, and P. Smyth, Principles of Data Mining, MIT Press, 2001
! T. Hastie, R. Tibshirani, and J. Friedman, The Elements of Statistical Learning: Data Mining, Inference, and Prediction, 2nd ed., Springer-Verlag, 2009
! P.-N. Tan, M. Steinbach and V. Kumar, Introduction to Data Mining, Wiley, 2005
! S. M. Weiss and N. Indurkhya, Predictive Data Mining, Morgan Kaufmann, 1998
! U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy. Advances in Knowledge Discovery and Data Mining. AAAI/MIT Press, 1996
! G. Piatetsky-Shapiro and W. J. Frawley. Knowledge Discovery in Databases. AAAI/MIT Press, 1991