s. sumathi, s.n. sivanandam introduction to data mining ...978-3-540-34351-6/1 · 1.2 data...
TRANSCRIPT
Editor-in-chief Prof. Janusz Kacprzyk Systems Research Institute Polish Academy of Sciences ul. Newelska 6 01-447 Warsaw Poland E-mail: [email protected]
Further volumes of this series can be found on our homepage: springer.com
Vol. 12. Jonathan Lawry Modelling and Reasoning with Vague Con-cepts, 2006 ISBN 0-387-29056-7
Vol. 13. Nadia Nedjah, Ajith Abraham, Luiza de Macedo Mourelle (Eds.) Genetic Systems Programming, 2006 ISBN 3-540-29849-5
Vol. 14. Spiros Sirmakessis (Ed.)
ISBN 3-540-30605-6
Vol. 15. Lei Zhi Chen, Sing Kiong Nguang, Xiao Dong Chen Modelling and Optimization of Biotechnological Processes, 2006 ISBN 3-540-30634-X
Vol. 16. Yaochu Jin (Ed.) Multi-Objective Machine Learning, 2006 ISBN 3-540-30676-5
Vol. 17. Te-Ming Huang, Vojislav Kecman, Ivica Kopriva Kernel Based Algorithms for Mining Huge Data Sets, 2006 ISBN 3-540-31681-7
Vol. 18. Chang Wook Ahn Advances in Evolutionary Algorithms, 2006 ISBN 3-540-31758-9
Vol. 19. Ajita Ichalkaranje, Nikhil Ichalkaranje, Lakhmi C. Jain (Eds.) Intelligent Paradigms for Assistive and
ISBN 3-540-31762-7
Adaptive and Personalized Semantic Web, 2006
Vol. 27. Vassilis G. KaburlasosTowards a Unified Modeling and Knowledge-
ISBN 3-540-34169-2
�
Vol. 21. C ndida Ferreira
Preventive Healthcare, 2006
Modeling by an Artificial Intelligence, 2006 ISBN 3-540-32796-7
Vol. 22. N. Nedjah, E. Alba, L. de MacedoMourelle (Eds.) Parallel Evolutionary Computations, 2006 ISBN 3-540-32837-8
Vol. 23. M. Last, Z. Volkovich, A. Kandel (Eds.)Algorithmic Techniques for Data Mining, 2006 ISBN 3-540-33880-2
Vol. 24. Alakananda Bhattacharya, Amit Konar,Ajit K. Mandal
2006
Victor Mitrana (Eds.)Recent Advances in Formal Languages and Applications, 2006 ISBN 3-540-33460-2
2006 (Eds.)
Vol. 25. Zolt n sik, Carlos Mart n-Vide,
â
á É
Gene Expression on Programming: Mathematical
Parallel and Distributed Logic Programming,
Vol. 26. Nadia Nedjah, Luiza de Macedo Mourelle
Swarm Intelligent Systems, ISBN 3-540-33868-3
ISBN 3-540-33458-0
Representation based on Lattice Theory, 2006
í
2006 Vol. 28. Brahim Chaib-draa, J rg P. M ller (Eds.)
ISBN 3-540-33875-6
ö üMultiagent based Supply Chain Management,
Studies in Computational Intelligence, Volume 29
Vol. 20. Wojciech Penczek, Agata Półrola Advances in Verification of Time Petri Nets and Timed Automata, 2006 ISBN 3-540-32869-6
2006 ISBN 3-540-34350-4
Introduction to Data Mining and its Applications,Vol. 29. S. Sumathi, S.N. Sivanandam
123
Introduction to DataMining and its Applications
S.N. Sivanandam
With 108 Figures and 23 Tables
S. Sumathi
ISSN electronic edition: 1860-9503
This work is subject to copyright. All rights are reserved, whether the whole or part of the mate-rial is concerned, specifically the rights of translation, reprinting, reuse of illustrations, recita-tion, broadcasting, reproduction on microfilm or in any other way, and storage in data banks. Duplication of this publication or parts thereof is permitted only under the provisions of the German Copyright Law of September 9, 1965, in its current version, and permission for use must always be obtained from Springer-Verlag. Violations are liable to prosecution under the German Copyright Law. Springer is a part of Springer Science+Business Media springer.com © Springer-Verlag Berlin Heidelberg 2006 The use of general descriptive names, registered names, trademarks, etc. in this publication does not imply, even in the absence of a specific statement, that such names are exempt from the relevant protective laws and regulations and therefore free for general use.
5 4 3 2 1 0
Cover design: deblik, Berlin
ISSN print edition: 1860-949X
Typesetting by the authors and SPi
Library of Congress Control Number: 2006926723
ISBN-10 3-540-34350-4 Springer Berlin Heidelberg New York ISBN-13 978-3-540-34350-9 Springer Berlin Heidelberg New York
Printed on acid-free paper SPIN: 11671213
Assistant ProfessorDepartment of Electrical and Electronics Engineering PSG College of TechnologyCoimbatore 641 004Tamil Nadu, India
PSG College of Technology
PeelameduCoimbatore 641 004
P.O. Box 1611
Tamil Nadu, India
89/SPi
Dr. S.N. Sivanandam
Department of Computer Science and Engineering Professor and Head
Dr. S. Sumathi
Contents
1 Introduction to Data Mining Principles . . . . . . . . . . . . . . . . . . . . 11.1 Data Mining and Knowledge Discovery . . . . . . . . . . . . . . . . . . . . 21.2 Data Warehousing and Data Mining - Overview . . . . . . . . . . . . 5
1.2.1 Data Warehousing Overview . . . . . . . . . . . . . . . . . . . . . 71.2.2 Concept of Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201.4 Review Questions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2 Data Warehousing, Data Mining, and OLAP . . . . . . . . . . . . . . . 212.1 Data Mining Research Opportunities and Challenges . . . . . . . . 23
2.1.1 Recent Research Achievements . . . . . . . . . . . . . . . . . . . 252.1.2 Data Mining Application Areas . . . . . . . . . . . . . . . . . . . 272.1.3 Success Stories . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292.1.4 Trends that Affect Data Mining . . . . . . . . . . . . . . . . . . 302.1.5 Research Challenges . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312.1.6 Test Beds and Infrastructure . . . . . . . . . . . . . . . . . . . . . 332.1.7 Findings and Recommendations . . . . . . . . . . . . . . . . . . 33
2.2 Evolving Data Mining into Solutions for Insights . . . . . . . . . . . 352.2.1 Trends and Challenges . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.3 Knowledge Extraction Through Data Mining . . . . . . . . . . . . . . 372.3.1 Data Mining Process . . . . . . . . . . . . . . . . . . . . . . . . . . . . 392.3.2 Operational Aspects . . . . . . . . . . . . . . . . . . . . . . . . . . . . 502.3.3 The Need and Opportunity for Data Mining . . . . . . . 512.3.4 Data Mining Tools and Techniques . . . . . . . . . . . . . . . . 522.3.5 Common Applications of Data Mining . . . . . . . . . . . . . 552.3.6 What about Data Mining in Power Systems? . . . . . . . 56
2.4 Data Warehousing and OLAP . . . . . . . . . . . . . . . . . . . . . . . . . . . 572.4.1 Data Warehousing for Actuaries . . . . . . . . . . . . . . . . . . 572.4.2 Data Warehouse Components . . . . . . . . . . . . . . . . . . . . 582.4.3 Management Information . . . . . . . . . . . . . . . . . . . . . . . . 592.4.4 Profit Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
VI Contents
2.4.5 Asset Liability Management . . . . . . . . . . . . . . . . . . . . . . 602.5 Data Mining and OLAP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
2.5.1 Research . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 612.5.2 Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
2.6 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 722.7 Review Questions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
3 Data Marts and Data Warehouse . . . . . . . . . . . . . . . . . . . . . . . . . . 753.1 Data Marts, Data Warehouse, and OLAP . . . . . . . . . . . . . . . . . 77
3.1.1 Business Process Re-engineering . . . . . . . . . . . . . . . . . . 773.1.2 Real-World Usage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 783.1.3 Business Intelligence . . . . . . . . . . . . . . . . . . . . . . . . . . . . 783.1.4 Different Data Structures . . . . . . . . . . . . . . . . . . . . . . . . 823.1.5 Different Users . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 843.1.6 Technological Foundation . . . . . . . . . . . . . . . . . . . . . . . . 863.1.7 Data Warehouse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 873.1.8 Informix Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . 873.1.9 Building the Data Warehouse/Data Mart
Environment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 883.1.10 History . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 913.1.11 Nondetailed Data in the Enterprise Data Warehouse 923.1.12 Sharing Data Among Data Marts . . . . . . . . . . . . . . . . . 933.1.13 The Manufacturing Process . . . . . . . . . . . . . . . . . . . . . . 933.1.14 Subdata Marts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 953.1.15 Refreshment Cycles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 953.1.16 External Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 963.1.17 Operational Data Stores (ODS) and Data Marts . . . . 973.1.18 Distributed Metadata . . . . . . . . . . . . . . . . . . . . . . . . . . . 983.1.19 Managing the Warehouse Environment . . . . . . . . . . . . 1003.1.20 OLAP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
3.2 Data Warehousing for Healthcare . . . . . . . . . . . . . . . . . . . . . . . . 1073.2.1 A Data Warehousing Perspective for Healthcare . . . . 1073.2.2 Adding Value to your Current Data . . . . . . . . . . . . . . . 1073.2.3 Enhance Customer Relationship Management . . . . . . 1083.2.4 Improve Provider Management . . . . . . . . . . . . . . . . . . . 1093.2.5 Reduce Fraud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1093.2.6 Prepare for HEDIS Reporting . . . . . . . . . . . . . . . . . . . . 1103.2.7 Disease Management . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1103.2.8 What to Expect When Beginning a Data
Warehouse Implementation . . . . . . . . . . . . . . . . . . . . . . 1103.2.9 Definitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
3.3 Data Warehousing in the Telecommunications Industry . . . . . 1123.3.1 Implementing One View . . . . . . . . . . . . . . . . . . . . . . . . . 1183.3.2 Business Benefit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1203.3.3 A Holistic Approach . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
Contents VII
3.4 The Telecommunications Lifecycle . . . . . . . . . . . . . . . . . . . . . . . . 1223.4.1 Current Enterprise Environment . . . . . . . . . . . . . . . . . . 1223.4.2 Getting to the Root of the Problem . . . . . . . . . . . . . . . 1233.4.3 The Telecommunications Lifecycle . . . . . . . . . . . . . . . . 1253.4.4 Telecom Administrative Outsourcing . . . . . . . . . . . . . . 1273.4.5 Choose your Outsourcing Partner Wisely . . . . . . . . . . 1273.4.6 Security in Web-Enabled Data Warehouse . . . . . . . . . 128
3.5 Security Issues in Data Warehouse . . . . . . . . . . . . . . . . . . . . . . . . 1293.5.1 Performance vs Security . . . . . . . . . . . . . . . . . . . . . . . . . 1303.5.2 An Ideal Security Model . . . . . . . . . . . . . . . . . . . . . . . . . 1313.5.3 Real-World Implementation . . . . . . . . . . . . . . . . . . . . . . 1313.5.4 Proposed Security Model . . . . . . . . . . . . . . . . . . . . . . . . 136
3.6 Data Warehousing: To Buy or To Build a FundamentalChoice for Insurers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1403.6.1 Executive Overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1403.6.2 The Fundamental Choice . . . . . . . . . . . . . . . . . . . . . . . . 1403.6.3 Analyzing the Strategic Value of Data Warehousing . 1413.6.4 Addressing your Concerns . . . . . . . . . . . . . . . . . . . . . . . 1423.6.5 Introducing FellowDSS
TM. . . . . . . . . . . . . . . . . . . . . . . 146
3.7 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1483.8 Review Questions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
4 Evolution and Scaling of Data Mining Algorithms . . . . . . . . . . 1514.1 Data-Driven Evolution of Data Mining Algorithms . . . . . . . . . 152
4.1.1 Transaction Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1534.1.2 Data Streams . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1544.1.3 Graph and Text-Based data . . . . . . . . . . . . . . . . . . . . . . 1554.1.4 Scientific Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
4.2 Scaling Mining Algorithms to Large DataBases . . . . . . . . . . . . 1574.2.1 Prediction Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1574.2.2 Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1604.2.3 Association Rules . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1614.2.4 From Incremental Model Maintenance to Streaming
Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1624.3 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1634.4 Review Questions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
5 Emerging Trends and Applications of Data Mining . . . . . . . . . 1655.1 Emerging Trends in Business Analytics . . . . . . . . . . . . . . . . . . . 166
5.1.1 Business Users . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1665.1.2 The Driving Force . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
5.2 Business Applications of Data Mining . . . . . . . . . . . . . . . . . . . . . 1705.3 Emerging Scientific Applications in Data Mining . . . . . . . . . . . 177
5.3.1 Biomedical Engineering . . . . . . . . . . . . . . . . . . . . . . . . . 1775.3.2 Telecommunications . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
VIII Contents
5.3.3 Geospatial Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1805.3.4 Climate Data and the Earth’s Ecosystems . . . . . . . . . 181
5.4 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1825.5 Review Questions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
6 Data Mining Trends and Knowledge Discovery . . . . . . . . . . . . . 1856.1 Getting a Handle on the Problem . . . . . . . . . . . . . . . . . . . . . . . . 1866.2 KDD and Data Mining: Background . . . . . . . . . . . . . . . . . . . . . . 1876.3 Related Fields . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1916.4 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1946.5 Review Questions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194
7 Data Mining Tasks, Techniques, and Applications . . . . . . . . . . 1957.1 Reality Check for Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
7.1.1 Data Mining Basics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1967.1.2 The Data Mining Process . . . . . . . . . . . . . . . . . . . . . . . . 1977.1.3 Data Mining Operations . . . . . . . . . . . . . . . . . . . . . . . . . 1997.1.4 Discovery-Driven Data Mining Techniques: . . . . . . . . . 201
7.2 Data Mining: Tasks, Techniques, and Applications . . . . . . . . . . 2047.2.1 Data Mining Tasks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2047.2.2 Data Mining Techniques . . . . . . . . . . . . . . . . . . . . . . . . . 2067.2.3 Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2097.2.4 Data Mining Applications – Survey . . . . . . . . . . . . . . . 210
7.3 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2157.4 Review Questions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216
8 Data Mining: an Introduction – Case Study . . . . . . . . . . . . . . . . 2178.1 The Data Flood . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2188.2 Data Holds Knowledge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218
8.2.1 Decisions From the Data . . . . . . . . . . . . . . . . . . . . . . . . 2198.3 Data Mining: A New Approach to Information Overload . . . . 219
8.3.1 Finding Patterns in Data, which we can use toBetter, Conduct the Business . . . . . . . . . . . . . . . . . . . . 219
8.3.2 Data Mining can be Breakthrough Technology . . . . . 2208.3.3 Data Mining Process in an Information System . . . . . 2218.3.4 Characteristics of Data Mining . . . . . . . . . . . . . . . . . . . 2228.3.5 Data Mining Technology . . . . . . . . . . . . . . . . . . . . . . . . . 2238.3.6 Technology Limitations . . . . . . . . . . . . . . . . . . . . . . . . . . 2248.3.7 BBC Case Study: The Importance of Business
Knowledge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2258.3.8 Some Medical and Pharmaceutical Applications of
Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2288.3.9 Why Does Data Mining Work? . . . . . . . . . . . . . . . . . . . 228
8.4 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2298.5 Review Questions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229
Contents IX
9 Data Mining & KDD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2319.1 Data Mining and KDD – Overview . . . . . . . . . . . . . . . . . . . . . . . 232
9.1.1 The Idea of Knowledge Discovery in Databases(KDD) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234
9.1.2 How Data Mining Relates to KDD . . . . . . . . . . . . . . . . 2359.1.3 The Data Mining Future . . . . . . . . . . . . . . . . . . . . . . . . 237
9.2 Data Mining: The Two Cultures . . . . . . . . . . . . . . . . . . . . . . . . . 2389.2.1 The Central Issue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2389.2.2 What are Data Mining and the Data Mining Process?2399.2.3 Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2399.2.4 Impact of Implementation . . . . . . . . . . . . . . . . . . . . . . . 240
9.3 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2419.4 Review Questions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241
10 Statistical Themes and Lessons for Data Mining . . . . . . . . . . . 24310.1 Data Mining and Official Statistics . . . . . . . . . . . . . . . . . . . . . . . 244
10.1.1 What is New in Data Mining is: . . . . . . . . . . . . . . . . . . 24410.1.2 Goals and Tools of Data Mining . . . . . . . . . . . . . . . . . . 24410.1.3 New Mines: Texts, Web, Symbolic Data? . . . . . . . . . . 24510.1.4 Applications in Official Statistics . . . . . . . . . . . . . . . . . 246
10.2 Statistical Themes and Lessons for Data Mining . . . . . . . . . . . . 24610.2.1 An Overview of Statistical Science . . . . . . . . . . . . . . . . 24810.2.2 Is Data Mining “Statistical Deja Vu” (All Over
Again)? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25210.2.3 Characterizing Uncertainty . . . . . . . . . . . . . . . . . . . . . . 25410.2.4 What Can Go Wrong, Will Go Wrong . . . . . . . . . . . . . 25610.2.5 Symbiosis in Statistics . . . . . . . . . . . . . . . . . . . . . . . . . . . 261
10.3 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26210.4 Review Questions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263
11 Theoretical Frameworks for Data Mining . . . . . . . . . . . . . . . . . . . 26511.1 Two Simple Approaches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266
11.1.1 Probabilistic Approach . . . . . . . . . . . . . . . . . . . . . . . . . . 26711.1.2 Data Compression Approach . . . . . . . . . . . . . . . . . . . . . 268
11.2 Microeconomic View of Data Mining . . . . . . . . . . . . . . . . . . . . . . 26811.3 Inductive Databases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26911.4 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27011.5 Review Questions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 270
12 Major and Privacy Issues in Data Miningand Knowledge Discovery . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27112.1 Major Issues in Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27212.2 Privacy Issues in Knowledge Discovery and Data Mining . . . . 275
12.2.1 Revitalized Privacy Threats . . . . . . . . . . . . . . . . . . . . . . 27712.2.2 New Privacy Threats . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279
X Contents
12.2.3 Possible Solutions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28112.3 The OECD Personal Privacy Guidelines . . . . . . . . . . . . . . . . . . . 283
12.3.1 Risks Privacy and the Principles of Data Protection . 28412.3.2 The OECD Guidelines and Knowledge Discovery . . . 28612.3.3 Knowledge Discovery about Groups . . . . . . . . . . . . . . . 28812.3.4 Legal Systems and other Guidelines . . . . . . . . . . . . . . . 289
12.4 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29012.5 Review Questions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291
13 Active Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29313.1 Shape Definitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29513.2 Queries . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29713.3 Triggers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299
13.3.1 Wave Execution Semantics . . . . . . . . . . . . . . . . . . . . . . . 30013.4 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30213.5 Review Questions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302
14 Decomposition in Data Mining - A Case Study . . . . . . . . . . . . . 30314.1 Decomposition in the Literature . . . . . . . . . . . . . . . . . . . . . . . . . . 304
14.1.1 Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30414.2 Typology of Decomposition in Data Mining . . . . . . . . . . . . . . . . 30514.3 Hybrid Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30614.4 Knowledge Structuring . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30914.5 Rule-Structuring Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31014.6 Decision Tables, Maps, and Atlases . . . . . . . . . . . . . . . . . . . . . . . 31114.7 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31214.8 Review Questions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313
15 Data Mining System Products and Research Prototypes . . . 31515.1 How to Choose a Data Mining System . . . . . . . . . . . . . . . . . . . . 31615.2 Examples of Commercial Data Mining Systems . . . . . . . . . . . . 31815.3 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31915.4 Review Questions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 320
16 Data Mining in Customer Value and CustomerRelationship Management . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32116.1 Data Mining: A Concept of Customer Relationship Marketing322
16.1.1 Traditional Marketing Research . . . . . . . . . . . . . . . . . . 32216.1.2 Relationship Marketing – the Modern View . . . . . . . . 32316.1.3 Understanding the Background of Data Mining . . . . . 32416.1.4 Continuous Relationship Marketing . . . . . . . . . . . . . . . 32616.1.5 Developing the Data Mining Project . . . . . . . . . . . . . . 32716.1.6 Further Research: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 328
16.2 Introduction to Customer Acquisition . . . . . . . . . . . . . . . . . . . . . 328
Contents XI
16.2.1 How Data Mining and Statistical Modeling ChangeThings . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 329
16.2.2 Defining Some Key Acquisition Concepts . . . . . . . . . . 32916.2.3 It all Begins with the Data . . . . . . . . . . . . . . . . . . . . . . 33116.2.4 Test Campaigns . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33216.2.5 Evaluating Test Campaign Responses . . . . . . . . . . . . . 33316.2.6 Building Data Mining Models Using Response
Behaviors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33316.3 Customer Relationship Management (CRM) . . . . . . . . . . . . . . . 335
16.3.1 Defining CRM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33516.3.2 Integrating Customer Data into CRM Strategy . . . . . 33516.3.3 Strategic Data Analysis for CRM . . . . . . . . . . . . . . . . . 33516.3.4 Data Warehousing and Data Mining . . . . . . . . . . . . . . 33716.3.5 Sharing Customer Data Within the Value Chain . . . . 33816.3.6 CVM – Customer Value Management . . . . . . . . . . . . . 33916.3.7 Issues in Global Customer Management . . . . . . . . . . . 34016.3.8 Changing Systems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34116.3.9 Changing Customer Management - A Strategic View 342
16.4 Data Mining and Customer Value and Relationships . . . . . . . . 34816.4.1 What is Data Mining? . . . . . . . . . . . . . . . . . . . . . . . . . . 34916.4.2 Relevance to a Business Process . . . . . . . . . . . . . . . . . . 35116.4.3 Data Mining and Customer Relationship
Management . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35216.4.4 How Data Mining Helps Database Marketing . . . . . . . 353
16.5 CRM: Technologies and Applications . . . . . . . . . . . . . . . . . . . . . 35616.5.1 What is CRM ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35716.5.2 What is CRM Used for? . . . . . . . . . . . . . . . . . . . . . . . . . 35716.5.3 Consequences of Implementation of CRM . . . . . . . . . . 35916.5.4 Which Technologies are Used in CRM? . . . . . . . . . . . . 36016.5.5 Business Rules . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36016.5.6 Data Warehousing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36016.5.7 Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36116.5.8 Real-Time Information Analysis . . . . . . . . . . . . . . . . . . 36216.5.9 Reporting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36316.5.10 Web Self-Service . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36316.5.11 Market Overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36416.5.12 Connection between ERP and CRM . . . . . . . . . . . . . . 36516.5.13 Benefits of CRM to the Enterprise . . . . . . . . . . . . . . . . 36716.5.14 Future of CRM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 367
16.6 Data Management in Analytical Customer RelationshipManagement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36916.6.1 The CRM Process Model . . . . . . . . . . . . . . . . . . . . . . . . 37016.6.2 Data Sources for Analytical CRM . . . . . . . . . . . . . . . . 37416.6.3 Data Integration in Analytical CRM . . . . . . . . . . . . . . 37616.6.4 Further Research . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384
XII Contents
16.7 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38516.8 Review Questions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 385
17 Data Mining in Business . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38717.1 Business Focus on Data Engineering . . . . . . . . . . . . . . . . . . . . . . 38817.2 Data Mining for Business Problems . . . . . . . . . . . . . . . . . . . . . . . 39017.3 Data Mining and Business Intelligence . . . . . . . . . . . . . . . . . . . . 39617.4 Data Mining in Business - Case Studies . . . . . . . . . . . . . . . . . . . 399
18 Data Mining in Sales Marketing and Finance . . . . . . . . . . . . . . 41118.1 Data Mining can Bring Pinpoint Accuracy to Sales . . . . . . . . . 41318.2 From Data Mining to Database Marketing . . . . . . . . . . . . . . . . . 414
18.2.1 Data Mining vs. Database Marketing . . . . . . . . . . . . . . 41418.2.2 What Exactly is Data Mining? . . . . . . . . . . . . . . . . . . . 41518.2.3 Who is Developing the Technology? . . . . . . . . . . . . . . . 41618.2.4 Turning Business Problems into Business Solutions . 41718.2.5 A Possible Scenario for the Future of Data Mining . . 419
18.3 Data Mining for Marketing Decisions . . . . . . . . . . . . . . . . . . . . . 41918.3.1 Agent-Based Information Retrieval Systems . . . . . . . . 42118.3.2 Applications of Data Mining in Marketing . . . . . . . . . 424
18.4 Increasing Customer Value by Integrating Data Mining . . . . . 42518.4.1 Some Definitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42518.4.2 Data Mining Defined . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42618.4.3 The Purpose of Data Mining . . . . . . . . . . . . . . . . . . . . . 42718.4.4 Scoring the Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42718.4.5 The Role of Campaign Management Software . . . . . . 42718.4.6 The Integrated Data Mining and Campaign
Management Process . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42918.4.7 Data Mining and Campaign Management in the
Real World . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43018.4.8 The Benefits of Integrating Data Mining and
Campaign Management . . . . . . . . . . . . . . . . . . . . . . . . . 43118.5 Completing a Solution for Market-Basket
Analysis – Case Study . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43118.5.1 Business Problem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43218.5.2 Case Studies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43218.5.3 Data Mining Solutions . . . . . . . . . . . . . . . . . . . . . . . . . . 43318.5.4 Recommendations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434
18.6 Data Mining in Finance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43518.7 Data Mining for Financial Data Analysis . . . . . . . . . . . . . . . . . . 43618.8 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43718.9 Review Questions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 438
Contents XIII
19 Banking and Commercial Applications . . . . . . . . . . . . . . . . . . . . . 43919.1 Bringing Data Mining to the Forefront of Business Intelligence44119.2 Distributed Data Mining Through a Centralized Solution –
A Case Study . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44219.2.1 Background . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 442
19.3 Data Mining in Commercial Applications . . . . . . . . . . . . . . . . . . 44419.3.1 Data Cleaning and Data Preparation . . . . . . . . . . . . . . 44419.3.2 Involving Business Users in the KDD Process . . . . . . 44519.3.3 Business Challenges for the KDD Process . . . . . . . . . . 446
19.4 Decision Support Systems – Case Study . . . . . . . . . . . . . . . . . . . 44619.4.1 A Functional Perspective . . . . . . . . . . . . . . . . . . . . . . . . 44719.4.2 Decisions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 450
19.5 Keys to the Commercial Success of Data Mining – CaseStudies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45219.5.1 Case Study 1: Commercial Success Criteria . . . . . . . . 45219.5.2 Case Study 2: A Service Provider’s View . . . . . . . . . . 454
19.6 Data Mining Supports E-Commerce . . . . . . . . . . . . . . . . . . . . . . 45819.6.1 Data Mining Application Possibilities in Web Stores 459
19.7 Data Mining for the Retail Industry . . . . . . . . . . . . . . . . . . . . . . 46219.8 Business Intelligence and Retailing . . . . . . . . . . . . . . . . . . . . . . . 463
19.8.1 Applications of Data Warehousing and DataMining in the Retail INDUSTRY . . . . . . . . . . . . . . . . . 463
19.8.2 Key Trends in the Retail Industry . . . . . . . . . . . . . . . . 46419.8.3 Business Intelligence Solutions for the Retail Industry465
19.9 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47119.10 Review Questions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 472
20 Data Mining for Insurance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47320.1 Insurance Underwriting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 474
20.1.1 Data Mining and Insurance: Improving theUnderwriting Decision-Making Process . . . . . . . . . . . . 475
20.1.2 What does an Insurance Underwriter Do? . . . . . . . . . 47920.1.3 How is the Underwriting Function Changing? . . . . . . 48520.1.4 How can Data Mining Help Underwriters Make
Better Business Decisions . . . . . . . . . . . . . . . . . . . . . . . . 48520.2 Business Intelligence and Insurance . . . . . . . . . . . . . . . . . . . . . . . 487
20.2.1 Insurance Industry Overview and Major Trends . . . . 48720.2.2 Business Intelligence and the Insurance Value Chain 48820.2.3 Customer Relationship Management . . . . . . . . . . . . . . 48920.2.4 Channel Management . . . . . . . . . . . . . . . . . . . . . . . . . . . 49120.2.5 Actuarial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49320.2.6 Underwriting and Policy Management . . . . . . . . . . . . . 49320.2.7 Claims Management . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49420.2.8 Finance and Asset Management . . . . . . . . . . . . . . . . . . 49520.2.9 Human Resources . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 496
XIV Contents
20.2.10 Corporate Management . . . . . . . . . . . . . . . . . . . . . . . . . 49720.3 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49720.4 Review Questions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 498
21 Data Mining in Biomedicine and Science . . . . . . . . . . . . . . . . . . . 49921.1 Applications in Medicine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 501
21.1.1 Health Care . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50121.1.2 Data Mining in Clinical Domains . . . . . . . . . . . . . . . . . 50121.1.3 Data Mining In Medical Diagnosis Problem . . . . . . . . 502
21.2 Data Mining for Biomedical and DNA Data Analysis . . . . . . . 50221.2.1 Semantic Integration of Heterogeneous, Distributed
Genome Databases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50321.2.2 Similarity Search and Comparison Among DNA
Sequences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50321.2.3 Association Analysis: Identification of Co-occurring
Gene Sequences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50421.2.4 Path Analysis: Linking Genes to Different Stages
of Disease Development . . . . . . . . . . . . . . . . . . . . . . . . . 50421.2.5 Visualization Tools and Genetic Data Analysis . . . . . 504
21.3 An Unsupervised Neural Network Approach . . . . . . . . . . . . . . . 50421.3.1 Knowledge Extraction Through Data Mining . . . . . . . 50521.3.2 Traditional Difficulties in Handling Medical Data . . . 50521.3.3 An Illustrative Case Study . . . . . . . . . . . . . . . . . . . . . . . 50621.3.4 Organizing Medical Data . . . . . . . . . . . . . . . . . . . . . . . . 50621.3.5 Building the Neural Network Tool . . . . . . . . . . . . . . . . 50821.3.6 Applying Data Mining and Data Visualization
Techniques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50921.4 Data Mining – Assisted Decision Support for Fever
Diagnosis – Case Study . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51521.4.1 Architecture for Fever Diagnosis . . . . . . . . . . . . . . . . . . 51621.4.2 Medical Data Definition Component . . . . . . . . . . . . . . 51621.4.3 Physician–System Interface . . . . . . . . . . . . . . . . . . . . . . 51721.4.4 Diagnostic Question Banque . . . . . . . . . . . . . . . . . . . . . 51721.4.5 Pattern Extractor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51921.4.6 Rule Constructor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 519
21.5 Data Mining and Science . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52021.6 Knowledge Discovery in Science as Opposed to Business-
Case Study . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52221.6.1 Why is Data Mining Different? . . . . . . . . . . . . . . . . . . . 52221.6.2 The Data Management Context . . . . . . . . . . . . . . . . . . 52221.6.3 Business Data Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . 52321.6.4 Scientific Data Analysis . . . . . . . . . . . . . . . . . . . . . . . . . 52321.6.5 Scientific Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . 52421.6.6 Example of Predicting Air Quality . . . . . . . . . . . . . . . . 524
21.7 Data Mining in a Scientific Environment . . . . . . . . . . . . . . . . . . 529
Contents XV
21.7.1 What is Data Mining? . . . . . . . . . . . . . . . . . . . . . . . . . . 52921.7.2 Traditional Uses of Data Mining . . . . . . . . . . . . . . . . . . 53121.7.3 Data Mining in a Scientific Environment . . . . . . . . . . . 53221.7.4 Examples of Scientific Data Mining . . . . . . . . . . . . . . . 53321.7.5 Concluding Remarks . . . . . . . . . . . . . . . . . . . . . . . . . . . . 533
21.8 Flexible Earth Science Data Mining System Architecture . . . . 53421.8.1 DESIGN ISSUES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53421.8.2 ADaM System Features . . . . . . . . . . . . . . . . . . . . . . . . . 53521.8.3 ADaM Plan Builder Client . . . . . . . . . . . . . . . . . . . . . . . 54021.8.4 Research Directions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 541
21.9 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54221.10 Review Questions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 543
22 Text and Web Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54522.1 Data Mining and the Web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 547
22.1.1 Resource Discovery . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54822.1.2 Information Extraction . . . . . . . . . . . . . . . . . . . . . . . . . . 54822.1.3 Generalization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 548
22.2 An Overview on Web Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54922.2.1 Taxonomy of Web Mining . . . . . . . . . . . . . . . . . . . . . . . 55022.2.2 Database Approach . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55022.2.3 Web Mining Tasks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55222.2.4 Mining Interested Content from Web Document . . . . 55322.2.5 Mining Pattern from Web Transactions/Logs . . . . . . . 55422.2.6 Web Access Pattern Tree (WAP tree) . . . . . . . . . . . . . 557
22.3 Text Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55822.3.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55822.3.2 S&T Text Mining Applications . . . . . . . . . . . . . . . . . . . 55922.3.3 Text Mining Tools . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56022.3.4 Text Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 561
22.4 Discovering Web Access Patterns and Trends . . . . . . . . . . . . . . 56322.4.1 Design of a Web Log Miner . . . . . . . . . . . . . . . . . . . . . . 56522.4.2 Database Construction from server log Files . . . . . . . . 56722.4.3 Multidimensional Web log data cube . . . . . . . . . . . . . . 56822.4.4 Data mining on Web log data cube and Web log
database . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56922.5 Web Usage Mining on Proxy Servers: A Case Study . . . . . . . . 572
22.5.1 Aspects of Web Usage Mining . . . . . . . . . . . . . . . . . . . . 57322.5.2 Data Collection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57322.5.3 Preprocessing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57422.5.4 Data Cleaning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57422.5.5 User and Session Identification . . . . . . . . . . . . . . . . . . . 57522.5.6 Data Mining Techniques . . . . . . . . . . . . . . . . . . . . . . . . . 57522.5.7 E-metrics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57722.5.8 The Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 579
XVI Contents
22.6 Text Data Mining in Biomedical Literature . . . . . . . . . . . . . . . . 58122.6.1 Information Retrieval Task – Retrieve Relevant
Documents by Making use of Existing Database . . . . 58222.6.2 Naıve Bayes Classifier . . . . . . . . . . . . . . . . . . . . . . . . . . . 58222.6.3 Experimental results of Information Retrieval task . . 58322.6.4 Text Mining Task – Mining MEDLINE by
Combining Term Extraction and Association RuleMining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 583
22.6.5 Finding the Relations Between MeSH Terms andSubstances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 584
22.6.6 Finding the Relations Between Other Terms . . . . . . . 58422.7 Related Work . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 585
22.7.1 Future Work: For the Information Retrieval Task . . . 58622.7.2 For the Text Mining Task. . . . . . . . . . . . . . . . . . . . . . . . 58722.7.3 Mutual Benefits between Two Tasks . . . . . . . . . . . . . . 587
22.8 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58822.9 Review Questions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 589
23 Data Mining in Information Analysis and Delivery . . . . . . . . . 59123.1 Information Analysis: Overview . . . . . . . . . . . . . . . . . . . . . . . . . . 592
23.1.1 Data Acquisition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59223.1.2 Extraction and Representation . . . . . . . . . . . . . . . . . . . 59323.1.3 Information Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 593
23.2 Intelligent Information Delivery – Case Study . . . . . . . . . . . . . . 59523.2.1 Alerts Run Rampant . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59523.2.2 What an Intelligent Information Delivery System is . 59623.2.3 Simple Example of an Intelligent Information
Delivery Mechanism . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59723.3 A Characterization of Data Mining Technologies and
Processes – Case Study . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59923.3.1 Data Mining Processes . . . . . . . . . . . . . . . . . . . . . . . . . . 60023.3.2 Data Mining Users and Activities . . . . . . . . . . . . . . . . . 60123.3.3 The Technology Tree . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60223.3.4 Cross-Tabulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60923.3.5 Neural Nets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 610
23.4 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61223.5 Review Questions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 613
24 Data Mining in Telecommunications and Control . . . . . . . . . . . 61524.1 Data Mining for the Telecommunication Industry . . . . . . . . . . . 616
24.1.1 Multidimensional Analysis of TelecommunicationData . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 617
24.1.2 Fraudulent Pattern Analysis and the Identificationof Unusual Patterns . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 617
Contents XVII
24.1.3 Multidimensional Association and SequentialPattern Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 617
24.1.4 Use of Visualization Tools in TelecommunicationData Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 618
24.2 Data Mining Focus Areas in Telecommunication . . . . . . . . . . . . 61824.2.1 Systematic Error . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61824.2.2 Data Mining in Churn Analysis . . . . . . . . . . . . . . . . . . 620
24.3 A Learning System for Decision Supportin Telecommunications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 621
24.4 Knowledge Processing in Control Systems . . . . . . . . . . . . . . . . . 62324.4.1 Preliminaries and General Definitions . . . . . . . . . . . . . 624
24.5 Data Mining for Maintenance of Complex Systems – A CaseStudy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 626
24.6 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62724.7 Review Questions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 627
25 Data Mining in Security . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62925.1 Data Mining in Security Systems . . . . . . . . . . . . . . . . . . . . . . . . . 63025.2 Real Time Data Mining-Based Intrusion Detection Systems
– Case Study . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63125.2.1 Accuracy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63225.2.2 Feature Extraction for IDS. . . . . . . . . . . . . . . . . . . . . . . 63325.2.3 Artificial Anomaly Generation . . . . . . . . . . . . . . . . . . . . 63425.2.4 Combined Misuse and Anomaly Detection . . . . . . . . . 63525.2.5 Efficiency . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63625.2.6 Cost-Sensitive Modeling . . . . . . . . . . . . . . . . . . . . . . . . . 63725.2.7 Distributed Feature Computation . . . . . . . . . . . . . . . . . 63925.2.8 System Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . 643
25.3 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 646
Data Mining Research Projects . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 649A.1 National University of Singapore: Data Mining Research
Projects . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 649A.1.1 Cleaning Data for Warehousing and Mining . . . . . . . . 649A.1.2 Data Mining in Multiple Databases . . . . . . . . . . . . . . . 650A.1.3 Intelligent WEB Document Management Using
Data Mining Techniques . . . . . . . . . . . . . . . . . . . . . . . . . 650A.1.4 Data Mining with Neural Networks . . . . . . . . . . . . . . . 650A.1.5 Data Mining in Semistructured Data . . . . . . . . . . . . . . 651A.1.6 A Data Mining Application – Customer Retention
in the Port of Singapore Authority (PSA) . . . . . . . . . 651A.1.7 A Belief-Based Approach to Data Mining . . . . . . . . . . 651A.1.8 Discovering Interesting Knowledge in Database . . . . . 652A.1.9 Data Mining for Market Research . . . . . . . . . . . . . . . . . 652A.1.10 Data Mining in Electronic Commerce . . . . . . . . . . . . . 652
XVIII Contents
A.1.11 Multidimensional Data Visualization Tool . . . . . . . . . 653A.1.12 Clustering Algorithms for Data Mining . . . . . . . . . . . . 653A.1.13 Web Page Design for Electronic Commerce . . . . . . . . 653A.1.14 Data Mining Application on Web Information
Sources . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 654A.1.15 Data Mining in Finance . . . . . . . . . . . . . . . . . . . . . . . . . 654A.1.16 Document Summarization . . . . . . . . . . . . . . . . . . . . . . . 654A.1.17 Data Mining and Intelligent Data Analysis . . . . . . . . . 655
A.2 HP Labs Research: Software Technology Laboratory . . . . . . . . 658A.2.1 Data Mining Research . . . . . . . . . . . . . . . . . . . . . . . . . . . 658
A.3 CRISP-DM: An Overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 661A.3.1 Moving from Technology to Business . . . . . . . . . . . . . . 661A.3.2 Process Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 662
A.4 Data Mining SuiteTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 663A.4.1 Rule-based Influence Discovery . . . . . . . . . . . . . . . . . . . 665A.4.2 Dimensional Affinity Discovery . . . . . . . . . . . . . . . . . . . 665A.4.3 The OLAP Discovery System . . . . . . . . . . . . . . . . . . . . 665A.4.4 Incremental Pattern Discovery . . . . . . . . . . . . . . . . . . . 665A.4.5 Trend Discovery . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 666A.4.6 Forensic Discovery . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 666A.4.7 Predictive Modeler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 666
A.5 The Quest Data Mining System, IBM Almaden ResearchCenter, CA, USA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 669A.5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 669A.5.2 Association Rules . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 670A.5.3 Apriori Algorithm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 670A.5.4 Sequential Patterns . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 672A.5.5 Time-series Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . 673A.5.6 Incremental Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 675A.5.7 Parallelism. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 676A.5.8 System Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . 676A.5.9 Future Directions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 676
A.6 The Australian National University Research Projects . . . . . . 676A.6.1 Applications of Inductive Learning . . . . . . . . . . . . . . . . 676A.6.2 Logic in Machine Learning . . . . . . . . . . . . . . . . . . . . . . . 677A.6.3 Machine-learning Summer Research Projects
in Data Mining and Reinforcement Learning . . . . . . . 678A.6.4 Computational Aspects of Data Mining (3 Projects) 678A.6.5 Data Mining the MACHO Database . . . . . . . . . . . . . . 679A.6.6 Artificial Stereophonic Processing . . . . . . . . . . . . . . . . . 680A.6.7 Real-time Active Vision . . . . . . . . . . . . . . . . . . . . . . . . . 680A.6.8 Web Teleoperation of a Mobile Robot . . . . . . . . . . . . . 680A.6.9 Autonomous Submersible Robot . . . . . . . . . . . . . . . . . . 681A.6.10 The SIT Project . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 682
A.7 Data Mining Research Group, Monash University Australia . . 682
Contents XIX
A.7.1 Current Projects . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 682A.7.2 ADELFI – A Model for the Deployment
of High-Performance Solutions on the Internetand Intranets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 683
A.8 Current Projects, University of Alabama in Huntsville, AL . . 688A.8.1 Direct Mailing System. . . . . . . . . . . . . . . . . . . . . . . . . . . 688A.8.2 A Vibration Sensor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 688A.8.3 Current Status . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 689A.8.4 Data Mining Using Classification . . . . . . . . . . . . . . . . . 689A.8.5 Email Classification, Mining . . . . . . . . . . . . . . . . . . . . . 690A.8.6 Data-based Decision Making . . . . . . . . . . . . . . . . . . . . . 690A.8.7 Data Mining in Relational Databases . . . . . . . . . . . . . . 691A.8.8 Environmental Applications and Machine Learning . 691A.8.9 Current Research Projects . . . . . . . . . . . . . . . . . . . . . . . 692A.8.10 Web Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 693A.8.11 Neural Networks Applications to ATM Networks
Control . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 693A.8.12 Scientific Topics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 694A.8.13 Application Areas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 695
A.9 Kensington Approach Toward Enterprise Data Mining Group 696A.9.1 Distributed Database Support . . . . . . . . . . . . . . . . . . . . 696A.9.2 Distributed Object Management . . . . . . . . . . . . . . . . . . 696A.9.3 Groupware, Security, and Persistent Objects . . . . . . . 697A.9.4 Universal Clients – User-friendly Data Mining . . . . . . 697A.9.5 High-Performance Server . . . . . . . . . . . . . . . . . . . . . . . . 697
Data Mining Standards . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 699II.1 Data Mining Standards . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 700
II.1.1 Process Standards . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 700II.1.2 XML Standards/ OR Model Defining
Standards<TODO> . . . . . . . . . . . . . . . . . . . . . . . . . . . . 704II.1.3 Web Standards . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 707II.1.4 Application Programming Interfaces (APIs) . . . . . . . . 711II.1.5 Grid Services . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 716
II.2 Developing Data Mining Application Using Data MiningStandards . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 719II.2.1 Application Requirement Specification . . . . . . . . . . . . 719II.2.2 Design and Deployment . . . . . . . . . . . . . . . . . . . . . . . . . 720
II.3 Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 722II.4 Application Examples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 723
II.4.1 PMML Example . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 723II.4.2 XMLA Example . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 724II.4.3 OLEDB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 725II.4.4 OLEDB-DM Example . . . . . . . . . . . . . . . . . . . . . . . . . . . 726II.4.5 SQL/MM Example . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 728
XX Contents
II.4.6 Java Data Mining Model Example . . . . . . . . . . . . . . . . 728II.4.7 Web Services . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 730
II.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 730
Intelligent Miner . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7313A.1 Data Mining Process . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 731
3A.1.1 Selecting the Input Data . . . . . . . . . . . . . . . . . . . . . . . . 7323A.1.2 Exploring the Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7323A.1.3 Transforming the Data . . . . . . . . . . . . . . . . . . . . . . . . . . 7323A.1.4 Mining the Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 733
3A.2 Interpreting the Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7333A.3 Overview of the Intelligent Miner Components . . . . . . . . . . . . . 734
3A.3.1 User interface . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7343A.3.2 Environment Layer API . . . . . . . . . . . . . . . . . . . . . . . . . 7343A.3.3 Visualizer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7343A.3.4 Data Access . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 734
3A.4 Running Intelligent Miner Servers . . . . . . . . . . . . . . . . . . . . . . . . 7343A.5 How the Intelligent Miner Creates Output Data . . . . . . . . . . . . 736
3A.5.1 Partitioned Output Tables . . . . . . . . . . . . . . . . . . . . . . . 7363A.5.2 How the Partitioning Key is Created . . . . . . . . . . . . . . 737
3A.6 Performing Common Tasks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7373A.7 Understanding Basic Concepts . . . . . . . . . . . . . . . . . . . . . . . . . . . 738
3A.7.1 Getting Familiar with the Intelligent Miner MainWindow . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 738
3A.8 Main Window Areas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7383A.8.1 Mining Base Container . . . . . . . . . . . . . . . . . . . . . . . . . . 7383A.8.2 Contents Container . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7393A.8.3 Work Area . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7393A.8.4 Creating and Using Mining Bases . . . . . . . . . . . . . . . . . 739
3A.9 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 740
Clementine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7413B.1 Key Findings . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7413B.2 Background Information . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7423B.3 Product Availability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7433B.4 Software Description . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7443B.5 Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7453B.6 Methodology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 746
3B.6.1 Business Understanding . . . . . . . . . . . . . . . . . . . . . . . . . 7463B.6.2 Data Understanding . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7483B.6.3 Data Preparation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7493B.6.4 Modeling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7503B.6.5 Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7523B.6.6 Deployment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 753
3B.7 Clementine Server . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 753
Contents XXI
3B.8 How Clementine Server Improves Performance on LargeDatasets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7543B.8.1 Benchmark Testing Results: Data Processing . . . . . . . 7553B.8.2 Benchmark Testing Results: Modeling . . . . . . . . . . . . . 7553B.8.3 Benchmark Testing Results: Scoring . . . . . . . . . . . . . . . 757
3B.9 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 758
Crisp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7613C.1 Hierarchical Breakdown . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7613C.2 Mapping Generic Models to Specialized Models . . . . . . . . . . . . 762
3C.2.1 Data Mining Context . . . . . . . . . . . . . . . . . . . . . . . . . . . 7623C.2.2 Mappings with Contexts . . . . . . . . . . . . . . . . . . . . . . . . . 763
3C.3 The CRISP-DM Reference Model . . . . . . . . . . . . . . . . . . . . . . . . 7633C.3.1 Business Understanding . . . . . . . . . . . . . . . . . . . . . . . . . 765
3C.4 Data Understanding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7693C.4.1 Collect Initial Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7693C.4.2 Output Initial Data Collection Report . . . . . . . . . . . . . 7703C.4.3 Describe Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7703C.4.4 Explore Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7713C.4.5 Output Data Exploration Report . . . . . . . . . . . . . . . . . 7713C.4.6 Verify Data Quality . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 771
3C.5 Data Preparation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7713C.5.1 Select Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7713C.5.2 Clean Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7723C.5.3 Construct Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7733C.5.4 Generated Records . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7733C.5.5 Integrate Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7733C.5.6 Output Merged Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7733C.5.7 Format Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7733C.5.8 Reformatted Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 774
3C.6 Modeling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7743C.6.1 Select Modeling Technique . . . . . . . . . . . . . . . . . . . . . . . 7743C.6.2 Outputs Modeling Technique . . . . . . . . . . . . . . . . . . . . . 7743C.6.3 Modeling Assumptions . . . . . . . . . . . . . . . . . . . . . . . . . . 7743C.6.4 Generate Test Design . . . . . . . . . . . . . . . . . . . . . . . . . . . 7743C.6.5 Output Test Design . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7753C.6.6 Build Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7753C.6.7 Outputs Parameter Settings . . . . . . . . . . . . . . . . . . . . . 7753C.6.8 Assess Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7763C.6.9 Outputs Model Assessment . . . . . . . . . . . . . . . . . . . . . . 7763C.6.10 Revised Parameter Settings . . . . . . . . . . . . . . . . . . . . . . 776
3C.7 Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7763C.7.1 Evaluate Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 776
3C.8 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 777
XXII Contents
Mineset . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7793D.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7793D.2 Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7793D.3 MineSet Tools for Data Mining Tasks . . . . . . . . . . . . . . . . . . . . . 7803D.4 About the Raw Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7813D.5 Analytical Algorithms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7813D.6 Visualization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7823D.7 KDD Process Management . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7833D.8 History . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7843D.9 Commercial Uses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7853D.10 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 786
Enterprise Miner . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7873E.1 Tools For Data Mining Process . . . . . . . . . . . . . . . . . . . . . . . . . . . 7873E.2 Why Enterprise Miner . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7883E.3 Product Overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7893E.4 SAS Enterprise Miner 5.2 Key Features . . . . . . . . . . . . . . . . . . . 790
3E.4.1 Multiple Interfaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7903E.4.2 Scalable Processing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7913E.4.3 Accessing data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7913E.4.4 Sampling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7913E.4.5 Data Partitioning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7923E.4.6 Filtering Outliers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7923E.4.7 Transformations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7923E.4.8 Data Replacement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7923E.4.9 Descriptive Statistics . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7923E.4.10 Graphs/Visualization . . . . . . . . . . . . . . . . . . . . . . . . . . . 793
3E.5 Enterprise Miner Software . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7933E.5.1 The Graphical User Interface . . . . . . . . . . . . . . . . . . . . . 7943E.5.2 The GUI Components . . . . . . . . . . . . . . . . . . . . . . . . . . . 794
3E.6 Enterprise Miner Process for Data Mining . . . . . . . . . . . . . . . . . 7963E.7 Client/Server Capabilities . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7963E.8 Client/Server Requirements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7963E.9 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 797
References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 799