data mining ii - upc universitat politècnica de catalunyaavellido/teaching/13-14/intro5... ·...

20
Lluis Belanche + Alfredo Vellido Intelligent Data Analysis and Data Mining or … Data Analysis and Knowledge Discovery a.k.a. Data Mining II

Upload: others

Post on 28-Jun-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Data Mining II - UPC Universitat Politècnica de Catalunyaavellido/teaching/13-14/Intro5... · 2013-10-23 · management methods, including statistical methods Each Six Sigma project

Lluis Belanche + Alfredo Vellido

Intelligent Data Analysis and Data Miningor …

Data Analysis and Knowledge Discoverya.k.a. Data Mining II

Page 2: Data Mining II - UPC Universitat Politècnica de Catalunyaavellido/teaching/13-14/Intro5... · 2013-10-23 · management methods, including statistical methods Each Six Sigma project

An insider’s view …

Page 3: Data Mining II - UPC Universitat Politècnica de Catalunyaavellido/teaching/13-14/Intro5... · 2013-10-23 · management methods, including statistical methods Each Six Sigma project

Geoff Holmes: WEKA founder

Page 4: Data Mining II - UPC Universitat Politècnica de Catalunyaavellido/teaching/13-14/Intro5... · 2013-10-23 · management methods, including statistical methods Each Six Sigma project
Page 5: Data Mining II - UPC Universitat Politècnica de Catalunyaavellido/teaching/13-14/Intro5... · 2013-10-23 · management methods, including statistical methods Each Six Sigma project
Page 6: Data Mining II - UPC Universitat Politècnica de Catalunyaavellido/teaching/13-14/Intro5... · 2013-10-23 · management methods, including statistical methods Each Six Sigma project
Page 7: Data Mining II - UPC Universitat Politècnica de Catalunyaavellido/teaching/13-14/Intro5... · 2013-10-23 · management methods, including statistical methods Each Six Sigma project
Page 8: Data Mining II - UPC Universitat Politècnica de Catalunyaavellido/teaching/13-14/Intro5... · 2013-10-23 · management methods, including statistical methods Each Six Sigma project
Page 9: Data Mining II - UPC Universitat Politècnica de Catalunyaavellido/teaching/13-14/Intro5... · 2013-10-23 · management methods, including statistical methods Each Six Sigma project

Process Mining

Page 10: Data Mining II - UPC Universitat Politècnica de Catalunyaavellido/teaching/13-14/Intro5... · 2013-10-23 · management methods, including statistical methods Each Six Sigma project

Process Mining (PM)PM sits between CI and DM on the one hand, and process modeling and analysis on the other. PM aims to discover, monitor and improve real processes by extracting knowledge from event logs. Why PM? … an ever‐increasing number of events are being recorded, providing detailed information about the history of processes. On the other hand, there is a need to improve and support business processes in rapidly changing and aggressively competitive environments.PM includes (automated) process discovery (extracting process models from an event log), conformance checking (monitoringdeviations of model from log), organizational mining (inc. social networks), automated construction of simulation models, model extension, model repair, case prediction, and history‐basedrecommendations.

IDADM

event logs are extracted from data sources (e.g., databases, transaction logs, audit trails, etc.). Examples of formats are MXML (Mining eXtensible Markup Language) and XES (eXtensible Event Stream). XES was selected by the IEEE Task Force on Process Mining as the standard format for logging events.There are several tools to extract MXML or XES logs from various data sources. See for example:• XESame• ProMimport• Nitro

Page 11: Data Mining II - UPC Universitat Politècnica de Catalunyaavellido/teaching/13-14/Intro5... · 2013-10-23 · management methods, including statistical methods Each Six Sigma project

Process Mining (PM)PM could be a bridge between DM and business process modeling and analysis, under the umbrella concept of Business Intelligence (BI). It can also be seen as the "missing link" between DM and traditional model‐driven BPM. Most DM techniques are not fit as such for process analysis.Co‐existing analytical concepts: Business Activity Monitoring (BAM): technologies enabling the real‐time monitoring of business processes. Complex Event Processing (CEP): technologies to process large amounts of events for optimizing the business in real time. Corporate Performance Management (CPM): measuring the performance of a process or organization. Co‐existing management concepts: such as Continuous ProcessImprovement (CPI), Business Process Improvement (BPI), Total Quality Management (TQM), and Six Sigma. PM enables all these within a single framework.

IDADM

Six Sigma is a set of strategies, techniques, and tools for process improvement. It was developed byMotorola in 1981.[and became famous when it became a successful business strategy at General Electric in 1995. Today, it is used in many industrial sectors.It seeks to improve the quality of process outputs by identifying and removing the causes of defects (errors) and minimizing variability in business processes. It uses a set of quality management methods, including statistical methodsEach Six Sigma project carried out within an organization follows a defined sequence of stepsand has quantified value targets, for example: reduce process cycle time, reduce pollution, reduce costs, increase customer satisfaction, or increase profits.

Page 12: Data Mining II - UPC Universitat Politècnica de Catalunyaavellido/teaching/13-14/Intro5... · 2013-10-23 · management methods, including statistical methods Each Six Sigma project

Process Mining (PM)Event logs:  All PM techniques assume that it is possible to sequentially record events such that each event refers to an activity (a well‐defined step in some process) and is related to a particular case (a process instance). ELmay store additional information about events: resource (person or device) executing the activity, timestamp of the event, or data elements recorded together with the event.

IDADM

Page 13: Data Mining II - UPC Universitat Politècnica de Catalunyaavellido/teaching/13-14/Intro5... · 2013-10-23 · management methods, including statistical methods Each Six Sigma project

Process Mining (PM)Discovery:  The first element of PM is discovery. A discovery technique takes an event log and produces a model without using any a priori information.

Conformance:  The second is conformance: an existing process model is compared with an event log of the same process. Conformance checking can be used to check if reality/process, as recorded in the EL, conforms to the model and vice versa. Conformance checking can be applied to procedural models, organizational models, declarative process models, etc.

IDADM

Enhancement : Extending or improving an existing PM using information about the actual process recorded in some EL. This third type of PM aims at changing or extending the a priori model.

Page 14: Data Mining II - UPC Universitat Politècnica de Catalunyaavellido/teaching/13-14/Intro5... · 2013-10-23 · management methods, including statistical methods Each Six Sigma project

Process Mining (PM): perspectives• Control‐flow perspective:  focuses on the ordering of activities. The goal of 

mining this perspective is to find a good characterization of all possible paths. The result is typically expressed in terms of a Petri net or some other process notation (EPCs, BPMN, or UML activity diagrams). 

• Organizational perspective: focuses on information about resources hidden in the event log, i.e., which actors (people, systems, roles, or departments) are involved and how are they related. The goal is to either structure the organization by classifying people in terms of roles and organizational units or to map a social network. 

• Case perspective: focuses on properties of cases. A case can be characterized by its path in the process or by the actors working on it.

IDADM

Business Process Model and Notation (BPMN) example. A graphical representation for specifying business processes in a business process model.

Page 15: Data Mining II - UPC Universitat Politècnica de Catalunyaavellido/teaching/13-14/Intro5... · 2013-10-23 · management methods, including statistical methods Each Six Sigma project

Process Mining (PM): BPM vs. PM• Business Process Modeling: 7 phases : In the (re)design phase a new process 

model is created or an existing process model is adapted. In the analysis phase a candidate model and its alternatives are analyzed. Then, the model is implemented (implementation phase) or an existing system is (re)configured(reconfiguration phase). In the execution phase, the designed model is enacted. During the execution phase the process is monitored. Moreover, smaller adjustments may be made without redesigning the process (adjustment phase). In the diagnosis phase the enacted process is analyzed and the output of this phase may trigger a new process redesign phase.

IDADM

Page 16: Data Mining II - UPC Universitat Politècnica de Catalunyaavellido/teaching/13-14/Intro5... · 2013-10-23 · management methods, including statistical methods Each Six Sigma project

IDADM

Process Mining (PM): BPM vs. PMPMining: 5 stages :Plan and Justify: Includes understanding the available data and process domain. Extract: event data, models, objectives, and questions need to be extracted from systems, domain experts, and management. Control‐flow modelling: control‐flow model isconstructed and linked to the event log. Hereautomated process discovery techniques can be used. The event log may be filtered or adapted using the model (e.g., removing outlier cases and inserting missing events). Integrated process model: the control‐flow model may be extended with other perspectives (e.g., data, time, and resources).Operational support:Moreover, smaller adjustments may be made without redesigningthe process (adjustment phase). In the diagnosis phase the enacted process is analyzed and the output of this phase may trigger a new process redesign phase.

Page 17: Data Mining II - UPC Universitat Politècnica de Catalunyaavellido/teaching/13-14/Intro5... · 2013-10-23 · management methods, including statistical methods Each Six Sigma project

IDADM

Process Mining (PM): Guiding principles

PMining: 5 stages :

Plan and Justify: Includes understanding the available data and process domain. Extract: event data, models, objectives, and questions need to be extracted from systems, domain experts, and management. Control‐flow modelling: control‐flow modelis constructed and linked to the event log. Here automated process discoverytechniques can be used. The event log may be filtered or adapted using the model (e.g., removing outlier cases and inserting missingevents). Integrated process model: the control‐flow model may be extended with other perspectives (e.g., data, time, and resources).Operational support:Moreover, smaller adjustments may be made withoutredesigning the process (adjustment phase). In the diagnosis phase the enacted process is analyzed and the output of this phase may trigger a new process redesign phase.

Page 18: Data Mining II - UPC Universitat Politècnica de Catalunyaavellido/teaching/13-14/Intro5... · 2013-10-23 · management methods, including statistical methods Each Six Sigma project

Process Mining (PM)PM as a building block of BI

IDADM

Page 19: Data Mining II - UPC Universitat Politècnica de Catalunyaavellido/teaching/13-14/Intro5... · 2013-10-23 · management methods, including statistical methods Each Six Sigma project

Process Mining (PM)PM book

IDADM

Page 20: Data Mining II - UPC Universitat Politècnica de Catalunyaavellido/teaching/13-14/Intro5... · 2013-10-23 · management methods, including statistical methods Each Six Sigma project

Process Mining (PM)PM IEEE Task Force

IDADM