mineração de dados felipe carvalho – ufes 2009/2

Mineração de DadosFelipe Carvalho – UFES 2009/2

Motivação

• Grandes volumes de dados disponíveis, que dificultam a análise humana sobre os mesmos.– BD Amazon ~ 100 TB– BD da NASA: recebe de satélites 50 GB por hora– http://www.archive.org: um petabyte de dados

• “cemitério” de dados: dados raramente visitados.

• Necessidade de transformar estes dados em informação útil.

Motivação – Aumento dos dados

• Inviabilidade de análise humana dos dados• Muito tempo para se descobrir alguma

informação útil

0

500,000

1,000,000

1,500,000

2,000,000

2,500,000

3,000,000

3,500,000

4,000,000

1995 1996 1997 1998 1999

Total novos discos (TB) desde 1995

Quant. de analistas

De: R. Grossman, C. Kamath, V. Kumar, “Data Mining for Scientific and Engineering Applications”

Exemplo da Wall Mart

• O que fraldas tem a ver com cerveja?– Premissas dos gerentes das lojas:

• Mães compram fraldas seção feminina e de bebês.• Homens compram cervejas seção masculina e bebidas.

– O Terada Warehouse Miner fez a seguinte sugestão:• Coloquem a seção de fraldas ao lado da seção de cervejas.

– Resultado:• As vendas de cerveja cresceram 30%.• As vendas de fraldas cresceram 40%.

– Porque?• Homens casados, entre 25 e 30 anos, compram fraldas e/ou cervejas

no final das tardes de sexta-feira no retorno do trabalho para casa.

Aplicações

• Marketing/ Vendas– Prever quais consumidores serão atingidos nas campanhas publicitárias.– Verificar por que os clientes trocam uma empresa por outra.

• Medicina– Prever quais pacientes têm maior probabilidade de contrair uma certa

doença.

• Finanças– Detectar padrões de fraudes no uso de cartões de crédito.– Identificar tendências de alta ou baixa de ações.

O que é mineração de dados?

• Uso de técnicas, preferencialmente automáticas, de exploração de grandes quantidades de dados de forma a descobrir novos padrões e relações que, devido ao volume de dados, não seriam facilmente descobertos a olho nú pelo ser humano (Carvalho, 2001).

• Mineração de Dados é a principal etapa do processo de descoberta de conhecimento em bases de dados (Knowledge in Database Discovery – KDD, traduzido: Descoberta de Conhecimento em Banco de Dados), sendo responsável pelo processamento de dados com a finalidade de identificar padrões.

Mineração de dados - Multidisciplinar

Etapas do KDD

Etapas do KDD• 0. Definição do problema - tipo de conhecimento que se deseja extrair do banco de

dados.• 1. Limpeza de dados - identificar dados faltantes e inconsistentes.• 2. Integração de Dados - onde múltiplas fontes de dados devem ser combinadas e

padronizadas em um Armazém de Dados (Data Warehouse) para facilitar o processo de mineração de dados.

• 3. Seleção de dados - onde os dados relevantes para a tarefa de análise são extraídos do banco de dados. O parâmetro para seleção é definido por um especialista do domínio.

• 4. Transformação de Dados - onde dados são transformados ou consolidados em formas apropriados para a mineração.

• 5. Mineração de Dados - um processo essencial onde métodos inteligentes são aplicados para extrair padrões de dados

• 6. Avaliação de padrões - identificação de quais padrões minerados são realmente interessantes para a solução do problema informado na etapa 0.

• 7. Apresentação do conhecimento

Técnicas de Mineração de Dados• Classificação - Classificar um objeto é determinar com que grupo de

entidades, já classificados anteriormente, esse objeto apresenta mais semelhança.

• Estimação - Estimar um atributo é avaliá-lo tendo como base casos semelhantes nos quais esse atributo esteja presente (consulta a base de conhecimento).

• Previsão - A previsão consiste na determinação do valor futuro de um atributo, baseando-se em registros antigos deste atributo.

• Análise de Afinidades - Preocupa-se em descobrir que elementos dos eventos têm relações no tempo. O objetivo da análise de afinidade é encontrar quais produtos ou serviços os consumidores buscam conjuntamente.

• Análise de Agrupamento - Baseado em medidas de semelhança, definir quantas e quais classes existem em um conjunto de dados.

Principais Softwares• Weka: software de domínio público (Java), desenvolvido pela Universidade de Waikato,

contem uma série de algoritmos de DM.

• Intelligent Miner: desenvolvido pela IBM, é uma ferramenta de DM interligado diretamente com o banco de dados DB2 da IBM.

• Oracle Data Miner: desenvolvido pela Oracle, permite interligação direta com o banco de dados Oracle Enterprise 9i.

• SAS Enterprise Miner: tradicionalmente utilizado na área de negócios, marketing e inteligência competitiva.

• Statistica Data Miner: acrescenta as facilidades de mineração de dados ao tradicional pacote utilizado em aplicações de estatística.

Statistica Data Miner

mineração de dados felipe carvalho – ufes 2009/2

Documents