mineração de dados felipe carvalho – ufes 2009/2
TRANSCRIPT
Mineração de DadosFelipe Carvalho – UFES 2009/2
Motivação
• Grandes volumes de dados disponíveis, que dificultam a análise humana sobre os mesmos.– BD Amazon ~ 100 TB– BD da NASA: recebe de satélites 50 GB por hora– http://www.archive.org: um petabyte de dados
• “cemitério” de dados: dados raramente visitados.
• Necessidade de transformar estes dados em informação útil.
Motivação – Aumento dos dados
• Inviabilidade de análise humana dos dados• Muito tempo para se descobrir alguma
informação útil
0
500,000
1,000,000
1,500,000
2,000,000
2,500,000
3,000,000
3,500,000
4,000,000
1995 1996 1997 1998 1999
Total novos discos (TB) desde 1995
Quant. de analistas
De: R. Grossman, C. Kamath, V. Kumar, “Data Mining for Scientific and Engineering Applications”
Exemplo da Wall Mart
• O que fraldas tem a ver com cerveja?– Premissas dos gerentes das lojas:
• Mães compram fraldas seção feminina e de bebês.• Homens compram cervejas seção masculina e bebidas.
– O Terada Warehouse Miner fez a seguinte sugestão:• Coloquem a seção de fraldas ao lado da seção de cervejas.
– Resultado:• As vendas de cerveja cresceram 30%.• As vendas de fraldas cresceram 40%.
– Porque?• Homens casados, entre 25 e 30 anos, compram fraldas e/ou cervejas
no final das tardes de sexta-feira no retorno do trabalho para casa.
Aplicações
• Marketing/ Vendas– Prever quais consumidores serão atingidos nas campanhas publicitárias.– Verificar por que os clientes trocam uma empresa por outra.
• Medicina– Prever quais pacientes têm maior probabilidade de contrair uma certa
doença.
• Finanças– Detectar padrões de fraudes no uso de cartões de crédito.– Identificar tendências de alta ou baixa de ações.
O que é mineração de dados?
• Uso de técnicas, preferencialmente automáticas, de exploração de grandes quantidades de dados de forma a descobrir novos padrões e relações que, devido ao volume de dados, não seriam facilmente descobertos a olho nú pelo ser humano (Carvalho, 2001).
• Mineração de Dados é a principal etapa do processo de descoberta de conhecimento em bases de dados (Knowledge in Database Discovery – KDD, traduzido: Descoberta de Conhecimento em Banco de Dados), sendo responsável pelo processamento de dados com a finalidade de identificar padrões.
Mineração de dados - Multidisciplinar
Etapas do KDD
Etapas do KDD• 0. Definição do problema - tipo de conhecimento que se deseja extrair do banco de
dados.• 1. Limpeza de dados - identificar dados faltantes e inconsistentes.• 2. Integração de Dados - onde múltiplas fontes de dados devem ser combinadas e
padronizadas em um Armazém de Dados (Data Warehouse) para facilitar o processo de mineração de dados.
• 3. Seleção de dados - onde os dados relevantes para a tarefa de análise são extraídos do banco de dados. O parâmetro para seleção é definido por um especialista do domínio.
• 4. Transformação de Dados - onde dados são transformados ou consolidados em formas apropriados para a mineração.
• 5. Mineração de Dados - um processo essencial onde métodos inteligentes são aplicados para extrair padrões de dados
• 6. Avaliação de padrões - identificação de quais padrões minerados são realmente interessantes para a solução do problema informado na etapa 0.
• 7. Apresentação do conhecimento
Técnicas de Mineração de Dados• Classificação - Classificar um objeto é determinar com que grupo de
entidades, já classificados anteriormente, esse objeto apresenta mais semelhança.
• Estimação - Estimar um atributo é avaliá-lo tendo como base casos semelhantes nos quais esse atributo esteja presente (consulta a base de conhecimento).
• Previsão - A previsão consiste na determinação do valor futuro de um atributo, baseando-se em registros antigos deste atributo.
• Análise de Afinidades - Preocupa-se em descobrir que elementos dos eventos têm relações no tempo. O objetivo da análise de afinidade é encontrar quais produtos ou serviços os consumidores buscam conjuntamente.
• Análise de Agrupamento - Baseado em medidas de semelhança, definir quantas e quais classes existem em um conjunto de dados.
Principais Softwares• Weka: software de domínio público (Java), desenvolvido pela Universidade de Waikato,
contem uma série de algoritmos de DM.
• Intelligent Miner: desenvolvido pela IBM, é uma ferramenta de DM interligado diretamente com o banco de dados DB2 da IBM.
• Oracle Data Miner: desenvolvido pela Oracle, permite interligação direta com o banco de dados Oracle Enterprise 9i.
• SAS Enterprise Miner: tradicionalmente utilizado na área de negócios, marketing e inteligência competitiva.
• Statistica Data Miner: acrescenta as facilidades de mineração de dados ao tradicional pacote utilizado em aplicações de estatística.
Weka
Statistica Data Miner