data mining - feup › ~projfeup › submit_16_17 › uploads › relat_1… · data mining is...

32
DATA MINING Resultados desportivos Projeto FEUP 2016/2017 MIEGI Turma 1 Equipa 2 Ana Beatriz Gonçalves - 201606903 Ana Margarida Silva - 201506778 Ana Teresa Matos - 201606905 André Moreira Pinto - 201606896 Bárbara Alves Ribeiro - 201606910 Coordenador: Luís Guimarães Supervisor: Armando Leitão Monitor: Luís Dias

Upload: others

Post on 04-Jul-2020

10 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: DATA MINING - FEUP › ~projfeup › submit_16_17 › uploads › relat_1… · Data mining is extracting or mining knowledge from large amounts of data Han and Kamber 2006. Faculdade

DATA MINING

Resultados desportivos

Projeto FEUP 2016/2017 – MIEGI

Turma 1 Equipa 2

Ana Beatriz Gonçalves - 201606903

Ana Margarida Silva - 201506778

Ana Teresa Matos - 201606905

André Moreira Pinto - 201606896

Bárbara Alves Ribeiro - 201606910

Coordenador: Luís Guimarães

Supervisor: Armando Leitão

Monitor: Luís Dias

Page 2: DATA MINING - FEUP › ~projfeup › submit_16_17 › uploads › relat_1… · Data mining is extracting or mining knowledge from large amounts of data Han and Kamber 2006. Faculdade

Faculdade de Engenharia da Universidade do Porto - FEUP

Data Mining - Resultados desportivos i

Resumo

No presente trabalho realizado no âmbito da unidade curricular Projeto FEUP, pretende

explorar o conceito de Data Mining, particularizando a sua aplicação a nível desportivo.

Efetivamente, este tema revelou-se muito inovador devido, ao facto de, nos dias de hoje, a

quantidade de informação pouco organizada ser cada vez mais significativa e,

simultaneamente, o desporto querer-se apresentar como uma área mais profissional e eficiente.

Este trabalho aborda todos os aspetos do processo de Data Mining, desde o conceito e

considerações mais gerais até à forma como é executado e as principais técnicas/ferramentas

de que se serve, não esquecendo algumas das suas vantagens e desvantagens. Para além disso,

relativamente à área desportiva, particularizam-se algumas modalidades onde este mecanismo

é destacado.

Assim, o Data Mining é um processo que auxilia na previsão de tendências futuras,

com o intuito de transformar a informação em conhecimento organizado e útil, possibilitando

a aquisição de resultados mais eficientes.

Palavras-chave

Base de dados, padrões, análise, previsão, algoritmos, Data Mining, conhecimento organizado,

modelos estatísticos, inteligência artificial, softwares, rendimento, performance

Page 3: DATA MINING - FEUP › ~projfeup › submit_16_17 › uploads › relat_1… · Data mining is extracting or mining knowledge from large amounts of data Han and Kamber 2006. Faculdade

Faculdade de Engenharia da Universidade do Porto - FEUP

Data Mining - Resultados desportivos ii

Agradecimentos

A concretização e elaboração deste relatório, no âmbito da unidade curricular Projeto

FEUP, apenas foi possível graças ao contributo de algumas pessoas.

Primeiramente, gostaríamos de louvar a Faculdade de Engenharia da Universidade do

Porto por desenvolver uma unidade curricular tão inovadora e didática como o Projeto FEUP,

que, certamente, permitirá aos seus mais recentes alunos a aquisição de conhecimentos básicos

e muito úteis não só na vida académica mas também na vida profissional.

Por outro lado, gostaríamos de agradecer ao nosso monitor, Luís Dias, e ao nosso

supervisor, Professor Armando Leitão, pela disponibilidade, motivação e sugestões que

contribuíram decisivamente para que fosse possível a elaboração deste relatório.

Page 4: DATA MINING - FEUP › ~projfeup › submit_16_17 › uploads › relat_1… · Data mining is extracting or mining knowledge from large amounts of data Han and Kamber 2006. Faculdade

Faculdade de Engenharia da Universidade do Porto - FEUP

Data Mining - Resultados desportivos iii

Índice

Introdução .................................................................................................................................. 1

1. Conceito De Data Mining ................................................................................................... 2

2. Etapas Para A Aplicação Do Data Mining ......................................................................... 4

2.1. Seleção de dados ......................................................................................................... 4

2.2. Limpeza de dados (data quality) ................................................................................. 4

2.3. Transformação e codificação dos dados...................................................................... 5

2.4. Processamento do Data Mining .................................................................................. 5

3. Principais Técnicas / Algoritmos ........................................................................................ 6

3.1. Árvores de Decisão ..................................................................................................... 6

3.2. Redes Neuronais .......................................................................................................... 6

3.3. Regras de associação ................................................................................................... 7

4. Ferramentas ......................................................................................................................... 8

4.1. SAS (Enterprise Miner) .............................................................................................. 8

4.2. Weka ............................................................................................................................ 8

4.3. RapidMiner.................................................................................................................. 9

5. Vantagens e desvantagens do processo ............................................................................ 10

5.1. Vantagens .................................................................................................................. 10

5.2. Desvantagens ........................................................................................................... 11

6. Data mining associado ao desporto .................................................................................. 13

6.1. Data Mining e resultados desportivos ...................................................................... 14

7. Trabalhos futuros / Conclusão .......................................................................................... 22

8. Referências bibliográficas................................................................................................. 23

9. Anexos ………………………………………………………………………………….. 24

Page 5: DATA MINING - FEUP › ~projfeup › submit_16_17 › uploads › relat_1… · Data mining is extracting or mining knowledge from large amounts of data Han and Kamber 2006. Faculdade

Faculdade de Engenharia da Universidade do Porto - FEUP

Data Mining - Resultados desportivos iv

Lista de Figuras

Figura 1 - Etapas do processo KDD (Knowledge Discovery in Databases)…………..…..… 3

Figura 1 – Etapas para a aplicação do Data Mining …………………………………………. 5

Figura 3 - Estrutura de uma árvore de decisão…………...……………………….…...…….. 6

Figura 4 - Estrutura de uma rede neuronal………………...…………...…………….………. 7

Figura 5 - Logótipo SAS …………..………………...…………………………….………... 8

Figura 6 - Logótipo RapidMiner………………………………..……………………..…..…. 9

Figura 7 - Jogo de Basquetebol (NBA)…………………………………...………….…….... 15

Figura 8 - Zonas de lançamento………………………………………………………….…. 17

Figura 9 - Campeonato de Fórmula 1………………………………...………….……….…. 18

Figura 10 - Acidente de Fórmula 1…………….…………..………….....………………….. 19

Figura 11 - Acidente trágico…………………….…………….……………………….......... 20

Page 6: DATA MINING - FEUP › ~projfeup › submit_16_17 › uploads › relat_1… · Data mining is extracting or mining knowledge from large amounts of data Han and Kamber 2006. Faculdade

Faculdade de Engenharia da Universidade do Porto - FEUP

Data Mining - Resultados desportivos v

Lista de Tabelas

Tabela 1 - Dados relativos ao Grand Prix 2016 (Abu Dabi, Austrália, Áustria,

Bahrein, Bélgica, Brasil, Reino Unido) ……………………….……………………… 24

Tabela 2 - Dados relativos ao Grand Prix 2016 (Canadá, China, Europa, Alemanha,

Hungria, Índia, Itália e Japão) ………………………………………………………… 25

Tabela 3 - Dados relativos ao Grand Prix 2016 (Coreia, Malásia, México, Mónaco, Rússia,

Singapura, Espanha, Turquia) ………………….…………………………………………… 26

Tabela 4 - Pontuação dos cincos melhores classificados em todas edições do Grand

Prix 2016 ………………………………………………………………………………. 18

Tabela 5 – Número de corredores que não terminaram a partida …………………… 21

Page 7: DATA MINING - FEUP › ~projfeup › submit_16_17 › uploads › relat_1… · Data mining is extracting or mining knowledge from large amounts of data Han and Kamber 2006. Faculdade

Faculdade de Engenharia da Universidade do Porto - FEUP

Data Mining - Resultados desportivos 1

INTRODUÇÃO

Nos dias de hoje temos assistido a um contínuo crescimento e desenvolvimento da

quantidade e do tipo de informação. A crescente necessidade de organizar e analisar parte dessa

informação, de uma forma rápida e mais eficaz, levou ao surgimento do processo de Data

Mining. Assim, Data Mining pode ser interpretado como o método de recolha e análise de

dados, a partir de uma grande quantidade de informação, transformando-a em conhecimento

útil e organizado.

Para além disso, as tecnologias que estão associadas ao processo de Data Mining

encontram-se igualmente em grande desenvolvimento e expansão e tem-se assistido a um

surgimento de novas ferramentas ou aperfeiçoamento das técnicas / algoritmos já existentes.

A aplicação do Data Mining na indústria desportiva foi impulsionada pelo abrangente

conjunto de dados associados ao desporto, bem como, pelo facto de este processo ser bastante

bem sucedido noutras áreas. O mundo desportivo compreende inúmeras modalidades e

desperta grande interesse económico, sendo assim importante um estudo mais científico dos

atletas, estudo cujo objetivo é melhorar, tanto quanto possível, a performance dos desportistas

[1].

Pretende-se, então, com este trabalho, desenvolvido no âmbito da unidade curricular

Projeto FEUP, caracterizar o conceito de Data Mining bem como as suas vantagens e

desvantagens, tendo em conta a influência desta técnica ao nível dos resultados desportivos.

Page 8: DATA MINING - FEUP › ~projfeup › submit_16_17 › uploads › relat_1… · Data mining is extracting or mining knowledge from large amounts of data Han and Kamber 2006. Faculdade

Faculdade de Engenharia da Universidade do Porto - FEUP

Data Mining - Resultados desportivos 2

1. CONCEITO DE DATA MINING

O Data Mining é uma área de estudo que se baseia na recolha e seleção de informação,

transformando-a em conhecimento organizado.

A análise quantitativa da informação, cujo intuito passa por avaliar e identificar

relacionamentos entre variáveis, inclui diversos métodos, desde modelos estatísticos,

algoritmos matemáticos e inteligência artificial.

Este mecanismo permite não só a análise de grandes quantidades de dados mas também

o registo e dedução de padrões, exceções, tendências e correlações, culminando em

conhecimentos potencialmente úteis. Os resultados do processamento dos dados auxiliam na

tomada de decisões, sendo usados para descrever características do passado, para predizer

tendências futuras (comportamento futuro) e para estabelecer relacionamentos causa/efeito.

Esta técnica de mineração de dados tem sido aplicada nas mais diversas áreas, tais como gestão

de empresas, controlos de produção, exploração e investigação científicas, desporto, entre

outras, como forma de redução de custos, aumento de vendas e melhorias de pesquisas e

resultados. [2]

O Data Mining é a principal fase de um procedimento mais extenso, conhecido como

KDD (Knowledge Discovery in Databases) (Figura 1), o qual permite a extração não trivial de

conhecimento previamente desconhecido e potencialmente útil de um banco de dados,

recorrendo a diversos algoritmos. Conceito, ainda enfatizado por Fayyad et al. (1996),

afirmando que é “o processo não trivial de identificação de padrões válidos, desconhecidos,

potencialmente úteis e, no final das contas, compreensíveis em dados”.

Data mining is extracting or mining knowledge from large amounts of data

Han and Kamber 2006

Page 9: DATA MINING - FEUP › ~projfeup › submit_16_17 › uploads › relat_1… · Data mining is extracting or mining knowledge from large amounts of data Han and Kamber 2006. Faculdade

Faculdade de Engenharia da Universidade do Porto - FEUP

Data Mining - Resultados desportivos 3

Segundo Elmasri e Navathe (2002), a técnica de Data Mining compreende os seguintes

propósitos:

● Previsão - pode mostrar como certos atributos dentro dos dados irão comportar-se no

futuro;

● Identificação - padrões de dados podem ser utilizados para identificar a existência de

um item, um evento ou uma atividade;

● Classificação - pode repartir os dados de modo que diferentes classes ou categorias

possam ser identificadas com base em combinações de parâmetros;

● Otimização do uso de recursos limitados, como tempo, espaço, dinheiro ou matéria-

prima e maximizar variáveis de resultado como vendas ou lucros sob um determinado

conjunto de restrições.

Figura 2 - Etapas do processo KDD (Knowledge Discovery in Databases)

Page 10: DATA MINING - FEUP › ~projfeup › submit_16_17 › uploads › relat_1… · Data mining is extracting or mining knowledge from large amounts of data Han and Kamber 2006. Faculdade

Faculdade de Engenharia da Universidade do Porto - FEUP

Data Mining - Resultados desportivos 4

2. ETAPAS PARA A APLICAÇÃO DO DATA MINING

As etapas para aplicação do Data Mining (Figura 2) correspondem a um conjunto de fases

distintas onde os dados são continuamente submetidos a processos de seleção, análise, limpeza,

transformação e codificação e, por último, são submetidos a um processo que resultará na

extração de sequências e padrões.

2.1. Seleção de dados

Normalmente, os dados são extraídos de Data Warehouses, um sistema de computação /

banco de dados onde são armazenadas informações de forma consolidada. Nesta fase são

selecionados e recolhidos os dados considerados relevantes para posterior análise.

2.2. Limpeza de dados (data quality)

A etapa de limpeza de dados é essencial na eliminação de “ruídos” (conteúdo

desnecessário ou inconsistentes) presente na informação e é realizada através de um pré-

processamento da mesma. Tendo por base um conjunto de algoritmos de limpeza de dados,

esta etapa engloba atividades como a eliminação de duplicados ou dados incompletos, a

correção de erros de digitação, a repetição de registos, a identificação de inconsistências que

poderão existir, entre outras. É importante salientar que o resultado desta etapa é, em geral, um

arquivo completamente distinto das bases de dados originais (Gurek, 2001).

Page 11: DATA MINING - FEUP › ~projfeup › submit_16_17 › uploads › relat_1… · Data mining is extracting or mining knowledge from large amounts of data Han and Kamber 2006. Faculdade

Faculdade de Engenharia da Universidade do Porto - FEUP

Data Mining - Resultados desportivos 5

2.3. Transformação e codificação dos dados

Os dados são transformados e consolidados de forma apropriadas, de modo a facilitar a

posterior aplicação das técnicas de Data Mining, sendo para isto realizadas várias operações.

Algumas das técnicas empregadas nesta etapa são a suavização (remove valores errados dos

dados), agregação (agrupa valores em faixas sumarizadas), generalização (conversão de

valores muito específicos em valores mais genéricos), normalização (colocar as variáveis numa

mesma escala) e a criação de novos atributos (gerados a partir de outros já existentes).

2.4. Processamento do Data Mining

A aplicação dos diferentes tipos de algoritmos (árvores de decisão, regras de associação

e redes neuronais), que serão apresentados no capítulo três, está associada à utilização de

ferramentas avançadas que permitirão a representação e agregação de conhecimento mais

consolidado (conhecimento anteriormente “oculto” no banco de dados analisados). Esta etapa

culmina com a extração dos padrões de conhecimento encontrados. [3]

Figura 3 – Etapas para a aplicação do Data Mining

Page 12: DATA MINING - FEUP › ~projfeup › submit_16_17 › uploads › relat_1… · Data mining is extracting or mining knowledge from large amounts of data Han and Kamber 2006. Faculdade

Faculdade de Engenharia da Universidade do Porto - FEUP

Data Mining - Resultados desportivos 6

3. PRINCIPAIS TÉCNICAS / ALGORITMOS

3.1. Árvores de Decisão

As árvores de decisão (Figura 2), extremamente utilizadas em algoritmos de

classificação, são representações simples do conhecimento, que servem para a construção de

classificadores que preveem ou revelam classes/informações baseadas nos valores de um

conjunto de dados. É executada uma sequência de testes, em que cada nó interno da árvore

corresponde a um teste do valor de uma das propriedades, e os ramos deste nó são identificados

com os possíveis valores do teste. Uma árvore de decisão é, desta forma, uma série de

declarações if-elses, que quando aplicadas a um registro de uma base de dados, resultam na

classificação daquele registro.

3.2. Redes Neuronais

As redes neuronais (Figura 3) foram inspiradas na forma como os neurónios do Ser

Humano se interligam e constituem uma rede complexa.

Geralmente, uma rede neuronal é constituída por diversos nós: nós de input (que recebem

os sinais de entrada), um conjunto de nós intermédios, e nós de output (para os sinais de saída).

Figura 4 - Estrutura de uma árvore de decisão

Page 13: DATA MINING - FEUP › ~projfeup › submit_16_17 › uploads › relat_1… · Data mining is extracting or mining knowledge from large amounts of data Han and Kamber 2006. Faculdade

Faculdade de Engenharia da Universidade do Porto - FEUP

Data Mining - Resultados desportivos 7

A forma como as ligações entre os nós são estabelecidas é ajustada de acordo com a etapa

de aprendizagem, etapa em que são experimentadas diversas combinações possíveis de

interligações entre nós, sendo selecionada uma amostra cujos resultados já são conhecidos, isto

é, para certos valores atribuídos à entrada da rede, obtém-se a resposta correta. Após a etapa de

aprendizagem, utilizam-se outros valores para inputs de modo a obter novas respostas

(desconhecidas).

3.3. Regras de associação

As regras de associação permitem descobrir se a presença de um conjunto de itens nos

registos de uma base de dados implica a presença de um outro conjunto distinto de itens nos

mesmos registos (X → Y) (Agrawal and Srikant, 1994). Serve, assim, para avaliar

determinados padrões de comportamento, como por exemplo, a associação de produtos durante

um processo de compras e a sua frequência. As bases de dados envolvidas nestes processos são

muito grandes o que faz com que seja necessário a utilização de algoritmos rápidos e eficientes

[4].

Figura 5 - Estrutura de uma rede neuronal

Page 14: DATA MINING - FEUP › ~projfeup › submit_16_17 › uploads › relat_1… · Data mining is extracting or mining knowledge from large amounts of data Han and Kamber 2006. Faculdade

Faculdade de Engenharia da Universidade do Porto - FEUP

Data Mining - Resultados desportivos 8

4. FERRAMENTAS

Nesta secção estão apresentadas algumas das ferramentas mais utilizadas associadas

ao Data Mining.

4.1. SAS (Enterprise Miner)

A ferramenta SAS (Figura 4) É frequentemente utilizado como ferramenta para a

mineração de dados uma vez que permite uma variedade de manipulação de dados e escolhas

de transformação. Permite descobrir padrões de dados através de muita informação e oferece

um conjunto, rico e fácil de usar, de capacidades integradas que poderão ser aproveitadas para

ajudar a tomar decisões sensatas. Esta ferramenta é maioritariamente utilizada por faculdades

e empresas.

Figura 6 – Logótipo SAS

4.2. Weka

O sistema Weka é um software livre, desenvolvido em Java, que tem como principais

tarefas a classificação e sumarização, mas também tem como funções o pré-processamento de

dados, regressão, agrupamento, regras de associação, e visualização. As suas poderosas

funcionalidades e a interface intuitiva são as maiores razões pelas quais esta ferramenta é

utilizada.

Page 15: DATA MINING - FEUP › ~projfeup › submit_16_17 › uploads › relat_1… · Data mining is extracting or mining knowledge from large amounts of data Han and Kamber 2006. Faculdade

Faculdade de Engenharia da Universidade do Porto - FEUP

Data Mining - Resultados desportivos 9

4.3. RapidMiner

O RapidMiner (Figura 5) permite, de uma forma simples, construir, executar e validar

modelos de mineração de dados. À semelhança da SAS também suporta uma ampla gama de

tarefas que inclui o carregamento, transformação, modelagem, métodos de visualização,

análise, previsão e agrupamento de dados (Ohana, B., 2009).

Figura 7 – Logótipo RapidMiner

Page 16: DATA MINING - FEUP › ~projfeup › submit_16_17 › uploads › relat_1… · Data mining is extracting or mining knowledge from large amounts of data Han and Kamber 2006. Faculdade

Faculdade de Engenharia da Universidade do Porto - FEUP

Data Mining - Resultados desportivos 10

5. VANTAGENS E DESVANTAGENS DO PROCESSO

5.1. Vantagens

O processo de Data Mining, graças ao conhecimento útil e organizado extraído, apresenta

inúmeras vantagens, das quais se poderá destacar a previsão de tendências futuras, a ajuda na

tomada de decisões em diversos aspetos, a exposição de hábitos de aquisição, o aumento do

rendimento das empresas / organizações desportivas e, ainda, a fácil deteção de fraudes.

Marketing/Retalho

As empresas de marketing servem-se do Data Mining para, com base em dados previamente

armazenados, construir modelos de modo a prever as resposta que obterão relativamente a

novas campanhas de marketing. Através desta previsão, os comerciantes podem definir

estratégias a adotar e diferentes formas de abordagem, de modo a rentabilizar as vendas e

satisfazer os consumidores.

A nível das vendas a retalho, a análise destas mesmas vendas permite, por um lado, inferir que

tipo de produtos são frequentemente comprados juntos, realizando ajustes na operação e

produção, e, por outro lado, ajudar as empresas a perceber quais os descontos que devem

oferecer, de modo a atrair o máximo de consumidores possível.

Erros nos sistemas que poderiam conduzir a perdas de valor para a empresa, são

também identificados recorrendo ao Data Mining, tornando possível corrigir antecipadamente

esses erros de modo a evitar consequências negativas.

Page 17: DATA MINING - FEUP › ~projfeup › submit_16_17 › uploads › relat_1… · Data mining is extracting or mining knowledge from large amounts of data Han and Kamber 2006. Faculdade

Faculdade de Engenharia da Universidade do Porto - FEUP

Data Mining - Resultados desportivos 11

Finanças/Bancos

O Data Mining fornece às finanças informações sobre empréstimos e relatórios de crédito, e

permite às finanças e aos bancos identificar um bom ou mau empréstimo e o risco que lhe está

associado, sendo isto possível através da construção de modelos com dados de clientes

anteriores. Para além disso, este processo poderá servir de ferramenta para a deteção de

transações fraudulentas, salvaguardando as perdas do proprietário do cartão de crédito.

Governo

O governo opera com a ajuda do Data Mining, analisando com pormenor registos de transações

financeiras com a finalidade de detetar lavagens de dinheiro ou qualquer outra atividade

criminal.

5.2. Desvantagens

Em contrapartida, podemos apontar como desvantagem o facto de este ser um processo

dispendioso (implica grandes custos de implementação e manutenção) e que necessita de mão-

de-obra qualificada. Outros inconvenientes que se podem apontar são a violação de

privacidade, problemas de segurança, o uso inapropriado de informação e a limitação associada

à precisão dos dados.

Privacidade e Segurança

As empresas recolhem diversas informações acerca dos seus clientes com o intuito de

compreender o seu comportamento e as suas tendências de compra. Porém, quando uma

Page 18: DATA MINING - FEUP › ~projfeup › submit_16_17 › uploads › relat_1… · Data mining is extracting or mining knowledge from large amounts of data Han and Kamber 2006. Faculdade

Faculdade de Engenharia da Universidade do Porto - FEUP

Data Mining - Resultados desportivos 12

empresa é vendida ou vai à falência, essas informações pessoais são transmitidas e/ou vazam,

podendo ser utilizadas de forma não ética.

Informações como o número da segurança social, folha de pagamentos, entre outras, poderão

não estar devidamente seguras, e, caso seja essa a situação, um hacker conseguiria ter acesso a

essa informação, surgindo assim um grande problema.

Uso inapropriado e precisão de dados

O conhecimento proveniente do Data Mining, destinado à comercialização e a fins éticos, pode

ser aproveitado por pessoas mal-intencionadas para explorar vulnerabilidades em função de

benefício próprio. É também importante mencionar que este processo não é totalmente

fidedigno; desta forma, o uso de informação inexata poderá provocar diversas consequências.

[5]

Page 19: DATA MINING - FEUP › ~projfeup › submit_16_17 › uploads › relat_1… · Data mining is extracting or mining knowledge from large amounts of data Han and Kamber 2006. Faculdade

Faculdade de Engenharia da Universidade do Porto - FEUP

Data Mining - Resultados desportivos 13

6. DATA MINING ASSOCIADO AO DESPORTO

A mineração de dados não é apenas utilizada ao nível de empresas, mas também no setor

do desporto, cujas organizações e clubes desenvolveram departamentos de análise devido ao

grande número de dados associados a cada modalidade. Softwares livres como Rapid Miner e

Weka são algumas das ferramentas mais utilizadas no desporto, de forma a transformar dados

desportivos em conhecimento organizado.

O recurso ao processo do Data Mining no mundo do desporto levou ao desenvolvimento

de diversos departamentos analíticos, sendo que em cada jogo ou performance desportiva são

colecionados um vasto conjunto de dados sobre cada jogador ou atleta, equipa, jogo ou época.

A partir das informações que se retiram destes dados, as organizações ou clubes desportivos

realizam análises estatísticas e descobrem padrões, recorrendo à técnica do Data Mining, com

o objetivo de prever desempenhos e resultados, ou até com a finalidade de selecionar

jogadores/atletas, planear melhores estratégias de treino ou reduzir a frequência e o impacto

dos testes físicos aos atletas . Assim, estes dados permitiriam uma otimização da eficiência de

cada equipa/atleta e seriam uma mais-valia para os próprios desportistas, quer a nível de treinos

quer na sua dieta. [6]

Page 20: DATA MINING - FEUP › ~projfeup › submit_16_17 › uploads › relat_1… · Data mining is extracting or mining knowledge from large amounts of data Han and Kamber 2006. Faculdade

Faculdade de Engenharia da Universidade do Porto - FEUP

Data Mining - Resultados desportivos 14

6.1. Data Mining e resultados desportivos

Futebol

Um caso de particular interesse no desporto é o clube de futebol Italiano AC Milan

que recorre ao Data Mining como forma de previsão de possíveis lesões dos seus jogadores.

Através do uso da matemática, estatística e inteligência artificial são feitas previsões tendo em

conta o historial clínico de cada jogador. Esse registo clínico é desenvolvido através de uma

série de testes médicos, os quais são integrados em programas de software inteligente.

Seguidamente, procede-se a uma análise dos indicadores clínicos que podem registar uma

situação de risco ou não para um dado jogador. Esta informação, agora sobre a forma de

conhecimento organizado, pode ser utilizada como uma vantagem competitiva para os

jogadores e treinadores na prevenção de doenças e lesões e, por outro lado, pode ser um

benefício económico para o clube de futebol. Na verdade, esta prevenção das lesões contribui

para uma melhor performance do jogador, valorizando-o no mercado de transferências do

futebol.

Basquetebol

O basquetebol é um desporto que, ao longo da sua existência, tem vindo a atrair cada vez

mais a atenção de pessoas por todo o mundo, não só para a prática desta modalidade, mas

também para presenciar os jogos nos respetivos locais onde estes se desenrolam.

Mas então, o que é que torna este desporto assim tão atrativo e fora do comum?

Page 21: DATA MINING - FEUP › ~projfeup › submit_16_17 › uploads › relat_1… · Data mining is extracting or mining knowledge from large amounts of data Han and Kamber 2006. Faculdade

Faculdade de Engenharia da Universidade do Porto - FEUP

Data Mining - Resultados desportivos 15

Num jogo onde apenas a vitória interessa, os cinco jogadores de ambas as equipas dão

tudo por tudo para encestar a bola o maior número de vezes no cesto da equipa adversária

dentro do tempo limite de jogo. Quem marca mais, ganha.

O basquetebol torna-se assim numa modalidade desportiva muito competitiva (Figura 7),

onde os pequenos pormenores fazem toda a diferença entre a vitória ou a derrota.

Figura 7 - Jogo de basquetebol (NBA)

Assim, verifica-se que o uso do Data Mining aplicado às diferentes modalidades

desportivas em geral, e ao basquetebol em particular, passa a ser cada vez mais recorrente nos

dias de hoje. Com isto nasce uma nova indústria, capaz de revolucionar por completo o mundo

do desporto, uma vez que as equipas passam a ter informação preciosa sobre os jogadores e as

suas tendencias, sobre treinadores e, até mesmo, sobre as táticas que a equipa adversária adotará

antes e durante o decorrer da partida.

A iniciativa da aplicação do Data Mining ao basquetebol partiu de Dean Oliver, que após

ter verificado o sucesso deste software, criou uma associação de pesquisadores profissionais

de basquetebol (ABPRmetrics) [7].

Page 22: DATA MINING - FEUP › ~projfeup › submit_16_17 › uploads › relat_1… · Data mining is extracting or mining knowledge from large amounts of data Han and Kamber 2006. Faculdade

Faculdade de Engenharia da Universidade do Porto - FEUP

Data Mining - Resultados desportivos 16

Uma das formas de avaliar a eficácia de um determinado jogador é através da

Classificação da Eficácia do Jogador (PER), que atribui a esse mesmo jogador uma

determinada pontuação tendo em conta a sua eficácia por minuto. A pontuação atribuída

considera aspetos importantes como assistências, lançamentos bloqueados, faltas, lançamentos

em jogada acertados, lançamentos em jogada falhados, lançamentos livres, ressaltos, roubos de

bola, percas de bola, entre outros; permitindo, assim, atribuir uma classificação a um jogador

em função da sua performance durante o jogo e comparar esta classificação com as médias das

classificações dos outros jogadores. Posteriormente, o treinador pode, desta forma, chegar a

uma conclusão viável acerca de um dado jogador e repreende-lo ou felicitá-lo pela sua

prestação. Contudo, este método não consegue avaliar aspetos de caráter mais psicológico,

como a vontade e o desejo que o jogador em causa tem nas tarefas desempenhadas em campo.

Outro método adotado na análise das partidas de basquetebol designa-se por Zonas de

Lançamento (Figura 8). Esta técnica consiste em dividir um campo de basquetebol em 16 zonas

diferentes. O espaço do campo correspondente a cada uma dessas zonas indica os potenciais

lugares do campo de onde um jogador, em fase ofensiva, tende a lançar a bola ao cesto.

Analisando a percentagem de sucesso dos lançamentos de cada uma das 16 zonas, a equipa

adversária poderá fazer eventuais ajustes defensivos a fim de evitar sofrer o maior número de

cestos possíveis. Assim, o software Data Mining permite determinar em que posição um

jogador tem mais probabilidade de encesta, as manobras mais frequentemente adotadas pelo

jogador e prever alguns dos seus movimentos e jogadas. [7]

Page 23: DATA MINING - FEUP › ~projfeup › submit_16_17 › uploads › relat_1… · Data mining is extracting or mining knowledge from large amounts of data Han and Kamber 2006. Faculdade

Faculdade de Engenharia da Universidade do Porto - FEUP

Data Mining - Resultados desportivos 17

Figura 8 - Zonas de lançamento

Para além da análise dos jogos e do desempenho dos jogadores, este processo

desempenha igualmente um papel importante na previsão das respostas às campanhas de

marketing.

O Data Mining, como já foi referido e comprovado, pode ser uma grande mais-valia a

nível desportivo e, em particular, no basquetebol, podendo ser igualmente experimentado em

mecanismos secundários, como em apostas de resultados desportivos. [8]

Apesar dos benefícios associados a esta técnica, o Data Mining apresenta alguns pontos

negativos ao nível do basquetebol, nomeadamente a nível monetário, pois este software implica

grandes custos de implementação e utilização; por vezes, há um excesso de informação,

tornando-se difícil a sua organização e análise; as previsões nem sempre se realizam pois há

muitas variáveis que influenciam o resultado do jogo, não sendo também possível prever o seu

resultado.

Page 24: DATA MINING - FEUP › ~projfeup › submit_16_17 › uploads › relat_1… · Data mining is extracting or mining knowledge from large amounts of data Han and Kamber 2006. Faculdade

Faculdade de Engenharia da Universidade do Porto - FEUP

Data Mining - Resultados desportivos 18

Fórmula 1

Ao nível da Fórmula 1 (Figura 9), desporto que vai ser amplamente analisado

seguidamente, o Data Mining tem desempenhado uma importância considerável na escolha

dos veículos por parte dos participantes, bem como na análise da performance das equipas e na

posterior determinação dos fatores decisivos na classificação final.

Primeiramente, na compra de um veículo de Fórmula 1, tem que se ter em atenção alguns

dos seguintes aspetos, tais como o preço, a velocidade máxima, o tamanho do motor, a potência

do freio, bem como a qualidade e estado do equipamento.

Figura 9 - Campeonato de Fórmula 1

De seguida, tem-se em conta a informação presente nas tabelas (Tabelas 1, 2 e 3) que se

encontram em Anexos e na seguinte tabela (Tabela 4), relativos ao Grand Prix 2016,

campeonato de Fórmula 1 decorrido em diferentes países.

Tabela 4 - Pontuação dos cincos melhores classificados em todas edições do Grand Prix 2016

Corredor Pontuação

Rosberg Nico 313

Hamilton Lewis 280

Ricciardo Daniel 212

Raikkonem Kimi 170

Verstappen Max 165

Page 25: DATA MINING - FEUP › ~projfeup › submit_16_17 › uploads › relat_1… · Data mining is extracting or mining knowledge from large amounts of data Han and Kamber 2006. Faculdade

Faculdade de Engenharia da Universidade do Porto - FEUP

Data Mining - Resultados desportivos 19

Nestas grandes corridas de Fórmula 1 participaram, no total, 24 corredores das mais

diversas nacionalidades e continentes. Da Europa existem representantes da Alemanha,

Áustria, Bélgica, Dinamarca, Espanha, Finlândia, França, Itália, Países Baixos, Reino Unido,

Suécia, Suíça e ainda da Rússia, que pertence tanto à Europa como à Ásia; no caso da América,

apresenta participantes do Brasil, Estados Unidos da América e México; a Ásia está

representada pela Indonésia e a Oceânia pela Austrália.

Nesta investigação, a escolha das variáveis tem um determinado propósito,

nomeadamente, a idade cujo objetivo é estabelecer uma relação entre o desempenho e a faixa

etária do corredor; as grelhas (Figura 10) que relacionam a classificação do participante no

final da corrida com a posição inicial nas grelhas de partida e, por último, estabeleceu-se como

uma das variáveis o modo como o número de paragens realizadas ao longo da corrida afeta o

desempenho e classificação final do participante.

Figura 10 - Pontuação dos cinco corredores melhor classificados

Tendo em conta os dados das tabelas apresentadas, os países que apresentaram os

melhores resultados foram a Alemanha, o Reino Unido, a Austrália, a Finlândia e a Rússia.

Dito isto, de acordo com as tabelas acima representadas verificamos que as idades dos

corredores estão entre os 19 e os 40 anos. No entanto, os cinco melhores classificados

Page 26: DATA MINING - FEUP › ~projfeup › submit_16_17 › uploads › relat_1… · Data mining is extracting or mining knowledge from large amounts of data Han and Kamber 2006. Faculdade

Faculdade de Engenharia da Universidade do Porto - FEUP

Data Mining - Resultados desportivos 20

pertencem ao intervalo de 27 a 36 anos, à exceção do quinto classificado, Verstappen Max, que

tem apenas 19 anos.

No que respeita à variável grelha, também é demonstrado, através dos dados, que a

maioria dos corredores que chegou ao pódio foram os que começaram a corrida nas primeiras

grelhas. Havendo também neste caso algumas exceções como é o caso do Hamilton Lewis que

no Belgian Grand Prix partiu da grelha número 21 e, mesmo assim ficou em terceiro lugar,

temos também outro caso que não sendo tão extraordinário como o exemplo anterior também

é pouco provável, onde o corredor Grosjean Romain no Indian Grand Prix partiu da grelha

número 17 e finalizou a corrida em terceiro lugar.

Também existe um padrão para a variável número de paragens, os corredores que

chegaram ao pódio fazem em média 2 paragens. No entanto esta variável não é fiável para fazer

previsões, pois em geral todos os corredores fazem 2 paragens.

Para obter resultados fidedignos também tem de se ter em conta que numa corrida onde

participam, em média, 22 corredores, há desistências, problemas técnicos e acidentes (Figura

11).

Figura 11 - Acidente trágico

Page 27: DATA MINING - FEUP › ~projfeup › submit_16_17 › uploads › relat_1… · Data mining is extracting or mining knowledge from large amounts of data Han and Kamber 2006. Faculdade

Faculdade de Engenharia da Universidade do Porto - FEUP

Data Mining - Resultados desportivos 21

A Tabela 5 mostra, então, o número de corredores que, por alguma(s) das razões

apresentadas anteriormente, não completou a corrida. Como consequência destes percalços,

advém um resultado final diferente do esperado, o que permite afirmar que esta variável seja

relevante. Com base na Tabela 5, a média de corredores que não finalizaram a corrida foi de

3,87.

Tabela 5 – Numero de corredores que não terminaram a partida

As entidades que mais beneficiam com estas investigações são, por exemplo, os

patrocinadores e os agentes desportivos, pois estes agente recrutam os melhores (com base nos

estudos efetuados) e assim obterem um bom rendimento. De acordo com esta pesquisa e

análise, os participantes mais procurados são os corredores com mais experiência, excluindo

os corredores mais jovens, apesar de poderem surgir exceções. [9]

Nº de corredores que não

terminaram a corrida Abu Dhabi Grand Prix 1

Australian Grand Prix 10

Austria Grand Prix 6

Bahrain Grand Prix 5

Belgian Grand Prix 5

Brazilin Grand Prix 1

British Grand Prix 6

Canadian Grand Prix 3

Chinese Grand Prix 0

European Gran Prix 4

German Grand Prix 2

Hungarian Grand Prix 1

Indian Grand Prix 4

Italian Grand Prix 4

Japanese Grand Prix 0

Korean Grand Prix 5

Malaysian Grand Prix 6

Mexico Grand Prix 4

Monaco Grand Prix 7

Russian Grand Prix 4

Singapore Grand Prix 4

Spanish Grand Prix 5

Turkish Grand Prix 2

Page 28: DATA MINING - FEUP › ~projfeup › submit_16_17 › uploads › relat_1… · Data mining is extracting or mining knowledge from large amounts of data Han and Kamber 2006. Faculdade

Faculdade de Engenharia da Universidade do Porto - FEUP

Data Mining - Resultados desportivos 22

7. TRABALHOS FUTUROS / CONCLUSÃO

O presente trabalho tem como foco o esclarecimento e descrição do conceito e

funcionalidades do Data Mining, associado aos resultados desportivos. Assim, concluímos que

o Data Mining pode ser definido como o processo de recolha e posterior análise de informação,

convertendo-a em conhecimento organizado.

Ao nível do desporto, o Data Mining desempenha um papel inegável pois a elaboração

de algoritmos quantitativos possibilita a determinação de possíveis lesões dos jogadores, o

estudo do desempenho de um determinado atleta em cada partida e a atribuição de possíveis

fatores que influenciam a performance de cada desportista. Consequentemente, estes estudos

terão implicações na melhoria dos resultados e desempenho das equipas desportivas. Contudo,

este processo não permite o estudo de fatores psicológicos dos atletas, apresentando-se como

uma técnica meramente analítica.

O Data Mining é um processo recente e inovador e, por essa razão, ainda tem uma grande

margem de progressão, sendo que torna-se relevante aprofundar e investigar esta temática. Sem

dúvida, é seguro afirmar que esta técnica será a alavanca para a prática de um ‘novo’ desporto

mais eficiente, competitivo e profissional.

Page 29: DATA MINING - FEUP › ~projfeup › submit_16_17 › uploads › relat_1… · Data mining is extracting or mining knowledge from large amounts of data Han and Kamber 2006. Faculdade

Faculdade de Engenharia da Universidade do Porto - FEUP

Data Mining - Resultados desportivos 23

8. REFERÊNCIAS BIBLIOGRÁFICAS

[1] “Data mining of sports performance data” Leonardo di Marchi. 2011. Disponível em:

https://vlebb.leeds.ac.uk/bbcswebdav/orgs/SCH_Computing/MSCProj/reports/1011/de_marc

hi.pdf. Data de acesso: 17 de outubro de 2016

[2] “Conceitos e Aplicações do Data Mining.” Heloisa Helena Sferra, Ângela M. C. Jorge

Corrêa. 2003. Disponível em: http://www.unifra.br/professores/eduardo/Artigo%208.pdf.

Data de acesso: 9 de outubro de 2016

[3] “Ferramenta de Pré e Pós-processamento para Data Mining” Deborah Ribeiro

Carvalho, Marcos Bueno, Wilson Alves Neto e Luiz Ricardo Lopes. Disponivel em:

http://www.inf.furb.br/seminco/2003/artigos/97-vf.pdf. Data de acesso: 16 de outubro de 2016.

[4] “Extracção de Regras de Associação com Itens Raros e Frequentes” Sousa, R. 2009.

Disponível em:

http://recipp.ipp.pt/bitstream/10400.22/2644/1/DM_RicardoSousa_2009_MEI.pdf. Data de

acesso: 16 de outubro de 2016

[5] “A Brief Overview on Data Mining Survey” Hemlata Sahu, Shalini Shrma, Seema

Gondhalakar. Disponível em: http://www.ijctee.org/files/Issuethree/IJCTEE_1111_20.pdf.

Data de acesso: 14 de outubro de 2016

[6] “A Review of Data Mining Techniques for Result Prediction in Sports”, Maral

Haghighat, Hamid Rastegari and Nasim Nourafza. 2013. Disponível em:

http://www.acsij.org/documents/v2i5/ACSIJ-2013-2-5-222.pdf. Data de acesso: 12 de outubro

de 2016

[7]“The research repository of the Dublin Institute of Technology.” Disponível em:

http://arrow.dit.ie/cgi/viewcontent.cgi. Data de acesso: 5 de outubro de 2016

[8] M. Haghighat, H. Rastegari, and N. Nourafza, “A Review of Data Mining Techniques for

Result Prediction in Sports,” Adv. Comput. Sci., vol. 2, no. 5, pp. 7–12, 2013.

[9] MEUS RESULTADOS. 2006. Disponível em: http://www.meusresultados.com. Data de

acesso: 5 de outubro de 2016

Page 30: DATA MINING - FEUP › ~projfeup › submit_16_17 › uploads › relat_1… · Data mining is extracting or mining knowledge from large amounts of data Han and Kamber 2006. Faculdade

Faculdade de Engenharia da Universidade do Porto - FEUP

Data Mining - Resultados desportivos 24

9. Anexos

Tabela 1 - Dados relativos ao Grand Prix 2016 (Abu Dabi, Austrália, Áustria, Bahrein , Bélgica, Brasil, Reino

Unido)

Posição Corredor Nacionalidade Equipa Grelha Posição Idade

Abu Dhabi Grand Prix

1 Rosberg Nico Alemanha Mercedes 1 2 31

2 Hamilton Lewis Reino Unido Mercedes 2 2 31

3 Raikkonem Kimi Finlândia Ferrari 3 2 36

Australian Grand Prix

1 Rosberg Nico Alemanha Mercedes 2 2 31

2 Hamilton Lewis Reino Unido Mercedes 1 2 31

3 Vettel Sebastian Alemanha Ferrari 3 3 29

Austrian Grand Prix

1 Hamilton Lewis Reino Unido Mercedes 1 4 31

2 Verstappen Max Rússia Red Bull 8 3 19

3 Raikkonem Kimi Finlândia Ferrari 4 3 36

Bahrain Grand Prix

1 Rosberg Nico Alemanha Mercedes 2 3 31

2 Raikkonem Kimi Finlândia Ferrari 4 3 36

3 Hamilton Lewis Reino Unido Mercedes 1 3 31

Belgian Grand Prix

1 Rosberg Nico Alemanha Mercedes 1 2 31

2 Ricciardo Daniel Austrália Red Bull 5 2 27

3 Hamilton Lewis Reino Unido Mercedes 21 3 31

Brazilin Grand Prix

1 Rosberg Nico Alemanha Mercedes 1 3 31

2 Hamilton Lewis Reino Unido Mercedes 2 3 31

3 Vettel Sebastian Alemanha Ferrari 3 3 29

British Grand Prix

1 Hamilton Lewis Reino Unido Mercedes 1 2 31

2 Verstappen Max Rússia Red Bull 3 2 19

3 Rosberg Nico Alemanha Mercedes 1 2 31

Page 31: DATA MINING - FEUP › ~projfeup › submit_16_17 › uploads › relat_1… · Data mining is extracting or mining knowledge from large amounts of data Han and Kamber 2006. Faculdade

Faculdade de Engenharia da Universidade do Porto - FEUP

Data Mining - Resultados desportivos 25

Tabela 2 - Dados relativos ao Grand Prix 2016 (Canadá, China, Europa, Alemanha, Hungria, Índia, Itália e Japão)

Posição Corredor Nacionalidade Equipa Grelha Paragens Idade

Canadian Grand Prix

1 Hamilton Lewis Reino Unido Mercedes 1 1 31

2 Vettel Sebastian Alemanha Ferrari 3 2 29

3 Bottas Valtteri Finlândia Williams 7 1 27

Chinese Grand Prix

1 Rosberg Nico Alemanha Mercedes 1 2 31

2 Vettel Sebastian Alemanha Ferrari 4 3 29

3 Kvyat Daniil Russia Red Bull 6 3 22

European Gran Prix

1 Rosberg Nico Alemanha Mercedes 1 1 31

2 Vettel Sebastian Alemanha Ferrari 3 1 29

3 Perez Sergio Mexico Force India 7 1 26

German Grand Prix

1 Hamilton Lewis Reino Unido Mercedes 2 3 31

2 Ricciardo Daniel Austrália Red Bull 3 3 27

3 Verstappen Max Rússia Red Bull 4 3 19

Hungarian Grand Prix

1 Hamilton Lewis Reino Unido Mercedes 2 2 31

2 Rosberg Nico Alemanha Mercedes 1 2 31

3 Ricciardo Daniel Austrália Red Bull 3 2 27

Indian Grand Prix

1 Vettel Sebastian Alemanha Ferrari 3 1 29

2 Rosberg Nico Alemanha Mercedes 1 1 31

3 Grosjean Romain França Manor Racing 17 1 30

Italian Grand Prix

1 Rosberg Nico Alemanha Mercedes 2 1 31

2 Hamilton Lewis Reino Unido Mercedes 1 1 31

3 Vettel Sebastian Alemanha Ferrari 3 2 29

Japanese Grand Prix

1 Rosberg Nico Alemanha Mercedes 2 2 31

2 Verstappen Max Rússia Red Bull 7 2 19

3 Hamilton Lewis Reino Unido Mercedes 1 2 31

Page 32: DATA MINING - FEUP › ~projfeup › submit_16_17 › uploads › relat_1… · Data mining is extracting or mining knowledge from large amounts of data Han and Kamber 2006. Faculdade

Faculdade de Engenharia da Universidade do Porto - FEUP

Data Mining - Resultados desportivos 26

Tabela 3 - Dados relativos ao Grand Prix 2016 (Coreia, Malásia, México, Mónaco, Rússia, Singapura, Espanha, Turquia)

Posição

Tabela1 1

Posição

Corredor Nacionalidade Equipa Grelha Paragem Idade

Korean Grand Prix

1 Vettel Sebastian Alemanha Red Bull 1 2 29

2 Raikkonem Kimi Finlândia Renault Sport 9 3 36

3 Grosjean Romain França Manor

Racing

3 2 30

Malaysian Grand Prix

1 Ricciardo Daniel Austrália Red Bull 4 2 27

2 Verstappen Max Rússia Red Bull 3 3 19

3 Rosberg Nico Alemanha Mercedes 2 3 31

Mexico Grand Prix

1 Rosberg Nico Alemanha Mercedes 1 2 31

2 Hamilton Lewis Reino Unido Mercedes 2 2 31

3 Bottas Valtteri Finlândia williams 6 2 27

Monaco Grand Prix

1 Hamilton Lewis Reino Unido Mercedes 3 1 31

2 Ricciardo Daniel Austrália Red Bull 1 2 27

3 Perez Sergio Mexico Force India 7 2 26

Russian Grand Prix

1 Rosberg Nico Alemanha Mercedes 1 1 31

2 Hamilton Lewis Reino Unido Mercedes 10 1 31

3 Raikkonem Kimi Finlândia Ferrari 3 1 36

Singapore Grand Prix

1 Rosberg Nico Alemanha Mercedes 1 3 31

2 Ricciardo Daniel Austrália Red Bull 2 4 27

3 Hamilton Lewis Reino Unido Mercedes 3 4 31

Spanish Grand Prix

1 Verstappen Max Rússia Red Bull 4 2 19

2 Raikkonem Kimi Finlândia Ferrari 5 2 36

3 Vettel Sebastian Alemanha Ferrari 6 3 29

Turkish Grand Prix

1 Vettel Sebastian Alemanha Ferrari 1 4 29

2 Webber Mark Australia Red Bull 2 3 40

3 Alonso Fernando Espanha Ferrari 5 4 35