DATA MINING
Resultados desportivos
Projeto FEUP 2016/2017 – MIEGI
Turma 1 Equipa 2
Ana Beatriz Gonçalves - 201606903
Ana Margarida Silva - 201506778
Ana Teresa Matos - 201606905
André Moreira Pinto - 201606896
Bárbara Alves Ribeiro - 201606910
Coordenador: Luís Guimarães
Supervisor: Armando Leitão
Monitor: Luís Dias
Faculdade de Engenharia da Universidade do Porto - FEUP
Data Mining - Resultados desportivos i
Resumo
No presente trabalho realizado no âmbito da unidade curricular Projeto FEUP, pretende
explorar o conceito de Data Mining, particularizando a sua aplicação a nível desportivo.
Efetivamente, este tema revelou-se muito inovador devido, ao facto de, nos dias de hoje, a
quantidade de informação pouco organizada ser cada vez mais significativa e,
simultaneamente, o desporto querer-se apresentar como uma área mais profissional e eficiente.
Este trabalho aborda todos os aspetos do processo de Data Mining, desde o conceito e
considerações mais gerais até à forma como é executado e as principais técnicas/ferramentas
de que se serve, não esquecendo algumas das suas vantagens e desvantagens. Para além disso,
relativamente à área desportiva, particularizam-se algumas modalidades onde este mecanismo
é destacado.
Assim, o Data Mining é um processo que auxilia na previsão de tendências futuras,
com o intuito de transformar a informação em conhecimento organizado e útil, possibilitando
a aquisição de resultados mais eficientes.
Palavras-chave
Base de dados, padrões, análise, previsão, algoritmos, Data Mining, conhecimento organizado,
modelos estatísticos, inteligência artificial, softwares, rendimento, performance
Faculdade de Engenharia da Universidade do Porto - FEUP
Data Mining - Resultados desportivos ii
Agradecimentos
A concretização e elaboração deste relatório, no âmbito da unidade curricular Projeto
FEUP, apenas foi possível graças ao contributo de algumas pessoas.
Primeiramente, gostaríamos de louvar a Faculdade de Engenharia da Universidade do
Porto por desenvolver uma unidade curricular tão inovadora e didática como o Projeto FEUP,
que, certamente, permitirá aos seus mais recentes alunos a aquisição de conhecimentos básicos
e muito úteis não só na vida académica mas também na vida profissional.
Por outro lado, gostaríamos de agradecer ao nosso monitor, Luís Dias, e ao nosso
supervisor, Professor Armando Leitão, pela disponibilidade, motivação e sugestões que
contribuíram decisivamente para que fosse possível a elaboração deste relatório.
Faculdade de Engenharia da Universidade do Porto - FEUP
Data Mining - Resultados desportivos iii
Índice
Introdução .................................................................................................................................. 1
1. Conceito De Data Mining ................................................................................................... 2
2. Etapas Para A Aplicação Do Data Mining ......................................................................... 4
2.1. Seleção de dados ......................................................................................................... 4
2.2. Limpeza de dados (data quality) ................................................................................. 4
2.3. Transformação e codificação dos dados...................................................................... 5
2.4. Processamento do Data Mining .................................................................................. 5
3. Principais Técnicas / Algoritmos ........................................................................................ 6
3.1. Árvores de Decisão ..................................................................................................... 6
3.2. Redes Neuronais .......................................................................................................... 6
3.3. Regras de associação ................................................................................................... 7
4. Ferramentas ......................................................................................................................... 8
4.1. SAS (Enterprise Miner) .............................................................................................. 8
4.2. Weka ............................................................................................................................ 8
4.3. RapidMiner.................................................................................................................. 9
5. Vantagens e desvantagens do processo ............................................................................ 10
5.1. Vantagens .................................................................................................................. 10
5.2. Desvantagens ........................................................................................................... 11
6. Data mining associado ao desporto .................................................................................. 13
6.1. Data Mining e resultados desportivos ...................................................................... 14
7. Trabalhos futuros / Conclusão .......................................................................................... 22
8. Referências bibliográficas................................................................................................. 23
9. Anexos ………………………………………………………………………………….. 24
Faculdade de Engenharia da Universidade do Porto - FEUP
Data Mining - Resultados desportivos iv
Lista de Figuras
Figura 1 - Etapas do processo KDD (Knowledge Discovery in Databases)…………..…..… 3
Figura 1 – Etapas para a aplicação do Data Mining …………………………………………. 5
Figura 3 - Estrutura de uma árvore de decisão…………...……………………….…...…….. 6
Figura 4 - Estrutura de uma rede neuronal………………...…………...…………….………. 7
Figura 5 - Logótipo SAS …………..………………...…………………………….………... 8
Figura 6 - Logótipo RapidMiner………………………………..……………………..…..…. 9
Figura 7 - Jogo de Basquetebol (NBA)…………………………………...………….…….... 15
Figura 8 - Zonas de lançamento………………………………………………………….…. 17
Figura 9 - Campeonato de Fórmula 1………………………………...………….……….…. 18
Figura 10 - Acidente de Fórmula 1…………….…………..………….....………………….. 19
Figura 11 - Acidente trágico…………………….…………….……………………….......... 20
Faculdade de Engenharia da Universidade do Porto - FEUP
Data Mining - Resultados desportivos v
Lista de Tabelas
Tabela 1 - Dados relativos ao Grand Prix 2016 (Abu Dabi, Austrália, Áustria,
Bahrein, Bélgica, Brasil, Reino Unido) ……………………….……………………… 24
Tabela 2 - Dados relativos ao Grand Prix 2016 (Canadá, China, Europa, Alemanha,
Hungria, Índia, Itália e Japão) ………………………………………………………… 25
Tabela 3 - Dados relativos ao Grand Prix 2016 (Coreia, Malásia, México, Mónaco, Rússia,
Singapura, Espanha, Turquia) ………………….…………………………………………… 26
Tabela 4 - Pontuação dos cincos melhores classificados em todas edições do Grand
Prix 2016 ………………………………………………………………………………. 18
Tabela 5 – Número de corredores que não terminaram a partida …………………… 21
Faculdade de Engenharia da Universidade do Porto - FEUP
Data Mining - Resultados desportivos 1
INTRODUÇÃO
Nos dias de hoje temos assistido a um contínuo crescimento e desenvolvimento da
quantidade e do tipo de informação. A crescente necessidade de organizar e analisar parte dessa
informação, de uma forma rápida e mais eficaz, levou ao surgimento do processo de Data
Mining. Assim, Data Mining pode ser interpretado como o método de recolha e análise de
dados, a partir de uma grande quantidade de informação, transformando-a em conhecimento
útil e organizado.
Para além disso, as tecnologias que estão associadas ao processo de Data Mining
encontram-se igualmente em grande desenvolvimento e expansão e tem-se assistido a um
surgimento de novas ferramentas ou aperfeiçoamento das técnicas / algoritmos já existentes.
A aplicação do Data Mining na indústria desportiva foi impulsionada pelo abrangente
conjunto de dados associados ao desporto, bem como, pelo facto de este processo ser bastante
bem sucedido noutras áreas. O mundo desportivo compreende inúmeras modalidades e
desperta grande interesse económico, sendo assim importante um estudo mais científico dos
atletas, estudo cujo objetivo é melhorar, tanto quanto possível, a performance dos desportistas
[1].
Pretende-se, então, com este trabalho, desenvolvido no âmbito da unidade curricular
Projeto FEUP, caracterizar o conceito de Data Mining bem como as suas vantagens e
desvantagens, tendo em conta a influência desta técnica ao nível dos resultados desportivos.
Faculdade de Engenharia da Universidade do Porto - FEUP
Data Mining - Resultados desportivos 2
1. CONCEITO DE DATA MINING
O Data Mining é uma área de estudo que se baseia na recolha e seleção de informação,
transformando-a em conhecimento organizado.
A análise quantitativa da informação, cujo intuito passa por avaliar e identificar
relacionamentos entre variáveis, inclui diversos métodos, desde modelos estatísticos,
algoritmos matemáticos e inteligência artificial.
Este mecanismo permite não só a análise de grandes quantidades de dados mas também
o registo e dedução de padrões, exceções, tendências e correlações, culminando em
conhecimentos potencialmente úteis. Os resultados do processamento dos dados auxiliam na
tomada de decisões, sendo usados para descrever características do passado, para predizer
tendências futuras (comportamento futuro) e para estabelecer relacionamentos causa/efeito.
Esta técnica de mineração de dados tem sido aplicada nas mais diversas áreas, tais como gestão
de empresas, controlos de produção, exploração e investigação científicas, desporto, entre
outras, como forma de redução de custos, aumento de vendas e melhorias de pesquisas e
resultados. [2]
O Data Mining é a principal fase de um procedimento mais extenso, conhecido como
KDD (Knowledge Discovery in Databases) (Figura 1), o qual permite a extração não trivial de
conhecimento previamente desconhecido e potencialmente útil de um banco de dados,
recorrendo a diversos algoritmos. Conceito, ainda enfatizado por Fayyad et al. (1996),
afirmando que é “o processo não trivial de identificação de padrões válidos, desconhecidos,
potencialmente úteis e, no final das contas, compreensíveis em dados”.
Data mining is extracting or mining knowledge from large amounts of data
Han and Kamber 2006
Faculdade de Engenharia da Universidade do Porto - FEUP
Data Mining - Resultados desportivos 3
Segundo Elmasri e Navathe (2002), a técnica de Data Mining compreende os seguintes
propósitos:
● Previsão - pode mostrar como certos atributos dentro dos dados irão comportar-se no
futuro;
● Identificação - padrões de dados podem ser utilizados para identificar a existência de
um item, um evento ou uma atividade;
● Classificação - pode repartir os dados de modo que diferentes classes ou categorias
possam ser identificadas com base em combinações de parâmetros;
● Otimização do uso de recursos limitados, como tempo, espaço, dinheiro ou matéria-
prima e maximizar variáveis de resultado como vendas ou lucros sob um determinado
conjunto de restrições.
Figura 2 - Etapas do processo KDD (Knowledge Discovery in Databases)
Faculdade de Engenharia da Universidade do Porto - FEUP
Data Mining - Resultados desportivos 4
2. ETAPAS PARA A APLICAÇÃO DO DATA MINING
As etapas para aplicação do Data Mining (Figura 2) correspondem a um conjunto de fases
distintas onde os dados são continuamente submetidos a processos de seleção, análise, limpeza,
transformação e codificação e, por último, são submetidos a um processo que resultará na
extração de sequências e padrões.
2.1. Seleção de dados
Normalmente, os dados são extraídos de Data Warehouses, um sistema de computação /
banco de dados onde são armazenadas informações de forma consolidada. Nesta fase são
selecionados e recolhidos os dados considerados relevantes para posterior análise.
2.2. Limpeza de dados (data quality)
A etapa de limpeza de dados é essencial na eliminação de “ruídos” (conteúdo
desnecessário ou inconsistentes) presente na informação e é realizada através de um pré-
processamento da mesma. Tendo por base um conjunto de algoritmos de limpeza de dados,
esta etapa engloba atividades como a eliminação de duplicados ou dados incompletos, a
correção de erros de digitação, a repetição de registos, a identificação de inconsistências que
poderão existir, entre outras. É importante salientar que o resultado desta etapa é, em geral, um
arquivo completamente distinto das bases de dados originais (Gurek, 2001).
Faculdade de Engenharia da Universidade do Porto - FEUP
Data Mining - Resultados desportivos 5
2.3. Transformação e codificação dos dados
Os dados são transformados e consolidados de forma apropriadas, de modo a facilitar a
posterior aplicação das técnicas de Data Mining, sendo para isto realizadas várias operações.
Algumas das técnicas empregadas nesta etapa são a suavização (remove valores errados dos
dados), agregação (agrupa valores em faixas sumarizadas), generalização (conversão de
valores muito específicos em valores mais genéricos), normalização (colocar as variáveis numa
mesma escala) e a criação de novos atributos (gerados a partir de outros já existentes).
2.4. Processamento do Data Mining
A aplicação dos diferentes tipos de algoritmos (árvores de decisão, regras de associação
e redes neuronais), que serão apresentados no capítulo três, está associada à utilização de
ferramentas avançadas que permitirão a representação e agregação de conhecimento mais
consolidado (conhecimento anteriormente “oculto” no banco de dados analisados). Esta etapa
culmina com a extração dos padrões de conhecimento encontrados. [3]
Figura 3 – Etapas para a aplicação do Data Mining
Faculdade de Engenharia da Universidade do Porto - FEUP
Data Mining - Resultados desportivos 6
3. PRINCIPAIS TÉCNICAS / ALGORITMOS
3.1. Árvores de Decisão
As árvores de decisão (Figura 2), extremamente utilizadas em algoritmos de
classificação, são representações simples do conhecimento, que servem para a construção de
classificadores que preveem ou revelam classes/informações baseadas nos valores de um
conjunto de dados. É executada uma sequência de testes, em que cada nó interno da árvore
corresponde a um teste do valor de uma das propriedades, e os ramos deste nó são identificados
com os possíveis valores do teste. Uma árvore de decisão é, desta forma, uma série de
declarações if-elses, que quando aplicadas a um registro de uma base de dados, resultam na
classificação daquele registro.
3.2. Redes Neuronais
As redes neuronais (Figura 3) foram inspiradas na forma como os neurónios do Ser
Humano se interligam e constituem uma rede complexa.
Geralmente, uma rede neuronal é constituída por diversos nós: nós de input (que recebem
os sinais de entrada), um conjunto de nós intermédios, e nós de output (para os sinais de saída).
Figura 4 - Estrutura de uma árvore de decisão
Faculdade de Engenharia da Universidade do Porto - FEUP
Data Mining - Resultados desportivos 7
A forma como as ligações entre os nós são estabelecidas é ajustada de acordo com a etapa
de aprendizagem, etapa em que são experimentadas diversas combinações possíveis de
interligações entre nós, sendo selecionada uma amostra cujos resultados já são conhecidos, isto
é, para certos valores atribuídos à entrada da rede, obtém-se a resposta correta. Após a etapa de
aprendizagem, utilizam-se outros valores para inputs de modo a obter novas respostas
(desconhecidas).
3.3. Regras de associação
As regras de associação permitem descobrir se a presença de um conjunto de itens nos
registos de uma base de dados implica a presença de um outro conjunto distinto de itens nos
mesmos registos (X → Y) (Agrawal and Srikant, 1994). Serve, assim, para avaliar
determinados padrões de comportamento, como por exemplo, a associação de produtos durante
um processo de compras e a sua frequência. As bases de dados envolvidas nestes processos são
muito grandes o que faz com que seja necessário a utilização de algoritmos rápidos e eficientes
[4].
Figura 5 - Estrutura de uma rede neuronal
Faculdade de Engenharia da Universidade do Porto - FEUP
Data Mining - Resultados desportivos 8
4. FERRAMENTAS
Nesta secção estão apresentadas algumas das ferramentas mais utilizadas associadas
ao Data Mining.
4.1. SAS (Enterprise Miner)
A ferramenta SAS (Figura 4) É frequentemente utilizado como ferramenta para a
mineração de dados uma vez que permite uma variedade de manipulação de dados e escolhas
de transformação. Permite descobrir padrões de dados através de muita informação e oferece
um conjunto, rico e fácil de usar, de capacidades integradas que poderão ser aproveitadas para
ajudar a tomar decisões sensatas. Esta ferramenta é maioritariamente utilizada por faculdades
e empresas.
Figura 6 – Logótipo SAS
4.2. Weka
O sistema Weka é um software livre, desenvolvido em Java, que tem como principais
tarefas a classificação e sumarização, mas também tem como funções o pré-processamento de
dados, regressão, agrupamento, regras de associação, e visualização. As suas poderosas
funcionalidades e a interface intuitiva são as maiores razões pelas quais esta ferramenta é
utilizada.
Faculdade de Engenharia da Universidade do Porto - FEUP
Data Mining - Resultados desportivos 9
4.3. RapidMiner
O RapidMiner (Figura 5) permite, de uma forma simples, construir, executar e validar
modelos de mineração de dados. À semelhança da SAS também suporta uma ampla gama de
tarefas que inclui o carregamento, transformação, modelagem, métodos de visualização,
análise, previsão e agrupamento de dados (Ohana, B., 2009).
Figura 7 – Logótipo RapidMiner
Faculdade de Engenharia da Universidade do Porto - FEUP
Data Mining - Resultados desportivos 10
5. VANTAGENS E DESVANTAGENS DO PROCESSO
5.1. Vantagens
O processo de Data Mining, graças ao conhecimento útil e organizado extraído, apresenta
inúmeras vantagens, das quais se poderá destacar a previsão de tendências futuras, a ajuda na
tomada de decisões em diversos aspetos, a exposição de hábitos de aquisição, o aumento do
rendimento das empresas / organizações desportivas e, ainda, a fácil deteção de fraudes.
Marketing/Retalho
As empresas de marketing servem-se do Data Mining para, com base em dados previamente
armazenados, construir modelos de modo a prever as resposta que obterão relativamente a
novas campanhas de marketing. Através desta previsão, os comerciantes podem definir
estratégias a adotar e diferentes formas de abordagem, de modo a rentabilizar as vendas e
satisfazer os consumidores.
A nível das vendas a retalho, a análise destas mesmas vendas permite, por um lado, inferir que
tipo de produtos são frequentemente comprados juntos, realizando ajustes na operação e
produção, e, por outro lado, ajudar as empresas a perceber quais os descontos que devem
oferecer, de modo a atrair o máximo de consumidores possível.
Erros nos sistemas que poderiam conduzir a perdas de valor para a empresa, são
também identificados recorrendo ao Data Mining, tornando possível corrigir antecipadamente
esses erros de modo a evitar consequências negativas.
Faculdade de Engenharia da Universidade do Porto - FEUP
Data Mining - Resultados desportivos 11
Finanças/Bancos
O Data Mining fornece às finanças informações sobre empréstimos e relatórios de crédito, e
permite às finanças e aos bancos identificar um bom ou mau empréstimo e o risco que lhe está
associado, sendo isto possível através da construção de modelos com dados de clientes
anteriores. Para além disso, este processo poderá servir de ferramenta para a deteção de
transações fraudulentas, salvaguardando as perdas do proprietário do cartão de crédito.
Governo
O governo opera com a ajuda do Data Mining, analisando com pormenor registos de transações
financeiras com a finalidade de detetar lavagens de dinheiro ou qualquer outra atividade
criminal.
5.2. Desvantagens
Em contrapartida, podemos apontar como desvantagem o facto de este ser um processo
dispendioso (implica grandes custos de implementação e manutenção) e que necessita de mão-
de-obra qualificada. Outros inconvenientes que se podem apontar são a violação de
privacidade, problemas de segurança, o uso inapropriado de informação e a limitação associada
à precisão dos dados.
Privacidade e Segurança
As empresas recolhem diversas informações acerca dos seus clientes com o intuito de
compreender o seu comportamento e as suas tendências de compra. Porém, quando uma
Faculdade de Engenharia da Universidade do Porto - FEUP
Data Mining - Resultados desportivos 12
empresa é vendida ou vai à falência, essas informações pessoais são transmitidas e/ou vazam,
podendo ser utilizadas de forma não ética.
Informações como o número da segurança social, folha de pagamentos, entre outras, poderão
não estar devidamente seguras, e, caso seja essa a situação, um hacker conseguiria ter acesso a
essa informação, surgindo assim um grande problema.
Uso inapropriado e precisão de dados
O conhecimento proveniente do Data Mining, destinado à comercialização e a fins éticos, pode
ser aproveitado por pessoas mal-intencionadas para explorar vulnerabilidades em função de
benefício próprio. É também importante mencionar que este processo não é totalmente
fidedigno; desta forma, o uso de informação inexata poderá provocar diversas consequências.
[5]
Faculdade de Engenharia da Universidade do Porto - FEUP
Data Mining - Resultados desportivos 13
6. DATA MINING ASSOCIADO AO DESPORTO
A mineração de dados não é apenas utilizada ao nível de empresas, mas também no setor
do desporto, cujas organizações e clubes desenvolveram departamentos de análise devido ao
grande número de dados associados a cada modalidade. Softwares livres como Rapid Miner e
Weka são algumas das ferramentas mais utilizadas no desporto, de forma a transformar dados
desportivos em conhecimento organizado.
O recurso ao processo do Data Mining no mundo do desporto levou ao desenvolvimento
de diversos departamentos analíticos, sendo que em cada jogo ou performance desportiva são
colecionados um vasto conjunto de dados sobre cada jogador ou atleta, equipa, jogo ou época.
A partir das informações que se retiram destes dados, as organizações ou clubes desportivos
realizam análises estatísticas e descobrem padrões, recorrendo à técnica do Data Mining, com
o objetivo de prever desempenhos e resultados, ou até com a finalidade de selecionar
jogadores/atletas, planear melhores estratégias de treino ou reduzir a frequência e o impacto
dos testes físicos aos atletas . Assim, estes dados permitiriam uma otimização da eficiência de
cada equipa/atleta e seriam uma mais-valia para os próprios desportistas, quer a nível de treinos
quer na sua dieta. [6]
Faculdade de Engenharia da Universidade do Porto - FEUP
Data Mining - Resultados desportivos 14
6.1. Data Mining e resultados desportivos
Futebol
Um caso de particular interesse no desporto é o clube de futebol Italiano AC Milan
que recorre ao Data Mining como forma de previsão de possíveis lesões dos seus jogadores.
Através do uso da matemática, estatística e inteligência artificial são feitas previsões tendo em
conta o historial clínico de cada jogador. Esse registo clínico é desenvolvido através de uma
série de testes médicos, os quais são integrados em programas de software inteligente.
Seguidamente, procede-se a uma análise dos indicadores clínicos que podem registar uma
situação de risco ou não para um dado jogador. Esta informação, agora sobre a forma de
conhecimento organizado, pode ser utilizada como uma vantagem competitiva para os
jogadores e treinadores na prevenção de doenças e lesões e, por outro lado, pode ser um
benefício económico para o clube de futebol. Na verdade, esta prevenção das lesões contribui
para uma melhor performance do jogador, valorizando-o no mercado de transferências do
futebol.
Basquetebol
O basquetebol é um desporto que, ao longo da sua existência, tem vindo a atrair cada vez
mais a atenção de pessoas por todo o mundo, não só para a prática desta modalidade, mas
também para presenciar os jogos nos respetivos locais onde estes se desenrolam.
Mas então, o que é que torna este desporto assim tão atrativo e fora do comum?
Faculdade de Engenharia da Universidade do Porto - FEUP
Data Mining - Resultados desportivos 15
Num jogo onde apenas a vitória interessa, os cinco jogadores de ambas as equipas dão
tudo por tudo para encestar a bola o maior número de vezes no cesto da equipa adversária
dentro do tempo limite de jogo. Quem marca mais, ganha.
O basquetebol torna-se assim numa modalidade desportiva muito competitiva (Figura 7),
onde os pequenos pormenores fazem toda a diferença entre a vitória ou a derrota.
Figura 7 - Jogo de basquetebol (NBA)
Assim, verifica-se que o uso do Data Mining aplicado às diferentes modalidades
desportivas em geral, e ao basquetebol em particular, passa a ser cada vez mais recorrente nos
dias de hoje. Com isto nasce uma nova indústria, capaz de revolucionar por completo o mundo
do desporto, uma vez que as equipas passam a ter informação preciosa sobre os jogadores e as
suas tendencias, sobre treinadores e, até mesmo, sobre as táticas que a equipa adversária adotará
antes e durante o decorrer da partida.
A iniciativa da aplicação do Data Mining ao basquetebol partiu de Dean Oliver, que após
ter verificado o sucesso deste software, criou uma associação de pesquisadores profissionais
de basquetebol (ABPRmetrics) [7].
Faculdade de Engenharia da Universidade do Porto - FEUP
Data Mining - Resultados desportivos 16
Uma das formas de avaliar a eficácia de um determinado jogador é através da
Classificação da Eficácia do Jogador (PER), que atribui a esse mesmo jogador uma
determinada pontuação tendo em conta a sua eficácia por minuto. A pontuação atribuída
considera aspetos importantes como assistências, lançamentos bloqueados, faltas, lançamentos
em jogada acertados, lançamentos em jogada falhados, lançamentos livres, ressaltos, roubos de
bola, percas de bola, entre outros; permitindo, assim, atribuir uma classificação a um jogador
em função da sua performance durante o jogo e comparar esta classificação com as médias das
classificações dos outros jogadores. Posteriormente, o treinador pode, desta forma, chegar a
uma conclusão viável acerca de um dado jogador e repreende-lo ou felicitá-lo pela sua
prestação. Contudo, este método não consegue avaliar aspetos de caráter mais psicológico,
como a vontade e o desejo que o jogador em causa tem nas tarefas desempenhadas em campo.
Outro método adotado na análise das partidas de basquetebol designa-se por Zonas de
Lançamento (Figura 8). Esta técnica consiste em dividir um campo de basquetebol em 16 zonas
diferentes. O espaço do campo correspondente a cada uma dessas zonas indica os potenciais
lugares do campo de onde um jogador, em fase ofensiva, tende a lançar a bola ao cesto.
Analisando a percentagem de sucesso dos lançamentos de cada uma das 16 zonas, a equipa
adversária poderá fazer eventuais ajustes defensivos a fim de evitar sofrer o maior número de
cestos possíveis. Assim, o software Data Mining permite determinar em que posição um
jogador tem mais probabilidade de encesta, as manobras mais frequentemente adotadas pelo
jogador e prever alguns dos seus movimentos e jogadas. [7]
Faculdade de Engenharia da Universidade do Porto - FEUP
Data Mining - Resultados desportivos 17
Figura 8 - Zonas de lançamento
Para além da análise dos jogos e do desempenho dos jogadores, este processo
desempenha igualmente um papel importante na previsão das respostas às campanhas de
marketing.
O Data Mining, como já foi referido e comprovado, pode ser uma grande mais-valia a
nível desportivo e, em particular, no basquetebol, podendo ser igualmente experimentado em
mecanismos secundários, como em apostas de resultados desportivos. [8]
Apesar dos benefícios associados a esta técnica, o Data Mining apresenta alguns pontos
negativos ao nível do basquetebol, nomeadamente a nível monetário, pois este software implica
grandes custos de implementação e utilização; por vezes, há um excesso de informação,
tornando-se difícil a sua organização e análise; as previsões nem sempre se realizam pois há
muitas variáveis que influenciam o resultado do jogo, não sendo também possível prever o seu
resultado.
Faculdade de Engenharia da Universidade do Porto - FEUP
Data Mining - Resultados desportivos 18
Fórmula 1
Ao nível da Fórmula 1 (Figura 9), desporto que vai ser amplamente analisado
seguidamente, o Data Mining tem desempenhado uma importância considerável na escolha
dos veículos por parte dos participantes, bem como na análise da performance das equipas e na
posterior determinação dos fatores decisivos na classificação final.
Primeiramente, na compra de um veículo de Fórmula 1, tem que se ter em atenção alguns
dos seguintes aspetos, tais como o preço, a velocidade máxima, o tamanho do motor, a potência
do freio, bem como a qualidade e estado do equipamento.
Figura 9 - Campeonato de Fórmula 1
De seguida, tem-se em conta a informação presente nas tabelas (Tabelas 1, 2 e 3) que se
encontram em Anexos e na seguinte tabela (Tabela 4), relativos ao Grand Prix 2016,
campeonato de Fórmula 1 decorrido em diferentes países.
Tabela 4 - Pontuação dos cincos melhores classificados em todas edições do Grand Prix 2016
Corredor Pontuação
Rosberg Nico 313
Hamilton Lewis 280
Ricciardo Daniel 212
Raikkonem Kimi 170
Verstappen Max 165
Faculdade de Engenharia da Universidade do Porto - FEUP
Data Mining - Resultados desportivos 19
Nestas grandes corridas de Fórmula 1 participaram, no total, 24 corredores das mais
diversas nacionalidades e continentes. Da Europa existem representantes da Alemanha,
Áustria, Bélgica, Dinamarca, Espanha, Finlândia, França, Itália, Países Baixos, Reino Unido,
Suécia, Suíça e ainda da Rússia, que pertence tanto à Europa como à Ásia; no caso da América,
apresenta participantes do Brasil, Estados Unidos da América e México; a Ásia está
representada pela Indonésia e a Oceânia pela Austrália.
Nesta investigação, a escolha das variáveis tem um determinado propósito,
nomeadamente, a idade cujo objetivo é estabelecer uma relação entre o desempenho e a faixa
etária do corredor; as grelhas (Figura 10) que relacionam a classificação do participante no
final da corrida com a posição inicial nas grelhas de partida e, por último, estabeleceu-se como
uma das variáveis o modo como o número de paragens realizadas ao longo da corrida afeta o
desempenho e classificação final do participante.
Figura 10 - Pontuação dos cinco corredores melhor classificados
Tendo em conta os dados das tabelas apresentadas, os países que apresentaram os
melhores resultados foram a Alemanha, o Reino Unido, a Austrália, a Finlândia e a Rússia.
Dito isto, de acordo com as tabelas acima representadas verificamos que as idades dos
corredores estão entre os 19 e os 40 anos. No entanto, os cinco melhores classificados
Faculdade de Engenharia da Universidade do Porto - FEUP
Data Mining - Resultados desportivos 20
pertencem ao intervalo de 27 a 36 anos, à exceção do quinto classificado, Verstappen Max, que
tem apenas 19 anos.
No que respeita à variável grelha, também é demonstrado, através dos dados, que a
maioria dos corredores que chegou ao pódio foram os que começaram a corrida nas primeiras
grelhas. Havendo também neste caso algumas exceções como é o caso do Hamilton Lewis que
no Belgian Grand Prix partiu da grelha número 21 e, mesmo assim ficou em terceiro lugar,
temos também outro caso que não sendo tão extraordinário como o exemplo anterior também
é pouco provável, onde o corredor Grosjean Romain no Indian Grand Prix partiu da grelha
número 17 e finalizou a corrida em terceiro lugar.
Também existe um padrão para a variável número de paragens, os corredores que
chegaram ao pódio fazem em média 2 paragens. No entanto esta variável não é fiável para fazer
previsões, pois em geral todos os corredores fazem 2 paragens.
Para obter resultados fidedignos também tem de se ter em conta que numa corrida onde
participam, em média, 22 corredores, há desistências, problemas técnicos e acidentes (Figura
11).
Figura 11 - Acidente trágico
Faculdade de Engenharia da Universidade do Porto - FEUP
Data Mining - Resultados desportivos 21
A Tabela 5 mostra, então, o número de corredores que, por alguma(s) das razões
apresentadas anteriormente, não completou a corrida. Como consequência destes percalços,
advém um resultado final diferente do esperado, o que permite afirmar que esta variável seja
relevante. Com base na Tabela 5, a média de corredores que não finalizaram a corrida foi de
3,87.
Tabela 5 – Numero de corredores que não terminaram a partida
As entidades que mais beneficiam com estas investigações são, por exemplo, os
patrocinadores e os agentes desportivos, pois estes agente recrutam os melhores (com base nos
estudos efetuados) e assim obterem um bom rendimento. De acordo com esta pesquisa e
análise, os participantes mais procurados são os corredores com mais experiência, excluindo
os corredores mais jovens, apesar de poderem surgir exceções. [9]
Nº de corredores que não
terminaram a corrida Abu Dhabi Grand Prix 1
Australian Grand Prix 10
Austria Grand Prix 6
Bahrain Grand Prix 5
Belgian Grand Prix 5
Brazilin Grand Prix 1
British Grand Prix 6
Canadian Grand Prix 3
Chinese Grand Prix 0
European Gran Prix 4
German Grand Prix 2
Hungarian Grand Prix 1
Indian Grand Prix 4
Italian Grand Prix 4
Japanese Grand Prix 0
Korean Grand Prix 5
Malaysian Grand Prix 6
Mexico Grand Prix 4
Monaco Grand Prix 7
Russian Grand Prix 4
Singapore Grand Prix 4
Spanish Grand Prix 5
Turkish Grand Prix 2
Faculdade de Engenharia da Universidade do Porto - FEUP
Data Mining - Resultados desportivos 22
7. TRABALHOS FUTUROS / CONCLUSÃO
O presente trabalho tem como foco o esclarecimento e descrição do conceito e
funcionalidades do Data Mining, associado aos resultados desportivos. Assim, concluímos que
o Data Mining pode ser definido como o processo de recolha e posterior análise de informação,
convertendo-a em conhecimento organizado.
Ao nível do desporto, o Data Mining desempenha um papel inegável pois a elaboração
de algoritmos quantitativos possibilita a determinação de possíveis lesões dos jogadores, o
estudo do desempenho de um determinado atleta em cada partida e a atribuição de possíveis
fatores que influenciam a performance de cada desportista. Consequentemente, estes estudos
terão implicações na melhoria dos resultados e desempenho das equipas desportivas. Contudo,
este processo não permite o estudo de fatores psicológicos dos atletas, apresentando-se como
uma técnica meramente analítica.
O Data Mining é um processo recente e inovador e, por essa razão, ainda tem uma grande
margem de progressão, sendo que torna-se relevante aprofundar e investigar esta temática. Sem
dúvida, é seguro afirmar que esta técnica será a alavanca para a prática de um ‘novo’ desporto
mais eficiente, competitivo e profissional.
Faculdade de Engenharia da Universidade do Porto - FEUP
Data Mining - Resultados desportivos 23
8. REFERÊNCIAS BIBLIOGRÁFICAS
[1] “Data mining of sports performance data” Leonardo di Marchi. 2011. Disponível em:
https://vlebb.leeds.ac.uk/bbcswebdav/orgs/SCH_Computing/MSCProj/reports/1011/de_marc
hi.pdf. Data de acesso: 17 de outubro de 2016
[2] “Conceitos e Aplicações do Data Mining.” Heloisa Helena Sferra, Ângela M. C. Jorge
Corrêa. 2003. Disponível em: http://www.unifra.br/professores/eduardo/Artigo%208.pdf.
Data de acesso: 9 de outubro de 2016
[3] “Ferramenta de Pré e Pós-processamento para Data Mining” Deborah Ribeiro
Carvalho, Marcos Bueno, Wilson Alves Neto e Luiz Ricardo Lopes. Disponivel em:
http://www.inf.furb.br/seminco/2003/artigos/97-vf.pdf. Data de acesso: 16 de outubro de 2016.
[4] “Extracção de Regras de Associação com Itens Raros e Frequentes” Sousa, R. 2009.
Disponível em:
http://recipp.ipp.pt/bitstream/10400.22/2644/1/DM_RicardoSousa_2009_MEI.pdf. Data de
acesso: 16 de outubro de 2016
[5] “A Brief Overview on Data Mining Survey” Hemlata Sahu, Shalini Shrma, Seema
Gondhalakar. Disponível em: http://www.ijctee.org/files/Issuethree/IJCTEE_1111_20.pdf.
Data de acesso: 14 de outubro de 2016
[6] “A Review of Data Mining Techniques for Result Prediction in Sports”, Maral
Haghighat, Hamid Rastegari and Nasim Nourafza. 2013. Disponível em:
http://www.acsij.org/documents/v2i5/ACSIJ-2013-2-5-222.pdf. Data de acesso: 12 de outubro
de 2016
[7]“The research repository of the Dublin Institute of Technology.” Disponível em:
http://arrow.dit.ie/cgi/viewcontent.cgi. Data de acesso: 5 de outubro de 2016
[8] M. Haghighat, H. Rastegari, and N. Nourafza, “A Review of Data Mining Techniques for
Result Prediction in Sports,” Adv. Comput. Sci., vol. 2, no. 5, pp. 7–12, 2013.
[9] MEUS RESULTADOS. 2006. Disponível em: http://www.meusresultados.com. Data de
acesso: 5 de outubro de 2016
Faculdade de Engenharia da Universidade do Porto - FEUP
Data Mining - Resultados desportivos 24
9. Anexos
Tabela 1 - Dados relativos ao Grand Prix 2016 (Abu Dabi, Austrália, Áustria, Bahrein , Bélgica, Brasil, Reino
Unido)
Posição Corredor Nacionalidade Equipa Grelha Posição Idade
Abu Dhabi Grand Prix
1 Rosberg Nico Alemanha Mercedes 1 2 31
2 Hamilton Lewis Reino Unido Mercedes 2 2 31
3 Raikkonem Kimi Finlândia Ferrari 3 2 36
Australian Grand Prix
1 Rosberg Nico Alemanha Mercedes 2 2 31
2 Hamilton Lewis Reino Unido Mercedes 1 2 31
3 Vettel Sebastian Alemanha Ferrari 3 3 29
Austrian Grand Prix
1 Hamilton Lewis Reino Unido Mercedes 1 4 31
2 Verstappen Max Rússia Red Bull 8 3 19
3 Raikkonem Kimi Finlândia Ferrari 4 3 36
Bahrain Grand Prix
1 Rosberg Nico Alemanha Mercedes 2 3 31
2 Raikkonem Kimi Finlândia Ferrari 4 3 36
3 Hamilton Lewis Reino Unido Mercedes 1 3 31
Belgian Grand Prix
1 Rosberg Nico Alemanha Mercedes 1 2 31
2 Ricciardo Daniel Austrália Red Bull 5 2 27
3 Hamilton Lewis Reino Unido Mercedes 21 3 31
Brazilin Grand Prix
1 Rosberg Nico Alemanha Mercedes 1 3 31
2 Hamilton Lewis Reino Unido Mercedes 2 3 31
3 Vettel Sebastian Alemanha Ferrari 3 3 29
British Grand Prix
1 Hamilton Lewis Reino Unido Mercedes 1 2 31
2 Verstappen Max Rússia Red Bull 3 2 19
3 Rosberg Nico Alemanha Mercedes 1 2 31
Faculdade de Engenharia da Universidade do Porto - FEUP
Data Mining - Resultados desportivos 25
Tabela 2 - Dados relativos ao Grand Prix 2016 (Canadá, China, Europa, Alemanha, Hungria, Índia, Itália e Japão)
Posição Corredor Nacionalidade Equipa Grelha Paragens Idade
Canadian Grand Prix
1 Hamilton Lewis Reino Unido Mercedes 1 1 31
2 Vettel Sebastian Alemanha Ferrari 3 2 29
3 Bottas Valtteri Finlândia Williams 7 1 27
Chinese Grand Prix
1 Rosberg Nico Alemanha Mercedes 1 2 31
2 Vettel Sebastian Alemanha Ferrari 4 3 29
3 Kvyat Daniil Russia Red Bull 6 3 22
European Gran Prix
1 Rosberg Nico Alemanha Mercedes 1 1 31
2 Vettel Sebastian Alemanha Ferrari 3 1 29
3 Perez Sergio Mexico Force India 7 1 26
German Grand Prix
1 Hamilton Lewis Reino Unido Mercedes 2 3 31
2 Ricciardo Daniel Austrália Red Bull 3 3 27
3 Verstappen Max Rússia Red Bull 4 3 19
Hungarian Grand Prix
1 Hamilton Lewis Reino Unido Mercedes 2 2 31
2 Rosberg Nico Alemanha Mercedes 1 2 31
3 Ricciardo Daniel Austrália Red Bull 3 2 27
Indian Grand Prix
1 Vettel Sebastian Alemanha Ferrari 3 1 29
2 Rosberg Nico Alemanha Mercedes 1 1 31
3 Grosjean Romain França Manor Racing 17 1 30
Italian Grand Prix
1 Rosberg Nico Alemanha Mercedes 2 1 31
2 Hamilton Lewis Reino Unido Mercedes 1 1 31
3 Vettel Sebastian Alemanha Ferrari 3 2 29
Japanese Grand Prix
1 Rosberg Nico Alemanha Mercedes 2 2 31
2 Verstappen Max Rússia Red Bull 7 2 19
3 Hamilton Lewis Reino Unido Mercedes 1 2 31
Faculdade de Engenharia da Universidade do Porto - FEUP
Data Mining - Resultados desportivos 26
Tabela 3 - Dados relativos ao Grand Prix 2016 (Coreia, Malásia, México, Mónaco, Rússia, Singapura, Espanha, Turquia)
Posição
Tabela1 1
Posição
Corredor Nacionalidade Equipa Grelha Paragem Idade
Korean Grand Prix
1 Vettel Sebastian Alemanha Red Bull 1 2 29
2 Raikkonem Kimi Finlândia Renault Sport 9 3 36
3 Grosjean Romain França Manor
Racing
3 2 30
Malaysian Grand Prix
1 Ricciardo Daniel Austrália Red Bull 4 2 27
2 Verstappen Max Rússia Red Bull 3 3 19
3 Rosberg Nico Alemanha Mercedes 2 3 31
Mexico Grand Prix
1 Rosberg Nico Alemanha Mercedes 1 2 31
2 Hamilton Lewis Reino Unido Mercedes 2 2 31
3 Bottas Valtteri Finlândia williams 6 2 27
Monaco Grand Prix
1 Hamilton Lewis Reino Unido Mercedes 3 1 31
2 Ricciardo Daniel Austrália Red Bull 1 2 27
3 Perez Sergio Mexico Force India 7 2 26
Russian Grand Prix
1 Rosberg Nico Alemanha Mercedes 1 1 31
2 Hamilton Lewis Reino Unido Mercedes 10 1 31
3 Raikkonem Kimi Finlândia Ferrari 3 1 36
Singapore Grand Prix
1 Rosberg Nico Alemanha Mercedes 1 3 31
2 Ricciardo Daniel Austrália Red Bull 2 4 27
3 Hamilton Lewis Reino Unido Mercedes 3 4 31
Spanish Grand Prix
1 Verstappen Max Rússia Red Bull 4 2 19
2 Raikkonem Kimi Finlândia Ferrari 5 2 36
3 Vettel Sebastian Alemanha Ferrari 6 3 29
Turkish Grand Prix
1 Vettel Sebastian Alemanha Ferrari 1 4 29
2 Webber Mark Australia Red Bull 2 3 40
3 Alonso Fernando Espanha Ferrari 5 4 35