big data e agile analytics
DESCRIPTION
Apresentação feita no TDC 2013 em 10/07/2013 na trilha de NoSQL.TRANSCRIPT
Big Data e Agile Analytics
@lucabastos ThoughtWorks
O Mercado hoje precisa de analíticos
Os líderes estão sob pressão crescente para tomar as decisões certas e fazer previsões para seus
negócios.
Estagnação, competição global crecente, mercado que se modifica rápido, redução de
margens de lucro.
Alguns ramos industriais que eram antes eram poderosos estão quase
em colapso.
Exemplo: imprensa tradicional.
É preciso aumentar a retenção dos clientes e a participação no
mercado.
É preciso medir, aprender.
A combinação de BigData com Agile Analytics promete ser a
solução.
O que é Big Data?
Para mim Big Data são dados cujo tamanho são parte do problema
Agile Analytics
Do que estamos falando?
Conjunto de ferramentas e métodos
Conjunto de ferramentas e métodos
que visa perceber padrões e extrair visões
Conjunto de ferramentas e métodos
que visa perceber padrões e extrair visões
a partir de registros de observações e dados de exemplos ou experiências passadas.
Para quê é usado
Web mining
Decisões que envolvem julgamento
Examinar imagens (screening)
Previsões
Diagnósticos
Análises de marketing e de vendas
Afinal, que diabo é isso?
A arte de fazer as questões certas.
A ciência de usar dados para encontrar as respostas.
A coragem de agir sobre as evidências e sobre os dados mesmo quando contraria o senso comum e
os conceitos previamente estabelecidos.
Alguns tipos de problemas que podemos resolver
Agrupar coisas relacionadas -‐ clustering
Agrupar coisas relacionadas -‐ clustering
Agrupar coisas relacionadas -‐ clustering
Agrupar coisas relacionadas -‐ clustering
Não supervisionado
Exemplo de clustering:
Linkedin, Skills & Expertise:
http://www.linkedin.com/skills/skill/Machine_Learning?trk=skills-‐hp-‐search
Previsões
Se dividem de acordo com a tarefa que faz:
Classificação – prevê resultados qualitativos discretos do tipo S/N, morre/sobrevive
Regressão – prevê resultados quantitativos
Classificação consiste em rotular um input baseado em dados previamente vistos
Filtro anti spam
Identificação de linguagem
Detecção de rosto (você conhece o rosto)
Recomendações
Detecção de anomalias
Reconhecer padrão de intrusão
Resolver ambiguidades
Fraudes financeiras
Por que chamar de Agile Analytics?
Collective Intelligence
Collective Intelligence
Parece que há um esforço coletivo de inteligência quando na verdade os dados podem vir de fontes não exatamente das mais inteligentes
Collective Intelligence
Prefiro não usar o termo genérico Collective Intelligence.
Predictive Analytics
Predictive Analytics
Na verdade a técnicas usadas nesta área de conhecimento vão muito além de análise preditiva.
Predictive Analytics
Prefiro não usar o termo genérico Predictive Analytics.
Machine Learning
Permite uma discussão filosófica. Muita gente não aceita que máquinas sejam capazes de
aprender.
Machine Learning
Machine Learning
É o termo mais usado mas em geral subentende uso de algoritmos complexos que nem sempre são
necessários.
Machine Learning
Permite uma discussão filosófica.
Machine Learning
Muita gente não aceita que máquinas sejam capazes de
aprender. Wittgenstein, Waldemar Setzer e
outros
Machine Learning
Talvez não seja “politicamente correto” usar o termo genérico
Machine Learning.
Agile Analytics
Vou justificar o termo com exemplos e citações
DJ Patil
Data Scientist -‐ Greylock Partners, ex eBay e ex LinkedIn
DJ Patil
Data Scientist -‐ Greylock Partners, ex eBay e ex LinkedIn
“Try to be clever before you do the heavyweight work”
DJ Patil
Antes de começar o trabalho duro usando algoritmos sofisticados de classificação ou information retrieval, é preciso observar os dados e ver se é possível encontrar um ponto de partida mais a frente para começar a iterar.
Hilary Mason
Data Scientist -‐ bitly
Nem sempre devemos a usar um tipo de armazenamento sofisticado para arquivos grandes de dados. Às vezes basta um arquivo .txt ou .csv.
As primeiras ferramentas que devemos experimentar são as de linha de comando do Linux:
cat, grep, head, tail, awk, find, xargs, sort, wc, etc..
As primeiras ferramentas que devemos experimentar são as de linha de comando do Linux:
cat, grep, head, tail, awk, find, xargs, sort, wc, etc..
E não esquecer recursos gráficos do gnuplot.
É isso!