big data e agile analytics

Post on 13-Dec-2014

511 Views

Category:

Technology

1 Downloads

Preview:

Click to see full reader

DESCRIPTION

Apresentação feita no TDC 2013 em 10/07/2013 na trilha de NoSQL.

TRANSCRIPT

Big Data e Agile Analytics

@lucabastos ThoughtWorks

O Mercado hoje precisa de analíticos

Os líderes estão sob pressão crescente para tomar as decisões certas e fazer previsões para seus

negócios.

Estagnação, competição global crecente, mercado que se modifica rápido, redução de

margens de lucro.

Alguns ramos industriais que eram antes eram poderosos estão quase

em colapso.

Exemplo: imprensa tradicional.

É preciso aumentar a retenção dos clientes e a participação no

mercado.

É preciso medir, aprender.

A combinação de BigData com Agile Analytics promete ser a

solução.

O que é Big Data?

Para mim Big Data são dados cujo tamanho são parte do problema

Agile Analytics

Do que estamos falando?

Conjunto de ferramentas e métodos

Conjunto de ferramentas e métodos

que visa perceber padrões e extrair visões

Conjunto de ferramentas e métodos

que visa perceber padrões e extrair visões

a partir de registros de observações e dados de exemplos ou experiências passadas.

Para quê é usado

Web mining

Decisões que envolvem julgamento

Examinar imagens (screening)

Previsões

Diagnósticos

Análises de marketing e de vendas

Afinal, que diabo é isso?

A arte de fazer as questões certas.

A ciência de usar dados para encontrar as respostas.

A coragem de agir sobre as evidências e sobre os dados mesmo quando contraria o senso comum e

os conceitos previamente estabelecidos.

Alguns tipos de problemas que podemos resolver

Agrupar coisas relacionadas -‐ clustering

Agrupar coisas relacionadas -‐ clustering

Agrupar coisas relacionadas -‐ clustering

Agrupar coisas relacionadas -‐ clustering

Não supervisionado

Exemplo de clustering:

Linkedin, Skills & Expertise:

http://www.linkedin.com/skills/skill/Machine_Learning?trk=skills-‐hp-‐search

Previsões

Se dividem de acordo com a tarefa que faz:

Classificação – prevê resultados qualitativos discretos do tipo S/N, morre/sobrevive

Regressão – prevê resultados quantitativos

Classificação consiste em rotular um input baseado em dados previamente vistos

Filtro anti spam

Identificação de linguagem

Detecção de rosto (você conhece o rosto)

Recomendações

Detecção de anomalias

Reconhecer padrão de intrusão

Resolver ambiguidades

Fraudes financeiras

Por que chamar de Agile Analytics?

Collective Intelligence

Collective Intelligence

Parece que há um esforço coletivo de inteligência quando na verdade os dados podem vir de fontes não exatamente das mais inteligentes

Collective Intelligence

Prefiro não usar o termo genérico Collective Intelligence.

Predictive Analytics

Predictive Analytics

Na verdade a técnicas usadas nesta área de conhecimento vão muito além de análise preditiva.

Predictive Analytics

Prefiro não usar o termo genérico Predictive Analytics.

Machine Learning

Permite uma discussão filosófica. Muita gente não aceita que máquinas sejam capazes de

aprender.

Machine Learning

Machine Learning

É o termo mais usado mas em geral subentende uso de algoritmos complexos que nem sempre são

necessários.

Machine Learning

Permite uma discussão filosófica.

Machine Learning

Muita gente não aceita que máquinas sejam capazes de

aprender. Wittgenstein, Waldemar Setzer e

outros

Machine Learning

Talvez não seja “politicamente correto” usar o termo genérico

Machine Learning.

Agile Analytics

Vou justificar o termo com exemplos e citações

DJ Patil

Data Scientist -‐ Greylock Partners, ex eBay e ex LinkedIn

DJ Patil

Data Scientist -‐ Greylock Partners, ex eBay e ex LinkedIn

“Try to be clever before you do the heavyweight work”

DJ Patil

Antes de começar o trabalho duro usando algoritmos sofisticados de classificação ou information retrieval, é preciso observar os dados e ver se é possível encontrar um ponto de partida mais a frente para começar a iterar.

Hilary Mason

Data Scientist -‐ bitly

Nem sempre devemos a usar um tipo de armazenamento sofisticado para arquivos grandes de dados. Às vezes basta um arquivo .txt ou .csv.

As primeiras ferramentas que devemos experimentar são as de linha de comando do Linux:

cat, grep, head, tail, awk, find, xargs, sort, wc, etc..

As primeiras ferramentas que devemos experimentar são as de linha de comando do Linux:

cat, grep, head, tail, awk, find, xargs, sort, wc, etc..

E não esquecer recursos gráficos do gnuplot.

É isso!

top related