big data e mineração de dados

39
Big Data e Mineração de Dados Prof. S. Elton Meira

Upload: sebastian-meira

Post on 07-Jul-2015

273 views

Category:

Technology


2 download

DESCRIPTION

Big Data and Data Mining

TRANSCRIPT

Page 1: Big data e mineração de dados

Big Data e Mineração de

Dados

Prof. S. Elton Meira

Page 2: Big data e mineração de dados

BIG DATA

Parte 1 -

Page 3: Big data e mineração de dados

Parte 1 - Big Data: Sumário

• O fenômeno e as histórias que a mídia

apresenta

• O que é Big Data.

• Big Data: a infraestrutura

Page 4: Big data e mineração de dados

Big Data na Mídia

• Ultimamente há diversas histórias sobre

Big Data:

You Tube: http://youtu.be/LsMt5jp1a9k

Page 5: Big data e mineração de dados

Big Data na Mídia

http://www.forbes.com/sites/kashmirhill/2012/02/16/how-target-figured-out-a-teen-girl-was-pregnant-before-her-father-did/

http://youtu.be/XH1wQEgROg4

Page 6: Big data e mineração de dados

Big Data na Mídia

http://www.fivethirtyeight.com/

http://blogs.scientificamerican.com/cocktail-party-physics/2012/11/07/why-math-is-like-the-honey-badger-nate-silver-ascendant/

Page 7: Big data e mineração de dados

Big Data na Mídia

http://www.forbes.com/sites/kashmirhill/2012/02/16/how-target-figured-out-a-teen-girl-was-pregnant-before-her-father-did/

Page 8: Big data e mineração de dados

Os 3Vs do Big Data

• Big Data é qualquer fonte de dados

que possui no mínimo três

características comuns:

– Volume extremamente elevado;

– Velocidade extremamente elevada;

– Variedade extremamente elevada.

Page 9: Big data e mineração de dados

Os 3Vs do Big Data

Fonte: ibm http://www.ibm.com/midmarket/br/pt/img/ssa_img_ibm_bigdata_110612.jpg

Page 11: Big data e mineração de dados

Volume maior de dados...

Fonte: ibm http://www.ibm.com/midmarket/br/pt/img/ssa_img_ibm_bigdata_110612.jpg

Page 13: Big data e mineração de dados

O que gera tanta

quantidade de dados?

• Computadores e dispositivos: informações geradas por máquinas sem a intervenção humana

• Humanos: através de sua interação com as máquinas e computadores

Page 14: Big data e mineração de dados

Variedade dos dados: •Dados com comprimento e tipo

definidos.

•Exemplos: números, datas, strings, etc

Dados estruturados

•Dados sem um formato específico.

•Exemplos: imagens de satélite, dados científicos, fotos, vídeos, documentos, mídia social, Web, etc

Dados não estruturados

•Dados que não são aderentes a um esquema fixo mas podem ser auto-definídos.

•Exemplos: JSON, EDI, XML

Dados semiestruturados

Page 15: Big data e mineração de dados

Velocidade dos dados

• A revolução das tecnologias de

comunicação aumentou muito a

velocidade de transmissão de dados.

Page 16: Big data e mineração de dados

Componentes Tecnológicos

do Big Data

Inte

rfa

ce

s e

alim

en

tad

ore

s d

e/p

ara

in

tern

et

Infraestrutura física redundante

Infraestrutura de segurança

Dispositivos (computadores, notebooks, tablets,

smarphones)

Banco de dados Operacional (estruturado, não

estruturado e semiestruturado)

“Organização” de banco de dados e ferramentas

Datawarehouses e Data Marts analiticos

Relatórios e visualização

Aplicações Big Data

Ferramentas analíticas

Inte

rfac

es e

alim

en

tad

ore

s de

/pa

ra a

plic

õe

s

Page 17: Big data e mineração de dados

Infraestrutura física

• Requisitos:

– Desempenho: um parâmetro importante é a

latência e o tempo de resposta.

– Disponibilidade: uptime, tempo médio entre

falhas.

– Escalabilidade: quão fácil a infra estrutura pode

ser ampliada ou reduzida em função da

dinâmica do negócio.

– Flexibilidade: quão rapidamente a infraestrutura

pode ser alterada e recuperar-se de falhas.

– Custo: quer pagar quanto??

Page 18: Big data e mineração de dados

Infraestrutura física

• Computação em nuvem pode ser uma boa

alternativa

– Definição de computação em nuvem: é um

método de fornecer um conjunto de recursos

computacionais incluindo aplicativos,

armazenamento, rede, ambientes de

desenvolvimento, plataformas de implantação e

processos de negócio.

Page 19: Big data e mineração de dados

Infraestrutura física

• Modelos de computação em nuvem

– Infrastructure as a Service (IaaS): fornecimento

de serviços computacionais incluindo hardware,

rede, armazenamento e espaço em

datacenters por aluguel de recursos.

– Platform as a Service (PaaS): combina IaaS com

um conjunto abstrato de serviços de

middleware, ferramentas de desenvolvimento

de software, ferramentas de implantação as

quais permitem à organização ter um modo

consistente de criar implantar aplicações na

nuvem.

Page 20: Big data e mineração de dados

Infraestrutura física

• Modelos de computação em nuvem

– Software as a Service (SaaS): aplicações criadas

e hospedadas por um provedor. O cliente paga

por serviço por usuário em contratos mensais ou

anuais.

– Data as a Service (DaaS): serviço independente

da plataforma que conecta o cliente com a

nuvem para armazenar e recuperar dados.

Page 21: Big data e mineração de dados

Infraestrutura física

• Exemplos de nuvens:

Page 22: Big data e mineração de dados

Componentes Tecnológicos

do Big Data

Inte

rfa

ce

s e

alim

en

tad

ore

s d

e/p

ara

in

tern

et

Infraestrutura física redundante

Infraestrutura de segurança

Dispositivos (computadores, notebooks, tablets,

smarphones)

Banco de dados operacional (estruturado, não

estruturado e semiestruturado)

“Organização” de banco de dados e ferramentas

Datawarehouses e Data Marts analiticos

Relatórios e visualização

Aplicações Big Data

Ferramentas analíticas

Inte

rfac

es e

alim

en

tad

ore

s de

/pa

ra a

plic

õe

s

Page 23: Big data e mineração de dados

Infraestrutura de segurança

• A segurança envolve diversos

aspectos:

– Acesso aos dados

– Acesso aos aplicativos

– Criptografia de dados

– Detecção de ameaças

Page 24: Big data e mineração de dados

Bancos de dados

operacionais • Bancos de dados relacionais

• Bancos de dados Not Only SQL

(NoSQL)

Page 25: Big data e mineração de dados

Bancos de dados

operacionais

• Bancos de dados relacionais

– Dados estruturados

– ACID (Atomicidade, Consistência,

Isolamento e Durabilidade)

Page 26: Big data e mineração de dados

Bancos de dados

operacionais • Bancos de dados Not Only SQL

(NoSQL)

– Não são baseados no modelo tradicional de tabelas e chaves dos RDBMs.

– Escaláveis

– Modelos próprios de dados e queries

– Alguns possuem consistência eventual: em vez de ACID e alguns são BASE (Basically Available, Soft state, and Eventual Consistency)

Page 27: Big data e mineração de dados

Bancos de dados

operacionais • Bancos de dados Not Only SQL

(NoSQL)

– Banco de dados chave-valor (key-value)

– Banco de dados de documentos

Page 28: Big data e mineração de dados

Bancos de dados

operacionais • Bancos de dados Not Only SQL

(NoSQL)

– Banco de dados de grafos:

– Banco de dados espaciais

Page 29: Big data e mineração de dados

Bancos de dados

operacionais • Bancos de dados Not Only SQL

(NoSQL)

– Banco de dados em colunas:

HBase é um banco de dados distribuido open-source orientado

a coluna, modelado a partir do Google BigTable e escrito

em Java.

O Hbase tem fácil integração com o Hadoop, sendo assim,

pode utilizar o MapReduce para distribuir o processamento dos

dados, podendo processar facilmente vários terabytes de

dados.

Page 30: Big data e mineração de dados

Organização de banco de

dados e ferramentas • Esta parte da infraestrutura captura,

valida e monta vários elementos de

big data em coleções relevantes.

• Tecnologias envolvidas: – Sistemas de arquivos distribuídos.

– Serviços de serialização para persistência de

dados e chamadas remota de procedimentos

– Serviços de coordenação: para possibilitar

aplicações distribuídas.

Page 31: Big data e mineração de dados

Organização de banco de

dados e ferramentas • A tecnologia mais conhecida desta

parte do framework é o MapReduce

• MapReduce é um modelo de programação para o processamento

de grandes conjuntos de dados com

um algoritmo distribuído paralelo em

um cluster.

Page 32: Big data e mineração de dados

Organização de banco de

dados e ferramentas • Um programa de MapReduce

compreende:– um map () procedimento que realiza a filtragem

e ordenação (como classificação os alunos pelo

primeiro nome em filas, uma fila para cada

nome) e

– Reduce () procedimento que executa uma

operação de resumo (como a contagem do

número de alunos em cada fila, produzindo

freqüências nome).

Page 33: Big data e mineração de dados

Organização de banco de

dados e ferramentas • MapReduce:

Page 34: Big data e mineração de dados

Organização de banco de

dados e ferramentas

• Apache Hadoop é um framework de software open-source que suporta aplicações intensivas de dados distribuídos, licenciado sob a licença Apache v2.

Page 35: Big data e mineração de dados

Organização de banco de

dados e ferramentas

• Ele suporta a execução de aplicações emgrandes aglomerados de hardwarecommodity.

• Hadoop MapReduce foi obtido a partir do

Google e do sistema de arquivo do Google(GFS).

Page 36: Big data e mineração de dados

Mineração de dados

• Mineração de dados envolve aexploração e análise de grande

quantidade de dados com o objetivo

de encontrar padrões

Page 37: Big data e mineração de dados

Mineração de dados

• Mineração de dados utiliza técnicas

estatísticas e de inteligência artificial.

• O objetivo da mineração de dados

pode ser feita para:

– Classificar elementos de um conjunto de

dados.

– Prever valores de variáveis aleatórias.

Page 38: Big data e mineração de dados

Mineração de dados

• Mineração de dados utiliza técnicas

estatísticas e de inteligência artificial.

• O objetivo da mineração de dados

pode ser feita para:

– Classificar elementos de um conjunto de

dados.

– Prever valores de variáveis aleatórias.

Page 39: Big data e mineração de dados

Mineração de dados

• Exemplos de algoritmos utilizados namineração de dados:

– Árvores de classificação

– Regressão logística

– Redes neurais

– Técnicas de agrupamento (clustering)