big data e mineração de dados

Big Data e Mineração de

Dados

Prof. S. Elton Meira

mailto:[email protected]

BIG DATA

Parte 1 -

Parte 1 - Big Data: Sumário

• O fenômeno e as histórias que a mídia

apresenta

• O que é Big Data.

• Big Data: a infraestrutura

Big Data na Mídia

• Ultimamente há diversas histórias sobre

Big Data:

You Tube: http://youtu.be/LsMt5jp1a9k

http://youtu.be/LsMt5jp1a9k





Big Data na Mídia

http://www.forbes.com/sites/kashmirhill/2012/02/16/how-target-figured-out-a-teen-girl-was-pregnant-before-her-father-did/

http://youtu.be/XH1wQEgROg4


























Big Data na Mídia

http://www.fivethirtyeight.com/

http://blogs.scientificamerican.com/cocktail-party-physics/2012/11/07/why-math-is-like-the-honey-badger-nate-silver-ascendant/

http://www.fivethirtyeight.com/
























Big Data na Mídia



























Os 3Vs do Big Data

• Big Data é qualquer fonte de dados

que possui no mínimo três

características comuns:

– Volume extremamente elevado;

– Velocidade extremamente elevada;

– Variedade extremamente elevada.

Os 3Vs do Big Data

Fonte: ibm http://www.ibm.com/midmarket/br/pt/img/ssa_img_ibm_bigdata_110612.jpg

http://www.ibm.com/midmarket/br/pt/img/ssa_img_ibm_bigdata_110612.jpg

Volume maior de dados...


http://monetate.com/infographic/the-retailers-guide-to-big-data/#axzz2HaZVK816


http://monetate.com/infographic/the-retailers-guide-to-big-data/












• A quantidade dados aumentou muito

nos últimos anos:

http://monetate.com/infographic/the-retailers-guide-to-big-data/#axzz2HaZVK816












O que gera tanta

quantidade de dados?

• Computadores e dispositivos: informações geradas por máquinas sem a intervenção humana

• Humanos: através de sua interação com as máquinas e computadores

Variedade dos dados: •Dados com comprimento e tipo

definidos.

•Exemplos: números, datas, strings, etc

Dados estruturados

•Dados sem um formato específico.

•Exemplos: imagens de satélite, dados científicos, fotos, vídeos, documentos, mídia social, Web, etc

Dados não estruturados

•Dados que não são aderentes a um esquema fixo mas podem ser auto-definídos.

•Exemplos: JSON, EDI, XML

Dados semiestruturados

Velocidade dos dados

• A revolução das tecnologias de

comunicação aumentou muito a

velocidade de transmissão de dados.

Componentes Tecnológicos

do Big Data

Inte

rfa

ce

s e

alim

en

tad

ore

s d

e/p

ara

in

tern

et

Infraestrutura física redundante

Infraestrutura de segurança

Dispositivos (computadores, notebooks, tablets,

smarphones)

Banco de dados Operacional (estruturado, não

estruturado e semiestruturado)

“Organização” de banco de dados e ferramentas

Datawarehouses e Data Marts analiticos

Relatórios e visualização

Aplicações Big Data

Ferramentas analíticas

Inte

rfac

es e

alim

en

tad

ore

s de

/pa

ra a

plic

aç

õe

s

Infraestrutura física

• Requisitos:

– Desempenho: um parâmetro importante é a

latência e o tempo de resposta.

– Disponibilidade: uptime, tempo médio entre

falhas.

– Escalabilidade: quão fácil a infra estrutura pode

ser ampliada ou reduzida em função da

dinâmica do negócio.

– Flexibilidade: quão rapidamente a infraestrutura

pode ser alterada e recuperar-se de falhas.

– Custo: quer pagar quanto??


• Computação em nuvem pode ser uma boa

alternativa

– Definição de computação em nuvem: é um

método de fornecer um conjunto de recursos

computacionais incluindo aplicativos,

armazenamento, rede, ambientes de

desenvolvimento, plataformas de implantação e

processos de negócio.


• Modelos de computação em nuvem

– Infrastructure as a Service (IaaS): fornecimento

de serviços computacionais incluindo hardware,

rede, armazenamento e espaço em

datacenters por aluguel de recursos.

– Platform as a Service (PaaS): combina IaaS com

um conjunto abstrato de serviços de

middleware, ferramentas de desenvolvimento

de software, ferramentas de implantação as

quais permitem à organização ter um modo

consistente de criar implantar aplicações na

nuvem.


• Modelos de computação em nuvem

– Software as a Service (SaaS): aplicações criadas

e hospedadas por um provedor. O cliente paga

por serviço por usuário em contratos mensais ou

anuais.

– Data as a Service (DaaS): serviço independente

da plataforma que conecta o cliente com a

nuvem para armazenar e recuperar dados.


• Exemplos de nuvens:

Componentes Tecnológicos

do Big Data

Inte

rfa

ce

s e

alim

en

tad

ore

s d

e/p

ara

in

tern

et

Infraestrutura física redundante


Dispositivos (computadores, notebooks, tablets,

smarphones)

Banco de dados operacional (estruturado, não

estruturado e semiestruturado)

“Organização” de banco de dados e ferramentas

Datawarehouses e Data Marts analiticos

Relatórios e visualização

Aplicações Big Data

Ferramentas analíticas

Inte

rfac

es e

alim

en

tad

ore

s de

/pa

ra a

plic

aç

õe

s


• A segurança envolve diversos

aspectos:

– Acesso aos dados

– Acesso aos aplicativos

– Criptografia de dados

– Detecção de ameaças

Bancos de dados

operacionais • Bancos de dados relacionais

• Bancos de dados Not Only SQL

(NoSQL)

Bancos de dados

operacionais

• Bancos de dados relacionais

– Dados estruturados

– ACID (Atomicidade, Consistência,

Isolamento e Durabilidade)

Bancos de dados

operacionais • Bancos de dados Not Only SQL

(NoSQL)

– Não são baseados no modelo tradicional de tabelas e chaves dos RDBMs.

– Escaláveis

– Modelos próprios de dados e queries

– Alguns possuem consistência eventual: em vez de ACID e alguns são BASE (Basically Available, Soft state, and Eventual Consistency)

Bancos de dados


(NoSQL)

– Banco de dados chave-valor (key-value)

– Banco de dados de documentos

Bancos de dados


(NoSQL)

– Banco de dados de grafos:

– Banco de dados espaciais

Bancos de dados


(NoSQL)

– Banco de dados em colunas:

HBase é um banco de dados distribuido open-source orientado

a coluna, modelado a partir do Google BigTable e escrito

em Java.

O Hbase tem fácil integração com o Hadoop, sendo assim,

pode utilizar o MapReduce para distribuir o processamento dos

dados, podendo processar facilmente vários terabytes de

dados.

http://pt.wikipedia.org/wiki/Banco_de_dados





http://pt.wikipedia.org/wiki/Open-source



http://pt.wikipedia.org/wiki/Google

http://pt.wikipedia.org/wiki/BigTable

http://pt.wikipedia.org/wiki/Java

http://pt.wikipedia.org/wiki/Hadoop

http://pt.wikipedia.org/wiki/MapReduce

http://pt.wikipedia.org/wiki/Terabyte

Organização de banco de

dados e ferramentas • Esta parte da infraestrutura captura,

valida e monta vários elementos de

big data em coleções relevantes.

• Tecnologias envolvidas: – Sistemas de arquivos distribuídos.

– Serviços de serialização para persistência de

dados e chamadas remota de procedimentos

– Serviços de coordenação: para possibilitar

aplicações distribuídas.


dados e ferramentas • A tecnologia mais conhecida desta

parte do framework é o MapReduce

• MapReduce é um modelo de programação para o processamento

de grandes conjuntos de dados com

um algoritmo distribuído paralelo em

um cluster.


dados e ferramentas • Um programa de MapReduce

compreende:– um map () procedimento que realiza a filtragem

e ordenação (como classificação os alunos pelo

primeiro nome em filas, uma fila para cada

nome) e

– Reduce () procedimento que executa uma

operação de resumo (como a contagem do

número de alunos em cada fila, produzindo

freqüências nome).


dados e ferramentas • MapReduce:


dados e ferramentas

• Apache Hadoop é um framework de software open-source que suporta aplicações intensivas de dados distribuídos, licenciado sob a licença Apache v2.


dados e ferramentas

• Ele suporta a execução de aplicações emgrandes aglomerados de hardwarecommodity.

• Hadoop MapReduce foi obtido a partir do

Google e do sistema de arquivo do Google(GFS).

Mineração de dados

• Mineração de dados envolve aexploração e análise de grande

quantidade de dados com o objetivo

de encontrar padrões


• Mineração de dados utiliza técnicas

estatísticas e de inteligência artificial.

• O objetivo da mineração de dados

pode ser feita para:

– Classificar elementos de um conjunto de

dados.

– Prever valores de variáveis aleatórias.


• Exemplos de algoritmos utilizados namineração de dados:

– Árvores de classificação

– Regressão logística

– Redes neurais

– Técnicas de agrupamento (clustering)

big data e mineração de dados

Technology

big datainterfaces

big datafonte

big databig

big dataparte

fonte de dados

maior de dados

quantidade dados

quantidade de dados