mvp virtual conference 2013
DESCRIPTION
MVP Virtual Conference 2013. Windows Server HPC e Big Data: aplicação real em finanças. Pericles Rocha Architect, Microsoft Technology Center [email protected]. Pericles Rocha. Desenvolvedor Ex consultor na HP Services Na Microsoft há 6 anos. Arquiteto, Microsoft Technology Center. - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: MVP Virtual Conference 2013](https://reader035.vdocument.in/reader035/viewer/2022062810/56815dab550346895dcbdc8b/html5/thumbnails/1.jpg)
MVP Virtual Conference 2013Windows Server HPC e Big Data: aplicação real em finançasPericles RochaArchitect, Microsoft Technology [email protected]
![Page 2: MVP Virtual Conference 2013](https://reader035.vdocument.in/reader035/viewer/2022062810/56815dab550346895dcbdc8b/html5/thumbnails/2.jpg)
Pericles Rocha
DesenvolvedorEx consultor na HP Services
Na Microsoft há 6 anos
Arquiteto, Microsoft Technology Center
MCSE, MCDBA, MCSD
16 anos na
indústria
Corintiano e
Karateca
![Page 3: MVP Virtual Conference 2013](https://reader035.vdocument.in/reader035/viewer/2022062810/56815dab550346895dcbdc8b/html5/thumbnails/3.jpg)
Agenda
Big DataO que é Windows
HPC Server?
Arquitetura de um cluster
HPC
HPC + Windows Azure
Cenários de uso
DúvidasCenário Real eDemo
JobsGerenciarInstalar
![Page 4: MVP Virtual Conference 2013](https://reader035.vdocument.in/reader035/viewer/2022062810/56815dab550346895dcbdc8b/html5/thumbnails/4.jpg)
BIG DATA
Até 2020, mais de 1/3 de todos os dados do mundo vão passar pela núvemIndivíduos criam 70% de todos os dados – empresas armazenam 80%
“Expertise em Big Data está escarço e é caro”, dizem 38% dos pesquisados
![Page 5: MVP Virtual Conference 2013](https://reader035.vdocument.in/reader035/viewer/2022062810/56815dab550346895dcbdc8b/html5/thumbnails/5.jpg)
Big DataAté 2020, mais de 1/3 de todos os dados do mundo vão passar pela núvem¹
Indivíduos criam 70% de todos os dados – empresas armazenam 80%¹“Expertise em Big Data está escarço e é caro”, dizem 38% dos pesquisados
¹ Big Data Just Beginning to Explode – csc.com² How to Bridge Big Data’s Information Gap – InformationWeek.com
![Page 6: MVP Virtual Conference 2013](https://reader035.vdocument.in/reader035/viewer/2022062810/56815dab550346895dcbdc8b/html5/thumbnails/6.jpg)
Big Data... consequências50% dos CIOs acreditam que seus custos vão aumentar
39% acreditam que terão redução de flexibilidade
Fonte: IDC Whitepaper, “Big Data Analytics in Deuschland 2012”
![Page 7: MVP Virtual Conference 2013](https://reader035.vdocument.in/reader035/viewer/2022062810/56815dab550346895dcbdc8b/html5/thumbnails/7.jpg)
Complexidade: Variedade e Velocidade
Terabytes
Gigabytes
Megabytes
Petabytes Big
DataLog filesSpatial & GPS coordinatesData market feedseGov feedsWeather Text/image
Click streamWikis/blogs
Sensors/RFID/devices
Social sentimentAudio/video
Web 2.0
Web LogsDigital MarketingSearch MarketingRecommendations
AdvertisingMobile
CollaborationeCommerce
ERP/CRMPayables
PayrollInventory
ContactsDeal TrackingSales Pipeline
O que é Big Data?
![Page 8: MVP Virtual Conference 2013](https://reader035.vdocument.in/reader035/viewer/2022062810/56815dab550346895dcbdc8b/html5/thumbnails/8.jpg)
Oportunidade
Esteja entre os primeiros na sua indústria
Transforme grandes volumes de informações em
aprendizado
Lidere a discussã
o
Entenda as
opções
Tire mais dos
dados
Economize
tempo e dinheiro
![Page 9: MVP Virtual Conference 2013](https://reader035.vdocument.in/reader035/viewer/2022062810/56815dab550346895dcbdc8b/html5/thumbnails/9.jpg)
Otimização de aplicações web
Medição inteligente
Monitoração de equipamentos
Análise de resultado de anúncios
Pesquisas científicas
Detecção de fraudes
Saúde públicaPrevisão do tempo
Exploração de recursos naturais
Análise de redes sociais
Análises de Churn
Otimização do fluxo de transito
Otimização da infraestrutura de TI Descobertas
Cenários comuns de Big Data
![Page 10: MVP Virtual Conference 2013](https://reader035.vdocument.in/reader035/viewer/2022062810/56815dab550346895dcbdc8b/html5/thumbnails/10.jpg)
Big Data requer uma abordagem fim-a-fim
Descobrir Combinar Refinar
Relacional Não-relacional Streaming
INSIGHT
DATA ENRICHMENT
DATA MANAGEMENT
Auto serviço Colaboração Aplicativos Dispositivos
Analíticos
![Page 11: MVP Virtual Conference 2013](https://reader035.vdocument.in/reader035/viewer/2022062810/56815dab550346895dcbdc8b/html5/thumbnails/11.jpg)
Fast
Loa
d
Sistemas Fontes
Dados Históricos
Sumarização e Carga
Fontes Big Data (Raw, Nào
Estruturados)
Alertas, Notificações
Dados e Aplicações de Computação intensiva
ERP CRM LOB APPS
Integrar/Enriquecer
SQL Server StreamInsight
ETL: SSIS, DQS, MDS
Hadoop on Windows Azure
Hadoop on Windows Server
SQL Server FTDW Data Marts
SQL Server Reporting Services
SQL Server Analysis Server
Business Insights
Relatórios Interativos
Scorecards de Desempenho
Coletores
Equipamentos
Dispositivos
Sensores
SQL Server Parallel Data Warehouse
3. Streaming:
Processamento de dados Real
Time
2. Map/Reduce:
Armazenamento e processamento de dados
não estruturados
4. Business Analytics:
Interações com os dados
Data Insights Value
Azure Market Place
1. Data Warehousing:
Armazenamento e análise de dados
estruturados
THE BIG (DATA) PICTURE
![Page 12: MVP Virtual Conference 2013](https://reader035.vdocument.in/reader035/viewer/2022062810/56815dab550346895dcbdc8b/html5/thumbnails/12.jpg)
HIGH PERFORMANCE COMPUTING
Tecnologia comoditizada, desenvolvimento simplificadoReaproveitamento de aplicações existentesAtuação mais abrangente:
Big Data, Cálculo de Risco, Processamento de grandes volumes de informação
![Page 13: MVP Virtual Conference 2013](https://reader035.vdocument.in/reader035/viewer/2022062810/56815dab550346895dcbdc8b/html5/thumbnails/13.jpg)
High Performance Computing (HPC)Histórico do uso científico de super computadores
Década Uso e computador envolvido
1970 Previsão do tempo, pesquisa aerodinâmica (Cray-1)1980 Análise de probabilidade, modelagem de blindagem de radiação (CDC
Cyber)1990 Quebra de código por força bruta (EFF DES cracker)2000 Testes nucleares em 3D em substituição por conduta legal do Tratado de
Proliferação Nuclear (ASCI Q)2010 Simulação de Dinâmica Molecular (Tianhe-1A)
Fonte: Supercomputer, Wikipedia
![Page 14: MVP Virtual Conference 2013](https://reader035.vdocument.in/reader035/viewer/2022062810/56815dab550346895dcbdc8b/html5/thumbnails/14.jpg)
HPC e Big Data• Parte de sua rotina de ETL:
processamento com cálculos complexos, em grande volume de dados
• Utilização (re) de código legado, ou de aplicações já existentes para cálculo
• Modelos de cálculo em Microsoft Office Excel
![Page 15: MVP Virtual Conference 2013](https://reader035.vdocument.in/reader035/viewer/2022062810/56815dab550346895dcbdc8b/html5/thumbnails/15.jpg)
HPC hojeTecnologia comoditizada, desenvolvimento simplificadoReaproveitamento de aplicações existentesAtuação mais abrangente:–Big Data, Cálculo de Risco, Processamento de grandes volumes de informação
![Page 16: MVP Virtual Conference 2013](https://reader035.vdocument.in/reader035/viewer/2022062810/56815dab550346895dcbdc8b/html5/thumbnails/16.jpg)
Windows Server HPC• Plataforma da Microsoft para
computação em alta performance• Escala para milhares de núcleos• Na versão 2012 (quarta versão do
HPC para Windows), permite que um cluster utilize VMs no Windows Azure
![Page 17: MVP Virtual Conference 2013](https://reader035.vdocument.in/reader035/viewer/2022062810/56815dab550346895dcbdc8b/html5/thumbnails/17.jpg)
HPC: Modelos de Desenvolvimento• Parallel Applications• Embarrassingly Parallel Applications• Hybrid Applications• Data Intensive Applications
![Page 18: MVP Virtual Conference 2013](https://reader035.vdocument.in/reader035/viewer/2022062810/56815dab550346895dcbdc8b/html5/thumbnails/18.jpg)
Parallel Applications• MPI (C++ e Fortran) Modelo de
Programação• Comunicação entre nodos do cluster• Sensível a latência• Difícil de escalar. Apropriado para cargas em
batch
Características
• Dinâmica de Fluídos• Análise de elemento finito• Clima
Exemplos
![Page 19: MVP Virtual Conference 2013](https://reader035.vdocument.in/reader035/viewer/2022062810/56815dab550346895dcbdc8b/html5/thumbnails/19.jpg)
Embarrassingly Parallel Applications• Parametric Sweep• Orientado a Serviços/WCF• Excel Services for HPC Server
Modelo de Programação
• Tarefas independentes uma das outras• Aplicações escalam com facilidade• Jobs interativos ou em batch
Características
• Análise de Monte Carlo• Cálculo de Risco Financeiro• Otimização de parâmetros MPI
Exemplos
![Page 20: MVP Virtual Conference 2013](https://reader035.vdocument.in/reader035/viewer/2022062810/56815dab550346895dcbdc8b/html5/thumbnails/20.jpg)
Hybrid Applications• OpenMP• GP-GPU (CUDA – Compute Unified Device
Architecture)Modelo de
Programação• Aplicações com kernel apropriado para
multicore ou GPU• Podem ser parallel ou embarrassingly
parallel
Características
• Processamento SísmicoExemplos
![Page 21: MVP Virtual Conference 2013](https://reader035.vdocument.in/reader035/viewer/2022062810/56815dab550346895dcbdc8b/html5/thumbnails/21.jpg)
Data Intensive Applications• Linq to HPC (Dryad)• Hadoop• Map-Reduce
Modelo de Programação
• Dados muito grandes para movimentar pelo cluster
• Consultas Ad hoc em dados não estruturados
Características
• Análise de arquivos de Log• Busca de WebExemplos
![Page 22: MVP Virtual Conference 2013](https://reader035.vdocument.in/reader035/viewer/2022062810/56815dab550346895dcbdc8b/html5/thumbnails/22.jpg)
HPC Services for Excel• Utiliza uma infraestrutura
SOA para executar Jobs do Excel no cluster
• Unidades independentes de cálculo (células, linhas ou colunas) que rodam de forma assíncrona e independente no cluster
![Page 23: MVP Virtual Conference 2013](https://reader035.vdocument.in/reader035/viewer/2022062810/56815dab550346895dcbdc8b/html5/thumbnails/23.jpg)
ARQUITETURA DE UM CLUSTER HPC
Gerenciamento e agendamento dos Jobs. Ponto de entrada da rede corporativa
para o Cluster Monitora e gerencia sessões SOA. Recebe requisições Aceita e executa Jobs. Podem ser utilizados de forma oportunista quando tem outro papel (File/Print Server, etc)
![Page 24: MVP Virtual Conference 2013](https://reader035.vdocument.in/reader035/viewer/2022062810/56815dab550346895dcbdc8b/html5/thumbnails/24.jpg)
Topologia básica de um Cluster HPC
Compute NodesClientes
Requests
Head, Compute & Broker Nodes
Active Directory
Jobs
Jobs
Jobs
Tasks
![Page 25: MVP Virtual Conference 2013](https://reader035.vdocument.in/reader035/viewer/2022062810/56815dab550346895dcbdc8b/html5/thumbnails/25.jpg)
Papéis dos membros de um clusterPapel Funcionalidade
Head node Gerenciamento e agendamento dos Jobs. Ponto de entrada da rede corporativa para o Cluster
WCF Broker node Monitora e gerencia sessões SOA. Recebe requisiçõesCompute node Aceita e executa os JobsWorkstation node Aceita e executa Jobs (Windows 7)Windows Azure Worker node Aceita e executa Jobs
Windows Azure Virtual Machine node Aceita e executa Jobs
Unmanaged Server node
Aceita e executa Jobs. Podem ser utilizados de forma oportunista quando tem outro papel (File/Print Server, etc)
![Page 26: MVP Virtual Conference 2013](https://reader035.vdocument.in/reader035/viewer/2022062810/56815dab550346895dcbdc8b/html5/thumbnails/26.jpg)
Componentes do HPC ServerJob Scheduler
• API e Portal para submissão de jobs
• Fila e Priorização• Monitoração• Políticas de
Compartilhamento de Recursos
Distributed Runtimes
• Parametric Sweeps
• Cluster SOA• Excel• MPI• LINQ to HPC
System Administration
• Cluster deployment
• Monitoração• Diagnósticos• Reporting
On-Premises
Windows Azure (hoje)Windows Azure (breve)
![Page 27: MVP Virtual Conference 2013](https://reader035.vdocument.in/reader035/viewer/2022062810/56815dab550346895dcbdc8b/html5/thumbnails/27.jpg)
WINDOWS SERVER HPC + AZURE
Ambiente híbrido: nodes on-premises e no Azure
O único papel mandatório on-premise é o Head node
Suportado a partir do Windows Server 2008 R2 SP 2
![Page 28: MVP Virtual Conference 2013](https://reader035.vdocument.in/reader035/viewer/2022062810/56815dab550346895dcbdc8b/html5/thumbnails/28.jpg)
Windows Server HPC + Azure
Ambiente híbrido: nodes on-premises e no Azure
O único papel mandatório on-premise é o Head node
Suportado a partir do Windows Server 2008 R2 SP 2
![Page 29: MVP Virtual Conference 2013](https://reader035.vdocument.in/reader035/viewer/2022062810/56815dab550346895dcbdc8b/html5/thumbnails/29.jpg)
Windows Server HPC + AzureHead Node
cn1 cn2
GTW
10.1.1.1/24 10.1.1.2/24 10.1.1.3/24
ws1hn1Domain: ff.local
10.1.1.254/24 10.1.1.10/24
Compute Proxies Azure Worker Role
Azure Worker Role
Azure VM Role
Azure VM Role
HPC on-premises
![Page 30: MVP Virtual Conference 2013](https://reader035.vdocument.in/reader035/viewer/2022062810/56815dab550346895dcbdc8b/html5/thumbnails/30.jpg)
CENÁRIOS DE USOCriação de Conteúdo Digital Pesquisa e Desenvolvimento Setor Público
Ciências e Energia Finanças
![Page 31: MVP Virtual Conference 2013](https://reader035.vdocument.in/reader035/viewer/2022062810/56815dab550346895dcbdc8b/html5/thumbnails/31.jpg)
Cenários
Criação de Conteúdo Digital
Pesquisa e Desenvolvimento
Ciências e
EnergiaFinanças
Setor Público
Manufatura
![Page 32: MVP Virtual Conference 2013](https://reader035.vdocument.in/reader035/viewer/2022062810/56815dab550346895dcbdc8b/html5/thumbnails/32.jpg)
INSTALAÇÃO, GERENCIAMENTO E JOBS
Instalar o Microsoft HPC Pack 2012 para criar o Head node, Fazer configuração inicial no Head node, Pre-configurar os
Compute nodes, Fazer Join dos Compute nodes no cluster, HPC Cluster Manager, Node & Job Management,
Diagnósticos, Relatórios e Gráficos Management Pack (apenas 2008 R2), Agendamento, Monitoração da execução dos Jobs
![Page 33: MVP Virtual Conference 2013](https://reader035.vdocument.in/reader035/viewer/2022062810/56815dab550346895dcbdc8b/html5/thumbnails/33.jpg)
Windows HPC Cluster: instalação
Depois de validados os pré-requisitos:
1. Instalar o Microsoft HPC Pack 2012 para criar o Head node
2. Fazer configuração inicial no Head node
3. Pre-configurar os Compute nodes
4. Fazer Join dos Compute nodes no cluster
![Page 34: MVP Virtual Conference 2013](https://reader035.vdocument.in/reader035/viewer/2022062810/56815dab550346895dcbdc8b/html5/thumbnails/34.jpg)
Windows HPC Cluster: gerenciar
• HPC Cluster Manager– Node & Job
Management– Diagnósticos– Relatórios e
Gráficos• Management Pack
(apenas 2008 R2)
![Page 35: MVP Virtual Conference 2013](https://reader035.vdocument.in/reader035/viewer/2022062810/56815dab550346895dcbdc8b/html5/thumbnails/35.jpg)
Windows HPC Cluster: jobs• Agendamento• Cada Job pode ter
várias tarefas• Escolha de compute
nodes para cada Job• Monitoração da
execução dos Jobs
![Page 36: MVP Virtual Conference 2013](https://reader035.vdocument.in/reader035/viewer/2022062810/56815dab550346895dcbdc8b/html5/thumbnails/36.jpg)
Vida real: o cenário• Cliente com necessidade de uma solução para auxílio de cálculo
de VAR (value at risk). Um dos cálculos necessários é o RAROC
• O modelo RAROC (Risk Adjusted Return on Capital, ou Retorno Ajustado ao Risco no Capital) foi desenvolvido nos anos 70. Hoje em dia, praticamente todos os grandes bancos internacionais utilizam uma variação deste modelo. O RAROC é uma mensuração da rentabilidade baseada no risco, sendo base para análise do desempenho do ajuste de risco e provendo uma visão consistente da rentabilidade cruzada com os negócios.
![Page 37: MVP Virtual Conference 2013](https://reader035.vdocument.in/reader035/viewer/2022062810/56815dab550346895dcbdc8b/html5/thumbnails/37.jpg)
Vida real: a solução• Utilização de uma Plataforma de Cálculo
em Alta Performance que deve utilizar código legado já em uso na empresa
• A solução deverá oferecer boa escalabilidade, custo competitivo e agilidade na adoção de novos projetos
![Page 38: MVP Virtual Conference 2013](https://reader035.vdocument.in/reader035/viewer/2022062810/56815dab550346895dcbdc8b/html5/thumbnails/38.jpg)
Cenário da Demonstração
• Utilização de uma aplicação de cálculo que recebe um arquivo de entrada, realiza cálculos de raiz quadrada e escreve o resultado em um arquivo de saída
• É criado um Parametric Sweep Job (cenário Embarrassingly Parallel)
• Serão passados 20 arquivos ao cluster. Cada Compute Node aloca quatro threads de cada vez, uma para cada núcleo, e cada thread processa um arquivo
• Nesta demonstração, o Head node também é um compute node
• Os dados processados são importados utilizando o SSIS e a análise pode ser feita no Excel por analistas de Business Intelligence
Head Node(+Compute)
Active Directory
Compute Nodes
Cliente
Rede Corporativa
Rede Privativa do Cluster
![Page 39: MVP Virtual Conference 2013](https://reader035.vdocument.in/reader035/viewer/2022062810/56815dab550346895dcbdc8b/html5/thumbnails/39.jpg)
C:\calcula.exe dados.txt
dados.txt
123...1000000
dados.out
1: 1,002: 1,413: 1,73...1000000: SQRT de 1: 20 vezes
SQRT de 2: 20 vezesSQRT de 3: 20 vezes...SQRT de 1000000: 20 vezesTotal de 20 milhões de cálculos
Demonstração: Parametric Sweep Job
![Page 40: MVP Virtual Conference 2013](https://reader035.vdocument.in/reader035/viewer/2022062810/56815dab550346895dcbdc8b/html5/thumbnails/40.jpg)
1: 1,002: 1,413: 1,73...1000000:
HPC Engine: Parametric Sweep JobCompute Node 1
CPU 1 CPU 2
CPU 3 CPU 4
dados_1.txtdados_2.txtdados_3.txt...dados_20.txt
123...1000000
123...1000000
123...1000000
dados_1.outdados_2.outdados_3.out...dados_20.out
1: 1,002: 1,413: 1,73...1000000:
1: 1,002: 1,413: 1,73...1000000:
Compute Node 2CPU 1 CPU 2
CPU 3 CPU 4
Compute Node 3CPU 1 CPU 2
CPU 3 CPU 4
O Head Node distribui a execução do job entre os núcleos dos Compute Nodes, de acordo com a disponibilidade
dados_1 dados_2
dados_3 dados_4
dados_5 dados_6
dados_7 dados_8
dados_9 dados_10
dados_11 dados_12
Demonstração: Parametric Sweep Job
![Page 41: MVP Virtual Conference 2013](https://reader035.vdocument.in/reader035/viewer/2022062810/56815dab550346895dcbdc8b/html5/thumbnails/41.jpg)
DEMONSTRAÇÃO
Utilização de uma Plataforma de Cálculo em Alta Performance que deve utilizar código legado já em uso na empresa
A solução deverá oferecer boa escalabilidade, custo competitivo e agilidade na adoção de novos projetos
![Page 42: MVP Virtual Conference 2013](https://reader035.vdocument.in/reader035/viewer/2022062810/56815dab550346895dcbdc8b/html5/thumbnails/42.jpg)
Resumo• Big Data: oportunidade de liderar a
discussão• Várias tecnologias podem ser
envolvidas no processo de tratamento dos dados
• HPC é uma solução barata, altamente escalável e de implementação rápida
![Page 43: MVP Virtual Conference 2013](https://reader035.vdocument.in/reader035/viewer/2022062810/56815dab550346895dcbdc8b/html5/thumbnails/43.jpg)
DÚVIDAS
Parte de sua rotina de ETL: processamento com cálculos complexos, em grande volume de dados – Utilização (re) de código legado, ou de aplicações já existentes para cálculo – Modelos de cálculo em Microsoft Office Excel
![Page 44: MVP Virtual Conference 2013](https://reader035.vdocument.in/reader035/viewer/2022062810/56815dab550346895dcbdc8b/html5/thumbnails/44.jpg)
Obrigado