Download - TEMARIO BIG DATA - pentahoperu.com
PentaDemywww.pentademy.com
C
U
R
S
O
Único curso en español con triple certificación en Big Data& Machine Learning
Big Data yMachine Learning& AWS & PENTAHO
PentaDemy
Inicio:02 DE AGOSTO
Finalización:06 DE SEPTIEMBRE
60 HORASacadémicas
Lunes y viernesDe 07:00 pm a11:00 pm (GMT-5)
PlataformaDIGITAL
AplicativoGoogle Meet
SoporteTÉCNICO
CERTIFICACIÓN POR NIVEL
DIPLOMASDIGITALES DELPROGRAMA
INGENIERÍA DE DATOS
BIG DATA & MACHINE LEARNING
PentaDemy
PentaDemy
✓ BIG DATA ARCHITEC ENGINEER PROFESIONAL✓ CLOUD AWD BIG DATA ANALYTICS PROFESIONAL
✓ MACHINE LEARNING IN THE CLOUD PROFESIONAL
CERTIFICACIONES:
EL ENTRENAMIENTO ABARCA 3 CERTICIACIONES
Nuestros certificados tiene validez en todos los países de Latinoamérica (a excepción de Brasil), código QR y validez en Linkedin con lo cual podrás compartir tu certificado en
Certificado validez internacionalTriple Certificación
PentaDemy
PentaDemy
R ES UM ENAprenderás a implementar soluciones de Big Data & Machine Learning de manera profesional
y práctica, integraras y orquestarás con Pentaho tus soluciones, en las principales nubes
disponibles (Azure, AWS y GCP), desde la ingesta hasta su explotación analítica sobre
arquitecturas batch y en tiempo real para procesamiento estructurado, semi-estructurado y
no estructurado, sobre un clúster real de Big Data y aprendiendo los patrones y arquetipos
existentes Arquitectura, Infraestructura, Datalake y Gobierno sobre Big Data.
R EQ UIS ITOSConocimientos básicos de SQL
Portar una laptop personal para las clases de
mínimo 1GB de RAM para el uso de Clúster de
128 GB en la nube
M ETODOLOG ÍA
Exposición teórica de los temas
Desarrollo de casos prácticos
Acceso a las clases grabadas
Acceso al material exclusivo
Acceso a una Maquina Virtual con
Clusters reales de Big Data
T EC N O L OG Í A S
AWS – Amazon Web ServicesGCP –Google Gloud PartformMicrosoft AzureApache Hadoop: HDFS, MapreduceApache Ambari, Cloudera CDHKafka, MQTT Broker (Mosquito)Apache SparkHbase y HiveSqoop. Linux.Impala, Python
OB J ET IV OFormar profesionales que deseen aumentar sus oportunidades laborales y enriquecer su
perfil profesional con un elemento diferenciador y de gran demanda actualmente, como
lo es el uso de los servicios Cloudy su aplicaciónal Machine Learning.
PentaDemy
PentaDemy
PL AT AFOR M A M ODER N A DE APR EN DIZ AJ E | E - L EAR N IN G
PentaDemy
PentaDemy
ACERCA DEL EXPOSITOR:
Ingeniero peruano. Realizó sus estudios en la UNAC, complementando con estudiosen administración empresarial en la PUCP. Pablo es un ejecutivo Senior enTecnologías de la Información, con más de 20 años de experiencia como consultornacional e internacional, en Business Analytics, proyectos de Big Data, así como enla Dirección de Proyectos & Gerencia en tecnologías de la Información, asesorempresarial y especialista en Gobierno Electrónico, con dominio de tecnologíasemergentes como Pentaho, Power BI, Microstrategy, Tableau, IDempiere, Odoo,SuiteCRM, R, Python, Java, Linux, Unix y posee diversas especializaciones enseguridad informática, Big Data, DevOps, Pentaho y AWS. Es un activista delSoftware Libre desde 1993 en proyectos como Pentaho, IDempiere, Odoo, entreotros, actualmente se desempeña como Chief Data Architect at GIS y ChiefExecutive Officer in EGS GROUP
▪ Ex-Director de Tecnologías TIC en la empresa transnacional CarvajalS.A.▪ Ex-Director de Tecnologías TIC en el Instituto del Mar del Perú – IMARPE▪ Fue asesor en la hoy Secretaría de Gobierno Digital de la Presidencia del Consejo
de Ministros (ex-ONGEI)– Perú.▪ Ha brindado consultorías a diversas empresas nacionales e internacionales,
entre las cuales destacan: El Grupo El Comercio, AJE Group, Premier Motors,Rural Telecom, Ministerio de Crédito y Hacienda en Nicaragua, entre otras.
PentaDemy
BIG DATA & FUNDAMENTOSDE AWS CON PENTAHO
ProcesamientoAWS Arquitectura desarrollada durante el entrenamiento
PentaDemy
PentaDemy
M Ó D U L O 01
LA SUITE PENTAHO, ARQUITECTURA, PIPELINE BIG DATA & DATA VIZ AWS, BIG DATA, FUNDAMENTOS, TÉCNICAS Y CONCEPTOS, PREPARANDO NUESTRO AMBIENTE DE TRABAJO
www.pentahoperu.com
CLOUD COMPUTINGBIG DATA & AWS
¿Qué es el Cloud Computing?
Creando nuestra cuenta en AWS
Conceptos de Big Data o Macro Datos
Big Data en el mundo empresarial
Las 5 V’s del Big Data
¿Qué es la Alta paralelización?
Fuentes de datos y su recolección
Clúster computacional y alta
paralelización.
Arquitectura de soluciones.
Pipeline de arquitectura tradicional
Pipeline de Arquitectura de Big Data
Almacenamiento y Cloud Computing
Distribución de carga de trabajo
Escalabilidad, Alta disponibilidad,
Seguridad & Gobierno
¿Qué es Hadoop?
Componenentes de Hadoop
HDFS
Map Reduce
YARM
Common Utilities
Distribuciones Hadoop
Patrones de diseño
Capas conceptuales
Arquitectura conceptual
Componentes tecnológicos disponibles
Arquitectura tecnológica
Arquetipo de una arquitectura Big Data
genérica
Definición de un Datalake Productivo
PentaDemy
PentaDemy
BIG DATA – FUNDAMENTOSDESPLIEGUE CLOUDERA / HORTONWORKSDESPLIEGUE LOCAL Y DOCKER DE PENTAHO
PentaDemy
M Ó D U L O 02
BIG DATA: INGENIERÍA DE DATOS
BIG DATA, FUNDAMENTOS Y TÓPICOS AVANZADOS
www.pentademy.com
PUC EN EL CLOUD CON DOCKER, VIRTUALIZANDO CLOUDERA CDH
Despliegue de la VM de Cloudera CDH
Despliegue de Pentaho User Console con
Docker
Buenas prácticas de despliegue de la VM de
Cloudera CDH
Buenas prácticas de despliegue del PUC
Primera revisión del entorno de Cloudera
CDH
Material audio visual y digital de apoyo
para el despliegue de tecnologías
complementarias: MySQL, PostgreSQL,
PostMan y MongoDB.
ARQUITECTURA Y DESPLIEGUE LOCAL PENTAHO BA
Visión general de Pentaho BA
Desplegando Pentaho User Console (PUC)
Desplegando Pentaho Data Integration
Introducción al uso del PUC.
Seguridad en PUC y automatización de
envío de correos.
Primera interacción con el generador de
Cuadros de mando (dashboards) de
Pentaho.
Principios de los Dashboards responsivos
(multi-dispositivo)
PentaDemy
PentaDemy
PROCESAMIENTO DISTRIBUIDO Y PARALELIZADO ORQUESTACIÓN DEL CLUSTER CON PENTAHO
PentaDemy
PentaDemy
M Ó D U L O 03
BIG DATA: INGENIERÍA DE DATOS
PROCESAMIENTO DISTRIBUIDO PARALELIZADO
www.pentademy.com
ORQUESTANDO CLUSTER BIG DATA
CON PENTAHO BA
Archivos de HDFS como tablas Hive
Particionamiento estático y dinámico
Formatos binarios de archivos: Parquet,
ORC y Avro
Compresión optimizada de datos
Configuración y tuneo de procesos en Hive
Sqoop como motor de ingesta de datos
Importando datos a Hadoop a bases de
datos relacionales
Arquetipo de ingesta de datos batch
Arquetipo de modelamiento de datos
Arquetipo de procesamiento de datos
Hue como interfaz gráfica para los procesos
PROCESAMIENTO DISTRIBUIDO PARALELIZADO ON-PREMISE
Tecnologías batch sobre Big Data
Hadoop como ecosistema de almacenamiento
Kafka en Cloudera CDH
HDFS como motor de almacenamiento
YARN como gestor de recursos
MapReduce como motor de procesamiento
Replicación controlada de datos
Asegurando el tamaño de bloque
Capacidad física de un clúster
Administración de archivos y recursos sobre
Hadoop
Hive como infraestructura de almacenamiento
SQL sobre MapReduce
PentaDemy
PentaDemy
REAL TIME CON KAFKAARQUETIPOS REAL TIMEORQUESTACIÓN CON PENTAHODESPLIEGUE EN AWS
API GATEWAY
KINESIS FIREHOSE
RDS S3
DYNAMODB REDSHIFT
LAMBDA
EMR
GLUE
SNS
EC2 QUICKSIGTH
ELASTIC SEARCH SAGAMAKER
KINESIS ANALYTICS ATHENA
AWS LOT
IAM KMS CLOUD HSM CLOUD WATCH CLOUD TRAIL VPC
KINESIS DATA
STREAMDMS SNOWBALL DATA SYNC
ACCESO Y USODEINTER
F
AZ COLECCI
Ó
N DEDATOS
MI
E
STIÓALMACENA NTOY GE N DEDATOS
URIDSEGAD
PROCESA NTOMI
E
ANÁLISIS VI
S
ALIZ CIÓY U A N DE DATOS
AWS IDENTITY AND ACCESS MANAGEMENT
AMAZON COGNITO
CLOUD FORMATION
PentaDemy
PentaDemy
M Ó D U L O 04
PROCESAMIENTO DISTRIBUIDO & PARALELIZADOON PREMISE & ON CLOUD
www.pentademy.com
DATA INGESTION EN AWS
IN REAL TIMEIntroducción a AWS
Entendiendo que es un Data Lake
Creando un Data Lake en Hadoop
Creando un Data Lake usando AWS
Métodos de recolección de datos
Kinesis Firehose (diseño y despliegue de flujo
de datos near realtime desde redes sociales I)
Kinesis Data Stream Firehose (diseño y
despliegue de flujo de datos near realtime
desde redes sociales II)
DMS (Migrando BBDD en AWS)
Pipeline (construyendo nuestro primer pipeline)
API GATEWAY
KINESIS FIREHOSE
RDS S3
DYNAMODB REDSHIFT
LAMBDA
EMR
GLUE
SNS
EC2 QUICKSIGTH
ELASTIC SEARCH SAGAMAKER
KINESIS ANALYTICS ATHENA
AWS LOT
IAM KMS CLOUD HSM CLOUD WATCH CLOUD TRAIL VPC
KINESIS DATA
STREAMDMS SNOWBALL DATA SYNC
ACCESO Y USODEINTER
F
AZ COLECCI
Ó
N DEDATOS
MI
E
STIÓALMACENA NTOY GE N DEDATOS
URIDSEGAD
PROCESA NTOMI
E
ANÁLISIS VI
S
ALIZ CIÓY U A N DE DATOS
AWS IDENTITY AND ACCESS MANAGEMENT
AMAZON COGNITO
CLOUD FORMATION
PROCESAMIENTO REAL-TIMEProcesamiento de datos real time
¿Streaming, real time, near real time o micro
batch?
Arquitectura general para proyectos real time
Captura de datos desde fuentes real time:
torenta de datos
La importancia de los microservicios
Almacenamiento de baja latencia: HBase
ARQUETIPOS DE INGESTAArquetipo de ingesta de datos batch
Arquetipo de modelamiento de datos
Arquetipo de procesamiento de datos
Tecnologías batch sobre Big Data
Region Servers y metadata
NoSQL: Familias de columnas
Modelamiento de baja latencia basado en keys
Integrando HBase y Hive
SQL sobre HBase: Phoenix
Procesamiento real time con Spark Streaming
Arquetipo de procesamiento real time
Arquetipo enriquecimiento real time
Limitaciones y cómo superarlas
PentaDemy
PentaDemy
EJECUCIÓN DE PROCESOS IN-MEMORY
REAL TIME CON APACHE KAFKA & ANALYTICS CON ELASTICSEARCH Y KIBANA
www.pentademy.com
APACHE KAFKA, PENTAHO Y DEMO DE PROCESAMIENTO EN TIEMPO REAL
¿Qué es Apache Kakfa?
Arquitectura y Despliegue local
Preparando Pentaho Data Integration (PDI)
Proyecto Bancario Demo con Kafka
Acceso a los logs de sitio web bancario
Productores y consumidores de logs con PDI
Consumidores Kafka de múltiples Topics
Demo de procesamiento en tiempo real
extremo a extremo
AWS – AMAZON WEB SERVICES Y KAFKACLÚSTER ELASTICSEARCH Y DASHBOARD CON KIBANA
Analytics en Amazon Web Services
Seguridad y Usuarios en AWS
Clúster Kafka en AWS
Conectando un EC2 para Kafka
Demo de envío y recepción de mensajes con
Pentaho de Orquestador.
Clúster de ElasticSearch en AWS
Dashboard con Kibana
Limpiando recursos en AWS
ON PREMISE –LOCALMENTE KAFKA CLÚSTER ELASTICSEARCH Y DASHBOARD CON KIBANA
Despliegue de ElasticSearch localmente
Despliegue de Kibana localmente
Clúster Kafka localmente
Demo de envío y recepción de mensajes con
Pentaho de Orquestador.
Dashboard con Kibana
Kafka como repositorio temporal de
baja latencia
Tópico, producers y consumers
PentaDemy
PentaDemy
EJECUCIÓN DE PROCESOS IN-MEMORY
IoT CON MOSQUITO / MQTT, SPARK EN AWS
www.pentademy.com
ECLIPSE MOSQUITO - MQTT BROKERDEMO IoT CON PENTAHO BA
¿Qué es Mosquito – MQTT Broker?
Arquitectura y Despliegue local
Preparando Pentaho Data Integration (PDI)
Proyecto de Internet de las cosas IOT
Orquestando datos con Pentaho
DASHBOARD IoT, REAL-TIME
CON PENTAHO CDE
Construyendo Dashboard en tiempo
real con Pentaho
Leyendo datos en tiempo real desde el
Dashboard con Pentaho
Demo completa extremo a extremo
M Ó D U L O 05
PentaDemy
PentaDemy
MACHINE LEARNING SOBRE BIG DATA E INTELIGENCIA ARTIFICIALREDES NEURONALES
PentaDemy
PentaDemy
M Ó D U L O 06
BIG DATA: INGENIERÍA DE DATOS
MACHINE LEARNING SOBRE BIG DATA
www.pentademy.com
MACHINE LEARNING SOBRE BIG DATA
Analítica en el mundo empresarial
Analítica exploratoria
Creando consultas ad_hoc con impala
Compartiendo la metadata del clúster entre
herramientas
Métodos descriptivos sobre Big data
Algoritmos descriptivos disponibles sobre Spark
MLlib
Implementación de KMeans con Spark
Métodos predictivos sobre Big Data
Implementación de un modelo predictivo
Algoritmos predictivos disponibles sobre Spark
MLlib
M Ó D U L O 07REDES NEURONALES & INTELIGENCIA ARTIFICIAL SOBRE BIG DATA
Neuronas y Perceptrones
Keras y Tensorflow
Redes Neuronales para predicción numérica
Funciones de activación
Redes Neuronales para predicción categórica
Procesamiento de procesos matriciales
Extendiendo los recursos computacionales del
clúster: La GPU
PentaDemy
PentaDemy
BIG DATA: INGENIERÍA DE DATOS
REDES NEURONALES & INTELIGENCIA ARTIFICIAL SOBRE BIG DATA - BIG DATA ON CLOUD AZURE | GCP | AWS
www.pentademy.com
BIG DATA ON CLOUD AZURE | GOOGLE CLOUD PLATFORM | AWS
Infraestructura Cloud vs Onpremise
Patrones Big Data Multi-Cloud
Arquitectura Big Data on Hybrid Multi-Cloud
Estrategia de instalación de un clúster
Instalación de un clúster de Big Data
Herramientas de Big Data on Azure
Despliegue de infraestructura Azure
Herramientas de Big Data on AWS
Despliegue de infraestructura sobre AWS
Herramientas de Big Data on GCP
Despliegue de infraestructura sobre GCP
Cálculo y ahorro de presupuesto on Cloud
M Ó D U L O 08 M Ó D U L O 09PROYECTO INTEGRADOR
PentaDemy