presentación de powerpoint · 2018-04-20 · de nuevas técnicas avanzadas de análisis de datos,...
TRANSCRIPT
INTRODUCCIÓN A LA MINERÍA DE DATOS Y EL ANÁLISIS
INTELIGENTE DE DATOS EN EL CONTEXTO EMPRESARIAL.
SAN SALVADOR – 13 DE ABRIL DE 2018
3
Índice
1- ¿Qué es Big Data?
2- Big Data Analytics y Business Intelligence
3- Arquitecturas y herramientas Big Data
4- Implementación de arquitecturas Big Data en Industria 4.0
5- Visualización e interpretación de la información
6- Aplicaciones prácticas del Big Data en la Industria 4.0
Big Data y las 3VsVolumen, Variedad, Velocidad → Veracidad y Valor
5
Size of Data
Spe
ed
, Acc
ura
cy a
nd
Co
mp
lexi
ty o
f In
telli
gen
ce
Big Data analytics
Big Data
Traditional analytics
Advanced analytics
Hablamos de Big Data cuando el volumen de la información a gestionar es susceptible de crecer rápidamente, pudiendo combinar
conjuntos de datos estructurados y no estructurados. Existen determinados umbrales para los cuales, la capacidad de las
herramientas de bases de datos convencionales para almacenar, gestionar, y analizar dicha información no es suficiente.
Volumen
Variedad
Velocidad
Gran cantidad de datos que puede ser específica de cada empresa o pública y privada.
Creación de conjuntos de datos procedentes de
diversas fuentes: videos, audios, emails, sensores…
Velocidad de flujo de entrada de datos, así como velocidad a la que necesita ser almacenado estos datos de movimiento
rápido
Gigabytes Terabytes Petabytes Zetabytes
Small Data Sets
Small Data Sets
Traditional analytics
Big Data
3Vs
La tasa de crecimiento anual prevista es del 41%
6
Necesidad urgente de capacidades de captura de infromación y gestión de almacenamiento
Necesidad urgente de procesamiento y análisis de información para apoyar la toma de desiciones… en tiempo real
- Procesamiento de 12 TB de Tweets para analizar opiniones y mejorar producto- 350 mil millones anuales de lecturas de contadores para predecir el consumo de energía
Implication for an organization
2009 2011 2015 2020
0.8
1.9
7.9
35.0(2009-2020)
41.0%
Zetabytes
2009-2020
Volumen
Velocidad
Variedad
El 80% de los datos son desestructurados
7
La variedad de fuentes de información se ha
incrementado notablemente , los datos recopilados
pueden ser almacenados en formato estructurado,
semi-estructurado y desestructurado.
DatosEstructurados
▪ Datawarehouse, CRM, ERP, Data Marts, Reports OLAP…
▪ Aproximadamente el 10% del total de datos existentes
AudioVideoWeather patternsBlogs
Location co-ordinatesText message
Web logs & clickstreams
RDBMS (e.g., ERP and CRM
Data Warehousing Microsoft Project Plan File
Datos Semiestructurados
▪ Datos etiquetados
▪ Aproximadamente el 10% del total de datos existentes
DatosDesestructurados
Sensor data/ M2M Email Social media
Geospatial data
Introducción
- Datos y fuentes de información heterogéneos
- Procesos analíticos sobre tipos de datos diversos
La necesidad de extraer información relevante de
esos datos ha dado lugar a varias tecnologías. Los
ejemplos incluyen bases de datos NoSQL para
almacenar datos no estructurados, así como los
métodos de procesamiento innovadoras como
Hadoop y el procesamiento paralelo masivo (MPP)
Implicaciones
Soluciones Demandadas
Volumen
Variedad
Velocidad
• No se almacenan en campos de tablas,
• Suponen el 80% de la información golbal
Big Data Analytics en Tiempo Real
8
▪ Big Data se caracteriza por la frecuenciade generación y adquisición de datos.
▪ Nuevos canales de comunicación tales como teléfonos móviles, mensajes de correo electrónico , las redes sociales han incrementado la velocidad de los flujos de información.
Ejemplos:
▪ Sector Telco o Retail diseñando accionesde marketing por posicionamiento o proximidad.
▪ Las imágenes de satélite pueden ayudar a analizar los movimientos de tropas , un plano de inundación , los patrones de nubes , o los incendios forestales.
▪ Los sistemas de análisis de vídeo controlando posibles intrusos y alertar a las autoridades en tiempo real.
Big Data posibilita
Datospor
minuto
600+videos enYouTube 200
millones+ emails
2 millones+
búsquedas
400,000+llamadas
Skype
US$ 300,000+ en ventas
online
700,000+ Mensajes
7,000+ fotos de
flickr
1,500+blog posts
Volumen
Variedad
Velocidad
400,000+tweets
3500+operaciones
en bolsa
Es un grupo de técnicas y herramientas aplicadas en el difícil procesode extracción y presentación del conocimiento implícito,potencialmente útil y comprensible por los humanos, a partir deconjuntos precisos de datos, con el objetivo de predecir tendencias ycomportamientos automáticamente o para diseñar sistemas capaces demodelar dichos datos.
10
¿Qué es el Data Mining?
11
Data
Mining
Preprocesado
Modelado
Evaluación
Filtrado Normalización Selección
de variables
Clasificación
Regresión
Clustering Descripción
Árboles
de decisión
Redes
Neuronales
SVM
Lógica
Fuzzy
K-NN
Regresión
Lineal y
No Lineal
Regresión
Logística
Series
Temporales
K-Means
Jerárquico Fuzzy
C-Means Resúmenes
Lingüísticos
Visualización
Precision
&
Recall
Matriz de
confusión
Curva
ROC
Balanceo
Optimización
Esquema general
Heurísticos Meta-heurísticos
Explotación de técnicas de Data Mining centrada en un análisisdescriptivo que permita la generación de informes y la extracción deinformación implícita en los datos propios de una compañía.
El objetivo principal del Business Intelligence es facilitar la toma dedecisiones con la consecuente ventaja empresarial.
12
Business Intelligence
Size of Data
Big Data analytics
Big Data
Traditional analytics
Advanced analytics
Gigabytes Terabytes Petabytes Zetabytes
Small Data Sets
Small Data Sets
Traditional analytics
Big Data
Spe
ed
, Acc
ura
cy a
nd
Co
mp
lexi
ty o
f In
telli
gen
ce
Big Data Analytics vs Tradicional Analytics
CapacidadesDescriptivas
Big Data Analytics
14
Evolution of analytics
Val
or
apo
rtad
oy
com
ple
jid
ad
In-database analytics (R y SQL-Server)Capacidades analíticas no integradas en BD
Time
Standard reports
Adhoc reports
Alerts
Statistical analysis
Forecast-ing
Predictive modeling
Optimization
Stochastic optimization
Natural Language Processing
Big Data analytics
Complex event processing
CapacidadesPredictivas
CapacidadesPrescriptivas
Basic analytics▪ ¿que sucedió? ▪ ¿cuando sucedió?▪ ¿cuál fue su impacto?
Advanced analytics
▪ ¿Por quésucedió?
▪ ¿cuandosucederá?
▪ ¿causas?
▪ ¿como evitaro activar el evento?
Multivariate statistical analysis
Time series analysis
Behavioral analytics
Data mining
Constraint based BI
Social network analytics
Semantic analytics
Online analytical processing (OLAP)
Extreme SQLVisualization
Analytic database functions
▪ Big Data analytics
▪ aplica cuandoanalizamos Big Data sets
▪ Entre 2011 –2012 surgió el término
Late 1990s 2000 onwards
Query drill
down
Adaptación de las técnicas y herramientas de Data Mining y desarrollode nuevas técnicas avanzadas de análisis de datos, capaces de realizarel proceso de extracción y presentación del conocimiento implícito enlos datos, potencialmente útil y comprensible por los humanos cuando:
• Se dispone de un conjunto ingente de datos.
• Se dispone de datos complejos de distintas características.
• Los datos se generan en tiempo real.
Con el objetivo de predecir tendencias y comportamientosautomáticamente o para diseñar sistemas capaces de modelar dichosdatos.
15
Big Data Analytics
Ecosistema Big Data
17
Origen Datos
Big Data Analytics
Componentes Ecosistema Big Data
Entornos de Desarrollo Analytics
BI & Reports
Aplicaciones(mobile, search, web)
Usuarios finales
Analista dedatos
Big Data
Entorno de Almacenamoiento y
gestión Big Data
Datos no estructurados
(texto, webs, contenidosocial, video etc.)
Datosestructurados
(MPP, RDBMS y DW*)
Data administration tools
- NoSQL- MPP
- RDBMS- DW
NoSQLDatabse
Datos Operacionales
Ges
tió
nd
e d
ato
s&
al
mac
en
amie
nto
An
alyt
ics
& f
ron
t-e
nd
Serv
icio
sIT
(SI,
cust
om
izat
ion
, co
nsu
ltin
g, s
yste
m d
esig
n)
ETL y productos
integraciónde datos
Herramientas del sistema
Gestores de planificación
Input data
Aspectos Clave:
1. Gestión Big Data & Almacenamiento:
• Infraestructuray tecnologías de almacenamiento
2. Big Data Analytics
• Tecnologías y herramientas para analizar los datos y generar insights
3. Aplicaciones Big Data
▪ Aplicaciones de usuariofinal para la toma de desiciones
4. Servicios IT
▪ Integración de sistemas
▪ Consultoría
▪ Gestión de proyectos y parametrización
Componentes Big Data
Analista BI
Desarrolladores
Gestión de tareas: YARN
Almacenamiento: HDFS
Procesamiento básico:
MapReduce
Hadoop surge a partir de dos
papers de Google
Es open-source
Ecosistema clásico para el
almacenamiento y análisis Big
Data
Datos Clave: Módulos
Integración de otros módulos
Es open-source
Permite la realización de
consultas del tipo SQL
mediante la traducción de las
mismas a órdenes MapReduce
Infraestructura de
almacenamiento masivo de
datos estructurados
Forma parte del ecosistema
Hadoop
Su primer desarrollo fue por
Datos Clave:
Acepta la integración de
funciones personalizadas por
el usuario
Es open-source
Alto rendimiento de recepción
y escritura de datos
Asegura la consistencia y la
disponibilidad de los datos
debido al replicamiento
Base de datos NoSQL de
almacenamiento columnar por
clave:valor
Es escalable y distribuida
Desarrollado inicialmente por
Datos Clave:
Es open-source
Tolerancia a caídas en el sistema
Asegura la escalabilidad y la
consistencia de los datos
Base de datos NoSQL de
almacenamiento tabular
mediante documentos JSON
Fácil despliegue
Desarrollado por MongoDB Inc.
Datos Clave:
Permite la realización de
agregaciones en tiempo real
Inyección de los datos en
modelos predictivos en tiempo
real
Inyección de datos en bases de
datos de cualquier índole
(Cassandra, MongoDB)
Lectura de datos de distintos
dispositivos IoT
Plataforma de streaming de
datos distribuida
Muy baja latencia
Desarrollado por LinkedIn
Datos Clave:
Sistema de subscripción a
tópicos y colas
Análisis en tiempo real
API para Scala, Java, Python y R
Integración con Hadoop y Kafka
Lectura de datos de cualquier
base (SQL, Cassandra,
MongoDB)
Estándar en el desarrollo de
modelos machine learning
distribuidos
Alto rendimiento de cálculo
Desarrollado por Berkeley’s
AMPLab, en la Universidad de
California
Datos Clave:
Fácil instalación
Repositorio de
aplicaciones
Dashboard de
monitorización de
recursos
Es open-source
Despliegue
ecosistema hadoop
Dashboard de
mantenimiento del
servidor
Versiones community
y enterprise
Integración de las
interfaces de usuario
de las distintas
aplicaciones
27
Implementación de Arquitecturas Big Data
Reducción del coste
del almacenamiento
de datos Aumento del desarrollo e
implementación de
plataformas Big Data
Opciones de integración de arquitecturas Big Data
Arquitecturas físicas Plataformas Cloud
Gran disponiblidad de
soluciones
open-source
28
Arquitectura física
Servidor especializado:
Solución low-cost
Cluster de ordenadores:
Control total de la plataforma
desarrollada
Mantenimiento de la plataformaSolución física
Configuración totalmente
personalizable
Plataforma en la nube
Coste fijo + coste variable
Escalabilidad automática
Soluciones adaptables
Ejemplo:
Menor control del sistema
desarrollado
Ahorro en el hardwareAlmacenamiento datos en la nube
Mantenimiento por parte del
proveedor
31
Interpretación de los resultados
Informes
Gráficos avanzados
Cuadros de mando
Sistemas de alarmas
HER
RA
MIE
NTA
S
Al trabajar con modelos complejos sus resultados no son fácilmente
interpretables.
Para extraer todo el valor de los datos es necesario disponer de herramientas
que faciliten la interpretación de los mismos
32
Informes
Generación de informes en lenguaje natural que permitan entender la
información disponible
33
Gráficos avanzados
Captura de información no evidente pero implicita en los datos, por ejemplo, el
descubrimiento de relaciones entre los mismos.
36
Actualización en tiempo real de
la información
Gran disponibilidad de gráficos
distintos
Permite la integración de datos
de distintas fuentes y su
integración en un mismo
dashboard
Plataforma de representación
gráfica open-source
Permite la integración de
sistemas de alarmas en los
distintos cuadros de mando
Admite gráficos dinámicos
TAKSON
www.fundacionctic.org [email protected]
Machine Learning
• Regresión lineal
• Árboles de regresión
• Red neuronal
• Lógica difusa
• SVM
Método de comparación Datos complementarios
Plataforma Big Data para Valoración Lógica de Inmuebles (PCTI 2015-2017)
TAKSON
www.fundacionctic.org [email protected]
CLIENTE
PETICIÓN
RESPUESTA
Municipios
Provincias
Catastro
Comparables
Datos Postales
Estadísticas
Estimaciones
SERVIDOR
Plataforma Big Data para Valoración Lógica de Inmuebles (PCTI 2015-2017)
AUDIOMETRIZA
www.fundacionctic.org [email protected]
Creación datos entrenamiento y test: 400 ficheros transcritos podcast a texto (3 h.).
Creación modelo de lenguaje: español, 3-gram, léxico 25.000 palabras, silencios, tonos,
eliminación música, procesado OOVs, disambiguación.
Creación modelo acústico (grafo de 4961 estados): algoritmos monofonema y trifonema (clásicos,
diferentes tratamientos señal acústica, redes neuronales). Librería Kaldi.
Resultados: WER (tasa de error) 60 % (muy alta). Sin diferencias significativas entre métodos.
Pocos datos entrenamiento.
Objetivo módulo reconocimiento de voz
A partir de una señal acústica de radio,
identificación del emisor (canal) y del
interlocutor.
Medición inteligente de audiencias (Retos 2016-2019)
AUDIOMETRIZA
www.fundacionctic.org [email protected]
Datos objetivos:
Algoritmos conversión automática audio-texto requieren gran cantidad de datos para entrenar.
Redes neuronales actuales conversión audio-texto obtienen, para escenarios controlados,
WER = 19-25 %, 300 h. Últimas publicaciones (Vesely et al., 2016).
Radio presenta ruido, varios interlocutores, señales acústicas diferentes frecuencias.
Conclusiones hasta la fecha:
• Método aproximación y estudio para medición (no dar un resultado exacto) de audiencias.
Siempre intervalo de confianza. Aumentar el conjunto de entrenamiento.
Medición inteligente de audiencias (Retos 2016-2019)
SMART LODGING 4 GUEST
Análisis inteligente comportamiento huéspedes hoteles (Innterconecta 2016-2018)
eacons
www.fundacionctic.org [email protected]
ENERCONFORT
Minimización del consumo energético de edificios optimizando
el confort de sus usuarios (Programa Asturias 2016-2017)
www.fundacionctic.org [email protected]
EncuestasClustering
Modelos de confort
Estimación del conforten tiempo real
Sensores Acústico
Lumínico
Térmico
Ergonómico
Calidad del aire
1
2 Optimización de losrecursos y maximización
del confort
Dashboard
ENERCONFORT
Minimización del consumo energético de edificios optimizando
el confort de sus usuarios (Programa Asturias 2016-2017)
www.fundacionctic.org [email protected]
Reflejos en la pantalla del ordenador
Sitio poco íntimo y con mucho tránsito
Poco tranquilo, ruidoso, malas vistas
Conforme con su puesto de trabajo
Mala temperatura
Poca iluminación natural, poca intimidady malas vistas
ENERCONFORT
Minimización del consumo energético de edificios optimizando
el confort de sus usuarios (Programa Asturias 2016-2017)
www.fundacionctic.org [email protected]
EncuestasClustering
Modelos de confort
Estimación del conforten tiempo real
Sensores Acústico
Lumínico
Térmico
Ergonómico
Calidad del aire
1
2 Optimización de losrecursos y maximización
del confort
Dashboard
IDESEC
Identificación automatizada de anomalías de trabajo en espacios confinados
(PCTI 2016-2017)
www.fundacionctic.org [email protected]
FIVE
Formación Industrial mediante tecnologías de realidad
Virtual y sistemas Expertos (Tractores 2016-2019)
www.fundacionctic.org [email protected]
Analizar el proceso de aprendizaje de los alumnos:• Adaptar el contenido a la evolución de cada usuario.• Predecir la probabilidad de certificación y desempeño en entorno real.• Evaluar la calidad de los cursos e identificar puntos de mejora.
ARIAM
Adaptación de FIVE a Soldamatic, un simulador de soldadura
mediante realidad aumentada de la empresa Seabery
www.fundacionctic.org [email protected]
SMART AIR QUALITY
Sistema WoT para medir la calidad del aire en ambientes interiores
(Programa Asturias 2016-2017)
www.fundacionctic.org [email protected]
• Sistema de monitorización inteligente y en tiempo real para hospitales que,mediante algoritmos de inteligencia artificial sea capaz de:o Asesorar y recomendar propuestas de mejora.o Predecir la calidad y polución para realizar acciones preventivas.
• Reutilización del sistema en otros ámbitos de aplicación de forma estandarizada.
VIPASA
Análisis del comportamiento energético de las viviendas gestionadas por VIPASA
(PCTI 2015-2018)
www.fundacionctic.org [email protected]
Sistema de monitorizacióninteligente y en tiempo real delcomportamiento energético deviviendas que, mediantealgoritmos de inteligencia artificialsea capaz de:• Asesorar y recomendar
propuestas de mejora.• Optimizar el consumo
energético de las viviendas.
STRATISTICS
Elaboración e implementación de herramientas de estratificación
de riesgos en pacientes crónicos complejos
(Retos 2016-2018)
www.fundacionctic.org [email protected]
Causas de muerte en el mundo
Pirámide de Kaiser
permanente
STRATISTICS
Elaboración e implementación de herramientas de estratificación
de riesgos en pacientes crónicos complejos
www.fundacionctic.org [email protected]
Segmentación poblacional Predicción de la evolución
INPERIA & INTERA
www.fundacionctic.org [email protected]
Interacción Personalizada mediante Inteligencia Artificial
(Programa Asturias 2016)
INPERIA
• Análisis de comportamiento de individuos
• Generación de promociones personalizadas
INPERIA & INTERA
www.fundacionctic.org [email protected]
Segmentia Server
Plataforma Cloud para la Interacción Personalizada en Tiempo Real
(Programa Asturias 2017)
INPERIA
2016
• Análisis de comportamiento de individuos
• Generación de promociones personalizadas
INTERA
HITO 1
• Plataforma cloud: Segmentia Server
• Segmentación de poblaciones
INTERA
HITO 2
• Canales de comunicación off-line
• Canales de comunicación on-line
INTERA
HITO 3
• Integración del sistema
• Validación del sistema
✓ Unas 100
promociones
cada 15 días
Folleto Cupones
Personalizados
✓ Unas 2M de
promociones
a la semana
INTERA – Mejoras en comercialización, promoción y distribución
INTERA – Mejoras en comercialización, promoción y distribución
Envío de las comunicaciones en tiempo real por distintos canales de
comunicación en función de ciertos criterios de activación
AF4
www.fundacionctic.org [email protected]
Dashboard de monitorización y alarmas
Monitorización y sistema de
alarmas
Aplicaciones de realidad aumentada
Predicción de eventos en tiempo real
AF4
VisiónD4V
WoT
Planta fotovoltaica El molino
Planta de filtrado del sínter
Augmented Factory 4.0 (Innterconecta 2015-2017)
Resumen Casos de uso
AF4 - Introducción
61
Monitorización y predicción de eventos que sirvan como base para el desarrollo
de sistema ciberfísico de realidad aumentada para el apoyo a la toma de
decisiones en tiempo real en industrias de procesos
AF4 - Control y optimización de la producción
62
• Captura y monitorización de los datos de una instalación industrial en tiempo
real.
• Diseño de un dashboard con un sistema de alarmas incorporado que permita
controlar la información y optimizar el proceso productivo.
AF4 – Mantenimiento predictivo
63
• Predicción de parámetros de producción en tiempo real.
• Detección de anomalías que permitan tomar medidas preventivas.
Predicción
Real
SMART WATER
Gestión inteligente del agua en la ciudad inteligente de Gijón
(Convenio de colaboración con la EMA)
www.fundacionctic.org [email protected]
Sistema de monitorización inteligente y en continuo de parámetros del agua potable:• Detectar variaciones significativas.• Analizar correlaciones entre variables.• Predecir incidencias.
SmartWater - Control y optimización de la producción
65
• Sensorización y monitorización de distintos depósitos de agua para el
control de los distintos parámetros de calidad de la misma
• Análisis de los parámetros de calidad del agua para detectar variaciones
significativas que afecten a la calidad del agua.
GIIPS – Simulación de procesos
Simulación de la productividad de distintos campos de placas solares en
distintos emplazamientos.
• Variables discretas
• Variables meteorológicas continuas
Análisis de la
influencia de distintas
variables
• Selección de variables relevantes
• Entrenamiento del modelo
Diseño y desarrollo
del modelo de
simulación
• Validación del modelo previamente entrenado
Validación del modelo de simulación
GIIPS – Simulación de procesos
Análisis de variables relevantes:
Variables metereológicasVariables discretas
GIIPS – Simulación de procesos
Desarrollo de un modelo de simulación de la producción de la planta solar en
función de las variables temporales, de localización y meteorológicas
GIIPS – Simulación de procesos
Validación del modelo de simulación de producción de la planta solar. Uso de
distintas métricas de error.
Smart Grids – Predicción de la demanda
Estudio del consumo energético de una instalación para el desarrollo de un
modelo predictivo de dicho consumo.
Smart Grids – Predicción de la demanda
71
Predicción del consumo a distintas ventanas temporales, tanto horarias como
diarias
SEAPROP – Predicción de la demanda
72
Creación de un sistema de análisis predictivo que sirva como apoyo en la
planificación y optimización de la producción.
Planificación de la producción
Predicción de la demanda
Datos históricos de proceso
Simulación de procesos
Técnicas de optimización
AIDOS
www.fundacionctic.org [email protected]
Fuentes de datos
Analizador de texto
FormulariosRedes sociales Audio
Speech2Text
• Google Speech Recognition
• Microsoft Bing Voice
Recognition
• IBM Speech to Text
• CMU Sphinx
• Kaldi
Acierto 75%
API Twitter y Facebook
Análisis de Información Desestructurada, Opiniones y Sentimientos (Programa Asturias 2016-2017)
AIDOS
www.fundacionctic.org [email protected]
Clasificador de polaridad Clasificador de temática
Diccionarios léxicos
• iSOL
• Sentiment Lexicons in Spanish
• Spanish Emotion Lexicon
• ElhPolar
Acierto 57-58%
Machine learning
• SVM
• Regresión logística multinomial
• Naive-Bayes
• Árboles de decisión
• Polaridad de Turney
Acierto 60-61%
Diccionarios léxicos
Obtenidos a través de la API de Twitter
por cuentas especializadas
Acierto 81-82%
Regresión logística multinomial
Acierto 88%
Analizador de texto
Política Moda
Cine Motor
Tecnología Deportes
Clustering de usuarios
Análisis de usuarios en función de
características localizadas
Análisis de los seguidores en Twitter de
la cuenta oficial de Telecable:
@telecable_AS
Clusters obtenidos en función de:
• Futbolero
• Equipos (Real Madrid vs F.C.
Barcelona vs Atlético de Madrid)
(Real Oviedo vs Sporting de Gijón)
• Cinéfilo
• Quejas
• Otras redes sociales
Análisis de Información Desestructurada, Opiniones y Sentimientos (Programa Asturias 2016-2017)
Francisco Rojo González
+34 984 291 212
www.ctic.es
75
MUCHAS GRACIAS POR PERMITIRME
COMPARTIR CON USTEDES