presentación de powerpoint · 2018-04-20 · de nuevas técnicas avanzadas de análisis de datos,...

75
INTRODUCCIÓN A LA MINERÍA DE DATOS Y EL ANÁLISIS INTELIGENTE DE DATOS EN EL CONTEXTO EMPRESARIAL. SAN SALVADOR – 13 DE ABRIL DE 2018

Upload: others

Post on 12-Mar-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

INTRODUCCIÓN A LA MINERÍA DE DATOS Y EL ANÁLISIS

INTELIGENTE DE DATOS EN EL CONTEXTO EMPRESARIAL.

SAN SALVADOR – 13 DE ABRIL DE 2018

http://www.fundacionctic.org/

3

Índice

1- ¿Qué es Big Data?

2- Big Data Analytics y Business Intelligence

3- Arquitecturas y herramientas Big Data

4- Implementación de arquitecturas Big Data en Industria 4.0

5- Visualización e interpretación de la información

6- Aplicaciones prácticas del Big Data en la Industria 4.0

¿Qué es Big Data?

Big Data y las 3VsVolumen, Variedad, Velocidad → Veracidad y Valor

5

Size of Data

Spe

ed

, Acc

ura

cy a

nd

Co

mp

lexi

ty o

f In

telli

gen

ce

Big Data analytics

Big Data

Traditional analytics

Advanced analytics

Hablamos de Big Data cuando el volumen de la información a gestionar es susceptible de crecer rápidamente, pudiendo combinar

conjuntos de datos estructurados y no estructurados. Existen determinados umbrales para los cuales, la capacidad de las

herramientas de bases de datos convencionales para almacenar, gestionar, y analizar dicha información no es suficiente.

Volumen

Variedad

Velocidad

Gran cantidad de datos que puede ser específica de cada empresa o pública y privada.

Creación de conjuntos de datos procedentes de

diversas fuentes: videos, audios, emails, sensores…

Velocidad de flujo de entrada de datos, así como velocidad a la que necesita ser almacenado estos datos de movimiento

rápido

Gigabytes Terabytes Petabytes Zetabytes

Small Data Sets

Small Data Sets

Traditional analytics

Big Data

3Vs

La tasa de crecimiento anual prevista es del 41%

6

Necesidad urgente de capacidades de captura de infromación y gestión de almacenamiento

Necesidad urgente de procesamiento y análisis de información para apoyar la toma de desiciones… en tiempo real

- Procesamiento de 12 TB de Tweets para analizar opiniones y mejorar producto- 350 mil millones anuales de lecturas de contadores para predecir el consumo de energía

Implication for an organization

2009 2011 2015 2020

0.8

1.9

7.9

35.0(2009-2020)

41.0%

Zetabytes

2009-2020

Volumen

Velocidad

Variedad

El 80% de los datos son desestructurados

7

La variedad de fuentes de información se ha

incrementado notablemente , los datos recopilados

pueden ser almacenados en formato estructurado,

semi-estructurado y desestructurado.

DatosEstructurados

▪ Datawarehouse, CRM, ERP, Data Marts, Reports OLAP…

▪ Aproximadamente el 10% del total de datos existentes

AudioVideoWeather patternsBlogs

Location co-ordinatesText message

Web logs & clickstreams

RDBMS (e.g., ERP and CRM

Data Warehousing Microsoft Project Plan File

Datos Semiestructurados

▪ Datos etiquetados

▪ Aproximadamente el 10% del total de datos existentes

DatosDesestructurados

Sensor data/ M2M Email Social media

Geospatial data

Introducción

- Datos y fuentes de información heterogéneos

- Procesos analíticos sobre tipos de datos diversos

La necesidad de extraer información relevante de

esos datos ha dado lugar a varias tecnologías. Los

ejemplos incluyen bases de datos NoSQL para

almacenar datos no estructurados, así como los

métodos de procesamiento innovadoras como

Hadoop y el procesamiento paralelo masivo (MPP)

Implicaciones

Soluciones Demandadas

Volumen

Variedad

Velocidad

• No se almacenan en campos de tablas,

• Suponen el 80% de la información golbal

Big Data Analytics en Tiempo Real

8

▪ Big Data se caracteriza por la frecuenciade generación y adquisición de datos.

▪ Nuevos canales de comunicación tales como teléfonos móviles, mensajes de correo electrónico , las redes sociales han incrementado la velocidad de los flujos de información.

Ejemplos:

▪ Sector Telco o Retail diseñando accionesde marketing por posicionamiento o proximidad.

▪ Las imágenes de satélite pueden ayudar a analizar los movimientos de tropas , un plano de inundación , los patrones de nubes , o los incendios forestales.

▪ Los sistemas de análisis de vídeo controlando posibles intrusos y alertar a las autoridades en tiempo real.

Big Data posibilita

Datospor

minuto

600+videos enYouTube 200

millones+ emails

2 millones+

búsquedas

Google

400,000+llamadas

Skype

US$ 300,000+ en ventas

online

700,000+ Mensajes

Facebook

7,000+ fotos de

flickr

1,500+blog posts

Volumen

Variedad

Velocidad

400,000+tweets

3500+operaciones

en bolsa

Big Data Analytics y

Business Intelligence

Es un grupo de técnicas y herramientas aplicadas en el difícil procesode extracción y presentación del conocimiento implícito,potencialmente útil y comprensible por los humanos, a partir deconjuntos precisos de datos, con el objetivo de predecir tendencias ycomportamientos automáticamente o para diseñar sistemas capaces demodelar dichos datos.

10

¿Qué es el Data Mining?

11

Data

Mining

Preprocesado

Modelado

Evaluación

Filtrado Normalización Selección

de variables

Clasificación

Regresión

Clustering Descripción

Árboles

de decisión

Redes

Neuronales

SVM

Lógica

Fuzzy

K-NN

Regresión

Lineal y

No Lineal

Regresión

Logística

Series

Temporales

K-Means

Jerárquico Fuzzy

C-Means Resúmenes

Lingüísticos

Visualización

Precision

&

Recall

Matriz de

confusión

Curva

ROC

Balanceo

Optimización

Esquema general

Heurísticos Meta-heurísticos

Explotación de técnicas de Data Mining centrada en un análisisdescriptivo que permita la generación de informes y la extracción deinformación implícita en los datos propios de una compañía.

El objetivo principal del Business Intelligence es facilitar la toma dedecisiones con la consecuente ventaja empresarial.

12

Business Intelligence

Size of Data

Big Data analytics

Big Data

Traditional analytics

Advanced analytics

Gigabytes Terabytes Petabytes Zetabytes

Small Data Sets

Small Data Sets

Traditional analytics

Big Data

Spe

ed

, Acc

ura

cy a

nd

Co

mp

lexi

ty o

f In

telli

gen

ce

Big Data Analytics vs Tradicional Analytics

CapacidadesDescriptivas

Big Data Analytics

14

Evolution of analytics

Val

or

apo

rtad

oy

com

ple

jid

ad

In-database analytics (R y SQL-Server)Capacidades analíticas no integradas en BD

Time

Standard reports

Adhoc reports

Alerts

Statistical analysis

Forecast-ing

Predictive modeling

Optimization

Stochastic optimization

Natural Language Processing

Big Data analytics

Complex event processing

CapacidadesPredictivas

CapacidadesPrescriptivas

Basic analytics▪ ¿que sucedió? ▪ ¿cuando sucedió?▪ ¿cuál fue su impacto?

Advanced analytics

▪ ¿Por quésucedió?

▪ ¿cuandosucederá?

▪ ¿causas?

▪ ¿como evitaro activar el evento?

Multivariate statistical analysis

Time series analysis

Behavioral analytics

Data mining

Constraint based BI

Social network analytics

Semantic analytics

Online analytical processing (OLAP)

Extreme SQLVisualization

Analytic database functions

▪ Big Data analytics

▪ aplica cuandoanalizamos Big Data sets

▪ Entre 2011 –2012 surgió el término

Late 1990s 2000 onwards

Query drill

down

Adaptación de las técnicas y herramientas de Data Mining y desarrollode nuevas técnicas avanzadas de análisis de datos, capaces de realizarel proceso de extracción y presentación del conocimiento implícito enlos datos, potencialmente útil y comprensible por los humanos cuando:

• Se dispone de un conjunto ingente de datos.

• Se dispone de datos complejos de distintas características.

• Los datos se generan en tiempo real.

Con el objetivo de predecir tendencias y comportamientosautomáticamente o para diseñar sistemas capaces de modelar dichosdatos.

15

Big Data Analytics

Arquitecturas y herramientas

Big Data

Ecosistema Big Data

17

Origen Datos

Big Data Analytics

Componentes Ecosistema Big Data

Entornos de Desarrollo Analytics

BI & Reports

Aplicaciones(mobile, search, web)

Usuarios finales

Analista dedatos

Big Data

Entorno de Almacenamoiento y

gestión Big Data

Datos no estructurados

(texto, webs, contenidosocial, video etc.)

Datosestructurados

(MPP, RDBMS y DW*)

Data administration tools

- NoSQL- MPP

- RDBMS- DW

NoSQLDatabse

Datos Operacionales

Ges

tió

nd

e d

ato

s&

al

mac

en

amie

nto

An

alyt

ics

& f

ron

t-e

nd

Serv

icio

sIT

(SI,

cust

om

izat

ion

, co

nsu

ltin

g, s

yste

m d

esig

n)

ETL y productos

integraciónde datos

Herramientas del sistema

Gestores de planificación

Input data

Aspectos Clave:

1. Gestión Big Data & Almacenamiento:

• Infraestructuray tecnologías de almacenamiento

2. Big Data Analytics

• Tecnologías y herramientas para analizar los datos y generar insights

3. Aplicaciones Big Data

▪ Aplicaciones de usuariofinal para la toma de desiciones

4. Servicios IT

▪ Integración de sistemas

▪ Consultoría

▪ Gestión de proyectos y parametrización

Componentes Big Data

Analista BI

Desarrolladores

Gestión de tareas: YARN

Almacenamiento: HDFS

Procesamiento básico:

MapReduce

Hadoop surge a partir de dos

papers de Google

Es open-source

Ecosistema clásico para el

almacenamiento y análisis Big

Data

Datos Clave: Módulos

Integración de otros módulos

Es open-source

Permite la realización de

consultas del tipo SQL

mediante la traducción de las

mismas a órdenes MapReduce

Infraestructura de

almacenamiento masivo de

datos estructurados

Forma parte del ecosistema

Hadoop

Su primer desarrollo fue por

Facebook

Datos Clave:

Acepta la integración de

funciones personalizadas por

el usuario

Es open-source

Alto rendimiento de recepción

y escritura de datos

Asegura la consistencia y la

disponibilidad de los datos

debido al replicamiento

Base de datos NoSQL de

almacenamiento columnar por

clave:valor

Es escalable y distribuida

Desarrollado inicialmente por

Facebook

Datos Clave:

Es open-source

Tolerancia a caídas en el sistema

Asegura la escalabilidad y la

consistencia de los datos

Base de datos NoSQL de

almacenamiento tabular

mediante documentos JSON

Fácil despliegue

Desarrollado por MongoDB Inc.

Datos Clave:

Permite la realización de

agregaciones en tiempo real

Inyección de los datos en

modelos predictivos en tiempo

real

Inyección de datos en bases de

datos de cualquier índole

(Cassandra, MongoDB)

Lectura de datos de distintos

dispositivos IoT

Plataforma de streaming de

datos distribuida

Muy baja latencia

Desarrollado por LinkedIn

Datos Clave:

Sistema de subscripción a

tópicos y colas

Análisis en tiempo real

API para Scala, Java, Python y R

Integración con Hadoop y Kafka

Lectura de datos de cualquier

base (SQL, Cassandra,

MongoDB)

Estándar en el desarrollo de

modelos machine learning

distribuidos

Alto rendimiento de cálculo

Desarrollado por Berkeley’s

AMPLab, en la Universidad de

California

Datos Clave:

Fácil instalación

Repositorio de

aplicaciones

Dashboard de

monitorización de

recursos

Es open-source

Despliegue

ecosistema hadoop

Dashboard de

mantenimiento del

servidor

Versiones community

y enterprise

Integración de las

interfaces de usuario

de las distintas

aplicaciones

Implementación de arquitecturas

Big Data en Industria 4.0

27

Implementación de Arquitecturas Big Data

Reducción del coste

del almacenamiento

de datos Aumento del desarrollo e

implementación de

plataformas Big Data

Opciones de integración de arquitecturas Big Data

Arquitecturas físicas Plataformas Cloud

Gran disponiblidad de

soluciones

open-source

28

Arquitectura física

Servidor especializado:

Solución low-cost

Cluster de ordenadores:

Control total de la plataforma

desarrollada

Mantenimiento de la plataformaSolución física

Configuración totalmente

personalizable

Plataforma en la nube

Coste fijo + coste variable

Escalabilidad automática

Soluciones adaptables

Ejemplo:

Menor control del sistema

desarrollado

Ahorro en el hardwareAlmacenamiento datos en la nube

Mantenimiento por parte del

proveedor

Visualización e interpretación

de la información

31

Interpretación de los resultados

Informes

Gráficos avanzados

Cuadros de mando

Sistemas de alarmas

HER

RA

MIE

NTA

S

Al trabajar con modelos complejos sus resultados no son fácilmente

interpretables.

Para extraer todo el valor de los datos es necesario disponer de herramientas

que faciliten la interpretación de los mismos

32

Informes

Generación de informes en lenguaje natural que permitan entender la

información disponible

33

Gráficos avanzados

Captura de información no evidente pero implicita en los datos, por ejemplo, el

descubrimiento de relaciones entre los mismos.

34

Cuadros de mandos

Estado en tiempo real de la instalación o procesos monitorizados.

35

Sistemas de alarmas

Avisos detallados de posibles anomalías en el sistema

36

Actualización en tiempo real de

la información

Gran disponibilidad de gráficos

distintos

Permite la integración de datos

de distintas fuentes y su

integración en un mismo

dashboard

Plataforma de representación

gráfica open-source

Permite la integración de

sistemas de alarmas en los

distintos cuadros de mando

Admite gráficos dinámicos

Aplicaciones prácticas del

Big Data realizadas en CTIC

TAKSON

www.fundacionctic.org [email protected]

Machine Learning

• Regresión lineal

• Árboles de regresión

• Red neuronal

• Lógica difusa

• SVM

Método de comparación Datos complementarios

Plataforma Big Data para Valoración Lógica de Inmuebles (PCTI 2015-2017)

TAKSON

www.fundacionctic.org [email protected]

CLIENTE

PETICIÓN

RESPUESTA

Municipios

Provincias

Catastro

Comparables

Datos Postales

Estadísticas

Estimaciones

SERVIDOR

Plataforma Big Data para Valoración Lógica de Inmuebles (PCTI 2015-2017)

AUDIOMETRIZA

www.fundacionctic.org [email protected]

Creación datos entrenamiento y test: 400 ficheros transcritos podcast a texto (3 h.).

Creación modelo de lenguaje: español, 3-gram, léxico 25.000 palabras, silencios, tonos,

eliminación música, procesado OOVs, disambiguación.

Creación modelo acústico (grafo de 4961 estados): algoritmos monofonema y trifonema (clásicos,

diferentes tratamientos señal acústica, redes neuronales). Librería Kaldi.

Resultados: WER (tasa de error) 60 % (muy alta). Sin diferencias significativas entre métodos.

Pocos datos entrenamiento.

Objetivo módulo reconocimiento de voz

A partir de una señal acústica de radio,

identificación del emisor (canal) y del

interlocutor.

Medición inteligente de audiencias (Retos 2016-2019)

AUDIOMETRIZA

www.fundacionctic.org [email protected]

Datos objetivos:

Algoritmos conversión automática audio-texto requieren gran cantidad de datos para entrenar.

Redes neuronales actuales conversión audio-texto obtienen, para escenarios controlados,

WER = 19-25 %, 300 h. Últimas publicaciones (Vesely et al., 2016).

Radio presenta ruido, varios interlocutores, señales acústicas diferentes frecuencias.

Conclusiones hasta la fecha:

• Método aproximación y estudio para medición (no dar un resultado exacto) de audiencias.

Siempre intervalo de confianza. Aumentar el conjunto de entrenamiento.

Medición inteligente de audiencias (Retos 2016-2019)

SMART LODGING 4 GUEST

Análisis inteligente comportamiento huéspedes hoteles (Innterconecta 2016-2018)

eacons

www.fundacionctic.org [email protected]

ENERCONFORT

Minimización del consumo energético de edificios optimizando

el confort de sus usuarios (Programa Asturias 2016-2017)

www.fundacionctic.org [email protected]

EncuestasClustering

Modelos de confort

Estimación del conforten tiempo real

Sensores Acústico

Lumínico

Térmico

Ergonómico

Calidad del aire

1

2 Optimización de losrecursos y maximización

del confort

Dashboard

ENERCONFORT

Minimización del consumo energético de edificios optimizando

el confort de sus usuarios (Programa Asturias 2016-2017)

www.fundacionctic.org [email protected]

Reflejos en la pantalla del ordenador

Sitio poco íntimo y con mucho tránsito

Poco tranquilo, ruidoso, malas vistas

Conforme con su puesto de trabajo

Mala temperatura

Poca iluminación natural, poca intimidady malas vistas

ENERCONFORT

Minimización del consumo energético de edificios optimizando

el confort de sus usuarios (Programa Asturias 2016-2017)

www.fundacionctic.org [email protected]

EncuestasClustering

Modelos de confort

Estimación del conforten tiempo real

Sensores Acústico

Lumínico

Térmico

Ergonómico

Calidad del aire

1

2 Optimización de losrecursos y maximización

del confort

Dashboard

IDESEC

Identificación automatizada de anomalías de trabajo en espacios confinados

(PCTI 2016-2017)

www.fundacionctic.org [email protected]

Monitorización de las aceleraciones del operador y creación de un sistema de

alarmas

IDESEC

FIVE

Formación Industrial mediante tecnologías de realidad

Virtual y sistemas Expertos (Tractores 2016-2019)

www.fundacionctic.org [email protected]

Analizar el proceso de aprendizaje de los alumnos:• Adaptar el contenido a la evolución de cada usuario.• Predecir la probabilidad de certificación y desempeño en entorno real.• Evaluar la calidad de los cursos e identificar puntos de mejora.

ARIAM

Adaptación de FIVE a Soldamatic, un simulador de soldadura

mediante realidad aumentada de la empresa Seabery

www.fundacionctic.org [email protected]

SMART AIR QUALITY

Sistema WoT para medir la calidad del aire en ambientes interiores

(Programa Asturias 2016-2017)

www.fundacionctic.org [email protected]

• Sistema de monitorización inteligente y en tiempo real para hospitales que,mediante algoritmos de inteligencia artificial sea capaz de:o Asesorar y recomendar propuestas de mejora.o Predecir la calidad y polución para realizar acciones preventivas.

• Reutilización del sistema en otros ámbitos de aplicación de forma estandarizada.

VIPASA

Análisis del comportamiento energético de las viviendas gestionadas por VIPASA

(PCTI 2015-2018)

www.fundacionctic.org [email protected]

Sistema de monitorizacióninteligente y en tiempo real delcomportamiento energético deviviendas que, mediantealgoritmos de inteligencia artificialsea capaz de:• Asesorar y recomendar

propuestas de mejora.• Optimizar el consumo

energético de las viviendas.

STRATISTICS

Elaboración e implementación de herramientas de estratificación

de riesgos en pacientes crónicos complejos

(Retos 2016-2018)

www.fundacionctic.org [email protected]

Causas de muerte en el mundo

Pirámide de Kaiser

permanente

STRATISTICS

Elaboración e implementación de herramientas de estratificación

de riesgos en pacientes crónicos complejos

www.fundacionctic.org [email protected]

Segmentación poblacional Predicción de la evolución

INPERIA & INTERA

www.fundacionctic.org [email protected]

Interacción Personalizada mediante Inteligencia Artificial

(Programa Asturias 2016)

INPERIA

• Análisis de comportamiento de individuos

• Generación de promociones personalizadas

INPERIA & INTERA

www.fundacionctic.org [email protected]

Venta Cruzada Optimización

INPERIA & INTERA

www.fundacionctic.org [email protected]

Segmentia Server

Plataforma Cloud para la Interacción Personalizada en Tiempo Real

(Programa Asturias 2017)

INPERIA

2016

• Análisis de comportamiento de individuos

• Generación de promociones personalizadas

INTERA

HITO 1

• Plataforma cloud: Segmentia Server

• Segmentación de poblaciones

INTERA

HITO 2

• Canales de comunicación off-line

• Canales de comunicación on-line

INTERA

HITO 3

• Integración del sistema

• Validación del sistema

Arquitectura

INPERIA & INTERA

www.fundacionctic.org [email protected]

✓ Unas 100

promociones

cada 15 días

Folleto Cupones

Personalizados

✓ Unas 2M de

promociones

a la semana

INTERA – Mejoras en comercialización, promoción y distribución

INTERA – Mejoras en comercialización, promoción y distribución

Envío de las comunicaciones en tiempo real por distintos canales de

comunicación en función de ciertos criterios de activación

AF4

www.fundacionctic.org [email protected]

Dashboard de monitorización y alarmas

Monitorización y sistema de

alarmas

Aplicaciones de realidad aumentada

Predicción de eventos en tiempo real

AF4

VisiónD4V

WoT

Planta fotovoltaica El molino

Planta de filtrado del sínter

Augmented Factory 4.0 (Innterconecta 2015-2017)

Resumen Casos de uso

AF4 - Introducción

61

Monitorización y predicción de eventos que sirvan como base para el desarrollo

de sistema ciberfísico de realidad aumentada para el apoyo a la toma de

decisiones en tiempo real en industrias de procesos

AF4 - Control y optimización de la producción

62

• Captura y monitorización de los datos de una instalación industrial en tiempo

real.

• Diseño de un dashboard con un sistema de alarmas incorporado que permita

controlar la información y optimizar el proceso productivo.

AF4 – Mantenimiento predictivo

63

• Predicción de parámetros de producción en tiempo real.

• Detección de anomalías que permitan tomar medidas preventivas.

Predicción

Real

SMART WATER

Gestión inteligente del agua en la ciudad inteligente de Gijón

(Convenio de colaboración con la EMA)

www.fundacionctic.org [email protected]

Sistema de monitorización inteligente y en continuo de parámetros del agua potable:• Detectar variaciones significativas.• Analizar correlaciones entre variables.• Predecir incidencias.

SmartWater - Control y optimización de la producción

65

• Sensorización y monitorización de distintos depósitos de agua para el

control de los distintos parámetros de calidad de la misma

• Análisis de los parámetros de calidad del agua para detectar variaciones

significativas que afecten a la calidad del agua.

GIIPS – Simulación de procesos

Simulación de la productividad de distintos campos de placas solares en

distintos emplazamientos.

• Variables discretas

• Variables meteorológicas continuas

Análisis de la

influencia de distintas

variables

• Selección de variables relevantes

• Entrenamiento del modelo

Diseño y desarrollo

del modelo de

simulación

• Validación del modelo previamente entrenado

Validación del modelo de simulación

GIIPS – Simulación de procesos

Análisis de variables relevantes:

Variables metereológicasVariables discretas

GIIPS – Simulación de procesos

Desarrollo de un modelo de simulación de la producción de la planta solar en

función de las variables temporales, de localización y meteorológicas

GIIPS – Simulación de procesos

Validación del modelo de simulación de producción de la planta solar. Uso de

distintas métricas de error.

Smart Grids – Predicción de la demanda

Estudio del consumo energético de una instalación para el desarrollo de un

modelo predictivo de dicho consumo.

Smart Grids – Predicción de la demanda

71

Predicción del consumo a distintas ventanas temporales, tanto horarias como

diarias

SEAPROP – Predicción de la demanda

72

Creación de un sistema de análisis predictivo que sirva como apoyo en la

planificación y optimización de la producción.

Planificación de la producción

Predicción de la demanda

Datos históricos de proceso

Simulación de procesos

Técnicas de optimización

AIDOS

www.fundacionctic.org [email protected]

Fuentes de datos

Analizador de texto

FormulariosRedes sociales Audio

Speech2Text

• Google Speech Recognition

• Microsoft Bing Voice

Recognition

• IBM Speech to Text

• CMU Sphinx

• Kaldi

Acierto 75%

API Twitter y Facebook

Análisis de Información Desestructurada, Opiniones y Sentimientos (Programa Asturias 2016-2017)

AIDOS

www.fundacionctic.org [email protected]

Clasificador de polaridad Clasificador de temática

Diccionarios léxicos

• iSOL

• Sentiment Lexicons in Spanish

• Spanish Emotion Lexicon

• ElhPolar

Acierto 57-58%

Machine learning

• SVM

• Regresión logística multinomial

• Naive-Bayes

• Árboles de decisión

• Polaridad de Turney

Acierto 60-61%

Diccionarios léxicos

Obtenidos a través de la API de Twitter

por cuentas especializadas

Acierto 81-82%

Regresión logística multinomial

Acierto 88%

Analizador de texto

Política Moda

Cine Motor

Tecnología Deportes

Clustering de usuarios

Análisis de usuarios en función de

características localizadas

Análisis de los seguidores en Twitter de

la cuenta oficial de Telecable:

@telecable_AS

Clusters obtenidos en función de:

• Futbolero

• Equipos (Real Madrid vs F.C.

Barcelona vs Atlético de Madrid)

(Real Oviedo vs Sporting de Gijón)

• Cinéfilo

• Quejas

• Otras redes sociales

Análisis de Información Desestructurada, Opiniones y Sentimientos (Programa Asturias 2016-2017)

Francisco Rojo González

[email protected]

+34 984 291 212

www.ctic.es

75

MUCHAS GRACIAS POR PERMITIRME

COMPARTIR CON USTEDES