big data&data science vfinal

214
1 1 Prof. Luis Joyanes Aguilar BIG DATA & DATA SCIENCE Los pilares del Científico de Datos UNIVERSIDAD TECNOLÓGICA DE PEREIRA Centro de Innovación Tecnológica 20 de agosto, 2015

Upload: luis-joyanes

Post on 13-Apr-2017

821 views

Category:

Technology


0 download

TRANSCRIPT

1 1

Prof. Luis Joyanes Aguilar

BIG DATA & DATA SCIENCE Los pilares del Científico de Datos UNIVERSIDAD TECNOLÓGICA DE PEREIRA Centro de Innovación Tecnológica 20 de agosto, 2015

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Harvard Business Review, octubre 2012

Página –2–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Foreign Affairs, mayo 2013

Página –3–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Revista BBVA, innovation edge, junio 2013

Página –4–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

CONSULTORA GARTNER, mayo 2014 q Según Gartner –similar a otras consultoras como

OBS, Forrester- estima que la inversión en servicios de Big Data será de 132.000 millones de dólares ( 96.000 millones de euros) en 2015, lo que generará unos 4,4 millones de empleos en todo el mundo. Gracias al Big Data el Producto Interno Bruto (PIB) de la Unión Europea crecerá un 1,9% adicional para 2020.

Página –5–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

CONSULTORA GARTNER, mayo 2014

q Por sectores, las mayores inversiones en soluciones de Big Data se harán en:

q Comercio, Industria, Salud, Información y Comunicaciones, Banca y Finanzas, Seguros y Administración Pública.

Página –6–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

CONSULTORA GARTNER, mayo 2014

q A nivel global, el 79% de las empresas creen que Big Data mejorará su toma de decisiones, el 58% cree que será un factor determinante en el éxito y el 36% obtiene ya ventajas competitivas.

q El 29% de las empresas no cuentan con iniciativas alrededor de Big Data, principalmente por temas presupuestarios, conocimientos técnicos sobre la tecnología, no identificación de su ROI y falta de preparación cultural por parte de la empresa.

Página –7–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

UNIÓN EUROPEA, 4 julio 2014 q A cada minuto se genera en el mundo datos por el

equivalente a 360.000 DVD. Como consecuencia de ello, el sector de datos crece un 40% al año, siete veces más rápido que el mercado global de la información y de las comunicaciones: aumentará 16.900 millones de dólares USA en el 2015 y los datos crearán cientos de miles de nuevos puestos de trabajo en Europa.

q Por todo ello, la apuesta por el Big Data por parte del sector público es un fenómeno en aumento… hasta tal punto que la Comisión Europea ha solicitado a los gobiernos nacionales que “abran los ojos ante la revolución del Big Data“.

Página –8–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

UNIÓN EUROPEA, 4 julio 2014

q Neelie Kroes, vicepresidenta de la Comisión y responsable de la Agencia Digital Europea, declaró al respecto que:

q  “ya es hora de que nos centremos en los aspectos positivos de los macrodatos (big data). Estos suenan negativos y alarmantes, pero la mayoría de las veces no lo son. Los líderes necesitan aprovecharlos”.

Página –9–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

UNIÓN EUROPEA, 4 julio 2014 q Esta toma de posicionamiento de la Comisión se concreta en

una comunicación al Parlamento titulada “Hacia una economía de los datos próspera” donde también se establece la definición que las instituciones

europeas de Big Data: q “una gran cantidad de diferentes tipos

de datos producidos a alta velocidad a partir de un gran número de diversos tipos de fuentes”.

Página –10–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

UNIÓN EUROPEA, 4 julio 2014

q “Para manejar los conjuntos de datos muy variables y en tiempo real de hoy en día, se necesitan nuevas herramientas y métodos, como software, algoritmos y procesadores de gran potencia”.

Página –11–

12 12

IETEN Business&Technology School

Prof. Luis Joyanes Aguilar

BIG DATA El universo digital de datos

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

LA ERA DEL PETABYTE -2- . Wired , julio 2008 (www.wired.com)

q 1TB (250.000 canciones)

q 20 TB (fotos “uploaded” a Facebook cada mes)

q 120 TB (todos los datos e imágenes recogidos por el telescopio espacial Hubble) ; 460 TB (todos los datos del tiempo climático en EEUÜ compilados por el National Climatic Data Center); 530 TB (Todos los vídeos de YouTube); 600 TB (base de datos de genealogía, incluye todos los censos de EEUU 1790-2000)

q 1 PB (datos procesados por los servidores de Google cada 75 minutos)

Página –13–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Tabla de unidades de almacenamiento (The Economist, febrero 2010): “data, data everywhere” www.economist.com/specialreports/displaystory.cfm?story_id=15557421

Página –14–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

El universo digital de datos, IDC 2012

Pina –15–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

El universo digital de datos, 2013

Página –16–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

EL UNIVERSO DIGITAL DE DATOS, 2013

Página –17–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

EL UNIVERSO DIGITAL DE DATOS, 2013

q EMC Corporation PUBLICÓ en diciembre de 2013, su estudio anual sobre el Universo Digital de IDC, patrocinado por EMC: “Big Data, Bigger Digital Shadows, and Biggest Growth in the Far East”. El estudio arrojó que, a pesar de la expansión sin precedentes del Universo Digital debido a el Big Data que se generan a diario por personas y máquinas, IDC estima que solo 0,5% de los datos mundiales se analizan.

Página –18–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

EL UNIVERSO DIGITAL DE DATOS, 2013

q La proliferación a nivel mundial de dispositivos, como PC y teléfonos inteligentes, aumentó el acceso a Internet dentro de los mercados emergentes, y el incremento de datos generados por máquinas, como cámaras de vigilancia o contadores inteligentes, ha contribuido a la duplicación del Universo Digital en los últimos dos años solamente, hasta alcanzar un tamaño descomunal de 2,8 ZB. IDC proyecta que, para el 2020, el Universo Digital alcanzará 40 ZB, cifra que supera las proyecciones anteriores en 14%.

Página –19–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

EL UNIVERSO DIGITAL DE DATOS, 2013

q En términos de volumen, 40 ZB de datos son equivalentes a lo siguiente:

q  Existen 700.500.000.000.000.000.000 granos de arena en todas las playas del mundo (o setecientos trillones quinientos mil billones). Esto significa que 40 ZB equivalen a 57 veces la cantidad de granos de arena de todas las playas del mundo. Si pudiéramos guardar los 40 ZB en los discos Blue-ray de la actualidad, el peso de dichos discos (sin fundas ni estuches) sería equivalente a 424 portaaviones Nimitz. En 2020, 40 ZB serán 5.247 GB por persona a nivel mundial.

q Referencia: America Economia: http://tecno.americaeconomia.com/noticias/el-gran-universo-digital-la-data-crece-mas-rapido-de-lo-que-podemos-protegerla

Página –20–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

EL UNIVERSO DIGITAL DE DATOS, 2013

q EMC Corporation PUBLICÓ en diciembre de 2013, su estudio anual sobre el Universo Digital de IDC, patrocinado por EMC: “Big Data, Bigger Digital Shadows, and Biggest Growth in the Far East”. El estudio arrojó que, a pesar de la expansión sin precedentes del Universo Digital debido a el Big Data que se generan a diario por personas y máquinas, IDC estima que solo 0,5% de los datos mundiales se analizan.

Página –21–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

LA AVALANCHA DE DATOS, 2013

q Twitter: (redes sociales) q 90 millones de tuits (tweets) por día que representa 8

Terabytes.

q Boeing: (industria) q Vuelo transoceánico de un jumbo puede generar 640

Terabytes.

q Wal-Mart: (comercio) q 1 millón de transacciones por hora que se estima que

alimenta una base de datos de 2.5 petabytes.

q Google procesa al día 20 PB de información

Página –22–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

EL UNIVERSO DIGITAL DE DATOS, 2015

q  Séptimo estudio de EMC sobre el universo digital. El estudio de este año, titulado El universo digital de las oportunidades: información valiosa y el aumento del valor de la Internet de las cosas, con investigación y análisis de IDC, revela cómo la aparición de las tecnologías inalámbricas, los productos inteligentes y los negocios definidos por software desempeñan un papel fundamental en el crecimiento exponencial de los datos en todo el mundo. Debido, en parte, a Internet de las cosas, el universo digital se duplica cada dos años y se multiplicará por diez entre 2013 y 2020 (de 4,4 zetabyttes a 44 zettabytes)

Página –23–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

EL UNIVERSO DIGITAL DE DATOS, 2015

q Qué comprende la IoT La Internet de las cosas (IoT) comprende miles de millones de objetos cotidianos equipados con identificadores exclusivos y la capacidad de grabar, enviar y recibir datos automáticamente.

q Por ejemplo: un sensor en el calzado que hace un seguimiento de la velocidad de una persona o un puente que hace un seguimiento de las naves de tránsito. Según IDC, la cantidad de dispositivos o cosas que se pueden conectar con la Internet está alcanzando los 200.000 millones hoy en día, con un 7% (o 14.000 millones) ya conectados y comunicándose por Internet.

Página –24–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

EL UNIVERSO DIGITAL DE DATOS, 2015

q Los datos de estos dispositivos conectados representan un 2% de los datos mundiales hoy en día. IDC pronostica que, para el 2020, la cantidad de dispositivos conectados crecerá a 32.000 millones lo que representaría el 10% de los datos mundiales.

q La Internet de las cosas también ejercerá una gran influencia en las gigantescas cantidades de “datos útiles” que se pueden analizar del universo digital.

q En el año 2013, solo el 22% de los datos en el universo digital se consideraron datos útiles, pero menos del 5% de esos datos útiles se analizaron.

Página –25–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Página –26–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

¿Qué sucede en 1´ en INTERNET (2012)

Página –27–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Informe de GP Bullhound, el banco de inversión líder en Europa (2012 vs 2013)

Página –28–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Página –29–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Qué pasa en Internet en sólo un minuto … Universia, 17 mayo 2015 … Día de Internet

q Se realizan 4,19 millones de búsquedas en Google q Se envían 136 millones de correos electrónicos q Se envían 433.000 tuits q Se suben 67.000 fotos a la red q Se descargan 50.200 apps desde la AppStore q Se reproducen 1.3 millones de videos en YouTube q Se escuchan 61.141 horas de música

Página –30–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Qué pasa en Internet en sólo un minuto … Universia, 17 mayo 2015 … Día de Internet

q Se crean 100 nuevas cuentas en LinkedIn q Se envían 44,4 millones de mensajes por

WhatsApp q Se publican 6 artículos en la Wikipedia q Se transfieren 639.800GB de datos

Página –31–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Qué pasa en Internet en sólo un minuto …

Página –32–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

LA AVALANCHA / DILUVIO DE DATOS

q El 90% de los datos acumulados en todo el mundo se han creado en los tres últimos años. Cada día se escriben 400 millones de tuits, cada minuto se crean 600 nuevos blogs y cada segundo se registran 10.000 transacciones de pagos con tarjetas. Objetos cotidianos como los carros, los relojes o las gafas están comenzando a conectarse a Internet para alimentar nuevos servicios que requieren un constante intercambio de información.

Página –33–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

LA AVALANCHA / DILUVIO DE DATOS q Los Ayuntamientos siembran las calles con

sensores de recogida de datos para facilitar la vida de los ciudadanos. Cada día se recogen 2,5 trillones de bytes de datos, y los directivos de las empresas apenas pueden manejar la mitad de los generados en su entorno porque el 80% de ellos están “desestructurados”.

q  El número de dispositivos en red duplicará a la población mundial en 2015 y los datos que generen se convertirán en información utilizada por las empresas para anticipar las necesidades de los consumidores.

Página –34–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

LA AVALANCHA / DILUVIO DE DATOS

q La respuesta para ordenar este caos es big data, la nueva herramienta para sistematizar los datos procedentes de cualquier soporte —incluyendo imagen sonido, fotos, textos…— y convertirlos de forma automática en información.

q Big data ayudó a ganar las elecciones a Barak Obama y ha reducido de días a minutos la detección de uso de información privilegiada en Wall Street

Página –35–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

LA AVALANCHA DE DATOS

q Según Eric Schmidt, presidente ejecutivo de Google, entre el origen de la tierra y el 2003 se crearon cinco exabytes de información. Hoy en día creamos la misma cifra cada dos días2. Las previsiones aseguran que en esta década crearemos alrededor de 35 zettabytes (40 ZB, informe de diciembre de 2012)

q Según la consultora IDC, cifran en 1,8 Zettabytes la información generada en 2011. Si tratáramos de almacenar esa información en iPads (del modelo de 32GB) necesitaríamos 57.500 millones; puestos unos al lado de otro formaríamos una línea que daría 3 veces la vuelta al mundo y, si tratáramos de apilarlos, la “montaña” resultante sería 25 veces más alta que el monte Fuji.

Página –36–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

LA ERA DEL EXABYTE/ZETTABYTE CISCO

q LA ERA DEL EXABYTE, CISCO . Estudio “Cisco Visual Networking Index (VNI) 2007-2012. Tráfico mundial de datos.

q LA ERA DEL ZETTABYTE:Cisco VNI: Forecast and Methodology 2012- 2017. Tráfico mundial de datos (publicado en 2013)

q 

Página –37–

38 38

Prof. Luis Joyanes Aguilar

BIG DATA: Fundamentos

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

MAPA DE ETIQUETAS DE BIG DATA

Página –39–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

EXPANSIÓN, de Wall Street Journal, 1 de abril 2013 (casos de estudio) q UPS

UPS comenzó a instalar sensores en sus vehículos de reparto para conocer su velocidad y ubicación, si el cinturón de seguridad del conductor está abrochado... Al combinar su información de GPS y los datos de sensores sobre rendimiento en más de 46.000 vehículos, UPS recortó 136 millones de kilómetros de sus rutas.

Página –40–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

DEFINICIÓN DE BIG DATA: Gartner q Gartner* define “Big data” como un

conjunto de datos de gran volumen, de gran velocidad y procedente de gran variedad de fuentes de información que demandan formas innovadoras y efectivas de procesar la información

q  www.gartner.com/id=2100215

Página –41–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

DEFINICIÓN DE BIG DATA: Gartner

q “Big Data es la capacidad de analizar grandes volúmenes de datos de diferentes tipos y a gran velocidad, para mejorar los procesos de negocio actuales o crear nuevas áreas de oportunidad”.

Página –42–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

DEFINICIÓN DE BIG DATA: IBM

Página –43–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

DEFINICIÓN DE BIG DATA: IBM (5V-6V)

Página –44–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

DEFINICIÓN DE BIG DATA: IBM

q  VOLUMEN de datos procesados por las empresas ha crecido significativa y exponencialmente.

q Google procesa 20 petabytes al día q En 2020 se esperan 42.000 millones

de pagos electrónicos. q La Bolsa de Nueva York genera UN

terabyte de datos al día q Twitter genera 8 TB

Página –45–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

DEFINICIÓN DE BIG DATA: IBM

q VELOCIDAD. Rapidez con la que se accede a los datos. La velocidad del movimiento, proceso y captura de datos, dentro y fuera de la empresa ha aumentado considerablemente.

q Flujo de datos a alta velocidad.

q eBay se enfrenta al fraude a través de PayPal analizando cinco millones de transacciones en tiempo real al día.

Página –46–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

DEFINICIÓN DE BIG DATA: IBM

q VARIEDAD: Big data es cualquier tipo de dato – estructurado y no estructurado - tales como texto, datos de sensores, datos entre máquinas (M2M), archivos “logs”, audio, vídeo, flujos de clicks, XML, datos en streaming, cotizaciones bursátiles, medios sociales,

Una creciente variedad de datos necesitan ser procesados y convertidos a información

Página –47–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Las dimensiones que se deben considerar al evaluar la viabilidad de una solución de datos grandes

Página –48–

q El valor empresarial de los conocimientos que pueden obtenerse al analizar los datos

q Las consideraciones de gobernanza para los nuevos orígenes de datos y cómo los datos serán utilizados

q Las personas con habilidades relevantes disponibles y el compromiso de los patrocinadores

q El volumen de los datos que se están capturando

q La variedad de orígenes de datos, tipos de datos y formatos de datos

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Gobierno y control de los datos

q La velocidad a la cual los datos son generados, la velocidad con la que se necesita actuar después o el ritmo al que están cambiando

q La veracidad de los datos o, más aún, la incertidumbre o la confiabilidad de los datos

Página –49–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Principales aplicaciones del Big Data ¿Dónde podemos participar los desarrolladores?

q Big Data representa un conjunto de aplicaciones requeridas en distintas facetas. El primer ingrediente es el gran volumen de datos, aderezado con la variedad de datos heterogéneos que puede contener y la necesidad de ser procesados en la mayor velocidad posible

Página –50–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Propiedades fundamentales de Big Data

Página –51–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Gobierno y control de los datos q Considere los siguientes problemas relacionados con el

gobierno en el contexto de su situación: q Seguridad y privacidad— Al mantenerse en línea con

las normativas locales, ¿a qué datos puede acceder la solución? ¿Qué datos pueden ser almacenados? ¿Qué datos deben ser cifrados durante la el movimiento? ¿Y en reposo? ¿A quién se le permite ver los datos en bruto y los conocimientos?

q Estandarización de los datos— ¿Existen estándares que gobiernan los datos? ¿Los datos están en un formato de propietario? ¿Algunos de los datos están en un formato no estándar?

Página –52–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Gobierno y control de los datos

q Plazo durante el cual los datos están disponibles— ¿Los datos están disponibles durante un plazo que permita que se realicen acciones de forma oportuna?

q Propiedad de los datos— ¿A quién pertenecen los datos? ¿La solución tiene acceso y permisos apropiados para utilizar los datos?

q Usos permitidos: ¿Cómo se permite que se utilicen los datos?

Página –53–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Gobierno y control de los datos

q Llamamos Big Data a aplicar técnicas analíticas avanzadas a conjuntos de datos muy grandes y diversos que incluyen diferentes tipos, tales como estructurados y streaming / batch / no estructurada y diferentes tamaños desde terabytes hasta zettabytes.

q  Big Data es un término que se aplica a los conjuntos de datos cuyo tamaño o tipo está más allá de la capacidad de las bases de datos relacionales tradicionales para capturar, gestionar y procesar los datos con baja latencia. Y tiene una o más de las siguientes características: alto volumen, alta velocidad, alta o de variedades.

Página –54–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Gobierno y control de los datos q Los datos pueden venir de sensores, dispositivos de video /

audio, redes, archivos de registro, aplicaciones transaccionales, web y medios sociales. Muchas de estas fuentes generan datos en tiempo real y en gran volúmen.

q El análisis de estos datos permite a analistas, investigadores y usuarios de negocio tomar mejores y más rápidas decisiones a partir de datos que antes eran inaccesibles o inutilizables. Usando técnicas avanzadas de análisis, tales como análisis de texto, aprendizaje automático, análisis predictivo, minería de datos, estadísticas y procesamiento del lenguaje natural, las empresas pueden analizar las fuentes de datos sin explotar, de manera independiente o junto con sus datos de negocio internos para obtener nuevos enfoques a los problemas y poder diseñar nuevos productos.

Página –55–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

GESTIÓN DE DATOS

q Almacenamiento masivo de datos q Contextualizar los datos q Monitorización y seguridad de

aplicaciones q Informes de operaciones:

visualización de datos

Página –56–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Almacenamiento masivo de datos q Para sacar provecho a la inmensa cantidad de datos, el

primer paso es almacenarlos de la forma más eficiente posible. Los conocidos Data Warehouse que han dejado de ser almacenamientos “físicos” en la arquitectura de máquinas de la empresa para salir fuera, a la nube. El motivo es el abaratamiento de costes, pero también la facilidad de acceso. Se requieren expertos en cloud computing para que manejen, por ejemplo, tecnologías como SQL DataWarehouse de Microsoft, RedShift de AWS o soluciones ad-hoc creadas a partir de Cloud Elastic Search.

Página –57–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Contextualizar los datos q La imagen idealizada de Big Data es que a partir de esos

datos vamos a tener datos de "cómo actúan" nuestros usuarios. Para llegar ese “objetivo” necesitamos contextualizar los datos, aplicar lenguajes de análisis de datos utilizando Python o entornos más estadísticos como R para extraer esos datos.

q Debido al gran volumen de datos, estos se tienen que “reducir” utilizando estrategias de MapReduce usando Hadoop, Spark o alternativas desarrolladas por Facebook como Presto

Página –58–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Monitorización y seguridad de aplicaciones q La recolección de datos por medio de trazas, logs o

eventos relevantes de comportamiento ayuda a predecir situaciones anómalas. La monitorización puede permitir detectar picos de uso y actuar en consecuencia, o por el contrario, atenuar cualquier ciberataque.

q Lo fundamental es el uso de herramientas de tiempo real que permitan hacer el seguimiento en tiempo real y lanzar alertas.

Página –59–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Informes de operaciones: visualización de datos

q El Big Data no solo es cosa de desarrolladores. Profesiones, por ejemplo, como los periodistas demandan cada vez más datos de este tipo. Por lo que es necesario desarrollar herramientas de visualizar de datos, tanto para descubrir patrones de comportamiento o para ilustrar la información.

Página –60–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Informes de operaciones: visualización de datos q Después de haber almacenado los datos y contextualizado

las distintas fuentes, el último paso es la visualización de datos. Un reto en el que trabajan muy ligados los estadistas, diseñadores de UX , desarrolladores de realidad virtual y los propios científicos de datos.

Página –61–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Puesta en marcha de un proyecto q 1. Identificación de objetivos y arquitectura q Aunque es cierto que Big Data está de moda, nadie sabe

por dónde empezar. Es por eso que nosotros ayudamos a nuestros clientes a probar con mínimos proyectos viables que van sacando a la luz todo el conocimiento del negocio que nuestros clientes tienen; de esta forma, los clientes aportan su inteligencia de negocio y nosotros la infraestructura técnica necesaria sobre la que montar la lógica de negocio.

Página –62–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Puesta en marcha de un proyecto q 2. Selección de fuentes q Encontramos diferentes fuentes de información para alcanzar

los objetivos propuestos, en colaboración con nuestros clientes. De forma creativa, proponemos y combinamos los mejores conjuntos de datos internos y externos a su organización.

q 3. Análisis de datos q Organizamos y analizamos las bases de datos utilizando las

técnicas idóneas de analítica avanzada para cada caso. Diseñamos soluciones personalizadas para cada compañía, proporcionando herramientas de análisis que permitan tomar las mejores decisiones en su negocio.

Página –63–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Puesta en marcha de un proyecto q 4. Comunicación de resultados q Creamos analíticas y gráficos en dashboards e

informes con el objetivo de la comprensión total por parte del cliente. Los resultados son intuitivos y proporcionan una valiosa síntesis de los hallazgos encontrados. Con la información proporcionada se dota de valor a los grandes volúmenes de datos incluso en tiempo real, y se consiguen resultados que proporcionan impacto en el negocio.

Página –64–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Fuentes de Big Data q Herramientas para análisis de datos en grandes

volúmenes de datos. Infraestructuras de Big Data q Fuentes de Big Data (Soares 2012; Joyanes 2014):

l Web y Social media l Machine-to-Machine (M2M, Internet de

las cosas) l Biometría l Datos de transacciones de grandes datos

(salud, telecomunicaciones…) l Datos generados por las personas

(humanos)

Página –65–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Sunil  Soares  (2003).  Big  Data  Governance  Emerging        

Página –66–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Estructura de Big Data: tipos de datos q Estructurados q No estructurados

l  No estructurados (texto, datos de vídeo, datos de audio,,,) l  Semiestructurados ( a veces se conocen como

“multiestructurados”. Tienen un formato y flujo lógico de modo que pueden ser entendidos pero el formato no es amistoso al usuario(HTML. XML…, datos de web logs)

q Normalmente, se suelen asociar los datos estructurados a los tradicionales y los datos no estructurados a los Big Data

q Objetivo principal de los sistemas de gestión de datos: Integración de datos estructurados y no estructurados

Página –67–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

APLICACIONES DE BIG DATA q Los Gigantes de Internet como Google, Amazon o Facebook

basan su éxito en el valor de los “big data” sin ellos tendrían serias dudas de supervivencia.

q Big data es el nuevo petróleo, oro o maná de la década. IBM, SAP ,Oracle, Cisco… los han sistematizado para adaptarlas a todo tipo de empresas.

q Google comenzó a gestionar Big Data desde su nacimiento en 1998, para indexar sus búsquedas”

q  Big data ha saltado de Internet al mundo real, y las empresas investigan sus aplicaciones para mejorar la gestión, ahorrar consumos o lanzar nuevos servicios.

Página –68–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Página –69–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

APLICACIONES DE BIG DATA

q La central de reservas Amadeus (líneas aéreas) insta a las empresas a que incorporen la herramienta junto con el uso ya creciente de MINERÍA DE DATOS.

q Investigación realizada por el profesor Thomas Davenport, de la escuela de negocios de Harvard, sobre la experiencia de Air France-KLM, Lufthansa, British Airways, Cathay, Eurostar, Hoteles Marriott, aeropuerto de Múnich.

q El informe indica que “las aerolíneas, los aeropuertos, los hoteles, las empresas ferroviarias y los distribuidores de productos turísticos deben plantearse una estrategia big data para situarse a la vanguardia”.

Página –70–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

APLICACIONES DE BIG DATA

q La industria aérea comercial podría ahorrar 30 millones de dólares en 15 años con la recogida de datos realizada por los sensores que GE coloca en los motores de los aviones.

q Trece de las 25 mayores cadenas hoteleras de todo el mundo efectúan ya sus inversiones y sus ofertas comerciales, incluso el color de las paredes de los restaurantes o las habitaciones, cada vez más en función de sofisticados sistemas de análisis de datos de clientes (MINERÍA DE DATOS)

Página –71–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

APLICACIONES DE BIG DATA

q En España, un sistema privado de seguridad, Sanitas ha puesto en marcha un sistema para prevenir enfermedades entre sus 2,3 millones de clientes.

q  “En un año hemos realizado 800.000 contactos a 100.000 clientes para darles consejos o indicarles la conveniencia de hacer pruebas de detección precoz cuando detectamos que por su perfil puede ser conveniente y ofrecer mejores servicios” [Portavoz de Sanitas al periódico El País]

Página –72–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

APLICACIONES DE BIG DATA

q Las farmacéuticas y las aseguradoras de todo el mundo han sumado la fuerza de sus datos para acelerar la investigación contra el cáncer, el alzhéimer y otras lacras de la sociedad.

q “hacer predicciones de comportamientos futuros de pacientes” son grandes ventajas de big data, que puede “mejorarnos la vida hasta límites insospechados”.

Página –73–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

EXPANSIÓN, de Wall Street Journal, 1 de abril 2013 (casos de estudio) q UPS

UPS comenzó a instalar sensores en sus vehículos de reparto para conocer su velocidad y ubicación, si el cinturón de seguridad del conductor está abrochado... Al combinar su información de GPS y los datos de sensores sobre rendimiento en más de 46.000 vehículos, UPS recortó 136 millones de kilómetros de sus rutas.

Página –74–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Oportunidades en Big Data Oportunidad profesional: En 2015, Gartner predice que

4,4 millones de empleos serán creados en torno a big data. (Gartner, 2013)

Fuente: http://www.gartner.com/technology/topics/big-data.jsp

Página –75–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

RETOS Y OPORTUNIDADES

q IDC entiende Big data como un nuevo valor económico basado en la toma de decisiones a partir del análisis de grandes volúmenes de datos procedentes de una amplia variedad de fuentes, desde las aplicaciones empresariales convencionales a los datos móviles, los medios sociales y el Internet de las Cosas, un campo aún incipiente donde en 2020 convivirán 212.000 millones de dispositivos conectados.

q Big data también ofrece riesgos. Fundamentalmente en privacidad y seguridad de los datos. Normas legales de la Unión Europea, sus países miembros, América…

Página –76–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

RETOS Y OPORTUNIDADES q Sus ventajas para el negocio en áreas como la

gestión de las relaciones con el cliente, el desarrollo de nuevos productos, la detección del fraude o la predicción del comportamiento de los consumidores permiten a las compañías obtener resultados financieros un 20% por encima de sus competidores, según estimaciones de Gartner.

q Se entiende así que, una vez superada la fase de evaluación y prueba en la que todavía nos encontramos, la adopción creciente de Big data dispare un mercado que, de acuerdo con la firma de investigación, cerrará 2013 con un volumen de negocio asociado de 34.000 millones de dólares, 6.000 millones más que en 2012.

Página –77–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

RETOS Y OPORTUNIDADES

q Las promesas de Big data alcanzan a prácticamente todos los sectores de actividad, como demuestran las primeras experiencias de éxito emprendidas por organizaciones de finanzas, sanidad, turismo, retail o telecomunicaciones. Y su adopción se irá extendiendo a medida que los responsables TI vayan asumiendo el valor que aportan nuevos frameworks de software como Hadoop y los nuevos sistemas avanzados de almacenamiento, bases de datos, analítica y lenguajes de programación especialmente orientados a los grandes datos.

Página –78–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Integración con Big Data. FUENTE: datalytics.com

Página –79–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Integración con Big Data. FUENTE: datalytics.com

Página –80–

81 81

Prof. Luis Joyanes Aguilar

OPEN DATA: Datos abiertos El Gobierno corporativo abierto

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

OPEN DATA (Datos abiertos)

Página –82–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

OPEN DATA (Datos abiertos) q Las administraciones públicas [de

cualquier organismo nacional e internacional] generan gran cantidad de información en formatos propios de difícil acceso para la mayoría de los ciudadanos.

q Bases de datos, listas, estudios, informes, estadísticas, etc. son datos abiertos (open data) en formatos propios que son de difícil acceso para la mayoría de los ciudadanos.

Página –83–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

OPEN DATA (Datos abiertos) q Evidentemente estos datos se almacenan

normalmente en centros de datos propios de las administraciones que a su vez se almacenan y gestionan en nubes públicas o privadas

q ¿Qué necesitan los profesionales o las empresas para sacar rentabilidad a esos datos públicos? Evidentemente la colaboración de las entidades públicas para liberar cada día más información y crear más oportunidades de negocio

Página –84–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

OPEN DATA (Datos abiertos)

q La administración de Estados Unidos inició la iniciativa Open Data y en paralelo la Unión Europea ha ido adoptando también la iniciativa.

q En España los primeros gobiernos fueron los Gobiernos Autonómicos de El Principado de Asturias y el País Vasco.

Página –85–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

OPEN DATA (Datos abiertos) q La iniciativa del Gobierno Vasco se ha

plasmado en la puesta en funcionamiento de Open Data Euskadi que pretende crear un sitio web donde la información reutilizable (contenidos abiertos) estén al alcance de cualquier ciudadano.

q Un estudio de la UE ya en 2010 estimaba que el mercado de información pública podría generar riqueza por valor de 27.000 millones de euros.

Página –86–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

OPEN DATA EN LATAM… q Colombia. Catálogo de datos abiertos: q  http://www.datos.gov.co/frm/buscador/

frmBuscador.aspx http://www.datos.gov.co/frm/Entidades/frmEntidades.aspx

q Perú l  Portal de Datos Abiertos de la Municipalidad de Lima: http://

lima.datosabiertos.pe/home/ l  Portal de Datos Abiertos: http://www.datosperu.org/

Página –87–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

INICIATIVAS PIONERAS INTERNACIONALES EN OPEN DATA q En España… además de los gobiernos autonómicos

de Asturias, País Vasco y Cataluña, la fundación CTIC ligada al consorcio W3C (www.fundacionctic.org).

http://datos.gob.es/ q En Estados Unidos data.gov, en Gran Bretaña

data.gov.uk. q The Open Data Institute. Tim Berners-Lee: http://

theodi.org/ q En la Unión Europea (Iniciativa OPEN DATA): http://

open-data.europa.eu/es q  En Google (abril 2011, del número 1) la revista de negocios. //

thinkquarterly.co.uk. El número 1 dedicado a OPEN DATA.

Página –88–

89 89

Prof. Luis Joyanes Aguilar

INTERNET DE LAS COSAS

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

INTERNET DE LAS COSAS (OBJETOS)

Página –90–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

MACHINE TO MACHINE (M2M) q Intercambio de información en formato de datos entre

dos puntos remotos, bien a través de red fija o móvil sin interacción humana con características específicas en cuanto a tráfico y tarjetas SIM e integradas en la fabricación de dispositivos

q Automatización de los procesos de comunicación entre máquinas, entre dispositivos móviles (celulares) y máquinas (Mobile to Machine) y entre hombres y máquinas (Man to Machine)

q En 2011 había más de 1.500 millones de dispositivos alrededor del mundo conectados entre sí; 15.000 millones en 2013. Previsiones de Cisco, 25.000 millones para 2015

Página –91–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

INTERNET DE LAS COSAS (OBJETOS)

q Cada día aumenta el número de dispositivos de todo tipo que proporcionan acceso a Internet. Las “cosas” que permiten y van a permitir estos accesos irá aumentando con el tiempo. Ahora ya tenemos videoconsolas, automóviles, trenes, aviones, sensores, aparatos de televisión, … y pronto el acceso se realizará desde los electrodomésticos

Página –92–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

World Wide Web, Internet móvil, cloud computing, INTERNET DE LAS COSAS

q Un mundo en el que miles de millones de objetos informarán de su posición, identidad e historia a través de conexiones inalámbricas … mediante tecnologías RFID, bluetooth, sensores inalámbricos, NFC, tecnologías “wearables”… q  La realización del “Internet de las cosas” , probablemente

requerirá cambios dramáticos en sistemas, arquitecturas y comunicaciones,… Invisible es la descripción de las nuevas

tecnologías empotradas “Computación ubicua”… A medida que avance su penetración:

q  Producirá un CAMBIO SOCIAL, posiblemente, de tanto impacto y tan poco previsible, como las actuales tecnologías Web

Página –93–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

APLICACIONES DE IMPACTO DEL IoT* q Plataforma Satelise de Ferrovial (empresa multinacional

constructora de infraestructuras, líder en España)… Está instalando en los peajes de autopistas una aplicación basada en tecnología satelital (GPS) para el pago de peajes sin barreras y la comunicación entre el conductor y la concesionaria mediante teléfonos inteligentes…. Ofrecerá otros servicios de valor añadido: trayectos de peaje y alternativos, información sobre el estado del tráfico, meteorología o cualquier tipo de incidente… pretende incorporar “comandos de voz” para evitar distracciones del conductor al volante.

q *Actualidad económica, octubre 2013

Página –94–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

VENTAJAS Y RIESGOS DE IoT q VENTAJAS Y OPORTUNIDADES q CISCO, ERICSSON,… prevén que para el año 2020 habrá cerca

de 50 mil millones de dispositivos conectados a Internet, capaces de comunicarse entre sí, desde automóviles, aparatos de consumo en el hogar, teléfonos inteligentes, marcapasos, televisores, carros (coches), ropa inteligente, electrodomésticos, puertas - ventanas de hogares y edificios, PCs, tabletas… Infinitas ventajas

q RIESGOS*… Hackers “maliciosos”, ciberespionaje … * Cibereespionajes, piratas y mafias, El País, febrero 2013 http://elpais.com/elpais/2013/02/19/eps/1361281322_025092.html

Página –95–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

DEFINICIÓN DE IoT DE LA UIT q La definición que da la UIT de Internet de las cosas es

"infraestructura mundial de la sociedad de la información, que ofrece servicios avanzados interconectando cosas (físicas y virtuales) utilizando las tecnologías de la información y la comunicación compatibles existentes y en evolución". La definición fundamental de la UIT, publicada el 4 de julio de 2012, es útil para comprender el concepto y un buen punto de partida para seguir analizando e investigando la Internet de las cosas. Es importante que la UIT señale que la Internet de las cosas es una "visión", no una sola tecnología, y que tiene "consecuencias tecnológicas y sociales".

Página –96–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

NÚMERO DE OBJETOS CONECTADOS q En la Tierra hay muchas más cosas que personas, y el

número de cosas que podrían formar parte de Internet de las cosas varía enormemente según los expertos. No importa la cifra exacta, sólo sabemos que es enorme! Por ejemplo, según estimaciones del Internet Business Solutions Group de Cisco, unos 25.000 millones de dispositivos estarán conectados a Internet en 2015, y 50.000 millones en 2020. Son por ejemplo aparatos móviles, parquímetros, termostatos, monitores cardíacos, neumáticos, carreteras, automóviles, estanterías de supermercados e incluso ganado.

Página –97–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

DEFINICIÓN DE LA UIT DE IoT

q https://itunews.itu.int/Es/4503-Internet-de-las-cosas-Maquinas-empresas-personas-todo.note.aspx

Página –98–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

APLICACIONES DE IOT q El Ministerio de Industria, Energía y Turismo de ESPAÑA

EN ENERO DE 2014 puso en marcha la convocatoria de ayudas para el desarrollo empresarial de proyectos tecnológicos innovadores por una cuantía de 140 millones de euros, de los que 20 millones son subvenciones y 120 préstamos.

q Tras la publicación en el Boletín Oficial del Estado de la resolución de la Secretaría de Estado de Telecomunicaciones y para la Sociedad de la Información, hoy se abre el plazo para solicitar las ayudas dentro del Plan de Investigación Científica y Técnica y de Innovación 2013-2016.

Página –99–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

APLICACIONES DE IOT

q Se financiarán líneas de actuación en infraestructuras de internet del futuro, componentes y sistemas electrónicos, soluciones para el desarrollo de computación en la nube, soluciones TIC Big Data, ciberseguridad y confianza digital, así como a los proyectos internacionales englobados en el programa EUREKA de apoyo a la I+D+i cooperativa en el ámbito europeo.

Página –100–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

APLICACIONES DE IOT

q Entre los servicios que pueden mejorar significativamente se encuentran el suministro y consumo de energía o de agua, el transporte y la movilidad, la seguridad ciudadana y la protección civil, la creación de un entorno favorable para los negocios, el gobierno de la ciudad, la transparencia y participación ciudadanas, el soporte al turismo y al comercio, la gestión de residuos, la gestión del mobiliario urbano, la eficiencia energética de los edificios o la gestión de los aparcamientos.

Página –101–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

APLICACIONES DE IOT

q Otros campos de aplicación: La sanidad, para monitorizar a los pacientes y conectarlos a los médicos y demás profesionales sanitarios; los sectores de la energía y del transporte, para conectar a proveedores y clientes; el sector del retail, para predecir cuándo comprarán los consumidores; las telecomunicaciones y los servicios de información; los servicios financieros; o las fábricas inteligentes. En estos y otros campos es posible encontrar también casos muy concretos de aplicación, como el marketing y la publicidad, la educación, los vehículos o los juegos y el entretenimiento conectados o las redes eléctricas inteligentes, en los que las nuevas posibilidades alcanzan rendimientos máximos.

Página –102–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

COMUNICACIÓN M2M

q La comunicación machine to machine hará posible que los objetos intercambien información, facilitando la toma de decisiones de forma autónoma.

q Habrá un aumento de la productividad de los procesos, debido a los nuevos paradigmas y modelos de negocios generados por el análisis de big data

q Predicciones fiables hablan de que el 65% de los estudiantes que inician hoy sus estudios se dedicarán a trabajos que aún no están inventados

Página –103–

104 104

Prof. Luis Joyanes Aguilar

Smart Cities CIUDADES INTELIGENTES

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

CIUDADES INTELIGENTES (Smart Cities)

q Las smart cities (o ciudades inteligentes) pueden ser un buen ejemplo de lo que es capaz de dar de sí el Internet de las Cosas. En ellas, la combinación de dispositivos, sensores, redes de comunicaciones, capacidad de almacenamiento y de procesamiento y plataformas de gestión hacen posible unas ciudades en la que se prestan servicios de una forma más eficiente y sostenible, mejorando la vida de los ciudadanos, las posibilidades de los negocios y el atractivo de la propia ciudad para conseguir turismo, talento e inversiones

Página –105–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

PRESENTE Y FUTURO DE LA CIUDAD q ¿Qué le parecería vivir en una ciudad con la

que pueda interactuar? Una ciudad que actúe más como un organismo vivo, una ciudad que responda a sus necesidades...

q Alrededor del mundo este tipo de ciudades

ya están siendo construidas, desde Masdar en Abu Dhabi hasta Songdo en Corea del Sur… En España ciudades tradicionales como Málaga, Barcelona, Santander….

Página –106–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

PRESENTE Y FUTURO DE LA CIUDAD

q Ahora bien, la ciudad más cerca de usted podría estar a la espera de una renovación extrema. En el futuro, todo lo que hay en una ciudad, desde la red eléctrica pasando por las tuberías de alcantarillado y hasta las calles, edificios y automóviles estarán conectados a una red.

q Habrá edificios que le apagarán la luz, carros que se manejen solos encontrarán ese tan anhelado espacio de parqueo. Hasta los basureros serán inteligentes.

q Pero, ¿cómo nos preparamos para este futuro inteligente? ¿Quién hará un monitoreo y controlará los sensores que paulatinamente estarán más presentes en cada edificio, poste de luz y tubería? ¿Es ese el futuro que queremos?

Página –107–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

PRESENTE Y FUTURO DE LA CIUDAD

q Los embotellamientos (trancones) son probablemente uno de los principales problemas de las grandes ciudades. A pesar de que gracias a la información disponible se puede predecir dónde pasarán los embotellamientos, lo que no es posible es descongestionar las calles de carros.

q La compañía israelí Waze (adquirida por Google en 2013) le pide a los ciudadanos ayuda para resolver el problema y, con base en los datos de viajes reales enviados masivamente por sus fuentes, crea un mapa de las condiciones en tiempo real.

Página –108–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

PRESENTE Y FUTURO DE LA CIUDAD

q La ciudad de Río de Janeiro puso en marcha una sociedad con Waze en un esfuerzo para adoptar la tecnología a su centro de operaciones.

q Muchas corporaciones que se dedican a la tecnología como IBM, Siemens, Microsoft, Intel y Cisco actualmente tienen una enorme actividad comercializando software para resolver gran cantidad de problemas de las ciudades, desde escapes de agua hasta contaminación del aire y congestión vial.

q En Singapur, Estocolmo y California IBM está recolectando información del tráfico y probándola a través de algoritmos para predecir dónde ocurrirá un embotellamiento una hora antes de que suceda

Página –109–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

PRESENTE Y FUTURO DE LA CIUDAD

q Mientras tanto, Río de Janeiro cuenta con un centro de control al estilo de la NASA donde múltiples pantallas absorben la información generada por sensores y cámaras ubicados alrededor de la ciudad.

q En total, IBM tiene alrededor de 2.500 proyectos alrededor del mundo e, incluso, ha registrado la marca "ciudades más inteligentes" (Smarter Cities).

Página –110–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

PRESENTE Y FUTURO DE LA CIUDAD

q Las ciudades inteligentes necesitarán redes inteligentes en las que todo esté conectado.

q "Necesitamos construir ciudades que se adapten a las necesidades de sus ciudadanos pero antes no era posible porque no había información suficiente"

Página –111–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

CIUDADANÍA DIGITAL versus PRIVACIDAD

q ¿Es una ciudad con sensores una ciudad con censura?

q La primera fase de las ciudades inteligentes puede ser emocionante. La ciudad se convierte en un laboratorio viviente de tecnologías inteligentes que pueden gestionar todos los sistemas: desde el agua, al transporte, la seguridad, la basura, la energía limpia, etc. Pero, ¿en qué punto esta ciudad repleta de sensores puede convertirse en una ciudad que censura? En muchos sentidos, cuando ponemos en común todos los sistemas digitales que están en funcionamiento en una ciudad, tenemos una especie de "llave en mano" hacia una ciudad con censura.

Página –112–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

El Proyecto EPIC de la UE (EU Platform for Inteligent Cities) de Smart City

q Sus definiciones varían ampliamente y van desde el uso discreto de nuevas aplicaciones tecnológicas tales como RFID o la Internet de las cosas (IoT) o el Big Data; a una concepción más holística de inteligencia, integrando el trabajo que está estrechamente relacionado con el concepto de Living Labs y los servicios generados por los usuarios (user-generated services).

Página –113–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

El Proyecto EPIC de la UE (EU Platform for Inteligent Cities) de Smart City

q Mientras que la primera definición es ampliamente utilizada por las empresas TIC de todo tipo y tamaño. La segunda aproximación ha sido generalmente adoptada por la Comisión Europea. Desde principios de 1995, la Comisión Europea ha tratado de mejorar los servicios públicos, las transacciones e interacciones con los ciudadanos y las empresas europeas a través de la financiación y el despliegue de una amplia variedad de iniciativas estratégicas de TIC.

Página –114–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Smart City según Gartner q La consultora Gartner en su Hype Cycle for Smart City

Technologies and Solutions define la Smart City como “una zona urbanizada donde múltiples sectores públicos y privados cooperan para lograr resultados sostenibles a través del análisis de la información contextual intercambiada entre ellos. La interacción de la información procedente de sectores específicos y la que fluye entre diferentes sectores da como resultado ciudades más eficientes desde el punto de vista de los recursos, lo cual permite la provisión de servicios más sostenibles y más transferencia de conocimientos entre los sectores”.

Página –115–

116 116

Prof. Luis Joyanes Aguilar

Tecnologías BIG DATA HADOOP

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Logo de HADOOP

Página –117–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Logo de HADOOP

Página –118–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

BIG DATA (JOYANES)

Página –119–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Hadoop

q “The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using a simple Programming model”

q De la página de Hadoop

Página –120–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Fundación Apache: proyectos open source

q The Apache Software Foundation provides support for the Apache community of open-source software projects, which provide software products for the public good

q The Apache Software Foundation provides support for the Apache community of open-source software projects, which provide software products for the public good

Página –121–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Hadoop en la actualidad q Actualmente Hadoop es un framework muy extendido en

el ámbito empresarial, sobre todo en compañías que manejan grandes volúmenes de datos. Entre las que podemos descarta las siguientes empresas:

q Yahoo: La aplicación Yahoo! Search Webmap está implementado con Hadoop sobre un clúster de mas de 10.000 nodos Linux y la información que produce es la utilizada por el buscador de Yahoo.

q Facebook: Tiene ha día de hoy el mayor clúster Hadoop del mundo que almacena hasta 30 peta bytes de información

q Amazon A9: Se utiliza para la generar índices de búsqueda de los productos ofertados en el portal. Disponen de varios clústeres de entre 1 y 100 nodos

q  cada uno. Página –122–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Hadoop en la actualidad

q The New York Times: Utiliza Hadoop y EC2 (Amazon Elastic Compute Cloud) para convertir 4 Tera bytes de imágenes TIFF en imágenes PNG de 800 K para ser mostradas en la Web en 36 horas.

q Además existen compañías cuyo negocio es principal es Hadoop, como Cloudera, que comercializa CDH (Cloudera's Distribution including Apache Hadoop), que da soporte en la configuración y despliegue de clústeres

q Hadoop. Además proporciona servicios de consultoría y formación en estas tecnología. Todo el software que distribuyen es Open Source.

Página –123–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Distribuciones de Hadoop

Página –124–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Proveedores de Big Data

q Algunos han desarrollado sus propias distribuciones de Hadoop (con diferentes niveles de personalización: disponibilidad, rendimiento, replicas …). Una distribución muy popular

q Otros ejemplos: MapR, Greenplum, Hortonworks, …

Página –125–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

BIG DATA PARA MEJORAR LA SEGURIDAD

Página –126–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

BIG DATA PARA MEJORAR LA SEGURIDAD

q La evolución del panorama de amenazas obligará a mercado a adoptar tecnología analíticas de Big Data para satisfacer las necesidades de detección y rendimiento. Los servicios de reputación de amenazas han demostrado su utilidad para detectar malware, páginas web maliciosas, spam o ataques der red; el siguiente gran paso serán nuevos servicios de reputación que permitan identificar amenazas persistentes avanzadas de manera más rápida y precisa, y la analítica del Big Data tendrá mucho que aportar.

Página –127–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

BIG DATA Y SEGURIDAD

q Big Data y la nube podrían reemplazar a las ‘cajas negras’ de los aviones

q A raíz de la trágica desaparición del vuelo MH370 de Malaysian Airlines el 8 de marzo de 2014, Malasia pidió a ITU que elaborara normas para facilitar la transmisión de datos de vuelo en tiempo real. La solución podría basarse en Big Data y la nube.

q Los datos de las aeronaves, incluidos los de las cajas negras, podrían transmitirse en flujo continuo y almacenarse en centros de datos en tierra. Las tecnologías de Big podrían extraer y analizar esos datos sin necesidad de encontrar las cajas negras.

Página –128–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

BIG DATA Y SEGURIDAD

q Todas las aerolíneas comerciales y los aviones privados están obligados a instalar y utilizar “cajas negras” para registrar diversos parámetros de vuelo. El registrador de datos de vuelo está concebido para grabar los datos operativos de los sistemas del avión, incluida la altitud, la velocidad, la aceleración vertical, el rumbo y la posición de los sistemas de control. El registrador de voz de la cabina de pilotaje graba la voz de la tripulación y los sonidos dentro de la cabina de pilotaje. Estos equipos de control dan a los investigadores datos esenciales sobre las causas de un accidente.

Página –129–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

ANALÍTICA DE BIG DATA

q Big Data y la nube podrían reemplazar a las ‘cajas negras’ de los aviones

q A raíz de la trágica desaparición del vuelo MH370 de Malaysian Airlines el 8 de marzo, Malasia pidió a ITU que elabore normas para facilitar la transmisión de datos de vuelo en tiempo real. La solución podría basarse en Big Data y la nube.

q  “Creemmos que los datos de las aeronaves, incluidos los de las cajas negras, podrían transmitirse en flujo continuo y almacenarse en centros de datos en tierra. Insto a la UIT a trabajar con las empresas privadas para buscar la mejor manera de controlar constantemente los datos de vuelo y lo que ocurre en la cabina de pilotaje. Con los adelantos de las TIC actuales deberíamos poder extraer y analizar esos datos sin necesidad de encontrar las cajas negras”

Página –130–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

ANALÍTICA DE BIG DATA

q Todas las aerolíneas comerciales y los aviones privados están obligados a instalar y utilizar “cajas negras” para registrar diversos parámetros de vuelo. El registrador de datos de vuelo está concebido para grabar los datos operativos de los sistemas del avión, incluida la altitud, la velocidad, la aceleración vertical, el rumbo y la posición de los sistemas de control. El registrador de voz de la cabina de pilotaje graba la voz de la tripulación y los sonidos dentro de la cabina de pilotaje. Estos equipos de control dan a los investigadores datos esenciales sobre las causas de un accidente. “ITU invitará a los fabricantes de aviónica y aviones, así como a los operadores de satélites y las aerolíneas, a trabajar sobre nuevas normas para el rastreo de aeronaves en tiempo real

Página –131–

132 132

Prof. Luis Joyanes Aguilar

CIENCIA DE DATOS (Data Science)

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

CIENCIA DE DATOS (DATA SCIENCE)

Página –133–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

CIENCIA DE DATOS q En los pasados 15 años se han realizado

grandes inversiones en infraestructuras para los negocios, las cuales han mejorado la capacidad de recolección de los datos en la empresa.

q Virtualmente, todos los aspectos de negocios están ahora abiertos a la recolección de datos y normalmente instrumentados para la recolección de los mismos: operaciones, fabricación, gestión de la cadena de suministro, comportamiento del cliente, rendimiento de las campañas de marketing, procedimientos de workflow, etc.

Página –134–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

CIENCIA DE DATOS

q La información está ahora ampliamente disponible en eventos externos de todas las naturalezas: tendencias de mercado, noticias de la industria, movimientos de los competidores, etc.

q Esta amplia disponibilidad de datos ha

conducido al interés crecientes en métodos de extracción de información y conocimiento útiles a partir de los datos: objetivos de la ciencia de datos.

Página –135–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

CIENCIA DE DATOS

q Con las vastas cantidades de datos ahora disponibles, las empresas en casi todas las industrias se centran en la explotación de los datos para conseguir ventajas competitivas.

q En el pasado las empresas empleaban equipos de estadisticos, modeladores y analistas para explorar conjuntos de datos manualmente; pero el volumen, velocidad y variedad de los datos han reducido la capacidad del análisis manual.

q Las técnicas de minería de datos han tomado gran fuerza para la ciencia de datos

Página –136–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

CIENCIA DE DATOS q Ciencia de datos es la extracción de información

útil de grandes volúmenes de datos. La ciencia de datos necesita acceder a los datos, a la ingeniería de datos y a las tecnologías de procesamiento de datos.

q La Ciencia de Datos es una especialización creciente que toca muchos de los siguientes áreas: Computación en nube, big data, matemáticas, estadística, métodos de optimización, teoría de negocios y teoría de ciencias de la computación.

Página –137–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

DISCIPLINAS CLAVE DE DATA SCIENCE

Página –138–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

¿En qué se está usando Data Science? q  . Actualmente en campos como la economía y las

finanzas (modelos predictivos de bolsa, operaciones de alta frecuencia), la medicina (seguimiento y predicción de pandemias, estudios de prevalencia de enfermedades bajo distintas variables), las compañías de transportes (para optimizar rutas aéreas, terrestres, marítimas), compañías alimenticias (seguimiento de popularidad en redes sociales, trazabilidad de las ventas), telecomunicaciones (prevención del fraude, incremento del “rendimiento” de los clientes), retail (incremento de las ventas por conocimiento de hábitos de consumo), etc.

Página –139–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

¿En qué se está usando Data Science? q Las redes sociales, por ejemplo, son uno de los

campos dónde más rápido está creciendo esta disciplina puesto que todas (casi todas) las compañías quieren y necesitan saber a quiénes les gusta sus productos y a quiénes no, lo que opinan de ellos, los perfiles de sus seguidores…

q Estos son sólo algunos ejemplos de uso en algunos campos, pero existen muchísimos más. El potencial y las perspectivas de crecimiento de la ciencia de datos son enormes puesto que los datos no paran de aumentar exponencialmente y en consecuencia la adquisición del conocimiento necesario para la toma de decisiones

Página –140–

141 141

OPORTUNIDADES Y NUEVAS PROFESIONES TECNOLÓGICAS Y DE COMUNICACIÓN DEMANDADAS POR LAS EMPRESAS

Prof. Luis Joyanes Aguilar

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

NECESIDAD DE FORMACIÓN PROFESIONAL AVANZADA EN CLOUD COMPUTING-BIG DATA

q El mercado tiene carencia de especialistas en Cloud Computing y sobre todo en Big Data. Hay miles de puestos que se deberán cubrir en los próximos cinco años según estadísticas fiables de IDC, Gartner, Forrester, McKinsey…

q UNA DE LAS PROFESIONES MÁS DEMANDADAS SERÁ DE ESPECIALISTAS EN CIENCIAS DE DATOS (Científicos de datos) y además ANALISTAS DE DATOS (formados en Analytics y tecnologías Big Data ·Hadoop”, “InMemory”…)

q Se necesitan certificaciones profesionales en CLOUD COMPUTING Y BIG DATA… “TECNOLÓGICAS Y DE NEGOCIOS”

Página –142–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

PROFESIONALES DE BIG DATA q El crecimiento del Big Data ha disparado la

demanda de profesionales especialistas en el análisis de datos.

q El portal de empleo Indeed.com anunció hace unos meses que el número de puestos de trabajo relacionados con el Big Data había crecido en un 15.000% entre los veranos de 2011 y 2012.

q Las predicciones de McKinsey & Company sitúan en torno al 50% la brecha entre demanda y oferta de puestos relacionados con la analítica en EEUU en 2018

Página –143–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

NUEVAS PROFESIONES EN LA ECONOMÍA Y EMPRESA DIGITAL q Algunas de las profesiones o roles más demandados son:

q Profesionales de big data : analistas, ingenieros de datos, consultores…

q Profesionales de ciencia de datos q Profesionales de CIBERSEGURIDAD q Profesionales de INTERNET DE LAS

COSAS y de CIUDADES INTELIGENTES Y DIGITALES.

Página –144–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

NUEVOS ROLES PROFESIONALES

Página –145–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

NUEVOS ROLES PROFESIONALES q En el ámbito de la información las nuevas profesiones que

se van introduciendo en las empresas tienen una estrecha relación con el gestor de datos (data steward), la gestión de datos, la ciencia de los datos y la visualización de los datos. Y los perfiles profesionales que están directamente relacionados con esta nueva gestión de los datos van desde el bibliotecario, el archivista y el gestor de datos hasta el analista, el ingeniero y el periodista de datos

Página –146–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Perfiles necesarios para conseguir aprovechar las nuevas oportunidades del Big Data

q Expertos en Cloud Computing q Expertos en Visualización de datos q Expertos en Data Science q Expertos en Big Data q Expertos en Machine Learning

(Aprendizaje máquina)

Página –147–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Expertos en Cloud Computing q Es necesario contar con profesionales especializados en

Cloud Computing. Ellos serán los encargados de liderar la administración y explotación de las infraestructuras. Las tendencias tecnologías marcan un arquitectura en la nube en sus distintas variantes: IaaS, PaaS o SaaS.

q Las tecnologías más extendidas son Amazon Web Services o Azure de Microsoft, además de plataformas Google Cloud, BlueMix de IBM o Open Stack. Todo ello para poder implementar el orquestador más eficiente a la hora de realizar Continuous Integration y Continuous Delivery

Página –148–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Expertos en Visualización de datos q Engloba dos facetas importantes: la extracción de datos a

través de herramientas como MapReduce, Pentaho, Tableau, etc.. y la aplicación de R sobre esos datos. La visualización corre a cargo de frameworks de visualización como d3.js

q Estos profesionales se encargan de diseñar las visualizaciones, extraer información de grandes volúmenes de datos, aplicar algoritmos complejos de visualización científica, definir qué datos son de interés y aplicarles métricas adecuadas. Además se introduce el componente de realidad aumentada y simulación con los datos extraídos.

Página –149–

Expertos en Visualización de datos

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Expertos en Data Science q Son los “científicos de los datos” y combinan sus

conocimientos de programación con la estadística y las matemáticas. En este punto es necesario recurrir a herramientas que faciliten su trabajo como R y Python combinándolo con las técnicas de almacenamiento de datos (bases de datos NoSQL), tratamiento de datos, análisis, teorías de grafos, técnicas de aprendizaje (machine learning) y, por último enlazar esos datos con la visualización.

Página –150–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Expertos en Big Data q Este perfil es un especialista en uno de los pilares

fundamentales de la gestión de grandes volúmenes de información: el procesamiento masivo de datos previo al análisis. Entre las herramientas más destacadas para realizarlo se encuentran Spark, Hadoop, MapReduce, Hive, Pentaho o AWS Elastic Map Reduce.

q También hay que tener en cuenta la disponibilidad de datos en tiempo real utilizando HBase, Cassandra, Elastic Search, Storm, etc. Combinándolos con técnicas de visualización como D3.js.

q Este es uno de los perfiles más completos a la hora de abordar un puesto de experto

Página –151–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

NUEVAS CARRERAS UNIVERSITARIAS: maestrias,ingeniería, diplomados…

q Community Manager, Social Media Manager y Analista Web y SEO

q Ingeniero de Cloud Computing (En España hay una universidad privada que inició el curso pasado un grado)

q Ingeniero de negocios digitales (Digital Business Intelligence)

q Ingeniero de datos (Infraestructuras, Bases de datos NoSQL, Hadoop, Tecnologías “in-memory”…)

q Analítica de datos (Analytics) y Analítica de Big Data

Página –152–

153 153

Prof. Luis Joyanes Aguilar

EL CIENTÍFICO DE DATOS (Data Scientist)

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

EL CIENTÍFICO DE DATOS

q EL CIENTÍFICO DE DATOS (Data Scientist). Un profesional con formación de Sistemas, Estadística, Analítica, Ciencias Físicas y Biológicas… que analizará los Big Data para la toma de decisiones eficientes y obtener rentabilidad en los negocios.

HBR (Harvard Business Review lo declaró la profesión “MÁS SEXY del siglo XXI”…) octubre de 2012 (Los datos el nuevo petróleo/oro del siglo XXI): Página –154–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

EL CIENTÍFICO DE DATOS

q  Thomas H. Davenport y D.J. Patil, October 2012

q  Harvard Business Review. https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/ar/1

q Thomas H. Davenport is a distinguished professor at Babson College, a research fellow at the MIT Center for Digital Business, and a senior adviser to Deloitte Analytics. He is at work on a book about automation in knowledge work.

q D.J. Patil is the data scientist in residence at Greylock Partners, was formerly the head of data products at LinkedIn, and is the author of Data Jujitsu: The Art of Turning Data into Product (O’Reilly Media, 2012).

Página –155–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

El Gobierno de Estados Unidos nombra un ‘científico de datos jefe’ q El pasado 18 de febrero, la Casa Blanca publicaba una

nota firmada por su Directora de Tecnología Megan Smith, anunciando el fichaje de Patil como nuevo ‘Científico de datos jefe de Estados Unidos’.

q  En la nota se explicaba que “el presidente Obama ha querido dar prioridad a la atracción de talento técnico de primera -como el de DJ- al Gobierno federal para aprovechar el potencial de la tecnología y la innovación y ayudar así al gobierno a servir mejor al pueblo americano”.

q  Recuerda que Patil ya trabajó, antes de incorporarse al sector privado, en dos campos relacionados con su nueva responsabilidad:

Página –156–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

El Gobierno de Estados Unidos nombra un ‘científico de datos jefe’ q El objetivo del fichaje de DJ Patil es, en palabras de Megan

Smith, que éste pueda ayudar a diseñar las políticas que posibiliten que Estados Unidos siga siendo líder en materia de tecnología e innovación, que maximicen el retorno a la sociedad de su inversión en datos, y que posibiliten retener a las mejores mentes de la ciencia de datos, y a conseguir que se incoporen al servicio público. Patil también trabajará en la ‘Precision Medicine Initiative’, destinada a hacer uso de las mejoras en sanidad y ciencia de datos para proporcionar a los médicos nuevas herramientas, terapias y conocimientos para saber qué tratamientos funcionarán mejor con cada paciente, al tiempo que protege la privacidad del mismo.

Página –157–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

La profesión de científico de datos q Esta profesión resulta vital para que las organizaciones

puedan analizar y gestionar sus datos para la toma de mejores decisiones de negocio.

q  El deseo de ser científico de datos es una tendencia que se expande rápidamente por el mundo. Estados Unidos abandera el liderazgo, Europa y España, ya comenzaron en 2014 y continuan en 2015. Latinoamérica y Colombina en particular han comenzado a participar en esta carrera. tecnología.

q El uso de científicos de datos es un hecho contrastado en las más grandes y reconocidas organizaciones: Google, Netflix, Facebook, Youtube, Twitter, Square, NBC, Dow Jones…

q  Página –158–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

“Científico de datos es la profesión #1 para el año 2015” q Glassdoor, consultora de referencia en EE.UU. Publicó a

primeros de 2015 un estudio de salarios y destacaba que el salario promedio de un científico de datos es U$118.709 contra U$64.537 de un programador. Un estudio de McKinsey predice que para el 2018, los EE.UU. podrían enfrentar una escasez de 140.000 a 190.000 “personas con profundas habilidades analíticas”, así como 1,5 millones de “gestores y analistas con el know-how de utilizar el análisis de grandes datos para tomar decisiones efectivas”.

Página –159–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

OFERTAS DE EMPLEO q Según la consultora de analítica empresarial SAS,

Colombia, Brasil, México y Ecuador serán las principales sedes de creación de científicos de datos. Las empresas latinoamericanas -pequeñas o grandes-, si esperan crecer deberán contar, de aquí a dos años, con al menos un científico de datos. Portales de empleo como SimplyHired.Com y LinkedIn, han estimado un sueldo mensual de entre 7000 y 10.000 dólares.

q Se estima que en los próximos 5 años, en América Latina se suplan unas 300.000 vacantes, representando un 7.5% de la demanda actual de estos profesionales.

Página –160–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Una OFERTA MODELO DE TRABAJO

Una oferta de trabajo actual…

Página –161–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

LOS PROFESIONALES MÁS BUSCADOS q Necesidad de especialistas en:

l Cloud Computing l Big Data l Software SaaS l Aplicaciones para móviles y tabletas l Programadores para apps móviles l Consultores de herramientas de business

intelligence y analytics (analítica de datos / analítica de negocios)

Página –162–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

LOS PROFESIONALES MÁS BUSCADOS

q Analistas de Big Data q Científicos de datos (data scientist) q CDO (Chief Data Officer) q SEO (Optimización de motores de búsqueda q CTO (Chief Technology Officer) q Analistas de datos M2M/Internet de las

cosas

Página –163–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

¿Qué puede hacer un científico de datos? q Aunque un científico de datos aporte grandes ventajas en

temas puntuales en una organización. Su impacto suele trascender a las más altas esferas y círculos de decisión. No solo es el pilar desde el que una empresa construye una estrategia exitosa de negocios basada en la analítica de alto desempeño, sino que también se ha constituido en el principal colaborador de los directores para llevarlos a tomar mejores decisiones empresariales. Estos son algunos de los aportes específicos que pueden hacer los científicos de datos en una organización: q  http://www.vanguardia.com/mundo/tecnologia/308034-

colombia-uno-de-los-paises-que-mas-cientificos-de-datos-tendra

q  Página –164–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

¿Qué puede hacer un científico de datos?

q 1. Predecir el futuro. Un científico de datos visualiza y analiza los datos para predecir lo que puede llegar a pasar en un mercado ante una decisión de la empresa o de sus competidores.

q 2. Ayudar a tomar mejores decisiones. Los análisis predictivos de un científico de datos pueden ayudar a un gerente o presidente de compañía a saber cuándo debe abrir una nueva operación, qué mercado le puede convenir y en qué momento debe hacerlo, entre muchas otras decisiones

Página –165–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

¿Qué puede hacer un científico de datos?

q 3. Encaminar los planes de mercadeo. Lanzar un nuevo producto o crear una promoción es una decisión que se suele tomar con base en la intuición o lo que ha funcionado en el pasado. Un científico de datos no solo recurre al pasado (la inteligencia de negocios) sino que anticipa el futuro a través del poder predictivo de la analítica de negocios.

Página –166–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

¿Qué puede hacer un científico de datos?

q 4. Ayudar a mejorar los niveles de servicio o atención a ciudadanos. En una empresa o una entidad pública, saber a ciencia cierta qué quieren los clientes o ciudadanos es el primer paso para elevar los niveles de satisfacción. En el caso, por ejemplo, de DJ Patil, el primer científico de datos de la Casa Blanca, una de sus principales funciones será la de utilizar los datos como vía para que el Gobierno pueda ofrecer a los ciudadanos tratamientos de salud cada vez más personalizados, desarrollando herramientas clave para ponerlas a disposición de médicos y hospitales en todo Estados Unidos.

q 

Página –167–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

¿Qué hace un científico de datos? q El científico de datos, una de las profesiones mejor

remuneradas en el mundo de la tecnología, es un individuo especializado en:

q Matemáticas y estadística que muestra un dominio fluido de la programación y las ciencias informáticas o de computación, así como una gran capacidad analítica.

Página –168–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Científico de datos, la profesión del futuro en Colombiahttp://www.rcnradio.com/tecnologia/cientifico-de-datos-la-profesion-del-futuro-en-colombia/

q El propósito de un científico de datos es,

básicamente, tomar la enorme cantidad de información que proporciona el Big Data, procesarla y comunicarla de manera que le sea útil a las empresas, haciendo que tomen mejores decisiones de negocio.

Página –169–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

FORMACIÓN DE LA PLANTILLA

q Un estudio de MIT Sloan Management Review señala que para que una empresa sea competente en este ámbito no basta con contratar a expertos en datos (matemáticos, estadísticos o ingenieros de datos), sino formar al conjunto de la plantilla para que todos los departamentos entiendan qué es el big data y de qué forma puede ayudar a transformar y optimizar los resultados. Para ello recomienda:

Página –170–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

FORMACIÓN DE LA PLANTILLA

q Buscar talento analítico dentro de la empresa. El 63% de las compañías encuestadas está buscando perfiles dentro de sus plantillas a los que les interese el big data. La razón es sencilla: los empleados conocen los entresijos del negocio y es necesario formarlos para que trabajen conjuntamente con los matemáticos o estadísticos. “Se trata de identificar a trabajadores a los que les interese analizar los datos y ponerlos en valor para que luego puedan diseñar acciones concretas para mejorar los resultados”, indica el informe.

Página –171–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

FORMACIÓN DE LA PLANTILLA

q A la hora de fichar a data scientist todas las empresas se encuentran con el mismo problema; la escasez en el mercado de estos profesionales. El hecho de poner en marcha programas formativos tendrá otra consecuencia positiva: la empresa tendrá el doble de posibilidades de atraer a estos perfiles, señala el informe. “Normalmente los científicos de datos prefieren ir a compañías donde el big data es parte esencial de la estrategia”, indica

Página –172–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

FORMACIÓN DE LA PLANTILLA

q Integrar a los científicos de datos. Las empresas encuestadas ponen más esfuerzos en formar a sus gestores en big data (49%) que en conseguir que sus científicos de datos entiendan mejor cómo funciona el negocio (34%). Error. “Ambos deben acercar posiciones y entender la importancia del otro lado”, asegura Meco. “A los científicos de datos no les enseñan en la universidad formas efectivas de comunicar la utilidad de los datos a los diferentes departamentos de una empresa, ponen el foco en aspectos técnicos. Por ello es la propia compañía la que debe asegurar que haya comunicación y que los estadísticos no trabajen de forma aislada”, añade

Página –173–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

FORMACIÓN DE LA PLANTILLA

q Además de saber interpretar los datos externos a las compañías, es imprescindible saber analizar los propios y ser capaz de predecir posibles cambios para reaccionar a tiempo.

q Ejemplo de ello es el Hospital La Fé de Valencia, el primero que ha implantado modelos predictivos a partir del big data. Este centro hospitalario está utilizando un programa de visual analytics de la empresa SAS para mejorar la asistencia a pacientes crónicos. “Han analizado durante un año factores como la periodicidad con la que los pacientes acuden al hospital solicitando un ingreso o durante qué semanas de la enfermedad suelen agravarse los síntomas. De ahí han extraído patrones y ahora son capaces de programar con antelación tanto el ingreso de nuevos pacientes como las recomendaciones médicas pertinentes según avanza la patología”

Página –174–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

FORMACIÓN DE LA PLANTILLA

q Otro caso es el de la compañía de seguros Caser. Fundada en 1942, dio un giro a su cultura empresarial hace cuatro años para integrar el big data en la toma de decisiones. De un departamento formado por 12 expertos en datos que trabajaban “aislados” elaborando informes, se pasó a un equipo de 21 miembros que se integraron en diferentes departamentos con el rol claro de analistas de datos. Además, los 1.200 empleados de la sede de Madrid recibieron formación para aprender a valorar e interpretar los gráficos de datos. “No basta con contratar a un par de matemáticos.

Página –175–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

FORMACIÓN DE LA PLANTILLA

q Desde que el big data es parte esencial en su toma de decisiones han conseguido reducir un 4,2% la cancelación de seguros de salud de clientes “de alto valor”, y un 2% la de seguros del hogar. “El análisis de datos nos permite identificar patrones de comportamiento de los clientes que nos abandonan y diseñar acciones a través del departamento de marketing para anticiparnos a esa decisión y ofrecer incentivos como una cuota mensual gratis”. Ahora saben que cuando un cliente pinta todo el coche hay muchas probabilidades de que lo quiera vender y, por lo tanto, cancelar el seguro. Rápidamente ponen a funcionar la maquinaria y les ofrecen algún tipo de descuento

Página –176–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

FORMACIÓN DE LA PLANTILLA

q En estos casos podemos resaltar la figura del Científico o Analista de Datos como perfil esencial para el desarrollo de soluciones de análisis que extraigan valor de los datos. Además de este cargo, es necesario introducir otros roles que se encarguen de la infraestructura y arquitectura de la solución, así como de la generación de nuevas oportunidades de servicios basado de Analytics entre otros

Página –177–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Las categorías de “científico de datos”: q 1 – Expertos en estadística: desarrollan nuevas teorías

estadísticas para Big Data, que a veces los estadísticos tradicionales ni siquiera entienden. Son expertos en modelos estadísticos, diseño experimental, muestreo, agrupación, reducción de datos, intervalos de confianza, pruebas, modelado, modelos predictivos y otras técnicas relacionadas.

q 2 – Expertos en matemáticas: la NSA o gente que trabaja en temas de Big Data en defensa, astrónomos y personal de investigación que se encarga de la optimización analítica del negocio (gestión de inventario, optimización de precios, cadena de suministro, control de calidad, optimización de rendimiento) de manera que se encarguen de recoger, analizar y extraer valor de los datos.

Página –178–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Las categorías de “científico de datos”:

q 3 – Expertos en ingeniería de datos, Hadoop, optimización y arquitectura de base de datos/ memoria/ sistemas de archivos, API, analytics como servicio, optimización de flujo de datos y ‘data plumbing’.

q 4 – Expertos en el aprendizaje científico o máquina (learning machine), ciencias de la computación (algoritmos, complejidad computacional).

Página –179–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Las categorías de “científico de datos”:

q 5 – Expertos en el negocio, la optimización del ROI, ciencias de la decisión, o los que participan en tareas que tradicionalmente realizan analistas de negocio en grandes empresas (diseño dashboards, selección de combinación métrica y definición métrica, optimización del ROI, diseño de bases de datos de alto nivel).

q 6 – Expertos en desarrollo de producción de código e ingeniería de software (conocimiento de los lenguajes de programación).

q 7 – Expertos en visualización. q 8 – Expertos en GIS, datos espaciales, datos modelados

por gráficos y bases de datos gráficas

Página –180–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Las categorías de “científico de datos”:

q Gracias al Big Data, surge la figura del científico de datos, encargado de buscar nuevas fuentes de información, normalizar de forma automatizada la información que encuentre y procesar una enorme cantidad de datos que permitirán obtener una información final mucho más fiable, así como también analizar nuevas perspectivas que antes era simplemente imposible analizar, principalmente por el coste y tiempo que supondría.

Página –181–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Conocimientos específicos del CD (DS)

q Un científico de datos debe poseer: 1. Matemáticas / estadística. 2. Avanzados conocimientos de programación en diferentes lenguajes (Java, JavaScript, C/C++, Python, R, PHP…)

Otras herramientas Open Source: Hadoop, Spark , Scala q 3. Computación q 4. Analítica q 5. Conocimiento de un dominio de negocio.

Página –182–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Conocimientos específicos del CD (DS)

q Por ello, ha destacado que lo que se busca ahora es profesionales con un perfil “más horizontal”, es decir, lo que ahora se llama ingenieros full-stack, porque puedan desarrollar en PHP, en Python, en HTML…

q Y esto debe complementarse con una base matemática, con el objetivo de que “sepan y puedan entender códigos matemáticos, algoritmos”, e incluso tener conocimientos de negocio “para poder entender el porqué de los servicios que pueden ofrecerse con los datos”.

Página –183–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Conocimientos específicos del CD (DS)

q Las nuevas tecnologías y el desarrollo del big data necesitan de profesionales con habilidades en campos como informática, matemáticas, estadística, negocios, analítica, ciencias de la computación, que dominen la programación y sus diferentes lenguajes. Estos profesionales son los científicos de datos, y son clave para el mundo en el que vivimos y es considerada la profesión del futuro.

Página –184–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Conocimientos específicos del CD (DS)

q Matemáticas y Estadística, pero además se precisa de diversos conocimientos tecnológicos:

q Bases de datos relacionales, SQL q Bases de datos no relacionales NoSQL... “en

memoria (in-memory)… q Lenguajes de programación: R, Python q Machine Learning q Programación de altas prestaciones,

programación distribuida, Hadoop…

Página –185–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

¿Qué diferencia a un científico de datos de un analista de datos tradicional? q A diferencia de un analista de datos tradicional, que suele mirar los datos obtenidos de una única fuente (un CRM por ejemplo), un científico de datos no sólo podrá extraer y examinar los datos de múltiples fuentes (Google Analytics, CRMs, páginas web, logs de aplicaciones, etc), sino que además deberá tener una fuerte visión de negocio.

q Su trabajo consiste en obtener las respuestas para las preguntas o problemas de negocio que se planteen en la empresa, busca los orígenes de datos disponibles, extrae los que son relevantes y los examina. De su examen obtendrá “el conocimiento”, lo que proporcionará una ventaja competitiva a la empresa, siendo además capaz de extraer y transmitir recomendaciones a los responsables de negocio de la empresa.

Página –186–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

¿Qué habilidades son recomendables que tenga un científico de datos?

q Como ya hemos indicado, el científico de datos debe responder a cuestiones de negocio basadas en los datos y ser capaz de presentarlas de modo efectivo. Por tanto un científico de datos deberá tener diferentes habilidades y en campos muy distintos:

Página –187–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Habilidades científicas q Que le permitan responder a las cuestiones planteadas.

¿Qué proceso seguirá para responder a esas cuestiones? q Extraer los datos, independientemente de su fuente

(webs, .csv, logs, apis, etc) y de su volumen (Big Data o Small Data).

q Limpiar los datos, para eliminar aquello que distorsiona los mismos.

q Procesar los datos usando diferentes métodos estadísticos (inferencia estadística, modelos de regresión, pruebas de hipótesis, etc.).

q Diseñar nuevos test o experimentos en caso necesario. q Visualizar y presentar gráficamente los datos.

Página –188–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Habilidades tecnológico/matemático

q A nivel informático: deberá ser capaz de programar en R y/o Python para la extracción y limpieza de los datos. Además R dispone de diferentes paquetes estadísticos que facilitan el análisis y presentación de los datos. Complementarios:

conocimientos de bases de datos SQL y NoSQL (Cassandra), Hadoop, Mapreduce, Hive y Pig q A nivel matemático/estadístico: modelado estadístico,

inferencia estadística, diseño de test, y si queremos ir un paso más allá, aprendizajes supervisados y no supervisados y machine learning.

q Para presentación/visualización de los datos: existen infinidad de herramientas, desde el clásico PowerPoint, pasando por Tableau, Prezi y otras muchas.

Página –189–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Habilidades sociales y de negocio

q Habilidades “sociales” q Que le permitan presentar las conclusiones obtenidas de

manera exitosa a cualquier “nivel” de la organización. Deberá ser por tanto un buen comunicador capaz de empatizar con la audiencia.

q Habilidades de “negocio” q Deberá ser un apasionado del negocio y sus datos,

conocer bien la empresa, sus objetivos, necesidades, preocupaciones y motivaciones y, por supuesto, conocer la competencia. Todo ello le proporcionará el contexto adecuado en el que interpretar los datos.

Página –190–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

La caja de herramientas del científico de datos q La Ciencia de Datos se erige en nuestros días como una

profesión multidisciplinar. q La Ciencia del Dato se erige en nuestros días como una

profesión multidisciplinar en la cual conocimientos técnicos de diversas áreas se solapan formando un perfil más propio del Renacimiento que del superespecializado Siglo XXI.

q Dada la escasez de formación estructurada en la materia, los científicos de datos se ven obligados a ir coleccionando conocimientos, habilidades y herramientas que les permitan desarrollar de forma óptima sus competencias.

Página –191–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

CAJA DE HERRAMIENTAS DEL CIENTÍFICO DE DATOS

Página –192–

q La primera pregunta que surge es qué se utiliza más, si las herramientas open source o software propietario. Según la 16ª encuesta de KDnuggets, la mayoría de los científicos, un 64% utilizan ambas

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

CAJA DE HERRAMIENTAS DEL CIENTÍFICO DE DATOS

Página –193–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

KDnuggets: Las 10 herramientas más utilizadas son: www.kdnuggets

q R, lenguaje de programación y entorno de software de código abierto para programación estadística y entornos gráficos. Es la más utilizada entre científicos y mineros de datos lo que implica la existencia de múltiples librerías y paquetes fácilmente reutilizables.

Página –194–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

KDnuggets: Las 10 herramientas más utilizadas son: q RapidMiner, antiguamente llamada YALE, (Yet Another

Learning Environment) es un programa informático para el análisis y minería de datos. Permite el desarrollo de procesos analíticos a través de un entorno gráfico. Proporciona más de 500 operadores orientados al análisis de datos, incluyendo los necesarios para realizar operaciones de entrada y salida, pre-procesamiento y visualización. También permite utilizar los algoritmos incluidos en Weka.

q SQL, (Structured Query Language) es un lenguaje de acceso a bases de datos Una de sus características es el manejo del álgebra y el cálculo relacional

Página –195–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

KDnuggets: Las 10 herramientas más utilizadas son: q Python, un lenguaje de programación interpretado cuya

filosofía hace hincapié en una sintaxis que favorezca un código legible. Soporta programación, orientada a objetos, imperativa (instrucciones que le indican al computador cómo realizar una tarea) y funcional. Es multiplataforma.

q Excel q KNIM (o Konstanz Information Miner) es una plataforma

de minería de datos que permite el desarrollo de modelos en un entorno visual. Está construido bajo la plataforma Eclipse.

Página –196–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

KDnuggets: Las 10 herramientas más utilizadas son:

q Hadoop, de momento, considerado el framework estándar para almacenamiento y

q Tableau, centrada en la visualización de datos.

q SAS, herramienta líder en el mercado de Business Intelligence.

q Spark, es un framework de desarrollo, que incorpora un motor rápido y general para el procesamiento de datos a gran escala y procesamiento en memoria.

Página –197–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

EL FUTURO SEGÚN TELEFÓNICA: FORO DE TELEFÓNICA-Big Data, Madrid, mayo 2015

q Entre marzo y mayo de 2015, Fundación Telefónica puso en marcha, en Madrid, la tercera edición de las conferencias Vivir en un Mar de Datos. Un ciclo que coincidió con la exposición Big Bang Data en Madrid . Estas jornadas indagaron en las tendencias globales del Big Data, el uso que hacen las grandes corporaciones empresariales y sus aplicaciones concretas en el ámbito de la salud, el deporte y el marketing.

Página –198–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

FORO DE TELEFÓNICA-Big Data, Madrid, mayo 2015

q La tercera y última sesión de Vivir en un Mar de Datos 2015 estuvo dedicada a conocer la aplicación práctica de los datos. Se prestó atención no solo al uso del big data, sino también de Internet de las Cosas (IoT) y de cómo está cambiando nuestra vida el uso de weareables (ponibles, conectables), así como sus aplicaciones en la salud, el turismo, el deporte o el marketing. Se reunieron grandes expertos para hablar de Medicina, Deporte, Recursos Humanos, del coche (carro) conectado o del fenómeno de los weareables

Página –199–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

FORO DE TELEFÓNICA-Big Data, Madrid, mayo 2015 q Las empresas buscan los tres pilares siguientes: primero

el negocio, segundo la analítica y, por último, la arquitectura y la tecnología.

q El profesional que se demanda: “Tiene que saber cómo hacer las aplicaciones de negocio y qué resultados se aporta a cada empresa. Para la analítica es necesario contar con conocimiento muy experto en matemáticas y estadística, pero lo diferencial es el talento a la hora aplicar soluciones de negocio en distintos lenguajes. Y todo acompañado de un conocimiento avanzado en tratamiento de datos”.

Página –200–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

FORO DE TELEFÓNICA-Big Data, Madrid, mayo 2015

q “Buscamos gente de desarrollo, con conocimientos básicos, así como expertos en analítica con conocimientos estadísticas, pero también necesitamos la pata de negocio, es decir la aplicación directa”.

q No se trata de “encontrar al mejor programador o al mejor estadístico, sino a gente que cumpla un nivel intermedio en estos tres campos”. Les está “costando” encontrar gente de este perfil, porque exigen “gente motivada y curiosa y que, además, lo demuestre”. La clave es ser proactivo y que te guste aprender constantemente, ha puntualizado.

Página –201–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

FORO DE TELEFÓNICA-Big Data, Madrid, mayo 2015 q Las tecnologías recomendadas q ¿La pregunta del millón es qué tendría que saber para que

al día siguiente todo el mundo se pelee por contratarme? Y la respuesta es todo lo que es tecnología de Big Data.

q “Si sabes Hadoop seguro que te van a contratar, si estudias, tienes familiaridad y soltura con Hadoop el mercado te va a demandar seguro. Si sabes Spark, R o Phyton seguro que también”.

q Algunas de las tecnologías que más se están buscando, son UNIX, scripting, así como los grandes proyectos de código libre como Apache, Hadoop, Spark…

Página –202–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

FORO DE TELEFÓNICA-Big Data, Madrid, mayo 2015

q  “Hay muchos lenguajes que han sido no considerados en el pasado, como R, Python o Node.js, que son muy interesantes porque pueden ser utilizados por muchos perfiles distintos al mismo tiempo”.

q Una buena formación de desarrollo y programación tipo Java o Scala, pero sin olvidar un “potencial muy rápido para adquirir otros conocimientos”.

Página –203–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

FORO DE TELEFÓNICA-Big Data, Madrid, mayo 2015 q Se destacó en las conclusiones el impacto de la

tecnología Spark: “Es sin duda la cosa más importante en el mundo de la analítica, es algo que está vivo, que se sigue mejorando”.

q Se manifestó el futuro de Python y de R y se destacó el paradigma MapReduce y Hadoop para procesar multitud de datos y redistribuir la carga de los mismos.

Página –204–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

COMPUTACIÓN EN LA NUBE (JOYANES)

Página –205–

206 206

ESTADO DEL ARTE DE CLOUD COMPUTING

Prof. Luis Joyanes Aguilar

COMPUTACIÓN EN LA NUBE La nueva era de la computación

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Página –207–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

BIG DATA (JOYANES)

Página –208–

209

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

REFERENCIAS

q Common Crawl, que pone a disposición un gran número de datos de miles de millones de webs:

q • http://www.sorayapaniagua.com/2013/01/28/common-crawl-datos-gratuitos-de-cinco-mil- millones-de-paginas-web/

q • Un listado de lugares en los que podemos encontrar datos abiertos: • http://blog.visual.ly/data-sources/

q • Kaggle, un sitio interesante en el que existen competiciones públicas extracción de conocimiento y predicción a partir de datos:

q • http://www.kaggle.com/

Página –210–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

REFERENCIAS

q Este perfil fue catalogado en octubre de 2012 como el trabajo más sexy del siglo 21:

q  https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/ar/1

Página –211–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

REFERENCIAS

q En el artículo “Data Scientist: The Sexiest Job of the 21st Century” de la revista Harvard Businees Review se presentan en detalle las características que debe tener un científico de datos. Es un profesional que se sitúa en un ranking profesional alto, trabaja en empresas emergentes y también en grandes empresas. Su presencia en las empresas muestra el nuevo interés que tiene el mundo profesional por la información, que es variada y que destaca por tener un volumen nunca antes imaginado. A pesar de ello, en este artículo se comenta que muchas de las profesiones que puede realizar un científico de datos todavía no disponen de programas universitarios para impartirlas, como por ejemplo los grados en ciencia de datos.

Página –212–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

REFERENCIAS

q http://www.huffingtonpost.es/instituto-de-ingenieria-del-conocimiento/los-cientificos-de-datos_b_7099638.html

q http://www.elmundo.es/economia/

2015/05/31/5568a4a1268e3e9e518b4592.html.

q http://bbvaopen4u.com/es/actualidad/emerging-tech-el-perfil-de-un-cientifico-de-datos

Página –213–

© Luis Joyanes Aguilar Pereira, Colombia 20 de agosto, 2015

Página –214–

MUCHAS GRACIAS … ¿Preguntas? Portal tecnológico y de conocimiento

www.mhe.es/joyanes Portal GISSIC “El Ágora de

Latinoamérica”: gissic.wordpress.com Twitter:@luisjoyanes

www.slideshare.net/joyanes www.facebook.com/joyanesluis

CORREO-e: [email protected]