data popdatapopalliance.org/wp-content/uploads/2016/05/... · 4. hacia una hoja de ruta regional de...

87
DATA-POP ALLIANCE WHITE PAPER SERIES Oportunidades y requerimientos para aprovechar el uso de Big Data para las estadísticas oficiales y los Objetivos de Desarrollo Sostenible en América Latina Mayo 2016 DATA POP ALLIANCE

Upload: others

Post on 22-Jun-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

DATA-POP ALLIANCEWHITE PAPER SERIES

Oportunidades y requerimientospara aprovechar el uso de BigData para las estadísticas oficialesy los Objetivos de DesarrolloSostenible en América Latina

Mayo 2016

DATA

POPALLIANCE

Page 2: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

Oportunidades y requerimientos para aprovechar eluso de Big Data para las estadísticas oficiales y los

Objetivos de Desarrollo Sostenible en América Latina

Julia Manske (autora principal y autora correspondiente)David Sangokoya (co-autor principal), Data-Pop Alliance

Gabriel Pestre, Data-Pop AllianceEmmanuel Letouzé, Data-Pop Alliance

Mayo 2016

Page 3: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

Índice

Prefacio 1

Introducción 2

1. El estado de los INE en América Latina: contexto y conceptos generales 71.1. El papel de los Institutos Nacionales de Estadística en América Latina y el Caribe 71.2. El estado de los INE en América Latina y el Caribe: retos actuales . . . . . . . . . . 91.3. Definiendo Big Data para las estadísticas oficiales y los ODS . . . . . . . . . . . . . . 12

2. Involucrar, innovar y descubrir Big Data en América Latina 182.1. Preparando el escenario: el ecosistema emergente de Big Data . . . . . . . . . . . . . 182.2. Los INE y Big Data: tendencias en América Latina . . . . . . . . . . . . . . . . . . . . 232.3. Big Data para los ODS en el ecosistema más amplio de actores . . . . . . . . . . . . . 292.4. Intentos internacionales de utilizar Big Data para las estadísticas oficiales y el

desarrollo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

3. Retos y requerimientos para los INE que se involucren con Big Data para los ODS 383.1. Barreras institucionales para la innovación y la gestión del cambio . . . . . . . . . . 383.2. Limitaciones para el acceso y la completitud de los datos . . . . . . . . . . . . . . . . 403.3. Desafíos técnicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423.4. Brechas de capacidad de capital humano . . . . . . . . . . . . . . . . . . . . . . . . . . . 433.5. Desafíos metodológicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 453.6. Riesgos éticos, de privacidad y políticos . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data paralas estadísticas oficiales y los ODS 514.1. Cinco tendencias regionales que promueven el uso de Big Data en América Latina 514.2. Hacia una hoja de ruta regional de múltiples actores para Big Data: construyendo

sobre las fortalezas y oportunidades regionales . . . . . . . . . . . . . . . . . . . . . . . 55

Glosario 61

Anexos 64

II

Page 4: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

Figuras

1. Mapa de los Institutos Nacionales de Estadística en América Latina y de proyectosen Big Data seleccionados de otros actores. . . . . . . . . . . . . . . . . . . . . . . . . . 5

2. Uso de Internet por porcentaje de población en 2006 y 2014 . . . . . . . . . . . . . . 193. Desarrollo mundial de la digitalización, 2013 . . . . . . . . . . . . . . . . . . . . . . . . 224. Comparación de objetivos de los ODS auto-reportados . . . . . . . . . . . . . . . . . 375. Hoja de ruta de recomendaciones para incorporar Big Data en proyectos de los

INE en América Latina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

Cuadros

1. El INEGI como buena práctica en la región . . . . . . . . . . . . . . . . . . . . . . . . . 122. Big Data vs. big data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163. La diferencia entre Big Data y Datos Abiertos . . . . . . . . . . . . . . . . . . . . . . . 174. Los INE en América Latina: el DANE Moderno de Colombia . . . . . . . . . . . . 245. Twitter para monitorear el turismo en México . . . . . . . . . . . . . . . . . . . . . . . 266. Morbilidad materna y teledetección de malaria en Brasil . . . . . . . . . . . . . . . . 287. Uso de Google Trends para hacer predicciones en tiempo real sobre la actividad

económica en Colombia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

Tablas

1. Estadísticas de uso de Internet y población para países seleccionados de ALC, 2013 202. Descripción general de los proyectos de Big Data en INE seleccionados de ALC . 273. Descripción general del ecosistema de Big Data en ALC . . . . . . . . . . . . . . . . . 324. Organizaciones de la sociedad civil trabajando en derechos digitales . . . . . . . . . 36

Anexos

1. Taxonomía y ejemplos de fuentes de Big Data . . . . . . . . . . . . . . . . . . . . . . . 642. Usos de Big Data para el monitoreo de los ODS . . . . . . . . . . . . . . . . . . . . . . 643. Análisis de mensajes de redes sociales por el INE de Holanda . . . . . . . . . . . . . 694. índices de precios por Cavallo (MIT) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 705. Datos de luminosidad como proxy para las estadísticas económicas . . . . . . . . . 706. Un sistema de información para precios de agricultura (DANE - Colombia) . . . . 717. Open Intelligence en Mexico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 718. Aprovechar las fuentes de Big Data y técnicas basadas en CDR para analizar los

resultados y procesos socioeconómicos en Colombia: los casos de SeguridadPública y Desarrollo Social . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

9. Principales componentes de tecnologías de la información . . . . . . . . . . . . . . . 7310. Análisis DOFA agregado para los INE de ALC y Big Data . . . . . . . . . . . . . . . 74

III

Page 5: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

Prefacio

Acerca de este documentoEste documento se realizó en el marco de un proyecto apoyado por el Banco Mundial eimplementado por Data-Pop Alliance en asociación con el Departamento AdministrativoNacional de Estadística de Colombia—DANE. Data-Pop Alliance es una coalición sobre BigData y el desarrollo creada conjuntamente por la Iniciativa Humanitaria de Harvard, el MITMedia Lab y el Instituto de Desarrollo de Ultramar (ODI por sus siglas en inglés) parapromover una revolución de Big Data centrada en las personas.

Sobre los autoresEste documento fue escrito por los siguientes autores:

Julia Manske (autora principal y autora correspondiente:[email protected])David Sangokoya (co-autor principal), Data-Pop AllianceGabriel Pestre, Data-Pop AllianceEmmanuel Letouzé, Data-Pop Alliance

ReconocimientosEsta versión se benefició de los comentarios de funcionarios del DANE, especialmente de MaraBravo, Julieth Solano, y Arleth Sorith. Comentarios y observaciones adicionales seincorporarán antes de finalizar el documento. Esta versión se benefició de contribucionessignificativas por parte de Andrés Clavijo, Investigador Principal y Coordinador para Colombiade Data-Pop Alliance; Natalie Shoup Directora de Programas de Data-Pop Alliance; CarsonMartinez, Asistente de Investigación de Data-Pop Alliance; y Lauren Barrett, Estratega deMedios y Comunicaciones de Data-Pop Alliance.

FinanciamientoEl financiamiento de este trabajo fue proporcionada por el Grupo del Banco Mundial cuyo apoyose reconoce con profundo agradecimiento, así como por la Fundación Rockefeller quien proveeun apoyo sustancial a las actividades de Data-Pop Alliance.

Descargo de responsabilidadLas opiniones presentadas en este documento son exclusivas de los autores y no representan elpunto de vista de sus instituciones.

Citación sugerida“Oportunidades y requerimientos para aprovechar el uso de Big Data para las estadísticasoficiales y los Objetivos de Desarrollo Sostenible en América Latina”. Data-Pop Alliance(Harvard Humanitarian Initiative, MIT Media Lab y Overseas Development Institute). Mayode 2016.

TraducciónAna Lucía Martínez tradujo la versión original de este documento del inglés al español([email protected]).

1

Page 6: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

Introducción

Los Institutos Nacionales de Estadística (en adelante INE) siguen siendo un pilar de las sociedadesdemocráticas, pero compiten cada vez más con nuevos productores de datos tanto en el sectorpúblico como en el privado. Nuevas fuentes de datos (tales como datos de redes sociales, datosde teléfonos móviles, datos de satélites, etc.) han creado nuevas oportunidades y desafíos parala producción de estadísticas, su difusión y el compromiso con los beneficiarios, y han iniciadodiscusiones acerca de un nuevo conjunto de responsabilidades que va más allá de la medición pura,llegando a informar o incluso a crear conocimiento dentro de las sociedades. A la vez, los INEse están preparando para una nueva tarea: la “Revolución de los datos”. Este desarrollo global lospone en el centro de la agenda Post-2015 y su contribución en la medición de los Objetivos deDesarrollo Sostenible (en adelante ODS) será inevitablemente importante.

Hay cierta evidencia de que Big Data podría ayudar a los INE a cumplir con su responsabilidad.Big Data como lo conocemos hoy es nuevo en todos los niveles. Algunos actores del sectorprivado lo utilizan activamente, mientras que las agencias gubernamentales apenas lo empiezana reconocer. La llegada de Big Data influirá en el negocio de las organizaciones cuya actividadprincipal radique en la producción de datos estadísticos. Como era de esperarse, la discusiónsobre “Big Data y estadísticas oficiales” se originó dentro de sistemas estadísticos de los INE queestán bien establecidos. Sin embargo, en los países en desarrollo, muchos INE todavía tienendesafíos operativos básicos, tales como el acceso a registros administrativos, falta decolaboración entre los diferentes organismos gubernamentales, recursos financieros ycapacidades insuficientes y la ausencia de marcos legislativos. Estos desafíos cuestionan lamedida en que los INE podrían involucrarse activamente con Big Data.

Los INE se rigen por marcos legales democráticos y cuentan con las herramientas básicas y elknow-how para trabajar con datos de la manera más sensible, bajo la premisa de contribuir albienestar de las sociedades, de acuerdo con el primero de los Principios Fundamentales de lasEstadísticas Oficiales de las Naciones Unidas. Es por esto que los INE deben ser actores clave enla conformación de los ecosistemas de Big Data en sus respectivos países y regiones. En los paísesdonde se reconozcan como un tercero de confianza, los INE serán cruciales en el contexto delintercambio de datos y en la formación de un contrapeso a los intereses del sector privado y losactores gubernamentales, en particular para salvaguardar la privacidad y la calidad de los datos.

El ascenso de Big Data no implica necesariamente que la prosperidad de la sociedad se veráfavorecida; las revelaciones de Edward Snowden, el uso opresivo de los datos por parte de losgobiernos para identificar y arrestar a personas inocentes y el poder creciente de algoritmos quepermiten la discriminación contra los menos favorecidos, son indicadores suficientes de que BigData también puede perjudicar a sociedades democráticas y sociedades basadas en los derechoshumanos. La discusión social sobre la forma en que un mundo impulsado por los datos debeconfigurarse apenas comienza, mientras que (casi de manera automática) seguiremos creandomás y más datos todos los días.

Incluso desde un punto de vista oportunista, sería razonable que los INE se involucraran con

2

Page 7: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

Big Data en la medida en que este cobra importancia y los gobiernos de todo el mundo ejerceninfluencia en este campo. Si los INE muestran liderazgo y se convierten en autoridades en BigData, podrían recibir el reconocimiento y la prioridad por parte de los gobiernos que tanurgentemente necesitan, y con ello más recursos. Big Data puede ser importanteestratégicamente para los INE en otros aspectos. Considerando que probablemente cuentan conun nivel mayor de experiencia en el desarrollo de técnicas y estándares relacionados con larecolección, edición y publicación de datos (por ejemplo, los metadatos y la anonimización dedatos), los INE tendrán un papel evidente que desempeñar en la formulación de lineamientos enestas áreas para sus propios productos estadísticos y para otros organismos de los sistemasestadísticos nacionales.

En América Latina, los INE podrían beneficiarse claramente de esta oportunidad. Encomparación con sus homólogos de otras regiones en desarrollo, el sistema estadístico deAmérica Latina es relativamente fuerte y la experiencia en la medición de los Objetivos deDesarrollo del Milenio (ODM) en los últimos 15 años provee algunos procesos y herramientasbien establecidos. Aún así, el carácter específico de los ODS presenta nuevos desafíos, mientrasque muchos de los antiguos siguen sin resolverse: hay gran variabilidad en la calidad de los INEde la región; incluso los INE más avanzados todavía luchan con un acceso limitado a losregistros administrativos, marcos legales indefinidos y escasos datos territoriales y desagregados,datos que jugarán un papel clave en la medición de los ODS.

Sin embargo, con sistemas estadísticos mucho mejores que en otras partes del mundo, una ampliapenetración en tecnología móvil e Internet, debates vibrantes sobre el gobierno de Internet y unimpresionante movimiento de Datos Abiertos, América Latina podría convertirse en un terrenofirme para las buenas prácticas en Big Data. Y, como se ilustra en este documento, algunos INE deAmérica Latina están abordando cada vez más la tarea que se avecina. Están trabajando en pilotosy proyectos, y están investigando el potencial de Big Data.

Este informe señala las oportunidades y desafíos que Big Data presenta para los INE de la regiónlatinoamericana en el contexto de los ODS, identifica las actividades con Big Data que los actoresde los INE y otros institutos están llevando a cabo actualmente y proporciona recomendacionespara los INE de la región para el desempeño de un rol en la evolución de las estadísticas oficiales yde los ODS en el ecosistema de Big Data de la región. En términos más amplios el informe buscadar respuesta a las siguientes preguntas:

1. ¿Cuál es el estado actual de los INE en América Latina?

2. ¿Cómo se han involucrado y pueden involucrarse los INE con Big Data orientado hacia lasestadísticas oficiales y los ODS?

3. ¿Qué tipos de nuevos retos enfrentan los INE en la adopción de Big Data?

4. ¿Cómo pueden alinearse estas innovaciones a las estrategias nacionales y regionales?

El resto del informe se organiza como sigue: la primera sección del documento describe el estadode los INE en América Latina, detallando su papel en el contexto de la agenda Post-2015, los retos

3

Page 8: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

actuales y, conceptualmente, el uso de Big Data para las estadísticas oficiales y la medición de losODS. En la siguiente sección de este documento, revisamos el universo de las actividades en BigData que los INE de la región están llevando a cabo, así como las actividades de otros actores enun ecosistema más amplio de Big Data y de sistemas estadísticos en América Latina. Esto incluyeuna descripción general de los pilotos e iniciativas en Big Data en desarrollo dentro y fuera delsistema estadístico. En las últimas secciones del documento, se analizan los retos específicos parauna adopción más amplia de Big Data por parte de los INE, se proporcionan recomendacionespara los próximos pasos en el involucramiento de los INE con Big Data y, por último, se discutenuna serie de recomendaciones para crear una hoja de ruta regional para los INE y otros actoresque lleve hacia un mayor involucramiento regional con Big Data.

4

Page 9: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

Figura 1: Mapa de los Institutos Nacionales de Estadística en América Latina y de proyectosen Big Data seleccionados de otros actores.

Wikipedia y elaboración de Gabriel Pestre

Mapa de FreeVectorMaps.com

5

Page 10: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

Wikipedia y elaboración de Gabriel Pestre

6

Page 11: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

1. El estado de los INE en América Latina: contexto yconceptos generales

1.1. El papel de los Institutos Nacionales de Estadística en AméricaLatina y el Caribe

Los países de América Latina, con diferencias geográficas y socioeconómicas significativas y, portanto, una gran variedad de desafíos estadísticos a nivel regional, han desarrollado una fuertetradición en las estadísticas oficiales, centrada en sus Institutos Nacionales de Estadística. Comose señala en el informe de 2010 de la Comisión Económica para América Latina y el Caribe (enadelante CEPAL), los INE de la región rigen por ley la recolección de datos para la produccióny difusión de estadísticas, gestionan la estrategia para la implementación de encuestas nacionalesa largo plazo y, por lo general, proporcionan lineamientos y liderazgo dentro de sistemasestadísticos nacionales principalmente descentralizados.1

Durante la última década, los INE de la región han realizado importantes avances en larecolección, producción y difusión de datos oficiales en las siguientes áreas: censos de población,encuestas a hogares, encuestas de ingresos y gastos, cuentas nacionales y estadísticas económicas,estadísticas de precios, estadísticas de género, estadísticas vitales, estadísticas de educación,estadísticas ambientales y estadísticas de TIC. La región tiene una gran tradición en larealización de censos que producen datos de terreno más o menos sólidos a través de la región.Casi todos los países de América Latina y el Caribe han realizado un censo de población en losúltimos diez años y cerca de la mitad de ellos realiza encuestas a hogares cada cinco años.2

A medida que los INE continúan desarrollando y superando los desafíos estadísticos de laregión, la agenda de desarrollo post-2015 y la creación de los Objetivos de Desarrollo Sostenible(ODS) han puesto de relieve la necesidad que los INE aborden los retos estadísticos para eldesarrollo y asimismo incorporen enfoques y oportunidades innovadores a través de nuevasfuentes de datos. La adopción de los ODS involucra una compleja serie de objetivos con 169metas que cubren dimensiones ambientales, económicas, sociales y gubernamentales. El primerborrador incluye 310 indicadores alineados con las metas. La experiencia con los ODM nos haenseñado que se necesitan nuevas mediciones más allá de los promedios nacionales y lasagregaciones; los ODS se proponen identificar con precisión a las personas más vulnerables,marginadas y pobres, requiriendo datos a nivel local y desagregados por grupos demográficos(por ingresos, género, edad, raza, etnia, condición migratoria, discapacidad, ubicación geográficay otras características relevantes en contextos nacionales). Sin embargo, este nivel dedesagregación no está disponible actualmente en muchos países. Para algunos de los indicadores,los datos adecuados ni siquiera están disponibles en forma agregada.

El avance de la agenda de desarrollo post-2015 sitúa a los INE en el centro de las actividades de los

1Economic Commission for Latin America and the Caribbean (ECLAC/CEPAL) 2010.2Economic Commission for Latin America and the Caribbean (ECLAC/CEPAL) 2010.

7

Page 12: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

ODS. El Grupo Asesor de Expertos Independientes del Secretario General de la ONU enfocadoen la Revolución de los Datos para el Desarrollo Sostenible (en adelante IEAG por sus siglas eninglés) en su informe A World that Counts (Un Mundo que Cuenta) solicita a los países miembrosde la ONU fortalecer las capacidades de sus INE para alcanzar una “revolución de los datos.” Hayvarias razones por las que los INE deben tener un papel activo en la recolección y producción dedatos para los ODS:

1. Por lo general, los INE tienen más experiencia que otros actores en la recolección de datos.

2. Los datos sobre desarrollo y sociedad son un bien público; por lo tanto, tiene sentido quelos organismos públicos sean quienes los produzcan y que se desarrolle su capacidad parahacerlo.

3. Los INE suelen tener los más altos estándares metodológicos.

4. Los datos de un país idealmente los debe producir y deben pertenecer a ese país, con el finde promover la eficiencia en la asignación, aumentando la legitimidad y el uso por parte delos responsables de formular políticas.

5. Los Estados jugarán un papel central en encaminar los avances nacionales hacia elcumplimiento de los ODS. Los funcionarios requieren datos para guiar la elaboración desus políticas y los organismos oficiales deben ser los responsables de su recolección.

Además, hay que señalar aquí que, independientemente del potencial específico para la mediciónde los ODS, los INE deben participar en la discusión en todo caso. Es su mandato fomentar elconocimiento sobre y entre las sociedades que les otorgaron ese mandato. Según lo indicado porel Principio 1 de los Principios Fundamentales de las Estadísticas Oficiales, “Las estadísticasoficiales constituyen un elemento indispensable en el sistema de información de una sociedaddemocrática y proporcionan al gobierno, a la economía y al público datos acerca de la situacióneconómica, demográfica, social y ambiental.” Si la comunidad internacional cree en la necesidaddemocrática de las estadísticas oficiales, es evidente que se trata de una cuestión política el porqué los INE deben involucrarse con Big Data, y no simplemente una cuestión técnica de sideben o no y la forma en que deberían ‘usar’ grandes flujos de datos.3

Big Data debe, poco a poco y con el tiempo, lograr hacer parte de los recursos e instrumentosaprovechados para cumplir con este mandato y para proporcionar una imagen de un país, sueconomía y su población que puedan convertirse en conocimiento. Existe el riesgo de que aquellosque informen sobre el estado de las sociedades utilizando Big Data, eventualmente obtengan unagran cantidad de poder creado por el conocimiento producido fuera del alcance de la supervisióny las decisiones democráticas. Ya que los INE se guían por marcos legales establecidos y tienenun mandato específico, podrían desempeñar el papel de guardianes para garantizar la calidad delas nuevas fuentes de datos, como también para gestionar los aspectos negativos de la revoluciónde los datos, tales como cuestiones de privacidad y confidencialidad.4

3Letouzé 2013.4Letouzé 2013.

8

Page 13: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

Sin embargo, los INE ya no son los únicos actores que producen y recolectan datos sobre lasociedad. Como resultado de la digitalización y del aumento continuo de datos de la web, unnúmero creciente de nuevos actores se han convertido en productores de datos. Por ejemplo, losinvestigadores de mercado están adquiriendo un entendimiento muy preciso sobre sus clientes(y por lo tanto sobre ciudadanos) a través del análisis automatizado de conjuntos de datosdigitales procesados a alta velocidad. Los datos que seres humanos y máquinas generan de formapasiva en altos volúmenes y con alta velocidad, tales como datos de redes sociales o registros deteléfonos móviles, se denominan Big Data. Además, las tecnologías digitales han reducido loscostos de producir y publicar datos, han facilitado la distribución y visualización de datos y, porconsiguiente, han democratizado el acceso a los datos y han creado nuevos usos para ellos. EnAmérica Latina esto se puede ver de manera prominente en países como Uruguay y Brasil loscuales han adoptado activamente el movimiento de Datos Abiertos.5

Hoy en día, la intervención inteligente de los datos se convierte en un elemento esencial paratener una idea robusta de los requerimientos de las sociedades y los ciudadanos, y por lo tantopara la formulación de políticas basadas en la evidencia. Estos acontecimientos provocaron unadiscusión vital sobre el papel de los INE y la necesidad de estos de evolucionar, para dejar de sersólo productores de datos y pasar a ser facilitadores de información comprensible que se puedaconvertir en conocimiento sobre la realidad. Este rol abarca todas las etapas del procesoestadístico, desde la recolección de datos hasta su difusión.6 El informe del IEAG destaca lanecesidad de un cambio institucional hacia la innovación y un uso mucho más eficiente de latecnología para mejorar el desempeño de todos los actores involucrados en la producción yrecolección de datos.7

1.2. El estado de los INE en América Latina y el Caribe: retos actuales

A medida que el papel de los INE continúa evolucionando, los INE en América Latina y elCaribe (ALC) deben considerar tres categorías de desafíos que actualmente dificultan lasactividades de estadísticas oficiales en toda la región: la calidad de datos en general, la coberturay las consideraciones legislativas.

La calidad, incluye confiabilidad, oportunidad (el tiempo transcurrido entre el período dereferencia y la disponibilidad de las estadísticas), interpretabilidad (la disponibilidad demetadatos que refleja la facilidad con la que el usuario puede entender y utilizar correctamentelos datos) y cumplimiento (el grado en que las estadísticas cumplen con normas internacionalespertinentes). Contrario a las expectativas, y aunque el número de censos es alentador, la calidadde los datos no siempre mejora. Como se demostró en la ronda de censos de 2010, Paraguay yChile tuvieron varios problemas en sus últimos censos “con una sub enumeración estimadaalrededor de 26,0% y 9,3% respectivamente. Cifras de omisión censal como éstas, después de

5Open Data Research Network 2014.6Giovannini 2010.7Data Revolution for Sustainable Development (IEAG) 2014.

9

Page 14: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

décadas de experiencia en la recolección de datos, son inconcebibles.”8 Incluso en países consistemas estadísticos fuertes, se ven una serie de problemas. El censo en Colombia que se planeópara ser ejecutado en el 2015 se ha pospuesto y ahora está previsto que tenga lugar en el 2016. Elcenso agropecuario no se renovó durante más de 40 años,9 hasta que se llevó a cabo con éxito enel 2014. En Brasil, el recuento de población de 2015 fue cancelado recientemente a pesar de quese había planeado durante años. Con frecuencia, los recortes presupuestales (por ejemplo, paraalgunos países debido a la reciente disminución de los precios del petróleo) y la malaplanificación a largo plazo son las razones de estos efectos colaterales.

Algunas veces, diseños de encuesta deficientes conducen a una falta de conjuntos de datoscualitativos: por ejemplo, en Bolivia, en el último censo un alto porcentaje de las mujeresrespondió “Sin especificar” cuando se les preguntó si tenían hijos. Como resultado, no se sabe sila mitad de la población mayor de 15 años ha tenido hijos.10 Un proyecto piloto sobremortalidad materna realizado por la CEPAL/CELADE identificó las dificultades en laestimación de la mortalidad materna en América Latina debido a la falta de certificación oregistro en las zonas habitadas por poblaciones indígenas o en zonas remotas.11

Las estadísticas vitales y los sistemas de registro civil, que serán particularmente importantespara la medición de los ODS, a menudo son débiles en toda la región. Una gran parte de lasregiones de ALC carecen de datos sobre variables tales como la edad de las madres, el peso alnacer de los niños y el lugar de residencia o las características socioeconómicas de los padres.Los datos sobre las causas de muerte también son con frecuencia imprecisos o inexistentes, loque impide comprender los verdaderos niveles de riesgo y prevalencia de enfermedades en lospaíses, obstaculizando la formulación de perfiles epidemiológicos de mortalidad.12 En contrastecon su experiencia en encuestas y censos, muchos INE siguen luchando con el acceso y el uso dedatos administrativos (como se describe más adelante) a pesar de que se han logrado mejoras enel acceso en los últimos dos años.13

La cobertura, se refiere al grado en que las estadísticas responden a los requisitos en términos devariables, detalle, frecuencia, unidades de medida, cobertura histórica y disponibilidad. Losdatos de pobreza, la cuantificación de las mediciones de la desigualdad y la desagregación deinformación para la identificación de brechas sociales, económicas y ambientales también siguensiendo problemáticos.14 En otras áreas, por ejemplo en términos de indicadores de género, eldesafío actual va más allá de la desagregación de indicadores para el monitoreo de la agenda dedesarrollo post-2015. Éstos apuntan a la necesidad de una interacción más activa entre lostécnicos, que diseñan y utilizan la información, y los especialistas temáticos (por ejemplo sobregénero).15

8Cavenaghi 2015.9Cavenaghi 2015.

10Cavenaghi 2015.11Cobos, Miller y Salguero 2013.12Economic Commission for Latin America and the Caribbean (ECLAC/CEPAL) 2010.13Economic Commission for Latin America and the Caribbean (ECLAC/CEPAL) 2010.14Economic Commission for Latin America and the Caribbean (ECLAC/CEPAL) 2015a.15Economic Commission for Latin America and the Caribbean (ECLAC/CEPAL) 2015a.

10

Page 15: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

Al igual que en muchos otros países en desarrollo, la desagregación de los datos a nivelsubnacional en ALC es a menudo insuficiente, hecho que le dificulta a los hacedores de políticaso las comunidades comparar su progreso con el de otras comunidades o con el del país.16 Esto esparticularmente interesante en América Latina, donde existen enormes diferenciassocioeconómicas entre las zonas rurales y las urbanas, como también entre diferentes gruposcomo los ind. Esto crea obstáculos para proporcionar datos sólidos para medir el progreso de losODS.

Consideraciones legislativas: Muchos INE de América Latina aún carecen de marcosinstitucionales y jurídicos adecuados. Esto tiene implicaciones sobre las buenas prácticas y latransparencia. Muchos prefieren basarse en regulaciones no obligatorias o completamentevoluntarias, como los códigos nacionales de buenas prácticas, aunque haya argumentosconvincentes para la creación de organismos estadísticos autónomos y apolíticos, así comocondiciones bajo las cuales las estadísticas estén aisladas de la política.17 Adicionalmente, confrecuencia la gestión presupuestal no es independiente del resto del gobierno. Además, enmuchos países de ALC los puestos directivos son seleccionados por los gobernantes y losocupan funcionarios públicos de alto nivel o ministros del gobierno.18 Eventos como elescándalo que rodeó al Instituto Nacional de Estadística y Censos de Argentina (INDEC), quefue presuntamente manipulado por el gobierno de Kirchner, desacreditan a los INE en toda laregión y ponen su confiabilidad en tela de juicio.

La confianza y transparencia limitadas de los procesos estadísticos presentan impedimentossignificativos. Ciertamente, la adopción y revisión de la legislación estadística para garantizar laindependencia de los INE en muchos países supone un paso importante hacia la mejora de sucredibilidad, como se ha visto en México (ver Cuadra 1). Afortunadamente, se ve una tendenciaen toda la región hacia la introducción de sistemas gestionados de manera pública en la que lospuestos directivos de las oficinas de estadística se ocupan a través de un mecanismo competitivode contratación.19

Adicionalmente, legislaciones deficientes conducen a mandatos indefinidos con respecto a larecolección y el acceso a los datos. Por ejemplo, la generación de estadísticas desde registrosadministrativos es todavía limitada, comúnmente debido a que no hay leyes claras que permitana los INE solicitar esta información a otras agencias. La interoperatividad entre las institucionesgubernamentales usualmente plantea un desafío y muchos INE compiten con otros ministeriosy organismos en lugar de colaborar. Un hecho positivo es que en virtud del artículo 150 del PlanNacional de Desarrollo de Colombia, el DANE logró un mejor control del aprovechamiento deregistros administrativos con fines estadísticos.20

16Economic Commission for Latin America and the Caribbean (ECLAC/CEPAL) 2015a.17Khan y Stuart 2015.18Economic Commission for Latin America and the Caribbean (ECLAC/CEPAL) 2010.19Economic Commission for Latin America and the Caribbean (ECLAC/CEPAL) 2010.20Congreso de la República de Colombia 2014.

11

Page 16: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

1.3. Definiendo Big Data para las estadísticas oficiales y los ODS

Big data, como una nueva fuente de datos, es potencialmente interesante para alimentar lasestadísticas oficiales, utilizándose tanto como recurso en sí mismo, como en combinación confuentes de datos más tradicionales como las encuestas por muestreo y los registrosadministrativos. Tiene el potencial para producir estadísticas más relevantes y más oportunasque las fuentes tradicionales.21 Por ejemplo, el análisis de los comentarios, consultas de búsquedao publicaciones en línea puede producir casi los mismos resultados para la inferencia estadística,pero más rápido y a un costo menor que las encuestas y sondeos a hogares. A través de GoogleTrends, los datos sobre empleo se pueden monitorear de forma gratuita y en tiempo real.22

Este ejemplo ilustra que hay más en el fenómeno de “big data” como una nueva fuente, así comohabía algo más en la industrialización que los hidrocarburos y la electricidad. Con la llegada deBig Data, llegan nuevos actores, capacidades e instrumentos que están siendo y serán modeladospor la sociedad. Cuando hablamos de este fenómeno más amplio, cuyo potencial transformadorse puede comparar con la de la industrialización, se habla de “Big Data” (con mayúsculas) y nosolo de “big data.”

Cuadro 1: El INEGI como buena práctica en la región

El Instituto Nacional de Estadística y Geografía de México (INEGI) proporciona un claro ejemplode las mejores prácticas para el desarrollo de las estadísticas en la región. En 2008, se transformóen una institución totalmente autónoma, gobernada por una junta directiva nombrada por elPresidente de la República y el Senado. Las operaciones del INEGI están respaldadas por unaley que permite a la institución ejercer efectivamente un papel de liderazgo en todo el sistemaestadístico nacional. El INEGI se beneficia claramente de recursos financieros sólidos que lepermite contratar personal altamente profesionalizado. EL INEGI es la contraparte técnica dediversos esfuerzos nacionales, tales como la aplicación de la estrategia de datos abiertos. Debido ala adhesión de México a la OCDE, el INEGI también adquiere puntos de vista y la experiencia delintercambio institucionalizado a nivel internacional.

Big Data se refiere no sólo a los datos sino también a las instituciones y el ecosistema más amplioque lo produce y utiliza.23 Este ecosistema se puede describir como la unión de las migajas de BigData (nueva clase datos generados de forma pasiva), la capacidad (técnica y humana para generarentendimiento a partir de estos datos) y la comunidad (nuevos actores del sector privado y lacomunidad de investigación, por ejemplo).24

Big Data tiene tres características e implicaciones principales que ponen de relieve su potencialpara complementar y ampliar el trabajo existente de los INE (ver Cuadro 2).

21United Nations Statistical Commission 2014a.22Hubbard 2011.23Pentland 2012.24Pentland 2012.

12

Page 17: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

1. Big Data ofrece nuevas fuentes de datos

En primer lugar, a veces no es claro qué tipo de datos se pueden definir realmente como BigData. En la actualidad, observamos una cierta ambigüedad en el uso de términos tales comodatos abiertos, datos inteligentes, thick data, big data, y Big Data (con mayúsculas). Todos estosserán componentes importantes en la realización de una revolución de los datos. Pero el big datatiene cualidades muy marcadas que lo diferencian de las fuentes convencionales de datos: son degran volumen y pueden componerse de muchos tipos de fuentes generadoras y por tanto, serestructurados y no estructurados. Por ejemplo, aunque los registros administrativos (una de lasprincipales fuentes utilizadas por muchos INE) se componen de grandes cantidades de datos yhojas de cálculo extensas, no serán considerados como Big Data mientras que su velocidad noaumente, si su recolección fuera diaria.25 mientras que establecer un almacén de datos es un pasoimportante para el procesamiento de conjuntos de Big Data, su principal característica es la dealmacenar grandes cantidades de datos estructurados, que a menudo constituyen big data, perono necesariamente Big Data. El Big Data puede componerse de todo tipo de fuentes generadorasde datos y por lo tanto puede ser a la vez estructurado y no estructurado.

2. Big Data proporciona una mayor diversidad de fuentes de datos

Esto lleva a la segunda cuestión: Big Data no se trata de los datos ni de su tamaño, como variosinvestigadores lo han señalado.26 Se trata de “datos diferentes que pueden contener señales queno estaban disponibles hace unos pocos años y que ‘nosotros’ todavía no sabemos como leer ousar,”27 y que no se ha solicitado de forma activa e intencional por estadísticos o investigadores.A diferencia de los datos recogidos a través de fuentes tradicionales con el objetivo de responder auna pregunta, Big Data podría dar respuestas a preguntas que ni siquiera han sido formuladas. Sondatos nuevos y deben ser considerados “como huellas digitales de acciones humanas generadas deforma pasiva por individuos.”28

3. Big Data tiene el potencial de complementar y mejorar las actividades estadísticas encurso a través de sus cuatro funciones

Big Data como un ecosistema tiene el potencial de mejorar y complementar las actividades deestadísticas oficiales mediante la sustitución de determinados indicadores y procesos de medición.Big Data puede alimentar el proceso estadístico a través de sus cuatro funciones:

1. Descriptiva—a través de mapas, estadísticas descriptivas, visualizaciones, etc.

25United Nations Economic Commission for Europe (UNECE) 2013.26King 2013.27Letouzé 2013.28Letouzé 2013.

13

Page 18: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

2. Predictiva—para hacer inferencias acerca de las condiciones actuales y predicciones sobreeventos futuros;

a) La predicción como proxy, donde Big Data se utiliza para predecir el grado de relaciónde otra variable (por ejemplo la pobreza); esto también se conoce como inferencia onow-casting (predicción a muy corto plazo).

b) Pronosticar, donde se evalúa la probabilidad de que algunos eventos sucedan en elfuturo cercano o lejano.

3. Prescriptiva—también conocida como diagnóstica, para hacer inferencias causales con BigData, donde el análisis de registros de detalles de llamada (en adelante CDR por sus siglasen inglés) ayudará a revelar relaciones informales que vinculan el uso del teléfono celularcon el resultado, o de manera general ayudará a determinar intervenciones específicas.

4. Discursiva—también conocida como el involucramiento, donde “se estimula y forma undiálogo dentro y entre las comunidades y con los actores clave,” reconociendo que “elpotencial a largo plazo de Big Data reside en su capacidad para concientizar los ciudadanosy los empodera para tomar acción.”

La experimentación con Big Data puede aplicarse a procesos, resultados y ODS relacionadosque:29

estén correlacionados con (es decir, que se muestren en) tendencias y patrones en laproducción de datos de algún tipo;

actualmente se monitoreen a través de medios tradicionales (que proporcionan “datos deterreno” sin los que no es posible la calibración o sin los que se requeriría hacersuposiciones);

se consideren como relativamente más ‘importantes’ en términos universales (por ejemploresultados de pobreza a partir del ingreso, salud y educación), así como en términoscontextuales;

sean aplicables a ‘nuevos’ tipos de sectores y objetivos, como la cohesión social, lapredicción del crimen o el bienestar subjetivo.

Algunos argumentan que estos instrumentos serán mucho más baratos que la recoleccióntradicional de datos, en particular las encuestas, que siguen siendo altamente costosas y que enalgunos países aún no se pueden hacer por vía electrónica. Además, Big Data podría contribuir ala mejora de algunos aspectos de la calidad de las estadísticas, tales como la oportunidad ycompletitud, sin comprometer su pertinencia, imparcialidad y rigor metodológico.30 Tambiénpodría complementar o sustituir otras formas tradicionales de medición de aspectos de la

29Letouzé 2015.30United Nations Statistical Commission 2014a.

14

Page 19: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

realidad humana, como la mortalidad, la violencia o el hambre, tal como diversos proyectospiloto de investigación lo han demostrado (algunos de ellos se documentan en este informe).31

Big Data también podría ayudar a llenar vacíos de datos en áreas temáticas y monitorearobjetivos donde los datos son escasos; esto es particularmente relevante en el contexto de losODS. El objetivo general de la agenda post-2015 es eliminar la pobreza global como se indica enel Objetivo 1 de los ODS (Erradicar la pobreza), se evidencia en el Objetivo 10 (Reducir lasdesigualdades) y en varios indicadores de otros objetivos. Sin embargo, los datos de pobreza,recolectados principalmente a través de costosas encuestas a hogares, son escasos en muchospaíses, particularmente a un nivel desagregado (es decir, cuando representan pequeñas unidadesgeográficas, como ciudades, pueblos y aldeas) y actualizado. Big Data ofrece una oportunidadpara cerrar esta brecha. En regiones desarrolladas, se han llevado a cabo investigacionesutilizando medios sociales para medir niveles socioeconómicos. Sin embargo, estas fuentes dedatos de por si plantean sesgos demográficos en regiones desarrolladas, los cuales son mayores enel Hemisferio Sur. Entretanto, los teléfonos móviles tienen por lo general una alta penetración ypor ende ofrecen datos más representativos, aunque incluso en este caso, la representatividad noestá garantizada32

Ante todo, Big Data define un punto de inflexión en la producción de estadísticas oficiales y lacombinación creativa, relevante y responsable de estas estadísticas con estadísticas no oficiales.Si se implementa, se desmantelará el paradigma tradicional de los sistemas estadísticos en todoslos niveles de aplicación y se provocará un giro institucional. Big Data afectará a los INE envarios niveles, incluyendo la recolección, la gestión de la calidad, la agregación, el análisis (o laproducción de servicios) y por último, la visualización y asignación de los datos.

La tabla del Anexo 2 resalta y referencia los usos de Big Data hacia el monitoreo de los ODS.

Además de la innovación en la recolección y uso de los recursos actuales, la revolución de losdatos también apunta a la posibilidad de utilizar Big Data para medir los ODS y el papel que losINE podrán desempeñar en el involucramiento con estos recursos. A medida que la conversacióna nivel global apunta a las posibilidades de apalancar Big Data para las estadísticas, ¿cómo han ycómo pueden los INE de América Latina participar en esta gran revolución de los datos? ¿Quédesafíos únicos enfrentan?

31Letouzé 2015.32A penetration rate of 100 or more does not mean that there hundred percent of a population actually own and

use a phone.

15

Page 20: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

Cuadro 2: Big Data vs. big data

Big Data (con mayúsculas) en este documento (y otros) se refiere al ecosistema creado por laaparición concomitante de “las 3C de Big Data.”

La primera C representa las migajas (crumbs en inglés), o pedazos de datos emitidos yrecolectados de forma pasiva, subproducto de la interacción de las personas con y el usode dispositivos digitales que proporciona una visión única sobre sus comportamientos ycreencias;

La segunda C representa las Capacidades de Big Data, lo que también se conocecomo Big Data Analytics; es decir, el conjunto de herramientas y métodos, hardware ysoftware, know-how y habilidades necesarios para procesar y analizar este nuevo tipo dedatos, incluyendo técnicas de visualización, aprendizaje estadístico automatizado (machinelearning), algoritmos, etc.;

La tercera C representa las Comunidades de Big Data, y describe los diferentes actoresinvolucrados en el ecosistema de Big Data, desde los generadores de datos hasta sus analistasy usuarios finales; es decir, potencialmente toda la población.

Este ecosistema puede ser descrito y analizado como un sistema complejo, es decir, uno dondeexisten bucles de retroalimentación entre sus diferentes partes. En los niveles más básicos, lasnuevas empresas (por ejemplo Twitter o sus futuros competidores) ayudan a generar nuevos tiposde datos que a su vez conducen al desarrollo de nuevos tipos de instrumentos analíticos, dandolugar a nuevos tipos de datos, y luego a nuevos actores que toman ventaja de estos nuevos datosy herramientas. Es posible que este nuevo ecosistema pueda convertirse en o ser parte de unfenómeno social más amplio.

Por el contrario, big data se refiere a la primera C mencionada anteriormente; es decir, los flujosy los conjuntos resultantes de las huellas digitales que dejan los seres humanos al usar teléfonoscelulares (registros de llamadas), tarjetas de crédito (transacciones), el transporte (registros de metroo autobús y de EZ Pass), medios sociales y motores de búsqueda, o cuando sus acciones sonregistradas por sensores, ya sean físicos (contadores eléctricos, sensores de pesaje en un camión)o remotos (satélites, cámaras).

16

Page 21: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

Cuadro 3: La diferencia entre Big Data y Datos Abiertos

A pesar de que tanto Big Data como los Datos Abiertos por lo general toman la forma de grandesconjuntos de datos dispuestos para usos superpuestos con herramientas similares, son conceptosdistintos. Como se menciona anteriormente, Big Data se puede caracterizar como un ecosistema dedatos generados sobre y por la gente como un sub-producto del uso de dispositivos y plataformasdigitales (migajas), las nuevas herramientas y métodos desarrollados para recolectar, procesar yanalizar dichos datos (capacidades) y el conjunto de individuos y actores institucionales que hacenuso de los datos y capacidades (comunidades). El término Datos Abiertos generalmente se refiere adatos que se vuelven de dominio público, con tan pocas barreras legales y técnicas como sea posible.Esto puede incluir datos del gobierno, tales como datos de presupuesto, datos meteorológicoso registros administrativos, datos científicos, así como datos en manos de las ONG o empresasprivadas. Sin embargo, en la mayoría de los casos, contiene datos estructurados.

Muchas de las herramientas y capacidades que se desarrollan y utilizan con estos datos son comunesa ambas categorías. Mientras que alguna vez fue demasiado costoso y técnicamente difícil recolectarinformación sub-producto de otras actividades (en el caso de Big Data) o distribuir ampliamente losdatos existentes (en el caso de Datos Abiertos), la disminución del costo del almacenamiento y lamejora en las capacidades de procesadores y dispositivos asequibles han hecho posible el desarrollotanto de Big Data como de los Datos Abiertos.

Por lo tanto, mientras que la nueva velocidad y escala con la que ahora es posible almacenar yprocesar la información ha permitido que tanto Big Data como los Datos Abiertos se popularicen(simultáneamente), en realidad son conceptos diferentes: lo primero se refiere, fundamentalmente,al origen de los datos y lo segundo se relaciona más con el uso que se les da.a De hecho, los datospueden ser a la vez grandes (Big) y abiertos, como por ejemplo es el caso de las bases de datospúblicas de datos meteorológicos recolectados a través de la teledetección. Sin embargo, en ciertoscasos, Big Data no es o no puede hacerse pública por los INE. Esto puede ocurrir por una variedadde razones legales, éticas, técnicas o financieras. Por ejemplo, mientras que el sector público y lacomunidad académica podrían hacer un uso interesante de los conjuntos de datos de CDR si sehicieran públicos, actualmente están en manos de los proveedores de telefonía celular, que tienenun desincentivo financiero para poner esta información a disposición de sus competidores y unaobligación legal y ética con sus clientes de mantenerlos privados. Por el contrario, hay algunasfuentes muy interesantes de datos, como los registros de las quejas de los consumidores contralas empresas, que si se hacen públicos podrían traer beneficios para la sociedad; sin embargo estosregistros no llegan a ser Big Data (ya que son reportados por los clientes de forma activa en vezde ser recolectados pasivamente a través de otros usos). Como parte del ecosistema de datos másgrande, los Datos Abiertos pueden informar y mejorar otros análisis de datos, por ejemplo, en elcontexto de Big Data. El Open Data Institute en Londres también habla del espectro de datos paradiferenciar entre diferentes fuentes de datos y los términos utilizados en este contexto.b El OpenData Institute en Londres también habla del espectro de datos para diferenciar entre diferentesfuentes de datos y los términos utilizados en este contexto. https://theodi.org/data-spectrum

aGurin 2014.bOpen Data Institute 2015.

17

Page 22: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

2. Involucrar, innovar y descubrir Big Data en AméricaLatina

2.1. Preparando el escenario: el ecosistema emergente de Big Data

Como en el resto del mundo, América Latina está experimentando una revolución digital con elaumento del uso y acceso a tecnologías móviles y conexión a Internet. Al igual que en África yAsia, la tecnología móvil ha crecido rápidamente en la última década. Nuevas fuentes de datos,como los CDR generados por tecnologías digitales, y definidos como big data, son elcombustible del ecosistema de Big Data. Estos tipos de fuentes de datos pueden ser utilizadospara mejorar y complementar los procesos estadísticos. Sin embargo, su pertinencia para lasoperaciones estadísticas depende en gran medida de su disponibilidad. Es importante destacarque los datos de tecnología móvil, medios sociales e Internet pueden ser relevantes parapropósitos estadísticos, únicamente si las tasas de penetración son lo suficientemente altas. Ycomo es lógico, no todas las fuentes de datos están igualmente disponibles en todos los países.Por tanto, estimar el potencial de Big Data para la región de ALC requiere evaluar primero quétipos de fuentes de datos están realmente disponibles.

Una de las características únicas de América Latina es que su infraestructura es en gran medidaheterogénea. Esto significa que a la hora de evaluar fuentes de datos, o más específicamente, uníndice de digitalización que tenga en cuenta la penetración de Internet, tanto la cantidad como elnivel socioeconómico de los usuarios de Internet varía considerablemente.33 El sesgo de los datosy de las metodologías se amplían en la sección 3.5.

Internet

Uruguay, Chile, Costa Rica y Argentina tienen altas tasas de penetración de Internet, así comouna menor desigualdad en términos de acceso (es decir, entre las zonas rurales y urbanas y losniveles socioeconómicos).34 Este no es el caso en otros países de América Latina. Si bien esdifícil desagregar los datos actuales sobre TIC, datos antiguos del Observatorio para la Sociedadde la Información en Latinoamérica y el Caribe (OSILAC) de una encuesta realizada en 2010muestra que el acceso a Internet para los hogares más ricos de la región excede las tasas de accesode los segmentos más pobres por un factor de 44: “Efectivamente, hay una fuerte correlaciónentre el acceso a Internet y los patrones más amplios de pobreza, desigualdad, clasesocioeconómica y urbanización.35” En zonas rurales, muchas personas todavía no tienenninguna clase de acceso a Internet. En Brasil y Colombia, la brecha de acceso entre los hogaresurbanos y rurales con conexión fija a Internet supera los 30 puntos porcentuales.36 En el uso

33Katz 2015.34Economic Commission for Latin America and the Caribbean (ECLAC/CEPAL) 2015b.35Informa 2011.36Economic Commission for Latin America and the Caribbean (ECLAC/CEPAL) 2015b.

18

Page 23: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

Figura 2: Uso de Internet por porcentaje de población en 2006 y 2014

Economic Commission for Latin America and the Caribbean (ECLAC/CEPAL). The new digitalrevolution: From the consumer Internet to the industrial Internet. 2015. URL:

http://repositorio.cepal.org/bitstream/handle/11362/38767/S1500587_en.pdf

International Telecommunication Union. World Telecommunication/ICT Indicators database, 19thEdition. 2015. URL:

http://www.itu.int/en/ITU-D/Statistics/Pages/publications/wtid.aspx

19

Page 24: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

industrial de Internet también se ve una brecha a nivel de los países.37

Al mismo tiempo que vemos una tendencia creciente en las brechas al acceso a Internet en lospaíses latinoamericanos (ver Figura 2), América Central presenta en general las tasas más bajas depenetración. Costa Rica y Nicaragua, con la mayor y menor tasa de penetración respectivamente,se destacan en la Tabla 1 continuación, siendo Costa Rica claramente una excepción de AméricaCentral. El índice general de penetración de Internet es de 49,9% en toda la región.38

Tabla 1: Estadísticas de uso de Internet y población para países seleccionados de ALC, 2013

País Población Uso de Internet % Población(Est. 2014) (a 31-dic-2013) (Penetración)

Argentina 43 024 374 32 268 280 75,0

Bolivia 10 631 486 4 199 437 39,5

Brasil 202 656 788 109 773 650 54,2

Chile 17 363 894 11 546 990 66,5

Colombia 46 254 297 28 475 560 61,6

Costa Rica 4 755 234 4 028 302 84,7

Guatemala 14 647 083 2 885 475 18,6

México 120 286 655 59 200 000 49,2

Nicaragua 5 848 641 906 539 15,5

Ecuador 15 654 411 6 316 555 40,4

Panamá 3 608 431 1 899 892 51,7

Paraguay 6 703 860 2 473 724 36,9

Perú 30 147 935 11 817 991 39,2

Uruguay 3 332 972 1 936 457 58,1

Internet World Stats. Latin American Internet and Users and Population Statistics. 2013. URL:http://www.internetworldstats.com/stats10.htm

Móviles

El mercado móvil latinoamericano es el cuarto más grande del mundo. Brasil, México y Argentinaabarcan los mercados más grandes debido a su gran población y altas tasas de penetración Mientras

37En el uso comercial de Internet, por ejemplo, los establecimientos del sector manufacturero utilizan Internetpara obtener información oficial. Los tres principales países con más alto porcentaje de uso para esto son Argentinacon el 70,5%, Brasil con el 62,9% y Uruguay con el 59,5%. “El ecosistema y la economía en América Latina.” (Katz2015)

38Internet World Stats 2013.

20

Page 25: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

que la tasa de penetración móvil general en América Latina sigue siendo mucho mayor al 100%,solo un poco más de la mitad de la población de la región está efectivamente abonada a un serviciomóvil. Sin embargo, se espera que esta cifra llegue a∼ 60% en 2020, acorde a la media global.39 Enel mismo sentido, las tendencias generales de digitalización global también están mostrando unincremento constante (ver Tabla 1). Las tasas de penetración de usuarios oscilan entre un mínimode 37% en México y un máximo de 77% en Costa Rica;40 lo que muestra que no hay un solocontrolador de la variación en las tasas de penetración, y por lo tanto, las diferencias en el PIB percápita juegan un papel limitado. En comparación con otras regiones en desarrollo los servicios dedinero móvil, que también pueden proporcionar fuentes de datos interesantes, aún no han tenidosuficiente éxito 41.

Las redes y servicios móviles se están convirtiendo cada vez más en el principal método deacceso a Internet a través de América Latina. En 2011, el número de conexiones de banda anchamóvil superó el número de conexiones de banda ancha fija.42 Gracias a la crecientedisponibilidad de modelos de bajo costo, la adopción de teléfonos inteligentes está aumentandorápidamente. Finales de 2013, se estimó que la adopción general de teléfonos inteligentes fue del20%, y se prevé que alcance el 70% para el año 2020.43 En cuanto al uso de dispositivos móvilespara acceder a Internet, en septiembre de 2014 había 216 millones de personas que los utilizabanpara tal fin, equivalente a una tasa de penetración global de alrededor del 35%, estadística quepara esa fecha ya superaba la del año anterior. Está previsto que para el 2020 el acceso a Interneta través de móviles sea justo por debajo del 50% de la población.44Un aumento en lacompetencia y en la innovación ha permitido que hayan más teléfonos inteligentes y acceso aInternet en toda la región.45 Simultáneamente, los consumidores de toda la región estánutilizando progresivamente los servicios de proveedores de mensajería en línea (OMS por sussiglas en inglés). Debido a la presión del mercado, cada vez más operadores están incorporandoestos servicios en sus planes de tráfico, por ejemplo a través de asociaciones Zero-Rating conproveedores de servicio y de plataforma. Alrededor de 38 millones de personas en la regiónutilizan ahora Whatsapp.46 Pronto los datos generados por estos servicios podrían ser másimportantes para obtener información valiosa que lo que los datos de CDR están ofreciendo eneste momento.47

Actualmente, América Móvil (a través de sus filiales Claro y Telcel), Telefónica (a través deMovistar) y Millicom (a través de Tigo) que actúan como operadores locales dominan elmercado de América Latina. En Brasil, los operadores locales Oi y Vivo tienen una cuota

39Mocanu y col. 2013.40GSMA Intelligence s.f.41Tigo Money de Millicom es uno de los únicos servicios de dinero móvil liderado por operador que ha tenido

éxito y que está activo en cinco mercados latinoamericanos (Bolivia, El Salvador, Guatemala, Honduras y Paraguay).En Bolivia, Tigo Money es responsable de flujos de dinero por casi US$4 millones mensuales y tiene alrededorde 700,000 clientes. En Perú, Movistar ha lanzado recientemente un servicio de dinero móvil en asociación conMastercard, que puede alcanzar un potencial de 16 millones de clientes.

42GSMA Intelligence s.f.43GSMA Intelligence s.f.44GSMA Intelligence s.f.45GSMA Intelligence s.f.46Reader 2015.47GSMA Intelligence s.f.

21

Page 26: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

Figura 3: Desarrollo mundial de la digitalización, 2013

Raúl Katz. El ecosistema y la economía digital en América Latina. 2015. URL:http://cet.la/blog/course/libro-el-ecosistema-y-la-economia-digital-en-america-

latina/

significativa del mercado. Curiosamente, los cuatro sitios web principales en todos los países deAmérica Latina son de origen internacional (Google, Facebook, Microsoft y Yahoo) con laexcepción de Brasil (UOL) y Venezuela (Mercado Libre) (Katz 2015).

La adopción masiva de nuevas tecnologías de información y comunicación (TIC) ha hecho posibleuna mayor generación (de datos digitales), comunicación y difusión de Big Data.

Medios Sociales

La región se está convirtiendo en uno de los mayores productores y consumidores de redessociales, sobre todo de Facebook y Twitter48 —produciendo una gran cantidad de datos quepueden ser utilizados con fines estadísticos en algunos países. Siete países latinoamericanos estánentre los treinta primeros del mundo en términos de usuarios de Facebook, incluyendo Brasil(reconocida por el Wall Street Journal como la “La Capital Universal de los Medios Sociales”49)

48El éxito de las redes sociales también se puede explicar por su importancia para los debates políticos y laparticipación ciudadana en muchos países de América Latina. En Brasil, los medios de comunicación social fueronel principal canal para el debate de las elecciones municipales de 2012 y los últimos casos de corrupción, así como laorganización de las protestas en torno a la Copa del Mundo de 2014. En México, Twitter ha contribuido a difundir losmovimientos sociales, como el movimiento #YoSoy132 que surgió durante la elección presidencial de 2012. Tambiénse ha convertido en una herramienta para periodistas ciudadanos que lo utilizan para la publicación segura y anónimade información sobre el crimen organizado y la lucha contra la droga.

49Téllez 2015.

22

Page 27: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

—que tiene el mayor número de usuarios activos en la región y Chile que cuenta con la mayorproporción de usuarios per cápita.50 Adicionalmente, la mitad de los usuarios de teléfonosinteligentes de América Latina tienen cuentas en Twitter.51 Con más de 41 millones de usuarios,Brasil ocupa el segundo lugar del mundo en términos del número de cuentas de Twitter, elquinto a nivel mundial en términos de uso y es el segundo mayor productor de tuits en elmundo.52 México ocupa el séptimo lugar en el mundo en términos de cuentas de Twitter, conun estimado de 11,7 millones de usuarios activos.53

2.2. Los INE y Big Data: tendencias en América Latina

Un número cada vez mayor de los INE de la región está demostrando interés en involucrarsecon Big Data. Conferencias internacionales, como el Congreso Mundial de la Estadística que elInstituto Internacional de Estadística celebra cada año y la Conferencia Internacional sobre BigData para las Estadísticas Oficiales liderada por la ONU y por el Banco Mundial (la segundaedición tuvo lugar en Abu Dhabi en octubre de 2015) están impulsando el interés de las partesinteresadas a nivel regional. Recientemente, el Encuentro Mundial de Big Data se llevó a cabo enBogotá en octubre de 2015, y en abril del mismo año se llevó a cabo el Cartagena Data Festival, enasociación con el DANE. El llamado a una revolución de los datos y la demanda por medicionesalternativas y más oportunas, sin duda ha despertado el interés a los acercamientos a Big Data enAmérica Latina, especialmente cuando la agenda post-2015 se considera una prioridad política.Colombia y Costa Rica han incluido las metas en sus planes nacionales de desarrollo. Por lo tanto,hay una serie de proyectos piloto en curso llevados a cabo por los INE de la región, especialmenteen Colombia, México y Ecuador. En toda la región, los pilotos varían en el uso de Big Data desdeweb-scraping (raspado de la web) y CDR, hasta medios sociales, satélites, encuestas y más; asímismo los INE y sus respectivos pilotos varían en la etapa en que se encuentran: algunos estánplaneando pilotos, como el IBGE en Brasil, mientras que otros en Perú aún están examinandoposibles pilotos.

Como se mencionó anteriormente, el DANE en Colombia, el INEGI en México y el INEC enEcuador, están liderando el involucramiento con Big Data. Sin embargo, este acercamiento seexpresa mediante enfoques muy diferentes. En Colombia, Big Data hace parte de la estrategiamencionada anteriormente (el DANE Moderno) que es un proceso innovador para modernizarlas operaciones estadísticas a nivel estructural y técnico en Colombia (ver Cuadro 4). Big Data esconsiderado como uno de los aspectos de este proceso, mientras que los cambios técnicosgenerales, como por ejemplo el cambio a HADOOP, favorecen este intento. Las actividades enBig Data se formulan a nivel directivo y se difunden desde allí; un equipo interdepartamental seformó con el apoyo de consultores externos y se han identificado áreas de trabajo potencialespara el DANE. Por otro lado, México y Ecuador iniciaron con un enfoque técnico y prácticoimpulsado por líderes internos. Estos INE iniciaron con pilotos más pequeños, jugando con

50Bibolini y Lancaster 2014.51Reader 2015.52Glickhouse 2013.53Glickhouse 2013.

23

Page 28: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

Cuadro 4: Los INE en América Latina: el DANE Moderno de Colombia

En Colombia, el DANE creó recientemente una nueva estrategia de alto nivel llamada el “DANEModerno”, la cual fue lanzada en 2014. Se espera que el DANE Moderno cree una nueva formade pensar en la institución. Esta narrativa deriva del discurso de la responsabilidad de los INE deconvertirse en productores de conocimiento con el fin de promover marcos de democracia, talescomo informar a los ciudadanos de tal manera que se reafirme la toma de decisiones por parte delciudadano, así como la rendición de cuentas de sus gobiernos. La estrategia también insiste en lanecesidad de transparencia con sus ciudadanos. “El DANE Moderno también significa un DANEde puertas abiertas, de respuestas amables y comprensibles, porque como lo he venido repitiendo,las cifras que producimos no son para quedarnos sentados en ellas, son para compartirlas contodos aquellos que las necesiten”.a El DANE Moderno ha sido denominado como un ejemplode buenas prácticas por varios actores internacionales (por ejemplo ODI y PARIS21). Si bien lapremisa del DANE Moderno supone cultivar una nueva forma de pensar y una nueva cultura,también ha dado lugar a modernizaciones técnicas tales como una mayor digitalización de procesostécnicos, la implementación de nuevos estándares y la construcción de una bodega de datos (datawarehouse). Como parte del DANE Moderno, el DANE también lanzó un proceso de innovación ados niveles a principios de 2015, el cual fue inspirado por el Laboratorio de Innovación del Institutode Estadística Holandés. En este proceso, se invitó a los funcionarios a presentar propuestas deinnovación: los empleados presentaron 84 ideas. Diez fueron seleccionadas para que todos losempleados del DANE votaran por ellas en la intranet; cuatro de estas diez propuestas tenían uncomponente de Big Data. Eventualmente, un jurado externo eligió tres proyectos finales que ahoraestán listos para su desarrollo.

aCordero 2016.

24

Page 29: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

datos disponibles a través de Twitter o web-scraping. Aquellos en un nivel directivo parecen engeneral apoyar los esfuerzos de estos líderes, pero estos aún no han recibido lineamientos desdeel nivel superior.

No es sorprendente que los países que forman parte de la OCDE (i.e. México), que están enproceso de formar parte de la OCDE (Colombia y Perú en las primeras etapas) o que participanen otros grupos de trabajo internacionales (aquellos establecidos por Eurostat y la División deEstadísticas de las Naciones Unidas—en inglés UNSD), sean más progresistas en su acercamientoa Big Data. La UNSD lanzó seis grupos de trabajo a principios de 2015, que se concentran endiferentes aspectos de Big Data. México y Colombia participan en sus actividades y el Grupo deTrabajo sobre Big Data y ODS es liderado conjuntamente por el Banco Mundial y el INEGI deMéxico. En particular, el trabajo de la División de Estadística y el Proyecto Sandox de la UNECEhan desempeñado un papel vital para aquellos INE de América Latina que han tenido el privilegiode participar. Proyectos pioneros, como el trabajo de los Institutos de Estadística de Holanda yEstonia, influyen en proyectos y pilotos en la región de ALC, logrando que los INE examinen laviabilidad de esfuerzos similares en sus respectivos países (ver Anexo 2).

Tres INE de países latinoamericanos respondieron la Encuesta de Big Data de 2015 realizada porel Grupo de Trabajo Mundial sobre Big Data para las Estadísticas Oficiales de las NacionesUnidas: Argentina, Ecuador y México. Entre los proyectos de Big Data que reportaron, Ecuadory Argentina estaban interesados en la creación de índices de precios en tiempo real a partir dedatos publicados en línea por supermercados y puntos de venta minoristas. 54 Hay un númerode pilotos previstos en la región que se relacionan con este tema: para empezar, el trabajo deAlberto Cavallo en el MIT (ver Anexo 4) el cual utiliza información de Internet para generaríndices de precios y medir la inflación de Argentina55 y que ha recibido opiniones favorables devarios INE. Algunos ya están realizando o planean realizar pilotos similares (por ejemploEcuador, Argentina y Colombia). En Colombia, hay planes para utilizar los datos existentes deSIPSA, un innovador sistema de información de precios agropecuarios nacionales (ver Anexo 6),y compararlos y enriquecerlos con datos provenientes de web-scraping. Con su amplia adopciónpor parte de muchos INE en todo el mundo es muy probable que este enfoque se utilice de unaforma u otra para apoyar la medición del primer ODS (reducción de la pobreza).

Además, los datos de redes sociales que son de libre disposición se han utilizado para desarrollarpilotos. Acercamientos para medir el bienestar de los ciudadanos (similar al piloto del Institutode Estadística Holandés,56 que ha sido presentado en varios eventos en el contexto de Big Datay estadísticas; ver Anexo 3) aestán recibiendo más y más atención internacional. El INEGI deMéxico y el INEC de Ecuador están trabajando actualmente en pilotos similares. Teniendo encuenta la cantidad estimada de usuarios activos en Twitter de México (11,7 millones),57 el INEGIse asoció con instituciones académicas 58 para desarrollar herramientas técnicas para medir el

54Ecuador también estaba interesado en la creación de un índice de felicidad, impulsado por el Ministerio deBienestar.

55Cavallo 2013.56Daas y Loo 2013.57Glickhouse 2013.58Aquellos invluyen Infotec, CentroGeo y CIMAT.

25

Page 30: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

bienestar subjetivo a través del análisis de tuits y utilizó los tuits para monitorear movimientos delturismo (ver Cuadro 5). El INEGI también tiene previsto medir la salud mental entre las mujeresjóvenes. En otro piloto, el INEGI utilizó tuits para medir la movilidad y los movimientos delturismo durante un fin de semana largo (coloquialmente puente) en Puebla y Guanajuato. Estose hizo en colaboración con la Secretaría Mexicana de Turismo.59 Se proyecta una investigaciónmás amplia en este campo.

Cuadro 5: Twitter para monitorear el turismo en México

En 2014, un grupo de trabajo sobre Big Data del INEGI llevó a cabo un estudio piloto pararealizar seguimiento al turismo interno a partir de datos de Twitter, con el fin de contribuir ala modelación empírica del comportamiento individual de turistas. El objetivo de este programapiloto fue identificar las características de un turista tuitero promedio con el fin de identificarcuántas personas viajaron a Puebla y Guanajuato durante el fin de semana del 1 al 3 de febrerode 2014. El equipo de investigadores del INEGI, en colaboración con la Secretaría de Turismo deMéxico, analizó 60 millones de tuits publicados de enero a julio de 2014, de la muestra continuageoreferenciada del 1% que Twitter pone a disposición de forma gratuita.a A partir de estos datos,el INEGI recolectó tuits de 7.955 usuarios de Twitter que tuitearon en Guanajuato (48%) y Puebla(52%) durante el fin de semana largo. A continuación, recogieron todos los tuits enviados porlos demás usuarios en el periodo de referencia (para un total de 827.424 tuits) e identificaron quéusuarios tuitearon desde otro estado (presumiblemente su estado de origen) después de estar enGuanajuato o Puebla, con el fin de establecer el origen del turismo interno a estas dos áreas duranteel fin de semana largo.b Las estimaciones resultantes del turismo interno a Guanajuato y Pueblase compararon con las estimaciones realizadas por las respectivas oficinas de turismo de estos dosestados.c

aInstituto Nacional de Estadística y Geografía (INEGI) de México 2015b.bSecretaría de Turismo 2014.cInstituto Nacional de Estadística y Geografía (INEGI) de México 2015b.

Por el contrario, vemos menos pilotos y acercamientos desde los INE al análisis de CDR. Laexcepción es un piloto en Guatemala realizado por el Banco Mundial y Telefónica I+D comoparte del concurso de innovación interna del Banco Mundial y que involucra el INE local enuna etapa posterior. Algunos INE están interesados en el uso de CDR para el monitoreo de lamigración y el turismo, como lo han hecho los INE de Italia, Estonia y Holanda. Por ejemplo,el IBGE está planeando un piloto para el monitoreo actividades turísticas durante los JuegosOlímpicos de 2016 con los datos de CDR. Sin embargo, la falta de acceso a estos datos estáevitando que el proyecto llegue a buen término. Tanto Brasil como Colombia se han acercado alos operadores móviles con el fin de acceder a los datos y están actualmente en conversacionespara tomar muestras de datos para pilotos.

Del mismo modo, ya hay algunos ejemplos pioneros en la aplicación de datos de satélite. EnBrasil, el IBGE, con el apoyo de ONU Mujeres, está utilizando datos remotos satelitales para

59Secretaría de Turismo 2014.

26

Page 31: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

Tabla 2: Descripción general de los proyectos de Big Data en INE seleccionados de ALC

Tipo deBig Data

Datos utilizadosactualmente enlos actividadesde los INE

Proyectos Estado delproyecto

Otrasorganizacionesinvolucradas

Argentina (INDEC)

Datos sub-producto

Web scraping IPC en línea Planeado

Brazil (IBGE)

Contenidosdigitales

Google Maps Desarrollo de Cuentas del Agua Implementado/En curso

CDR Monitoreo del Turismo Planeado

Colombia (DANE)

Datos sub-producto

Web scraping IPC en línea Planeado

Sistema de Información de Preciosdel Sector Agropecuario (SIPSA)

Implementado/En curso

Contenidosdigitales

CDR Monitoreo de actividades criminales Fase piloto World BankData-Pop AllianceTransMilenioNiveles y redes socio-económicas Fase piloto

Datosremotos

Satélites Complementar el Censo NacionalAgropecuario

Ecuador (INEC)

Datos sub-producto

Web scraping IPC en línea Fase piloto

Contenidosdigitales

Twitter Medición del bienestar subjetivo Fase piloto

CDR Migración diurna Planeado

Guatemala (INE)

Contenidosdigitales

CDR Monitoreo de niveles de pobreza Fase piloto Banco Mundial

Telefónica

Mexico (INEGI)

Contenidosdigitales

Twitter Bienestar subjetivo Completado InfoTec yTec Monterrey

Bienestar subjetivo de mujeres Fase piloto Data2x yUniversidad ofPennsylvania

Monitoreo del Turismo Completado Ministry ofTourismMovimientos Fronterizos Planeado

27

Page 32: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

predecir tanto el riesgo de contraer malaria como la carga de morbilidad en mujeres embarazadas,especialmente a lo largo de la frontera entre Brasil y Guyana (ver Cuadro 6). En Colombia, elDANE utiliza datos de satélite en un proyecto piloto para el Censo Nacional Agropecuario. ElDANE evalúa si algunos tipos de variables pueden capturarse a través de imágenes satelitales paracomplementar la información recolectada por la operación censal.60 Los dos proyectos reportadospor México en la Encuesta de Big Data de 2015 mencionada anteriormente, trataban con datosgeográficos y topográficos derivados de imágenes satelitales.

Cuadro 6: Morbilidad materna y teledetección de malaria en Brasil

Datos remotos satelitales sobre la densidad de la vegetación, la humedad del suelo, la densidad depoblación y el patrón espacial de la infraestructura humana han sido utilizados para predecir losniveles de riesgo de malaria. Los avances en la informática permiten ahora un uso más poderoso deestos grandes conjuntos de datos, incluyendo el análisis de la heterogeneidad espacial y temporalextrema y la inclusión de un mayor número de variables explicativas. Este proyecto busca crearmapas de riesgo de malaria para la cuenca del Amazonas, enfocándose en principio en zonasurbanas y peri-urbanas a lo largo de la frontera entre Brasil y Guyana, que son áreas con hábitats delos vectores altamente variables y con una elevada incidencia de la enfermedad. Existen al menosdos estudios de mapeo de la distribución del vector en esta región, pero hasta lo que se sabe nohay un mapeo dinámico en alta resolución del riesgo de malaria. La primera fase del proyectoutilizará los datos de teledetección y registros de salud existentes, en combinación con informaciónsobre el sistema económico, cultural y de salud, para estimar un modelo de regresión espacialque prediga la carga de morbilidad en mujeres embarazadas, utilizando los AVAD (años de vidaajustados por discapacidad) como métrica principal. La segunda fase evaluará la precisión de estemodelo utilizando datos recolectados en tiempo real. ONU Mujeres y el IBGE son las institucionesque lideran el pilotaje de este estudio, apoyándose en instituciones asociadas como la FundaciónGetulio Vargas y la Iniciativa Amazónica contra la Malaria.

Hoy en día, los esfuerzos en Big Data por los INE de la región, como se ha descritoanteriormente, representan proyectos aislados y continúan en la fase piloto. La actividad conrespecto a las aplicaciones de Big Data es naciente, pero está en crecimiento así como lasorganizaciones que están aprovechando los pilotos, enfoques y posibilidades de otros. Esto no essorprendente ni desalentador. Los INE en todo el mundo, incluso los que han estado trabajandoprogresivamente en Big Data durante años (como el INE de Holanda), aún no han logradollevar las aproximaciones a Big Data del estado piloto a un estado operativo funcional, sostenibley completamente implementado. Del mismo modo, en Colombia, Ecuador, México y en toda laregión de ALC en general, es muy temprano para determinar cómo se integrarán los pilotos enlas operaciones regulares. En general, no hay asignaciones claras de recursos que promuevan esteimpulso y la obtención de una inversión generosa en términos financieros y humanos siguesiendo un reto.

60United Nations Statistical Commission 2014a.

28

Page 33: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

2.3. Big Data para los ODS en el ecosistema más amplio de actores

Por fuera del sistema estadístico hay varios actores en toda América Latina que hanexperimentado con el uso de Big Data en un contexto relevante para los ODS. Ejemplosincluyen proyectos de investigación internacionales en Big Data, gobiernos y organismosinternacionales, el sector privado y defensores cívicos de la tecnología.

Proyectos de investigación en Big Data

De manera notable, dichos actores participan con proyectos de investigación 61 En México, porejemplo, Telefónica y su equipo de investigación llevaron a cabo varios proyectos de investigaciónutilizando los CDR de clientes mexicanos con el fin de monitorear el comportamiento despuésde desastres naturales y brotes de enfermedades.62 Aunque Telefónica hizo uso de los datos delcenso para este proyecto, el INEGI no participó activamente.

En Colombia, el Centro Internacional de Agricultura Tropical (CIAT) ha desarrollado modelosde la productividad agrícola en el contexto de la variabilidad del clima. Al identificar qué tipo deprácticas agrícolas han funcionado bien históricamente, en qué ubicaciones funcionaron ydurante cuáles periodos identificables climáticos funcionaron, el modelo le ahorró a losproductores de arroz colombianos un estimado de 3,6 millones de dólares en una temporadareciente.63 En otro proyecto de investigación de Big Data, los científicos de la Universidad JohnHopkins en los EE.UU. analizaron tuits relacionados con la salud como parte de Google Trendssobre los brotes de gripa y dengue en Brasil, México y otros países de la región.

Gobiernos y agencias internacionales

Adicionalmente a los esfuerzos en gobierno abierto, los gobiernos latinoamericanos tambiénhan comenzado a mirar los casos de uso de Big Data para promover la eficiencia y mejorar laspolíticas. Como parte de una iniciativa de ciudad inteligente en Guadalajara, México, la ciudadestá analizando los datos de sensores para mejorar la eficiencia energética (entre otras eficiencias)con el apoyo de Cisco.64 El análisis de los medios sociales durante los procesos electorales, losdatos sobre el flujo vehicular y la predicción del crimen son otras áreas que los gobiernos estánexplorando. El Instituto Nacional de Vías de Colombia utiliza datos de GPS a través de undispositivo de seguimiento electrónico para mejorar la circulación del tráfico y como entradapara estadísticas de transporte. Cada vez que un coche pasa por una estación de peaje se registraautomáticamente. El dispositivo contiene toda la información del vehículo, que complementa

61Para una descripción general de casos de Big Data o proyectos relacionados con datos, ver por ejemplo uninforme del Banco Mundial “Big Data In Action for Development” y un documento de trabajo publicado por laCEPAL sobre “Big Data and Open Data as sustainability tools”.

62Clark 2013.63CGIAR Research Program on Climate Change, Agriculture and Food Security (CCAFS) 2014.64United Nations Statistical Commission 2014a.

29

Page 34: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

aquella del Registro Único Nacional de Tránsito. Hasta el momento, este nuevo método ha sidoprobado en 10 estaciones de peaje en Colombia y ha mejorado el control de los flujos de tráfico,como también ha fortalecido las estadísticas de transporte.65

Otras agencias gubernamentales, tales como los ministerios encargados de las TIC, lascomunicaciones o las finanzas, también han evaluado las aplicaciones de Big Data y han iniciadopilotos. Por ejemplo, el Ministerio de Hacienda en Colombia encargó una investigación a travésde Google Trends para hacer predicciones en tiempo real sobre la actividad económica (verCuadro 7). El Ministerio del Interior y la Oficina de las Naciones Unidas contra la Droga y elDelito utilizan imágenes satelitales para medir y monitorear los cultivos de coca en Colombia através del Sistema Integrado de Monitoreo de Cultivos Ilícitos.66

Como se menciona en la sección 2.2, las organizaciones donantes y agencias internacionalesestán impulsando muchos esfuerzos en Big Data en la región. Un ejemplo es el proyectomencionado previamente liderado por el Banco Mundial y Telefónica I+D que utiliza los datosde CDR en Guatemala para estimar la pobreza. El Banco Mundial llevó a cabo otros pilotos enNicaragua y Guatemala que ponen a prueba el enfoque de Chen et al. en el uso de laluminosidad como una proxy de los niveles socioeconómicos (ver Anexo 5).67 El BancoMundial también apoya las actividades en Big Data del DANE en Colombia, donde estedocumento exploratorio ha sido uno de los elementos. El Global Pulse de las Naciones Unidastambién ha desempeñado un papel promotor dentro del Fondo para la Evaluación de ImpactoRápido y Vulnerabilidad (RIVAF por sus siglas en inglés); la UNDOC y el Global Pulse de lasNaciones Unidas investigaron cómo las crisis pueden afectar los niveles de criminalidad. Secentraron en cuatro ciudades de América Latina (Buenos Aires, Montevideo, Sao Paulo y Río deJaneiro) utilizando datos sobre la delincuencia de alta frecuencia registrados por la policía.68

Data-Pop Alliance, junto con Telefónica y BKF (y financiado por el Banco Mundial), también hapuesto en marcha pilotos para dos iniciativas que se centran en la seguridad pública y ladelincuencia en Bogotá utilizando CDR.

Otras instituciones internacionales, como el Fondo de Población de las Naciones Unidas(UNFPA) y el Departamento de Desarrollo de las Naciones Unidas, con quienes la mayoría delos INE ya tienen acuerdos formales, también se están volviendo cada vez más activos en estecampo. La Oficina para la Coordinación de Asuntos Humanitarios de las Naciones Unidas(UNOCAH) está trabajando activamente en la mejora de su portal Intercambio de DatosHumanitarios (HDX) , el cual será una fuente interesante de información y una plataforma decoordinación para los INE. Generalmente dotados de mejores recursos, estos organismospueden ser importantes coordinadores para los INE de la región de ALC (ver Tabla 3). Laalianza internacional CIVICUS centrándose en Organizaciones de la Sociedad Civil, estableciósu proyecto Datashift para generar y mejorar los datos generados por los ciudadanos y llenarvacíos de datos existentes.69

65Pretz 2014.66Pretz 2014.67Chen y Nordhaus 2011.68United Nations Global Pulse 2012.69CIVICUS s.f.

30

Page 35: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

Cuadro 7: Uso de Google Trends para hacer predicciones en tiempo real sobre la actividadeconómica en Colombia

Los indicadores económicos utilizados por el Departamento Administrativo Nacional deEstadística de Colombia (DANE) para analizar la actividad económica a nivel sectorial tienen unrezago promedio de tiempo de 10 semanas. Con el fin de obtener más estimaciones en tiemporeal de la actividad económica, el Ministerio de Hacienda de Colombia, está buscando formas depronosticar en tiempo real la actividad con base en los datos de búsquedas web de Google.

Los investigadores en el Ministerio de Hacienda analizaron la frecuencia relativa de términosde búsqueda particulares a través de Google Trends, una herramienta gestionada por Google querealiza un seguimiento de los términos de búsqueda que prevalecen en el tiempo y proporcionaun índice de qué tan comunes son las consultas en cada parte del mundo para un período detiempo dado. Sobre la base de una metodología para la predicción a corto plazo de las serieseconómicas desarrolladas por Choi y Varian,a los investigadores utilizaron datos de Google Trendspara inferir la actividad económica a nivel sectorial eligiendo algunas palabras clave que actuarancomo indicadores del comportamiento de los consumidores,b proporcionando de este modoindicadores alternativos a las estadísticas tradicionales de una manera mucho más oportuna. Estosindicadores se produjeron para ciertos sectores de la economía como la agricultura, la industria,el comercio, la construcción y el transporte; otros sectores económicos como la minería o losservicios financieros no se pueden evaluar con este método.c

Los indicadores sectoriales resultantes, conocidos como ISAAC, se validaron con los indicadoresoficiales de la actividad económica del DANE y los dos conjuntos de indicadores se publicaron. Losdatos ISAAC, que hacen referencia al nivel sectorial, se agregan para producir un único indicadorlíder de la actividad económica, conocido como ISAAC+. El equipo del proyecto, dirigido porLuis Fernando Mejía, publica el ISAAC y el ISAAC+mensualmente.

Una limitación importante de este tipo de medidas basadas en la Web es que corren el riesgo de noser representativas en países donde la penetración de Internet es baja, como es el caso de Colombia(∼ 60%). Sin embargo, en la medida en que la penetración a Internet siga creciendo, la advertenciade la no representatividad se convierte en un problema menor.

Por lo tanto, la exploración de Colombia de indicadores económicos más oportunos esprometedora y ha atraído la atención de otros países interesados en la implementación de suspropios pronósticos de indicadores económicos basados en Big Data.d

aHyunyoung y Varian 2011.bMejía y col. 2013.cThe World Bank, World Bank Group y Social Muse 2014.dThe World Bank, World Bank Group y Social Muse 2014.

31

Page 36: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

Tabla 3: Descripción general del ecosistema de Big Data en ALC

Actores País Descripción del proyecto

Investigación en Big Data

Alberto Cavalloy equipo en el MIT

Argentina, Brasil,Chile, Colombia,Uruguay, Venezuela

Utiliza información de Internet paragenerar el índice de Precios y medir lainflación

TelefónicaGobierno del Estado de Jalisco

México Utiliza CDR de clientes mexicanos paramonitorearel comportamiento en el curso de desastresnaturaleso después del brote de enfermedades

Centro Internacional deAgricultura Tropical

Colombia Modelos de productividad agrícola parala variabilidad climática

Universidad Johns Hopkins Brasil,México,y otros

Análisis de tuits relacionados con la saludcomo parte de Google Trends sobre losbrotes de gripa y dengue

Monroy-Hernández et al.en el MIT

México Utiliza medios sociales y Twitter paraexaminar la guerra contra las drogas

Coscia y Rios en el MIT México Utiliza datos de Google para rastrear lasorganizaciones de tráfico de drogas enMéxico

Governments

Gobierno de Guadalajara con elapoyo de Cisco

México Análisis de datos de sensores, como parte deuna iniciativa de ciudad inteligente para sermás eficientes en el uso de la energía, entreotros objetivos

Ministerio del Trabajo Colombia Uso de webscrapping para monitorearvacantes

Ministerio de Hacienda yCrédito Público

Colombia Uso de Google Trends para hacerpredicciones sobre la actividad económicaen Colombia

Oficina de la Presidencia de laRepública y la Universidad deChicago

México Detección de mortalidad maternautilizando los registros de nacimiento ydefunción, registros de alta de pacientes,datos de hospitales, datos de censos—desde1990

Instituto Nacional de Vías Colombia Utilización de imágenes satelitales paramedir y monitorear los cultivos de coca enColombia

(a continuación)

32

Page 37: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

(a continuación)

Actores País Descripción del proyecto

World Resources Institute Colombia Observatorio Mundial de Bosques usandodatos de satélite

ONU Mujeres Brasil Datos remotos satelitales sobre la densidadde la vegetación, la humedad del suelo, ladensidad de población y el patrón espacialde la infraestructura humana han sidoutilizados para predecir los niveles de riesgode malaria

Ministerio de Hacienda yCrédito Público

Colombia Uso de Google Trends para hacerpredicciones en tiempo real sobre laactividad económica en Colombia

Ministerio del Interior enconjunto con la Oficina de lasNaciones Unidas contra laDroga y el Delito

Colombia Utilización de imágenes satelitales paramedir y monitorear los cultivos de coca enColombia a través del Sistema Integrado deMonitoreo de Cultivos Ilícitos

Fundação Getúlio Vargas,Gobierno de Brasil

Brasil La FGV trabajó con el gobierno brasileñopara utilizar Big Data en el análisiseconómico con el fin de hacer más eficienteel gasto

Organismos internacionales

Banco Mundial y TelefónicaI+D

Guatemala Uso de datos de CDR para estimar lapobreza

Banco Mundial NicaraguaGuatemala

Prueba del enfoque de Chen et al. en el usode la luminosidad como una proxy de losniveles socioeconómicos

Banco Mundial, Data-PopAlliance

Colombia Apoyan y exploran posibilidades en el usode Big Data para ODS con INE en AméricaLatina

Global Pulse de las NacionesUnidas y la Oficina de lasNaciones Unidas contra laDroga y el Delito

Argentina, Uruguay,Brasil

Investigan cómo las crisis pueden afectar losniveles de criminalidad utilizando datossobre la delincuencia de alta frecuenciaregistrados por la policía

Oficina para la Coordinación deAsuntos Humanitarios(UNOCAH)

América Latina Trabajando activamente en la mejora de suportal Intercambio de Datos Humanitarios(HDX)

(a continuación)

33

Page 38: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

(a continuación)

Actores País Descripción del proyecto

Movimientos de tecnología cívicos

Open Intelligence México Open Intelligence ayudó al Ministerio delInterior de México a entender las tasas decriminalidad en los barrios basados endiferentes conjuntos de datos

SocialTIC México Apoyar al gobierno en la implementaciónde su estrategia de datos abiertos y en laorganización de eventos comunitarios parahacer uso de los datos del gobierno

Unidos pela Segurança (UPSEG)desarrollado por Stal IT

Brasil Un proyecto de crowdsourcing que permitea los ciudadanos reportar incidentescriminales y contribuir a la seguridadpública

Actores privados y start-ups

IBM

Microsoft

Multinational Banks América Latina Aplicar el análisis de big data paraidentificar lavado de dinero y fraude

Random Monkey (antesAentropico)

Colombia Una compañía de software (start-up) queanaliza big data

Cignifi Brasil Una compñía (start-up) que analiza lospatrones de uso de dispositivos móviles parapredecir el estilo de vida de una persona y sucorrespondiente perfil de riesgo crediticio

BogoHack Colombia Organizan hacks de ciencia y hackatones.

34

Page 39: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

Enfoques del sector privado

Adicionalmente, hay otros actores que están trabajando en innovación basada en datos enAmérica Latina y que podrían convertirse en socios útiles. Como se mencionó anteriormente,compañías multinacionales, como IBM y Microsoft, realizan grandes inversiones en proyectosde Big Data en toda la región. Muchas comienzan proyectos piloto como asociacionespúblico-privadas (por ejemplo, en el caso de Río de Janeiro IBM proporciona su tecnologíaSmart City gratis y utiliza a cambio de los datos y resultados para mejorar y poner a prueba susservicios). Durante años, la banca multinacional que opera en la región ha estado utilizandoaplicaciones de Big Data para identificar lavado de dinero y fraude.

Al igual que en otras regiones del mundo, hay un número creciente de empresas nuevas(start-ups) establecidas bajo ideas de negocio basadas en datos. Muchos profesionales jóvenesformados en tecnologías de la información (TI) en Estados Unidos regresan a América Latina,donde encuentran oportunidades únicas para desarrollar modelos de negocio impulsadoslocalmente. Hoy en día hay 17 empresas de Internet/software en América Latina cuyo valorcombinado es de más de US$250 millones, y muchas de ellas se han desarrollado en los últimoscuatro años, procedentes principalmente de Brasil y Argentina. De acuerdo con un estudiorealizado por Frost & Sullivan, Brasil, México y Colombia han invertido en analítica de BigData lo que ha resultado en ganancias por US$603,7 millones solo en el 2014; la empresa deanálisis de datos Aentropico (ahora Random Monkey) es una de estas empresas pioneras. Elstart-up brasileño Cignifi analiza los patrones en los usos de los dispositivos móviles parapredecir el estilo de vida de una persona y su correspondiente perfil de riesgo crediticio. Secentra en los 100 millones de ciudadanos de clase media que tienen acceso limitado a productosfinancieros como préstamos hipotecarios o de otro tipo debido a la falta de historial crediticiotradicional. En México, el start-up Open Intelligence ha desarrollado una plataforma queanaliza los datos del gobierno y apoya órganos gubernamentales para que utilicen sus propiosdatos para la toma de decisiones basada en la evidencia (ver Anexo 7).

Movimiento de tecnología cívica

Muchos países latinoamericanos, como Chile, Argentina, y Brasil, han visto fuertesmovimientos de código abierto (Open Source) y un interés general en el hacking social impulsadopor los enfoques de Gobierno Abierto 70. Encontramos varias organizaciones civiles en laintersección de la tecnología civil y los datos que organizan hackatones y hacks de ciencia. EnMéxico, la ONG SocialTIC apoya al gobierno en la implementación de su estrategia de datosabiertos y organiza eventos con la comunidad para hacer uso de los datos del gobierno. EnColombia, los hackers de BogoHack organizan hacks de ciencia y hackatones, y GeoCensus seenfoca en la aplicación de geodatos. Además, proyectos de crowdsourcing de datos a través de laregión apoyan la acción ciudadana; plataformas como CIC por Citivox en México o Unidos pelaSegurança (UPSEG) desarrollado por Stal TI en Brasil, permiten a los ciudadanos reportar

70Como referencia: investigación en curso de Open Data Research Network: http://www.opendataresearch.org/content/2014/574/opening-data-montevideo-bottom-experience

35

Page 40: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

incidentes criminales y contribuir a la seguridad pública .

Adicional al movimiento de tecnología cívica hay un número creciente de organizaciones de lasociedad civil e instituciones de investigación que participan activamente en un discurso crítico entorno a los datos en manos de los gobiernos y las empresas privadas. La mayoría de ellos formanparte de las redes trans-continentales e internacionales que abogan por los derechos humanos enla era digital, incluyendo el derecho a la privacidad. Entre esas organizaciones están la FundaciónKarisma en Colombia, la Red en Defensa de los Derechos Digitales en México, Derechos Digitalesen Chile o el Instituto de Tecnologia & Sociedade do Rio en Brasil. Estas serán importantes vocesy defensores de los intereses de los ciudadanos y consumidores en un ecosistema de Big Dataemergente.

Tabla 4: Organizaciones de la sociedad civil trabajando en derechos digitales

Organization CountryFundactión Karisma Colombia

R3D, Red en Defensa de los Derechos Digitales MexicoDerechos Digitales Chile

Universidad de Palermo, Centro de Estudios enLibertad de Expresión y Accesso a la Informaci ón

Argentina

Asociación por los Derechos Civiles ArgentinaFGV Direito Rio Brazil

Colnodo Colombia

2.4. Intentos internacionales de utilizar Big Data para las estadísticasoficiales y el desarrollo

La UNECE y, más recientemente, la Oficina de Estadística de las Naciones Unidas han impulsadodiscusiones específicas sobre los casos de uso potenciales de Big Data para los INE, así comodiscusiones sobre las implicaciones de Big Data en general. En 2010 se estableció un Grupo de AltoNivel para la Modernización de la Producción y Servicios Estadísticos para supervisar y coordinarel trabajo internacional en relación con la modernización estadística basada en estándares71; en2014 la Oficina de Estadística de las Naciones Unidas creó un Grupo Global de Trabajo en BigData para las Estadísticas Oficiales, cuyo mandato se basa en consideraciones estratégicas convínculos específicos a la Agenda de Desarrollo Post-2015, la iniciativa de Revolución de los Datos

71El Grupo de Alto Nivel para la Modernización de la Producción y Servicios Estadísticos patrocina unaserie de proyectos de colaboración internacional para comprender mejor cómo aprovechar el poder de “BigData” y otras fuentes de datos nuevas, para apoyar la producción de estadísticas oficiales. Este trabajo apoya elconcepto de una “Revolución de Datos para el Desarrollo Sostenible,” y el desarrollo y seguimiento de los nuevosObjetivos de Desarrollo Sostenible. Estos proyectos están abiertos a todas las organizaciones estadísticas nacionalese internacionales que quieran contribuir.

36

Page 41: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

y los Principios Fundamentales de las Estadísticas Oficiales.72 Éstos dan información valiosa sobrelas posibles áreas donde se podría utilizar Big Data para medir los ODS.

A continuación se muestra una figura usando los datos de la Encuesta de 2015 del Banco Mundialsobre las iniciativas de Big Data para los ODS que muestra todas las metas de los ODS a los queorganizaciones de todo el mundo están apuntando (de la región de ALC sólo el INEGI y el IBGErespondieron) 73

Figura 4: Comparación de objetivos de los ODS auto-reportados

Datos de la Encuesta de 2015 del Banco Mundial sobre proyectos de Big Data para los ODS

Los INE alrededor del mundo han comenzado a trabajar con fuentes de big data y a involucrarselentamente con el ecosistema más amplio de Big Data. El Instituto de Estadística de Holandallevó a cabo varios pilotos, incluyendo análisis de tráfico, CDR y datos de medios sociales parapredecir el bienestar subjetivo (Ecuador pretende hacer algo similar). Italia y Holanda hanutilizado los datos de telefonía móvil para monitorear estadísticas de movilidad. Los INE deChina y el Reino Unido han llevado a cabo proyectos de investigación sobre el uso de Big Datapara la fijación de precios y sobre el análisis de datos de contadores inteligentes para la

72United Nations Statistical Commission 2014b.73En las respuestas de la encuesta del Banco Mundial sobre focalización de los ODS, el INEGI en México focalizó

el ODS 10.7 (Facilitar la migración y la movilidad ordenadas, seguras, regulares y responsables de las personas,incluso mediante la aplicación de políticas migratorias planificadas y bien gestionadas) y 17.19 (De aquí a 2030,aprovechar las iniciativas existentes para elaborar indicadores que permitan medir los progresos en materia dedesarrollo sostenible y complementen el producto interno bruto, y apoyar la creación de capacidad estadística en lospaíses en desarrollo); el IBGE de Brasil informó la focalización del ODS 1.a (Garantizar una movilización significativade recursos procedentes de diversas fuentes, incluso mediante la mejora de la cooperación para el desarrollo, a fin deproporcionar medios suficientes y previsibles a los países en desarrollo, en particular los países menos adelantados,para que implementen programas y políticas ncaminados a poner fin a la pobreza en todas sus dimensiones). UnitedNations, “Sustainable Development Goals.” https://sustainabledevelopment.un.org/topics

37

Page 42: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

identificación de las estructuras familiares.74 Otros han utilizado datos móviles para poblacióndiurna, movilidad y estadísticas de turismo, entre otras. Sin embargo, como lo ha establecido elInstituto de Estadística de Holanda, la comunidad de las estadísticas oficiales apenas ha visto lapunta del iceberg en lo que se refiere a la exploración de Big Data75 y muchos afirman que losINE tendrán que someterse a cambios de paradigma radicales en la metodología estadística, conel fin de permitir que Big Data gane terreno en las estadísticas oficiales.76

3. Retos y requerimientos para los INE que se involucrencon Big Data para los ODS

Como se dijo anteriormente, una serie de retos operativos, tales como el aumento del accesoa los registros administrativos, ya obstaculizan las actividades estadísticas actuales de los INE deAmérica Latina; muchos de estos mismos retos también limitan su potencial para involucrarse conBig Data. Esta sección aborda los retos más importantes que enfrentan los INE para involucrarsecon Big Data y proporciona recomendaciones sobre los enfoques y pasos a seguir que los INEpueden tomar para abordar estas cuestiones.

A través de la revisión de la literatura, entrevistas, estudios de casos y análisis DOFA (ver Anexo10), se identificaron cinco grandes desafíos que tienen los INE de América Latina parainvolucrarse con Big Data: barreras institucionales para la innovación y la gestión del cambio;restricciones en el acceso y completitud de los datos; desafíos técnicos; brechas en capacidadhumana; desafíos metodológicos; y riesgos legales y políticos, los cuales también se analizan.

3.1. Barreras institucionales para la innovación y la gestión del cambio

El uso de Big Data es un proyecto significativo para un INE. Es probable que implique uncambio de cultura, lo que requiere tanto un incremento en las interacciones con ejemplos yactores externos, así como una disposición interna hacia la innovación y la transformación. LosINE de América Latina enfrentan barreras institucionales para la innovación y la gestión delcambio en gran parte debido a una falta de cultura digital interna y una percepción escépticasobre las nuevas fuentes de datos.

La falta de cultura digital interna y habilidades lingüísticas

Ciertamente existen ejemplos alentadores en la disposición de algunos INE para transformarsehacia la innovación y la apertura. El proceso de innovación del DANE (una parte del DANE

74Instituto Nacional de Estadística y Geografía (INEGI) de México 2015b.75Daas y Loo 2013.76Scannapieco y col. 2013.

38

Page 43: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

Moderno Cuadro 4) presenta un ejemplo único que proporciona un espacio para la innovaciónen la región. Además, los INE se han involucrado de manera más directa con los ciudadanos através de las redes sociales y han proporcionando infografías como visualizaciones de susúltimos informes. Sin embargo, a pesar de estos nuevos esfuerzos, se necesitará tiempo para verlos resultados de estas iniciativas en términos de un verdadero cambio cultural. En general, losINE siguen siendo conservadores hacia la innovación y el cambio: los estándares y la calidaddefinen las buenas estadísticas, no la innovación y la experimentación. Un obstáculo es tambiénel hecho de que muchos recursos y discusiones se dan en inglés, elemento que algunosfuncionarios no dominan, como es comprensible.

Esta cultura aprehensiva se refleja en prácticas análogas internas. En muchos INE de la región, alpersonal todavía no se le permite acceder a Internet desde sus oficinas, lo que solo se puede explicaren parte por restricciones de confidencialidad. Si el Internet y las nuevas tecnologías se excluyende la vida cotidiana de trabajo, un cambio cultural en los INE hacia nuevas fuentes derivadas deInternet, sigue siendo significativamente difícil.

Adicionalmente hay un escepticismo general hacia enfoques impulsados por nuevos datos en elpersonal de los INE de la región ya que ven a las nuevas tecnologías y a Big Data como posiblesamenazas a sus puestos de trabajo. Con una larga tradición en encuestas de hogares, los INE deAmérica Latina emplean varios miles de personas y dudan en aceptar nuevas fuentes de datoscon los que no estén familiarizados. A menudo esto se debe también a una falta general decomprensión y una concepción errada de Big Data, que se confunde con proyectos de TI másgenerales, el uso de medios sociales (como en el monitoreo de medios sociales), la construcciónde almacenes de datos y actividades recientes en el campo de los datos abiertos. Este asunto sedebe tener en cuenta y los empleadores en todos los niveles deben informarse acerca de lasrealidades e implicaciones de Big Data cuando realicen nuevos proyectos que involucren BigData.

Si los procesos digitales se pueden adoptar internamente, es más probable que una organizacióny sus empleados reconozcan su valor. Aquí se requiere suficiente apoyo y compromiso de altonivel hacia estos desarrollos. Al mismo tiempo, los enfoques prácticos y pilotos de prueba y erroren Big Data, así como el intercambio con colegas de otros INE de la región, podrían estimularla aceptación, el entendimiento y el interés en los enfoques en Big Data entre los empleados,ayudando a ilustrar casos de uso. Por ejemplo, en un experimento práctico interno en México, elpersonal del INEGI fue capaz de recibir una primera mirada al valor real de las aplicaciones deBig Data para sus operaciones y, al mismo tiempo, adquirir una comprensión general de cómoesto podría cambiar positivamente su trabajo en el futuro. Esto será crucial para asegurar tambiénque los pilotos y proyectos sean impulsados por prioridades locales y embebidos en los debatesregionales, incluyendo los posibles riesgos y desafíos.

Percepción escéptica sobre nuevas fuentes de datos

“Esto siempre ha sucedido en el pasado. Los países en que agencias internacionales handesarrollado y difundido innovaciones, por ejemplo nuevas herramientas de software, han

39

Page 44: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

tenido dificultades para evaluar y valorar su idoneidad”. En general, la aceptación y elentendimiento de Big Data también requerirá un enfoque práctico que permita a los empleadosparticipar activamente y jugar con nuevos datos como una fuente de los procesos estadísticos,ilustrando casos de uso para los empleados.

Recomendaciones

Promover una cultura de trabajo digital

Informar activamente a los funcionarios acerca de la aplicación e implicaciones de Big Data

Permitir a los pilotos y el uso práctico de fuentes de Big Data para poner a prueba posiblescasos de uso

Desarrollar recursos en español y portugués, así como desarrollar habilidades en inglés yfomentar contenidos e intercambios multilingües

3.2. Limitaciones para el acceso y la completitud de los datos

El sector privado está profundamente comprometido con toda la cadena de valor de los datos yuna parte de la revolución de los datos depende en gran medida de la inclusión de empresas.77

Sin embargo, sigue existiendo una cooperación limitada en toda la región de ALC entre los INEy el sector privado, en particular con la industria de las telecomunicaciones. En la actualidad, elintercambio con el sector privado ha sido determinado principalmente por acuerdos generalessobre el intercambio de datos en el contexto de las estadísticas tradicionales (es decir, los INEsolicitan datos a una empresa para completar registros). Sin embargo, las asociaciones público-privadas y otras formas de colaboración para el intercambio de conocimientos y habilidades sonformas de participación más o menos nuevas para los INE.

El acceso a los datos del sector privado, por tanto, constituye la parte más difícil para procedercon Big Data en América Latina; esto también se refleja en otras regiones como lo hademostrado una encuesta reciente de la UNECE.78 Como se discutió anteriormente, algunasformas de Big Data, tales como algunos datos de medios sociales (por ejemplo, datos de Twitter)están parcialmente disponibles y podrían ser una fuente prometedora para monitorear ymejorar los datos socioeconómicos en la medición de los ODS. Sin embargo, otras formas deBig Data (por ejemplo los CDR) permanecen estrictamente en servidores de empresas. Mientrasque varios INE de países latinoamericanos han expresado su interés en trabajar con los datos deCDR, la limitada posibilidad de acceder a fuentes de datos privados ha retrasado estas iniciativas.Telefónica ha sido el único operador de telefonía móvil que ha utilizado abiertamente sus datos

77Ballivian y Hoffman 2015.78United Nations Economic Commission for Europe (UNECE) 2013.

40

Page 45: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

con fines de investigación en América Latina. Teniendo en cuenta el hecho de que AméricaMóvil (a través de sus filiales) tiene una penetración móvil importante en la región, sería crucialentender los incentivos potenciales para la colaboración y apertura de los datos de CDR deAmérica Móvil.

Más aún, incluso los pilotos de investigación en curso a partir de los datos de CDR han sidoampliamente dirigidos por los operadores móviles en lugar de los INE. En México, Telefónicaha realizado investigaciones y ha utilizado los datos del INEGI y sin embargo, la institución noha estado involucrada en las investigaciones. Un proyecto de investigación actual basado endatos de Telefónica en Guatemala se estableció como resultado de la capacidad de convocatoriadel Banco Mundial como tercero. En Brasil, el IBGE ha tratado sin éxito de acceder a los datosde CDR para fines experimentales y ahora ha pedido ayuda a la Agencia Nacional deTelecomunicaciones (ANATEL). Falta ver si tendrán éxito. El acceso ocasional a los datos puedeser un primer paso hacia la participación y la experimentación con los mismos, pero dará pocolugar a la sostenibilidad. Esto también es cierto en el contexto de los datos de medios de socialescuando se interrumpe su acceso a través de la API (siglas en inglés para la interfaz deprogramación de aplicaciones).

En este momento, simplemente no hay un conjunto coherente e integral de regulaciones odirectrices que rijan el acceso a los CDR u otros datos del sector privado. Se carece de recursosdisponibles abiertamente, fáciles de usar y que cumplan con leyes para el establecimiento deestas asociaciones, que deben ser entre industrias y entre jurisdicciones.79

En el pasado, se pudieron llevar a cabo investigaciones sobre datos de CDR en otras regionesya que se llevaron a cabo ya sea internamente (con Telefónica I+D), enmarcadas en acuerdosespecíficos entre instituciones de investigación y el operador (por ejemplo, en Holanda e Italialos INE tenían acuerdos con Telekom)80 o bajo arreglos especiales como parte de enfoques de“filantropía de datos”,81 que también implicaron la configuración de un acuerdo formal (el desafíode datos para el desarrollo de Orange - Orange D4D Challenge)82.83

Para beneficiarse completamente de Big Data, las empresas privadas, los INE y los gobiernosnecesitan un ‘nuevo acuerdo’ de datos.84 Los ODS ilustran la necesidad de políticas nuevas einternacionales que cambien el enfoque actual para el acceso y utilización de los datos. Elmonitoreo requerirá un acceso estable y sostenible a los datos en una escala global. Es pocoprobable que algunos INE o gobiernos individuales puedan imponer tal cambio; por elcontrario, se requerirán acuerdos globales, es decir, acuerdos con el apoyo de la ONU o delForo Económico Mundial.

Se espera que este nuevo acuerdo esté fundamentado en un debate público más amplio sobre lapropiedad de los datos. Enfoques como la filantropía de datos, por ejemplo, sugieren con

79Ballivian y Hoffman 2015.80United Nations Statistical Commission 2014a.81Pawelke y Tatevossian 2013.82.83Orange 2014.84Pentland 2009.

41

Page 46: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

demasiado énfasis que los datos pertenecen a los operadores de telefonía móvil y no a losemisores individuales de los datos. Varias academias como el MIT u organizaciones de derechosciviles como la Fundación Open Knowledge cuestionan este enfoque.85 Así que mientras, seráimportante para crear asociaciones sólidas con el sector privado, los INE no deben convertirseen solicitantes de empresas privadas o de sus ideas de proyectos. El interés de una empresaprivada, impulsada por incentivos económicos, rara vez será congruente con el interés de unINE que tiene una agenda pública. Hasta el momento, este debate sigue siendo débil en AméricaLatina y con suerte, la región se beneficiará del debate global, en la medida en queorganizaciones de la sociedad civil de América Latina se involucren cada vez más en la discusión.

Recomendaciones

Involucrarse con el sector privado

Evaluar los modelos actuales para el intercambio de datos corporativos

Establecer acuerdos para asociaciones público-privadas

3.3. Desafíos técnicos

Big Data plantea una serie de desafíos técnicos y obstáculos, particularmente en términos decontrol de calidad de los procesos estadísticos. El volumen de los datos requiere una expansiónde las técnicas de procesamiento que coincida con los sistemas de infraestructura de hardware yalmacenamiento de re-ingeniería moderna. Los algoritmos de aprendizaje requieren capacidadesinformáticas adecuadas para la variedad de las llamadas de datos que permiten la combinación dediferentes tipos de datos recogidos en diferentes niveles, a veces con estructura temporal ogeográfica86 Los datos no estructurados (por ejemplo, datos de satélite y datos de mediossociales) requieren capacidades analíticas específicas con el fin de entrenar manualmente losalgoritmos para que clasifiquen este contenido de forma automática. Los datos estructuradoscomo los datos de CDR pueden ser más fáciles de procesar, pero a menudo necesitan servalidados con otras fuentes, tales como los datos de satélite o de servicios a hogares.

Estos desafíos son de hecho similares a los desafíos relacionados con el uso de datosadministrativos. Como era de esperarse, los INE a lo largo de América Latina siguen luchandocon la transición técnica al uso cada vez mayor de datos administrativos compuestos por datosestructurados y no estructurados, lo que requiere nuevos estándares y formatos. Muchos INEestán actualmente en el proceso de construir almacenes de datos como repositorios centrales debases de datos que enfocan e integran encuestas, censos y registros administrativos. Estas

85Pentland 2009.86Kreuter y Peng 2014.

42

Page 47: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

actividades continuas ayudarán a mejorar la captura, limpieza, procesamiento, análisis yvisualización de datos mediante el uso de herramientas que permitan controlar de maneraautomática el procesamiento, con variables estandarizadas y bases de datos de un mismo tema.

Adicionalmente, el fuerte movimiento de Datos Abiertos en América Latina favorece losesfuerzos de Big Data, ya que fomenta la estandarización de formatos de datos. La transiciónhacia formatos de datos abiertos e intercambiables, tales como los estándares de la OCDE paramicro y metadatos (CVS y SDMX), facilita algunas aplicaciones de big data. La CEPAL, porejemplo, ya soporta la armonización de software, tecnologías y herramientas, incluyendo laarmonización metodológica para el intercambio de datos en la región,87 que desde ya facilita elproceso de medición de los ODS y mejora la calidad de los datos.

Se tendrán que adoptar herramientas y técnicas específicas de TI para acoger Big Data. Elenorme tamaño de los conjuntos de datos requiere el uso de sistemas de archivos distribuidospara superar las limitaciones físicas. Se requieren por lo tanto plataformas, tales comoHADOOP, para gestionar sistemas de almacenamiento complejos. Estos importantescomponentes de tecnologías de la información se utilizan con frecuencia en el proceso derecolección, almacenamiento y análisis de Big Data (ver Anexo 9).

Recomendaciones

Utilizar servicios de libre acceso

Compartir herramientas y software entre los INE

Promover y beneficiarse del esfuerzo en Datos Abiertos

3.4. Brechas de capacidad de capital humano

En las regiones en desarrollo, la falta de estadísticos entrenados todavía plantea un gran desafíopara la mayoría de los INE (el INEGI constituye de nuevo una excepción). En la lucha porjóvenes estadísticos, los INE de muchos países de América Latina compiten directamente conorganizaciones internacionales como los capítulos de la ONU y no pueden igualar los salarios.Este problema se hace aún más evidente con el ascenso de Big Data que exige habilidades muyespecíficas. Por ejemplo, los científicos de datos y computación, que son capaces de manipularconjuntos de datos complejos, y los ingenieros de datos, que diseñan la arquitectura de TI para larecolección y procesamiento de datos, son escasos.

En América Latina, hasta ahora sólo unas pocas universidades ofrecen formación en Ciencia de

87Economic Commission for Latin America and the Caribbean (ECLAC/CEPAL) 2013.

43

Page 48: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

Datos y los INE compiten con start-ups y empresas de Internet en la lucha por expertos en datos.Sin embargo, en los países más prósperos esto parece estar cambiando y el número de programasde maestría está aumentando, por ejemplo, en la Universidad de Los Andes en Colombia o en elInstituto Tecnológico Autónomo de México en Ciudad de México. En Brasil, actualmente hayun alto número de graduados en el área de la informática.88

Los programas de formación internos podrían ofrecer una solución: algunos INE, como enPerú, Colombia y México, ofrecen sus propios programas de formación para educar a supersonal y a otros en nuevos métodos. CANDANE, la oficina de entrenamiento del DANE, sefundó hace algunos años y actualmente entrena alrededor de 1500 estudiantes en estadísticabásica, diseño de cuestionarios y el uso de herramientas como Stata y SAS. Esto se realizamediante formación presencial y por medio de herramientas de aprendizaje virtuales, las cualestambién se ofrecen a estudiantes de otros países y continentes. Hay algunas ideas iniciales paraofrecer también cursos sobre análisis de datos en colaboración con universidades como socios.La promoción de herramientas de e-learning y webinars es considerada como un instrumentoútil. Desafortunadamente, la mayoría de los programas de formación que se ofrecenactualmente en línea se ofrecen en inglés, lo que produce barreras para el aprendizaje. Laconformación de cursos en español o portugués podría ser una manera fácil, no sólo parapromover el conocimiento de expertos en Big Data, sino también informar a la comunidad másamplia de los institutos de estadísticas.

Otro enfoque es dar becas al personal para clases específicas de formación, práctica que se ejerceen el INEGI, por ejemplo. La contratación externa, por ejemplo de empresas de TI einstituciones universitarias, así como la contratación interna, por ejemplo de pasantes o depersonas por proyecto, han sido enfoques aun más exitosos en México. Sin embargo, a menudola burocracia hace que la contratación de alguien a corto plazo o ad hoc sea difícil en muchospaíses.

Las universidades e instituciones académicas también constituyen socios pertinentes. Como seha mencionado, un número creciente de universidades está entrando en el campo de losprogramas de maestría en ciencias de la computación. Sin embargo, hasta hoy, la colaboracióncon las universidades se basa por lo general en acuerdos formales para el intercambio de datos yno para el intercambio estratégico de conocimiento. A pesar de que los INE suelenproporcionar salas de procesamiento para los investigadores, estos espacios son poco utilizadosdebido a la burocracia excesiva o a infraestructura técnica antigua.

No obstante, también sería problemático centrarse en sólo las habilidades técnicas (lo cual estáocurriendo actualmente en la mayoría de los INE), ya que otras habilidades son igualmenteimportantes. Debido a la naturaleza interdisciplinaria de Big Data, su uso eficaz requiere deequipos multidisciplinares que incluyan:

Experto de dominio. Un usuario, analista o líder con amplia experiencia temas relacionadoscon los datos, su uso apropiado y sus limitaciones.

88Digiampietri y col. 2014.

44

Page 49: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

Investigador. Miembro del equipo con experiencia en la aplicación de métodos deinvestigación formal, incluyendo metodología de encuestas y estadísticas.

Informático. Miembro técnico del equipo con educación en tecnologías de programacióninformática y procesamiento de datos.

Administrador del sistema. Miembro del equipo responsable de definir y mantener unainfraestructura tecnológica que permita la computación a gran escala

En el INEGI, se establecieron asociaciones con universidades hace mucho tiempo y, por tanto,apoyan las iniciativas actuales para el uso de Big Data. En un piloto actual, el INEGI estáempezando a analizar tuits para entender el bienestar subjetivo en México. Este proyecto se hacreado con un equipo interdisciplinario de investigadores, que van desde informáticos hastalingüistas.

Informar al personal interno será crucial para aumentar la capacidad en Big Data, en particular,cuando hay un escepticismo general hacia las nuevas tecnologías. Esto incluye explicar lainterrelación y las diferencias con otro enfoque tal como el de Datos Abiertos. Intranets yrevistas internas podrían ser otras herramientas de sensibilización.

Como se ha indicado anteriormente, la brecha entre las zonas rurales y urbanas sigue siendo nosólo uno de los grandes retos políticos, sino también estadístico en muchos países de AméricaLatina. Por lo tanto, será crucial involucrar a las entidades locales, por ejemplo a nivel municipal,en el debate sobre Big Data. Las estructuras municipales todavía son muy débiles, y muchas deellas no utilizan datos o recolectan datos cualitativos. Mientras que la revolución de los datosofrece oportunidades más amplias para las grandes ciudades y los organismos de control (comolos INE), no queda claro cómo los actores locales pueden realmente influir y beneficiarse de estosavances.

Recomendaciones

Asociarse con universidades locales

Usar formas alternativas de entrenamiento, como el entrenamiento vía web

Promover la alfabetización de datos entre el personal

3.5. Desafíos metodológicos

La calidad estadística conforma uno de los principios fundamentales de los INE (ver también elPrincipio 3 de los Principios fundamentales de las Estadísticas Oficiales de las Naciones Unidas).

45

Page 50: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

Sin embargo, el tejido y la distribución de Big Data exige procesos diferentes que las fuentesestadísticas tradicionales para cumplir con estos estándares de calidad. Big Data en sí mismoplantea desafíos en términos de representatividad.

Como 2, Big Data por lo general no se ha diseñado para responder a preguntas específicas deinvestigación científica. Más bien se utiliza para fines distintos por los que se recolectó:inferencia (proceso de muestreo sólido) y medición (abarcando todas las variables relevantes).89

Estas discusiones no son totalmente nuevas para la comunidad estadística, ya que preguntassimilares se han planteado con el uso de datos administrativos. Esto está imponiendo lentamenteun nuevo cambio de paradigma, en el que el número de enfoques basados en diseñooriginalmente utilizados para las estadísticas oficiales está disminuyendo. Pero en cuanto a losregistros administrativos, los INE por lo menos pueden abogar o influir en los ministerios yorganismos que generan los datos para que se diseñen los registros consecuentemente. Esto serádifícil para los datos de la web o de medios sociales. Enfoques basados en modelos son difícilesde aplicar al análisis de Big Data. Los enfoques que proceden por análisis exploratorios, comolos basados en la minería de datos y el aprendizaje automático, podrían aplicarse másadecuadamente.90

Además, el proceso de análisis de datos introduce riesgos “para la acumulación de ruido,correlaciones espurias y endogeneidad incidental que puede ser agravada por errores muestralesy no muestrales. En cuanto a los primeros, los datos se pueden filtrar, muestrear o reducir deotras maneras para formar conjuntos de datos más manejables o representativos. Estos procesospueden implicar otras transformaciones de datos. Los errores incluyen errores de muestreo,errores de selección (o falta de representatividad) y errores de modelado” Por esa razón, aunquela recolección sea barata, limpiar y procesar Big Data puede ser muy costoso, lo que requiere unmayor capital humano para la estructuración, vinculación y gestión de nuevos tipos de datos.91

Hoy en día, la falta de representatividad de Big Data constituye uno de los principales desafíos.Incluso flujos de Big Data con enormes N no son siempre representativos de las poblacionesenteras. Las poblaciones cubiertas por fuentes de Big Data no suelen ser las poblaciones objetivode las estadísticas oficiales y a menudo, no están definidas de forma explícita. Asimismo, por unlado, no siempre es factible evaluar las relaciones entre la población cubierta y la poblaciónobjetivo, y por otro, estimar el sesgo.92 Esto es particularmente sorprendente en el contexto delos ODS y especialmente en la medición de la pobreza, dado que los sesgos en los datos podríanrelegar grupos específicos que necesitan beneficiarse de la agenda post-2015, como gruposindígenas, mujeres, grupos con bajos niveles de ingresos, etc.93

Probablemente, para la región de ALC este sesgo reside en la brecha entre las zonas rurales yurbanas como se observa por ejemplo en la penetración de la telefonía móvil, y con frecuenciatambién refleja los sesgos socioeconómicos entre los diferentes grupos y minorías. Por lo tanto,

89Kreuter y Peng 2014.90Eurostat 2014.91American Association for Public Opinion Research (AAPOR) 2015.92Eurostat 2014.93boyd y Crawford 2012.

46

Page 51: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

la probabilidad de que aquellos que no han sido cubiertos de manera suficiente por los datostradicionales tampoco se reflejen adecuadamente en big data, es alta o incluso más alta. Por estarazón, es necesario garantizar que los CDR se puedan usar realmente para monitorear lapoblación objetivo y si los datos de dichos registros son una buena herramienta para analizarsólo las zonas urbanas. Lo mismo es cierto para los datos de redes sociales, que se encuentranampliamente distribuidos en Brasil, Chile y México, pero no tienen el mismo nivel dedisponibilidad en otros países de América Latina.

Asimismo pueden existir otras razones para los sesgos. En el caso de Colombia, muchaspersonas no utilizan sus propios teléfonos para hacer llamadas, sino que utilizan los teléfonos delos llamados ‘minuteros’: personas en las calles que por lo general venden frutas u otros bienes yal mismo tiempo ofrecen ‘minutos’ en varios teléfonos. Esto es más barato para aquellos quenecesitan realizar llamadas a diferentes operadores, lo cual todavía suele ser muy caro. Teniendoen cuenta los datos de CDR que producen los teléfonos de los ‘minuteros’, es fácil imaginar quetengan una salida interesante, aunque confusa, para los investigadores.

Para los datos tradicionales hay varios marcos para mitigar los errores del proceso de la encuesta.Para Big Data, la solución más probable será una “combinación de datos de diseño tradicional yBig Data. Sin embargo, este tipo de soluciones para la vinculación de datos y la integración de lainformación están amenazados por las preocupaciones acerca de la privacidad yconfidencialidad”.94

Los investigadores y estadísticos de Europa ya están invirtiendo en técnicas para evitar y detectarel sesgo en los datos. Se necesitará una gran cantidad de inversiones y trabajo para el desarrollo demétodos robustos de dicho tipo si se planea utilizar Big Data ampliamente con fines de monitoreosobre una base continua. Ciertamente, se necesitarán datos sólidos de terreno para detectar lossesgos. En general, Big Data puede ser de la misma calidad que los datos que se controlan.95 Sinlugar a dudas, para detectar los sesgos se requieren datos de terreno sólidos, como los datos decensos y encuestas, o datos de satélite. Éstos no siempre están disponibles a todos los niveles enla región de América Latina. La región también podría necesitar enfoques distintos en el ajustede las metodologías actuales, específicamente para abordar los problemas de las brechas entre laszonas rurales y urbanas. Un primer paso podría ser mejorar las estadísticas de TIC en un nivelmás granular. Por ejemplo, mediante el análisis de la distribución de la telefonía móvil en las zonasrurales con el fin de obtener una mejor comprensión de los posibles sesgos.

En general, al igual que con procesos estadísticos anteriores, se necesitarán estándares ylineamientos a nivel internacional, tanto para garantizar la calidad de los datos como parapermitir la comparabilidad (ver más arriba). La región de ALC podría desempeñar un papelactivo en el fomento de estos estándares en el ámbito internacional, a través de los diversosgrupos de la ONU, el Banco Mundial y otros organismos internacionales, y poniendo los

94Kreuter y Peng 2014.95Smith, Mashhadi y Capra 2013.

47

Page 52: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

desafíos específicos de la región en la agenda (sesgo entre las zonas rurales y urbanas).

Recomendaciones

Continuar con más inversiones en investigación en Big Data

Asesorar las conversaciones actuales en curso sobre Big Data y medición

Iniciar el desarrollo de nuevos estándares y lineamientos en la región

Mejorar y enriquecer las estadísticas locales de TIC para tomar conciencia de los sesgos

3.6. Riesgos éticos, de privacidad y políticos

Mientras que los INE naturalmente tienen más experiencia en el tratamiento de datosconfidenciales que muchas otras instituciones, los posibles riesgos para la privacidad yprotección de datos son mucho mayores en el contexto de Big Data o los datos digitales engeneral. Los desafíos relacionados con Big Data van desde la falta de propiedad de los datos,limitación del propósito (para la definición de las estadísticas oficiales) y los límites de laanonimización de datos en el contexto de procesamiento digital de conjuntos de datos.

Dado que los INE no generan los datos y en la mayoría de los casos ni siquiera se generan conpropósitos estadísticos, hay una falta de marcos legales claros. La mayoría de los consumidoresde servicios digitales (tales como las aplicaciones para teléfonos inteligentes) y por lo tanto, losemisores de Big Data, tienen poca o ninguna idea de que sus datos pueden ser reutilizados paraotros fines, tales como los productos estadísticos.96

En la era digital, la anonimización de los conjuntos de datos digitales es limitada. Contrario a loque se ha pensado durante mucho tiempo y que es la herramienta más utilizada en los procesosestadísticos, la eliminación de la información de identificación personal (IIP) no sería entoncessuficiente para proteger contra la re-identificación.97 Cruzar ciertos conjuntos de datos condatos similares permite fácilmente la re-identificación de individuos y solo se requieren unospocos puntos de datos (por ejemplo la posición, la fecha y la hora) para volver a identificar a unindividuo en el conjunto de datos.98 En particular, los datos de ubicación, que podrían ser degran valor para los productos estadísticos, tales como las estadísticas de turismo o migraciónplantean enormes riesgos para la anonimización. Aunque se han hecho intentos técnicos ymetodológicos para resolver el problema en un nivel técnico, por ejemplo haciendo ruido en los

96American Association for Public Opinion Research (AAPOR) 2015.97Montjoye y col. 2013.98Eurostat 2014.

48

Page 53: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

datos para hacer la re-identificación más difícil, muchos técnicos académicos sostienen que lareidentificación minuciosa no puede ser garantizada.99

En general, los datos agregados, como el tráfico de antena a antena (como lo ha hecho Smith et al.en su investigación sobre la estimación de la pobreza en Senegal), no interfieren con la privacidad.Pero como los investigadores de Eurostat lo señalan, la agregación de los datos iniciales antes deque sean procesados, limita seriamente las opciones disponibles en relación con la metodología yel potencial de los datos para las estadísticas

Entre los INE de América Latina hay poca conciencia sobre los límites de los métodostradicionales para la anonimización de datos en el contexto de la era digital. Dado que Big Datano se produce internamente en los INE, sino que demanda nuevas asociaciones con el sectorprivado, cambian las bases legales para el uso de datos personales. El concepto de Habeas Dataconforma la base tanto para la protección de datos y privacidad, como para de la libertad deinformación o el derecho a la información. El derecho de Habeas Data “[nosotros disponemos]de los datos,” se desarrolla sobre el principio alemán del “derecho a la autodeterminacióninformativa” y el Convenio 108 de 1981 del Consejo de Europa sobre la protección de datos, yprotege la información personal de un individuo al permitir que esa persona solicite larectificación, actualización o incluso destrucción de los datos personales recogidos en una basede datos (automatizada), e implica que debe haber transparencia en la recolección y tratamientode dichos datos. En general, existen otras leyes que también afectan el uso y control de losconjuntos de datos. En Colombia, por ejemplo, está la ley de datos personales (Ley 1581 de2012).100 Con base en esta ley, los datos personales pueden clasificarse como datos privados osemiprivados (en virtud de Habeas Data o de la Ley 1266 de 2008)101 y sensibles o no sensibles(bajo la Ley 1581 de 2012).102 Sin embargo, la definición se extiende no sólo a los datosconsiderados como datos personales o información sensible, pero también a otros datos, a pesarde que no encajen estrictamente en esas categorías, pero que también merecen ser conservados,controlados y, de manera estricta, igualmente dignos de preservación, control y divulgación.103

Sin embargo, la aplicación de la ley en América Latina sigue siendo muy limitada.Adicionalmente, incluso donde la aplicación de la ley es fuerte, los marcos de privacidadactuales (alrededor del mundo) enfrentan muy pobremente los desafíos de privacidad ilustradosy causados por Big Data. Dado que los datos generalmente se recogen de forma pasiva, ladefinición de otras herramientas de política que se basen en el consentimiento y el propósitoinformados, sigue siendo problemática debido a que probablemente el uso potencial de los datosno se haya definido en el momento en que se recolectan los datos. Esto será aún más difícilcuando los sujetos vivan en la pobreza o sean altamente vulnerables y donde los marcos legalesno puedan ser afianzados en absoluto. Por esta razón será esencial, por un lado, desarrollar losmarcos legales necesarios para el uso de nuevas fuentes de datos de una manera apropiada yorientada al valor, y por otro, recordar a los INE sus estándares éticos y de responsabilidad hacia

99Ohm 2010.100Congreso de la República de Colombia 2012.101Congreso de la República de Colombia 2008.102Newman Pont 2015.103Urioste Braga 2009.

49

Page 54: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

el bien público.

Después de todo, también en un contexto de Big Data, los Principios Fundamentales de lasEstadísticas Oficiales siguen proporcionando directrices éticas para actividades de los INE. Esto,por ejemplo, también aplicaría a las preguntas alrededor de la minimización de los sesgos en losdatos y la responsabilidad los INE de informar al público acerca de esos impedimentos.

Como se mencionó anteriormente, en muchos países los INE son percibidos como actores deconfianza en el manejo y control de los datos, lo que podría respaldar su posible función comopartes terceras relevantes en el ecosistema de Big Data. Evidentemente será esencial garantizar laconfidencialidad para proteger la confianza, no sólo para nuevas actividades sino también parael trabajo en curso, como las encuestas. Regidos por legislaciones que sitúan la protección delos datos en el centro del proceso estadístico, los INE serían buenos candidatos para mover ladiscusión de Big Data hacia las buenas prácticas para el bienestar de la sociedad.

Sin embargo, como se ha indicado anteriormente, la calidad de los marcos legales de los INE através de la región de ALC varían. Muchos INE todavía no siguen las buenas prácticasrecomendadas por la ONU (incluyendo la independencia); esto perjudica su papel potencial enel ecosistema de Big Data como terceros de confianza, ya que podría ser más difícil convencer alas sociedades que pueden cumplir esta función. En tiempos de continua vigilancia masiva,también será importante ilustrar que los INE no son nuevas herramientas gubernamentales parala vigilancia efectiva. Varios eventos en América Latina han provocado desconfianza entreciudadanos y activistas de la sociedad civil. Durante las protestas en contra de la Copa delMundo en 2014, la policía y los servicios de inteligencia de Brasil vigilaron a los manifestantes.En México, la última modificación a la Ley de Telecomunicaciones incluye políticas explícitascon respecto a los datos de localización geográfica de los teléfonos celulares, sin necesidad de unaorden judicial.104 En Colombia, diferentes actores han sido vigilados durante las negociacionesde paz.105

Los INE de la región deben ser conscientes de este problema y promover un enfoque de BigData basado en valores. Los impactos de Big Data y los límites de la anonimización tambiéndeben integrarse en los códigos de ética y buenas prácticas de los INE. Además tienen queinformar activamente al público sobre los riesgos y beneficios de Big Data. La participación degrupos de la sociedad civil, derechos humanos, periodistas y activistas de la privacidad seráesencial para el desarrollo de marcos legales válidos. “Hay una necesidad de pensar más a fondoy debatir sobre los riesgos compartidos, los incentivos y los impactos para el establecimiento deacuerdos de intercambio de datos entre múltiples actores”.106 La transparencia sobre lasactividades y asociaciones de Big Data sin duda será clave para promover la confianza. Los INEpodrían incluso convertirse en actores clave en el suministro de datos al público y la promociónde la transparencia sobre otras actividades de Big Data realizadas por organismosgubernamentales, como sugiere un estudio reciente sobre los riesgos del uso de Big Data en el

104Ruiz 2014.105Barbosa 2014.106Ballivian y Hoffman 2015.

50

Page 55: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

mercado laboral en Chile por Derechos Digitales.107

A pesar de los incidentes mencionados anteriormente, algunos países de América Latina han sidode hecho, pioneros en enfoques de múltiples actores. Brasil, por ejemplo, ha estado a la vanguardiade la promoción de enfoques basados en los derechos humanos para Internet y la protecciónde la libertad en línea, en particular demandando una nueva declaración internacional sobre elderecho a la privacidad en la era digital. El Marco Civil da Internet de Brasil ha sido reconocido anivel mundial como ejemplo de un proceso de buenas prácticas para compromisos de múltiplesactores, incluyendo la participación del sector privado.

Desarrollar herramientas para evaluar la privacidad

Desarrollar marcos éticos alrededor de Big Data

Considerar enfoques de múltiples actores

Normas y leyes sobre el uso de datos

Transparencia sobre los proyectos y asociaciones de datos, especialmente con el sectorprivado

4. Hacia una hoja de ruta regional de múltiples actores paraaprovechar Big Data para las estadísticas oficiales y losODS

4.1. Cinco tendencias regionales que promueven el uso de Big Data enAmérica Latina

Los INE siguen siendo un actor fundamental en la evolución continua de las estadísticasoficiales y en el logro de los ODS durante la revolución de los datos, tanto dentro de lasactividades encomendadas, como en la formación y desarrollo del ecosistema regional de actoresque utilizan fuentes de datos tradicionales y nuevas. Para cumplir con este rol, los INE tienenque participar activamente en el ecosistema de Big Data para garantizar que el camino pordefinir de Big Data conduzca hacia el progreso social. La medición de los ODS será una tareaimportante para los próximos quince años y sin duda hay evidencia de que Big Data podríaayudar a los INE a cumplir con esta responsabilidad. Adicionalmente, los ODS servirán, porprimera vez, como indicadores globales que involucran a todos los países. “El mundo que

107Velasco y Viollier 2016.

51

Page 56: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

queremos,” es el subtítulo del primer informe del Grupo de Desarrollo de las Naciones Unidas(UNDG por sus siglas en inglés) sobre los Objetivos de Desarrollo del Milenio, y va más allá demejores números y mediciones. Por esa razón, sería un gran error creer que Big Data se tratasolamente de nuevas fuentes de datos: tiene y tendrá implicaciones más amplias para laestructura de las sociedades. Para evitar una segunda brecha digital, las regiones en desarrollonecesitan aportar a esta discusión y los INE son los actores más oportunos y algunos de losactores más capaces de coordinar este proceso.

Como se describe en la sección anterior, persisten retos y barreras importantes para que los INEpuedan aprovechar Big Data:

1. Barreras institucionales para la innovación y la gestión del cambio, incluyendo una falta decultura digital interna, percepción institucional escéptica sobre las nuevas fuentes de datosy falta de coordinación entre partes interesadas;

2. Limitaciones para el acceso y la completitud de los datos, en particular en el acceso y usocontinuo de datos del sector privado, la falta de asociaciones público-privadas y derechosde propiedad limitados que involucren a personas y sus relaciones con los datos;

3. Desafíos técnicos, incluyendo infraestructura para la captura, limpieza, procesamiento,análisis y visualización de datos estructurados y no estructurados, así como la adopción detécnicas y herramientas informáticas específicas;

4. Brechas de capacidad de capital humano, incluyendo el hallazgo de talento, la alfabetizaciónde datos, pocos programas de formación en ciencia de datos y la participación limitada deuniversidades y otras instituciones académicas;

5. Desafíos metodológicos, incluyendo los problemas de representatividad de los datos, lossesgos y la falta de estándares y lineamientos;

6. Riesgos éticos y políticos, incluyendo riesgos para la privacidad y marcos legales débiles.

A pesar de estos desafíos, se presentan las siguientes grandes tendencias regionales que, adicionala los ODS, facilitan aún más el uso y la experimentación con Big Data a través del ecosistema dedatos de América Latina:

La experiencia de América Latina en el movimiento de Datos Abiertos

Los movimientos de la Alianza para el Gobierno Abierto y los Datos Abiertos han generado unimportante capital político en América Latina en torno a los datos para el bien público,particularmente en Perú, México, Colombia y Brasil. La región tiene la mayor proporción depaíses participantes (quince países miembros) en relación con otras regiones de la Alianza para elGobierno Abierto (AGA), una alianza global para promover el Gobierno Abierto. La mayoríade estos países miembros han puesto en marcha planes de acción nacionales sobre participación

52

Page 57: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

ciudadana, transparencia y rendición de cuentas del gobierno. Los defensores de losmovimientos de Datos Abiertos y la transparencia (periodistas, académicos, infomediarios ycomunidades de hackers cívicos) han impulsado la transformación de los datos gubernamentalesexistentes en formatos legibles por máquinas y accesibles para la investigación, el análisis y lapromoción. Por ejemplo, la legislación de datos abiertos de México tiene leyes oficiales de DatosAbiertos que han encaminado desarrollos valiosos tales como la transición hacia estándares dedatos abiertos e intercambiables (SDMX); esta transición favorece tanto las actividades de BigData, como la medición eficiente de los ODS. El análisis de la CEPAL del ecosistema datos deAmérica Latina apunta a las sinergias creadas por los movimientos de Datos Abiertos y BigData.108

La presencia de asociaciones público-privadas en Big Data

Como se señaló anteriormente, la presencia de asociaciones público-privadas en Big Data es undesarrollo relativamente reciente en América Latina. Empresas del sector privado que se asocianen algún nivel con entidades de sectores no privados, para llevar a cabo actividades relacionadascon datos incluyen a Telefónica, IBM, Microsoft, la banca multinacional, Aentropico (ahoraRandom Monkey), Cignifi y Open Intelligence. Si bien la cooperación limitada a través de laregión a menudo inhibe asociaciones formales entre los INE y el sector privado, en algunasindustrias las entidades públicas han sido capaces de acceder a datos que las empresas del sectorprivado han compartido a través de premios y desafíos, APIs y productos de inteligencia. Porejemplo, los datos de Twitter geolocalizados para el trabajo del INEGI sobre el bienestarsubjetivo se derivan (en colaboración con instituciones académicas) a través de la API pública deTwitter. Del mismo modo, el DANE y los investigadores del Ministerio de Hacienda utilizaronlos datos de uno de los productos de inteligencia de Google (Google Trends) para inferir laactividad económica en varios sectores. Si bien estas formas de intercambio de datos representanformas de asociación limitadas (en relación con asociaciones público-privadas más formales),también representan un fenómeno emergente de corporaciones que comparten datos a través dediferentes matices y modelos de apertura.

La presencia de comités, instituciones y grupos de trabajo fuertes en toda la región

Las estructuras existentes dentro de la región de ALC permiten que los INE fomenten Big Datacomo fuente para el progreso de los ODS. Por ejemplo, la CEPAL apoya la armonización desoftware, tecnologías y herramientas, incluyendo la armonización metodológica para elintercambio de datos entre la región,109 que desde ya suaviza el proceso de medición de los ODSy mejora la calidad de los datos. La Conferencia Estadística de las Américas de la CEPAL(CEA-CEPAL) promueve el desarrollo y la interoperabilidad de las estadísticas nacionales de laregión para el análisis comparativo internacional, así como la cooperación entre los INE en los

108Economic Commission for Latin America and the Caribbean (ECLAC/CEPAL) 2014.109Economic Commission for Latin America and the Caribbean (ECLAC/CEPAL) 2013.

53

Page 58: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

planos bilateral, regional e internacional.110 La CEPAL articula grupos de trabajo regionalespara los INE y otros actores estadísticos, especialmente sobre asuntos temáticosinterrelacionados, como las estadísticas de género, la migración y el comportamiento de lasremesas, el progreso de los ODM y las estadísticas ambientales.111

El desarrollo de mejores prácticas adaptables

La mayoría de los países de la región enfrentan desafíos similares y al mismo tiempo podríanbeneficiarse de las buenas prácticas de la región. En este momento, los INE de Colombia, México,Ecuador y Brasil están lidiando con los mismos problemas y quieren poner en marcha pilotossimilares; algunos de ellos ya construyeron el software y las herramientas necesarias, mientrasque otros han investigado en la metodología. A la fecha, el INEGI de México ha sido sede dequince reuniones internacionales sobre las mejores prácticas para las estadísticas de género en todala región, tanto en la “producción y en el uso de los datos para la preparación, implementación,monitoreo y evaluación de las políticas públicas, así como para el análisis académico de los datosdesde una perspectiva de género”.112 En el año 2006, a través de esfuerzos compartidos por elIBGE de Brasil y la Unidad de Estadísticas Sociales de la CEPAL, los miembros del Grupo de Ríosobre estadísticas de pobreza publicaron un compendio de las mejores prácticas en la mediciónde la pobreza. El compendio ofrece un “menú de enfoques y metodologías para la medición de lapobreza”.113

Red interdisciplinaria regional de innovación que involucra los INE y otros actores

Los enfoques de múltiples actores serán claves tanto para fortalecer los INE, como paraidentificar las prioridades regionales y para garantizar la confianza y legitimidad ante losciudadanos y asociados a través de Big Data. Se ha dado inicio a la coordinación temprana de losactores que trabajan con Big Data a través de América Latina como parte del Data Space deAmérica Latina de Data-Pop Alliance. Dicho Data Space representa un colectivo de actores yactividades en el ecosistema de datos y desarrollo de América Latina que trabaja eninvestigación, capacitación y actividades de promoción relacionados con Big Data y los ODS. ElData Space actúa como plataforma de conexión y resonancia para que sus miembros catalicen ycoordinen esfuerzos para maximizar su potencial en torno a objetivos comunes. El CEPEItambién está trabajando en esfuerzos de coordinación regionales en Big Data a través de suEsfuerzo Colaborativo sobre el Ecosistema Nacional de Datos, que apoya la toma de decisionesbasada en datos entre actores públicos y privados. Para lograr esto, promueve el intercambio deinformación entre periodistas, científicos de datos, académicos, los responsables de formularpolíticas y la comunidad internacional sobre la implementación, logros y limitaciones de laagenda de desarrollo post-2015.

110Economic Commission for Latin America and the Caribbean (ECLAC/CEPAL) 2010.111Economic Commission for Latin America and the Caribbean (ECLAC/CEPAL) 2010.112Instituto Nacional de Estadística y Geografía (INEGI) de México 2015a.113Expert Group on Poverty Statistics 2006.

54

Page 59: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

Estas cinco tendencias presentan oportunidades para los INE y otros actores que trabajan en elecosistema de Big Data, para construir sobre los marcos y los movimientos existentes en la región.

4.2. Hacia una hoja de ruta regional de múltiples actores para Big Data:construyendo sobre las fortalezas y oportunidades regionales

Las siguientes recomendaciones forman la base de una hoja de ruta regional y de múltiples actorespara Big Data en América Latina, y describen cómo los INE y otros actores regionales en elecosistema de datos de América Latina pueden aprovechar fortalezas y oportunidades regionalesexistentes para aprovechar Big Data para las estadísticas oficiales y los ODS:

1. Crear estructuras para fomentar el desarrollo y coordinación de proyectos nuevos yexistentes en Big Data;

2. Movilizar la conciencia y voluntad políticas para garantizar la creación de políticas sobreBig Data; y

3. Desarrollar mecanismos y herramientas para el uso de Big Data a través de laretroalimentación y el aprendizaje.

La Figura 5 a continuación detalla recomendaciones derivadas de cada una de las tendenciasregionales en curso: el movimiento de Datos Abiertos, las asociaciones público-privadas, losgrupos de trabajo regionales, las buenas prácticas emergentes para las estadísticas y una redemergente sobre Big Data y el desarrollo en las regiones de ALC.

Crear estructuras para fomentar el desarrollo y coordinación de proyectos nuevos yexistentes en Big Data

Como se señaló anteriormente, la creación de asociaciones público privadas como nuevasformas de colaboración en América Latina permite el intercambio de conocimientos yhabilidades entre los INE que se están involucrando con Big Data y organizaciones de lossectores privado y público, que proveen sus capacidades técnicas y de computación. Sinembargo, trabajar en este tipo de asociaciones donde los datos no son propiedad de los INE,requiere niveles adicionales de mediación y negociación. Por ejemplo, mientras que los INEclaramente se benefician de estos intercambios, el valor para las empresas del sector privadorefleja en gran medida sus propios incentivos económicos, lo que puede conducir a unanecesidad de hacer mayores concesiones que en última instancia puede mitigar los beneficiospara los INE participantes. Además, debido a las preocupaciones de privacidad y seguridad, lasreglas de control de datos que rodean el uso de los mismos pueden ser limitantes y costosas; porejemplo, la investigación de Telefónica por lo general se lleva a cabo por contrato en la sede deBarcelona debido a preocupaciones de privacidad y confidencialidad; esto dificulta el acceso delos INE a los datos.

55

Page 60: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

Figura 5: Hoja de ruta de recomendaciones para incorporar Big Data en proyectos de losINE en América Latina

56

Page 61: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

A medida que estas nuevas formas de asociación fomentan nuevos pilotos de Big Data, la falta deestructuras y mandatos coordinados entre instituciones se ha traducido en una serie deinstituciones evaluando o llevando a cabo pilotos por separado. Estos marcos legales débilesplantean un obstáculo importante para que muchos INE de la región se vinculen eficazmentecon Big Data. En Colombia, por ejemplo, el Ministerio de TIC (MINTIC), el DepartamentoNacional de Planeación (DNP) y el DANE están actualmente analizando de manera simultánealos posibles casos de Big Data, con MINTIC a cargo de la estrategia nacional de Datos Abiertosy el DNP a cargo de la estrategia nacional de Big Data. Sin embargo, estos esfuerzos simultáneosno están coordinados. Esto resulta particularmente problemático en los acercamientos a sociosdel sector privado y en la negociación de acuerdos. El caso de los datos de los CDR ilustra bienlos límites de las solicitudes ad hoc y la necesidad de procesos mejor alineados, asociacionespúblico privadas y acuerdos más amplios.

Lo que se requiere es a la vez un ambiente con políticas habilitadoras y de práctica ycoordinación que promueva un mayor liderazgo de los INE dentro de las asociaciones y queincentive la coordinación entre las partes interesadas en todo el ecosistema de Big Data deAmérica Latina. Para el proceso de los ODS, así como para cualquier enfoque relacionado conBig Data, será esencial para los INE de la región establecer esfuerzos coordinados para lasasociaciones con actores locales relevantes. Además de los Data Spaces de Data-Pop Alliance,varios otros actores han sido de gran influencia para cultivar el ecosistema de Big Data enAmérica Latina: el trabajo en curso de la CEPAL en la región que conecta organizaciones dediferentes sectores, el trabajo de investigación de la Fundación Telefónica sobre lastransformaciones en las telecomunicaciones y los servicios basados en Internet (en colaboracióncon la CAF y la CEPAL) y los esfuerzos de coordinación continuos del CEPEI. Estos esfuerzoscontinúan fomentando la coordinación entre los actores académicos, del sector privado y delsector público en toda América Latina.

Recomendaciones adicionales hacia la creación de estructuras para fomentar proyectos nuevos yexistentes en Big Data:

1. Construir sobre vías correspondientes de compromiso cívico emergentes del movimientode Datos Abiertos (incluyendo herramientas de visualizaciín, API, etc.) para Big Data;

2. Desarrollar enfoques innovadores para la formación de asociaciones con entidades del sectorpúblico y privado;

3. Orientar fondos hacia el desarrollo de proyectos de Big Data a través de comités y gruposde trabajo regionales;

4. Desplegar nuevas ideas y proyectos/enfoques adecuados para cada INE;

5. Coordinar el involucramiento y la asociación de múltiples actores en todo el ecosistemade Big Data, mediante el fomento de los ecosistemas de datos regionales en torno a actoresy actividades clave para vincular los grupos de base y start-ups con grandes corporaciones,universidades y la sociedad civil.

57

Page 62: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

Movilizar la conciencia y voluntad políticas para garantizar la creación de políticas sobreBig Data

Como se señaló anteriormente, la experiencia de América Latina con los movimientos deGobierno Abierto y Datos Abiertos ha despertado una fuerte voluntad política en todos losgobiernos de la región. El movimiento de Datos Abiertos ha fomentado la exploración y lacoordinación de actores diferentes a los INE alrededor de actividades públicas de datos; aunqueel impacto de los datos abiertos en toda la región ha sido limitado, la voluntad y el apoyopolítico sigue aumentando. Además, la existencia de grupos de trabajo regionales e institucionescomo la CEPAL destacan y proporcionan intereses internacionales al desarrollo de la región, asícomo al acceso a recursos financieros.

Sin embargo, las lecciones aprendidas de la historia de estos movimientos incluyen la necesidadde desarrollar marcos y evaluaciones de impacto en fases tempranas. Gran parte de las recientescríticas al movimiento de Datos Abiertos han estado relacionadas con el impacto limitado (y, amenudo, el interés cívico limitado) de las costosas iniciativas gubernamentales en datos abiertos,promovidas por el clamor mundial por los datos abiertos. El enfoque de “primero la política”descuidó consideraciones prácticas necesarias para llevar a cabo los proyectos de una maneraconcreta y evaluar su impacto.

Los actores regionales que trabajan en Big Data deben buscar sinergias y considerar las leccionesde estos movimientos de datos paralelos con el fin de movilizar y conducir la voluntad y losrecursos políticos hacia la creación y el desarrollo de estrategias nacionales de Big Data. Estoincluye el involucramiento de expertos académicos y técnicos que trabajan en coordinación condefensores y hackers cívicos para el desarrollo de conocimientos y marcos compartidos. Paragarantizar un desarrollo centrado en el hombre y responsable, también es necesario que hayaun diólogo constante con los grupos de presión, como los defensores de derechos humanos yperiodistas. Los INE deben, por tanto, comunicarse de forma transparente y abierta acerca de lasactividades y asociaciones de Big Data. Esto también incluye la evaluación de las capacidades deindividuos y grupos para involucrarse de manera constructiva con la sociedad a través y alrededorde los datos (por ejemplo, la alfabetización de datos). Impulsar la alfabetización puede permitiruna mayor participación ciudadana y la exigencia a sus gobiernos del fomento un ambiente conpolíticas habilitadoras para Big Data y los Datos Abiertos.

Recomendaciones adicionales hacia movilización de la conciencia y voluntad políticas paragarantizar la creación de políticas sobre Big Data:

1. Promover e incentivar el involucramiento del sector privado, a través de la organización dedesafíos de datos y la promoción de apoyo financiero y en especie a empresarios y start-upslocales;

2. Orientar la coordinación y la estrategia a través de instituciones y grupos de trabajo decoordinación regionales para la adopción de políticas de Big Data;

3. Capitalizar las sinergias creadas por la Asociación Mundial para los Datos de Desarrollo

58

Page 63: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

Sostenible;

4. Incentivar los INE para que realicen autoevaluaciones a través del análisis comparativo dela recolección y producción de datos estadísticos;

5. Estimular todo el espectro de participación de los INE en el ecosistema de Big Data.

Desarrollar mecanismos y herramientas para el uso de Big Data a través de laretroalimentación y el aprendizaje

La proliferación de proyectos, pilotos y actores de Big Data, ha generado un interés creciente enel potencial de resolver problemas mundiales; sin embargo, los marcos y modelos globales parahacer frente a las caídas de Big Data han sido esquivos. Por ejemplo, cuando se consideran laspreocupaciones éticas y de privacidad relacionadas con la identificación de información deidentificación personal (IIP), existen importantes brechas en la comprensión de la naturaleza deluso responsable de datos y del desarrollo de marcos legales correspondientes. Además, comomuchos gobiernos y otros actores consideran el uso de metodologías algorítmicas para laformulación de políticas basadas en datos, el intercambio de conocimiento sobre la manera deabordar las implicaciones de estas metodologías también sigue sin explorarse en gran medida.

Lo que se necesita son mecanismos y herramientas para utilizar Big Data con el fin de buscar unmayor intercambio de conocimientos y la coordinación entre actores. Esto es particularmentecierto para los INE en regiones en desarrollo como América Latina donde los recursos limitadosdejan menos espacio para la experimentación. Los INE por mandato recolectan, coordinan ydifunden datos para las agencias gubernamentales y otros actores de la sociedad. Sin embargo,la proliferación de nuevas fuentes de datos a través de Big Data ha hecho la tarea de difusióncada vez más compleja debido a la falta de formatos y estándares, el volumen absoluto de datosy la naturaleza del proceso de recolección de datos. Antes, los INE supervisaban el proceso derecolección de datos; ahora están recogiendo las migajas de las fuentes de datos y la recolecciónde datos se produce aguas arriba.

A medida que los INE experimentan con Big Data, las lecciones aprendidas en la facilitación de latarea de difusión, serán valiosas para el desarrollo de mejores prácticas entre los INE y disminuiránlas barreras de entrada para que otros INE conviertan e interactúen con nuevas fuentes de datos.

Como se dijo anteriormente, en cuanto a la creación de marcos para la protección de datos,muchos países de América Latina tienen leyes omnibus de protección de datos similares a lasleyes de protección de datos de la UE, donde los ciudadanos son capaces de controlar el uso delos datos personales que estén en poder de entidades públicas o privadas.

Recomendaciones adicionales hacia el desarrollo mecanismos y herramientas para el uso de BigData:

1. Adaptar los marcos y estándares de datos existentes del movimiento de Datos Abiertos paraBig Data;

59

Page 64: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

2. Desarrollar marcos y procedimientos para datos éticos e intercambio de IP, en lo posiblecon un comité de ética en cada INE;

3. Diseñar indicadores basados en big data para monitorear el progreso de proyectos regionalesy globales;

4. Diseñar y compartir listas de chequeo de buenas prácticas en los INE;

5. Desarrollar y mantener plataformas para el intercambio de datos entre partes interesadas.

Mientras que los INE de América Latina seguirán desempeñando un papel fundamental en laevolución de las estadísticas oficiales y el logro de los ODS en la región, este informe ha puestosobre la mesa que, de hecho, no están solos en estos esfuerzos y que deben coordinar y trabajarcon otros actores (agencias gubernamentales, organizaciones internacionales, la sociedad civil,universidades, etc.) con el fin de aprovechar al máximo el potencial de Big Data para lasestadísticas oficiales y los ODS. Para los INE en la región de ALC, será igual de importantetanto ser consciente de como involucrarse con un ecosistema más amplio, de igual maneracuando se trata con el proceso de los ODS.

60

Page 65: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

Glosario

Términos

Big Data = ecosistema creado por la aparición concomitante de las 3C de Big Data. 1.Migajas digitales (crumbs en inglés), o pedazos de datos emitidos y recolectados de formapasiva por dispositivos digitales que constituyen grandes conjuntos y flujos de datos queproporcionan una visión única sobre sus comportamientos y creencias; 2. las Capacidadesde Big Data – lo que también se conoce como Big Data Analytics – es decir, el conjuntode herramientas y métodos, hardware y software, know-how y habilidades necesarios paraprocesar y analizar este nuevo tipo de datos); 3. las Comunidades de Big Data que describenlos diferentes actores involucrados en el ecosistema de Big Data, desde los generadores dedatos hasta sus analistas y usuarios finales; es decir, potencialmente toda la población.

big data = se refiere a la primera C de Big Data; flujos y conjuntos resultantes de lashuellas digitales que dejan los seres humanos al usar teléfonos celulares (registros dellamadas), tarjetas de crédito (transacciones), el transporte (registros de metro o autobús yde EZ Pass), medios sociales y motores de búsqueda, o cuando sus acciones son registradaspor sensores, ya sean físicos (contadores eléctricos, sensores de pesaje en un camión) oremotos (satélites, cámaras).

crowdsourcing = práctica que por lo general se lleva a cabo en plataformas digitales (SMS,Internet, etc.), a través de la cual se recluta a un gran número de personas para contribuir auna tarea o esfuerzo particulares.

datos sub-producto = datos que los teléfonos móviles, sensores, redes sociales y otrasplataformas emiten de forma pasiva y que son traducciones digitales de las acciones einteracciones humanas.

thick data (datos gruesos) = datos cualitativos que proporcionan información sobre losaspectos emocionales de la conducta humana, en contraposición al thin data (datosdelgados) que se centra principalmente en la información cuantitativa la cual proporcionauna visión menos robusta de los aspectos cualitativos de los comportamientos observados.

webscraping = técnica de software informático para automatizar la extracción deinformación de sitios web.

e-learning = aprendizaje a través de medios electrónicos.

startups = negocios recién establecidos.

webinars = seminarios llevados a cabo en Internet.

61

Page 66: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

Acrónimos

FBK = Fondazione Bruno Kessler; entidad privada encargada de mantener la provincia deTrento, Italia, en la corriente principal de la investigación europea e internacional.

CDP = CDP Worldwide; empresa que reporta datos del cambio climático, el agua, lascadenas de abastecimiento, los bosques y otros datos ambientales, con el objetivo deprevenir el cambio climático y proteger el medio ambiente.

CDR= sigla en inglés para los registros de detalles de llamada. Es el nombre técnico para losdatos de telefonía móvil registrados por todos los operadores de telecomunicaciones. LosCDR contienen información acerca de la ubicación de quienes envían y reciben llamadaso mensajes de texto a través de redes de los operadores, así como datos sobre su hora yduración.

CEPAL = Comisión Económica para América Latina. Es la comisión regional de lasNaciones Unidas destinada a promover el desarrollo económico en la región.

HADOOP = sistema para el mantenimiento de un sistema de archivos distribuido quesoporta el almacenamiento de gran escala (terabytes o petabytes de contenido), y elprocesamiento paralelo de algoritmos sobre grandes conjuntos de datos, lo que requiereun lenguaje de programación como Java o Python.

HDX = sigla en inglés para intercambio humanitario de datos; plataforma para elintercambio de datos cuyo objetivo es hacer que los datos sean fáciles de encontrar yutilizar.

HHI = sigla en inglés para Iniciativa Humanitaria de Harvard, centro de investigacióninterdisciplinario de la Universidad de Harvard que se especializa en la ayuda humanitariay la respuesta a la crisis.

IEAG = sigla en inglés para el Grupo Asesor de Expertos Independientes, una rama de laSecretaría General de la ONU que da recomendaciones sobre como

INE/NSO = Instituto Nacional de Estadística en español, o National Statistics Office eninglés. Se refiere a la agencia estadística líder en un sistema estadístico nacional.

OCAH = Oficina de Coordinación de Asuntos Humanitarios de la ONU destinada amejorar la respuesta a la emergencia; incluye el desarrollo del HDX (intercambiohumanitario de datos).

ODI = sigla en inglés para el Instituto de Desarrollo de Ultramar, laboratorio de ideasindependiente sobre temas internacionales de desarrollo y humanitarios, con sede en elReino Unido.

ODS = Objetivos de Desarrollo Sostenible, establecidos por la División de la ONU parael Desarrollo Sostenible para promover y coordinar la implementación de la agenda dedesarrollo sostenible de la Organización de las Naciones Unidas.

62

Page 67: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

ONU =Organización de las Naciones Unidas.

OSILAC=Observatorio para la Sociedad de la Información en Latinoamérica y el Caribe,cuyo objetivo es mejorar las estadíticas de TICs en Latinoamérica.

RIVAF = sigla en inglés para Fondo para el Análisis Rápido de las Consecuencias y laVulnerabilidad, un proyecto de la ONU en el que la UNODC (Oficina de las NacionesUnidas contra la Droga y el Delito) y el UN Global Pulse (ver abajo) investigaron cómo lascrisis pueden impactar los niveles de criminalidad.

TIC = Tecnología de la información y las comunicaciones, que se refiere a la convergenciade las redes de audio-visuales y telefónicas con las redes de computadores a través de unúnico sistema de cableado o enlaces, y las implicaciones económicas y de infraestructura deesas tendencias.

UE =Unión Europea.

UN Global Pulse = iniciativa de la ONU para hacer uso de big data para el desarrollo yla acción humanitaria, que consiste en un grupo de proyectos de innovación de datos sobreuna serie de temas globales.

UNODC=Oficina de las Naciones Unidas contra la Droga y el Delito, la cual lleva a caboproyectos sobre terreno para luchar contra las drogas ilícitas y la delincuencia, así comoinvestigación.

UNECE = Comisión Económica para Europa de las Naciones Unidas, cuyo objetivo espromover la integración económica europea.

UNFPA = Fondo de Población de las Naciones Unidas, el cual trabaja para promoverembarazos seguros y partos saludables.

UNSD=División de Estadística de las Naciones Unidas, que recoge y reporta estadísticaseconómicas y sociales.

63

Page 68: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

Anexos

Anexo 1: Taxonomía y ejemplos de fuentes de Big Data

Tipos Ejemplos OportunidadesCategoría 1: datos sub-producto

Basado entecnologíamóvil

CDRGPS (localización de flotas, localizaciónvehicular automatizada de buses)

Estimar la distribución de la población y el estatussocioecon omico en lugares tan diversos como elReino Unido y Ruanda

Transaccionesfinancieras

Identificación electrónicaLicencias electrónicas (por ejemplo, seguros)Tarjetas de transporte (incluidas las defidelidad de aerolíneas)Tarjetas de crédito/débito

Proporcionar información crítica sobremovimientos poblacionales y la respuesta decomportamiento después de un desastre

Transporte GPS (localización de flotas, localizaciónvehicular automatizada de buses)EZ passes

Proporcionar una evaluación temprana de los dañoscausados por huracanes y terremotos

Rastros en línea CookiesDirecciones IP

Mitigar los impactos de las enfermedadesinfecciosas a través de un monitoreo más oportunoutilizando los registros de acceso de la enciclopediaen línea Wikipedia

Categoría 2: contenidos digitalesMedios sociales Tuits (API de Twitter)

Registros de entrada (Foursquare)Contenidos de FacebookVideos de Youtube

Proporcionar alertas tempranas sobre amenazas quevan desde brotes de enfermedades a inseguridadalimentaria

Contenidoscolaborativos(crowdsourced)/en línea

Mapeo (Open Street Map, Google Maps,Yelp)Monitoreo/Reportes (uReport)

Empoderar voluntarios para que agreguen datos deterreno que sean útiles especialmente para fines deverificación

Categoría 3: datos de sensoresFísicos Medidores inteligentes

Rastreadores de velocidad/pesoSismógrafos de Servicio Geológico deEEUU

Los sensores se han utilizado para estimar lademanda de estufas de alta eficiencia a diferentesprecios en Uganda o la disposición a pagar pordispensadores de cloro en Kenia

Remotos Imágenes de satélite (NASA TRMM,Landsat)Vehículos aéreos no tripulados (UAV)

Las imágenes de satélite que, por ejemplo, revelancambios en la calidad del suelo o la disponibilidadde agua, se han utilizado para informarintervenciones agrícolas en los países en desarrollo

Anexo 2: Usos de Big Data para el monitoreo de los ODS

64

Page 69: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

OD

Sad

opta

dos

por

elG

rupo

deTr

abaj

oA

bier

tode

laO

NU

Eje

mpl

osde

Big

data

Qué

sem

onit

orea

Cóm

ose

mon

itor

eaPa

ís(e

s)A

ñoV

enta

jas

delu

sode

big

data

1.Po

ner

fina

lapo

brez

aen

toda

ssu

sfor

mas

yen

todo

elm

undo

Dat

osde

saté

lite

para

estim

arla

pobr

eza11

4Po

brez

aIm

ágen

esde

saté

lite,

luce

sno

ctur

nas

Map

agl

obal

2009

Dat

osin

tern

acio

nale

scom

para

bles

,qu

ese

pued

enac

tual

izar

con

may

orfr

ecue

ncia

Est

imar

map

asde

pobr

eza

con

dato

sde

telé

fono

scel

ular

es11

5Po

brez

aR

egis

tros

dete

léfo

nosc

elul

ares

Cos

tade

Mar

fil20

13-1

4

Dat

osba

sado

sen

Inte

rnet

para

estim

arel

índi

cede

prec

iosa

lco

nsum

idor

ylo

sínd

ices

depo

brez

a116

Índi

cesd

epr

ecio

sPr

ecio

sen

línea

desi

tiosw

ebde

min

oris

tas

Arg

entin

a20

13D

atos

más

bara

tosd

ispo

nibl

esco

nm

ayor

frec

uenc

ia

Reg

istr

osde

telé

fono

scel

ular

espa

rapr

edec

irni

vele

ssoc

io-e

conó

mic

osN

ivel

esso

cio-

econ

ómic

osR

egis

tros

dete

léfo

nosc

elul

ares

“La

ciud

adm

ásgr

ande

deA

L”(A

ctua

lmen

teC

iuda

dde

Méx

ico)

2011

Dat

osdi

spon

ible

sde

form

am

ásre

gula

ry

más

bara

tosq

uelo

sdat

osofi

cial

es;l

aec

onom

íain

form

alse

refle

jaba

mej

or2.

Pone

rfin

alha

mbr

e,lo

grar

lase

guri

dad

alim

enta

ria

yla

mej

ora

dela

nutr

ició

ny

prom

over

laag

ricu

ltura

sost

enib

le

Min

ería

delo

stui

tsde

Indo

nesi

apa

raen

tend

erla

cris

isde

losp

reci

osde

alim

ento

s117

Cri

sisd

elo

spre

cios

deal

imen

tos

Tuits

Indo

nesi

a20

14

Util

iza

indi

cado

resd

eriv

ados

deda

tosd

ete

léfo

nosc

elul

ares

com

opr

oxy

dein

dica

dore

sde

segu

rida

dal

imen

tari

a118

Segu

rida

dal

imen

tari

aD

atos

dete

léfo

nos

celu

lare

syco

mpr

asde

tiem

poal

aire

Un

país

enÁ

fric

aC

entr

al20

14

Uso

deda

tosd

ete

lede

tecc

ión

para

laev

alua

ción

yvi

gila

ncia

dela

sequ

ía

Sequ

ía’

Dat

osde

tele

dete

cció

nA

fgan

istá

n,In

dia,

Paki

stán

119

2004

Chi

na12

020

083.

Gar

antiz

arun

avi

dasa

nay

prom

over

elbi

enes

tar

deto

dosa

toda

slas

edad

es

Dat

osba

sado

sen

Inte

rnet

para

iden

tifica

rbr

otes

dein

fluen

za12

1In

fluen

zaC

onsu

ltasd

ebú

sque

dade

Goo

gle

EE

UU

2009

Dat

osen

tiem

pore

al;c

aptu

rade

caso

sde

enfe

rmed

ades

nore

gist

rado

sofic

ialm

ente

;dat

osdi

spon

ible

sant

esqu

elo

sdat

osofi

cial

esD

atos

dela

sbús

qued

asen

línea

para

mon

itore

arla

sepi

dem

iasd

ein

fluen

za12

2

Influ

enza

Dat

osde

las

búsq

ueda

sen

línea

Chi

na20

13

Det

ecci

ónde

epid

emia

sde

influ

enza

utili

zand

oTw

itter

Influ

enza

Twitt

erJa

pón

2011

114 C

hris

toph

erD

.Elv

idge

,Sut

ton

yco

l.20

09.

115 Sm

ith-C

lark

e,C

hris

toph

eran

dM

ashh

adi,

Afr

aan

dC

apra

,Lic

ia20

14.

116 C

aval

lo20

13.

117 U

nite

dN

atio

nsG

loba

lPul

se20

14.

118 So

toy

col.

2011

.11

9 The

nkab

ail,

Gam

age

ySm

akht

in20

04.

120 Z

hang

yco

l.20

08.

121 G

insb

erg

yco

l.20

09.

122 Y

uan

yal

.201

3.

65

Page 70: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

(aco

ntin

uaci

ón)

OD

Sad

opta

dos

por

elG

rupo

deTr

abaj

oA

bier

tode

laO

NU

Eje

mpl

osde

Big

data

Qué

sem

onit

orea

Cóm

ose

mon

itor

eaPa

ís(e

s)A

ñoV

enta

jas

delu

sode

big

data

Mon

itore

arbr

otes

dein

fluen

zaut

iliza

ndo

Twitt

erIn

fluen

zaTw

itter

EE

UU

2013

Sist

emas

para

mon

itore

arla

activ

idad

deen

ferm

edad

espa

reci

das

ala

influ

enza

con

laay

uda

devo

lunt

ario

satr

avés

deIn

tern

et

Influ

enza

Rep

orte

svo

lunt

ario

satr

avés

deIn

tern

et

Bélg

ica,

Ital

ia,

Hol

anda

,Por

tuga

l,R

eino

Uni

do,

Est

ados

Uni

dos

En

curs

o

Dat

osde

telé

fono

scel

ular

espa

ram

odel

arla

prop

agac

ión

dela

mal

aria

Mal

aria

Dat

osde

telé

fono

sce

lula

res

Ken

ia20

12

Uso

dem

edio

ssoc

iale

syde

com

unic

ació

npa

raco

ntro

lar

los

brot

esde

cóle

ra

Cól

era

Med

ioss

ocia

lesy

deco

mun

icac

ión

Hai

tí’20

12

Evo

luci

ónde

lden

gue

enG

oogl

eD

engu

eD

atos

dela

sbú

sque

dase

nlín

eaA

rgen

tina,

Boliv

ia,

Bras

il,In

dia,

Indo

nesi

a,M

éxic

o,Fi

lipin

as,S

inga

pur,

Taila

ndia

,V

enez

uela

En

curs

o

Mon

itore

ode

lasp

reoc

upac

ione

sso

bre

lasv

acun

aspa

raay

udar

aad

apta

rlo

spro

gram

asde

inm

uniz

ació

n

Preo

cupa

cion

esso

bre

lasv

acun

asIn

form

esde

los

med

ios(

por

ej.,

artíc

ulos

enlín

ea,

blog

s,in

form

esde

lgo

bier

no)

144

país

es20

13D

atos

nodi

spon

ible

sde

otro

mod

o;es

cost

oso

reco

pila

rda

tosa

trav

ésde

encu

esta

Mon

itore

ode

lasp

reoc

upac

ione

sso

bre

lasv

acun

asPr

eocu

paci

ones

sobr

ela

svac

unas

Twitt

erE

EU

U20

11

Aná

lisis

deTw

itter

utili

zado

para

real

izar

unse

guim

ient

ode

lain

cide

ncia

delV

IHy

los

com

port

amie

ntos

rela

cion

ados

con

lasd

roga

s

VIH

,con

sum

ode

drog

asTw

itter

EE

UU

2014

7.G

aran

tizar

elac

ceso

aun

aen

ergí

aas

equi

ble,

fiabl

e,so

sten

ible

ym

oder

napa

rato

dos12

3

Dat

osde

saté

lite

para

estim

arel

cons

umo

deen

ergí

ael

éctr

ica

Con

sum

ode

ener

gía

eléc

tric

aIm

ágen

esde

saté

lite

21pa

íses

1997

Act

ualiz

acio

nesf

recu

ente

s

8.Pr

omov

erel

crec

imie

nto

econ

ómic

oso

sten

ido,

incl

usiv

oy

sost

enib

le,e

lem

pleo

plen

oy

prod

uctiv

oy

eltr

abaj

ode

cent

epa

rato

dos12

4

Em

isio

nesd

elu

zca

ptad

aspo

rsa

télit

espa

raes

timar

elcr

ecim

ient

ode

lPIB

Cre

cim

ient

ode

lPI

BIm

ágen

esde

saté

lite

30pa

íses

2012

Els

ecto

rin

form

alse

refle

jaba

mej

or;i

nfor

mac

ión

disp

onib

lea

nive

lsub

naci

onal

;mej

ora

dees

timac

ione

spar

apa

íses

con

dato

sde

cuen

tasn

acio

nale

spob

res

Uso

delu

cesn

octu

rnas

para

estim

arel

PIB

ani

vele

ssub

naci

onal

es12

5PI

Ba

nive

les

subn

acio

nale

sIm

ágen

esde

saté

lite

Chi

na,I

ndia

,Tu

rquí

a,E

EU

U20

07

123 C

.D.E

lvid

gey

col.

1997

.12

4 Hen

ders

on,S

tore

ygar

dy

Wei

l201

2.12

5 Sutt

on,C

hris

toph

erD

.Elv

idge

yG

hosh

2007

.

66

Page 71: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

(aco

ntin

uaci

ón)

OD

Sad

opta

dos

por

elG

rupo

deTr

abaj

oA

bier

tode

laO

NU

Eje

mpl

osde

Big

data

Qué

sem

onit

orea

Cóm

ose

mon

itor

eaPa

ís(e

s)A

ñoV

enta

jas

delu

sode

big

data

Dat

osba

sado

sen

Inte

rnet

para

mon

itore

arla

infla

ción

entie

mpo

real

Infla

ción

Prec

iosd

em

inor

ista

sen

línea

Arg

entin

a,Br

asil,

Chi

le,C

olom

bia,

Ven

ezue

la

2012

Dat

osm

ásba

rato

sdis

poni

bles

con

may

orfr

ecue

ncia

9.C

onst

ruir

infr

aest

ruct

uras

resi

lient

es,p

rom

over

lain

dust

rial

izac

ión

incl

usiv

ay

sost

enib

ley

fom

enta

rla

inno

vaci

ón

Map

aqu

em

uest

ralo

sdis

posi

tivos

deIn

tern

eta

losq

uese

pued

eac

cede

rco

nco

ntra

seña

spor

defe

cto

osi

nco

ntra

seña

.Ape

sar

delo

sse

sgos

haci

adi

spos

itivo

sins

egur

os,

elm

apa

pued

ere

fleja

rel

uso

deIn

tern

eten

todo

elm

undo

Map

aqu

em

uest

radi

spos

itivo

sde

Inte

rnet

por

ubic

ació

n

Her

ram

ient

asde

Inte

rnet

para

esca

near

toda

slas

dire

ccio

nesd

ela

cuar

tave

rsió

nde

lpr

otoc

olo

deIn

tern

et

Elm

undo

2012

Más

fáci

l,m

ásba

rato

ym

ásrá

pido

que

lase

ncue

stas

deus

ode

Inte

rnet

.D

esve

ntaj

as:i

lega

lypo

sibl

emen

teno

sepu

eda

repr

oduc

irco

nlo

spr

otoc

olos

deIn

tern

etm

ásnu

evos

10.R

educ

irla

desi

gual

dad

enlo

spa

íses

yen

tre

ello

sM

apeo

dela

situ

ació

nso

cioe

conó

mic

am

edia

nte

elan

ális

isde

lbal

ance

detie

mpo

alai

rey

conj

unto

sde

dato

sde

telé

fono

sce

lula

res12

6

Riq

ueza

yde

sigu

alda

dC

ompr

asde

tiem

poal

aire

Cos

tade

Mar

fil20

13D

esve

ntaj

a:no

hay

dato

sde

terr

eno

para

com

para

r(lo

últim

osce

nsos

noso

nfia

bles

)

11.L

ogra

rqu

ela

sciu

dade

sylo

sas

enta

mie

ntos

hum

anos

sean

incl

usiv

os,s

egur

os,r

esili

ente

syso

sten

ible

s

Em

isio

nesd

elu

zca

ptad

aspo

rsa

télit

espa

raes

timar

laex

tens

ión

urba

na

Ext

ensi

ónur

bana

Imág

enes

desa

télit

eG

loba

l20

05Fo

rma

cons

iste

nte

ani

velg

loba

lde

map

ear

laex

tens

ión

urba

na;

actu

aliz

acio

nesm

ásfr

ecue

ntes

Uso

deda

tosd

eta

rjet

asde

tran

spor

tepa

rala

cons

truc

ción

deun

aim

agen

devi

ajes

indi

vidu

ales

ycó

mo

lasr

edes

deau

tobú

sytr

enso

nut

iliza

dasp

orel

públ

ico

Uso

detr

ansp

orte

yvi

ajes

Dat

osde

tarj

etas

detr

ansp

orte

Rei

noU

nido

Más

deta

llada

ym

ásfr

ecue

nte

que

losd

atos

deen

cues

ta

Seri

esde

tiem

pode

imág

enes

sate

lital

esde

zona

sinu

ndad

aspa

raid

entifi

car

zona

sde

ries

gode

inun

daci

ón

Pelig

roy

ries

gode

inun

daci

ónIm

ágen

esde

saté

lite

Nam

ibia

2014

Dat

osdi

spon

ible

sfre

cuen

tem

ente

Aná

lisis

dela

evol

ució

nte

mpo

ral

delu

cesn

octu

rnas

alo

larg

ode

lare

dflu

vial

para

obte

ner

unm

apa

glob

alde

laex

posi

ción

hum

ana

ala

sinu

ndac

ione

s

Luce

snoc

turn

asco

mo

prox

ypa

rala

pobl

ació

n/in

frae

stru

ctur

aa

lola

rgo

dela

red

fluvi

al

Imág

enes

desa

télit

eG

loba

l19

92-

2012

Uso

deda

tosd

eim

ágen

essa

telit

ales

,SIG

ypr

ecip

itaci

ónpa

rapr

oduc

irun

map

ade

ries

gode

inun

daci

óna

lola

rgo

delR

íoBe

nue

enN

iger

ia

Rie

sgo

dein

unda

ción

Imág

enes

desa

télit

eN

iger

ia20

14

Uso

deté

cnic

asde

tele

dete

cció

npo

rsa

télit

ey

SIG

para

elpe

ligro

yev

alua

ción

deri

esgo

dein

unda

cion

esen

eldi

stri

tode

Cha

mol

i,U

ttar

akha

nd,I

ndia

Pelig

roy

ries

gode

inun

daci

ónIm

ágen

esde

saté

lite

Indi

a20

14

126 G

utie

rrez

,Kri

ngsy

Blon

del2

013.

67

Page 72: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

(aco

ntin

uaci

ón)

OD

Sad

opta

dos

por

elG

rupo

deTr

abaj

oA

bier

tode

laO

NU

Eje

mpl

osde

Big

data

Qué

sem

onit

orea

Cóm

ose

mon

itor

eaPa

ís(e

s)A

ñoV

enta

jas

delu

sode

big

data

Eva

luac

ión

deli

mpa

cto

dein

unda

cion

esco

nre

gist

rosd

elte

léfo

noce

lula

r

Impa

cto

dein

unda

cion

esR

egis

tros

del

telé

fono

celu

lar

Méx

ico

2014

Aná

lisis

deda

tosd

eTw

itter

dura

nte

elhu

racá

nSa

ndy

para

iden

tifica

rqu

éda

tosp

odía

nse

rút

ilese

nla

resp

uest

aal

desa

stre

127

Tuits

sobr

eel

hura

cán

Twitt

erE

EU

U20

12

13.A

dopt

arm

edid

asur

gent

espa

raco

mba

tirel

cam

bio

clim

átic

oy

sus

efec

tos

Esc

aneo

por

saté

lite

para

mon

itore

arla

pobl

ació

ny

las

emis

ione

sde

gase

sde

efec

toin

vern

ader

ore

laci

onad

asco

nla

ener

gía12

8

Em

isio

nesd

epo

blac

ione

surb

anas

sepa

rada

sde

otra

sfue

ntes

;ac

tual

izac

ione

smás

frec

uent

es

Imág

enes

desa

télit

epa

ram

edir

lapr

oduc

ción

prim

aria

neta

Act

ualiz

acio

nesf

recu

ente

s

Obs

erva

cion

esde

met

ano

hech

asde

sde

eles

paci

oen

com

bina

ción

1291

30

Met

ano

Med

icio

nesd

esa

télit

eE

EU

U20

14

16.P

rom

over

soci

edad

espa

cífic

ase

incl

usiv

aspa

rael

desa

rrol

loso

sten

ible

,fac

ilita

rel

acce

soa

laju

stic

iapa

rato

dosy

cons

trui

ra

todo

slos

nive

lesi

nstit

ucio

nes

efica

cese

incl

usiv

asqu

eri

ndan

cuen

tas

Uso

deda

tosd

ete

léfo

nosm

óvile

syde

mog

ráfic

ospa

rapr

edec

irel

crim

enen

Lond

res

Cri

men

Dat

osde

telé

fono

sm

óvile

syde

mog

ráfic

os

Rei

noU

nido

Uso

de“D

atos

Glo

bale

ssob

reE

vent

os,L

ocal

izac

ión

yTo

no(G

DE

LTen

ingl

és)”

,un

conj

unto

deda

tosd

eno

ticia

s,pa

raca

lcul

arel

núm

ero

deev

ento

svio

lent

osen

unco

nflic

to13

1

Eve

ntos

viol

ento

sC

onju

nto

deda

tos

deno

ticia

sSi

ria

2013

-14

Med

icio

nesm

ásal

láde

lPIB

Reg

istr

osde

telé

fono

scel

ular

espa

rapr

edec

irni

vele

sso

cioe

conó

mic

os13

2

Dat

osdi

spon

ible

sde

form

am

ásre

gula

ry

más

bara

tosq

uelo

sdat

osofi

cial

es;l

aec

onom

íain

form

alse

refle

jaba

mej

or

127 St

atis

ticsW

ithou

tBor

ders

and

Hum

anity

Roa

d20

13.

128 C

hris

toph

erD

.Elv

idge

,Bau

ghy

col.

1997

.12

9 Kor

tyco

l.20

14.

130 Sc

hnei

sing

yco

l.20

14.

131 E

arly

col.

2004

.13

2 Soto

yco

l.20

11.

68

Page 73: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

Anexo 3: Análisis de mensajes de redes sociales por el INE de Holanda

Statistics Netherlands, el INE de Holanda, estudió mensajes de redes sociales disponibles creadospúblicamente en varias plataformas de redes sociales como Twitter y Facebook, así como losmensajes públicos publicados en los sitios web de noticias, foros web y blogs. Los mensajes seobtuvieron a través de una empresa comercial que habitualmente recoge todos los mensajesdisponibles públicamente escritos en holandés en la parte de habla holandesa de la web.

Se estudiaron tanto el contenido como el sentimiento de los mensajes. Los estudios sobre elcontenido de los mensajes en holandés en Twitter, la plataforma de redes sociales en la que secrean la mayoría de los mensajes públicamente disponibles en holandés, reveló que casi el 50 porciento de esos mensajes se componían de “balbuceos sin sentido”. El resto predominantementediscutió sobre las actividades de tiempo libre (10 por ciento), el trabajo (7 por ciento), los mediosde comunicación (televisión y radio) (5 por ciento) y la política (3 por ciento). El uso de estosmensajes más serios se vio obstaculizado por los mensajes “balbucientes” menos serios.

Figure: Dutch consumer confidence (grey) and the overall sentiment in Dutch social mediamessages on a monthly basis (black). Dutch articles are used as search terms. The social mediasentiments in December is considerably more positive compared to the sentiment in themonths before and after.

La determinación del sentimiento en todos los mensajes creados en todas las plataformasdisponibles reveló un uso potencial muy interesante de estos datos para las estadísticas. Con unlenguaje de consulta y una interfaz web, se seleccionaron mensajes de la base de datos. Los

69

Page 74: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

mensajes se clasificaron como positivos, negativos y neutrales. Se encontró que el sentimientoen estos mensajes estaba altamente correlacionado con la confianza de los consumidores enHolanda, en particular con sentimientos relacionados con la situación económica. StatisticsNetherlands produce mensualmente un índice de confianza del consumidor utilizando datos deencuesta de una muestra aleatoria del registro civil. Entretanto, los mensajes de medios socialeslos genera el 70 por ciento de la población holandesa.133 La última relación se mantuvo establemensual y semanalmente. Sin embargo, las cifras diarias muestran un comportamiento muyvolátil lo que sugiere que es posible producir indicadores de confianza mensuales y semanalescomparables con la confianza del consumidor. Los indicadores semanales se pueden producir elprimer día hábil siguiente a la semana de referencia, lo que demuestra la capacidad de entregarresultados rápidamente. Solo en diciembre las cifras no se relacionaban, cuando se produjomucho más sentimiento positivo en los medios sociales, eliminando todos los mensajes queincluían palabras para los días de Navidad y Año Nuevo reduciendo estos picos.134

Anexo 4: índices de precios por Cavallo (MIT)

El objetivo de este proyecto fue investigar y mostrar cómo el webscraping de los precios en líneapodía proporcionar información en tiempo real sobre la dinámica de los precios. Los preciosrecolectados de los minoristas en línea se pueden utilizar para construir índices de precios dealta frecuencia que complementen las estadísticas oficiales. En el MIT, el equipo de investigaciónde Alberto Cavallo utilizó datos recolectados entre octubre de 2007 y marzo de 2011, de los másgrandes supermercados en línea en cinco países de América Latina y estudió su capacidad decoincidir con las estimaciones oficiales de inflación. Los datos se recolectaron en Argentina,Brasil, Chile, Colombia, Uruguay y Venezuela utilizando un software de scraping que registradiariamente el precio del pan vendido o anunciado en los supermercados en línea.Posteriormente, se calcula la tasa de inflación diaria del pan para cada país. El estudio se centróen Argentina, donde las estadísticas oficiales han sido criticadas en los últimos años. Los datosde los índices de precios en línea aproximan tanto el nivel como la dinámica principal de lainflación oficial en Brasil, Chile, Colombia y Venezuela. Por el contrario, la tasa de inflaciónanual en línea de Argentina es consistentemente dos a tres veces mayor que las estimacionesoficiales.

Socios: PriceStats y el Billion Prices Project de MIT - Argentina, Brasil, Uruguay, Venezuela(República Bolivariana de).135

Anexo 5: Datos de luminosidad como proxy para las estadísticas económicas

133Eurostat 2014.134United Nations Statistical Commission 2014a.135United Nations Global Pulse 2011.

70

Page 75: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

Un problema generalizado en la investigación social y ambiental ha sido cómo mejorar lacalidad de los datos socioeconómicos en los países en desarrollo. Dadas las deficiencias de lasfuentes estándar, el presente estudio examinó la luminosidad (medición de las luces nocturnasvisibles desde el espacio) como proxy para las mediciones estándar de salida (producto internobruto). Los investigadores compararon la salida y la luminosidad a nivel nacional y a nivel de lacuadrícula de latitud y longitud para el período 1992-2008. Encontraron que la luminosidadtiene valor informativo para los países con sistemas estadísticos de baja calidad, en particularpara aquellos países que no han llevado a cabo recientemente censos de población yeconómicos.136

Anexo 6: Un sistema de información para precios de agricultura (DANE - Colombia)

SIPSA (Sistema de Información de Precios del Sector Agropecuario) proporciona información deprecios agropecuarios. La información se basa en los precios de venta al por mayor de alimentos, elsuministro de alimentos a las ciudades y los insumos y factores asociados a la producción agrícolay ganadera.

El primero, precios de alimentos al por mayor, tiene como objetivo recolectar informaciónsobre los precios al por mayor en el momento en que los precios se forman. Esta información serecolecta a través de la aplicación o interfaz web de SIPSA y se difunde a través de boletinesdiarios, semanales y mensuales. Cada componente tiene como objetivo satisfacer diferentesnecesidades de información. El boletín diario regional está dirigido principalmente a aquellaspersonas que se encuentren en los mercados, con el fin de darles evidencias y herramientas denegociación para realizar transacciones. El boletín diario nacional muestra el comportamientode los precios en siete ciudades principales. Se trata de una herramienta especial para todosaquellos relacionados con la toma de decisiones, tanto públicos como privados. El boletínsemanal, que también forma parte del primer componente de precios al por mayor, explica losdiferentes eventos que afectaron la comercialización de productos agrícolas a lo largo de lasemana. El boletín mensual, muestra el comportamiento agregado de los precios al por mayoren comparación con el mes inmediatamente anterior. Los otros dos componentes,abastecimiento e insumos, registran tanto las cantidades de productos agrícolas que entran ysalen de las ciudades en los principales mercados del país, así como el precio de venta de losprincipales insumos y factores asociados con la producción agrícola y ganadera en el país.

Fuente: PARIS21

Anexo 7: Open Intelligence en Mexico

136Chen y Nordhaus 2011.

71

Page 76: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

El startup Mexicano Open Intelligence desarrolla análitica basada en la nube y plataformas decomunicación que apoyan a los gobiernos y otras instituciones del sector público para la tomade decisiones de política basadas en datos. OPI desarrolló una exhaustiva bodega de datospública que centraliza millones de datos sobre las tendencias sociales y económicas en México, ypermite la visualización y el análisis correspondiente a través de su plataforma. Para clientes conel objetivo de generar datos sobre temas más específicos, las aplicaciones móviles de OPIfacilitan la recolección de datos en el terreno137.

Como un ejemplo, la Secretaría de Gobernación de México utiliza la plataforma para entender lastasas de criminalidad de los barrios. La SEGOB analizó la relación entre la educación, las familiasmonoparentales y más de un millar de otras variables. Más tarde ese año, la secretaría comenzó arediseñar sus políticas y la asignación de recursos con base en las contribuciones de OPI.138

Anexo 8: Aprovechar las fuentes de Big Data y técnicas basadas en CDR para analizar losresultados y procesos socioeconómicos en Colombia: los casos de Seguridad Pública yDesarrollo Social

El primero de los dos estudios piloto realizados por Data-Pop Alliance, Telefónica y laFundación Bruno Kessler, con financiación del Banco Mundial, se centra en la seguridad públicay la delincuencia en Bogotá. La investigación precisa los datos de criminalidad obtenidos de laPolicía Nacional de Colombia, en conjunto con otros tipos de datos, principalmente datos de2014 de registros de detalles de de llamada (CDR por sus siglas en inglés) proporcionados porTelefónica. El objetivo era ver cómo las fuentes de datos alternativas pueden ayudar a entender ypredecir la aparición de puntos calientes del crimen, tanto para predecir/prevenir futurosdelitos, como para entender lo que caracteriza las zonas donde las tasas de criminalidad sonparticularmente altas o particularmente bajas.

En términos generales, uno de los mejores predictores de futuros delitos es el crimen pasado, loque significa que los datos de informes de delitos pasados de la Policía Nacional podrían, en símismos, proporcionar información valiosa sobre dónde ocurrirán los futuros delitos. Sinembargo, el valor de aportar datos externos, tales como datos sobre los patrones de llamadas ySMS de teléfonos móviles en Bogotá, radica en el hecho que proporcionan ideas que se pierdencuando solamente se utilizan los datos de criminalidad.

De hecho, posibles correlaciones del crimen, como los ingresos y las redes sociales, se registraránde manera implícita en los datos de delitos pasados que se utilicen para la predicción, pero esospatrones surgen más fácilmente cuando los datos de delincuencia se cruzan con datos de otrasfuentes. Además, es útil desarrollar métodos alternativos de predicción de la delincuencia quepermitan a los INE monitorear y predecir el crimen incluso cuando no haya datos disponibles ofiables sobre crímenes pasados. Por lo tanto, estos pilotos tienen como objetivo utilizar los CDR

137Por ejemplo: http://brujulacd.mx/138GSMA Intelligence s.f.

72

Page 77: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

y otras fuentes de datos para construir una imagen más contemporánea, completa y compleja delos resultados sociales y los procesos subyacentes en América Latina en general, y en Colombia.

El segundo estudio piloto se centra en los resultados sociales. La investigación utiliza datos deCDR de 2014 proporcionados por Telefónica para obtener indicadores socioeconómicos paraBogotá, centrándose particularmente en la pobreza y la cohesión social. Se tomaron datos decontexto de la Encuesta Multipropósito de Bogotá de 2014, llevada a cabo por la SecretaríaDistrital de Planeación (SDP) en asociación con el DANE, que recolectó microdatos de unamuestra representativa de hogares en cada una de las 19 localidades de la ciudad y 31 de susmunicipios circundantes. Los datos cubren 14 temas, incluyendo por ejemplo las condiciones devida del hogar, salud, niveles de educación y gasto de los hogares. Los datos de la encuesta seagregarán a un nivel geográfico más alto para preservar el anonimato de los hogares y lascaracterísticas significativas serán analizadas por el equipo de investigación de Data-Pop Alliancey afiliados que tengan experiencia previa trabajando con datos del DANE. Estos datos puedenservir como datos de terreno o ayudar a perfeccionar la capacidad de predicción con el análisisde los datos de CDR, según sea necesario.

Al igual que con el primer estudio piloto sobre el crimen, el objetivo final de este programa esayudar al Departamento Administrativo Nacional de Estadística (DANE) de Colombia a explorarla posibilidad y la manera de aprovechar las fuentes y técnicas de Big Data (específicamente lorelacionado con los CDR) para obtener indicadores sociales, en formas que se puedan incorporaren el flujo de trabajo nacional de las estadísticas oficiales. Para cada estudio piloto, los resultadosprevistos son:

Un trabajo de investigación empírico, con calidad de publicación en revistas académicas,escrito por los investigadores de Data-Pop Alliance, Telefónica y la Fundación BrunoKessler;

Una versión de este documento, adaptada por Data-Pop Alliance, que presente lasprincipales lecciones y conclusiones, acompañadas por códigos y elementos visuales, parauso del DANE;

Un repositorio de códigos y herramientas de visualización utilizados en el proyecto,publicados bajo una licencia Creative Commons y destinados a ser reutilizados comoherramientas de aprendizaje y formación.

Anexo 9: Principales componentes de tecnologías de la información

Apache Hadoop. Sistema para mantener un sistema de archivos distribuido que soporta elalmacenamiento a gran escala (terabytes o petabytes de contenidos) y el procesamiento paralelode algoritmos para grandes conjuntos de datos, lo que requiere un lenguaje de programacióncomo Java o Python.

73

Page 78: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

Apache Spark. Un motor rápido y de propósito general para el procesamiento de datos a granescala que trabaja con el apoyo de Hadoop o bases de datos en memoria. Requiere un lenguaje deprogramación como Java o Python.

Lenguaje de programación Java. Un lenguaje de ingeniería de sistemas de propósito general, quesoporta la creación de algoritmos eficientes para el análisis de datos.

Pig y Hive como herramientas de programación para la manipulación de datos (es decir, paraconsultar datos en clústeres de Hadoop) previo al uso de software estadístico (R, SAS, SPSS osimilar).139

Lenguaje de programación Python. Un lenguaje de ingeniería de sistemas de propósito general,que soporta la creación de prototipos rápidos y algoritmos eficientes para el análisis de datos.140

R, PostgreSQL o Weka como tecnologías de código abierto y gratuitas para analizar contenidosde medios sociales como Twitter.

Anexo 10: Análisis DOFA agregado para los INE de ALC y Big Data

139Eurostat 2014.140American Association for Public Opinion Research (AAPOR) 2015.

74

Page 79: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

Fortalezas Debilidades

La región está obteniendo un mayor interés porparte del sector privado.

Hay amplia disponibilidad de tecnología móvil,Internet y medios sociales (a pesar de las brechasentre áreas urbanas y rurales).

Los sistemas estadísticos de muchos países deALC tienen una sólida y larga tradición encensos y encuestas.

Los INE por mandato y diseño están entrenadosy preparados para trabajar con datos (tanto entérminos de capacidades técnicas y legislación).

Los INE tienen un proceso bien establecidopara monitorear los ODM (i.e., entrenamientovirtual, intercambio a nivel regional).

Hay presencia de comités, instituciones ygrupos de trabajo muy fuertes a través de laregión como la CEPAL.

De manera creciente, las universidades estánabriendo programas de maestría en ciencias dedatos.

Se han realizado pilotos y aplicaciones de bigdata.

Hay varios ejemplos de uso de Big Data en laregión, iniciados por otros actores que podríanconvertirse en socios potenciales.

Hay una gran cantidad de fuentes de datosdisponibles; ALC está viendo una revolucióndigital.

Hay una reestructuración tecnológica enalgunos INE (hacia GSBPM); la mayoría estáen proceso de construir almacenes de datos;muchos trabajan con Hadoop.

Muchos están en proceso de cambiarse a SDMX.

En la región de ALC hay poca cultura de “tomade decisiones con base en la evidencia”.

En general, la cultura en investigación einnovación de la región es débil.

Los marcos legales débiles limitan muchos INEde la región.

La inter-operatividad entre diferentesorganismos es limitada o mala.

Las instituciones tienen poco conocimientosobre el concepto de Big Data.

La apertura se proclama, pero aún no se practica.

Las páginas web principales y otros canalesde distribución son todavía muy débiles; elinvolucramiento con los beneficiarios de datoses débil.

Big Data no es una prioridad alta.

Los esfuerzos en Big Data no están integradosen una estrategia más amplia. El progreso delos pilotos depende de la buena voluntad y elcompromiso de líderes internos.

Hay una falta de capacidad humana para trabajarcon datos; alfabetización datos.

Hay pocas oportunidades de conseguir apoyoexterno, i.e., a través de practicantes.

Hay oportunidades limitadas para asociacionesy colaboración.

Los esfuerzos son paralelos en lugar de combinaráreas relacionadas como ODS, datos abiertos,big data e innovación.

No existe una cultura de asociaciones público-privada.

Hay poco intercambio con otros grupos deinterés externos, i.e., startups y organizacionesde la sociedad civil.

75

Page 80: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

Oportunidades Amenazas

El proceso de los ODS podría fortalecer elmandato de los INE de la región.

Se puede aprender de los primeros ejemplos demejores prácticas en big data de la región.

Hay un vibrante movimiento de Datos Abiertosy muchos defensores del Código Abierto.

Se desarrollan siscusiones vibrantes sobre elGobierno de Internet en toda la región (verMarco Civil como ejemplo de buena prácticapara procesos de múltiples actores).

Líderes internos en las organizaciones estánansiosos por trabajar con y discutir Big Data.

Existen ecosistemas vibrantes de tecnología enmuchos países de ALC.

Hay una demanda por espacios de datos en todala región que podrían promover los INE.

Se pueden intercambiar ideas y experiencias conotros INE, también a nivel de la ONU (sinembargo, esto podría ser un riesgo para aquellosque no estén incluidos); se debe establecer unacomunidad de prácticas.

Se puede construir una plataforma para elintercambio de conocimientos; i.e., una wikipara Big Data + INE de la región de ALC.

Otros organismos podrían ocupar el tema.

Hay poco debate sobre los posibles riesgos yconsecuencias negativas de Big Data.

Hay confusión acerca de Big Data como unecosistema y Big Data como fuente de datos, yentre Big Data y otras fuentes de datos, i.e. datosabiertos.

Reinventando la rueda los INE enfrentancompetencia y no colaboración (tanto entre losorganismos, así como entre países).

No hay acceso sostenible a determinadosconjuntos de datos, i.e., datos de CDR;además, maneras de por sí insostenibles deintercambio/accso a los datos, i.e., datosadministrativos, no se basan en legados.

Las organizaciones podrían copiar en lugar deinventar según necesidades locales.

Los presupuestos de algunos países (México,Colombia, etc.) podrían reducirse debido a lacaída de los precios del petróleo.

Los INE siguen siendo “órganos cerrados”.

76

Page 81: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

Bibliography

American Association for Public Opinion Research (AAPOR). AAPOR Report on Big Data.2015. URL: https://www.aapor.org/AAPOR_Main/media/Task-Force-Reports/BigDataTaskForceReport_FINAL_2_12_15_b.pdf.

Ballivian, Amparo y William Hoffman. Public-Private Partnerships for Data. 2015. URL:http://data.worldbank.org/sites/default/files/issue-paper-financing-the-data-revolution-ppps_0.pdf.

Barbosa, Ariel. Global Information Society Watch 2014: Communications surveillance in thedigital age, Colombia. 2014. URL: https://www.giswatch.org/sites/default/files/hacking_information_on_the_peace_talks_in_colombia.pdf.

Bibolini, Lucia y Henry Lancaster. 2014 Latin America – Telecoms, Mobile and BroadbandOverview. 2014. URL: http://www.budde.com.au/Research/2014-Latin-America-Telecoms-Mobile-and-Broadband-Overview.html?r=51.

boyd, danah y Kate Crawford. «Critical Questions for Big Data». En: Information,Communication & Society 15.5 (2012). ISSN: 1468-4462. DOI:10.1080/1369118X.2012.678878. URL:http://www.tandfonline.com/doi/pdf/10.1080/1369118x.2012.678878.

Cavallo, Alberto. «Online and official price indexes: Measuring Argentina’s inflation». En:Journal of Monetary Economics 60.2 (2013), pp. 152-165. ISSN: 0304-3932. DOI:10.1016/j.jmoneco.2012.10.002. URL:http://www.sciencedirect.com/science/article/pii/S0304393212000967.

Cavenaghi, Suzana. Data Revolution: Is Latin America prepared and ready to engage? 2015. URL:http://paa2015.princeton.edu/uploads/153763.

CGIAR Research Program on Climate Change, Agriculture and Food Security (CCAFS).«Cracking patterns in big data saves Colombian rice farmers huge losses». En: 2014 AnnualReport (2014). URL:https://ccafs.cgiar.org/research/annual-report/2014/cracking-patterns-in-big-data-saves-colombian-rice-farmers-huge-losses.

Chen, Xi y William D. Nordhaus. «Using luminosity data as a proxy for economic statistics».En: Proceedings of the National Academy of Sciences 108.21 (2011), pp. 8589-8594. DOI:10.1073/pnas.1017031108. URL:http://www.pnas.org/content/108/21/8589.abstract.

CIVICUS. The Data Shift. URL: http://civicus.org/thedatashift/.

Clark, Liat. «Nuria Oliver: what big data and the Mexican pandemic taught us». En: Wired UK(2013). URL: http://www.wired.co.uk/news/archive/2013-10/17/nuria-oliver.

Cobos, María Isabel, Tim Miller y Magda Ruiz Salguero. «Hacia la armonización de lasestimaciones de mortalidad materna en América Latina: hallazgos de un estudio piloto enocho países». En: Naciones Unidas, Santiago, Chile. 108.a ép. (2013). ISSN: 1680-899. URL:

77

Page 82: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

http://repositorio.cepal.org/bitstream/handle/11362/7143/LCL3735_es.pdf?sequence=1.

Congreso de la República de Colombia. Ley Estatutaria 1266 de 2008. 2008. URL:http://www.alcaldiabogota.gov.co/sisjur/normas/Norma1.jsp?i=34488.

— Ley Estatutaria 1581 de 2012. 2012. URL:http://www.secretariasenado.gov.co/senado/basedoc/ley_1581_2012.html.

— Proyecto de ley 1753 de 2015 cámara por la cual se expide el Plan Nacional de Desarrollo2014-2018 ‘Todos Por un Nuevo País’. 2014. URL:https://colaboracion.dnp.gov.co/CDT/Prensa/ArticuladoVF.pdf.

Cordero, Arturo Sevilla. Colombia avanza en una mejor calidad de vida. 2016. URL: http://docplayer.es/9744214-Colombia-avanza-en-una-mejor-calidad-de-vida.html.

Daas, Piet y Mark van der Loo. Big data (and official statistics). 2013. DOI:10.2901/Eurostat.C2013.001. URL:http://www.unescap.org/sites/default/files/2-Big%20Data%20(and%20official%20statistics)-Netherlands-presentation.pdf.

Data Revolution for Sustainable Development (IEAG), United Nations Secretary-General’s Independent Expert Advisory Group on a. A World That Counts: Mobilising TheData Revolution for Sustainable Development. 2014. URL: http://www.undatarevolution.org/report/%20http://www.undatarevolution.org/wp-content/uploads/2014/11/A-World-That-Counts.pdf.

Digiampietri, Luciano A y col. «BraX-Ray: An X-Ray of the Brazilian Computer ScienceGraduate Programs». En: PLoS ONE 9.4 (2014). ISSN: 1932-6203. DOI:10.1371/journal.pone.0094541. URL:http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3984164/%20http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3984164/pdf/pone.0094541.pdf.

Earl, Jennifer y col. «The Use of Newspaper Data in the Study of Collective Action». En:Annual Review of Sociology 30.1 (2004), pp. 65-80. ISSN: 0360-0572. DOI:10.1146/annurev.soc.30.012703.110603. URL:http://www.annualreviews.org/doi/abs/10.1146/annurev.soc.30.012703.110603.

Economic Commission for Latin America and the Caribbean (ECLAC/CEPAL). Developmentof Official Statistics in the Region. 2010. URL:http://repositorio.cepal.org/bitstream/handle/11362/3146/2010-695_ReportLAC_en.pdf.

— Consenso de Montevideo sobre Población y Desarollo. 2013. URL:http://www.cepal.org/celade/noticias/documentosdetrabajo/8/50708/2013-595-consenso_montevideo_pyd.pdf.

— Big data and open data as sustainability tools. 2014. URL:http://www.cepal.org/en/publications/37158-big-data-and-open-data-sustainability-tools-working-paper-prepared-economic.

78

Page 83: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

Economic Commission for Latin America and the Caribbean (ECLAC/CEPAL). Statisticalactivities in Latin America and the Caribbean: Recent achievements and next challenges.2015. URL: https://documents-dds-ny.un.org/doc/UNDOC/GEN/N14/683/08/PDF/N1468308.pdf?OpenElement.

— The new digital revolution: From the consumer Internet to the industrial Internet. 2015. URL:http://repositorio.cepal.org/bitstream/handle/11362/38767/S1500587_en.pdf.

Elvidge, C. D. y col. «Relation between satellite observed visible-near infrared emissions,population, economic activity and electric power consumption». En: International Journalof Remote Sensing 18.6 (1997), pp. 1373-1379. DOI: 10.1080/014311697218485. URL:http://www.tandfonline.com/doi/abs/10.1080/014311697218485.

Elvidge, Christopher D., Kimberly E. Baugh y col. «Satellite inventory of human settlementsusing nocturnal radiation emissions: a contribution for the global toolchest». En: GlobalChange Biology (1997), pp. 387-395. URL: http://www.as.wvu.edu/biology/bio463/Elvidge%20et%20al%201997%20satellite%20night%20pictures.pdf.

Elvidge, Christopher D., Paul C. Sutton y col. «A global poverty map derived from satellitedata». En: Computers & Geosciences 35.8 (2009), pp. 1652-1660. URL:http://www.sciencedirect.com/science/article/pii/S0098300409001253.

Eurostat. Big Data in Official Statistics: Technical Workshop Report. 2014. URL: http://www1.unece.org/stat/platform/pages/viewpage.action?pageId=102664009.

Expert Group on Poverty Statistics. «Expert Group on Poverty Statistics: Rio». En:Compendium of Best Practices in Poverty Measurement. 2006. ISBN: 85-240-3908-6.

Ginsberg, Jeremy y col. «Detecting influenza epidemics using search engine query data». En:Nature 457 (2009). DOI: 10.1038/nature07634.

Giovannini, Enrico. «Statistics 2.0 - The next level». En: 10th National conference of statistics.2010. URL: http://en.istat.it/istat/eventi/2010/10_conferenza_statistica/.

Glickhouse, Rachel. Explainer: Twitter in Latin America. 2013. URL:http://www.as-coa.org/articles/explainer-twitter-latin-america.

GSMA Intelligence. The Mobile Economy 2014. URL:http://www.gsmamobileeconomylatinamerica.com/GSMA_Mobile_Economy_LatinAmerica_2014.pdf.

Gurin, Joel. «Big data and open data: what’s what and why does it matter?» En: The Guardian(2014). URL: http://www.theguardian.com/public-leaders-network/2014/apr/15/big-data-open-data-transform-government.

Gutierrez, Thoralf, Gautier Krings y Vincent D Blondel. «Evaluating socio-economic state of acountry analyzing airtime credit and mobile phone datasets». En: (2013). URL:http://arxiv.org/pdf/1309.4496.pdf.

Henderson, J. Vernon, Adam Storeygard y David N Weil. «Measuring Economic Growth fromOuter Space». En: American Economic Review 102.2 (2012), pp. 994-1028. ISSN: 0002-8282.

79

Page 84: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

DOI: 10.1257/aer.102.2.994. URL:http://pubs.aeaweb.org/doi/abs/10.1257/aer.102.2.994.

Hubbard, Douglas W. Pulse: the new science of harnessing Internet buzz to track threats andopportunities. Hoboken, N.J: Wiley, 2011. 191 pp. ISBN: 978-0-470-93236-0.

Hyunyoung, Choi y Hal Varian. Predicting the Present with Google Trends. 2011. URL:http://people.ischool.berkeley.edu/~hal/Papers/2011/ptp.pdf.

Informa. Latin America reaches 100% mobile penetration says Informa Telecoms & Media. 2011.URL: http://www.informa.com/media/press-releases-news/latest-news/latin-america-reaches-100-mobile-penetration-says-telecoms--media/.

Instituto Nacional de Estadística y Geografía (INEGI) de México. Agenda for InternationalMeeting on Gender Statistics: Statistical challenges towards the implementation of the Post2015 Agenda. 2015. URL:http://www.inegi.org.mx/eventos/2015/genero/doc/agenda_XVIgenero_en.pdf.

— Tweet Analysis. 2015. URL:http://www1.unece.org/stat/platform/display/BDI/Mexico+(INEGI)+-+Tweet+Analysis.

International Telecommunication Union. World Telecommunication/ICT Indicators database,19th Edition. 2015. URL:http://www.itu.int/en/ITU-D/Statistics/Pages/publications/wtid.aspx.

Internet World Stats. Latin American Internet and Users and Population Statistics. 2013. URL:http://www.internetworldstats.com/stats10.htm.

Katz, Raúl. El ecosistema y la economía digital en América Latina. 2015. URL:http://cet.la/blog/course/libro-el-ecosistema-y-la-economia-digital-en-america-latina/.

Khan, Amina y Elizabeth Stuart. What’s measured is also political. 2015. URL:http://deliver2030.org/?p=5999.

King, Gary. «Big Data is Not About the Data!» En: Golden Seeds Innovation Summit, New YorkCity. 2013. URL: http://gking.harvard.edu/files/gking/files/evbase-gs.pdf.

Kort, Eric A. y col. «Four corners: The largest US methane anomaly viewed from space». En:Geophysical Research Letters 41.19 (2014), pp. 6898-6903. ISSN: 00948276. DOI:10.1002/2014GL061503. URL: http://doi.wiley.com/10.1002/2014GL061503.

Kreuter, Frauke y Roger D. Peng. «Privacy, Big Data, and the Public Good: Frameworks forEngagement». En: ed. por Julia Lane y col. Cambridge University Press, 2014.Cap. Extracting Information from Big Data: Issues of Measurement, Inference andLinkage, pp. 257-275. DOI: http://dx.doi.org/10.1017/CBO9781107590205.016.URL: http://ebooks.cambridge.org/chapter.jsf?bid=CBO9781107590205&cid=CBO9781107590205A020.

80

Page 85: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

Letouzé, Emmanuel. «Six Considerations on Official Statistics and the (Big) Data Revolution».En: Note prepared for the OECD–Paris21 event at the 2013 UN General Assembly, New York.2013.

— Concept Note on SDGs and Big Data. 2015.

Mejía, Luis Fernando y col. Indicadores ISAAC: Siguiendo la actividad sectorial a partir de GoogleTrends. 2013. URL: http://www.minhacienda.gov.co/portal/page/portal/HomeMinhacienda/politicafiscal/reportesmacroeconomicos/NotasFiscales/.

Mocanu, Delia y col. «The Twitter of Babel: Mapping World Languages through MicrobloggingPlatforms». En: PLOS ONE 8.4 (2013), e61981. ISSN: 1932-6203. DOI:10.1371/journal.pone.0061981. URL:http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0061981.

Montjoye, Yves-Alexandre de y col. «Unique in the crowd: The privacy bounds of humanmobility». En: Nature Scientific Reports 3.1376 (2013). DOI: doi:10.1038/srep01376.

Newman Pont, Vivian. Datos personales en informaci ón pública: oscuridad en lo privado y luz enlo público. Dejusticia, 2015. ISBN: 978-9585885813.

Ohm, Paul. «Broken Promises of Privacy: Responding to the Surprising Failure ofAnonymization». En: UCLA Law Review 57.1701 (2010). URL:http://papers.ssrn.com/sol3/papers.cfm?abstract_id=1450006.

Open Data Institute. The Data Spectrum helps you understand the language of data. URL:https://theodi.org/data-spectrum (visitado 12-2015).

Open Data Research Network. Opening Data in Montevideo: A bottom up experience. 2014.URL: http://www.opendataresearch.org/content/2014/574/opening-data-montevideo-bottom-experience.

Orange. Data for Development (D4D) Challenge. 2014. URL: http://www.d4d.orange.com/.

Pawelke, Andreas y Anoush Rima Tatevossian. Data Philanthropy: Where Are We Now? 2013.URL: http://www.unglobalpulse.org/data-philanthropy-where-are-we-now.

Pentland, Alex “Sandy”. «Social Computing and Behavioral Modeling». En: Boston, MA:Springer US, 2009. Cap. Reality Mining of Mobile Communications: Toward A New DealOn Data. ISBN: 978-1-4419-0056-2. DOI: 10.1007/978-1-4419-0056-2_1. URL:http://dx.doi.org/10.1007/978-1-4419-0056-2_1.

— «Reinventing Society in the Wake of Big Data: A Conversation with Alex (Sandy)Pentland.» En: Edge.org (30 de agosto de 2012). URL:https://www.edge.org/conversation/alex_sandy_pentland-reinventing-society-in-the-wake-of-big-data (visitado 21-03-2016).

Pretz, Kathy. «Guadalajara: Smart City of the Near Future». En: The Institute: The IEEE newssource (2014). URL: http://theinstitute.ieee.org/technology-focus/technology-topic/guadalajara-smart-city-of-the-near-future.

81

Page 86: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

Reader, Ruth. More than half of all smartphone users in Latin America use Twitter, study claims.2015. URL: http://venturebeat.com/2015/02/16/more-than-half-of-all-smartphone-users-in-latin-america-use-twitter-study-claims/.

Ruiz, Claudio. «Privacy and security, the Latin American way». En: Digital Rights 28 (2014).URL: http://www.digitalrightslac.net/en/privacidad-y-vigilancia-a-la-latinoamericana/.

Scannapieco, Monica y col. Placing Big Data in Official Statistics: A Big Challenge? Brussels,2013. URL:http://www.cros-portal.eu/sites/default/files//NTTS2013fullPaper_214.pdf.

Schneising, Oliver y col. «Remote sensing of fugitive methane emissions from oil and gasproduction in North American tight geologic formations». En: Earth’s Future 2.10 (2014),pp. 548-558. ISSN: 23284277. DOI: 10.1002/2014EF000265. URL:http://doi.wiley.com/10.1002/2014EF000265.

Secretaría de Turismo. Uso Productivo de Big Data y Redes Sociales en el Sector Turismo. 2014.URL: http://www.datatur.beta.sectur.gob.mx/Documentos%20Publicaciones/2014_1_DocInvs.pdf.

Smith, Christopher, Afra Mashhadi y Licia Capra. Ubiquitous Sensing for Mapping Poverty inDeveloping Countries. 2013. URL:http://www.cities.io/wp-content/uploads/2012/12/d4d-chris-submitted.pdf.

Smith-Clarke, Christopher and Mashhadi, Afra and Capra, Licia. «Poverty on the Cheap:Estimating Poverty Maps Using Aggregated Mobile Communication Networks». En:Proceedings of the SIGCHI Conference on Human Factors in Computing Systems. New York,NY, USA, 2014. DOI: 10.1145/2556288.2557358. URL:http://doi.acm.org/10.1145/2556288.2557358.

Soto, Victor y col. «Prediction of Socioeconomic Levels Using Cell Phone Records». En:Springer Berlin Heidelberg, 2011, pp. 377-388. DOI: 10.1007/978-3-642-22362-4_35.URL: http://link.springer.com/10.1007/978-3-642-22362-4%7B%5C_%7D35.

Statistics Without Borders and Humanity Road. Analysis of Twitter Data during HurricaneSandy. 2013. URL: http://www.slideshare.net/CatGraham/swb-hr-hurricane-sandy-twitter-analysis.

Sutton, Paul C., Christopher D. Elvidge y Tilottama Ghosh. Estimation of Gross DomesticProduct at Sub-National Scales Using Nighttime Satellite Imagery. 2007.

Téllez, Omar. «Producing Unicorns in The Land Of Fútbol, Samba and El Dorado». En:TechCrunch (2015). URL: http://techcrunch.com/2015/06/06/producing-unicorns-in-the-land-of-futbol-samba-and-el-dorado/.

The World Bank, World Bank Group y Social Muse. Big Data in Action for Development. 2014.URL: http://data.worldbank.org/news/big-data-in-action-for-development.

Thenkabail, P S, N Gamage y V U Smakhtin. «The Use of Remote Sensing Data for DroughtAssessment and Monitoring in Southwest Asia». En: International Water Management

82

Page 87: DATA POPdatapopalliance.org/wp-content/uploads/2016/05/... · 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y

Institute (2004). URL: http://www.iwmi.cgiar.org/Publications/IWMI%7B%5C_%7DResearch%7B%5C_%7DReports/PDF/pub085/RR85.pdf.

United Nations Economic Commission for Europe (UNECE). What does “Big Data” Mean forOfficial Statistics. 2013. URL:http://www1.unece.org/stat/platform/pages/viewpage.action?pageId=77170614.

United Nations Global Pulse. Daily Tracking of Commodity Prices: The E-bread Index. 2011.URL: http://www.unglobalpulse.org/projects/comparing-global-prices-local-products-real-time-e-pricing-bread.

— Rapid Impact and Vulnerability Analysis Fund (RIVAF) Final Report. 2012. URL:http://www.unglobalpulse.org/sites/default/files/FINAL%20RIVAF%20REPORT%20COMPILED_0.pdf.

— «Mining Indonesian Tweets to Understand Food Price Crises». En: (2014). URL:http://www.unglobalpulse.org/sites/default/files/Global-Pulse-Mining-Indonesian-Tweets-Food-Price-Crises%20copy.pdf.

United Nations Statistical Commission. Big data and modernization of statistical systems. 2014.URL: http://unstats.un.org/unsd/statcom/doc14/2014-11-BigData-E.pdf.

— Report of the Global Working Group on Big data for official statistics. 2014. URL:http://unstats.un.org/unsd/statcom/doc15/2015-4-BigData.pdf.

Urioste Braga, Fernando. Derecho de la información. Montevideo-Buenos Aires: B de F, 2009.

Velasco, Patricio y Pablo Viollier. «Información Financiera y Discriminación Laboral en Chile:un Caso de Estudio Sobre». En: Derechos Digitales (2016). URL:https://www.derechosdigitales.org/wp-content/uploads/big-data-informe.pdf.

Yuan, Q. y Et al. «Monitoring Influenza Epidemics in China with Search Query from Baidu».En: PLOS ONE 8(5): e64323 (2013).

Zhang, Renhua y col. «Drought Monitoring in Northern China based on Remote Sensing Dataand Land Surface Modeling». En: IEEE International Geoscience and Remote SensingSymposium (IGARSS). Vol. 3. 1. IEEE, 2008, pp. III – 860–III -863. ISBN:978-1-4244-2807-6. DOI: 10.1109/IGARSS.2008.4779485. URL:http://ieeexplore.ieee.org/lpdocs/epic03/wrapper.htm?arnumber=4779485.

83