etl tools scanning

27
2008-03-15 1 Recopilación de Herramientas ETL (Extraction, Transformation and Load) Jhonny Saavedra Matrícula: A00369 Robert Jaramillo Matrícula: A00369 Jose Miguel Alonso Matrícula: A00369 Ingeniería de Datos

Upload: ecejmam

Post on 13-Jun-2015

999 views

Category:

Documents


2 download

DESCRIPTION

ETL Tools scanning

TRANSCRIPT

Page 1: ETL tools scanning

Top right corner for field-mark, customer or partner logotypes. See Best practice for example.

Slide title 40 pt

Slide subtitle 24 pt

Text 24 pt

Bullets level 2-520 pt

2008-03-151

Recopilación de Herramientas ETL

(Extraction, Transformation and Load)

Jhonny Saavedra Matrícula: A00369Robert Jaramillo Matrícula: A00369Jose Miguel Alonso Matrícula: A00369

Ingeniería de Datos

Page 2: ETL tools scanning

Top right corner for field-mark, customer or partner logotypes. See Best practice for example.

Slide title 40 pt

Slide subtitle 24 pt

Text 24 pt

Bullets level 2-520 pt

2008-03-152

Agenda

Que hace una Herramienta ETL Porqué una Herramienta ETL Herramientas Comerciales

– Informatica PowerCenter– SAS Enterprise Data Integration Server– Cognos Decision Stream

Herramientas Open Source– Pentaho Data Integration– Talend

Conclusiones

Page 3: ETL tools scanning

Top right corner for field-mark, customer or partner logotypes. See Best practice for example.

Slide title 40 pt

Slide subtitle 24 pt

Text 24 pt

Bullets level 2-520 pt

2008-03-153

Qué hace una Herramienta ETL

Extraer, Transformar, Cargar: Tres funciones de Base de Datos combinadas en una sóla herramienta que automatiza el proceso de extracción de una BD y carga en otra BD

Una herramienta ETL: – Extrae datos de varias fuentes (normalmente legacy)– Transforma los datos

Desde -> Repositorios optimizados para las transacciones A -> Repositorios optimizados para reporting y análisis Sincroniza los datos que proceden de diferentes Bases de

Datos Realiza una limpieza de datos para eliminar errores

– Carga los datos en un sistema Data Warehouse

http://etl-tools.info/

Page 4: ETL tools scanning

Top right corner for field-mark, customer or partner logotypes. See Best practice for example.

Slide title 40 pt

Slide subtitle 24 pt

Text 24 pt

Bullets level 2-520 pt

2008-03-154

Porqué una Herramienta ETL

Las Herramientas ETL ahorran tiempo y dinero en el desarrollo de un Data WareHouse por medio de reducir/suprimir la necesidad de codificación “Hand-coding”

La “Codificación” es todavía la forma más común de integración de datos.

– Requiere horas de desarrollo y un gran expertise para crear Sistemas de Business Intelligence

Integración de Bases de Datos de diferentes suministradores – Es una tarea difícil para los administradores de Bases de Datos

sin el uso de una herramienta externa ETL En el supuesto de que las Bases de Datos fuentes sean alteradas

o se requiera la Integración de nuevas Bases de Datos– Se necesita rehacer un gran trabajo de codificación

http://etl-tools.info/

Page 5: ETL tools scanning

Top right corner for field-mark, customer or partner logotypes. See Best practice for example.

Slide title 40 pt

Slide subtitle 24 pt

Text 24 pt

Bullets level 2-520 pt

2008-03-155

INFORMATICA POWERCENTER

Page 6: ETL tools scanning

Top right corner for field-mark, customer or partner logotypes. See Best practice for example.

Slide title 40 pt

Slide subtitle 24 pt

Text 24 pt

Bullets level 2-520 pt

2008-03-156

Informatica PowerCenter

Fundada en 1993– Líder del mercado en Data Integration (Según Gartner)– Más de 2600 clientes, de los cuales más de 100 son

grandes compañías (Grandes Administraciones o estánen Dow Jones)

Su principal enfoque es Data Integration– Dispone de un gran solución comercial para Data

Integration

Dispone de un gran Paquete para empresas para poder integrar sus sistemas, realizar limpieza de datos y permite conectarse a un gran número de sistemas actuales y legacy

http://www.informatica.com/products_services/powercenter/Pages/index.aspx

Page 7: ETL tools scanning

Top right corner for field-mark, customer or partner logotypes. See Best practice for example.

Slide title 40 pt

Slide subtitle 24 pt

Text 24 pt

Bullets level 2-520 pt

2008-03-157

Principales Conceptos PowerCenter utiliza un entorno que centraliza la administración

– Este entorno está constituido por múltiples nodos, y cada servicio corre sobre un nodo

Utiliza servicio “Administration Console” – Para centralizar la administración de nodos y servicios dentro del

entorno Utiliza quizás el mejor “Repository Service”

– Para administrar los repositorios de la aplicación Utiliza un “Integration Service” Permite globalizar los equipos de desarrollo permitiendo:

– Flexibilidad, arquitectura enfocada en metadatos– Herramientas visuales robustas

Arquitectura utilizando:– PowerCenter Domain– PowerCenter Repository– Administration Console– PowerCenter Client– Repository Service– Integration Service

http://www.informatica.com/products_services/powercenter/Pages/index.aspx

Page 8: ETL tools scanning

Top right corner for field-mark, customer or partner logotypes. See Best practice for example.

Slide title 40 pt

Slide subtitle 24 pt

Text 24 pt

Bullets level 2-520 pt

2008-03-158

Arquitectura

http://www.informatica.com/products_services/powercenter/Pages/index.aspx

Page 9: ETL tools scanning

Top right corner for field-mark, customer or partner logotypes. See Best practice for example.

Slide title 40 pt

Slide subtitle 24 pt

Text 24 pt

Bullets level 2-520 pt

2008-03-159

Integración Datos y Soporte SO

Alta disponibilidad por problemas de HW/SW Soporta “Grid Computing” Optimización de “pushdown” Particionamiento Dinámico Administración de metadatos Desarrollo de trabajo en equipo Enmascaramiento de datos Soporta multitud de Sistemas Operativos

– Solaris (32 bit SPARC) (64 bit SPARC) (64 bit PA-RISC) (64 bit Power)Windows 2000/2003 (32 bit Intel /AMD) (64 bit Itanium)

– HP/UX (32 bit PA-RISC) (64 bit Itanium) (64 bit PA-RISC)– RedHat Linux (32 bit Intel/AMD) (64 bit Intel/AMD)– Suse Linux (32 bit Intel/AMD) (64 bit Intel/AMD)– AIX (32 bit Power) (64 bit Power)

http://www.informatica.com/products_services/powercenter/Pages/index.aspx

Page 10: ETL tools scanning

Top right corner for field-mark, customer or partner logotypes. See Best practice for example.

Slide title 40 pt

Slide subtitle 24 pt

Text 24 pt

Bullets level 2-520 pt

2008-03-1510

Ventajas y Desventajas

Precio alto Cierto riesgo en

– retraso de proyectos– Incremento de presupuesto inicial

GUI muy potente (Ease of use), aunque requiere cierto training para hacer uso de todas sus capacidades

Ofrece Soporte a nivel mundial con varios centros Deployment. Cubre un gran abanico de plataformas SO

– pero requiere dos CPU’s con 1 Gb RAM para la Standard Edition Rendimiento. El mejor rendimiento del mercado

– Dispone de una opción de PushDown que reasigna las tareas de transformación dependiendo de la carga las máquinas

Calidad de los Datos DQ – Informatica PowerCenter no dispone de muchas características de DQ, pero..– Existe una herramienta Informática aparte Data Quality que proporciona muchas

características para garantizar la Calidad de los Datos Monitorización. Dispone de muchas y extensas herramientas de Monitorización

y Logging Conectividad. Conexión a multitud de Bases de Datos, mainframes, ficheros flat,

Ficheros excel, web services

http://www.informatica.com/products_services/powercenter/Pages/index.aspx

INFORMATICA POWER CENTER es “El Lider del Mercado a Nivel Mundial”

Page 11: ETL tools scanning

Top right corner for field-mark, customer or partner logotypes. See Best practice for example.

Slide title 40 pt

Slide subtitle 24 pt

Text 24 pt

Bullets level 2-520 pt

2008-03-1511

SAS ENTERPRISE DATA INTEGRATION SERVER

Page 12: ETL tools scanning

Top right corner for field-mark, customer or partner logotypes. See Best practice for example.

Slide title 40 pt

Slide subtitle 24 pt

Text 24 pt

Bullets level 2-520 pt

2008-03-1512

PRESENTACION

Incorporada en 1976 para desarrollar y comercializar el software Base SAS

Objetivo : aumentar la productividad y la flexibilidad de los procesos de extracción, transformación y carga de las bases de datos (ETL)

Es una solución completa que permite resolver problemas de negocios complejos, lograr los objetivos clave y gestionar más eficazmente sus activos de información

SAS proporciona a sus clientes en todo el mundo ”THE POWER TO KNOW ”

http://www.sas.com/offices/latinamerica/mexico/history.html

Page 13: ETL tools scanning

Top right corner for field-mark, customer or partner logotypes. See Best practice for example.

Slide title 40 pt

Slide subtitle 24 pt

Text 24 pt

Bullets level 2-520 pt

2008-03-1513

CARACTERISTICAS

Compatibilidad con las arquitecturas 64 bits Producto maduro : relativamente fiable y robusto

Principales Características: Gestión de metadatos

– Mejorar la eficiencia y reutilización con una gestión de metadatos centralizada

Migración y sincronización– Capacidad para migrar o sincronizar datos entre las estructuras

de base de datos, aplicaciones empresariales, texto, XML, y una multitud de otras fuentes.

Federación de datos– Acceso a las estructuras de base de datos, aplicaciones

empresariales, texto, XML, y una multitud de otras fuentes.

http://www.sas.com/technologies/dw/entdiserver/factsheet.pdf

Page 14: ETL tools scanning

Top right corner for field-mark, customer or partner logotypes. See Best practice for example.

Slide title 40 pt

Slide subtitle 24 pt

Text 24 pt

Bullets level 2-520 pt

2008-03-1514

Ventajas y Desventajas

Acceso a prácticamente todas las fuentes de datos Ofrece la suite más completa de la industria del software de

análisis de negocios y soluciones en un único entorno Permite combinar y analizar grandes cantidades de datos para

hacer descubrimientos, resolver problemas complejos y desplegar resultados precisos

Herramienta muy compleja (Es necesario una formación previa para controlar este software)

Para explotar todas las funcionalidades de este herramienta, es necesario poseer todo el paquete de Business Intelligence de SAS

Precio Alto

http://www.sas.com/technologies/dw/

Page 15: ETL tools scanning

Top right corner for field-mark, customer or partner logotypes. See Best practice for example.

Slide title 40 pt

Slide subtitle 24 pt

Text 24 pt

Bullets level 2-520 pt

2008-03-1515

COGNOS DECISION STREAM

Page 16: ETL tools scanning

Top right corner for field-mark, customer or partner logotypes. See Best practice for example.

Slide title 40 pt

Slide subtitle 24 pt

Text 24 pt

Bullets level 2-520 pt

2008-03-1516

PRESENTACIÓN

Ofrece una base de datos uniforme para la presentación de informes y análisis de toda la empresa (BI).

trabaja con datos en archivos planos, o Bases de datos.

Desarrallado por empresa canadiense comprada por IBM.

Cognos 8 Business Intelligence solución de IBM para BI.

Page 17: ETL tools scanning

Top right corner for field-mark, customer or partner logotypes. See Best practice for example.

Slide title 40 pt

Slide subtitle 24 pt

Text 24 pt

Bullets level 2-520 pt

2008-03-1517

CARACTERISTICAS

Multiplataforma, manejo de grandes volúmenes de datos con un mínimo de hardware

Interfaz gráfica amigable, procesos de transformación rápida y fácil para el usuario

Flexible (cambios de negocio) Escalable (división, empresa) Eventos de errores de entrada y un histórico

dimensional Un motor de transformación canalizado Un sofisticado ambiente multidesarrollador Manipula un proceso de eventos Desarrollo de prototipos y despliegue

Page 18: ETL tools scanning

Top right corner for field-mark, customer or partner logotypes. See Best practice for example.

Slide title 40 pt

Slide subtitle 24 pt

Text 24 pt

Bullets level 2-520 pt

2008-03-1518

ESPECIFICACIONES

Plataformas de Servidores:– HP-UX, Sun SPARC Solaris, IBM AIX, Compaq Tru64 UNIX,

Windows NT o Windows 2000.

Plataformas de Diseñador: – Windows 2000, Windows NT o Windows XP

Soporte a Bases de Datos/ Origen y Destino: – Oracle, Informix, Sybase, MS SQL Server, DB2, Teradata, ODBC,

o archivos planos.

Soporte de Otro Origen de Datos: – SAP R/3 (usando el conector para SAP R/3 de DecisionStream).

Soporte de Otros Destinos de Datos: – Cognos PowerPlay, Impromptu, o Architect u otros servidores

OLAP tales como Servicios de Análisis de Microsoft SQL Server.

Page 19: ETL tools scanning

Top right corner for field-mark, customer or partner logotypes. See Best practice for example.

Slide title 40 pt

Slide subtitle 24 pt

Text 24 pt

Bullets level 2-520 pt

2008-03-1519

PENTAGO DATA INTEGRATION

Page 20: ETL tools scanning

Top right corner for field-mark, customer or partner logotypes. See Best practice for example.

Slide title 40 pt

Slide subtitle 24 pt

Text 24 pt

Bullets level 2-520 pt

2008-03-1520

Arquitectura

Arquitectura Pentaho Data Integration

Arquitectura Pentaho Business Intelligence OpenSource

http://www.pentaho.com/products

Page 21: ETL tools scanning

Top right corner for field-mark, customer or partner logotypes. See Best practice for example.

Slide title 40 pt

Slide subtitle 24 pt

Text 24 pt

Bullets level 2-520 pt

2008-03-1521

Pentaho (Kettle)

Comenzó sus actividades en 2001 Su planteamiento hacia el mercado es en base a su potente

comunidad de desarrolladores con más de 15,000 usuarios registrados Pentaho es una herramienta Comercial Open-source para BI que

dispone de un producto llamado Kettle para Data Integration Interfaz grafica amigable y potente

– No requiere de gran formación previa Plataforma creada 100% en Java Soporte para múltiples tipos de plataformas Posee un planificador de tareas

– Para la ejecución automática de estas Arquitectura flexible y escalable

– Se ajusta a los requerimientos tanto en escalabilidad como en funciones

Utiliza un planteamiento innovador orientado a metadatos Utiliza un Motor Java Stand-alone que procesa las tareas de mover

datos entre diferentes bases de datos y ficheros

http://www.pentaho.com/products

PENTAHO es ”el gran player a nivel mundial como Open Source”

Page 22: ETL tools scanning

Top right corner for field-mark, customer or partner logotypes. See Best practice for example.

Slide title 40 pt

Slide subtitle 24 pt

Text 24 pt

Bullets level 2-520 pt

2008-03-1522

Ventajas y Desventajas

Herramienta OpenSource Buen precio Cierto riesgo en

– retraso de proyectos– No cumplimiento total de requerimientos

Dispone de la mejor GUI del mercado – Training puede ser proporcionado online o dentro de la comunidad Pentaho

Ofrece Soporte a nivel mundial – desde US, UK y dispone de Partners de Soporte en Asia

Despliegue. Motor Java stand-alone que puede correr sobre cualquier máquina que ejecute Java.

– Puede ser desplegado sobre diferentes máquinas usadas como “Servidores esclavos” para ayudar en el proceso de transformación

– Necesita de un planificador externo para correr automáticamente– Recomendado 1Ghz CPU’s con 512 Mb RAM

Rendimiento. Más lenta que Informática y más rápida que Talend. – El conector Java reduce el rendimiento.– Requiere ciertos ajustes manuales como Talend– Puede ser puesta en modo Cluster sobre muchas máquinas para reducir el tráfico de red

Calidad de los Datos DQ – Dispone de Funcionalidades de DQ en su GUI y permite customizar las entradas SQL usando

Java Script y Expresiones Regulares Monitorización. Dispone de herramientas básicas Monitorización y Logging Conectividad. Conexión a multitud de Bases de Datos, mainframes, ficheros flat, Ficheros

excel, web services

http://www.pentaho.com/products

Page 23: ETL tools scanning

Top right corner for field-mark, customer or partner logotypes. See Best practice for example.

Slide title 40 pt

Slide subtitle 24 pt

Text 24 pt

Bullets level 2-520 pt

2008-03-1523

TALEND

Page 24: ETL tools scanning

Top right corner for field-mark, customer or partner logotypes. See Best practice for example.

Slide title 40 pt

Slide subtitle 24 pt

Text 24 pt

Bullets level 2-520 pt

2008-03-1524

Empezó su actividad aprox en Octubre 2006– Compañía muy joven pero innovadora

Talend es una herramienta de Integración Open Source Utiliza hacia el mercado el posicionamiento de facilitar la

Generación de Código hacia los Desarrolladores Utiliza un Interfaz Gráfico de Usuario

– Implementado en Eclipse RC

Tiene una comunidad de desarrolladores mas pequeña que la de Pentaho, debido a un comienzo posterior

Soportada por dos grandes compañías financieras que avalan su futuro

Genera código Java o Perl que puede ser ejecutable sobre una gran variedad de plataformas

CARACTERISTICAS

http://es.talend.com/products-data-integration/talend-open-studio.php

Page 25: ETL tools scanning

Top right corner for field-mark, customer or partner logotypes. See Best practice for example.

Slide title 40 pt

Slide subtitle 24 pt

Text 24 pt

Bullets level 2-520 pt

2008-03-1525

Talend Integration Suite es una solución Open Source de integración de datos para la empresa

– Soporta el desarrollo multiusuarios– Hace frente a los niveles más elevados de volúmenes de datos y de

complejidad de elaboración. Talend Integration Suite es una suscripción basado en el modelo de Talend

Open Studio – añaden una asistencia técnica de alto nivel .

Talend Integration Suite consolida toda la información de proyectos y metadatos empresariales en un repositorio centralizado que comparten:

– Usuarios empresariales, desarrolladores de trabajos y personal de operaciones de TI, que pueden acceder a la misma versión.

– Este repositorio facilita la colaboración entre los miembros del equipo al permitirles almacenar y compartir sus trabajos y metadatos.

El Shared Repository ofrece capacidades de colaboración avanzadas:– checkout (se saca el fichero del repositorio y se almacena localmente para

poder trabajar con él) – check-in (una vez realizados los cambios, se vuelca el fichero al repositorio

donde estará disponible para el resto de desarrolladores)

CARACTERISTICAS

http://es.talend.com/products-data-integration/talend-open-studio.php

Page 26: ETL tools scanning

Top right corner for field-mark, customer or partner logotypes. See Best practice for example.

Slide title 40 pt

Slide subtitle 24 pt

Text 24 pt

Bullets level 2-520 pt

2008-03-1526

Ventajas y Desventajas

Herramienta OpenSource Buen precio Cierto riesgo en

– retraso de proyectos– No cumplimiento total de requerimientos

Dispone de GUI, aunque es un add-on dentro del Entorno Eclipse Soporte. Localizado principalmente en US. Despliegue. Crea un fichero Java o fichero perl que puede ser ejecutado con

un planificador externo sobre cualquier máquina con muy pocos recursos – Recomendado una 1GHz CPU con 512 Mb RAM

Rendimiento. Más lenta que Pentaho.– Requiere ciertos ajustes manuales y conocimiento previo de las fuentes de

datos para reducir el procesamiento y el tráfico de red Calidad de los Datos DQ

– Dispone de Funcionalidades de DQ en su GUI y permite customizar las entradas SQL usando Java

Monitorización. Dispone de herramientas básicas Monitorización y Logging Conectividad. Conexión a multitud de Bases de Datos, mainframes, ficheros

flat, Ficheros excel, web services– pero requiere y depende de drivers Java para dichas conexiones

http://es.talend.com/products-data-integration/talend-open-studio.php

Page 27: ETL tools scanning

Top right corner for field-mark, customer or partner logotypes. See Best practice for example.

Slide title 40 pt

Slide subtitle 24 pt

Text 24 pt

Bullets level 2-520 pt

2008-03-1527

Conclusiones

Informatica and Pentaho tienen muy buenos productos Informática dispone de un rango de productos más extenso, sin embargo

comparado con Pentaho es más cara Pentaho ha demostrado que puede manejar desde pequeños a grandes

sistemas escalables Pentaho está ganando mercado en algunos segmentos en los que antes

nunca se hubiese considerado usar un producto de Open Source Talend es la compañía Open source nueva en el mercado. Innovadora pero

sin cuota de mercado

SAS es la compañía líder de software de Business Analytics con años en el mercado, el mayor proveedor independiente del mercado de Business Intelligence, a través de soluciones innovadoras que se proporcionan dentro de un marco integrado.

La elección de una herramienta ETL implica el estudio de las necesidades de la empresa (presupuesto, cantidad de información, soporte) El lider en Open

Source es Pentaho y el Lider Comercial es Informatica