business intelligence - concepts overview

21
BUSINESS INTELIGENCE RESUMEN GENERAL DE CONCEPTOS 1

Upload: byron-gordillo

Post on 20-Nov-2015

20 views

Category:

Documents


1 download

DESCRIPTION

Revisión de conceptos básicos de Business Intelligence

TRANSCRIPT

BUSINESS INTELIGENCE

RESUMEN GENERAL DE CONCEPTOS

KPIsLos indicadores clave de desempeo son mtricas financieras o no financieras, utilizadas para cuantificar objetivos que reflejan el rendimiento de una organizacin, y que generalmente se recogen en su plan estratgico, ayudar al estado actual de un negocio a prescribir una lnea de accin futura.Indicador: Es una medida de la actuacin de la empresa que se usa para evaluar la EFICIENCIA, la EFICACIA y la CALIDAD de una accin determinada.

Tipos:

KRI: Indicadores Clave de Resultados

PI: Indicadores de Performance (desempeo)

KPI: Indicadores Clave de Gestin.

Caractersticas:

Cuando se definen KPI's se suele aplicar el acrnimo SMART, ya que los KPI's tienen que ser:

eSpecficos (Specific)

Medibles (Measurable)

Alcanzables (Achievable)

Relevantes (Relevant)

a Tiempo (Timely)

Principales Tipos de indicadores:

Financieros: Uso de Activos, Optimizacin de la Fuerza de Trabajo.

Cliente: Incremento de la Satisfaccin del Cliente, Clientes Objetivo que generan mayor ingreso.

Ambiente/Comunidad: Apoyo a los negocios locales, Vnculos con los empleados futuros, Liderazgo en la Comunidad.

Internos: Entregas a tiempo, Optimizacin de la tecnologa, Relaciones efectivas con los Grupos de Inters.

Satisfaccin de los Empleados: Cultura Organizacional Positiva, Retencin de puestos clave, Incremento de la identificacin con la empresa.

Crecimiento y Aprendizaje: Empowerment, Incremento de la Experiencia, Adaptabilidad.

Principios para el diseo de indicadoresGenricos: Que los utilice cualquier persona en cualquier momento.

Constancia: Que permanezcan en el tiempo.

Confiabilidad: Informacin veraz.

Casualidad: Posicin directiva con lo que esta midiendo.

Cuantificables: Expresado en forma numrica.

Oportunidad: Para tomar accin correctiva.

Comparables: Con el perodo anterior, lo programado o con los estndares.

Autoevaluacin: De cada dependencia.

Selectividad de Indicadores: 2 o 3 claves.

Disponibilidad de Datos: Informacin necesaria para su elaboracin.

Data WarehouseCmo Empezar un Proyecto de DW?

1. Identificar las Necesidades del Negocio

a. Se tiene un sistema transaccional que ordena y organiza los procesos actuales del negociob. Se tiene la necesidad de obtener informacin veraz y a tiempo para la toma de decisiones.i. A tiempo significa:1. Contar con las variables necesarias dentro del marco del tema a analizar en el momento oportuno2. Poder generar reportes con las variables indicadas en el momento requeridoii. Veraz significa:1. Refleje la situacin actual del sistema 2. Informacin no sea manipulablec. Se tiene la necesidad de contar con data comparativa.d. Se requiere que el rea tenga el tiempo necesario slo para analizar informacin y actuar sobre ella.e. El rea conoce las variables que requiere medir.f. El rea de sistemas TI no posee los recursos para dedicacin exclusiva para generar la informacin requerida.g. Objetivo Final: i. Identificar las NECESIDADES DEL USUARIOii. Identificar las restricciones del proyectoiii. Estimar los tiempos del proyectoh. Entregables:i. Documento de Alcance del Proyectoii. Cronograma de actividades (Gantt del Proyecto)2. Pasos Previos para un Proyectoa. Objetivo Final: i. Identificar las NECESIDADES DEL USUARIOii. Identificar las restricciones del proyectoiii. Estimar los tiempos del proyectob. Entregables:i. Documento de Alcance del Proyectoii. Cronograma de actividades (Gantt del Proyecto)c. Documento Alcance del Proyectoi. Objetivos del Proyectoii. Beneficios del Proyectoiii. Descripcin de los temas a Analizariv. Identificar a los usuarios responsables del proyectov. Identificar las restricciones tcnicas y funcionalesd. Cronograma de actividadesi. En base al alcance y las limitaciones del proyecto, se debe estimar las actividades, el tiempo, los responsables y los recursos de cada una de las actividadese. Para Proyectos con Proveedores:i. Se podra decir que el documento de alcance forma parte de una Propuesta del proyectoii. El mismo proveedor es el que realiza el cronograma de actividades del proyecto.

La Triple Restriccin de la Gestin de Proyectos

1. Alcance.

2. Costo.

3. Tiempo.

Visin expandida de las 3 restricciones1. Alcance.

2. Costo.

3. Tiempo.

4. Calidad.

5. Riesgo.

6. Satisfaccin al Cliente.

Metodologa en cascada:

Recopilar Requerimientos, Disear Solucin, Prueba, Implementacin, Mantenimiento.

Etapas de la Implementacin del Proyecto

Etapas del Proyecto: Anlisis Dimensional

1. Objetivo Final:

a. Identificacin de Temas y Fuentes de Datos.b. Identificacin y Diseo de Dimensiones, Facts y Medidas.2. Entregables:

a. Documento de Visin y Alcance Final del Proyecto.b. Documento de Anlisis Dimensional.

3. Actividades:

a. Entrevistas con usuarios.

b. Consolidar entrevistas.

c. Identificar las Fuentes de Datos.

d. Generar documento de Visin y Alcance.

e. Identificar Temas, Dimensiones y Facts (anlisis multidimensional).

4. Personas Involucradas:

a. Consultor DW.

b. Lder Usuario.

c. Lder Tcnico del Proyecto.

d. Analista del Negocio.

5. Objetivo Final: a. Diseo de las Tablas del Data WareHouse b. Mapeo de los Datosc. Diseo de Extraccind. Diseo de Explotacin6. Entregables:a. Diagrama del Data WareHouse b. Documento de Extraccinc. Documento de Explotacin (Diseo de Vistas y Reportes) Etapas del proyecto: Diseo del DW1. Actividades:a. Diseo Fsico del Data WareHouse b. Dimensionamiento del HWc. Diseo Extraccini. Mapeo de Datosii. Diseo de Programas de Extracciniii. Diseo de Programas Adicionales (Data Entries)iv. Diseo de Automatizacinv. Diseo de Pruebas de Datosd. Diseo Explotacini. Diseo de Cubos (En caso que sea Molap)ii. Diseo de Vistas de Cubos (En caso que sea Molap)iii. Diseo de Catlogo de Datos iv. Diseo de Reportes v. Diseo de Esquema de Publicacin y Seguridadvi. Prototipo (En caso que aplique)2. Personas Involucradasa. Diseo Fsico del Data WareHouse i. Consultor DWb. Diseo Extraccini. Consultor DWii. Lder Tcnicoc. Diseo Explotacini. Consultor DWii. Lder Usuarioiii. Analista del NegocioEtapas del proyecto: Extraccin1. Objetivo Final:

a. Generar los programas ETL

b. Generar los programas adicionales al proyecto (Data Entries, en caso que aplique)

2. Entregables:

a. Programas ETL

b. Data Entries (en caso que aplique)

c. Esquema de Extraccin

3. Actividades:

a. Programacin de los ETL

b. Programacin de los Data Entries (en caso que aplique)

c. Programacin del esquema de Extraccin

4. Personas Involucradas

a. Programador Extraccin

b. Lder Tcnico del Proyecto

5. Objetivo Finala. Generar las vistas y reportes de anlisis

b. Publicar los reportes de anlisis

6. Entregables

a. Reportes y Vistas publicadas

Como empezar un proyecto de DW

Dificultades (Amenazas y Debilidades)

Si el usuario no se involucra en el proyecto, el proyecto ser un FRACASO. Se debe involucrar al usuario en las actividades mencionadas

Calidad de los datos. Para lo cual hay que considerar:

Identificar las fuentes de los datos y los riesgos de calidad de datos que pueda tener

Definir un buen plan de pruebas

Considerar tiempos necesarios para la calidad de los datos en la extraccin

La expectativa del proyecto. Se debe manejar siempre con una buena administracin del proyecto realizando seguimiento a las actividades

Un proyecto de Data Mart no debe ser ms de 6 meses para evitar :

Modificaciones drsticas del anlisis en la construccin del proyecto

Modificaciones del mapeo de datos y la extraccin por cambios en los sistemas

Dificultades (Amenazas y Debilidades) La capacitacin debe ser continua Se debe establecer una comunicacin permanente con los Analista del Negocio despus de implementar el proyecto para identificar futuras necesidades Regla de Oro: IDENTIFICAR LO QUE EL USUARIO NECESITAOLTP Vs. DATAWAREHOUSE

Modelo Relacional

La performance se busca a travs de la normalizacin

Las consultas son continuas y repetitivas

La informacin cambia constantemente: Estados, atributos

Alta Cantidad de Transacciones.

Ms transacciones en menos tiempo

Complejo para analizar por usuarios del negocio

Elimina la redundancia.

Modelo Dimensional La performance se busca a travs de la redundancia: Menos normalizada (desnormalizada) Las consultas no son predecibles: ni en la forma ni en el fondo Almacena informacin que no cambia: No voltil Lo significativo es guardar por mucho tiempo informacin cerrada operacionalmente El costo de procesamiento es mnimo Marco intuitivo de anlisis, fcil de usar por los que toman decisiones (BA, CEO, operadores, etc.)Arquitectura DW Data Marts

Esquema Entidad-Relacin vs. Esquema Estrella

Un modelo entidad relacin puede originar mltiple diagramas dimensionales

Un modelo entidad-relacin modela la relacin entre los datos, el modelo dimensional modela situaciones estndar del negocio

Un modelo entidad-relacin tiene una estructura variada, una manera asimtrica de relacionar los datos, el modelo dimensional la simetra es evidente

Un modelo entidad-relacin provee la data empaquetada para un modelo dimensional dentro de la estructura de datos del negocio

Esquema Estrella Caractersticas: Modelo lgico estructurado y extensible Aadir nuevos casos de negocio de nuevas aplicaciones Aadir nuevos anlisis Representa un modelo del negocio ms que un modelo de datos Una vista particular de una parte del negocio Los procesos del negocio se ven reflejados en uno o varios modelos estrella Representa informacin operacional esttica en un punto en el tiempo Lgica aditiva: leer millones de registros para sumarlos Desnormalizacin: Menos Joins entre tablas en los Queries

Simplificar la elaboracin de Queries

Mejor performance en tiempo de respuesta de los Queries

Mejor administracin de los datos histricos.

Componentes:

Dimensiones

Puntos de entrada al DataMart.

Facts

Contiene los valores numricos y aditivos.

Contiene detalle y sumarizaciones (agregaciones).

Atributos:

Describen los miembros de una dimensin particular

Es una medida de la calidad de un data warehouse: mayor cuando mayor es la calidad de los campos descriptivos

Tiene que ser nombrados con palabras con significado completo

Asegurar la calidad: validar valores imposibles, perdidos, obsoletos o versionados

Disponibles de acuerdo a su uso: generalmente en la misma tabla de dimensin (salvo casos de Snowflaking)

Campos de Texto que describen caractersticas tangibles.

Toman valores discretos.

Son mostrados en los reportes.

Jerarqua:

Conjunto de Atributos

Un miembro puede ser hijo de otro miembro

Puede existir ms de una por dimensin.Slow Changing Dimension Dimensiones de Cambio LentoSCD Tipo 1: Actualizar el Valor Original

Generalmente son dimensiones estticas para el negocio

Los atributos que cambian no tienen significado en el tiempo para cualquier anlisis a realizar.

Los cambios sobre los datos de la tabla, son implementados con sentencias UPDATE, de tal modo, que no se puede realizar un seguimiento de cambios, ya que no hay data histrica. Generalmente en el Data Warehouse las tablas SCD1 slo se implementan en aquellos casos que el seguimiento de cambios no es relevante y/o no es frecuente.SCD Tipo 2: Crear un Nuevo Registro

Crear un nuevo registro

Cuando no cambia la llave de la dimensin en las fuentes y es necesario registrar cualquier cambio en los valores de los atributos.

Segn el caso se puede usar un rango de fechas por cada registro durante el cual, el cambio tiene validez (Dimensin de Vendedores).

Clave Subrogada

Es un campo numrico de una tabla cuyo nico requisito es almacenar un valor numrico nico para cada fila de la tabla, actuando como una clave sustituta, de forma totalmente independiente a los datos de negocio, que habitualmente no tiene significado por s misma. Las Clave Subrogadas suelen utilizarse especialmente en tablas de dimensin versionadas o histricas, conocidas como Slowly Changing Dimension (SCD) de tipo 2.

SCD Tipo 3: Crear un Nuevo Campo

Crear un nuevo campo Es una alternativa a la modalidad anterior

Es un cambio suave, el anlisis requiere evaluar slo dos alternativas

No importa cuando ocurri el cambio.Cambios en Dimensiones Pequeas Se basa en el cambio de dimensiones por creacin un nuevo registro de dimensin

Tiene que considerar La frecuencia de los cambios y La frecuencia en que dicho cambio quiere ser analizados

Priorizar los cambios relevantes para los atributos:

Son muchos los atributos cuyos cambios se quieren guardar?

La jerarqua completa cambia varias veces durante el periodo de no carga de informacin?

Cuan relevante es para el negocio el manejo de dichos cambios?

El sistema fuente lo maneja y es fcil capturarlo?

Cambios en Dimensiones Grandes Analizar los diferentes atributos que cambian

Validar si pueden ser subdimensiones

Solucin: separar los atributos relacionados en una tabla de dimensin independiente. La dimensin creada debe tener:

Un nmero discreto de valores por atributo

Todas las combinaciones posibles por atributo (un surrogate key por combinacin).

A cada registro en la fact corresponde dos llaves por la relacin Cliente-Demografa.

Plataformas de BI

Tabla para la evaluacin de Herramientas de BI CriteriosHabilidad de Ejecucin

Amplitud de la Visin

34 Subsistemas del ETL4 Grupos Principales1. Extraccin: extraer la informacin de la fuente de origen.2. Limpieza y conformacin: consiste en acciones que permiten validar y aumentar la calidad de la informacin.3. Entrega: consiste en la preparacin de la informacin para su posterior entrega.4. Gestin de Tareas/Actividades.

Arquitectura de BI

Qu es OLAPOLAP se traduce como Procesamiento Analtico en Lnea. Se define como el anlisis multidimensional e interactivo de la informacin de negocios a escala empresarial. El anlisis multidimensional consiste en combinar distintas reas, procesos o bloques de informacin de la organizacin, y as ubicar ciertos tipos de informacin que revelen el comportamiento del negocio (actual). Herramientas de Explotacin de la InformacinQuery & Reporting: Herramientas para la elaboracin de informes y listados, tanto en detalle como sobre informacin agregada, a partir de la informacin de los Data Warehouses y Datamarts. Desarrollo a medida y/o herramientas para una explotacin libre.

Cuadro de Mandos Analtico: Elaborar informes y resmenes a partir de Datamarts, utilizando indicadores clave para la gestin (KPI) que permitan a los gestores de la empresa analizar los resultados de forma rpida y eficaz. En la prctica es una herramienta de query orientada a la obtencin y presentacin (grfica) de indicadores para la direccin (frente a la obtencin de informes y listados). Cuadro de mando integral (Balanced Scorecard): La estrategia de la empresa es el punto de referencia para todo proceso de gestin interno. Los diferentes niveles de gestin de la organizacin disponen de una visin de la estrategia de la empresa: conjunto de objetivos, iniciativas de actuacin e indicadores de evolucin. Los objetivos estratgicos se asocian mediante relaciones causa-efecto y se organizan en 4 perspectivas: financiera, cliente, procesos y formacin, y desarrollo: El cuadro de mando integral es una herramienta que permite alinear los objetivos de las diferentes reas con la estrategia empresarial y seguir su evolucin.Explotacin del DW

Las herramientas OLAP se usan para convertir los datos corporativos, almacenados en la base de datos orientada al anlisis (DW), en conocimiento til para la toma de decisiones.

Mientras que el DW almacena la informacin a secas, es decir, tal y como ha sido obtenida de la base de datos operacional luego del ETL, los sistemas OLAP hacen agregaciones (funciones de agregacin) y sumarizaciones de estos datos, y los organizan en cubos o almacenamientos especiales para permitir una rpida recuperacin ante una consulta.Porque el anlisis es interactivo?: Los usuarios de la herramienta OLAP se mueven suavemente desde una perspectiva del negocio a otra, Ejemplo: De observar las ventas anuales por sucursal a ver las sucursales con ms ganancias en los ltimos tres meses, y adems con la posibilidad de elegir entre diferentes niveles de detalle, como ventas por da, por semana o por cuatrimestre. Es esta exploracin interactiva lo que distingue a OLAP de las herramientas simples de consulta y reportes.

Porque el anlisis es multidimensional: Permite a los analistas de negocios examinar sus indicadores clave o medidas, como ventas, costos, y ganancias, desde distintas perspectivas, como periodos de tiempo, productos y regiones. Estas perspectivas constituyen las dimensiones desde las que se explora la informacin.Capacidades OLAP

El proceso de interactuar con datos en vistas multidimensionales se conoce como:

Rebanar (Slicing)

Dividir (Dicing, hacer cubitos)

Usar estas tcnicas revela nuevas e interesantes informaciones en comparacin con el anlisis de dimensiones sencillas. Otras capacidades inherentes a OLAP son:

Pivoting (Rotacin)

Nesting (Anidamiento)

Rotar los productos de filas a columnas y los departamentos de columnas a filas.

El anidamiento se puede hacer agrupando Trimestres y producto u otras dimensiones en el interior (desplegar y contraer).

Los sistemas OLAP deben incorporar con alta eficiencia estas caractersticas:1. Proporcionar un modelo de Datos Intuitivo y conceptual, recordar que los analistas y gerentes ya son pensadores multidimensionales con limitaciones de acceso a la informacin.

Que productos son los ms vendidos..

Por Unidad de Negocio, meses, trimestres, ciudades.

Nuestra rentabilidad por zona.. Cmo?2. Debe ser rpido para el Usuario. Debe ser la respuesta a las oraciones de los tomadores de decisiones - experiencia religiosa para obtener informacin a la velocidad del pensamiento y obtener la mayor cantidad de respuestas a las preguntas crticas del negocio.

3. Motor de Clculo Robusto. Para manejar las necesidades de clculo especializado que una estructura (super) dimensional impone. Este motor debe permitir a los usuarios organizar los datos de forma que permite a los analistas generar-escribir sencillas y potentes formulas que se ejecuten a travs de mltiples dimensiones.

Arquitectura OLAP Tipos de OLAP

Relational OLAP (ROLAP): La data es almacenada bajo un modelo estrella en una Base de Datos Relacional y en algunos casos la data es sumarizada en tablas agregadas para lograr un mejor acceso a los datos sumarizados. En principio el acceso a los Datos es va SQL, sin embargo el motor que utiliza permite realizar clculos de mayor complejidad tanto en la PC del cliente o en otros casos en un servidor intermedio.

Se pueden mostrar no slo las medidas de la Fact sino tambin los atributos de las dimensiones. Es decir, a parte de mostrar clculos para su anlisis tambin puede mostrar textos, grficos, etc.

Su fuente de datos es el mismo servidor de base de datos por lo que la performance va a depender no slo de la herramienta a utilizar sino de la base de datos que se tenga como Server por lo que en algunos casos es necesario tener data ya sumarizada.

Multidimensional OLAP (MOLAP): La data es almacenada bajo una estructura multidimensional teniendo los datos pre-calculados bajo las posibles combinaciones de datos; por lo que se logra un buen performance de los datos.

El detalle se obtiene a travs de un drill-through despus de haber realizado un drill-down.

La performance es buena debido a que los datos estn pre-calculados (cubos); aunque para crearlos se requiere un proceso adicional

Por lo general, requiere 50% menos de almacenamiento de un Rolap

Hibrid OLAP (HOLAP): El modo de almacenamiento HOLAP combina atributos de los modos MOLAP y ROLAP. Al igual que MOLAP, HOLAP hace que las agregaciones de la particin se almacenen en una estructura multidimensional

Desktop OLAP (DOLAP): Para aplicaciones de pequea escala donde no hay acceso de mltiples usuarios a los datos como sucede en un servidor Central (ROLAP o MOLAP)

Data Mining Proceso de Extraer informacin relevante para la empresa a fin de descubrir patrones de comportamiento que faciliten la toma de decisiones de la empresa Proporcionan conocimiento a la empresa permitiendo descubrir informacin sin una hiptesis formulada Responde a preguntas como: Qu caractersticas tienen los clientes que compran un determinado producto? Cul es la caracterstica ms relevante de los compradores? Cul es el factor que hace que el costo aumente?Termino Clave -> Correlacin:

En probabilidad y estadstica, la correlacin indica la fuerza y la direccin de una relacin lineal y proporcionalidad entre dos variables estadsticas. Se considera que dos variables cuantitativas estn correlacionadas cuando los valores de una de ellas varan sistemticamente con respecto a los valores homnimos de la otra: si tenemos dos variables (A y B) existe correlacin si al aumentar los valores de A lo hacen tambin los de B y viceversa. La correlacin entre dos variables no implica, por s misma, ninguna relacin de causalidad.

Modelos de DM:

Pronstico: clculo de las ventas y prediccin de las cargas del servidor o del tiempo de inactividad del servidor.

Riesgo y probabilidad: eleccin de los mejores clientes para la distribucin de correo directo, determinacin del punto de equilibrio probable para los escenarios de riesgo, y asignacin de probabilidades a diagnsticos y otros resultados.

Recomendaciones: determinacin de los productos que se pueden vender juntos y generacin de recomendaciones.

Bsqueda de secuencias: anlisis de los artculos que los clientes han introducido en el carrito de la compra y prediccin de posibles eventos.

Agrupacin: distribucin de clientes o eventos en grupos de elementos relacionados, y anlisis y prediccin de afinidades.

Proceso del Modelo de Datos

1. Definir el problema

2. Preparar los datos

3. Explorar los datos

4. Generar modelos

5. Explorar y validar los modelos

6. Implementar y actualizar los modelos.

Anlisis de data estadstica tradicional

Descriptiva.

Inferencial.

Decisiones Estratgicas

Establece la direccin a largo plazo de la organizacin.

Anlisis Estadstico

Confirma Hiptesis

Mas data es requerida

Mas supuestos

Predicciones generales de la poblacin

Resultados acumulados

Minera de datos (La mquina va aprendiendo)

Exactitud de la prediccin.

Predicciones Individuales.

Reglas de Oro.

Decisiones Tcticas

La formacin de polticas de procesos. Enfocado en un proyecto especfico o un objetivo que se ejecuta a nivel tctico.

Decisiones Operacionales

Aplicando polticas, procesos, o reglas para un determinado caso.

Minera de Datos Genera Hiptesis Mas de exploracin Menos preparacin de datos Menos Supuestos Predicciones individuales Orientado a resultados.

Tcnicas: Son 3 Permiten especificar el tipo de patrones a ser encontrados.

Caracterizacin:

Identifica las caractersticas generales de una clase objetivo dada

Por ejemplo: Las caractersticas de los clientes que compraron el nuevo producto en las tiendas de Lima. El resultado va a permitir navegar al usuario sobre las caractersticas de los clientes de una base dada.

Discriminacin:

Compara caractersticas de una clase objetivo versus una o ms clases contrastantes

Por ejemplo: Comparar las caractersticas de los clientes que compran en una tienda exclusiva versus una tienda por departamentos.

Resumiendo algunos Facts!

La minera de datos es el proceso de detectar la informacin procesable de los conjuntos grandes de datos.

Utiliza el anlisis matemtico para deducir los patrones y tendencias que existen en los datos.

Normalmente, estos patrones no se pueden detectar mediante la exploracin tradicional de los datos porque las relaciones son demasiado complejas o porque hay demasiado datos.

Estos patrones y tendencias se pueden recopilar y definir como un modelo de minera de datos.Indicadores Claves de Gestin

1