business inteligence

Business Intelligence

Xenia Andaur Estica

Ingeniero Civil en Computación e Informatica

[email protected]


¿Disponen de más información y de menos tiempo para analizarla?

¿Los sistemas de información de los que disponen les ayudan a tomar decisiones rápidamente?

¿Los responsables de generar información directiva están desbordados por las peticiones de información urgente, continua y no coordinada?

“Cada vez tenemos más información y menos tiempo para

analizarla”


Nivel de Ventas

Calidad de productos

Permanencia en el mercado

Sin Garantía


Atención a la información y

como es suministrada

“el que posee la información posee el poder”

Esto actualmente no es del todo correcto, puesto que no importa quien la posea si no como se administre.


El tener mucha información no es suficiente para tomar decisiones, pues lo mas seguro que no se alcance a conocer toda por el factor tiempo.

Actualizar con nueva tecnología


Los ambientes competitivos en los que se desenvuelven las organizaciones en la actualidad, obliga a los directores a buscar soluciones y estrategias que generen ventajas competitivas.

La globalización es un factor que se presenta como impulsor de esta dinámica donde los mercados cambian rápidamente y las empresas necesitan alternativas para tomar las decisiones correctas. Es aquí donde la tecnología juega un rol vital y los avances en esta área permiten que las empresas puedan hacer frente a sus problemas de contingencia de manera más fácil gracias a la llamada Inteligencia de Negocios.


“BI es un proceso interactivo para explorar y analizar información estructurada sobre un área, para descubrir tendencias o patrones, a partir de los cuales derivar ideas y extraer conclusiones”

Business IntelligenceLos beneficios potenciales

• Una mayor capacidad de acceder y analizar los datos sin la intervención de TI

• La toma de decisiones más rápida y de mayor colaboración

• Seguimiento métrica de rendimiento mejorado

• Más responsabilidad, con visibilidad de los indicadores clave de rendimiento por línea de negocio

• Tiempos de respuesta más rápidos, cuando se producen excepciones y eventos

Ejemplo

Imaginemos un supermercado, la información del cual disponemos son los tickets de venta. Supongamos un sistema de información simple que está basado en la información que recogemos de las cajas registradoras.

La información que contiene un ticket de venta es: Su número, la fecha, la hora, el código de cajero/a, el código de supermercado, los códigos de los artículos vendidos, la descripción de los artículos, las unidades, el precio unitario, el total por artículo, el total del ticket y la forma de pago.

Ejemplo

Ejemplo

A partir de la información de los tickets podemos saber:

• Importe total de las ventas del día.

• Número de tickets por hora o fracción de tiempo.

• Número de tickets atendidos por un cajero/a.

• Ventas por artículo en unidades e importe.

• Número de tickets por día.

• Importe cobrado mediante efectivo o tarjetas de crédito.

• Importe del ticket medio.

• Número medio de tickets por día, hora, cajero/a.

Ejemplo

Toda esta información es de tipo operativo pero a este nivel nos facilita la toma de decisiones tales como:

• Reponer las existencias, acumulando la cantidad de ventas por artículo.

• Asignar los turnos de los cajeros/as, en función del número de tickets vendidos por hora.

• Ver cuáles han sido los productos más vendidos.

• Ver cuál es el medio de pago utilizado por nuestros clientes.

Ejemplo

Si se produce una disminución de las ventas, y previamente habíamos presupuestado el número de tickets y el importe del ticket medio, podremos analizar qué ha sucedido:

• 1. Disminución del número de tickets.

• 2. Disminución del ticket medio.

• 3. Una combinación de ambas.

Las respuestas nos dirán si tenemos un problema de afluencia a nuestro supermercado, o si es que los clientes nos están comprando menos de lo esperado cada vez que vienen. Las acciones a tomar son absolutamente distintas en cada caso: en el primero, deberán estar relacionadas con la promoción de nuestro supermercado para atraer clientes y en el segundo, deberemos intentar que nos compren más productos. Esta información tiene mucho más valor, ya que nos permite tomar decisiones estratégicas.

Inteligencia de Negocio en el ejemplo

Si este proceso lo realizamos durante un periodo de tiempo podremos ver cuál es la evolución de nuestras ventas. Al explorar la información discriminándola por días de la semana, nos damos cuenta de que hay diferencias entre los distintos días: los sábados son los días de mayor venta, mientras que los miércoles las ventas son las más bajas.

Si hacemos un análisis por producto, podemos descubrir que están bajando sus ventas y, en el supuesto de que tengamos existencias con caducidad, debemos decidir rápidamente qué haremos con ellas.


Si analizamos los tickets, quizás descubramos que hay relaciones entre productos: cuando un cliente compra un paquete de espaguetis, ¿cuál es la probabilidad de que compre un bote de tomate frito? Esta información es muy útil para las promociones o para la ubicación de los productos en las estanterías de los lineales.

Sigamos con nuestro ejemplo… supongamos ahora que, en lugar de tener un supermercado, tenemos dos. En este caso, podemos comparar la información obtenida del primer centro con la del segundo, lo que nos facilitará todavía más la comprensión de qué está sucediendo en los distintos centros.


Imaginemos que se producen diferencias significativas de ventas de un producto en los dos centros. Para analizar que está sucediendo, deberemos averiguar, por ejemplo:

• Si los clientes son distintos.

• Si la ubicación del producto es distinta.

• Si tenemos problemas de aprovisionamiento en uno de los centros.

Inteligencia de Negocio en el ejemploToda esta información es de tipo operativo pero a este nivel nos facilita la toma de

decisiones tales como:

• Responsables de compras, para ver qué artículos se están vendiendo más y cuáles son sus tendencias de venta.

• Responsables de ventas, que deciden la colocación de los productos, para ver qué productos tienen mayor rotación para situarlos en las zonas preferenciales, o bien para poner aquellos de los que, aún teniendo rotaciones inferiores, tenemos existencias y que queremos reducir.

• Responsables de la negociación con las entidades financieras, que conocen cuáles son los flujos de efectivo, tarjetas de crédito o débito.

• Responsables de marketing, para ver la efectividad de las promociones.

• Responsables de personal, para asignar los turnos correctamente en función de la afluencia de clientes y el calendario.

Limpieza de datos

• Actualmente, la limpieza de datos se considera una etapa previa y separada de los procesos ETL, lo que NO significa que su importancia sea menor.

http://blog.powerdata.es/el-valor-de-la-gestion-de-datos/bid/288844/qu%C3%A9-son-los-procesos-etl

http://blog.powerdata.es/el-valor-de-la-gestion-de-datos/bid/288844/qu%C3%A9-son-los-procesos-etl

Fuentes de datos

Limpieza de datos

Limpieza de datos

Importancia de la etapa de limpieza

• Asegura la calidad de los datos que vamos a procesar.

• Evita la información no veraz o errónea.

• Ahorra costes de espacio en disco al eliminarse la información duplicada.

• Agiliza las consultas por la ausencia de datos repetidos o inservibles.

• Ayuda a tomar decisiones estratégicas correctas.

Limpieza de datos

Principios del proceso de limpieza

• Aplicar reglas de unificación de datos. Por ejemplo, poner en la fila correspondiente al sexo la misma letra identificativa, como podría ser “M” para masculino y “F” para femenino. En este caso, también se tendrían que identificar o corregir posibles errores, como que algún usuario haya puesto la “M” como mujer.

• Validaciones de completitud. Como por ejemplo, comprobar que en todos los registros de datos de los clientes de un banco esté introducida la dirección postal completa, saltando una alarma si falta alguno.

• Estandarización de datos. El objetivo es que todos los datos del mismo tipo estén introducidos de idéntica forma. Un ejemplo sería el DNI con la letra final de identificación fiscal junto a los números y sin guión de separación.

Limpieza de datos

De una buena limpieza dependerá el óptimo resultado de un proceso ETL

• No es posible lograr un buen resultado final en un proceso ETL, acorde a los objetos marcados, sino se realiza previamente una buena limpieza de los datos. Sin esta etapa previa no es posible disponer de una base de datos de calidad que permite la toma de decisiones acertadas a nivel estratégico o ejecutivo. Esto da una idea de la enorme necesidad de tomarse muy en serio esta etapa, realizándola acorde a unos parámetros correctos y teniendo en cuenta las recomendaciones de los expertos.

Proceso de limpieza de datos

ETL

El término ETL corresponde a las siglas en inglés de:

• Extract: extraer.

• Transform: transformar.

• Load: cargar.

ETL

Fases de un proceso ETLLas distintas fases o secuencias de un proceso ETL son las siguientes:Extracción de los datos desde uno o varios sistemas fuente.Transformación de dichos datos, es decir, posibilidad de reformatear y limpiar estos datos cuando sea necesario.Carga de dichos datos en otro lugar o base de datos, un data mart o un data warehouse, con el objeto de analizarlos o apoyar un proceso de negocio.

Datamart

Un Data mart es una base de datos departamental, especializada en el almacenamiento de los datos de un área de negocio específica.

Se caracteriza por disponer la estructura óptima de datos para analizar la información al detalle desde todas las perspectivas que afecten a los procesos de dicho departamento.

Datamart

Datawarehouse

Datamart: Modelo

Conceptos:

Tabla hecho: Denominamos “hechos” a los indicadores de negocio. Por ejemplo, son “hechos” las ventas, los pedidos, los envíos, las reclamaciones, las compras, etc. Es decir, son todas aquellas medidas numéricas que incluiremos en nuestro sistema Business Intelligence.

Técnicamente, una tabla de hecho es la tabla central de un modelo

Datamart: Modelo

Conceptos:

Tabla dimensión: Cada dimensión puede referirse a conceptos como 'tiempo', 'productos', 'clientes', 'zona geográfica', etc. Ahora bien, cada dimensión puede estar medida de diferentes maneras según la granularidad deseada, por ejemplo, para la dimensión "zona geográfica" podríamos considerar 'localidades', 'provincias', 'regiones', 'países' o 'continentes'.

La unidad de medida (por localidades, provincias, etc.) determinará esa granularidad, cuanto más pequeña sea esta unidad de medida más fina será esta granularidad (grano fino); si las unidades de medida son mayores, entonces hablaremos de granularidad gruesa (grano grueso).

https://es.wikipedia.org/wiki/Granularidad

Datamart: Modelo

Esquema estrella

Esquema Copo de Nieve

Datamart: Esquema estrellaEl modelo estrella es el más sencillo en estructura. Consta de una tabla central de "Hechos" y varias "dimensiones", incluida una dimensión de "Tiempo". Lo característico de la arquitectura de estrella es que sólo existe una tabla de dimensiones para cada dimensión. Esto quiere decir que la única tabla que tiene relación con otra es la de hechos, lo que significa que toda la información relacionada con una dimensión debe estar en una sola tabla.

Datamart: Esquema Copo de Nieve

El modelo copo de nieve es una variación o derivación del modelo estrella. En este modelo la tabla de hechos deja de ser la única relacionada con otras tablas ya que existen otras tablas que se relacionan con las dimensiones y que no tienen relación directa con la tabla de hechos. El modelo fue concebido para facilitar el mantenimiento de las dimensiones, sin embargo esto hace que se vinculen más tablas a las secuencias SQL, haciendo la extracción de datos más difícil así como vuelve compleja la tarea de mantener el modelo.

Implementación

• Modelo “entidad relación”. Su utilidad para analizar el negocio y mejorar su gestión. Ejemplo: análisis de los tickets medios de caja.

• Esquemas estrella.

• Esquema “copo de nieve”.

• Granularidad.

Ejemplo

Según el ejemplo anterior ….

• El modelo entidad relación es el siguiente:

Ejemplo

• Partiendo del esquema “entidad relación” anterior, vamos a construir el esquema estrella que nos permita analizar la información de manera que podamos responder a las preguntas anteriormente planteadas relacionadas con los tickets de venta.

• Para la construcción del esquema “estrella” debemos distinguir entre las tablas de hechos (aquello que queremos medir o analizar) y las tablas de dimensiones (cómo lo queremos medir), en nuestro caso, la tabla de hechos será la de los tickets y los queremos analizar por las dimensiones siguientes: tiempo, franja horaria, centro, empleado y forma de pago. El esquema “estrella” sería:

Si lo analizamos detenidamente, observaremos que en la tablade hechos tickets tenemos, en nuestro caso, el “Total ticket” y los identificadores de las dimensiones por las que lo queremos analizar:fecha, hora, id empleado, id centro, id pago. También aparecen dos dimensiones que llamamos degeneradas: El nº de ticket y el id caja, que no precisan para su análisis de tabla de dimensiones.

Las tablas de dimensiones nos permiten agrupar los hechos en funciónde los valores de la dimensión: por ejemplo, si queremos saber eltotal de tickets de venta de una zona en la tabla de dimensión centro,tenemos el atributo “Descripción zona” que nos permitirá agrupar lostickets según ese criterio.

Ejemplo

• El esquema “estrella” no está totalmente normalizado, ya que en la tabla de la dimensión Centro tenemos una redundancia que es “Descripción zona”: Se repetirá tantas veces la zona como centros existan en la misma. El esquema “copo de nieve” soluciona este problema. El esquema “copo de nieve” del ejemplo del supermercado sería el siguiente:

Como vemos, en el esquema “copo de nieve” aparecen relacionesentre las tablas de dimensiones, mientras que en el esquema “estrella”sólo hay relaciones entre la tabla de hechos y las de dimensiones.En este caso, las tablas de dimensiones están totalmente normalizadas,lo que reduce el espacio que ocupan, aunque en algunos casos estadiferencia no es significativa.

Granularidad

• Con la construcción del modelo anterior sólo analizamos los tickets de venta; sin embargo, podemos hacer lo mismo para analizar los artículos vendidos en cada uno de los tickets de venta. La diferencia del nivel de detalle en el análisis es lo que denominamos granularidad.

Granularidad

• Si analizamos con detenimiento la dimensión tiempo, veremos que en esta dimensión aparece una jerarquía de tiempo.

Granularidad

• En nuestro modelo existen otras jerarquías: la de familia, subfamilia y artículo, la de las zonas y los centros, y la de las categorías y los empleados.

Ejemplos de distintos sectores

Datamart: Cubo OLAP

Autor

Cliente

Sedes

Libros

Editorial Tipo

Datamart: Modelo

Clientes

Libros

Sedes

Autor

1 2 3

4 5 6

7 8 9

1 2 3

654

7 8 9

12

3

65

4

78

9

Data Mining

• Data Mining, también referenciado como Descubrimiento del Conocimiento en Bases de Datos (Knowledge Discovery in Databases o KDD), ha sido definida como el proceso de extracción no trivial de información implícita, previamente desconocida y potencialmente útil.

Data Mining

• El crecimiento explosivo de las bases de datos, de Internet y el empleo de técnicas y herramientas (que en forma automática y eficiente, generan información a partir de los datos almacenados), permiten descubrir patrones, relaciones y formular modelos. En particular, estas técnicas han adquirido enorme importancia en áreas tales como estrategias de marketing, soporte de decisiones, planeamiento financiero, análisis de datos científicos, bioinformática, análisis de textos y de datos de la web.

Data Mining

• Data Mining incluye áreas del conocimiento tales como Estadística, Inteligencia Artificial (Machine Learning) y Bases de Datos. Se estima que del análisis de esos datos pueden surgir ventajas competitivas o novedosas soluciones a antiguos problemas. Data mining es un área de gran actividad a nivel académico, como lo demuestran el gran número de eventos científicos relacionados, como así también laborales.

Data Mining

Frases para definir Data Mining

Alcance Data Mining

• Predicción automatizada de tendencias y comportamientos. Data Mining automatiza el proceso de encontrar información predecible en grandes bases de datos. Preguntas que tradicionalmente requerían un intenso análisis manual , ahora pueden ser contestadas directa y rápidamente desde los datos. Un típico ejemplo de problema predecible incluyen pronósticos de problemas financieros futuros y otras formas de incumplimiento, e identificar segmentos de población que probablemente respondan similarmente a eventos dados.

http://www.monografias.com/trabajos14/prono/prono.shtml

http://www.monografias.com/trabajos/explodemo/explodemo.shtml

Alcance Data Mining

• Descubrimiento automatizado de modelos previamente desconocidos. Las herramientas de Data Mining barren las bases de datos e identifican modelos previamente escondidos en un sólo paso.

Las bases de datos pueden ser grandes tanto en profundidad como en ancho

•Más columnas. Los analistas muchas veces deben limitar el número de variables a examinar cuando realizan análisis manuales debido a limitaciones de tiempo. Un Data Mining de alto rendimiento permite a los usuarios explorar toda la base de datos, sin preseleccionar un subconjunto de variables.

•Más filas. Muestras mayores producen menos errores de estimación y desvíos, y permite a los usuarios hacer inferencias acerca de pequeños pero importantes segmentos de población.

Lo que se puede hacer con el DM

• (i) Clases: las observaciones se asignan a grupos predeterminados. El proceso de clasificación consiste en asignar un conjunto de datos a grupos fijados de manera que se minimice la probabilidad de una clasificación errónea. Por ejemplo, un problema típico de clasificación es el de dividir una base de datos de bancos en grupos que sean lo más homogéneos posibles con respecto a variables como posibilidades de crédito en términos de valores tales como bueno o malo.


• Clusters: se construyen grupos de observaciones similares según un criterio prefijado. El proceso de clustering (agrupamiento) consiste en subdividir un conjunto de datos en grupos mutuamente excluyentes de tal manera que cada miembro de un grupo esté lo más cercano posible a otro elemento, y grupos diferentes estén lo más lejos posible entre sí, de modo que la distancia está medida respecto a todas las variables disponibles. Un típico ejemplo de aplicación de clustering es la clasificación de segmentos de mercado. Por ejemplo, una empresa quiere introducirse en el mercado de bebidas alcohólicas, pero antes hace una encuesta de mercado para averiguar si existen grupos de clientes con costumbres particulares en el consumo de bebidas. La empresa quiere introducirse en el grupo (si existe) que esté menos servido por la competencia. En este ejemplo no existen grupos de clientes predeterminados


Asociaciones: las observaciones son usadas para identificar asociaciones entre variables. La búsqueda de asociaciones es diferente a la búsqueda de relaciones causales. Las relaciones causales son mucho más difíciles de encontrar que las asociaciones, debido a la presencia de variables no observadas. Las relaciones causales y asociaciones no son equivalentes: si hay asociaciones no tiene por qué haber causalidad.

Técnicas de DM

Redes neuronales Se trata de una herramienta de análisis estadístico que permite la construcción de un modelo de comportamiento a partir de una determinada cantidad de ejemplos (constituidos por una determinada cantidad de variables descriptivas de dicho comportamiento. La red neuronal, completamente ignorante al principio, efectúa un aprendizaje partiendo de los ejemplos, para luego transformarse, a través de modificaciones sucesivas, en un modelo susceptible de rendir cuenta del comportamiento observado en función de las variables descriptivas.

Técnicas de DM

Árboles de decisión Son modelos que tienen estructuras de forma de árbol que representan conjuntos de decisiones. Estas decisiones generan reglas para la clasificación de un conjunto de datos. Métodos específicos de árboles de decisión incluyen Árboles de Clasificación y Regresión (CART: Classification And Regression Tree). Básicamente, los árboles de decisión, son representaciones gráficas de la lógica de las probabilidades aplicada a las alternativas de decisión. El tronco del árbol es el punto de partida de la decisión. Las ramas de éste comienzan con la probabilidad del primer acontecimiento.

business inteligence

Documents

informacin estructurada

sistemas de informacin

sistema de informacin

nmero de tickets atendidos

tickets de venta

nmero medio

business intelligencebi

importe total