data mart-data-warehouse-data-mining

21
SISTEMA DE INFORMACION GERENCIAL ADMINISTRACION Y NEGOCIOS INTERNACIONALES Integrantes: Sánchez Ynga, Luis Alberto Yactayo Audante, Felipe S a las Valdez, Christopher Cuenca Barragán, Daniel Tema: Data Mark, Data Warehouse Y Data Mining Carrera: Administración Y Negocios Internacionales Profesor: Lic. Aliaga 2015 DATA MARK, DATA WAREHOUSE Y DATA MINING 1 Año de la Diversifi cación Productiv a y del Fortaleci miento de la Educación

Upload: nintendo

Post on 16-Aug-2015

50 views

Category:

Education


0 download

TRANSCRIPT

Integrantes:

Sánchez Ynga, Luis Alberto Yactayo Audante, Felipe Salas Valdez, Christopher

Cu enca

Barragán, Daniel

Tema:

Data Mark, Data Warehouse Y Data Mining

Carrera:

Administración Y Negocios Internacionales

Profesor:

Lic. Aliaga

2015

Introducción

Las empresas tratan de utilizar la información acumulada por las operaciones diarias de la investigación de mercado y comercialización.

Las empresas que han estado en el negocio por un tiempo se dan cuenta de que han acumulado enormes cantidades de datos en diversas bases de datos operacionales. Esas bases de datos funcionan bien para los fines previstos, pero las empresas quieren los

DATA MARK, DATA WAREHOUSE Y DATA MINING 1

Año de la Diversificaci

ón Productiva

y del Fortalecimie

nto de la Educación

datos para otros fines, en particular para las ventas, marketing y planificación estratégica.

Por lo tanto, El Data Mining es el proceso de extraer información de diferentes bases de datos de la compañía y volver a organizarlo para fines distintos a lo que las bases de datos fueron pensados originalmente para. ¿Qué datos debe ser extraído y para qué uso varía radicalmente de una compañía a otra, al igual que la naturaleza y organización de los datos, por lo que no puede haber tal cosa como una "herramienta de minería de datos" genérico.

Un Data Warehouse es un lugar donde los datos pueden ser almacenados para la minería más conveniente. Esto generalmente será un sistema de ordenador rápido con gran capacidad de almacenamiento de datos. Los datos de todos los sistemas de la compañía se copia en el almacén de datos, donde será borrado y se reconcilió para eliminar redundancias y conflictos. Consultas complejas se pueden hacer contra el almacenamiento de información de almacenes.

Por supuesto, los datos deben ser continuamente actualizados, por lo que el proceso de depuración y la reconciliación debe ser una característica permanente de la Galería, y tendrá que ser modificada cada vez que las bases de datos se modifican o nuevas bases de datos estén disponibles.

Creación y mantenimiento de un depósito de datos es un trabajo enorme, incluso para las empresas más grandes. Puede tomar mucho tiempo y costar mucho dinero. De hecho, es una de las principales empresas de este tipo de proyectos están recurriendo a soluciones de Data Mart lugar.

Un Data Mart es un sistema de índice y extracción. En lugar de traer todos los datos de la empresa en un solo almacén, el mercado de datos sabe qué datos cada base de datos contiene y cómo extraer información de múltiples bases de datos cuando se le preguntó.

Creación de un Data Mart se puede considerar la solución "rápida y sucia", debido a que los datos de diferentes bases de datos no se depuran y reconciliarse, pero puede ser la diferencia entre tener la información disponible y no tenerlo disponible.

Índice

Introducción: …………………………………………………………………..2 Índice: ……………………………………………………………………….…3 Dedicatoria: ……………………………………………………………….…...4 DATA MART:………………………………………………………………....5 Conceptos erróneos de los Data Marts:……………………………………......6

DATA MARK, DATA WAREHOUSE Y DATA MINING 2

DATA WAREHOUSE:………………………..................................................7 Definiciones de almacén de datos:………………………………………….…8 Ventajas e inconvenientes de los almacenes de datos:………………………...9 DATA MINING:…………………………………………………………..…11 Técnicas de Data Mining:…………………………………………………….12 Ejemplos de uso de la Data Mining:………………………………………….13 Opinión:…………………………………………………………………….....14 Conclusión: …………………………………………………………………...15 Bibliografías: ……………………………………………………………….....16

DATA MARK, DATA WAREHOUSE Y DATA MINING 3

Dedicatoria

Primero Quiero Dedicar Este Trabajo A Dios Por Haberme Permitido Llegar Hasta Este Punto Y Haberme Dado Salud; A Nuestro Padres Que No Apoyan Día A Día Y Al

Profesor Por Haberme Transmitidos Los Conocimientos Obtenidos Y Habernos Llevado Pasó A Paso En El Aprendizaje 

DATA MARK, DATA WAREHOUSE

Y DATA MINING

1. DATA MART

Un Data mart es una versión especial de almacén de

datos (data warehouse). Son subconjuntos de datos con

el propósito de ayudar a que un área específica dentro

del negocio pueda tomar mejores decisiones. Los datos

DATA MARK, DATA WAREHOUSE Y DATA MINING 4

existentes en este contexto pueden ser agrupados, explorados y propagados de múltiples

formas para que diversos grupos de usuarios realicen la explotación de los mismos de la

forma más conveniente según sus necesidades.

El Data mart es un sistema orientado a la consulta, en el que se producen procesos batch

de carga de datos (altas) con una frecuencia baja y conocida. Es consultado mediante

herramientas OLAP (On line Analytical Processing - Procesamiento Analítico en

Línea) que ofrecen una visión multidimensional de la información. Sobre estas bases de

datos se pueden construir EIS (Executive Information Systems, Sistemas de

Información para Directivos) y DSS (Decision Support Systems, Sistemas de Ayuda a

la toma de Decisiones).

En síntesis, se puede decir que los data marts son pequeños data warehouse centrados en un tema o un área de negocio específico dentro de una organización.

La dependencia de un DATA MART :

Según la tendencia marcada por Inmon sobre los data warehouse, una data mart

dependiente es un subconjunto lógico (vista) o un subconjunto físico (extracto) de un

almacén de datos más grande, que se ha aislado por alguna de las siguientes razones:

Se necesita para un esquema o modelo de datos espacial (por ejemplo, para

reestructurar los datos para alguna herramienta OLAP).

Prestaciones: Para descargar el data mart a un ordenador independiente para mejorar

la eficiencia o para obviar las necesidades de gestionar todo el volumen del data

warehouse centralizado.

Seguridad: Para separar un subconjunto de datos de forma selectiva a los que

queremos permitir o restringir el acceso.

Conveniencia: la de poder pasar por alto las autorizaciones y requerimientos

necesarios para poder incorporar una nueva aplicación en el Data Warehouse

principal de la Empresa.

Demostración sobre el terreno: para demostrar la viabilidad y el potencial de una

aplicación antes de migrarla al Data Warehouse de la Empresa.

Política: Razones internas de la organización para hacer esta división o separación

de los datos del almacén de datos, por ejemplo:

Cuando se decide una estrategia para las TI (Tecnologías de la información) en

situaciones en las que un grupo de usuarios tiene más influencia, para

determinar si se financia dicha estrategia o descubrir si ésta no sería buena para

el almacén de datos centralizado.

Estrategia para los consumidores de los datos en situaciones en las que un

equipo de almacén de datos no está en condiciones de crear un almacén de datos

utilizable.

DATA MARK, DATA WAREHOUSE Y DATA MINING 5

Según la escuela Inmon de data warehouse, entre las pérdidas inherentes al uso de data

marts están la escalabilidad limitada, la duplicación de datos, la inconsistencia de los

datos con respecto a otros almacenes de información y la incapacidad para aprovechar

las fuentes de datos de la empresa. Así y todo, estas herramientas son de gran

importancia.

Conceptos erróneos de los Data Marts Al hablar de los data marts, es inevitable la comparación con los data warehouse y al final se acaba diciendo (o entendiendo) que son como estos, pero en pequeño, y en cierto modo esto es así, pero esta idea suele hacer caer en los siguientes errores sobre la implementación y funcionamiento de los data marts:

Son más simples de implementar que un Data Warehouse: FALSO, la implementación es muy

similar, ya que debe proporcionar las mismas funcionalidades.

Son pequeños conjuntos de datos y, en consecuencia, tienen menor necesidad de recursos: FALSO, una aplicación corriendo sobre un data mart necesita los mismos recursos que si corriera sobre un data warehouse.

Las consultas son más rápidas, dado el menor volumen de datos: FALSO, el menor volumen de datos se debe a que no se tienen todos los datos de toda la empresa, pero sí se tienen todos los datos de un determinado sector de la empresa, por lo que una consulta sobre dicho sector tarda lo mismo si se hace sobre el data mart que si se hace sobre el data warehouse.

En algunos casos añade tiempo al proceso de actualización: FALSO, actualizar el data mart desde el data warehouse cuesta menos (ya que los formatos de los datos son o suelen ser idénticos) que actualizar el data warehouse desde sus fuentes de datos primarias, donde es necesario realizar operaciones de transformación (ver ETL).

2. DATA WAREHOUSE

¿Qué ES UN DATA WAREHOUSE?

Tras las dificultades de los sistemas tradicionales en satisfacer las necesidades informacionales, surge el concepto de Data Warehouse, como solución a las necesidades informacionales globales de la empresa. Este término acuñado por Bill

DATA MARK, DATA WAREHOUSE Y DATA MINING 6

Inmon, se traduce literalmente como Almacén de Datos. No obstante si el Data Warehouse fuese exclusivamente un almacén de datos, los problemas seguirían siendo los mismos que en los Centros de Información.

Definición de Bill Inmon

La ventaja principal de este tipo de sistemas se basa en su concepto fundamental, la estructura de la información. Este concepto significa el almacenamiento de información homogénea y fiable, en una estructura basada en la consulta y el tratamiento jerarquizado de la misma, y en un entorno diferenciado de los sistemas operacionales. Bill Inmon fue uno de los primeros autores en escribir sobre el tema de los almacenes de datos, define una data warehouse (almacén de datos) en términos de las características del repositorio de datos

Según definió Bill Inmon, el Data Warehouse se caracteriza por ser:

Integrado: los datos almacenados en el Data Warehouse deben integrarse en una estructura consistente, por lo que las inconsistencias existentes entre los diversos sistemas operacionales deben ser eliminadas. La información suele estructurarse también en distintos niveles de detalle para adecuarse a las distintas necesidades de los usuarios.

Temático: sólo los datos necesarios para el proceso de generación del conocimiento del negocio se integran desde el entorno operacional. Los datos se organizan por temas para facilitar su acceso y entendimiento por parte de los usuarios finales. Por ejemplo, todos los datos sobre clientes pueden ser consolidados en una única tabla del Data Warehouse. De esta forma, las peticiones de información sobre clientes serán más fáciles de responder dado que toda la información reside en el mismo lugar.

Histórico: el tiempo es parte implícita de la información contenida en un Data Warehouse. En los sistemas operacionales, los datos siempre reflejan el estado de la actividad del negocio en el momento presente. Por el contrario, la información almacenada en el Data Warehouse sirve, entre otras cosas, para realizar análisis de tendencias. Por lo tanto, el Data Warehouse se carga con los distintos valores que toma una variable en el tiempo para permitir comparaciones.

No volátil: el almacén de información de un Data Warehouse existe para ser leído, y no modificado. La información es por tanto permanente, significando la actualización del Data Warehouse la incorporación de los últimos valores que tomaron las distintas variables contenidas en él sin ningún tipo de acción sobre lo que ya existía.

Definición de Ralph Kimball

Ralph Kimball es otro conocido autor en el tema de los data warehouse, define un almacén de datos como: "una copia de las transacciones de datos específicamente estructurada para la consulta y el análisis". También fue Kimball quien determinó que un data warehouse no era más que: "la unión de todos los Data martsde una entidad". Defiende por tanto una metodología ascendente (bottom-up) a la hora de diseñar un almacén de datos.

DATA MARK, DATA WAREHOUSE Y DATA MINING 7

Una definición más amplia de almacén de datos

Las definiciones anteriores se centran en los datos en sí mismos. Sin embargo, los medios para obtener esos datos, para extraerlos, transformarlos y cargarlos, las técnicas para analizarlos y generar información, así como las diferentes formas para realizar la gestión de datos son componentes esenciales de un almacén de datos. Muchas referencias a un almacén de datos utilizan esta definición más amplia. Por lo tanto, en esta definición se incluyen herramientas para extraer, transformar y cargar datos, herramientas para el análisis (inteligencia empresarial) y herramientas para gestionar y recuperar los metadatos.

Función de un almacén de datos

En un almacén de datos lo que se quiere es contener datos que son necesarios o útiles para una organización, es decir, que se utiliza como un repositorio de datos para posteriormente transformarlos en información útil para el usuario. Un almacén de datos debe entregar la información correcta a la gente indicada en el momento óptimo y en el formato adecuado. El almacén de datos da respuesta a las necesidades de usuarios expertos, utilizando Sistemas de Soporte a Decisiones (DSS), Sistemas de información ejecutiva (EIS) o herramientas para hacer consultas o informes. Los usuarios finales pueden hacer fácilmente consultas sobre sus almacenes de datos sin tocar o afectar la operación del sistema.

En el funcionamiento de un almacén de datos son muy importantes las siguientes ideas:

Integración de los datos provenientes de bases de datos distribuidas por las diferentes unidades de la organización y que con frecuencia tendrán diferentes estructuras (fuentes heterogéneas). Se debe facilitar una descripción global y un análisis comprensivo de toda la organización en el almacén de datos.

Separación de los datos usados en operaciones diarias de los datos usados en el almacén de datos para los propósitos de divulgación, de ayuda en la toma de decisiones, para el análisis y para operaciones de control. Ambos tipos de datos no deben coincidir en la misma base de datos, ya que obedecen a objetivos muy distintos y podrían entorpecerse entre sí.

Ventajas e inconvenientes de los almacenes de datos

Ventajas

Hay muchas ventajas por las que es recomendable usar un almacén de datos. Algunas de ellas son:

  Poco volumen de datos

  Mayor rapidez de consulta

  Consultas SQL y/o MDX sencillas

  Validación directa de la información

DATA MARK, DATA WAREHOUSE Y DATA MINING 8

  Facilidad para la historización de los datos

Las diferencias de un Data Warehouse con un sistema tradicional las podríamos resumir en el siguiente esquema:

DATA MARK, DATA WAREHOUSE Y DATA MINING 9

3. DATA MINING:

El datamining (minería de datos), es el conjunto de técnicas y tecnologías que permiten explorar grandes bases de datos, de manera automática o semiautomática, con el objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un determinado contexto.

Básicamente, el datamining surge para intentar ayudar a comprender el contenido de un repositorio de datos. Con este fin, hace uso de prácticas estadísticas y, en algunos casos, de algoritmos de búsqueda próximos a la Inteligencia Artificial y a las redes neuronales.

De forma general, los datos son la materia prima bruta. En el momento que el usuario les atribuye algún significado especial pasan a convertirse en información. Cuando los especialistas elaboran o encuentran un modelo, haciendo que la interpretación que surge entre la información y ese modelo represente un valor agregado, entonces nos referimos al conocimiento. Vea más diferencias entre datos, información y conocimiento.

Aunque en datamining cada caso concreto puede ser radicalmente distinto al anterior, el proceso común a todos ellos se suele componer de cuatro etapas principales:

  Determinación de los objetivos. Trata de la delimitación de los objetivos que el cliente desea bajo la orientación del especialista en data mining.

  Reprocesamiento de los datos. Se refiere a la selección, la limpieza, el enriquecimiento, la reducción y la transformación de las bases de datos. Esta etapa consume generalmente alrededor del setenta por ciento del tiempo total de un proyecto de data mining.

Determinación del modelo. Se comienza realizando unos análisis estadísticos de los datos, y después se lleva a cabo una visualización gráfica de los mismos para tener una primera aproximación. Según los objetivos planteados y la tarea que debe llevarse a cabo, pueden utilizarse algoritmos desarrollados en diferentes áreas de la Inteligencia Artificial.

DATA MARK, DATA WAREHOUSE Y DATA MINING 10

Análisis de los resultados. Verifica si los resultados obtenidos son coherentes y los coteja con los obtenidos por los análisis estadísticos y de visualización gráfica. El cliente determina si son novedosos y si le aportan un nuevo conocimiento que le permita considerar sus decisiones. 

En resumen, el datamining se presenta como una tecnología emergente, con varias ventajas: por un lado, resulta un buen punto de encuentro entre los investigadores y las personas de negocios; por otro, ahorra grandes cantidades de dinero a una empresa y abre nuevas oportunidades de negocios. Además, no hay duda de que trabajar con esta tecnología implica cuidar un sinnúmero de detalles debido a que el producto final involucra "toma de

decisiones".

Técnicas de Data Mining  Como ya se ha comentado, las técnicas de la minería de datos provienen de la inteligencia artificial y de la estadística, dichas técnicas, no son más que algoritmos, más o menos sofisticados que se aplican sobre un conjunto de datos para obtener unos resultados.

Las técnicas más representativas son:

Redes neuronales .- Son un paradigma de aprendizaje y procesamiento automático inspirado en la forma en que funciona el sistema nervioso de los animales. Se trata de un sistema de interconexión de neuronas en una red que colabora para producir un estímulo de salida. Algunos ejemplos de red neuronal son:

El perceptrón.

El perceptrón multicapa.

Los mapas autoorganizados, también conocidos como redes de Kohonen.

Regresión lineal .- Es la más utilizada para formar relaciones entre datos. Rápida y eficaz pero insuficiente en espacios multidimensionales donde puedan relacionarse más de 2 variables.

Árboles de decisión .- Un árbol de decisión es un modelo de predicción utilizado en el ámbito de la inteligencia artificial, dada una base de datos se construyen estos diagramas de construcciones lógicas, muy similares a los sistemas de predicción basados en reglas, que sirven para representar y categorizar una serie

DATA MARK, DATA WAREHOUSE Y DATA MINING 11

de condiciones que suceden de forma sucesiva, para la resolución de un problema. Ejemplos:

Algoritmo ID3 .

Algoritmo C4.5 .

Modelos estadísticos .- Es una expresión simbólica en forma de igualdad o ecuación que se emplea en todos los diseños experimentales y en la regresión para indicar los diferentes factores que modifican la variable de respuesta.

Agrupamiento o   Clustering .- Es un procedimiento de agrupación de una serie de vectores según criterios habitualmente de distancia; se tratará de disponer los vectores de entrada de forma que estén más cercanos aquellos que tengan características comunes. Ejemplos:

Algoritmo K-means .

Algoritmo K-medoids .

Reglas de asociación .- Se utilizan para descubrir hechos que ocurren en común dentro de un determinado conjunto de datos.

Según el objetivo del análisis de los datos, los algoritmos utilizados se clasifican en supervisados y no supervisados (Weiss y Indurkhya, 1998):

Algoritmos supervisados  (o predictivos): predicen un dato (o un conjunto de ellos) desconocido a priori, a partir de otros conocidos.

Algoritmos no supervisados  (o del descubrimiento del conocimiento): se descubren patrones y tendencias en los datos.

Ejemplos de uso de la Data Mining

Negocios

La minería de datos puede contribuir significativamente en las aplicaciones de administración empresarial basada en la relación con el cliente. En lugar de contactar con el cliente de forma indiscriminada a través de un centro de llamadas o enviando e-mails, sólo se contactará con aquellos que se perciba que tienen una mayor probabilidad de responder positivamente a una determinada oferta o promoción.

Por lo general, las empresas que emplean minería de datos ven rápidamente el retorno de la inversión, pero también reconocen que el número de modelos predictivos desarrollados puede crecer muy rápidamente.

DATA MARK, DATA WAREHOUSE Y DATA MINING 12

En lugar de crear modelos para predecir qué clientes pueden cambiar, la empresa podría construir modelos separados para cada región y/o para cada tipo de cliente. También puede querer determinar qué clientes van a ser rentables durante una ventana de tiempo (una quincena, un mes, ...) y sólo enviar las ofertas a las personas que es probable que sean rentables. Para mantener esta cantidad de modelos, es necesario gestionar las versiones de cada modelo y pasar a una minería de datos lo más automatizada posible.

OPINION:

Sanchez Ynga, Luis Alberto: son técnicas y tecnologías que permiten explorar grandes bases de datos, de manera automática o semiautomática, con el objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un determinado contexto. Básicamente, surgen para intentar ayudar a comprender el contenido de un repositorio de datos. Con este fin, hace uso de prácticas estadísticas y otros

Yactayo Audante, Felipe: Estas Herramientas Son Bien Útiles ya que no solo se utilizan para almacenar datos sino que las Empresas lo quieren utilizar para las ventas, marketing y planificación estratégica. En algunos casos una de las herramientas es la desfragmentación de una de ellas es mas rápida en la utilización de datos pero lo malo es que no almacena mucho pero si es rápido en el resultado

Salas Valdez, Christopher: Este tipo de herramientas de apoyo, ayudan a dar a los usuarios acceso a los datos que ellos necesitan para analizarlos más a menudo. Estos sistemas de almacenamiento proveen los datos en una forma que concuerda la vista colectiva de los datos por un grupo de usuarios en un departamento o función de negocio, donde también se mejora el tiempo de respuesta al usuario final debido a la reducción en el volumen de información a ser accedido, estos “Datas” nos facilitan la provisión de datos apropiadamente estructurados para satisfacer los requerimientos de las herramientas de acceso de usuario final.

Daniel Cuenca Barragán: En el mundo Globalizado de hoy existen muchas empresas que utilizan el sistema de información, que nos proporciona mayor rapidez, consultas sencillas y gran facilidad para obtener los datos para mejorar la calidad de sus procesos

DATA MARK, DATA WAREHOUSE Y DATA MINING 13

Conclusión

En conclusión podemos decir que los Data Warehouse se basan en estructuras multidimensionales, en las que se almacena la información calculando previamente todas las combinaciones de todos los niveles de todas las aperturas de análisis. Aunque este método se puede considerar como exagerado, nunca será tan caro, como lo que le costaría a la organización el tomar las decisiones equivocadas. Siempre va a ser más barato el gasto que conlleva la adquisición de software o hardware que el costo que representa una decisión tomada a destiempo. A su vez, el Data Mart es el almacén de datos de un hecho en particular. Por otro lado el Data Mining está asociado al escalón más alto de la pirámide (Nivel Estratégico) y tiene por objeto eliminar los errores cometidos por las personas al analizar los datos debido a prejuicios y dejar que sean los datos los que muestren los modelos subyacentes en ellos. La Minería de Datos (Data Mining) ayuda a crear nuevos modelos no percibidos por el analista hasta ese momento pero que realmente existen en los datos.

La diferencia entre los términos Data Warehouse y Data Mart es por mucho una cosa de perspectiva, un Data Mart es clásicamente una iniciativa de un solo departamento con un área específica, algo como “Data Mart de marketing” o “Data Mart de finanzas”. Estos proyectos son usualmente desarrollados por separado sin una visión consistente a través de la compañía. Por otro lado un repositorio centralizado sirve a muchas comunidades dentro de la organización, esto es lo que se conoce como data warehouse. Usualmente los Data Mart utilizan los data warehouse como fuentes de datos.

El Data Warehouse es donde se guarda una vista de los datos de la organización los cuales pueden ser publicados, para que accedan a ellos los usuarios. Estos datos son cargados mediante operaciones de extracción, transformación y carga. Este proceso limpia y valida los datos cargados. Esta información es organizada y presentada al usuario en una forma que le permita fácilmente formular sus propias preguntas de negocio.

DATA MARK, DATA WAREHOUSE Y DATA MINING 14

Bibliografía

http://delfos.bligoo.com/content/view/195902/Data-Warehouse-Data-mart-y- Data-Mining.html#.VYGjufl_Oko

https://es.wikipedia.org/wiki/Data_mart https://es.wikipedia.org/wiki/Almac%C3%A9n_de_datos https://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos http://www.aaxnet.com/topics/dwdm.html http://www.sinnexus.com/business_intelligence/datamining.aspx http://www.sinnexus.com/business_intelligence/datamart.aspx http://www.sinnexus.com/business_intelligence/datawarehouse.aspx http://triton.exp.dc.uba.ar/datamining/index.php/que-es-data-mining

DATA MARK, DATA WAREHOUSE Y DATA MINING 15