namp módulo 17: “introducción al análisis multivariable tier 1, parte 1, rev.: 0 program for...

40
NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0 Program for North American Mobility in Higher Education Introducing Process Integration for Environmental Control in Engineering Curricula MÓDULO 17: “Introducción al Análisis Multivariable” Creado por: Ecole Polytechnique de Montreal & North Carolina State University, 2003. NC STATE UNIVERSITY

Upload: martin-maidana-belmonte

Post on 23-Jan-2016

213 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0 Program for North American Mobility in Higher Education Introducing Process

NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0

Program for North American Mobility in Higher Education

Introducing Process Integration for Environmental Control in Engineering Curricula

MÓDULO 17: “Introducción al Análisis Multivariable”

Creado por:Ecole Polytechnique de Montreal &

North Carolina State University, 2003.

NC STATEUNIVERSITY

Page 2: NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0 Program for North American Mobility in Higher Education Introducing Process

NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0

¿Cuál es el objetivo de este módulo?

Este módulo provee una introducción al análisis multivariable (multivariate analysis, “MVA”) aplicado a la ingeniería química. Al terminar este módulo el estudiante deberá tener suficientes conocimientos para aplicar este método estadístico a datos reales.

La audiencia a la que está dirigida este módulo es:•Estudiantes de ingeniería de años superiores, y•Ingenieros practicantes, particularmente aquellos en el ámbito industrial.

Objetivo del Módulo 17

Page 3: NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0 Program for North American Mobility in Higher Education Introducing Process

NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0

¿Cuáles son los prerrequisitos para este módulo?

Antes de comenzar este módulo, el estudiante debe haber completado el Módulo 8, “Introducción a la Integración de Procesos”. Este módulo incluye conceptos básicos no explicados aquí, notablemente aquellos relacionados a la calidad de los datos.

Aplicar el MVA para datos reales, sin comprender la calidad de los datos es una receta para el desastre. El software generará resultados, pero estos pueden carecer totalmente de sentido y ser confusos.

Se asume que los estudiantes tienen un nivel introductorio que los respalda en estadística, lo que normalmente sería parte de cualquier programa de estudios de licenciatura de ingeniería.

Prerrequisitos para el Módulo 17

Page 4: NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0 Program for North American Mobility in Higher Education Introducing Process

NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0

¿Cuál es la estructura de este módulo?

El Módulo 17 está dividido en 3 “tiers” o partes, cada uno con un objetivo específico:

•Tier 1: Introducción•Tier 2: Ejemplo resuelto•Tier 3: Problema Open-ended

Se prevé que estos tiers sean completados en orden. Los estudiantes son evaluados en diferentes puntos, para medir su grado de comprensión, antes de proceder.

Cada tier contiene un enunciado de intención al inicio, y un quiz al final.

Estructura del Módulo 17

Page 5: NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0 Program for North American Mobility in Higher Education Introducing Process

NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0

TIER 1:

Introducción

Page 6: NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0 Program for North American Mobility in Higher Education Introducing Process

NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0

Tier 1: Enunciado de intención:

La meta del Tier 1 es familiarizar al estudiante con los conceptos básicos del análisis multivariable (MVA). Al final de Tier 1, el estudiante debe ser capaz de responder las siguientes preguntas:

•¿Cuál es la diferencia entre estadística univariable y multivariable?•¿Por qué el MVA es usado en el contexto de integración de procesos?•¿Cómo se ajusta el MVA a la observación del panorama global (the bigger picture)?•¿Cuáles son los tipos específicos de análisis MVA?

El Tier 1 también incluye algunas lecturas seleccionadas, para ayudar al estudiante a adquirir conocimiento profundo de este tema. Es imposible “alimentar con cuchara” a alguien sobre técnicas tan complejas como el MVA. El estudiante debe comenzar a indagar sobre el tema de manera independiente desde el inicio.

Tier 1: Enunciado de intención

Page 7: NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0 Program for North American Mobility in Higher Education Introducing Process

NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0

El Tier 1 está dividido en dos secciones:

1.1 ¿Para qué se usa el MVA?

1.2 ¿Cómo funciona el MVA?

Al final del Tier 1 aparece un breve quiz de opción múltiple.

Tier 1: Contenido

Page 8: NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0 Program for North American Mobility in Higher Education Introducing Process

NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0

1.1: ¿Para que se usa el MVA?

Page 9: NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0 Program for North American Mobility in Higher Education Introducing Process

NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0

Ahogándose en datos!Ahogándose en datos!

Muchas organizaciones hoy en día enfrentan el mismo reto: DEMASIADOS DATOS. Estos incluyen:

–Negocios – transacciones con los clientes–Comunicaciones – uso de website–Gobierno - inteligencia–Ciencia – datos astronómicos–Farmacéutica – configuraciones moleculares–Industria – datos de proceso

El último punto es el que resulta de interés para nosotros como ingenieros químicos.

El Reto de la Integración de Procesos:Dar sentido a masas de datos

Page 10: NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0 Program for North American Mobility in Higher Education Introducing Process

NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0

Muchos Datos de Proceso…

Una planta industrial típica tiene cientos de curvas de control, y miles de variables medidas, muchas de las cuales son actualizadas en lapsos de segundos.

Esta situación genera decenas de millones de nuevos puntos de datos cada día, y billones de puntos de datos cada año. Obviamente, esto es demasiado para ser procesado por el cerebro humano. Por la manera en que visualizamos las cosas, estamos básicamente limitados a tratar con una o dos variables a la vez:

0

2

4

6

8

10

12

1 2 3 4 5 6 7

Page 11: NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0 Program for North American Mobility in Higher Education Introducing Process

NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0

Rico en Datos pero Pobre en Conocimiento

Como resultado de esto, nos hemos vuelto “ricos en datos, pero pobres en conocimiento”.

El mayor problema es que patrones y relaciones interesantes y útiles que no son intuitivamente obvias yacen escondidas dentro de las enormes bases de datos. También muchas variables están correlacionadas.

Esto ha llevado a la creación de técnicas de “minería de datos”, orientadas a extraer este valioso conocimiento. Algunos ejemplos son:

•Redes Neuronales•Regresión múltiple •Árboles de decisión•Algoritmos genéticos•Agrupación (clustering)•MVA Tema de este móduloTema de este módulo “Minería” de datos

Page 12: NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0 Program for North American Mobility in Higher Education Introducing Process

NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0

Datos Información Conocimiento

• Datos– Hechos no relacionados

• Información– Hechos mas relaciones

• Conocimiento– información mas patrones

Conexión

ComprensiónDATOS

INFORMACIÓN

CONOCIMIENTO

+ relaciones

+ patronesAsociaciones observadas

Números crudos

Principios científicos

El objetivo de la minería de datos puede ser ilustrado gráficamente como sigue:

Page 13: NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0 Program for North American Mobility in Higher Education Introducing Process

NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0

Modelamiento de Procesos de Principios Primarios

DENTRO FUERADENTRO FUERAModelo Teórico

Los Ingenieros Químicos crean dos tipos de modelos para simular un proceso industrial. El primero de estos es un modelo teórico, que usa Principios Primarios para imitar las entradas del proceso.

Estos modelos están basados en una hoja de cálculo de proceso, y cada unidad de operación es modelada por separado: reactores, tanques, mezcladores, intercambiadores de calor, y así sucesivamente. Los balances de masa y de calor son calculados, junto con otros factores termodinámicos. Las reacciones químicas son descritas para mayor claridad, así como son las propiedades físicas de varias corrientes de gases, líquidos y sólidos.

Page 14: NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0 Program for North American Mobility in Higher Education Introducing Process

NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0

Modelamiento de Procesos conducido por Datos

AFUERA ADENTROAFUERA ADENTROModelo Empírico

El segundo tipo de modelo creado por los ingenieros químicos es el modelo empírico o de “caja negra”. Este enfoque usa los datos de proceso de la planta directamente, para establecer correlaciones matemáticas.

A diferencia de los modelos teóricos, los modelos empíricos NO toman en cuenta las bases del proceso. Ellos solo usan matemáticas puras y técnicas estadísticas. El MVA es uno de tales métodos, porque revela patrones y correlaciones independientemente de cualquier noción preconcebida.

Obviamente este enfoque es muy sensible a “basura dentro, basura afuera” y es por eso que la validación del modelo es tan importante.

Page 15: NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0 Program for North American Mobility in Higher Education Introducing Process

NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0

¿Qué es MVA?

MVA

El Análisis Multivariable (Multivariate analysis, MVA) es definido como el análisis simultáneo de mas de cinco variables. Algunas personas usan el término análisis “megavariable” (megavariate) para denotar casos donde hay mas de cien variables.

El MVA usa TODOS los datos disponibles para capturar la mayor información posible. El principio básico es cocinar cientos de variables de una sola vez.

Page 16: NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0 Program for North American Mobility in Higher Education Introducing Process

NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0

Pluralitas non est ponenda sine necessitate.

Traducción burda: “No hagas las cosas más complicadas de lo que necesitan ser.”

El Análisis Multivariable esta Basado en la “Rasuradora de Ockham”

William de Ockham(1285-1347)

William de Ockham fue un monje inglés que puso una de las piedras angulares del Método Científico con su famosa “rasuradora” (nombrada así porque sirve para cortar las partes innecesarias de una teoría científica).

Esencialmente, Ockham, en el siglo 14, se dio cuenta que muy en el fondo, la Naturaleza es simple …

Page 17: NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0 Program for North American Mobility in Higher Education Introducing Process

NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0

Ejemplo: Manzanas y Naranjas

+1 -1

Un buen ejemplo de estas ideas es “Manzana contra Naranja”.

A los Científicos ingeniosos se les pudieran ocurrir fácilmente cientos de ideas diferentes para medir en manzanas y naranjas, por ejemplo:

–Color, forma, firmeza,…–Piel: suavidad, grosor, morfología,…–Jugo: contenido de agua, pH, composición,…–Semillas: color, peso, tamaño, distribución,…–etc.

Sin embargo, nunca habrá mas de una diferencia: es una manzana o una naranja? En el idioma de MVA diríamos que hay solo un atributo latente.

Page 18: NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0 Program for North American Mobility in Higher Education Introducing Process

NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0

El elemento principal del MVA es la reducción en dimensionalidad. Llevado a su extremo, esto puede significar reducir cientos de dimensiones (variables) a solo dos, permitiéndonos crear una gráfica bidimensional.

Usando estas gráficas, que nuestros ojos y cerebros pueden manejar fácilmente, podemos ‘ver’ dentro de la base de datos e identificar tendencias y correlaciones.

Esto está ilustrado en la siguiente página…

Representación Gráfica del MVA

‘Viendo” dentro de los datos

Page 19: NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0 Program for North American Mobility in Higher Education Introducing Process

NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0

Tmt X1 X4 X5 Rep Y avec Y sans

1 -1 -1 -1 1 2.51 2.74

1 -1 -1 -1 2 2.36 3.22

1 -1 -1 -1 3 2.45 2.56

2 -1 0 1 1 2.63 3.23

2 -1 0 1 2 2.55 2.47

2 -1 0 1 3 2.65 2.31

3 -1 1 0 1 2.45 2.67

3 -1 1 0 2 2.6 2.45

3 -1 1 0 3 2.53 2.98

4 0 -1 1 1 3.02 3.22

4 0 -1 1 2 2.7 2.57

4 0 -1 1 3 2.97 2.63

5 0 0 0 1 2.89 3.16

5 0 0 0 2 2.56 3.32

5 0 0 0 3 2.52 3.26

6 0 1 -1 1 2.44 3.1

6 0 1 -1 2 2.22 2.97

6 0 1 -1 3 2.27 2.92

Representación Gráfica del MVA

Datos crudos:

imposibles de interpretar

Modelo Estadístico

Sallidas Visuales en 2-D

(interno al

software)

tendencias

tendenciastendencias

Y

XX

X

X

Miles de renglones

Cientos de columnas

..

. ...

. . .

.

. .

Page 20: NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0 Program for North American Mobility in Higher Education Introducing Process

NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0

Para ilustrar estos conceptos, tomamos un ejemplo fácil de comprender involucrando alimentos.

Datos de preferencias alimenticias en 16 países europeos diferentes son considerados, incluyendo los patrones de consumo para 18 grupos de alimentos diferentes.

Observa la tabla en la página siguiente. ¿Puedes decir algo de los números crudos? Por supuesto que no. Nadie podría.

Grupo de Datos Ilustrativo: Consumo de Alimentos en Países Europeos

Page 21: NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0 Program for North American Mobility in Higher Education Introducing Process

NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0

Tabla de Datos: Consumo de alimentos en Países Europeos

Nota que el MVA puede manejar del 10-20% de los datos faltantes.

Nota que el MVA puede manejar del 10-20% de los datos faltantes.

Courtesy of Umetrics corp.

Page 22: NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0 Program for North American Mobility in Higher Education Introducing Process

NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0

El software de MVA genera dos tipos principales de gráficas para representar los datos: gráficas de Resultados y gráficas de Cargas.

La primera de estas, la gráfica de Resultados, muestra todos los puntos de datos originales (observaciones) en un nuevo grupo de coordinados o componentes. Cada resultado es el valor de ese punto de datos en una de las nuevas dimensiones de componentes:

Una gráfica de resultados muestra como las observaciones son arregladas en el nuevo espacio componente. La gráfica de resultados para los datos de alimentos se muestra en la siguiente página. Nota como los países similares se agrupan …

Gráfica de resultados

La gráfica de resultados es la proyección de los puntos de datos originales en un plano definido por dos nuevos componentes.

..

. .

..

..

..

Page 23: NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0 Program for North American Mobility in Higher Education Introducing Process

NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0

Gráfica de Resultados para el Ejemplo de Alimentos

Gráfica de Resultados = observaciones

95% Intervalo de confianza (análogo al examen t)

Page 24: NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0 Program for North American Mobility in Higher Education Introducing Process

NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0

Gráfica de Cargas

El segundo tipo de gráfica de datos generada por el software MVA es Gráfica de Entradas. Este es el equivalente a la gráfica de resultados, solo que desde el punto de vista de las variables originales.

Cada componente tiene un grupo de cargas o pesos, que expresa la proyección de cada variable original en cada nuevo componente.

Las cargas muestran que tan fuertemente se asocia cada variable con cada nuevo componente. La gráfica de cargas para el ejemplo de alimentos es mostrada en la siguiente página. Mientras más lejos del origen, más significativa la correlación.

Nota que los cuadrantes son los mismos en cada tipo de gráfica. Suecia y Dinamarca se encuentran en la esquina superior derecha, asi como el pescado congelado y los vegetales. Usando ambas gráficas, las variables y las observaciones pueden ser correlacionadas entre sí.

Page 25: NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0 Program for North American Mobility in Higher Education Introducing Process

NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0

Page 26: NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0 Program for North American Mobility in Higher Education Introducing Process

NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0

Page 27: NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0 Program for North American Mobility in Higher Education Introducing Process

NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0

¡Demasiados Datos es bueno!Otra analogía es la brújula de juguete usada como premio en una caja de Cracker Jack.

Una de estas brújulas por si solaera casi inservible.

Sin embargo, si alguien tuvieramil brújulas y tomara unpromedio, un resultado útil podría ser obtenido.

Hora de Diccionario: Revisa las definiciones de “inducción” y “deducción” …

Page 28: NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0 Program for North American Mobility in Higher Education Introducing Process

NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0

Análisis Multivariable: Beneficios

¿Cuál es el objetivo de aplicar el MVA?

El primer beneficio potencial es explorar las inter-relaciones entre las diferentes variables de proceso. Es bien sabido que simplemente crear un modelo puede proveer información del proceso en si mismo (“Aprender modelando”).

Una vez que un modelo representativo ha sido creado, el ingeniero puede ejecutar ejercicios de tipo “ ¿y si?” sin afectar el proceso real. Esta es una manera de bajo costo para investigar opciones.

Algunos parámetros importantes, como la calidad final del producto, no pueden ser medidos en tiempo real. Sin embargo, éstos pueden ser inferidos de otras variables que son medidas en-línea. Cuando se ha incorporado en el sistema de control del proceso, este controlador inferencial o “sensor suave” puede mejorar en gran manera el rendimiento del proceso.

Page 29: NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0 Program for North American Mobility in Higher Education Introducing Process

NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0

Page 30: NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0 Program for North American Mobility in Higher Education Introducing Process

NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0

Lista de Lecturas

No existe una manera “descrita con números” de aprender MVA. Se impulsa a los estudiantes a leer los siguientes artículos, para comenzar a desarrollar un aprendizaje independiente de para que se usa el MVA y como trabaja éste.

Después de este curso en línea, la lectura de referencias y de jugar con datos reales, el estudiante debe experimentar en algún punto un momento “¡Eureka!” cuando de pronto el MVA tenga sentido. Desafortunadamente, no existe un atajo para conseguir este aprendizaje:

Broderick, G., J. Paris, J.L. Valade and J. Wood. Applying Latent Vector Analysis to Pulp Characterization, Paperi ja Puu, 77 (6-7): 410-419.

Saltin, J. F., and B. C. Strand. Analysis and Control of Newsprint Quality and Paper Machine Operation Using Integrated Factor Networks, Pulp and Paper Canada 96(7): 48-51

Page 31: NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0 Program for North American Mobility in Higher Education Introducing Process

NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0

Kooi, S. Adaptive Inferential Control of Wood Chip Refiner, Tappi Journal 77(11):185-194.

Kresta, J. V., T. E. Marlin and J. F. MacGregor (1994). Development of Inferential Process Models Using PLS, Computers and Chemical Engineering 18 (7):597-611.

Marklund, A. Prediction of Strength Parameters for Softwood Kraft Pulps. Nordic Pulp & Paper Research Journal, 13 (3): 211-219.

Tessier, P., G. Broderick, P. Plouffe (2001). Competitive Analysis of North American Newsprint Producers Using Composite Statistical Indicators of Product and Process Performance. TAPPI Journal, 84 (3).

Lista de Lecturas (continuación)

Page 32: NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0 Program for North American Mobility in Higher Education Introducing Process

NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0

1.2: ¿Cómo funciona el MVA?

Page 33: NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0 Program for North American Mobility in Higher Education Introducing Process

NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0

Bases Estadísticas

• Media / mediana / moda• Desviación estándar / varianza• Normalidad / simetría • Grado de asociación

– Coeficiente de correlación• Grado de explicación

– R2, examen F• Importancia de las diferencias

– Examen t, Chi-cuadrada

Se asume que el estudiante está familiarizado con los siguientes conceptos estadísticos básicos:

Si no es así, o lo estuvo hace mucho tiempo, es aconsejable consultar un libro de texto de estadística introductoria y realizar una revisión.

Page 34: NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0 Program for North American Mobility in Higher Education Introducing Process

NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0

Pruebas Estadísticas

La estadística clásica es severamente obstaculizada por ciertas suposiciones acerca de los datos:-Todos los valores son precisos-Todas las variables son no correlacionadas-No hay faltantes de datos

Para datos de proceso reales, tales suposiciones son totalmente irreales.

La estadística clásica es severamente obstaculizada por ciertas suposiciones acerca de los datos:-Todos los valores son precisos-Todas las variables son no correlacionadas-No hay faltantes de datos

Para datos de proceso reales, tales suposiciones son totalmente irreales.

Las pruebas estadísticas ayudan a caracterizar un grupo de datos existente. NO permiten hacer predicciones sobre datos futuros. Para esto debemos consultar las técnicas de regresión …

Page 35: NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0 Program for North American Mobility in Higher Education Introducing Process

NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0

Regresión

• Toma un grupo de datos, cada uno descrito por un vector de valores (y, x1, x2, … xn)

• Encuentra una ecuación algebraica

y = b1x1 + b2x2 + … + bnxn + e

que “mejor exprese” la relación entre “y” y las xi’s.

• Esta ecuación puede ser usada para predecir un nuevo valor de y dado por nuevas xi’s.

La Regresión puede ser resumida como sigue:

Page 36: NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0 Program for North American Mobility in Higher Education Introducing Process

NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0

Variables Independientes vs. Variables Dependientes

• Las xi’s en la ecuación que precede son llamadas variables independientes. Son usadas para predecir y.

• Y es llamada variable dependiente, debido a la manera en que la ecuación está escrita, su valor depende de las xi’s.

X YX XX

X YX YX Y

Page 37: NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0 Program for North American Mobility in Higher Education Introducing Process

NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0

Regresión Simple vs. Regresión Múltiple

• La Regresión Simple tiene solo una x:y = bx + e

• La Regresión Múltiple tiene mas de una x: y = b1x1 + b2x2 + … + bnxn + e

X XX

X

X

XX

X

Page 38: NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0 Program for North American Mobility in Higher Education Introducing Process

NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0

Regresión Lineal vs. Regresión No lineal

• La regresión Lineal implica que xi no tiene potencias (cuadro, cubo etc.) ni términos de producto cruz de forma xixj

• Si tales términos están presentes, estamos tratando con regresión no lineal.

XiXj

X2

X3

Page 39: NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0 Program for North American Mobility in Higher Education Introducing Process

NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0

El término de Error e• El término error expresa la incertidumbre en una ecuación empírica

predictiva derivada de observaciones imperfectas.

• Los factores que contribuyen al término de error incluyen:– Error de medición– Ruido de medición– Variaciones naturales con las que no se contaba– Perturbaciones en el proceso medido

Page 40: NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0 Program for North American Mobility in Higher Education Introducing Process

NAMP Módulo 17: “Introducción al Análisis Multivariable Tier 1, Parte 1, Rev.: 0

El Principio de Mínimos Cuadrados

• La Regresión trata de producir una “ecuación que mejor ajuste” --- pero ¿cuál es “la mejor”?

• Criterio: minimizar la suma de desviaciones cuadradas de puntos de datos de la línea de regresión.