![Page 1: REGRESION LINEAL MULTIPLE: Introducción Mario Briones L. MV, MSc 2005](https://reader036.vdocument.in/reader036/viewer/2022062807/5665b4751a28abb57c91a649/html5/thumbnails/1.jpg)
REGRESION LINEAL MULTIPLE: Introducción
Mario Briones L.MV, MSc
2005
![Page 2: REGRESION LINEAL MULTIPLE: Introducción Mario Briones L. MV, MSc 2005](https://reader036.vdocument.in/reader036/viewer/2022062807/5665b4751a28abb57c91a649/html5/thumbnails/2.jpg)
obs loc tipo BIO SAL pH K Na Zn1 OI DVEG 676 33 5 1441.67 35184.5 16.45242 OI DVEG 516 35 4.75 1299.19 28170.4 13.98523 OI DVEG 1052 32 4.2 1154.27 26455 15.32764 OI DVEG 868 30 4.4 1045.15 25072.9 17.31285 OI DVEG 1008 33 5.55 521.62 31664.2 22.33126 OI SHRT 436 33 5.05 1273.02 25491.7 12.27787 OI SHRT 544 36 4.25 1346.35 20877.3 17.82258 OI SHRT 680 30 4.45 1253.88 25621.3 14.35269 OI SHRT 640 38 4.75 1242.65 27587.3 13.682610 OI SHRT 492 30 4.6 1282.95 26511.7 11.756611 OI TALL 984 30 4.1 553.69 7886.5 9.88212 OI TALL 1400 37 3.45 494.74 14596 16.675213 OI TALL 1276 33 3.45 526.97 9826.8 12.37314 OI TALL 1736 36 4.1 571.14 11978.4 9.405815 OI TALL 1004 30 3.5 408.64 10368.6 14.930216 SI DVEG 396 30 3.25 646.65 17307.4 31.286517 SI DVEG 352 27 3.35 514.03 12822 30.1652
![Page 3: REGRESION LINEAL MULTIPLE: Introducción Mario Briones L. MV, MSc 2005](https://reader036.vdocument.in/reader036/viewer/2022062807/5665b4751a28abb57c91a649/html5/thumbnails/3.jpg)
DESARROLLO DEL MODELO
Búsqueda de las variables a incluir en el modelo.
Se asume que hay un conjunto de variables candidatas odisponibles, el cual presumiblemente incluye todas
las variables relevantes, a partir del cual un subconjunto der variables debe elegirse para la ecuación de regresión.
Las variables candidatas pueden incluir diferentes formasde la misma variable básica, tales como X y X2 y el
proceso de selección puede incluir restriciones acerca de las variables que pueden ser incluidas. Por ejemplo,X puede ser forzada a incluirse en el modelo si X2 está en
el subconjunto seleccionado.
![Page 4: REGRESION LINEAL MULTIPLE: Introducción Mario Briones L. MV, MSc 2005](https://reader036.vdocument.in/reader036/viewer/2022062807/5665b4751a28abb57c91a649/html5/thumbnails/4.jpg)
Hay 3 áreas problema relacionadas con esto:
1. Los efectos teóricos de la selección de variables sobre la regresión resultante.
2. Los métodos de cálculo para encontrar el “mejor”subconjunto de variables para cada tamaño de subconjunto.
3. La elección del tamaño del subconjunto (para elmodelo final), o regla de detención
![Page 5: REGRESION LINEAL MULTIPLE: Introducción Mario Briones L. MV, MSc 2005](https://reader036.vdocument.in/reader036/viewer/2022062807/5665b4751a28abb57c91a649/html5/thumbnails/5.jpg)
Usos de la ecuación de regresión:
1. Proporcionar una buena descripción de laconducta en la variable de respuesta.
2. Predicción de respuesta futura y estimaciónde respuestas promedio.
3. Extrapolación o predicción de respuestas fuera delrango de los datos.
4. Estimación de parámetros.
5. Control de un proceso por variación de los nivele de input.
6. Desarrollo de modelos realísticos del proceso.
![Page 6: REGRESION LINEAL MULTIPLE: Introducción Mario Briones L. MV, MSc 2005](https://reader036.vdocument.in/reader036/viewer/2022062807/5665b4751a28abb57c91a649/html5/thumbnails/6.jpg)
Cada objetivo tiene implicancias diferentes en el modocomo se coloca el énfasis en la eliminación de variables
desde el modelo, o en cuan importante es que lasvariables retenidas estén causalmente relacionadas con
la variable de respuesta.
Las decisiones acerca de causalidad y realismo debendepender de información ajena al conjunto de datos.
Por ej., modalidad de recolección de los datos yconocimiento fundamental acerca de la operación del sistema.
![Page 7: REGRESION LINEAL MULTIPLE: Introducción Mario Briones L. MV, MSc 2005](https://reader036.vdocument.in/reader036/viewer/2022062807/5665b4751a28abb57c91a649/html5/thumbnails/7.jpg)
Objetivo: descripción de la conducta de la variablerespuesta en un conjunto particular de datos.
No tiene importancia la eliminación de variables, lasposibles relaciones causales o el realismo del modelo.
La mejor descripción de la variable respuesta, entérminos de mínima suma de cuadrados residuales,
estará dada por el modelo completo.
![Page 8: REGRESION LINEAL MULTIPLE: Introducción Mario Briones L. MV, MSc 2005](https://reader036.vdocument.in/reader036/viewer/2022062807/5665b4751a28abb57c91a649/html5/thumbnails/8.jpg)
DEP VAR: BIO N: 45 MULTIPLE R: 0.823 SQUARED MULTIPLE R: 0.677 ADJUSTED SQUARED MULTIPLE R: .636 STANDARD ERROR OF ESTIMATE: 398.267
VARIABLE COEFFICIENT STD ERROR STD COEF TOLERANCE T P(2 TAIL)
CONSTANT 1252.575 1234.717 0.000 . 1.014 0.317 SAL -30.288 24.030 -0.171 0.451 -1.260 0.215 PH 305.483 87.882 0.577 0.300 3.476 0.001 K -0.285 0.348 -0.129 0.335 -0.819 0.418 NA -0.009 0.016 -0.090 0.300 -0.544 0.590 ZN -20.678 15.054 -0.259 0.232 -1.374 0.177
ANALYSIS OF VARIANCE
SOURCE SUM-OF-SQUARES DF MEAN-SQUARE F-RATIO P
REGRESSION .129849E+08 5 2596984.192 16.373 0.000 RESIDUAL 6186042.238 39 158616.468
![Page 9: REGRESION LINEAL MULTIPLE: Introducción Mario Briones L. MV, MSc 2005](https://reader036.vdocument.in/reader036/viewer/2022062807/5665b4751a28abb57c91a649/html5/thumbnails/9.jpg)
Las ecuaciones de regresión con pocas variables :
Tienen el atractivo de la simplicidad.
Son económicas por baja información necesaria.
Eliminan variables irrelevantes.
Eliminan variables con bajo aporte a laexplicación de la variable dependiente.
![Page 10: REGRESION LINEAL MULTIPLE: Introducción Mario Briones L. MV, MSc 2005](https://reader036.vdocument.in/reader036/viewer/2022062807/5665b4751a28abb57c91a649/html5/thumbnails/10.jpg)
Los usos de PREDICCION y ESTIMACION derespuestas promedio son los más tolerantes a la
eliminación de variables. Al mismo tiempo, no esimportante si las variables están causalmente
relacionadas o el modelo es realístico.
Se asume que la predicción y la estimación van aestar en el espacio de X de los datos y que el sistemacontinua operando como cuando se recogieron los
datos.
Cualquier variable que contenga información predictivaacerca de la variable dependiente y para la cual se pueda
obtener información a bajo costo, es una variable deutilidad.
![Page 11: REGRESION LINEAL MULTIPLE: Introducción Mario Briones L. MV, MSc 2005](https://reader036.vdocument.in/reader036/viewer/2022062807/5665b4751a28abb57c91a649/html5/thumbnails/11.jpg)
La extrapolación requiere más cuidado en laelección de las variables.
Las variables retenidas deben describir de lamanera más completa posible la conducta del
sistema.Las extrapolaciones más allá del ámbito de X son
siempre peligrosas.Debe re analizarse y agregarse continuamente
información.
![Page 12: REGRESION LINEAL MULTIPLE: Introducción Mario Briones L. MV, MSc 2005](https://reader036.vdocument.in/reader036/viewer/2022062807/5665b4751a28abb57c91a649/html5/thumbnails/12.jpg)
Estimación de parámetros:
Se debe tener precaución al sacar variables del modelo,para evitar sesgo. Como ventaja, la eliminación de
variables realmente no relacionadas reduce la varianzade las estimaciones.
Control de un sistema:
Implica una relación de causa efecto entre las variablesindependientes y la variable de respuesta. Si se
eliminan las variables incorrectas conduce a unafalta de efecto de la intervención sobre el sistema.
![Page 13: REGRESION LINEAL MULTIPLE: Introducción Mario Briones L. MV, MSc 2005](https://reader036.vdocument.in/reader036/viewer/2022062807/5665b4751a28abb57c91a649/html5/thumbnails/13.jpg)
El objetivo de la investigación básica es confrecuencia la construcción de modelos realísticos
La meta final es la comprensión del proceso.Existe siempre un interés en identificar las
variables importantes por su relación de causasobre el modelo.
La selección no puede basarse sólo sobre la estructura correlacional. Este análisis sirve paraidentificar clases de variables que promuevaninvestigación posterior del tipo causa efecto.
En la medida que se necesita mayor conocimiento del proceso, hay mayor interés en desarrollar modelos
cuya forma funcional refleje realísticamente laconducta del sistema.
![Page 14: REGRESION LINEAL MULTIPLE: Introducción Mario Briones L. MV, MSc 2005](https://reader036.vdocument.in/reader036/viewer/2022062807/5665b4751a28abb57c91a649/html5/thumbnails/14.jpg)
Cuando las variables independientes en el conjunto de datos son ortogonales,
el resultado de mínimo cuadrado para cadavariable es el mismo independientemente
de cual otra variable se incorpore al modelo.
Entonces, el resultado de un solo análisis puedeser utilizado para escoger las variables
independientes que permanecen en el modelo.
En datos observacionales y por pérdida en experimentos,se produce falta de ortogonalidad y el resultado
de mínimos cuadrados de cada una es dependientede las otrad variables incluidas en el modelo.
![Page 15: REGRESION LINEAL MULTIPLE: Introducción Mario Briones L. MV, MSc 2005](https://reader036.vdocument.in/reader036/viewer/2022062807/5665b4751a28abb57c91a649/html5/thumbnails/15.jpg)
Conceptualmente, la única manera de asegurarque se escoge el mejor modelo para cada
subconjunto, es calcular todas las posiblesregresiones.
Se puede cuando el número de variables esrelativamente pequeño, pero si hay 10 variables
independientes hay 210-1 = 1023 posibles modelos a evaluar.
![Page 16: REGRESION LINEAL MULTIPLE: Introducción Mario Briones L. MV, MSc 2005](https://reader036.vdocument.in/reader036/viewer/2022062807/5665b4751a28abb57c91a649/html5/thumbnails/16.jpg)
PROCEDIMIENTO DE REGRESION STEPWISE
Este procedimiento identifica los modelos de lossubconjuntos agregando o borrando, según la
alternativa, la variable que tenga un mayor impactosobre la suma de cuadrados residuales.
![Page 17: REGRESION LINEAL MULTIPLE: Introducción Mario Briones L. MV, MSc 2005](https://reader036.vdocument.in/reader036/viewer/2022062807/5665b4751a28abb57c91a649/html5/thumbnails/17.jpg)
Forward stepwise:
escoje los subconjuntos de modelos agregando unavariable a la vez al conjunto previamente elegido.
Este procedimiento comienza eligiendo como subconjunto de una variable a aquella variable
independiente que explica la mayor parte de la variación en la variable dependiente. Esta es
la con mayor correlación lineal con Y. En cadapaso sucesivo, se agrega al subconjunto aquella
variable QUE NO ESTABA en el modelo previo yque produce la mayor reducción en la suma de
cuadrados residuales.
![Page 18: REGRESION LINEAL MULTIPLE: Introducción Mario Briones L. MV, MSc 2005](https://reader036.vdocument.in/reader036/viewer/2022062807/5665b4751a28abb57c91a649/html5/thumbnails/18.jpg)
En la práctica, es la variable que tiene la mayorcorrelación con los residuales del modelo actual.Sin una regla de término, la selección continúahasta incluir todas las variables en el promedio.
![Page 19: REGRESION LINEAL MULTIPLE: Introducción Mario Briones L. MV, MSc 2005](https://reader036.vdocument.in/reader036/viewer/2022062807/5665b4751a28abb57c91a649/html5/thumbnails/19.jpg)
Backward elimination:
Escoge el modelo comenzando con todas las variablesy eliminando en cada paso la variable cuya eliminacióncause el mínimo incremento en la suma de cuadrados
residuales.Esta es la variable dependiente que en el modelo
actual tenga la más pequeña suma de cuadrados parciales.
Sin una regla de término, la selección continúahasta que el modelo incluye una sola variable.
![Page 20: REGRESION LINEAL MULTIPLE: Introducción Mario Briones L. MV, MSc 2005](https://reader036.vdocument.in/reader036/viewer/2022062807/5665b4751a28abb57c91a649/html5/thumbnails/20.jpg)
Ninguno de los dos procedimientos toma en cuenta elefecto que la adición o eliminación de una variable puede tener en la contribución de las otras variables
del modelo.Una variable agregada tempranamente al modelo
en Forward selection puede hacerse irrelevante másadelante, a agregar otras variables o bien,
variables eliminadas tempranamente puedenhacerse importantes después que otras se han
eliminado del modelo.
El método llamado stepwise es una selecciónhacia delante que rechequea en cada paso la importancia
de las variables ya incluidas.
![Page 21: REGRESION LINEAL MULTIPLE: Introducción Mario Briones L. MV, MSc 2005](https://reader036.vdocument.in/reader036/viewer/2022062807/5665b4751a28abb57c91a649/html5/thumbnails/21.jpg)
Si la suma de cuadrados parciales para cualquierade las variables incluidas previamente no
satisface un criterio mínimo para permanecer en elmodelo, el procedimiento cambia a eliminación
hacia atrás y las variables son eliminadas una a lavez hasta que todas las variables satisfacen el
criterio.Después de esto se reanuda la selección hacia
adelante.
![Page 22: REGRESION LINEAL MULTIPLE: Introducción Mario Briones L. MV, MSc 2005](https://reader036.vdocument.in/reader036/viewer/2022062807/5665b4751a28abb57c91a649/html5/thumbnails/22.jpg)
CRITERIOS DE TERMINO DE SELECCION
SELECCIÓN HACIA ADELANTE:
Tasa de reducción en la suma de cuadrados residualesproducto de la incorporación de la siguiente variable
Nivel crítico de F para entrar o nivel de significanciaEl proceso termina cuando ninguna de las variablesfuera del modelo satisface el criterio para entrar.
SELECCIÓN HACIA ATRÁS:
Test de F para la mayor suma de cuadrados residualesde las variables que permanecen en el modelo.