regresiÓn lineal mÚltiple - personal.us.espersonal.us.es/vararey/adatos2/multiple.pdf ·...

18
1 REGRESIÓN LINEAL MÚLTIPLE 1.- Planteamiento general ...................................................................................................... 1 2.- Métodos para la selección de variables ............................................................................ 4 3.- Correlaciones parciales y semiparciales ............................................................................11 4.- Regresión por bloques……………….. ........................................................................... 15 5.- Multicolinealidad en las variables explicativas ................................................................18

Upload: buiquynh

Post on 03-Jul-2018

231 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: REGRESIÓN LINEAL MÚLTIPLE - personal.us.espersonal.us.es/vararey/adatos2/multiple.pdf · Supongamos que deseamos conocer la incidencia del conjunto de variables (Inteligencia, Horas

1

REGRESIÓN LINEAL MÚLTIPLE

1.- Planteamiento general ...................................................................................................... 1 2.- Métodos para la selección de variables ............................................................................ 4 3.- Correlaciones parciales y semiparciales ............................................................................11 4.- Regresión por bloques……………….. ........................................................................... 15 5.- Multicolinealidad en las variables explicativas ................................................................18

Page 2: REGRESIÓN LINEAL MÚLTIPLE - personal.us.espersonal.us.es/vararey/adatos2/multiple.pdf · Supongamos que deseamos conocer la incidencia del conjunto de variables (Inteligencia, Horas

2

1.-Planteamiento general Como se sabe, le modelo de regresión múltiple se utiliza para predecir el comportamiento de una determinada variable –variable dependiente o criterio- en función de otras variables – independientes o explicativas (también regresores o predictores)

Trabajaremos aquí con otro fichero de datos, notas.sav tal como se ilustra a continuación:

Las variables consideradas son:

Inteligencia Horas de estudio Nivel social Calificación Sexo

Supongamos que deseamos conocer la incidencia del conjunto de variables (Inteligencia, Horas de estudio y Nivel Social) sobre las calificaciones obtenidas:

Page 3: REGRESIÓN LINEAL MÚLTIPLE - personal.us.espersonal.us.es/vararey/adatos2/multiple.pdf · Supongamos que deseamos conocer la incidencia del conjunto de variables (Inteligencia, Horas

3

Nos ofrece el siguiente conjunto de resultado que iremos desmenuzando. Comencemos por el resumen del modelo:

El modelo explica un 90.2%, que una vez corregido por el efecto de la muestra y de las variables independientes resulta ser 88.4%. Por otro lado, el error típico de la estimación (raíz cuadrada de la varianza no explicada) resulta ser de 0.589.

La prueba de análisis de la varianza, que nos muestra si la varianza explicada por la regresión es significativamente distinta ( y superior) a la varianza no explicada es:

El valor de F obtenido es 49.1, cuya probabilidad asociada según las expectativas de la Hipótesis nula es menor del 0.0001, lo que nos lleva a rechazar tal hipótesis y suponer que existe un efecto real de dichas variables sobre la calificación académica.

Por otro lado, el modelo de regresión será:

Page 4: REGRESIÓN LINEAL MÚLTIPLE - personal.us.espersonal.us.es/vararey/adatos2/multiple.pdf · Supongamos que deseamos conocer la incidencia del conjunto de variables (Inteligencia, Horas

4

De aquí se deduce que la ecuación de regresión en directas es:

𝑌� = −6.938 + 0.07𝑋1 + 0.196𝑋2 + 0.29𝑋3

Siendo: Y: Calificación académica X1: Inteligencia X2: Horas de estudio X3: Nivel Social

Tal como está expresada la ecuación anterior parecería que la Inteligencia tiene poca importancia. Se debe a que la magnitud de su escala es mucho más alta que las restantes variables y su peso específico por unida es menor. No obstante, la ecuación de regresión en estandarizadas nos mostrará todas las variables en la misma dimensión. Así:

�̂� = 0.597𝑍1 + 0.580𝑍2 + 0.200𝑍3 Se observa que aquí el peso específico de la Inteligencia es superior a los restantes. Si nos atenemos al valor de t que nos indica la significación estadística de los distintos coeficientes observaremos un valor máximo para la Horas de estudio (t = 7.272), seguido de la Inteligencia (t = 5.35), y por ultimo le nivel social (t = 1.787). 2.- Métodos para la selección de variables

En los resultados anteriores se ha seguido un determinado procedimiento de inclusión de variables. Si se observa el cuadro de diálogo correspondiente aparecerá en Método, Introducir. Se quiere decir con ello que se consideren simultáneamente todas la variables especificadas.

Este procedimiento no es el más aconsejable, a menos que haya razones teóricas suficientes. Con frecuencia nos encontramos con variables redundantes o bien irrelevantes, que no aportan nada al modelo. Las primeras, porque ya se tiene en otras variables la información que necesitamos, y las segundas, porque adolecen precisamente de falta de información alguna.

El procedimiento más frecuentemente usado se denomina Por pasos (stepwise). Como su nombre

Page 5: REGRESIÓN LINEAL MÚLTIPLE - personal.us.espersonal.us.es/vararey/adatos2/multiple.pdf · Supongamos que deseamos conocer la incidencia del conjunto de variables (Inteligencia, Horas

5

indica consiste en ir elaborando sucesivas ecuaciones de regresión en las que se va añadiendo cada vez un regresor más. El primer paso consiste en seleccionar el regresor de máxima correlación simple con el criterio, y se define, en consecuencia una ecuación de regresión simple con esa variable. A continuación se elabora una segunda ecuación de regresión añadiendo a la anterior otro regresor, esta vez el que más proporción de variabilidad explicada aporte sobre la ecuación anterior. Así hasta que no haya más regresores que aporten nada sustantivo, que es cuando el procedimiento acaba. Hay que indicar, y aquí esta lo destacable de este procedimiento, que en este proceso de elaboración del modelo definitivo, hay una continua reevaluación de los predictores incluidos en el modelo, de forma que si algún regresor queda explicado por los restantes (en el sentido de que carece de contribución específica propia) queda eliminado.

El procedimiento Hacia delante (forward), es equivalente al anterior excepto en el sentido que no existe ninguna reevaluación, y se van incluyendo, por tanto en el modelo las variables según su importancia. Frecuentemente este método coincide con el anterior cuando no hay que extraer ninguna de las variables introducidas.

El procedimiento Hacia atrás (backward) es justamente el contrario del anterior. Se comienza incluyendo todas las variables en el modelo de regresión y se van eliminando regresores progresivamente de menor a mayor contribución específica hasta que ésta sea lo suficientemente significativa como para no poder ser eliminada.

El procedimiento Eliminar (remove), permite cuando se ensayan diferentes modelos de regresión (con la especificación de bloques) eliminar en cada uno de estos ensayos las variables que nos interese. Es una forma, digamos manual, de ir probando distintos modelos.

Probemos en lo que sigue el procedimiento Por pasos. En el cuadro de diálogo de Regresión lineal marcamos lo siguiente:

Page 6: REGRESIÓN LINEAL MÚLTIPLE - personal.us.espersonal.us.es/vararey/adatos2/multiple.pdf · Supongamos que deseamos conocer la incidencia del conjunto de variables (Inteligencia, Horas

6

Si entramos en Estadístico podremos conseguir alguna información útil, como cambio en R cuadrado, que nos indicará precisamente la mejora de cada variable en términos de proporción de variación explicada.

En la siguiente tabla aparecen las variables que configuran los diferentes modelos:

Page 7: REGRESIÓN LINEAL MÚLTIPLE - personal.us.espersonal.us.es/vararey/adatos2/multiple.pdf · Supongamos que deseamos conocer la incidencia del conjunto de variables (Inteligencia, Horas

7

El primer modelo está formado sólo con el predictor Inteligencia y al segundo se le añade la variable Horas de estudio. El primer modelo explica una proporción de 0.577, y el segundo de 0.882, lo que implica una mejora de 0.305 puntos. Vemos más cosas, tales como los cambios en el cociente F, grados de libertad y la significación de F.

Además se nos proporciona un análisis de la varianza para cada uno de los modelos:

Los coeficientes de regresión de los distintos modelos:

Page 8: REGRESIÓN LINEAL MÚLTIPLE - personal.us.espersonal.us.es/vararey/adatos2/multiple.pdf · Supongamos que deseamos conocer la incidencia del conjunto de variables (Inteligencia, Horas

11

Por último las variables excluidas en ambos modelos:

Se observa que en el primer modelo, las Horas de estudio tenían un peso importante (t=6.646), cosa que no ocurre con el Nivel social ni un modelo ni con el otro, por lo que es definitivamente eliminada. Otros estadísticos tales como correlación parcial y colinealidad lo trataremos en las próximas páginas. 3.- Correlaciones parciales y semiparciales Las correlaciones parciales y semiparciales tienen especial interés por permitir conocer las contribuciones específicas de las distintas variables al margen al margen de lo que comparten con otras variables. Frecuentemente las predictores están correlacionados entre sí y es importante saber deslindar lo que aportan unos y otros. No es fácil saber a dónde atribuir la parte compartida, y frecuentemente son criterios teóricos –sustantivos del tema en cuestión- y no criterios estadísticos los que nos permiten asignar las contribuciones de los diferentes regresores a la explicación de la variable dependiente.

Vamos a ver en primer lugar el conjunto de correlaciones existentes en estos datos. Vamos al comando Correlacionar/bivariadas:

Page 9: REGRESIÓN LINEAL MÚLTIPLE - personal.us.espersonal.us.es/vararey/adatos2/multiple.pdf · Supongamos que deseamos conocer la incidencia del conjunto de variables (Inteligencia, Horas

12

Cuyos resultados son:

Veamos qué ocurre ahora si eliminamos de todas las variables la variabilidad que aporta la Inteligencia. Vanos para ello al comando Correlacionar/parciales:

Page 10: REGRESIÓN LINEAL MÚLTIPLE - personal.us.espersonal.us.es/vararey/adatos2/multiple.pdf · Supongamos que deseamos conocer la incidencia del conjunto de variables (Inteligencia, Horas

13

La nueva matriz de correlaciones será:

Obsérvese el poco efecto que tiene ahora el Nivel social sobre la variable Calificación. Los cálculos han consistido en eliminar tanto de la variable dependiente (Calificación) como del regresor Nivel Social, la variabilidad de la Inteligencia. Es una correlación, digamos, entre los residuos de ambas variables una vez eliminada de ellas la participación de la Inteligencia.

La correlaciones parciales frecuentemente son la alternativa estadística- no experimental- a aquella otra experimental del control de variables, cuando no es posible la manipulación de las mismas según nuestros deseos.

Más interesante para el tema que nos atañe son las denominadas correlacione semiparciales. En este caso, no tocamos la variabilidad e la variable dependiente, sino tan sólo sustraemos el efecto de la variable que deseamos controlar, de los predictores que estamos tratando. Es justamente lo que hemos denominado contribución específica de una determinada variable. Es la proporción (mejor su raíz cuadrada) de variabilidad explicada exclusivamente por un determinado regresor sobre la variable dependiente.

Page 11: REGRESIÓN LINEAL MÚLTIPLE - personal.us.espersonal.us.es/vararey/adatos2/multiple.pdf · Supongamos que deseamos conocer la incidencia del conjunto de variables (Inteligencia, Horas

14

En el caso que nos atañe, a efectos de simplicidad vamos a trabajar con dos únicos regresores, Inteligencia y Nivel social. Así, en el cuadro de la Regresión lineal indicamos: A continuación en Estadísticos marcamos Correlaciones parcial y semiparcial:

Page 12: REGRESIÓN LINEAL MÚLTIPLE - personal.us.espersonal.us.es/vararey/adatos2/multiple.pdf · Supongamos que deseamos conocer la incidencia del conjunto de variables (Inteligencia, Horas

15

Obtendremos:

Obsérvese como la correlación simple (de orden cero) de Nivel social con Calificación es 0.557, la parcial la observada en la tabla anterior y la semiparcial 0.033. Esto significa que la variable Nivel social contribuye (ella sola, sin lo que comparte con Inteligencia) en una proporción de 0.0332 = 0.001, o sea 0.1% a las calificaciones. Por el contrario, la Inteligencia, cuando se le elimina lo que comparte con Nivel social, sigue contribuyendo en un 0.5172 = 26.72% a las Calificaciones.

Conviene aclarar la diferencia entre correlación semiparcial y parcial. Supongamos que tenemos dos regresores X1 y X2, correlación semiparcial (al cuadrado) de la variable X2 es la proporción de variabilidad de Y debida exclusivamente a X2. Es lo que aporta X2 a X1 hasta llegar a R2y.12. Más formalmente:

En el caso de la correlación parcial (al cuadrado) es esa misma contribución de X2 pero no del total de Y, sino de lo no explicado de Y por X1. Esto es, X1 se ha sustraído de todas las variables. Su expresión será:

4.- Regresión por bloques

Obsérvese que en las correlaciones semiparciales observamos el incremento en términos de R cuadrado cuando incrementamos variables en un determinado modelo. Si tenemos una serie de variables independientes y establecemos una jerarquía entre ellas, podremos calcular la contribución de cada una de ellas según la importancia (por razones teóricas) que hemos asignado. La primera

21

212.

2)1.2( yyy RRR −=

21

21

212.2

1.2 1 y

yyy R

RRR

−=

Page 13: REGRESIÓN LINEAL MÚLTIPLE - personal.us.espersonal.us.es/vararey/adatos2/multiple.pdf · Supongamos que deseamos conocer la incidencia del conjunto de variables (Inteligencia, Horas

16

variable contribuirá en todo su valor, ya que consideramos que es la más importantes, las segunda contribuirá en lo que le deja la primera (eliminando de ella lo que aporta la primera), la tercera, su valor eliminado el aporte de las dos primeras y así sucesivamente. Esto lo podemos resolver recurriendo a la regresión por bloques. Vamos colocando las variables independientes por orden y vemos su contribución en los diferentes bloques. Si en cada bloque indicamos al modelo de regresión que nos calcule el cambio en R cuadrado veremos las distintas contribuciones de las variables en tales bloques. Supongamos que nuestra jerarquía es: 1º.- Nivel social, 2º.- Horas de estudio y 3º.- Inteligencia:

Page 14: REGRESIÓN LINEAL MÚLTIPLE - personal.us.espersonal.us.es/vararey/adatos2/multiple.pdf · Supongamos que deseamos conocer la incidencia del conjunto de variables (Inteligencia, Horas

17

El resultado:

Observamos que todas las variables contribuyen de manera significativa. Si, por ejemplo, tomamos una de ellas, como el Nivel Social su contribución es del 31.1% y su significación del 0.011.

Cambiemos ahora nuestra jerarquía de la siguiente manera: 1º.- Horas de estudio, 2º.- Inteligencia y 3º.- Nivel social:

Page 15: REGRESIÓN LINEAL MÚLTIPLE - personal.us.espersonal.us.es/vararey/adatos2/multiple.pdf · Supongamos que deseamos conocer la incidencia del conjunto de variables (Inteligencia, Horas

18

Resultado:

En este caso la contribución del Nivel Social es tan solo de 0.02 y una probabilidad de 0.093 que no llega a ser significativa.

5.- Multicolinealidad en las variables explicativas

Se dice que existe multicolinealidad entre las variables explicativas cuando existe algún tipo de dependencia lineal entre ellas, o lo que es lo mismo, si existe una fuerte correlación entre las mismas. La correlación no solamente se refiere a las distintas variables dos a dos, sino a cualquier de ellas

Page 16: REGRESIÓN LINEAL MÚLTIPLE - personal.us.espersonal.us.es/vararey/adatos2/multiple.pdf · Supongamos que deseamos conocer la incidencia del conjunto de variables (Inteligencia, Horas

19

con cualquier grupo de las restantes. Por esta razón no es suficiente (aunque sí necesaria) que en la matriz de correlaciones bivariadas haya correlaciones altas.

El principal inconveniente de la multicolinealidad consiste en que se incrementan la varianza de los coeficientes de regresión estimados hasta el punto que resulta prácticamente imposible establecer su significación estadística, ya que como se sabe, el valor de t para un determinado coeficiente de regresión es el valor de dicho coeficiente dividido por su desviación tipo. Si este es grande, el valor de t será bajo y no llegara a la significación.

El SPSS adopta varios procedimientos para detectar multicolinealidad entre los predictores. El primero de ellos, basado en la correlación múltiple de un determinado regresor con los restantes se denomina Tolerancia de dicho regresor. Su valor es:

Siendo 2iR la correlación multiple al cuadrado de dicho regresor con los restantes.

Para que haya multicolinealidad dicha correlación ha de ser alta, o lo que es lo mismo la tolerancia baja. Además otro índice relacionado con éste y que nos da una idea del grado de aumento de la varianza se denomina Factor de Inflación de la Varianza, y es precisamente el recíproco de la tolerancia. Su valor es:

Para que no haya multicolinealidad el denominador tiene que valer cerca de la unidad, por tanto un poco más de 1 el valor de VIF. Cuanto mayor sea de este valor mayor multicolinealidad habrá.

La varianza de los estimadores tiene que ver con (X´X)-1, donde X es la matriz de regresores. Cuando las columnas de X son colineales, la matriz es singular y no tiene inversa. En este sentido los autovalores de la matriz X´X (normalizada) nos puede proporcionar información del grado de singularidad de la misma. A este respecto, disponemos del Indice de Condición, cuyo valor es la raíz cuadrada del cociente entre el máximo autovalor y el mínimo de la matriz X´X:

Se considera que a partir de un valor de 20 hay cierta multicolinealidad y que ésta es alta a partir de 30.

Podemos conocer además qué variables presentan multicolinealidad analizando la proporción de varianza de los estimadores de los coeficientes de regresión en los componentes con un índice de condición alto. Variables, cuya proporción de varianza en dichos componentes, sea superior a 0.5 son indicativos de colinealidad.

21 iR−

211

1

yi R

VIF−

=

min

max

AutovalorAutovalor

condicióndeIndice =

Page 17: REGRESIÓN LINEAL MÚLTIPLE - personal.us.espersonal.us.es/vararey/adatos2/multiple.pdf · Supongamos que deseamos conocer la incidencia del conjunto de variables (Inteligencia, Horas

20

En el ejemplo que estamos tratando, para conocer la posible colinealidad marcaremos en Regresión lineal/estadísticos, Diagnósticos de colinealidad:

Con lo que obtendremos (además de otros resultados ya conocidos):

Page 18: REGRESIÓN LINEAL MÚLTIPLE - personal.us.espersonal.us.es/vararey/adatos2/multiple.pdf · Supongamos que deseamos conocer la incidencia del conjunto de variables (Inteligencia, Horas

21

Se observa que se ha añadido a lo que ya conocemos otros indicadores tales como la Tolerancia y el FIV. La variable Horas d estudio presenta una alta tolerancia y por tanto una pequeña FIV, lo que nos indica que no presenta colinealidad. Por el contrario las otras dos variables, Inteligencia y Nivel social son colineales.

En esta tabla se nos indica qué variables son colineales pero no con cuales, aunque con tres variables y una que no lo es, no es difícil imaginarse lo que pasa. Pero puede haber más variables. Para ello recurrimos al Índice de condición y a la proporciones de varianzas en los distintos componentes. Así:

Se observa que hay un índice de condición asignado al cuarto componente que vale 30.893, resultado de dividir 3.840 entre 0.004 y extraer la raíz cuadrada. En ese componente hay dos variables con una alta proporción: la constante, Inteligencia. El Nivel social no llega a rebasar el umbral de 0.5. La constante es el estimador del coeficiente ligado a la primera variable de la matriz X, que está formado precisamente por un vector de 1. Si trabajamos con variables centradas, resolveremos algunos problemas de multicolinealidad. Así si restamos a cada una de las variables explicativas su media y realizamos de nuevo la regresión, obtendremos en diagnósticos de colinealidad:

Se observa que el mayor índice de condición es muy bajo (2.461) y por tanto no hay multicolinealidad, al menos en un sentido importante, que altere la estimación mínimo cuadrática de nuestro modelo.

Diagnósticos de colinealidada

1,707 1,000 ,00 ,14 ,00 ,141,011 1,299 ,00 ,01 ,93 ,001,000 1,306 1,00 ,00 ,00 ,00

,282 2,461 ,00 ,85 ,07 ,86

Dimensión1234

Modelo1

AutovalorIndice decondición (Constante) INT2 HORAS2 NSOCIAL2

Proporciones de la varianza

Variable dependiente: Calificacióna.