161850300-regresion-multiple.pdf

27
1 Capítulo 14 Análisis de regresión y correlación múltiples Objetivos: Al terminar este capítulo podrá: 1. Describir la relación entre diversas variables independientes y una variable dependiente, utilizando la ecuación de regresión múltiple. 2. Calcular e interpretar el error estándar de estimación múltiple y el coeficiente de determinación. 3. Interpretar una matriz de correlación. 4. Establecer y explicar una tabla ANOVA.

Upload: mamg4415

Post on 10-Dec-2015

3 views

Category:

Documents


0 download

TRANSCRIPT

1

Capítulo 14 Análisis de regresión y correlación

múltiples

Objetivos: Al terminar este capítulo podrá:

1. Describir la relación entre diversas variables independientes y una

variable dependiente, utilizando la ecuación de regresión múltiple.

2. Calcular e interpretar el error estándar de estimación múltiple y el

coeficiente de determinación.

3. Interpretar una matriz de correlación.

4. Establecer y explicar una tabla ANOVA.

2

5. Realizar una prueba de hipótesis para determinar si los coeficientes de

regresión son diferentes de cero.

6. Realizar una prueba de hipótesis para cada uno de los coeficientes de

regresión.

Capítulo 14 (Continuación)

3

Análisis de regresión múltiple

Para dos variables independientes, la forma general de la ecuación de la regresión múltiple es:

X1 y X2 son las variables independientes.

a es la intersección en Y.

b1 es la variación neta en Y por cada unidad de variación en X1, manteniendo X2 constante. Se denomina coeficiente de regresión parcial, coeficiente de regresión neta, o simplemente coeficiente de regresión.

Y a b X b X' 1 1 2 2

4

Análisis de regresión múltiple

La regresión general múltiple con k variables

independientes es dado por:

El criterio de mínimos cuadrados se utiliza para

desarrollar esta ecuación.

Dado que la determinación de b1, b2, etc. es muy tediosa,

se recomienda un paquete de software tal como Excel o

MINITAB.

Y a b X b X b Xk k' ... 1 1 2 2

5

Error estándar múltiple de estimación

El error estándar múltiple de estimación es una medida

de la eficacia de la ecuación de regresión.

Se mide en las mismas unidades que la variable

dependiente.

Es difícil determinar cuál es un valor grande y cuál es un

valor pequeño del error estándar

6

)1(

)'( 2

...12.

kn

YYs ky

Error estándar múltiple de estimación

La fórmula es:

7

Hipótesis para la regresión múltiple y

la correlación múltiple

Las variables independientes y las variables dependientes tienen una relación lineal.

La variable dependiente es continua y por lo menos de nivel de intervalo.

La variación en la diferencia entre los valores real y pronosticado es la misma para todos los valores ajustados de Y. Esto es (Y –Y') debe ser aproximadamente igual para todos los valores de Y.Cuando tal sea el caso, las diferencias presentan homoscedasticidad.

Las residuales, calculadas mediante Y – Y', están distribuidas en forma normal con media igual a 0.

Los valores sucesivos de la variable dependiente deben ser sin correlación.

8

La tabla ANOVA

La tabla ANOVA reporta la variación en la variable

dependiente. La variación se divide en dos

componentes.

La variación explicada es considerada por el sistema de

la variable independiente.

La variación inexplicada o al azar no es considerada por

las variables independientes

9

Matriz de correlación

Una matriz de correlación se utiliza para mostrar todos

los coeficientes de correlación simples posibles entre las

variables.

La matriz es útil para localizar variables independientes

correlacionadas.

Muestra qué tan fuerte es la correlación de cada

variable independiente con la variable dependiente.

10

Prueba global

La prueba global se utiliza para investigar si

cualquiera de las variables independientes tienen

coeficientes significativos. Las hipótesis son:

H0 : β1 = β2 = … = βk = 0

H1 : no todas las βs iguales a cero

11

Prueba global (Continuación)

El estadístico de prueba es la distribución F con k

(número de variables independientes) y n-(k+1) grados

de libertad, donde n es el tamaño de muestra.

12

Prueba para variables individuales

Esta prueba se utiliza para determinar qué variables

independientes tienen coeficientes distintos a cero en la

regresión.

Las variables que tienen coeficientes cero en la

regresión se eliminan del análisis.

El estadístico de prueba es la distribución t con n-(k+1)

grados de libertad.

13

Ejemplo 1

Un investigador de mercado que trabaja para el Súper

Siete está estudiando el gasto anual que las familias de

cuatro o más destinan a alimentos. Tres variables

independientes se consideran para ser relacionadas con

los gastos anuales del alimento (alimento). Esas

variables son: renta total de la familia (renta) en $00,

tamaño de la familia (tamaño), y si la familia tiene niños

en la universidad (universidad).

14

Ejemplo 1 (Continuación)

Observe lo siguiente con respecto a la ecuación de regresión.

La variable universidad se llama una variable ficticia o de indicador. Puede tomar solamente uno de dos resultados posibles. Eso es un niño es un estudiante de universidad o no.

Otros ejemplos de variables simuladas (ficticia) incluyen género, la pieza es aceptable o inaceptable, el votante votará o no votará por el gobernador.

Codificamos generalmente un valor de la variable simulada como “1” y el otro “0”.

15

Familia Alimento Ingreso Tamaño Estudiante

1 3900 376 4 0

2 5300 515 5 1

3 4300 516 4 0

4 4900 468 5 0

5 6400 538 6 1

6 7300 626 7 1

7 4900 543 5 0

8 5300 437 4 0

9 6100 608 5 1

10 6400 513 6 1

11 7400 493 6 1

12 5800 563 5 0

Ejemplo 1 (Continuación)

16

Utilice un paquete de software, tal como MINITAB o

Excel, para desarrollar una matriz de correlación.

Del análisis proporcionado por MINITAB, tenemos la

ecuación de regresión:

Y’ = 954 +1.09X1 + 748X2 + 565X3

¿Qué gasto en alimento usted estimaría para una familia

de 4, sin estudiantes de universidad, y una renta de

$50.000 (que se introduce como 500)?

Ejemplo 1 (Continuación)

17

The regression equation is

Food = 954 + 1.09 Income + 748 Size + 565 Student

Predictor Coef SE Coef T P

Constant 954 1581 0.60 0.563

Income 1.092 3.153 0.35 0.738

Size 748.4 303.0 2.47 0.039

Student 564.5 495.1 1.14 0.287

S = 572.7 R-Sq = 80.4% R-Sq(adj) = 73.1%

Analysis of Variance

Source DF SS MS F P

Regression 3 10762903 3587634 10.94 0.003

Residual Error 8 2623764 327970

Total 11 13386667

Ejemplo 1 (Continuación)

18

De la regresión de salida observamos:

El coeficiente de determinación es 80.4%. Esto significa que más de 80% de la variación en la cantidad gastada en alimento está considerado por las variables renta, tamaño de familia y estudiante.

Cada $100 dólares adicionales de renta por año aumentarán la cantidad gastada en alimento en $109 por año.

Un miembro adicional de la familia aumentará la cantidad gastada por año en alimento en $748.

Una familia con un estudiante de universidad gastará $565 más por año en alimento que las familias sin un estudiante de universidad.

Ejemplo 1 (Continuación)

19

La matriz de correlación es como sigue:

Alimento Ingreso Tamaño

Ingreso 0.587

Tamaño 0.876 0.609

Estudiante 0.773 0.491 0.743

La correlación más fuerte entre la variable dependiente y una variable independiente está entre el tamaño de la familia y la cantidad gastada en alimento.

Ningunas de las correlaciones entre las variables independientes deben causar problemas. Todas están entre -.70 y 70.

Ejemplo 1 (Continuación)

20

El gasto estimado en alimento para una familia de 4 con

una renta $500 (que es $50.000) y ningún estudiante de

universidad es $4.491.

Y’ = 954 + 1.09(500) + 748(4) + 565 (0)

= 4491

Ejemplo 1 (Continuación)

21

Realice una prueba global de hipótesis para determinar

si cualquiera de los coeficientes de regresión no son

cero.

• H0 es rechazada si F >4.07.

• De la salida de MINITAB, el valor calculado de F es

10.94.

• Decisión: H0 es rechazada. No todos los coeficientes

de regresión son cero

H0 : β1 = β2 = … = β3 = 0

H1 : no todas las βs iguales a cero

Ejemplo 1 (Continuación)

22

Realice una prueba individual para determinar qué coeficientes no son cero. Esta es la hipótesis para la variable independiente tamaño de familia.

De la salida de MINITAB, la única variable significativa es FAMILIA (tamaño de la familia) que usa los valores-p. Las otras variables se pueden omitir del modelo.

Así, usando el nivel del 5% de significación, rechazo H0 si el valor p< .05.

H H0 2 1 20 0: :

Ejemplo 1 (Continuación)

23

Volvemos a efectuar el análisis usando solamente el

tamaño de familia como variable independiente .

La nueva ecuación de la regresión es:

Y’ = 340 + 1031X2

El coeficiente de determinación es 76.8%. Eliminamos

dos variables independientes, y el término de R-cuadrado

fue reducido por solamente 3.6%.

Ejemplo 1 (Continuación)

24

Análisis de regresión: alimento contra tamaño

La ecuación de la regresión es

Food = 340 + 1031 Size

Predictor Coef SE Coef T P

Constant 339.7 940.7 0.36 0.726

Size 1031.0 179.4 5.75 0.000

S = 557.7 R-Sq = 76.8% R-Sq(adj) = 74.4%

Analysis of Variance

Source DF SS MS F P

Regression 1 10275977 10275977 33.03 0.000

Residual Error 10 3110690 311069

Total 11 13386667

Ejemplo 1 (Continuación)

25

Análisis de residuales

Una residual es la diferencia entre el valor real de Y y el

valor predicho Y'.

Las residuales deben ser normalmente distribuidas. Los

histogramas y los diagramas de árbol y hojas son útiles

en la comprobación de este requisito.

Un diagrama de residuales y valores de su

correspondiente Y' se utiliza para demostrar que no hay

tendencias o patrones en las residuales.

26

Diagrama residual

1000

500

0

-500

4500 6000

Y’

7500

Resid

uale

s

27

Histogramas de residuales

-600 -200 200 600 1000

8

7

6

5

4

3

2

1

0

Fre

cuencia

Residuales