modelo de regresión simple: y = 1 + 2 x + u 1 hemos visto que los coeficientes de regresión b 1...

Modelo de regresión simple: Y = 1 + 2X + u

1

Hemos visto que los coeficientes de regresión b1y b2 son variables aleatorias. Estos, respectivamente, proveen estimados de 1 y 2. En la última presentación demostramos que estos estimadores son insesgados.

PRECISIÓN DE LOS COEFICIENTES DE REGRESIÓN

probability densityfunction of b2

2 b2


En esta secuencia veremos que también podemos obtener estimaciones de las desviaciones estándar de las distribuciones. Lo que nos dará una cierta idea de su probable confiabilidad y proporcionará una base para las pruebas de hipótesis.

2

probability densityfunction of b2

2

standard deviation of density function of b2

b2



Las expresiones (que no serán derivadas) de la varianza de sus distribuciones se muestran arriba. Vea el Diagrama 2.3 en el texto para una prueba de la expresión de la varianza de b2.

3

2

222 1

1 XX

Xn

i

ub

)(MSD

2

2

22

2 XnXXu

i

ub



Nos centraremos en las implicaciones de la expresión de la varianza de b2. Viendo el numerador, vemos que la varianza de b2 es proporcional a u

2, como era de esperarse: cuanto más “ruido” hay en el modelo, menos precisión tendrán nuestras estimaciones.

4

2

222 1

1 XX

Xn

i

ub

)(MSD

2

2

22

2 XnXXu

i

ub



Esto es ilustrado por el diagrama de arriba. El componente no-estocástico de la relación,Y = 3.0 + 0.8X, representado con una línea punteada, es el mismo en ambos diagramas.

5

-15

-10

-5

0

5

10

15

20

25

30

35

0 5 10 15 20

-15

-10

-5

0

5

10

15

20

25

30

35

0 5 10 15 20

Y Y

X X

Y = 3.0 + 0.8X



Los valores de X son los mismos y se han utilizado los mismos números aleatorios para generar los valores del término de error en las 20 observaciones.

6

-15

-10

-5

0

5

10

15

20

25

30

35

0 5 10 15 20

-15

-10

-5

0

5

10

15

20

25

30

35

0 5 10 15 20

Y Y

X X

Y = 3.0 + 0.8X



Sin embargo, en el diagrama de la derecha los números aleatorios fueron multiplicados por un factor de 5. Como resultado, la línea de regresión (la línea negra) es una aproximación menos exacta a la relación no-estocástica.

7

-15

-10

-5

0

5

10

15

20

25

30

35

0 5 10 15 20

-15

-10

-5

0

5

10

15

20

25

30

35

0 5 10 15 20

Y Y

X X

Y = 3.0 + 0.8X



Analizando el denominador de la expresión, mientras más grande sea la suma del cuadrado de las desviaciones de X, menor será la variación de b2.

8

2

222 1

1 XX

Xn

i

ub

)(MSD

2

2

22

2 XnXXu

i

ub



Sin embargo, la magnitud de esta sumatoria de las desviaciones al cuadrado depende de dos factores: el número de observaciones, por un lado, y del tamaño de las desviaciones de X respecto a su media muestral, por otro. Para diferenciar estos dos efectos es importante definir la media del cuadro de las desviaciones, MSD(X). 9

2

222 1

1 XX

Xn

i

ub

)(MSD

2

2

22

2 XnXXu

i

ub

21)(MSD XXn

X i



Como puede observarse, la varianza de b2 es inversamente proporcional a n (el número de observaciones), manteniendo MSD(X) constante: entre más información haya en la muestra, mayor precisión tendrán los estimadores.

10

2

222 1

1 XX

Xn

i

ub

)(MSD

2

2

22

2 XnXXu

i

ub

21)(MSD XXn

X i



11

2

222 1

1 XX

Xn

i

ub

)(MSD

2

2

22

2 XnXXu

i

ub

21)(MSD XXn

X i

Una tercera implicación de esta expresión es que la varianza es inversamente proporcional a la media del cuadrado de las desviaciones de X. ¿Cuál es la razón de esto?



En el diagrama de arriba, el componente no-estocástico de la relación es el mismo y los mismos números aleatorios fueron utilizados para los 20 valores del término de error.

12

-15

-10

-5

0

5

10

15

20

25

30

35

0 5 10 15 20

-15

-10

-5

0

5

10

15

20

25

30

35

0 5 10 15 20

Y Y

X X

Y = 3.0 + 0.8X



No obstante, la MSD(X) es mucho menor en el digrama de la derecha porque los valores de X están más concentrados entre sí.

13

-15

-10

-5

0

5

10

15

20

25

30

35

0 5 10 15 20

-15

-10

-5

0

5

10

15

20

25

30

35

0 5 10 15 20

Y Y

X X

Y = 3.0 + 0.8X



Por lo que en el diagrama, la posición de la línea de regresión es más sensible a lo valores del término de error y, como consecuencia, la línea de regresión será relativamente inexacta.

14

-15

-10

-5

0

5

10

15

20

25

30

35

0 5 10 15 20

-15

-10

-5

0

5

10

15

20

25

30

35

0 5 10 15 20

Y Y

X X

Y = 3.0 + 0.8X


Modelo de regresión simple : Y = 1 + 2X + u

Por supuesto, como puede verse en las expresiones de la varianza de los coeficientes b, la razón del MSD(X) con respecto a la varianza de u es más importante que el valor absoluto de cualquiera de las dos.

15

2

222 1

1 XX

Xn

i

ub )(MSD

2

2

22

2 XnXXu

i

ub



16

2

222 1

1 XX

Xn

i

ub )(MSD

2

2

22

2 XnXXu

i

ub

La varianza no puede ser calculada exactamente dado que no conocemos la varianza del término de error. Sin embargo, podemos derivar un estimador de u

2 de los residuales.


17

2

222 1

1 XX

Xn

i

ub )(MSD

2

2

22

2 XnXXu

i

ub

La dispersión de los residuales alrededor de la línea de regresión reflejará claramente la dispersión no vista de u sobre la línea Yi = 1 + b2Xi, aunque en general el residual y el valor del término de error no son iguales uno a otro en ninguna observación.


18

2

222 1

1 XX

Xn

i

ub )(MSD

2

2

22

2 XnXXu

i

ub

22 11)(MSD ii e

nee

ne

Una medida de la dispersión de los residuales es el “error cuadrado medio”, MSD(e), descrito arriba (recuerde que la media de los residuales de OLS es igual a cero). Intuitivamente, el MSD nos da una idea de la varianza de u.


19

2

222 1

1 XX

Xn

i

ub )(MSD

2

2

22

2 XnXXu

i

ub

22 11)(MSD ii e

nee

ne

Antes de ir más lejos, debemos preguntarnos: ¿Qué línea es más propable que este cerca de los puntos que representan las observacioens muestrales de X y Y, la línea real Y = 1 + 2X o la línea de regresión estimada Y = b1 + b2X?

^


20

2

222 1

1 XX

Xn

i

ub )(MSD

2

2

22

2 XnXXu

i

ub

22 11)(MSD ii e

nee

ne

La respuesta es la línea de regresión, que por definición se traza para minimizar la suma del cuadrado de las distancias entre ella y las observaciones.


21

2

222 1

1 XX

Xn

i

ub )(MSD

2

2

22

2 XnXXu

i

ub

22 11)(MSD ii e

nee

ne

Por lo tanto, la dispersión de los residuales tenderá a ser más pequeña que la dispersión de los valores de u, y el MSD(e) tenderá a subestimar u

2.


22

2

222 1

1 XX

Xn

i

ub )(MSD

2

2

22

2 XnXXu

i

ub

22 11)(MSD ii e

nee

ne

De hecho, puede mostrarse que el valor esperado de MSD(e), cuando sólo hay una variable explicativa, está determinada por la expresión de arriba.

22)(MSD un

neE


23

2

222 1

1 XX

Xn

i

ub )(MSD

2

2

22

2 XnXXu

i

ub

222

211

2)(MSD

2 iiu en

enn

ne

nn

s

Sin embargo, se sigue que podemos obtener un estimador no sesgado de u2 al multiplicar

MSD(e) por n / (n – 2). Lo que denominaremos su2.


24

2

222 1

1 XX

Xn

i

ub )(MSD

2

2

22

2 XnXXu

i

ub

222

211

2)(MSD

2 iiu en

enn

ne

nn

s

2

2

2 )(s.e.XX

sb

i

u

2

2

1

1)(s.e.

XX

Xn

sbi

u

Podemos entonces obtener una estimación de la desviación estándar de la distribución de b1 y b2 al sustituir su

2 por u2 en las expresiones de las varianzas y sacarles raíz cuadrada.


25

2

222 1

1 XX

Xn

i

ub )(MSD

2

2

22

2 XnXXu

i

ub

222

211

2)(MSD

2 iiu en

enn

ne

nn

s

2

2

2 )(s.e.XX

sb

i

u

A estos estimadores se les conoce comúnmente como los “errores estándar” de b1 y b2, pues llamarlos ‘estimadores muestrales de la desviación estándar’ suena algo enredoso.

2

2

1

1)(s.e.

XX

Xn

sbi

u

26

Los errores estándar de los coeficientes aparecen siempre con los resultados de una regresión. Aquí está la regresión de ganancias por hora explicada por años de educación vista previamente. Los errores estándar aparecen a la derecha de los coeficientes b.

. reg EARNINGS S

Source | SS df MS Number of obs = 540-------------+------------------------------ F( 1, 538) = 112.15 Model | 19321.5589 1 19321.5589 Prob > F = 0.0000 Residual | 92688.6722 538 172.283777 R-squared = 0.1725-------------+------------------------------ Adj R-squared = 0.1710 Total | 112010.231 539 207.811189 Root MSE = 13.126

------------------------------------------------------------------------------ EARNINGS | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- S | 2.455321 .2318512 10.59 0.000 1.999876 2.910765 _cons | -13.93347 3.219851 -4.33 0.000 -20.25849 -7.608444------------------------------------------------------------------------------


Eficiencia

El teorema Gauss–Markov afirma que, si los supuestos del modelo de regresión son válidos, los estimadores OLS son los estimadores no sesgados de los parámetros más eficientes: BLUE: best (most efficient) linear (functions of the values of Y) unbiased estimators of the parameters. 27

Densidad de probabilidad en función de b2

OLS

Otro estimador no sesgado

2 b2


Efficiency

Densidad de probabilidad en función de b2

OLS

Otro estimador no sesgado

2

28

La prueba del teorema no es difícil, pero no es prioritaria y lo tomaremos como dado. Vea la sección 2.7 del texto para una prueba para el modelo de regresión simple.

b2

Copyright Christopher Dougherty 1999–2006. This slideshow may be freely copied for personal use.

21.06.06

modelo de regresión simple: y = 1 + 2 x + u 1 hemos visto que los coeficientes de regresión b 1...

Documents

coeficientes de regresinmodelo

modelo de regresin simple

b1 b2x uen

b1 b2x uesto

b1 b2x u11una

b1 b2x ucomo

lnea de regresin

b1 b2x usin embargo