clase4-regresion k variables

8/18/2019 Clase4-Regresion k Variables

1/34

Modelo de Regresión con k variablesPropiedades del estimador MCO

Bondad de Ajuste y Análisis de VarianzaEjemplo

Clases 4

Econometŕıa I

Javiera Vásquez

Javiera Vásquez Clases 4 Econometŕıa I


2/34



Contenidos

1 Modelo de Regresíon con k variablesRepresentación Matricial del Modelo de Regresión LinealEstimador Ḿınimo Cuadrados Ordinarios

2 Propiedades del estimador MCO

Propiedad BLUE o MELITeorema de Gauss-Markov

3 Bondad de Ajuste y Análisis de VarianzaModelo de Regresión Lineal en Desv́ıos

Análisis de VarianzaBondad de Ajuste: R 2 y R̃ 2

4 EjemploModelo de Capital Humano: ecuación de MincerEstimación de ecuación de Mincer en STATA



3/34



Modelo de Regresión con k variables

Ahora abandonemos la simplificación de solo usar dos variables, deahora en adelante generalizaremos el modelo de regresión linealpara que pueda tener hasta k variables explicativas.

Aclaración: haremos un pequeño cambio de notación, cadaobservación i de la variable dependiente será denotada por y i ycada observación i de una variable explicativa, por ejemplo X 1,será denotada por x 1i . Ahora las variables en minúscula no significaque están en desv́ıos.

El Modelo de Regresión Poblacional en este caso es:

y i = β 1 + β 2x 2i + ... + β k x ki + u i i = 1, ..., n



4/34




El modelo con k variables explicativas puede ser expresado ennotación matricial. En efecto, cada variable explicativa x j , con j=1,..., k, es un vector columna de dimensión n, al igual que la

variable dependiente y el término de error. De este modo, elmodelo puede ser reescrito de la siguiente forma:

y 1y 2

...y n

=

11

...1

β 1 +

x 21x 22

...x 2n

β 2 + .. +

x k 1x k 2

...x kn

β k +

u 1u 2

...u n


M d l d R i´ k i bl


5/34




Donde las variables explicativas se pueden agrupar en una solamatriz de dimensión n×k, que denotaremos simplemente como X,de esta manera el modelo se expresa de la siguiente forma:

y 1y 2

...y n

=

1 x 21 x 31 · · · x k 11 x 22 x 32 · · · x k 2...

... ...

. . . ...

1 x 2n x 3n · · · x kn

·

β 1β 2

...β k

+

u 1u 2

...u n

⇒ Y = X β + u

donde Y es un vector de dimensión n×1, X es la matriz devariables explicativas de dimensión n×k y u es un vectorcorrespondiente al término de error con dimensión n×1.


M d l d R i´ k i bl


6/34

Modelo de Regresion con k variablesPropiedades del estimador MCO



Ahora debemos expresar la distribución del término de error entérminos matriciales:

E (u ) =

E (u 1)E (u 2)

..

.E (u n)

= 0

n×1

E (uu ) =

E (u 21 ) E (u 1u 2) · · · E (u 1u n)E (u 2u 1) E (u

22 ) · · · E (u 2u n)

......

. . ....

E (u nu 1) E (u nu 2) · · ·

E (u 2

n)

=

σ2 0 · · · 00 σ2 · · · 0...

.... . .

...0 0 · · · σ2

= σ

2I

n×n




7/34




De los supuestos 3, 4 y 5, tenemos entonces que el término deerror tiene la siguiente distribución:

u ∼

0n×1

, σ2 I n×n

(1)

El método de MCO, plantea que los parámetros del modelopueden ser estimados minimizando la suma de los errores alcuadrado (S E (β̂ )), la que en términos matriciales equivale a:

S E (β̂ ) =n

i =1

û 2i = û û

donde û = Y − X β̂ . Entonces el problema de minimizar la suma de

los errores al cuadrado se expresa de la siguiente forma:Javiera Vásquez Clases 4 Econometŕıa I



8/34




ḿınβ̂

S E (β̂ ) = ḿınβ̂

(Y − X β̂ )(Y − X β̂ )

= ḿın

β̂ Y Y − 2β̂ X Y + β̂ X X β̂

∂ S E (β̂ )

∂ β̂ = −2X Y + 2X X β̂ = 0

⇒ β̂ = (X

X )−1

X

Y (2)

De (10) tenemos:

X (Y − X β̂ ) = 0 ⇒ X û = 0 (3)

y esta es la condición de ortogonalidad.Javiera Vásquez Clases 4 Econometŕıa I



9/34




De esta forma, el vector de parámetros estimados β̂ se obtiene deresolver el siguiente sistema de ecuaciones normales:

X X β̂ = X Y ⇔

1 1 1 · · · 1

x 2,1 x 2,2 · · · x 2,n...

... ...

. . . ...

x k ,1 x k ,2 · · · x k ,n

1 x 2,1 x 3,1 · · · x k ,11 x 2,2 x 3,2 · · · x k ,2...

... ...

. . . ...

1 x 2,n x 3,n · · · x k ,n

β̂ 1β̂ 2...

β̂ k

=

1 1 1 · · · 1

x 2,1 x 2,2 · · · x 2,n...

... ...

. . . ...

x k ,1 x k ,2 · · · x k ,n

y 1y 2...

y n




10/34




⇔

nn

i =1 x 2,i · · · n

i =1 x k ,i

ni =1 x 2,i

ni =1 x

22,i · · ·

ni =1 x 2,i x k ,i

ni =1 x 3,i ni =1 x 3,i x 2,i · · · ni =1 x 3,i x k ,i ... ... ... . . . ...ni =1 x k ,i

ni =1 x k ,i x 2,i · · ·

ni =1 x

2k ,i

β̂ 1β̂ 2ˆβ 3...

β̂ k

=

ni =1 y i

ni =1 y i x 2,i ni =1 y i x 3,i

...ni =1 y i x k ,i




11/34

gPropiedades del estimador MCO



Es importante recordar que el estimador MCO esta definido solocuando la matriz (X’X) es invertible, lo que ocurre siempre ycuando:

1 Las k columnas de la matriz X sean linealmente

independientes.2 Se disponga al menos de tantas observaciones como variables

explicativas, es decir: n≥ k .(Supuesto 7)

Pongamos atención en el segundo supuesto, cuando n=k la matriz

X tiene dimensión k×k, por lo tanto salvo que no se cumpla elsupuesto 8, X es invertible, y de esta forma (X X )−1 = X −1(X )−1

y por lo tanto:

β̂ = (X X )−1X Y = X −1(X )−1X Y = X −1Y (4)




12/34




el vector de residuosû = Y − X β̂ = Y − X (X −1Y ) = Y − Y = 0n, de esta forma elajuste es perfecto, ya que todos los residuos son cero, la sumaresidual de igual forma toma el ḿınimo valor posible, cero.

Sin embargo, esta no es una caracteŕıstica deseable, el ajusteperfecto ocurre porque tenemos una muestra muy reducida. Estotrae como consecuencia poco robustez e imprecisión en lasestimaciones. ¿Qué pasa con σ̃2?

Necesitamos tener un número de observaciones notablementesuperior al de las variables explicativas. La diferencia n-k se conocecomo el número de grados de libertad de la estimación.




13/34




Propiedades del estimador MCO

Notemos que el vector β̂ es un vector aleatorio, ya que depende delvector de errores:

β̂ = (X X )−1X Y = (X X )−1X (X β + u ) = β + (X X )−1X u

E (β̂ ) = E (β ) + E [(X X )−1X u ]

= β + (X X )−1X E (u )


Modelo de Regresión con k variablesP i d d d l i d MCO P i d d BLUE MELI


14/34

Propiedades del estimador MCOBondad de Ajuste y Análisis de Varianza

Ejemplo



La esperanza de β es el mismo par‡metro, ya que este es unconstante (valor poblacional), y por supuestos 2 y 3 el segundotérmino de la expresión anterior es cero,

⇒ E (β̂ ) = β (5)

Es decir, el estimador MCO es insesgado, tal como lo hab́ıamosmostrado anteriormente.

Luego, podemos definir el error de estimaci´ on como:

β̂ − β = (X X )−1X u


Modelo de Regresión con k variablesP i d d d l ti d MCO P i d d BLUE MELI


15/34


Ejemplo



Ahora calculemos la varianza de β̂ : Necesitamos obtener lavarianza de un vector, para eso necesitamos la esperanza de lasiguiente forma cuadrática

var (β̂ ) = E [(β̂ − E (β̂ )) · (β̂ − E (β̂ ))

]= E [(β̂ − β ) · (β̂ − β )]

= E [(X X )−1X uu X (X X )−1]

= (X X )−1X E (uu )X (X X )−1

= (X X )−1X (σ2I n)X (X X )−1

= σ2(X X )−1 (6)

Para poder estimar la varianza de β̂ necesitamos reemplazar σ2 en(5) por su estimador insesgado:

σ2 = u u Javiera Vásquez Clases 4 Econometŕıa I

Modelo de Regresión con k variablesPropiedades del estimador MCO Propiedad BLUE o MELI


16/34


Ejemplo


Propiedad BLUE

Se dice que β̂ , es el mejor estimador lineal insesgado (MELI oBLUE) de β si se cumple lo siguiente:

1 El lineal, es decir, es una función lineal de una variablealeatoria, como la variable y en el modelo de regresión.

2 Es insesgado, es decir, su valor esperado, E (β̂ ), es igual a elverdadero valor, β .

3 Tiene varianza ḿınima dentro de la clase de todos losestimadores lineales insesgados; un estimador insesgado comovarianza ḿınima es conocido como un estimador eficiente.




17/34


Ejemplo


Gauss-Markov

Proposición: El estimador MCO es el estimador lineal insesgadoóptimo, en el sentido de que cualquier otro estimador lineal einsesgado tiene una matriz de covarianza mayor que la delestimador MCO. Es decir, el estimador MCO es MELI (BLUE).

Demostración: Sea β = Ay un estimador lineal de β , donde A esuna matriz k×n. Denotemos A = A − (X X )−1X , de modo que:

β = [A + (X X )−1X ]Y

= [A + (X X )−1X ](X β + u )

= AX β + β + [A + (X X )−1X ]u

Aplicando esperanza a la expresión anterior:




18/34


Ejemplo


Gauss-Markov

E (β ) = AX β + β + [A + (X X )−1X ]E (u )= AX β + β

El estimador β será insesgado solo si la matriz A es tal queAX=0k ×k . De esta forma:β = β + [A + (X X )−1X ]u y su matriz de covarianza será:

cov (β ) = E [(β − β )(β − β )]= E {([A + (X X )−1X ]u )([A + (X X )−1X ]u )}

= σ2AA + σ2(X X )−1

cov (β̂ )Javiera Vásquez Clases 4 Econometŕıa I



19/34


Ejemplo


Gauss-Markov

Como la matriz AA

es semidefinida positiva, se concluye ladiferencia entre la covarianza de β y β̂ es una matriz semidefinidapositiva, con lo que la covarianza de β es mayor o igual a lacovarianza de β̂



Modelo de Regresión Lineal en Desvı́osA ´li i d V i


20/34

p COBondad de Ajuste y Análisis de Varianza

Ejemplo

Análisis de VarianzaBondad de Ajuste: R 2 y R̃ 2

Modelo de Regresión Lineal en Desv́ıos

Sea el modelo poblacional usual con k variables:

y i = β 1 + β 2x 2i + β 3x 3i + · · · + β k x ki + u i (7)

donde i = 1 . . . n y cuya contraparte estimada es:

y i = β̂ 1 + β̂ 2x 2i + β̂ 3x 3i + · · · + β̂ k x ki + û i (8)

Luego, si sumamos para todas las observaciones y dividimos aambos lados por el tamaño muestral n, tenemos:

Ȳ = β̂ 1 + β̂ 2x̄ 2 + β̂ 3x̄ 3 + · · · + β̂ k x̄ k (9)

por lo cual:

β̂ 1 = Ȳ − β̂ 2x̄ 2 + β̂ 3x̄ 3 + · · · + β̂ k x̄ k (10)



Modelo de Regresión Lineal en Desvı́osAnálisis de Varianza


21/34

pBondad de Ajuste y Análisis de Varianza

Ejemplo

Analisis de VarianzaBondad de Ajuste: R 2 y R̃ 2


La ecuación (11) muestra que la constante de una regresión quedadeterminado por el resto de los k-1 coeficientes involucrados.Finalmente, note que restando las ecuaciones (9) y (10)

obtenemos:

y i − Ȳ = β̂ 2(x 2i − x̄ 2) + β̂ 3(x 3i − x̄ 3) + · · · + β̂ k (x ki − x̄ k ) + û i

la cual es una expresión similar a (9), excepto por dos importantes

diferencias. Primero, el modelo no posee constante y segundo, lasvariables se encuentran expresadas en desv́ıos con respecto a lamedia. A pesar de ello, note que los coeficientes y los residuos sonlos mismos en ambos modelos.





22/34




Sea i un vector de unos de 1 × n y M 0 una matriz de n × n,definida como:

M 0 = I n×n

− ii

n =

1 0 · · · 00 1 · · · 0...

... . . .

...0 0 · · · 1

− 1n

1 1 · · · 11 1 · · · 1...

... . . .

...1 1 · · · 1

=

1 − 1

n

− 1

n

· · · − 1

n− 1n

1 − 1n

· · · − 1n

... ...

. . . ...

− 1n

− 1n

· · · 1 − 1n





23/34




Dicha matriz es singular, simétrica (M 0’=M 0) e idempotente(M 0M 0=M 0). En general, M 0 es conocida como matriz de desv́ıos , ya que resta a cada columna de la matriz involucrada, su

media aritmética. Por ejemplo, es fácil comprobar que:

M 0Y = Y − 1

nii Y =

y 1y 2...y n

−

1

n

ni =1 y i ni =1 y i

..

.ni =1 y i

=

y 1 − Ȳ y 2 − Ȳ

..

.y n − Ȳ



B d d d Aj A ´li i d V i



24/34




Por lo tanto, nuestro modelo expresado en matrices, puede serexpresado en términos de desv́ıo con respecto a la media como:

M 0Y = M 0X β + M 0u (11)



B d d d Aj t A ´li i d V i



25/34

Bondad de Ajuste y Analisis de VarianzaEjemplo

Bondad de Ajuste: R 2 y R̃ 2

Análisis de Varianza

Suponga entonces el siguiente modelo poblacional:

Y = X β + u

Buscamos entonces definir la variación de la variable dependiente

(Suma de los cuadrados totales = TSS) como:

TSS =n

i =1

(Y i − Ȳ )2 (12)

Para encontrar entonces una expresión para (13), de la ecuación(12) tenemos que nuestro modelo estimado en desv́ıos conrespecto a la media es:

M 0Y = M 0X β̂ + M 0û



Bondad de Ajuste y Análisis de Varianza


2 ˜ 2


26/34



Análisis de Varianza

con lo cual, al particionar nuestra matriz X en X = [i X 2],nuestro vector de parámetros en β = [β 1 β 2] y considerando queM 0i = 0 y que M 0û = û , tenemos que:

M 0Y = M 0i β̂ 1 + M 0X 2β̂ 2 + M

0û

= M 0X 2β̂ 2 + û (13)

Luego, para formar la TSS de la ecuación (13), multiplicamos porY’ la ecuación (14):

Y M 0Y = Y (M 0X 2β̂ 2 + û )

= (X β̂ + û )(M 0X 2β̂ 2 + û )

= β̂ X M 0X 2β̂ 2 + β̂ X û + û M 0X 2β̂ 2 + û

û

Y M 0Y = β̂ 2X

2M 0X 2β̂ 2 + û

û (14)

TSS = ESS + RSS (15)





2 ˜ 2


27/34




Definimos entonces la bondad de ajuste del modelo a través delsiguiente estad́ıgrafo llamado también coeficiente de determinación:

R 2 = ESS TSS (16)

es decir, como la proporción de la varianza de Y que es explicadapor la varianza de la regresión. Alternativamente:

R 2 = 1 − RSS TSS

(17)




Modelo de Regresión Lineal en Desvı́osAnálisis de VarianzaB d d d A R2 R̃2


28/34


Bondad de Ajuste: R 2 y R 2


Note que:

1 El coeficiente de determinación es siempre menor a 1. Elloporque RSS ≤ TSS y por lo tanto RSS

TSS ≤ 1.

2 El análisis de varianza anterior fue derivado bajo el supuestoque el modelo inclúıa una constante (por ello utilizábamos lamatriz M 0). En dicho caso, necesariamente R 2 ≥ 0. En casode que el modelo no incluya una constante, se debe utilizar lafórmula (17) utilizando TSS=Y’Y (sin desv́ıos).

3 Al agregar regresores al modelo, el R 2 nunca decrecerá (semantendrá constante o aumentará)

4 No es claro cuan bueno sea como predictor de ajuste.




Modelo de Regresión Lineal en Desvı́osAnálisis de VarianzaB d d d Aj R2 R̃2


29/34


Bondad de Ajuste: R 2 y R 2


¿Por qué sucede esto?, ya que al incluir regresores, la suma de losresiduos necesariamente decrece (o en el mejor de los casos semantiene), mientras que la suma de los cuadrados totales

permanece constante. Por esta razón se creo que coeficiente dedeterminación ajustado el que corrige el R 2 original por los gradosde libertad del numerador y denominador. Entonces, definimos

R 2-ajustado (R 2

) como:

R 2 = 1 − û

û /(n − k )Y M 0Y /(n − 1)



Bondad de Ajuste y Análisis de VarianzaModelo de Capital Humano: ecuación de MincerEstimación de ecuación de Mincer en STATA


30/34

j yEjemplo

Ejemplo: Capital Humano

La teoŕıa de capital humano predice que los individuos con mayorcapital humano serán más productivos, con lo cual recibiránmayores ingresos. En los años 60, Jacob Mincer derivó la siguiente

ecuación:

log (ingreso ) = β 0 + β 1esc + β 2exp + β 3exp 2 + u (18)

donde esc es la escolaridad de la persona medida en años y exp esla experiencia laboral de la persona. Esta es una de las ecuacionesmás estimadas en la literatura emṕırica.



Bondad de Ajuste y Análisis de VarianzaModelo de Capital Humano: ecuación de MincerEstimación de ecuación de Mincer en STATA


31/34

j yEjemplo

Ejemplo: Capital Humano

Estimaremos esta ecuación de Mincer utilizando los datos de laEncuesta de Protección Social (2004), que hasta el momento es laúnico encuesta de representatividad nacional que permite construirexperiencia laboral efectiva (desde 1980) a través de módulo dehistoria laboral. Las encuesta que no tienen este tipo deinformación (por ejemplo la Encuesta CASEN) deben aproximarexperiencia a través de:

exp = edad − escolaridad − 6

lo que se conoce como experiencia potencial. Se puede utilizarsimplemente la edad de la persona.


Modelo de Regresión con k variablesPropiedades del estimador MCOBondad de Ajuste y Análisis de Varianza

Modelo de Capital Humano: ecuación de MincerEstimación de ecuación de Mincer en STATA


32/34

Ejemplo

Estimación en STATA



Ej l



33/34

Ejemplo

Relación predicha entre lyph y esc

Dado un nivel de experiencia se puede graficar la relación entreescolaridad y logaritmo del salario por hora predicho por el modelo

5 . 5

6

6 . 5

7

7 . 5

p_

e x p_

5

0 5 10 15 20

esc04



Ej l



34/34

Ejemplo

Relación predicha entre lyph y experiencia

Dado un nivel de educación (10 años) se puede graficar la relaciónentre experiencia y logaritmo del salario por hora predicho por elmodelo

6 . 4

6 . 5

6 . 6

6 . 7

p_

e s c_

1 0

0 5 10 15 20 25exp


clase4-regresion k variables

Documents