estimaci¶on de la regresi¶on - usceio.usc.es/eipc1/base/basemaster/formularios-php/... · ajuste...

47
Estimaci´ondelaregresi´on Alberto Rodr´ ıguez Casal 13 de mayo de 2009

Upload: others

Post on 06-Mar-2020

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Estimaci¶on de la regresi¶on - USCeio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/... · Ajuste polin¶omico local Splines Estudio de la dependencia entre dos variables: Ejemplo

Estimacion de la regresion

Alberto Rodrıguez Casal

13 de mayo de 2009

Page 2: Estimaci¶on de la regresi¶on - USCeio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/... · Ajuste polin¶omico local Splines Estudio de la dependencia entre dos variables: Ejemplo

Estimacion tipo nucleoAjuste polinomico local

Splines

Estudio de la dependencia entre dos variables

En muchas situaciones interesa analizar la relacion existente entredos variables, X e Y . El analisis de regresion estudia de que formaY (la variable dependiente) se puede explicar a partir de X . Si Ydepende de X entonces

Y = m(X ),

donde m es una funcion. En muchos casos no existe ninguna teorıaque diga como debe de ser m. El analisis de la informacion empıricadisponible nos deberıa de proporcionar informacion sobre m.

Alberto Rodrıguez Casal Estimacion de la regresion

Page 3: Estimaci¶on de la regresi¶on - USCeio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/... · Ajuste polin¶omico local Splines Estudio de la dependencia entre dos variables: Ejemplo

Estimacion tipo nucleoAjuste polinomico local

Splines

Estudio de la dependencia entre dos variables: Ejemplo (I)

Consideremos el siguiente ejemplo. Sea Y el gasto en patatas y Xlos ingresos netos de una familia. Nos interesa saber cuanto es elgasto en patatas dado un nivel de ingresos. ¿Como es la funcion mque relaciona los ingresos X con el gasto Y ? En teorıa economicase dice que un producto es inferior si el nivel de gasto tiende adisminuir a partir de un cierto nivel de ingresos.

Alberto Rodrıguez Casal Estimacion de la regresion

Page 4: Estimaci¶on de la regresi¶on - USCeio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/... · Ajuste polin¶omico local Splines Estudio de la dependencia entre dos variables: Ejemplo

Estimacion tipo nucleoAjuste polinomico local

Splines

Estudio de la dependencia entre dos variables: Ejemplo (II)

¿Son las patatas un producto inferior? Para saberlo deberıamosrecoger un conjunto representativo de datos y estimar m. Como lasleyes generales pueden no ser validas para un consumidor particulardebemos tener en cuenta que la relacion puede ser solo valida enterminos medios, es decir,

yi = m(xi ) + εi , i = 1, . . . , n,

de forma quem(x) = E(Y |X = x).

La variable εi representa la variabilidad en el gasto del individuo isobre el consumo medio correspondiente a su nivel de ingresos xi .

Alberto Rodrıguez Casal Estimacion de la regresion

Page 5: Estimaci¶on de la regresi¶on - USCeio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/... · Ajuste polin¶omico local Splines Estudio de la dependencia entre dos variables: Ejemplo

Estimacion tipo nucleoAjuste polinomico local

Splines

Estudio de la dependencia entre dos variables: Ejemplo (III)El objetivo es estimar la funcion m a partir de la observacion de unconjunto finito de observaciones

(xi , yi ), i = 1, . . . , n.

0.5 1.0 1.5 2.0 2.5

0.60.8

1.01.2

1.41.6

x

y

Alberto Rodrıguez Casal Estimacion de la regresion

Page 6: Estimaci¶on de la regresi¶on - USCeio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/... · Ajuste polin¶omico local Splines Estudio de la dependencia entre dos variables: Ejemplo

Estimacion tipo nucleoAjuste polinomico local

Splines

Regresion no parametrica

En regresion parametrica habitualmente se supone que m dependelinealmente de un vector de parametros. Por ejemplo, en regresionlineal simple se supone que

m(x) = α + βx .

Este modelo serıa muy restrictivo para ejemplos como el anterior.No permite que el consumo se incremente hasta un cierto nivel apartir del cual baja o se mantiene estable. En los modelos deregresion no parametricos no se impone ninguna restriccion a priorisobre m. Obviamente existe un precio a pagar por esta flexibilidad.

Alberto Rodrıguez Casal Estimacion de la regresion

Page 7: Estimaci¶on de la regresi¶on - USCeio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/... · Ajuste polin¶omico local Splines Estudio de la dependencia entre dos variables: Ejemplo

Estimacion tipo nucleoAjuste polinomico local

Splines

Esperanza condicional

Antes de presentar los diferentes metodos de estimacion esconveniente recordar brevemente el concepto de media condicional.Si X e Y son dos variables aleatorias con funcion de densidadconjunta f (x , y) se define la media condicional de Y dado X = xcomo

E(Y |X = x) =

∫yf (y |x)dy =

∫yf (x , y)dy

fX (x),

donde

f (y |x) =f (x , y)

fX (x)

es la densidad condicional de Y dado X = x y fX es la densidadmarginal de X .

Alberto Rodrıguez Casal Estimacion de la regresion

Page 8: Estimaci¶on de la regresi¶on - USCeio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/... · Ajuste polin¶omico local Splines Estudio de la dependencia entre dos variables: Ejemplo

Estimacion tipo nucleoAjuste polinomico local

Splines

Esperanza condicional: Ejercicio

Supongamos que

(XY

)∼ N

((µη

),

(σ2 ρστρστ τ2

)),

con densidad

1

2πστ√

1− ρ2exp

− ( x−µ

σ

)2 − ( x−ητ

)2+ 2ρ

( x−µσ

) ( y−ητ

)

2(1− ρ2)

Demuestra que E(Y |X = x) = α + βx donde α = η − µρτ/σ yβ = ρτ/σ.

Alberto Rodrıguez Casal Estimacion de la regresion

Page 9: Estimaci¶on de la regresi¶on - USCeio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/... · Ajuste polin¶omico local Splines Estudio de la dependencia entre dos variables: Ejemplo

Estimacion tipo nucleoAjuste polinomico local

Splines

Diseno fijo y aleatorio

Nos centraremos en el caso de diseno aleatorio. En este diseno sesupone que se dispone de una muestra aleatoria simple

(X1, Y1), . . . , (Xn, Yn), i = 1, . . . , n

de la distribucion conjunta (X , Y ) con densidad f (x , y).En algunos contextos (en ciencias principalmente) el investigadorpuede disenar previamente el experimento y fijar de antemano losvalores de la variable X . En este caso X no es una variable aleatoriamientras que Y sı. Esto simplifica la estimacion de m ası como elanalisis de las propiedades estadısticas de los estimadores.

Alberto Rodrıguez Casal Estimacion de la regresion

Page 10: Estimaci¶on de la regresi¶on - USCeio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/... · Ajuste polin¶omico local Splines Estudio de la dependencia entre dos variables: Ejemplo

Estimacion tipo nucleoAjuste polinomico local

Splines

Estimacion tipo nucleo de la densidad conjunta

El estimador tipo nucleo se basa en la formula de la mediacondicional

E(Y |X = x) =

∫yf (x , y)dy

fX (x).

Para estimar m basta por tanto estimar fX (x) y f (x , y). Laestimacion tipo nucleo de fX (x) ya la hemos visto. Para estimar ladensidad bivariante f (x , y) es habitual emplear el estimador tiponucleo con nucleo producto

fn,K (x , y) =1

n

n∑

i=1

Kh (x − Xi )Kg (y − Yi ) .

Alberto Rodrıguez Casal Estimacion de la regresion

Page 11: Estimaci¶on de la regresi¶on - USCeio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/... · Ajuste polin¶omico local Splines Estudio de la dependencia entre dos variables: Ejemplo

Estimacion tipo nucleoAjuste polinomico local

Splines

Estimacion tipo nucleo de la regresionPor tanto el estimador del numerador de la media condicional serıa

∫y fn,K (x , y)dy =

1

n

n∑

j=1

1

hK

(x − Xj

h

) ∫y

gK

(y − Yj

g

)dy

=1

n

n∑

j=1

1

hK

(x − Xj

h

)∫(zg + Yj)K (z)dz =

1

n

n∑

j=1

Kh(x − Xj)Yj ,

donde en la ultima igualdad se ha usado que K es una funcionsimetrica alrededor del cero con integral uno. El estimador de lafuncion m resultante de reemplazar las cantidades desconocidaspor sus estimadores en la formula de la esperanza condicional fuepropuesto por Nadaraya y Watson en 1964

mn,K (x) =

∑nj=1 Kh(x − Xj)Yj∑nk=1 Kh(x − Xk)

Alberto Rodrıguez Casal Estimacion de la regresion

Page 12: Estimaci¶on de la regresi¶on - USCeio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/... · Ajuste polin¶omico local Splines Estudio de la dependencia entre dos variables: Ejemplo

Estimacion tipo nucleoAjuste polinomico local

Splines

Estimacion tipo nucleo de la regresion: Observaciones (I)

i) El estimador tipo nucleo definido anteriormente se puedereescribir como

mn,K (x) =n∑

j=1

Kh(x − Xj)∑nk=1 Kh(x − Xk)

Yj =n∑

j=1

Whj(x)Yj ,

donde

Whj(x) =Kh(x − Xj)∑n

k=1 Kh(x − Xk).

Por tanto el estimador tipo nucleo de la funcion de regresion esuna media (local) ponderada de los valores observados de lavariable Y donde

n∑

j=1

Whj(x) = 1

Alberto Rodrıguez Casal Estimacion de la regresion

Page 13: Estimaci¶on de la regresi¶on - USCeio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/... · Ajuste polin¶omico local Splines Estudio de la dependencia entre dos variables: Ejemplo

Estimacion tipo nucleoAjuste polinomico local

Splines

Estimacion tipo nucleo de la regresion: Observaciones (II)ii) Podemos utilizar el calculo matricial para evaluar el estimadorde Nadaraya-Watson en una rejilla de puntos (t1, . . . , tm). El valordel estimador en el punto ti viene dado por

mn,K (ti ) =n∑

j=1

Kh(ti − Xj)∑nk=1 Kh(ti − Xk)

Yj =n∑

j=1

HijYj , i = 1, . . .m

donde

Hij = Whj(ti ) =Kh(ti − Xj)∑n

k=1 Kh(ti − Xk), i = 1, . . . m, j = 1, . . . , n

Por tanto, si m = (m(t1), . . . , m(tm))t , Y es el vector con lasobservaciones (Y1, . . . ,Yn), y H es la matriz m × n definida por laexpresion anterior, se tiene que

m = HY

Alberto Rodrıguez Casal Estimacion de la regresion

Page 14: Estimaci¶on de la regresi¶on - USCeio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/... · Ajuste polin¶omico local Splines Estudio de la dependencia entre dos variables: Ejemplo

Estimacion tipo nucleoAjuste polinomico local

Splines

Estimacion tipo nucleo de la regresion: Observaciones (III)

iii) En particular si queremos evaluar el estimador en los puntos dela muestra (X1, . . . , Xn), tendrıamos que calcular la matriz n × nH, donde el elemento (i , j) viene dado por la expresion

Hij = Whj(Xi ) =Kh(Xi − Xj)∑n

k=1 Kh(Xi − Xk), i = 1, . . . n, j = 1, . . . , n.

Una posibilidad serıa calcular primero la matriz con los elementosK ((Xi −Xj)/h) y posteriormente dividir cada fila por la suma de lamisma. Una vez calculada la matriz H se tiene que

m = HY

donde m = (m(X1), . . . , m(Xn))t

Alberto Rodrıguez Casal Estimacion de la regresion

Page 15: Estimaci¶on de la regresi¶on - USCeio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/... · Ajuste polin¶omico local Splines Estudio de la dependencia entre dos variables: Ejemplo

Estimacion tipo nucleoAjuste polinomico local

Splines

Estimacion tipo nucleo de la regresion: Observaciones (IV)

iv) ¿Como es el estimador si utilizamos para estimar la densidad elestimador naive? Recordemos que el estimador naive es unestimador tipo nucleo con nucleo

W (x) =1

2I(−1 ≤ x ≤ 1).

Utilizando este nucleo los pesos Whj del estimador deNadaraya-Watson son de la forma

Whj(x) =I(x − h ≤ Xj ≤ x + h)∑n

k=1 I(x − h ≤ Xk ≤ x + h).

Por tanto el estimador de Nadaraya-Watson en el punto x es eneste caso la media de aquello valores Yj para los cuales sucorrespondiente Xj este en el intervalo (x − h, x + h).

Alberto Rodrıguez Casal Estimacion de la regresion

Page 16: Estimaci¶on de la regresi¶on - USCeio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/... · Ajuste polin¶omico local Splines Estudio de la dependencia entre dos variables: Ejemplo

Estimacion tipo nucleoAjuste polinomico local

Splines

Estimacion tipo nucleo de la regresion: Observaciones (V)v) El parametro h controla el grado de suavidad del estimador.

0.5 1.0 1.5 2.0 2.5

0.5

1.0

1.5

x

y

h=0.02h=0.15h=0.4h=0.6

Alberto Rodrıguez Casal Estimacion de la regresion

Page 17: Estimaci¶on de la regresi¶on - USCeio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/... · Ajuste polin¶omico local Splines Estudio de la dependencia entre dos variables: Ejemplo

Estimacion tipo nucleoAjuste polinomico local

Splines

Estimacion tipo nucleo de la regresion: Observaciones (VI)

vi) Si h → 0 entonces

mn,K (Xi ) → Yi ,

por tanto, el estimador tiende a interpolar los datos si h espequeno (infrasuavizado). Por otra parte, si h →∞ entonces

mn,K (Xi ) → Y ,

es decir, el estimador es una funcion constante (sobresuavizado).

NotaPuede ocurrir, en zonas donde hay pocos datos, que eldenominador de Whj(x) valga cero. En este caso, como elnumerador tambien valdrıa cero, se considera que el estimador noesta definido.

Alberto Rodrıguez Casal Estimacion de la regresion

Page 18: Estimaci¶on de la regresi¶on - USCeio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/... · Ajuste polin¶omico local Splines Estudio de la dependencia entre dos variables: Ejemplo

Estimacion tipo nucleoAjuste polinomico local

Splines

Eleccion del parametro de suavizado por validacioncruzada (I)

Una posibilidad para elegir el parametro de suavizado es usar elmetodo de validacion cruzada, convenientemente adaptado alcontexto de regresion. Para medir la bondad de ajuste que seconsigue con una ventana h podrıamos usar el error medio

1

n

n∑

i=1

(Yi − mn,K (Xi ))2.

Esta medida de error global aproximarıa el error de prediccion. Sinembargo, la aproximacion serıa un tanto optimista ya queestarıamos usando el valor de Yi dos veces: una a la hora de medirel error, y otra a la hora de construir el estimador. Para evaluarmejor el error de prediccion se suele usar el mismo criterio de error,pero eliminando el dato i-esimo cuando calculamos el error deprediccion para Yi .

Alberto Rodrıguez Casal Estimacion de la regresion

Page 19: Estimaci¶on de la regresi¶on - USCeio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/... · Ajuste polin¶omico local Splines Estudio de la dependencia entre dos variables: Ejemplo

Estimacion tipo nucleoAjuste polinomico local

Splines

Eleccion del parametro de suavizado por validacioncruzada (II)

Ası la funcion de validacion cruzada se define como

CV (h) =1

n

n∑

i=1

(Yi − m−(i),K (Xi ))2,

donde m−(i),K denota el estimador de Nadaraya-Watson construidoa partir de la muestra original despues de eliminar el par (Xi ,Yi ).La idea serıa tomar aquel h que haga que CV sea mınimo. Aunquese podrıa calcular directamente CV , esto requerirıa evaluar, paracada h, n veces el estimador de Nadaraya-Watson, construido apartir de una muestra de (n − 1) puntos. Muchos de estos calculosserıan redundantes y se pueden simplificar.

Alberto Rodrıguez Casal Estimacion de la regresion

Page 20: Estimaci¶on de la regresi¶on - USCeio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/... · Ajuste polin¶omico local Splines Estudio de la dependencia entre dos variables: Ejemplo

Estimacion tipo nucleoAjuste polinomico local

Splines

Eleccion del parametro de suavizado por validacioncruzada (III)

TeoremaLa funcion de validacion cruzada del estimador deNadaraya-Watson se puede escribir de la siguiente forma

CV (h) =1

n

n∑

i=1

(Yi − mn,K (Xi )

1− Hii

)2

donde Hii es el elemento i-de la diagonal de la matriz de suavizadoH necesaria para calcular el estimador en los puntos (X1, . . . ,Xn).Es decir

Hii =Kh(0)∑n

k=1 Kh(Xi − Xk)

Alberto Rodrıguez Casal Estimacion de la regresion

Page 21: Estimaci¶on de la regresi¶on - USCeio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/... · Ajuste polin¶omico local Splines Estudio de la dependencia entre dos variables: Ejemplo

Estimacion tipo nucleoAjuste polinomico local

Splines

Diseno fijo: Pesos de Gasser-Muller

Para diseno fijo Gasser y Muller (1984) sugirieron utilizar los pesos

W GMhi (x) =

∫ si

si−1

Kh(x − t)dt,

siendo s0 = −∞, sn = ∞ y

si =xi + xi+1

2, i = 1, . . . , n − 1,

donde estamos suponiendo x1 < x2 < · · · < xn. El estimadorresultantes es, por tanto,

mn,GM(x) =n∑

i=1

Yi

∫ si

si−1

Kh(x − t)dt.

Alberto Rodrıguez Casal Estimacion de la regresion

Page 22: Estimaci¶on de la regresi¶on - USCeio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/... · Ajuste polin¶omico local Splines Estudio de la dependencia entre dos variables: Ejemplo

Estimacion tipo nucleoAjuste polinomico local

Splines

Un ejemplo

10 20 30 40 50

−1

00

−5

00

50

x

y

Nadadaraya−Watson, h=1.5Gasser−Muller, h=1.2

10 20 30 40 50

−1

00

−5

00

50

x

y

LinealCuadráticoCúbico

Alberto Rodrıguez Casal Estimacion de la regresion

Page 23: Estimaci¶on de la regresi¶on - USCeio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/... · Ajuste polin¶omico local Splines Estudio de la dependencia entre dos variables: Ejemplo

Estimacion tipo nucleoAjuste polinomico local

Splines

Modelo lineal local

La idea de este metodo es muy sencilla. En lugar de hacer unajuste global por mınimos cuadrados de una recta podemosintentar buscar una recta que ajuste bien solo en los puntosproximos a x . Dado h > 0 podemos proponer un modelo linealvalido solo en el entorno (x − h, x + h)

Yi = α(x) + β(x)Xi + εi , Xi ∈ (x − h, x + h).

Alberto Rodrıguez Casal Estimacion de la regresion

Page 24: Estimaci¶on de la regresi¶on - USCeio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/... · Ajuste polin¶omico local Splines Estudio de la dependencia entre dos variables: Ejemplo

Estimacion tipo nucleoAjuste polinomico local

Splines

Mınimos cuadrados ponderados (I)

Ajustarıamos entonces por mınimos cuadrados los parametros delmodelo usando solo los datos del entorno local (x − h, x + h)

n∑

i=1

(Yi − α(x)− β(x)Xi )2I(|Xi − x | ≤ h).

Minimizar la suma de cuadrados anterior es equivalente a minimizar

n∑

i=1

(Yi − α(x)− β(x)Xi )2Wh(x − Xi ),

donde, recordemos, W es la densidad uniforme en (−1, 1)

Alberto Rodrıguez Casal Estimacion de la regresion

Page 25: Estimaci¶on de la regresi¶on - USCeio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/... · Ajuste polin¶omico local Splines Estudio de la dependencia entre dos variables: Ejemplo

Estimacion tipo nucleoAjuste polinomico local

Splines

Mınimos cuadrados ponderados (II)

Al igual que ocurrıa en la estimacion de la densidad, no parece deltodo razonable que en la suma de cuadrados anterior tenga elmismo peso todos los errores del intervalo (x − h, x + h),independientemente de su proximidad a x . Para corregir esopodemos reemplazar la suma de cuadrados anterior por

n∑

i=1

(Yi − α(x)− β(x)Xi )2Kh(x − Xi ),

donde K una funcion de densidad unimodal y simetrica alrededordel cero.

Alberto Rodrıguez Casal Estimacion de la regresion

Page 26: Estimaci¶on de la regresi¶on - USCeio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/... · Ajuste polin¶omico local Splines Estudio de la dependencia entre dos variables: Ejemplo

Estimacion tipo nucleoAjuste polinomico local

Splines

El estimador lineal local (I)

El estimador lineal local en el punto x vendra dado por

mn,LL(x) = a(x) + b(x)x ,

donde a(x), b(x) son los valores que minimizan la suma decuadrados ponderada

n∑

i=1

(Yi − α(x)− β(x)Xi )2Kh(x − Xi ).

Alberto Rodrıguez Casal Estimacion de la regresion

Page 27: Estimaci¶on de la regresi¶on - USCeio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/... · Ajuste polin¶omico local Splines Estudio de la dependencia entre dos variables: Ejemplo

Estimacion tipo nucleoAjuste polinomico local

Splines

El estimador lineal local (II)Por tanto para evaluar el estimador lineal local tenemos queencontrar a y b que minimicen

n∑

i=1

(Yi − α− βXi )2Whi ,

donde Whi = Kh(x − Xi )/∑n

j=1 Kh(x − Xj). Si derivamos conrespecto a las variables α y β (x esta fijo) obtenemos la ecuaciones(ejercicio)

n∑

i=1

WhiYi = a + bn∑

i=1

WhiXi

n∑

i=1

WhiXiYi = a

(n∑

i=1

WhiXi

)+ b

(n∑

i=1

WhiX2i

)

Alberto Rodrıguez Casal Estimacion de la regresion

Page 28: Estimaci¶on de la regresi¶on - USCeio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/... · Ajuste polin¶omico local Splines Estudio de la dependencia entre dos variables: Ejemplo

Estimacion tipo nucleoAjuste polinomico local

Splines

El estimador lineal local (III)

Si utilizamos la notacion µhr ,s =

∑ni=1 WhiX

ri Y s

i el sistema anteriorpuede escribirse como

µh0,1 = a + bµh

1,0

µh1,1 = aµh

1,0 + bµh2,0

Despejando (ejercicio)

a = µh0,1 − bµh

1,0, b =µh

1,1 − µh1,0µ

h0,1

µh2,0 −

(µh

1,0

)2

¿A que convergen a y b si h →∞?

Alberto Rodrıguez Casal Estimacion de la regresion

Page 29: Estimaci¶on de la regresi¶on - USCeio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/... · Ajuste polin¶omico local Splines Estudio de la dependencia entre dos variables: Ejemplo

Estimacion tipo nucleoAjuste polinomico local

Splines

Nadaraya-Watson como estimador localmente constanteSupongamos que en vez de haber ajustado una recta localmente sehubiera ajustado una constante en el entorno (x − h, x + h). Setratarıa de buscar aquel a que minimice la suma de cuadradosponderada

n∑

i=1

(Yi − α)2Kh(x − Xi ),

o, equivalentemente,n∑

i=1

(Yi − α)2Whi .

Por las propiedades de la media se sabe que (ejercicio)

a =n∑

i=1

WhiYi = mn,K (x),

es decir el estimador de Nadaraya-Watson en x .Alberto Rodrıguez Casal Estimacion de la regresion

Page 30: Estimaci¶on de la regresi¶on - USCeio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/... · Ajuste polin¶omico local Splines Estudio de la dependencia entre dos variables: Ejemplo

Estimacion tipo nucleoAjuste polinomico local

Splines

Comparacion entre los estimadores propuestos

En la siguiente tabla se muestra el sesgo y varianza asintotica(para diseno aleatorio) de los estimadores de Nadaraya-Watson,Gasser-Muller y local lineal:

Metodo Sesgo Varianza

Nadaraya-Watson (m′′(x) + 2m′(x)f ′(x)f (x) )bn Vn

Gasser-Muller m′′(x)bn 1.5Vn

Local lineal m′′(x)bn Vn

donde

bn =1

2µ2(K )h2, Vn =

σ2(x)

f (x)nhR(K )

Sorprendentemente a pesar de estimar un parametro mas en elestimador local lineal que en el de Nadaraya-Watson la varianzaasintotica es la misma.

Alberto Rodrıguez Casal Estimacion de la regresion

Page 31: Estimaci¶on de la regresi¶on - USCeio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/... · Ajuste polin¶omico local Splines Estudio de la dependencia entre dos variables: Ejemplo

Estimacion tipo nucleoAjuste polinomico local

Splines

Regresion polinomica local (I)

Es posible generalizar el metodo local lineal y ajustar localmenteun polinomio de grado p. Supongamos que m tiene (p + 1)derivadas continuas en un entorno de x . Por el teorema de Taylor

m(z) ≈ m(x)+m′(x)(z−x)+m′′(x)

2!(z−x)2+· · ·+m(p)(x)

p!(z−x)p.

Podemos ajustar localmente este polinomio de grado p mediantemınimos cuadrados ponderados. Habrıa que encontrar el parametroβ = (β0, β1, . . . , βp)

t que minimiza la funcion

Ψ(β) =n∑

i=1

Yi −

p∑

j=0

βj(Xi − x)j

2

Kh(x − Xi )

Alberto Rodrıguez Casal Estimacion de la regresion

Page 32: Estimaci¶on de la regresi¶on - USCeio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/... · Ajuste polin¶omico local Splines Estudio de la dependencia entre dos variables: Ejemplo

Estimacion tipo nucleoAjuste polinomico local

Splines

Regresion polinomica local (II)

Notese que βj estima

βj =f (j)(x)

j!, j = 0, . . . , p.

En particularmn,PL(x) = β0,

es el estimador polinomico local de orden p de m(x).

Alberto Rodrıguez Casal Estimacion de la regresion

Page 33: Estimaci¶on de la regresi¶on - USCeio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/... · Ajuste polin¶omico local Splines Estudio de la dependencia entre dos variables: Ejemplo

Estimacion tipo nucleoAjuste polinomico local

Splines

Solucion al problema de mınimos locales ponderados (I)

El problema anterior se puede escribir de forma matricial. Sean

X =

1 (X1 − x) · · · (X1 − x)p

......

......

1 (Xn − x) · · · (Xn − x)p

Y =

Y1...

Yn

β =

β0...

βp

W =

Kh(x − X1) 0 · · · 00 Kh(x − X2) · · · 0...

......

...0 0 · · · Kh(x − Xn)

Alberto Rodrıguez Casal Estimacion de la regresion

Page 34: Estimaci¶on de la regresi¶on - USCeio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/... · Ajuste polin¶omico local Splines Estudio de la dependencia entre dos variables: Ejemplo

Estimacion tipo nucleoAjuste polinomico local

Splines

Solucion al problema de mınimos locales ponderados (II)

Con esta notacion la funcion Ψ puede escribirse ası

Ψ(β) = (Y − Xβ)tW(Y − Xβ).

Es conocido que su mınimo se alcanza en

β(x) = (XtWX)−1XtWY = HY

El vector solucion tiene (p + 1) componentes. La componentej-esima permite estimar la derivada correspondiente de m

m(j)(x) = j!βj(x)

Alberto Rodrıguez Casal Estimacion de la regresion

Page 35: Estimaci¶on de la regresi¶on - USCeio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/... · Ajuste polin¶omico local Splines Estudio de la dependencia entre dos variables: Ejemplo

Estimacion tipo nucleoAjuste polinomico local

Splines

Penalizacion (I)Consideremos nuevamente el modelo

Yi = m(Xi ) + εi ,

y supongamos que estimamos m mediante una funcion mn queminimice la suma de cuadrados

n∑

i=1

(Yi − mn(Xi ))2.

Si buscamos en todas las funciones lineales, es decir aquellas de laforma β0 + β1x , llegarıamos a la recta de regresion. Sin embargo,sin no imponemos ninguna restriccion obtendrıamos una funcionque interpola los datos es decir

mn(Xi ) = Yi .

Alberto Rodrıguez Casal Estimacion de la regresion

Page 36: Estimaci¶on de la regresi¶on - USCeio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/... · Ajuste polin¶omico local Splines Estudio de la dependencia entre dos variables: Ejemplo

Estimacion tipo nucleoAjuste polinomico local

Splines

Penalizacion (II)

En la regresion polinomica local se reemplazaba la suma decuadrados por una suma local ponderada. Un metodo alternativo,que sigue considerando globalmente la suma de cuadrados, esutilizar un suma de cuadrados penalizada

M(λ) =n∑

i=1

(Yi − mn(Xi ))2 + λJ(mn),

donde J(g) toma valores grandes si la funcion empleada pararealizar el ajuste es irregular. Nos centraremos en el caso en que

J(g) =

∫(g ′′(x))2dx .

Alberto Rodrıguez Casal Estimacion de la regresion

Page 37: Estimaci¶on de la regresi¶on - USCeio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/... · Ajuste polin¶omico local Splines Estudio de la dependencia entre dos variables: Ejemplo

Estimacion tipo nucleoAjuste polinomico local

Splines

Efecto de λ

El parametro λ controla el peso que le damos a la penalizacion.Permite buscar un compromiso entre la bondad de ajuste (elprimer termino) y la irregularidad del ajuste (segundo termino).Supongamos que mn,λ denota una funcion que minimiza M(λ).Cuando λ = 0 entonces

mn,λ(Xi ) = Yi .

Si λ →∞ entonces mn,λ converge a la media de los datos. Portanto λ controla el grado de suavidad del ajuste. ¿Como es lafuncion mλ para 0 < λ < ∞?

Alberto Rodrıguez Casal Estimacion de la regresion

Page 38: Estimaci¶on de la regresi¶on - USCeio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/... · Ajuste polin¶omico local Splines Estudio de la dependencia entre dos variables: Ejemplo

Estimacion tipo nucleoAjuste polinomico local

Splines

Splines

La funcion mn,λ es un spline cubico. Los splines son polinomios atrozos suaves. Su definicion formal es la siguiente

DefinicionSean ξ1 < ξ2 < · · · < ξk un conjunto de k puntos ordenadosdenominados nodos contenidos en un intervalos (a, b). Un splinecubico es una funcion continua s tal que

I s es un polinomio de grado 3 en los intervalos (ξ1, ξ2), . . .

I s tiene derivada continua de primer y segundo orden en losnodos.

De forma mas general un spline de orden M es un polinomio atrozos de orden M − 1 con derivadas continuas hasta el ordenM − 2 en los nodos. Un spline natural es un spline que es lineal apartir de los nodos frontera.

Alberto Rodrıguez Casal Estimacion de la regresion

Page 39: Estimaci¶on de la regresi¶on - USCeio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/... · Ajuste polin¶omico local Splines Estudio de la dependencia entre dos variables: Ejemplo

Estimacion tipo nucleoAjuste polinomico local

Splines

Suavizador tipo spline

Los splines cubicos (M = 4) son los mas empleados en la practica.Aparecen de forma natural en el problema de regresion penalizadoplanteado anteriormente.

TeoremaLa funcion mn,λ que minimiza M(λ) para λ < ∞ es un splinecubico natural con nodos en los puntos muestrales X1, . . . ,Xn.Denominaremos a este estimador suavizador tipo spline.

El teorema anterior no da una expresion explıcita de mn,λ perosimplifica mucho la tarea ya que las funciones tipo spline tienenestructura de espacio vectorial y por tanto se pueden escribir comocombinaciones lineales de unas funciones base.

Alberto Rodrıguez Casal Estimacion de la regresion

Page 40: Estimaci¶on de la regresi¶on - USCeio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/... · Ajuste polin¶omico local Splines Estudio de la dependencia entre dos variables: Ejemplo

Estimacion tipo nucleoAjuste polinomico local

Splines

Funciones base del espacio de los splines (I)El siguiente teorema da una base de ese espacio

TeoremaSean ξ1 < ξ2 < · · · < ξk un conjunto de k nodos contenido en elintervalo (a, b). Definamos las funciones hj(x) = x j−1, j = 1, . . . , 4

hj(x) = (x − ξj−4)3+, j = 5, . . . , k + 4.

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

1.2 Las funciones h1, . . . , hk+4

forman una base de los splinescubicos con nodos ξ1, . . . , ξk.Por tanto cualquier spline cubi-co puede escribirse de la forma

s(x) =k+4∑

j=1

βjhj(x)

Alberto Rodrıguez Casal Estimacion de la regresion

Page 41: Estimaci¶on de la regresi¶on - USCeio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/... · Ajuste polin¶omico local Splines Estudio de la dependencia entre dos variables: Ejemplo

Estimacion tipo nucleoAjuste polinomico local

Splines

Funciones base del espacio de los splines (II)

La base anterior no es la mas adecuada para representar mn,λ. Unode los motivos es el siguiente. De mn,λ sabemos que es un splinecubico natural y por tanto

m′′n,λ(x) = 0, x > maxX1, . . . ,Xn, x < mınX1, . . . , Xn.

Como

m′′n,λ(x) =

k+4∑

j=1

βjh′′j (x),

y h′′j no tiene soporte compacto la representacion anterior es pocoestable numericamente. Es conveniente que las funciones basetenga soporte compacto.

Alberto Rodrıguez Casal Estimacion de la regresion

Page 42: Estimaci¶on de la regresi¶on - USCeio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/... · Ajuste polin¶omico local Splines Estudio de la dependencia entre dos variables: Ejemplo

Estimacion tipo nucleoAjuste polinomico local

Splines

Funciones base del espacio de los splines (III)La siguiente base es especialmente manejable en los calculosnumericos. Las funciones de la base se denominan B-splines

DefinicionSean ξ0 = a y ξk+1 = b. Definamos los nuevos nodos

τ1 ≤ τ2 ≤ τM ≤ ξ0,

τj+M = ξj , j = 1, . . . , k y

ξk+1 ≤ τk+M+1 ≤ τk+M+2 ≤ τk+2M .

La eleccion de los nodos adicionales es arbitraria. Habitualmente setoma

τ1 = · · · = τM = ξ0, τk+M+1 = · · · = τk+2M = ξ0

Alberto Rodrıguez Casal Estimacion de la regresion

Page 43: Estimaci¶on de la regresi¶on - USCeio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/... · Ajuste polin¶omico local Splines Estudio de la dependencia entre dos variables: Ejemplo

Estimacion tipo nucleoAjuste polinomico local

Splines

Funciones base del espacio de los splines (IV)

Los B-splines se definen de forma recursiva. Primero, parai = 1, . . . , k + 2M − 1, definimos

Bi ,1 =

1 si τi ≤ x < τ0 en otro caso

Ahora, para m ≤ M e i = 1, . . . , k + 2M −m se define

Bi ,m(x) =x − τi

τi+m−1 − τBi ,m−1(x) +

τi+m − x

τi+m − τ i + 1Bi+1,m−1(x).

En la expresion anterior se supone si el denominador es ceroentonces la funcion tambien vale cero.

Alberto Rodrıguez Casal Estimacion de la regresion

Page 44: Estimaci¶on de la regresi¶on - USCeio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/... · Ajuste polin¶omico local Splines Estudio de la dependencia entre dos variables: Ejemplo

Estimacion tipo nucleoAjuste polinomico local

Splines

Funciones base del espacio de los splines (V)

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

1.2

x

Figura: Las funciones Bi,4 para 9 nodos equiespaciados en (0, 1)

TeoremaLas funciones Bi ,4, i = 1, . . . , k + 4 son una base del conjunto desplines cubicos.

Alberto Rodrıguez Casal Estimacion de la regresion

Page 45: Estimaci¶on de la regresi¶on - USCeio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/... · Ajuste polin¶omico local Splines Estudio de la dependencia entre dos variables: Ejemplo

Estimacion tipo nucleoAjuste polinomico local

Splines

Expresion explıcita del suavizador tipo spline (I)Sea cual sea la base de splines que usemos, B1, . . . , BN,N = n + 4, sabemos que

mn,λ(x) =N∑

j=1

βjB′′j (x).

La funcion

M(λ) =n∑

i=1

(Yi − s(Xi ))2 + λ

∫(s ′′(x))2dx ,

puede ser expresada de una forma muy sencilla para un splinecubico

s =N∑

j=1

βjBj .

Alberto Rodrıguez Casal Estimacion de la regresion

Page 46: Estimaci¶on de la regresi¶on - USCeio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/... · Ajuste polin¶omico local Splines Estudio de la dependencia entre dos variables: Ejemplo

Estimacion tipo nucleoAjuste polinomico local

Splines

Expresion explıcita del suavizador tipo spline (II)El primer sumando se puede escribir como

(Y − Bβ)t(Y − Bβ),

donde, β = (β1, . . . , βN) y

Bi ,j = Bj(Xi ), 1 ≤ i ≤ n, 1 ≤ j ≤ N.

El segundo sumando tambien se puede escribir en notacionmatricial ya que ∫

(s ′′)2(x) = βtΩβ,

donde Ω es una matriz simetrica que se puede calcularexplıcitamente a partir de la base. Se elemento j , k viene dado por

Ωj ,k =

∫B ′′j (x)B ′′k (x), 1 ≤ j , k ≤ N.

Alberto Rodrıguez Casal Estimacion de la regresion

Page 47: Estimaci¶on de la regresi¶on - USCeio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/... · Ajuste polin¶omico local Splines Estudio de la dependencia entre dos variables: Ejemplo

Estimacion tipo nucleoAjuste polinomico local

Splines

Expresion explıcita del suavizador tipo spline (III)

Derivando e igualando a cero se obtiene la siguiente expresion paramnλ.

TeoremaEl valor que minimiza M(λ) viene dado por

β = (BtB + λΩ)−1BtY.

Alberto Rodrıguez Casal Estimacion de la regresion