estimaci´on (puntual) de par´ametros onpreliminar...

63
Versi´on preliminar, 20 de noviembre de 2018 Cap´ ıtulo 5 Estimaci´ on (puntual) de par´ ametros 5.1. Generalidades sobre estimadores ................... 3 5.1.1. Dependencia de la distribuci´on respecto del par´ ametro . . 4 5.1.2. Sesgo de un estimador. Estimadores insesgados ....... 9 5.1.3. Varianza de un estimador ........................ 14 5.1.4. Error cuadr´atico medio .......................... 16 5.2. etodos de construcci´ on de estimadores ............ 21 5.2.1. etodo de momentos ............................ 21 5.2.2. etodo de m´axima verosimilitud .................. 26 5.3. Informaci´ on y cota de Cram´ er–Rao ................ 41 5.3.1. Informaci´ on y cantidad de informaci´on .............. 45 5.3.2. La cota de Cram´ er–Rao .......................... 52 5.3.3. Complementos sobre la cota de Cram´ er–Rao ......... 56 5.3.4. Informaci´ on y cota de Cram´ er–Rao, caso de varios par´ ame- tros .......................................... 64 5.4. Comportamiento asint´otico de estimadores .......... 68 5.4.1. Comportamientoasint´otico de los estimadores por momen- tos .......................................... 74 5.4.2. Comportamiento asint´otico de los estimadores de m´ axima verosimilitud .................................. 83 En este tema (y en los dos siguientes), X ser´ a una variable aleatoria cuya distri- buci´on de probabilidad depende de (y est´a determinada por) un cierto par´ametro θ que desconocemos y que nos interesa estimar. As´ ı que s´ olo sabemos que la cantidad X se distribuye en una poblaci´on siguiendo una distribuci´on de probabilidad de una cierta familia (exponenciales, uniformes, 1

Upload: others

Post on 27-Mar-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

Capıtulo 5

Estimacion (puntual) deparametros

5.1. Generalidades sobre estimadores . . . . . . . . . . . . . . . . . . . 3

5.1.1. Dependencia de la distribucion respecto del parametro . . 4

5.1.2. Sesgo de un estimador. Estimadores insesgados . . . . . . . 9

5.1.3. Varianza de un estimador . . . . . . . . . . . . . . . . . . . . . . . . 14

5.1.4. Error cuadratico medio . . . . . . . . . . . . . . . . . . . . . . . . . . 16

5.2. Metodos de construccion de estimadores . . . . . . . . . . . . 21

5.2.1. Metodo de momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

5.2.2. Metodo de maxima verosimilitud . . . . . . . . . . . . . . . . . . 26

5.3. Informacion y cota de Cramer–Rao . . . . . . . . . . . . . . . . 41

5.3.1. Informacion y cantidad de informacion . . . . . . . . . . . . . . 45

5.3.2. La cota de Cramer–Rao . . . . . . . . . . . . . . . . . . . . . . . . . . 52

5.3.3. Complementos sobre la cota de Cramer–Rao . . . . . . . . . 56

5.3.4. Informacion y cota de Cramer–Rao, caso de varios parame-tros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

5.4. Comportamiento asintotico de estimadores . . . . . . . . . . 68

5.4.1. Comportamiento asintotico de los estimadores por momen-tos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

5.4.2. Comportamiento asintotico de los estimadores de maximaverosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

En este tema (y en los dos siguientes), X sera una variable aleatoria cuya distri-bucion de probabilidad depende de (y esta determinada por) un cierto parametro θque desconocemos y que nos interesa estimar.

Ası que solo sabemos que la cantidad X se distribuye en una poblacion siguiendouna distribucion de probabilidad de una cierta familia (exponenciales, uniformes,

1

Page 2: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

2 Capıtulo 5. Estimacion (puntual) de parametros

geometricas, etc.), pero no sabemos de que distribucion concreta se trata, es decir,desconocemos el parametro.

El objetivo ahora es estimar el valor de θ a partir de una muestra (x1, . . . , xn)que se supone que se ha obtenido aleatoria e independientemente, es decir, de unarealizacion de (X1, . . . ,Xn), donde X1, . . . ,Xn son clones independientes de X. Vea-mos algunos ejemplos de estos objetivos de estimacion.

X ∼ ber(p). El parametro es θ = p.

Por ejemplo, p puede ser el porcentaje de gente que va a votar “sı”en un refe-rendo. Queremos estimar p a partir de una muestra de tamano n de respuestas.

X ∼ exp(λ). El parametro podrıa ser θ = λ. Pero tambien θ = 1/λ, dado queE(X) = 1/λ.

La variable X podrıa, por ejemplo, describir el tiempo de espera hasta el si-guiente mensaje, o lo que tarda un cliente en ser atendido en la cola del Ikea.

X ∼ poiss(λ). El parametro podrıa ser θ = λ o tambien θ = e−λ.

Por ejemplo, analizamos el numero de ocurrencias X de un fenomeno relativa-mente raro en un intervalo de tiempo relativamente corto.

X ∼ N (0, σ2). El parametro aquı serıa θ = σ o θ = σ2.

Por ejemplo, X puede registrar errores en la medicion con un cierto aparatode medida (que se supone que en media no comete errores, es decir, que estacalibrado de manera que el error medio es nulo).

X ∼ unif[0, a] y nos interesa estimar el parametro θ = a.

Como el lector puede apreciar en estos ejemplos, el parametro θ que queremosestimar no tiene por que ser el parametro oficial del que depende la distribucion de lavariable aleatoria. En unaX ∼ exp(λ) nos puede interesar el parametro oficial θ = λ,o la esperanza θ = 1/λ, o la probabilidad de superar el nivel 1, que serıa θ = e−λ.Como toda la distribucion de X depende de λ, cualquier otro parametro viene dadopor una funcion de λ, en general, invertible. Una estimacion de θ = 1/λ nos da,claro, una estimacion de λ. Pero, como veremos, no son estimaciones equivalentesen cuanto a sus propiedades (“sesgo”, “error cuadratico”, etc.).

Aunque disponemos de libertad para elegir el parametro que se quiere estimar, lomas habitual es que sea el parametro “oficial” de la distribucion, o quizas la funcionde ese parametro que da, por ejemplo, la media o la varianza de la distribucion.

En ocasiones, la forma funcional de la distribucion puede depender de dos parame-tros (o incluso mas, aunque esto es ya mas inusual). Por ejemplo,

X ∼ N (μ, σ2), con μ ∈ R y σ > 0. Aquı los parametros oficiales de la distri-bucion son su propia media E(X) = μ y varianza V(X) = σ2.

X ∼ gamma(λ, t), con λ, t > 0. Los parametros oficiales son λ y t; mientras quela media y la varianza vienen dadas por combinaciones de estos parametros:E(X) = t/λ y V(X) = t/λ2.

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 3: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

5.1. Generalidades sobre estimadores 3

5.1. Generalidades sobre estimadores

El protocolo general de estimacion de parametros va como sigue:

• Partiremos de una muestra empırica (u observada), es decir, de una lista(x1, . . . , xn) de valores concretos deX (obtenidos de forma aleatoria e independiente).

• Y, con ella, calcularemos mediante una cierta funcion h : Rn → R lo que seconoce (en este contexto) como una estimacion de θ, y que nombraremos como θ:

θ = h(x1, . . . , xn) ⇐= estimacion de θ

Por ejemplo, la funcion h podrıa ser

h(x1, . . . , xn) =1n

∑nj=1 xj = x, la media muestral/empırica/observada,

h(x1, . . . , xn) = 1n−1

∑nj=1(xj − x)2 = s2, la cuasivarianza muestral/empıri-

ca/observada,

h(x1, . . . , xn) = max(x1, . . . , xn), el maximo muestral/empırico/observado. Etc.

Este es el procedimiento. El dato es la muestra observada (x1, . . . , xn), a partirde la cual obtenemos un valor θ = h(x1, . . . , xn) que, esperamos, sea una buenaestimacion del desconocido parametro θ.

Pero, ¿que funcion h debemos elegir para que la estimacion de θ sea adecuada?Una vez elegida una funcion h, ¿cuan buenas seran las estimaciones de θ obtenidas?¿Que grado de confianza podemos tener en que el numero θ = h(x1, . . . , xn) esterealmente cercano al valor de θ?

Digamos, por ejemplo, que tenemos la siguiente muestra de ceros y unos:

(0, 0, 1, 1, 1, 0, 1, 1, 0, 0, 1, 0, 1, 0, 1).

Esta muestra de tamano 15 ha sido obtenida a partir de una variable X ∼ ber(p).Pero no conocemos p. Parece natural estimar p a traves de la proporcion de unos, olo que es lo mismo, haciendo la media aritmetica de los 15 datos. Obtendrıamos ası elvalor 7/15 ≈ 46.67% como estimacion p del desconocido parametro p. Observese queesta estimacion depende de la muestra. ¿Que grado de confianza podemos tener enella? El verdadero valor de p bien podrıa ser 20%, o quizas 50%, o quizas. . . Aunquedesde luego es razonable pensar que este cerca del 7/15. Ademas, intuimos/sabemos,¿verdad, lector?, que, si la muestra hubiera sido de tamano 1500, la estimacionobtenida habrıa sido mas representativa del valor de p. Pero, ¿cuanto mas?

Como ejemplo alternativo, digamos que tenemos una lista de 26 alturas (en cm)de individuos varones de entre 40 y 50 anos de una cierta region. Partiendo de lahipotesis de que la variable altura de ese tipo de individuos sea una N (μ, σ2), parecerazonable suponer que la media muestral de la muestra nos de informacion sobre μ,y que la ¿varianza muestral? lo haga sobre σ2. Pero ¿cuanto?, ¿y con que fiabilidad?

Para dar respuesta a estas preguntas, necesitamos abstraer la cuestion y consi-derar la contrapartida teorica que supone el modelo de muestreo aleatorio:

Tenemos una muestra aleatoria (X1, . . . ,Xn) de clones independientes de X.

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 4: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

4 Capıtulo 5. Estimacion (puntual) de parametros

Dada una funcion h, la distribucion de probabilidad del estadıstico

T = h(X1, . . . ,Xn) ,

recoge todas las posibles estimaciones del parametro θ y sus respectivas pro-babilidades de ocurrencia.

Del estadıstico T decimos que es un estadıstico estimador de θ, o simple-mente un estimador de θ.

La muestra aleatoria (abstracta) (X1, . . . ,Xn) recoge todos los posibles “esce-narios” de valores (x1, . . . , xn) con sus respectivas probabilidades. Entendemos quela muestra concreta (x1, . . . , xn) de la que obtendremos la estimacion de θ es unarealizacion o una materializacion de (X1, . . . ,Xn).

Con el estadıstico T = h(X1, . . . ,Xn) recogemos tambien todas las posibles es-timaciones θ = h(x1, . . . , xn) de θ con sus respectivas probabilidades. Y de nuevoentendemos que la estimacion h(x1, . . . , xn) es una realizacion del estimador T .

� Nota 5.1.1. Hacemos notar que usamos aquı los mismos terminos para la situacion empırica y parael modelo teorico. Por ejemplo, con “muestra” designamos tanto al vector aleatorio (X1, . . . , Xn)como a una cualquiera de sus realizaciones, la lista de numeros (x1, . . . , xn); con el termino “mediamuestral” designamos tanto al numero 1

n

∑ni=1 xi como a la variable aleatoria 1

n

∑ni=1 Xi, etc.

En desmesurado afan clarificador, podrıamos ir anadiendo los adjetivos “empırico” u “obser-vado” cada vez que estuvieramos tratando con realizaciones, pero en la practica no sera necesario,porque habitualmente el contexto deja claro si estamos con el modelo teorico o con sus realizaciones.No olvidemos tampoco la distincion tipografica en el uso de mayusculas (para variables aleatorias)y minusculas (para numeros).

Parece natural exigir que un estadıstico T tenga ciertas propiedades: por ejemplo,es deseable que “apunte” en la direccion correcta, es decir, que en media de el valorcorrecto de θ. Si en el ejemplo de ceros y unos anterior tomaramos como estadısticoel mınimo valor de la muestra, lo mas seguro es que devolviera un 0, lo que concasi toda seguridad serıa una mala estimacion de p. Ademas nos gustarıa que ladispersion del estadıstico T respecto de la media (es decir, la varianza de T ) fuerapequena, porque si este fuera el caso tendrıamos una cierta (alta) confianza en quela estimacion que se obtiene no se desvıa mucho del verdadero y desconocido valordel parametro.

En el resto de la seccion vamos a estudiar estadısticos estimadores de parametroscomo lo que son, objetos aleatorios, para poder comparar su valıa y utilidad enfuncion de las propiedades que tengan. Para ello, necesitaremos cierta notacion.

5.1.1. Dependencia de la distribucion respecto del parametro

El objeto de estudio es una variable aleatoria X cuya distribucion de probabilidaddepende de un parametro θ. Usaremos en lo que sigue de manera generica y unificadala notacion

f(x; θ)

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 5: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

5.1. Generalidades sobre estimadores 5

para representar la funcion de densidad o la funcion de masa (dependiendo de sila variable es continua o discreta) de X. La expresion f(x; θ) anterior tiene dosargumentos: x y θ. Por un lado, el argumento x recorre los valores de la variableX. Elsegundo argumento θ recorre los posibles valores del parametro. Observe, lector, que,a valor de θ le corresponde una funcion de densidad o de masa distinta especıfica1.

Llamaremos espacio de parametros Θ ⊂ R al conjunto de posibles valores delparametro θ de interes. Habitualmente, Θ sera un intervalo de la recta real, perotambien podrıa ser un conjunto finito (o numerable). Si la distribucion dependierade, por ejemplo, dos parametros, entonces Θ serıa un cierto subconjunto (por ejemploun semiplano, un rectangulo) de R

2.

Estaremos, por otro lado, interesados solo en aquellos valores x donde f(x; θ) > 0.Para cada θ ∈ Θ, denotamos por sopθ al conjunto de valores de x donde f(x; θ) > 0.Al conjunto sopθ se le llama soporte de X si se da θ. Incluimos un subındice θporque el soporte podrıa depender del parametro, como veremos en algun ejemplo,aunque lo mas habitual es que el soporte sea fijo y no dependa de θ. El sopθ seraun intervalo o union de intervalos (finitos o no) de R para variables continuas, o unsubconjunto numerable de R en el caso de discretas (en los modelos mas usuales, unsubconjunto de {0, 1, 2, . . .}, y para variables finitas, un subconjunto finito de R).

Listamos a continuacion unos cuantos modelos que usaremos recurrentemente co-mo ilustracion en lo que sigue, detallando la expresion de la funcion de masa/densidad(indicando el soporte) y el espacio de parametros. Aunque generalmente usaremos xpara los valores de la variable, y θ para el parametro, en ocasiones la tradicion obligaa usar otros sımbolos: por ejemplo, en la distribucion geometrica el parametro es p(y no θ), y los posibles valores son k (en lugar de x), por tratarse de enteros.

• ber(p):

f(k; p) =

{p , si k = 1 ,

(1− p) , si k = 0 ,

para p ∈ Θ = (0, 1). El soporte es sopp = {0, 1}, para todo p ∈ Θ.

• exp(λ):

f(x;λ) =

{λe−λx , si x ≥ 0 ,

0 , si x < 0 ,

para λ ∈ Θ = (0,+∞). El soporte es sopλ = [0,+∞),para todo λ ∈ Θ. A la derecha de estas lıneas dibuja-mos las funciones de densidad para los casos λ = 1/2,λ = 1 y λ = 3/2.

• poiss(λ):

f(k;λ) = e−λ λk

k!, k entero, k ≥ 0 ,

para λ ∈ Θ = (0,+∞). El soporte es sopλ = {0, 1, 2, . . . }, para todo λ ∈ Θ.1Hay quien escribe fθ(x), o mejor, f(x|θ), la funcion de densidad condicionada al valor de θ.

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 6: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

6 Capıtulo 5. Estimacion (puntual) de parametros

• geo(p):f(k; p) = p(1− p)k−1 , k entero, k ≥ 1 ,

para p ∈ Θ = (0, 1). El soporte es sopp = {1, 2, . . . }, para todo p ∈ Θ.

• N (0, σ2).

f(x;σ2) =1√2πσ2

e−x2/(2σ2) , x ∈ R ,

para σ2 ∈ Θ = (0,+∞). El soporte es sopσ2 = R. A laderecha, las funciones de densidad de los casos σ2 = 1y σ2 = 2.

• unif[0, a].

f(x; b) =

{1/a si x ∈ (0, a) ,

0 si x /∈ (0, a) .

para a ∈ Θ = (0,+∞). Aquı, sopa = [0, a] es un in-tervalo que depende del parametro a. El dibujo recogelas funciones de densidad correspondientes a los casosa = 1, a = 2 y a = 3.

• Una variable discreta que toma tres valores:

f(k; θ) =

⎧⎪⎨⎪⎩(2 + θ)/4, si k = −1,

θ/4, si k = 0,

(2− 2θ)/4, si k = 1,

para θ ∈ Θ = [0, 1]. El soporte es sopθ = {−1, 0, 1}, para todo θ ∈ Θ. Dibujamos acontinuacion las funciones de masa para los casos θ = 0, θ = 1/2 y θ = 1:

• O quizas

f(k; θ) =

⎧⎪⎨⎪⎩(2 + θ)/4, si k = −1− θ,

θ/4, si k = 0,

(2− 2θ)/4, si k = 1 + θ,

para θ ∈ Θ = [0, 1]. Ahora el soporte es sopθ = {−1 − θ, 0, 1 + θ}, y depende delparametro θ ∈ Θ. Las funciones de masa para los casos θ = 0, θ = 1/2 y θ = 1tendrıan un aspecto similar al del ejemplo anterior, aunque los soportes respectivosserıan {−1, 0, 1}, {−3/2, 0, 3/2} y {−2, 0, 2}.

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 7: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

5.1. Generalidades sobre estimadores 7

• Podrıa darse tambien la situacion en la que solohay unos cuantos valores alternativos del parametro, esdecir, que Θ es un conjunto finito y no un intervalo. Porejemplo, cuando Θ = {0, 1} y, para θ = 0, la funcionde densidad es

f(x; 0) = 1 si x ∈ (0, 1) (y f(x; 0) = 0 si x /∈ (0, 1)) ,

mientras que para θ = 1 es

f(x; 1) =1

2√x, si x ∈ (0, 1) (y f(x; 1) = 0 si x /∈ (0, 1)).

El soporte es sopθ = (0, 1) para ambos valores del parametro.

• Si la distribucion tiene dos parametros, el espacio Θ sera un subconjunto delplano. Por ejemplo, para la normal N (μ, σ2) se tiene:

f(x;μ, σ2) =1√2πσ2

e−(x−μ)2/(2σ2) , x ∈ R ,

para (μ, σ2) ∈ Θ = R× (0,+∞). El soporte es sopμ,σ2 = R, para (μ, σ2) ∈ Θ.

Recordemos que el parametro de interes, el que queremos estimar, podrıa noser el parametro “oficial” de la distribucion. Por ejemplo, en una exp(λ) pudierainteresarnos la esperanza θ = 1/λ en lugar de λ. En este caso, para los calculos,podrıa ser mas conveniente usar la representacion

f(x; θ) =

{1θ e

−x/θ; x ≥ 0 ,

0; x < 0 .

donde θ ∈ Θ = (0,+∞). O en una poiss(λ), si en lugar de λ nos interesara estimarθ = e−λ = P(X = 0), usarıamos

f(k; θ) = θ(−1)k ln(θ)k

k!, k entero, k ≥ 0 ,

donde θ ∈ Θ = (0, 1).

A. Calculo de medias de estadısticos

En lo que sigue calcularemos medias o esperanzas usando la funcion de den-sidad/masa f(x; θ). Para insistir en que para cada valor de θ tenemos una den-sidad/masa distinta (un modelo distinto), y por tanto el resultado dependera delvalor de θ, usaremos la notacion Eθ. Las medias a las que nos referimos son de dostipos.

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 8: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

8 Capıtulo 5. Estimacion (puntual) de parametros

A1. Medias de (funciones de) la variable. Dada una variable X con funcionde densidad/masa f(x; θ), nos interesara calcular medias de variables Y = g(X),donde g es cierta funcion.

Si X es una variable continua tendremos que

Eθ(g(X)) =

∫R

g(x) f(x; θ) dx =

∫sopθ

g(x) f(x; θ) dx .

En el caso en que sea discreta, el calculo sera

Eθ(g(X)) =∑

x∈sopθ

g(x)f(x; θ) .

Usaremos, como corresponde, la notacion Vθ para la varianza de X:

Vθ(X) = Eθ(X2)−Eθ(X)2.

Tambien utilizaremos la notacion Pθ para probabilidades calculadas con f(x; θ).

Insistimos, por si no ha quedado claro: en las notaciones anteriores, el subındice θsignifica que el calculo se realiza suponiendo (o condicionando a) que el “verdade-ro” valor del parametro fuera θ. Por ejemplo, la cantidad Eθ(X

2) significa el valorde la media/esperanza de la variable X suponiendo que X tuviera la funcion dedensidad/masa f(x; θ).

Por, ejemplo, si X ∼ exp(λ) y g(x) = x2, para todo x ∈ R, entonces

Eλ(g(X)) = Eλ(X2) =

∫ ∞

0x2λe−λx dx =

2

λ2.

A2. Medias de estadısticos. La funcion de densidad/masa de la muestra alea-toria X = (X1, . . . ,Xn) viene dada por

f(x; θ) = f(x1, . . . , xn; θ) =n∏

j=1

f(xj; θ)

para θ ∈ Θ y x ∈ (sopθ)n. Fuera de (sopθ)

n, se tiene f(x; θ) ≡ 0.

En muchas ocasiones calcularemos medias de variables del tipo h(X) (es decir,de estadısticos). Usaremos la notacion

Eθ(h(X)) = Eθ(h(X1, . . . ,Xn))

para describir el valor de la media/esperanza de la variable aleatoria h(X1, . . . ,Xn)suponiendo que se trata de muestras aleatorias (X1, . . . ,Xn) de la variable X quesigue una funcion de densidad/masa f(x; θ). Al variar θ obtenemos, claro, una funcionde θ. Perdon por la insistencia.

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 9: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

5.1. Generalidades sobre estimadores 9

El calculo en sı, cuando X es continua, se plantea como sigue:

Eθ(h(X)) =

∫Rn

h(x) · f(x; θ) dx

=

∫Rn

h(x1, . . . , xn) · f(x1, . . . , xn; θ) dx1dx2 · · · dxn

=

∫(sopθ)

n

h(x1, . . . , xn) ·( n∏

j=1

f(xj ; θ))dx1dx2 · · · dxn .

Mientras que si X es discreta, tendremos

Eθ(h(X)) =∑

x∈sopnθ

h(x) f(x; θ) =∑

(x1,...,xn)∈sopnθ

h(x1, . . . , xn)

n∏j=1

f(xj; θ) .

Solo cuando la funcion h tenga una forma muy particular, sera posible evaluarexplıcitamente las integrales/sumas multiples anteriores. Y en estos casos, a vecesno es preciso usar toda esa notacion. Como ejemplos, si h(x1, . . . , xn) =

∑nj=1 αj xj,

donde α1, . . . , αn son numeros dados, usando la linealidad de la esperanza tenemos

Eθ(h(X)) = Eθ

( n∑j=1

αj Xj

)=

n∑j=1

αj Eθ(Xj) = Eθ(X)n∑

j=1

αj ;

o si h(x1, . . . , xn) = x1 · · · xn, entonces, usando la independencia,

Eθ(h(X)) = Eθ(X1 · · ·Xn) = Eθ(X1) · · ·Eθ(X1) = Eθ(X)n.

Si tomamos h(x1, . . . , xn) = max(x1, . . . , xn), y por ejemplo X es una variable con-tinua, entonces

Eθ(max(X, . . . ,Xn)) =

∫(sopθ)

n

max(x1, . . . , xn) ·( n∏

j=1

f(xj ; θ))dx1dx2 · · · dxn .

Pero en este caso suele ser mucho mas directo calcular esta integral aprovechandoque conocemos la distribucion del maximo de una muestra (apartado 4.4).

5.1.2. Sesgo de un estimador. Estimadores insesgados

La primera propiedad deseable de un estimador T es que al menos en mediano se equivoque. Decimos que T = h(X1, . . . ,Xn) es un estimador insesgado delparametro θ si

Eθ(T ) = θ para cualquier valor de θ ∈ Θ.

En palabras, el estimador T es insesgado si la media de T es exactamente θ, cuandose supone que el parametro con el que se generan las muestras es θ, y esto sea cualsea el valor de θ.

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 10: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

10 Capıtulo 5. Estimacion (puntual) de parametros

Recalcamos el “para todo θ ∈ Θ” en la definicion anterior. Podrıa darse el casode que la media de un cierto estimador coincidiera con θ para algun valor de θ, perono para todos (vease el ejemplo 5.1.8). Esto no serıa interesante, porque, recordemos,el parametro θ es desconocido, y necesitamos que la ausencia de sesgo se verifiquepara cualquier valor del parametro.

Si no se cumple que Eθ(T ) = θ para todo θ ∈ Θ, decimos que T es un estimadorsesgado de θ. La diferencia entre Eθ(T ) y θ es conocida como el sesgo del estimador:

(5.1) sesgoθ(T ) = Eθ(T )− θ.

Observe, lector, que el sesgo es una funcion de θ ∈ Θ. Si sesgoθ(T ) = 0 para todoθ ∈ Θ, T sera insesgado; si sesgoθ(T ) > 0 para todo θ ∈ Θ, entonces diremos queel estimador T esta sesgado “al alza”, mientras que estara sesgado “a la baja” sisesgoθ(T ) < 0 para todo θ ∈ Θ.

Veamos ahora algunos ejemplos. Los dos primeros son generales. Los parametrosque interesa estimar son, respectivamente, la esperanza E(X) y la varianza V(X) deuna variable aleatoria X generica. No usaremos aquı subındices que hagan alusion aestos parametros.

Ejemplo 5.1.1. Sea X una variable aleatoria cualquiera. Para estimar el parametroμ = E(X) usamos el estadıstico media muestral X.

La media muestral es un estimador insesgado de μ, pues siempre se tiene

E(X) = μ ,

por la proposicion 4.1. Ası que si tenemos la muestra x1, . . . , xn, entendemos que xes una estimacion de E(X). ♣

Ejemplo 5.1.2. Sea X una variable aleatoria cualquiera. Para estimar el parametroσ2 = V(X) usamos la cuasivarianza muestral S2.

La cuasivarianza muestral es un estimador insesgado de σ2, pues siempre tenemos(proposicion 4.3) que

E(S2) = σ2

(notese que, por tanto, la varianza muestral es un estimador sesgado de σ2).

Sin embargo, la cuasidesviacion tıpica muestral S es un estimador sesgado de σ,pues E(S)2 < E(S2) salvo si S es constante (que solo ocurre si X es constante).

� Nota 5.1.2. La desigualdad de Cauchy–Schwarz (teorema 2.3) nos dice que E(S) = E(S · 1) <E(S2)1/2E(12)1/2 = E(S2)1/2, salvo si S es constante.

Si tenemos la muestra x1, . . . , xn, entendemos que s2 = 1n−1

∑nj=1(xj − x)2 es

una estimacion de σ2. ♣

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 11: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

5.1. Generalidades sobre estimadores 11

Ejemplo 5.1.3. X ∼ N (μ, σ2).

Apelando a los ejemplos generales 5.1.1 y 5.1.2, los estadısticos X y S2 sonestimadores insesgados de μ y de σ2 respectivamente, pues μ es la media de X, y σ2

su varianza. ♣� Nota 5.1.3. Sesgo y no sesgo. Supongamos que se ha obtenido un numero N grande de realiza-

ciones independientes de (X1, . . . , X5), pongamos (xj1, . . . , x

j5) para 1 ≤ j ≤ N . Notese que n = 5.

Para cada j obtenemos una realizacion de S2, pongamos s2j , cada una de las cuales es una estimacionde σ2.

Como estimacion final de σ tenemos dos rutas:

1) Tomar un promedio de los s2j y luego tomar la raız cuadrada.

2) Tomar raız cuadrada primero, y luego, tomar promedio de los sj .

Con la primera obtenemos (por Grandes Numeros) una buena estimacion de E(S2), es decir,de σ2, y luego de σ. Con la segunda obtenemos (por Grandes Numeros) una buena estimacion deE(S), que es inferior a σ.

Digamos, por ejemplo, que X ∼ N (μ, σ2). Para muestras de tamano n de X se tiene que

E(S) =

√2

n− 1

Γ(n/2)

Γ((n− 1)/2)σ

(vease el lema 3.10). Para el caso n = 5, esto da E(S) = (3/8)√2πσ ≈ 0.93 σ.

Ejemplo 5.1.4. Supongamos X ∼ ber(p). Desconocemos p y queremos estimarlo.

Observese que Ep(X) = p y que Vp(X) = p(1 − p). Tomamos una muestrax1, . . . , xn.

Para estimar p insesgadamente podemos tomar 1n

∑nj=1 xj, la proporcion de unos

en la muestra x1, . . . , xn. Es decir, usar el estimador X.

Como alternativa podrıamos considerar S2, que es un estimador insesgado deVp(X) = p(1 − p), para a partir de ahı, “despejar” una estimacion de p. Estapropuesta alternativa tiene dos problemas, 1) al despejar p de la ecuacion p − p2 =Vp(X) tendrıamos dos raıces como estimacion de p, 2) la estimacion ası obtenidaserıa sesgada. ¡Vaya! ♣

Ejemplo 5.1.5. Supongamos que X ∼ exp(λ). Queremos estimar λ.

Como Eλ(X) = 1/λ, tendrıamos que T1 = X serıa un estimador insesgado, nodel parametro oficial λ, sino de 1/λ.

� Nota 5.1.4. Si decidimos que el parametro de la distribucion es θ = 1/λ, entonces tendrıamos queθ ∈ (0,∞), y la funcion de densidad se escribirıa como f(x; θ) = 1

θe−x/θ para x > 0. Con esta

notacion, tendrıamos que Eθ(X) = θ, y por tanto X serıa estimador insesgado de θ.

Pero si lo que pretendemos es estimar el parametro oficial λ, entonces serıa naturalconsiderar el estimador T2 = 1/X que, ¡atencion!, serıa un estimador sesgado de λ.De hecho, Eλ(1/X) > λ. Vease la nota 5.1.5 siguiente.

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 12: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

12 Capıtulo 5. Estimacion (puntual) de parametros

� Nota 5.1.5. Usando de nuevo la desigualdad de Cauchy–Schwarz (teorema 2.3): como 1 = Eλ(1) =

Eλ(√X · 1/

√X) < Eλ(X)E(1/X) = 1

λEλ(1/X), tenemos que Eλ(1/X) > λ. Ası que en media las

estimaciones de λ con T2 = 1/X serıan sesgadas al alza.

Mas detalle: como en este caso nX es una gamma(λ, n) (recuerdese la relacion entre exponen-ciales y variables Gamma de la seccion 2.3.4), tenemos que

Eλ(1/X) =n

n− 1λ ,

por (2.25). Observese como, efectivamente, Eλ(1/X) > λ, aunque cuando n es grande, el sesgo

de T2 es muy pequeno. El calculo anterior nos dice que el estimador T2 = n−1n

1

Xserıa un estimador

insesgado de λ.

Consideremos, por otro lado, el estadıstico

T3 = mın(X1, . . . ,Xn).

Como X ∼ exp(λ), se tiene que Pλ(X > t) = e−λt, para todo t > 0. Ası que,usando (4.11), tenemos que

Pλ(T3 > t) = Pλ(X > t)n = e−nt para todo t > 0.

Es decir, T3 ∼ exp(nλ): el mınimo de clones independientes de exponenciales estambien una exponencial.

De manera que Eλ(T3) = 1/(nλ) y Eλ(nT3) = 1/λ. Ası que T3 = nT3 es unestimador insesgado de 1/λ. ♣

Ejemplo 5.1.6. Tenemos X ∼ poiss(λ), con λ > 0. Planteamos dos estimacionesde parametros:

a) Estimar el parametro oficial λ.b) Estimar el parametro μ = P(X = 0). Observese que μ, que esta entre 0 y 1,

determina la distribucion de probabilidad, pues e−λ = μ, es decir, λ = ln(1/μ).

Para el caso a), como λ = Eλ(X), tenemos que Eλ(X) = Eλ(X) = λ. Ası queT1 = X es un estimador insesgado de λ.

Para la estimacion b), planteamos dos alternativas.

b.1) Como λ se puede estimar con X y μ = e−λ, podrıamos considerar el es-

tadıstico T2 = e−X para estimar μ. Por comodidad, en lugar de realizar los calculoscon μ, los haremos con el parametro original λ, para traducir al final.

Como nX ∼ Pois(nλ) (ejemplo 4.2.2), tenemos que

Pλ(X = k/n) = e−nλ (nλ)k

k!, para cada entero k ≥ 0.

Ası que

Pλ(T2 = e−k/n) = e−nλ (nλ)k

k!, para cada entero k ≥ 0

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 13: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

5.1. Generalidades sobre estimadores 13

y, por tanto.

Eλ(T2) =

∞∑k=0

e−k/ne−nλ (nλ)k

k!= e−nλ

∞∑k=0

(e−1/nnλ)k

k!

= e−nλ enλ e−1/n= e−λn(1−e−1/n) .

Deducimos finalmente que

Eμ(T2) = μn(1−e−1/n).

Como lımn→∞ n(1 − e−1/n) = 1, vemos que T2 tiende a ser un estimadorinsesgado de μ cuando n → ∞. Es decir, T2 es “asintoticamente insesgado”.

Para un n dado, T2 es estimador sesgado (al alza) de μ, puesto que μ < 1 yn(1− e−1/n) < 1 (que se sigue de que 1 + x ≤ ex, para todo x ∈ R).

En el dibujo de la derecha representamos las grafi-cas de Eμ(T2) para n = 2, n = 3 y n = 10, junto conla funcion g(μ) = μ, la bisectriz, que corresponderıa asesgo 0. Observese cuan rapidamente se va perdiendoel sesgo segun crece n.

b.2) Como estimador alternativo, podemos consi-derar el estadıstico T3 que cuenta la proporcion de ce-ros en (X1, . . . ,Xn):

T3 =1

n#{1 ≤ i ≤ n : Xi = 0} .

La variable nT3 es bin(n, μ), de manera que T3 es un estimador insesgado de μ. ♣

Ejemplo 5.1.7. Supongamos que X ∼ unif[0, a]. Desconocemos a, que es el parame-tro que pretendemos estimar.

Consideremos el estimador

T1 = max(X1, . . . ,Xn).

Como por (4.8) para cada x ∈ [0, a] se tiene que

Pa(T1 ≤ x) = Pa(X ≤ x)n =(xa

)n,

la funcion de densidad de T1 resulta ser

fT1(x; a) =

⎧⎨⎩nxn−1

an, si 0 ≤ x ≤ a ,

0, en caso contrario ,

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 14: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

14 Capıtulo 5. Estimacion (puntual) de parametros

y, por tanto,

Ea(T1) =

∫ a

0xn

xn−1

andx =

n

n+ 1a = a

=sesgoa︷ ︸︸ ︷−a

1

n+ 1.

Ası que T1 es estimador sesgado (a la baja) de a, mientras que

T1 =n+ 1

nT1

es un estimador insesgado de a.

Podemos tomar como estimador alternativo del parametro a al estadıstico T2 =2X , porque como Ea(X) = a/2, resulta que Ea(T2) = Ea(2X) = 2Ea(X) =2Ea(X) = a, de manera que T2 es un estimador insesgado del parametro a. ♣

En este siguiente ejemplo se exhibe un estimador T de un parametro θ para elque Eθ(T ) coincide con θ solo para algunos valores de θ ∈ Θ; de hecho, para ununico2 valor de θ.

Ejemplo 5.1.8. Partimos de X ∼ ber(p). Desconocemos p y queremos estimarlocon una muestra de tamano 3.

Proponemos el estimador

T (X1,X2,X3) =max(X1,X2,X3) + mın(X1,X2,X3)

2.

El estimador toma el valor 1 con probabilidad p3 (solo cuando X1 = X2 = X3 =1), el valor 0 con probabilidad (1 − p)3 (cuando X1 = X2 = X3 = 0), y el valor 1/2en el resto de los casos, es decir, con probabilidad 1− p3 − (1− p)3.

De manera que

Ep(T ) = p3+1

2(1−p3−(1−p)3) =

1

2+1

2(p3−(1−p)3).

Observese, en la figura de la izquierda, que Ep(T ) = ppara p = 1/2, pero Ep(T ) �= p para el resto de losvalores de p. ♣

5.1.3. Varianza de un estimador

Para un estimador insesgado y, en general, para cualquier estimador, es deseableque su varianza sea pequena. Si Vθ(T ) es pequena, por la desigualdad de Chebyshevtendremos que es poco probable que sus realizaciones se diferencien mucho de Eθ(T ),

2Casi como un reloj parado que da la hora bien dos veces al dıa.

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 15: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

5.1. Generalidades sobre estimadores 15

ası que si ademas T es estimador insesgado, sera muy probable que las estimacionesde θ esten proximas a θ:

Pθ(|T − θ| ≥ ε) ≤ Vθ(T )

ε2.

De manera que, por ejemplo,

Pθ(|T − θ| ≤ 10√

Vθ(T )) ≥ 99% .

Ası que es muy probable (99%) que la estimacion dada por una realizacion de Tno se aleje mas de 10

√Vθ(T ) del valor del parametro a estimar θ. Pero, claro, esto

es relevante solo si Vθ(T ) es pequeno.

Un estimador con mucha varianza es poco util, porque tendremos poca confianzaen sus estimaciones. Por eso se usan muestras de tamano n, a ser posible, grande.Una muestra X1 de tamano n = 1 es un estimador insesgado de Eθ(X), pero con unamuestra de tamano n el estimador X es asimismo insesgado peroVθ(X) = Vθ(X)/n.

Si T1 y T2 son estimadores insesgados del mismo parametro θ, decimos que T1

es mas eficiente que T2 si, para todo θ ∈ Θ,

Vθ(T1) < Vθ(T2) para cualquier valor de θ ∈ Θ.

Desde luego, si tanto T1 como T2 son estimadores insesgados de θ, preferimos aquelque tenga menos varianza. Para estimadores sesgados la preferencia ya no esta tanclara. Vease el apartado 5.1.4.

Ejemplo 5.1.9. unif[0, a]. Retomamos el ejemplo 5.1.7.

En el ejemplo 5.1.7 considerabamos dos estimadores del parametro a de unavariable X ∼ unif[0, a]:

T1 =n+ 1

nmax(X1, . . . ,Xn) y T2 = 2X .

Ambos son estimadores insesgados del parametro a. Para T2 tenemos que

Va(T2) = 4Va(X) =4

nVa(X) =

4

n

a2

12=

a2

3n.

Para T1 tenemos

Ea(T21 ) =

(n+ 1

n

)2 ∫ a

0x2 n

xn−1

andx =

(n+ 1)2

n(n+ 2)a2 ,

de manera que

Va(T1) =[ (n+ 1)2

n(n+ 2)− 1]a2 =

1

n(n+ 2)a2 .

Ası que T1 es mas eficiente que T2, pues Va(T1) < Va(T2) para todo a > 0 (y paracada n ≥ 1). ♣

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 16: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

16 Capıtulo 5. Estimacion (puntual) de parametros

5.1.4. Error cuadratico medio

Si T = h(X1, . . . ,Xn) es un estimador del parametro θ, definimos su errorcuadratico medio como

(5.2) ecmθ(T ) = Eθ

((T − θ)2

).

Si T es insesgado, entonces ecmθ(T ) = Vθ(T ), pues en ese caso θ = Eθ(T ) (veasetambien el lema 5.1).

Para estimadores generales, no necesariamente insesgados, esta es la cantidadnatural para medir cuan bueno es un estimador: es el error que, en media, se cometeal estimar que θ es el valor de T . Si ecmθ(T ) es pequeno significa que es muy probableque las realizaciones de T esten proximas a θ.

Si T1 y T2 son estimadores del parametro θ se dice que T1 es mas eficienteque T2 si, para todo θ ∈ Θ,

ecmθ(T1) < ecmθ(T2) .

En el caso de estimadores insesgados, esta definicion de “mas eficiente” coincide conla del apartado anterior.

Llamamos la atencion, ¡de nuevo!, sobre la frase “para todo θ ∈ Θ”. Si paraalgunos valores de θ se tuviera que ecmθ(T1) < ecmθ(T2), mientras que para otrosocurriera que ecmθ(T1) > ecmθ(T2), entonces los estimadores no serıan comparablesdesde este punto de vista de la eficiencia. Vease el ejemplo 5.1.12.

El ECM de un estimador se puede escribir como la suma de la varianza y el sesgo(al cuadrado) del estimador:

Lema 5.1ecmθ(T ) = Vθ(T ) +

(Eθ(T )− θ)

)2.

Demostracion. Llamemos, por simplificar la notacion, μ = Eθ(T ). Entonces,

ecmθ(T ) = Eθ

((T − θ)2

)= Eθ

([(T − μ) + (μ− θ)

]2)= Eθ

((T − μ)2

)+ 2(μ − θ)Eθ(T − μ) + (μ − θ)2 = Eθ

((T − μ)2

)+ (μ− θ)2 ,

donde hemos usado queEθ(T ) = μ para cancelar el segundo sumando de la penultimaexpresion. �

En general, son preferibles los estimadores insesgados. Sin embargo, el lema 5.1nos dice, en particular, que en algun caso pudiera ser mas adecuado un estimadorsesgado con poco ecm que un estimador insesgado con mucha varianza, pues lorelevante en cuanto a error de estimacion es la suma del sesgo (al cuadrado) mas lavarianza.

Observese que si T es un estimador de un parametro θ, entonces la desigualdadde Markov (teorema 2.2) da que

(|T − θ| ≥ ε) ≤ ecmθ(T )

ε2.

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 17: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

5.1. Generalidades sobre estimadores 17

Es decir, que si ecmθ(T ) es pequeno entonces es (relativamente) poco probable quelas estimaciones de θ obtenidas con T yerren demasiado.

Ejemplo 5.1.10. La cuasivarianza y la varianza muestrales como estimadores dela varianza de variables normales.

Sea X una variable normal con media μ y varianza σ2. Como sabemos, S2 es unestimador insesgado de σ2; esto es un hecho general. La varianza de S2 tiene, parauna normal de parametros μ y σ2, la siguiente expresion:

Vμ,σ2(S2) =2σ4

n− 1.

Para comprobarlo, podemos usar la expresion general de la varianza de S2 del coro-lario 4.5, junto con el que Eμ,σ2((X − μ)4) = 3σ4 (nota 2.3.4). O mas directamente,recordar, del teorema 4.6 de Fisher–Cochran, que (n − 1)S2/σ2 ∼ χ2

n−1, y que lavarianza de una χ2

n−1 vale 2(n− 1).

Ası que el ecm de S2 como estimador de σ2 es tambien

() ecmμ,σ2(S2) =2σ4

n− 1.

Consideremos ademas el estadıstico

D2 =1

n

n∑j=1

(Xj −X)2 .

Este estadıstico D2 (la varianza muestral) es estimador sesgado de σ2. En concreto,como D2 = n−1

n S2 tenemos que

Eμ,σ2(D2) =n− 1

nEμ,σ2(S2) =

n− 1

nσ2 = σ2 − 1

nσ2,

y por tanto que el sesgo de D2 como estimador de σ2 es −σ2/n. Por otro lado,

Vμ,σ2(D2) =(n− 1)2

n2Vμ,σ2(S2) =

(n− 1)2

n2

2σ4

n− 1=

2(n− 1)σ4

n2,

de manera que el ecm de D2 como estimador de σ2 es

() ecmμ,σ2(D2) =σ4

n2+

2(n − 1)σ4

n2=(2n− 1

n2

)σ4 .

Comparando () y (), y como para todo n > 1 se tiene que(2n− 1

n2

)<

2

n− 1,

resulta que D2, aunque sesgado, es un estimador de σ2 mas eficiente que S2. ♣

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 18: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

18 Capıtulo 5. Estimacion (puntual) de parametros

Ejemplo 5.1.11. poiss(λ). Retomamos el ejemplo 5.1.6.

Interesa estimar el parametro μ = e−λ. En el citado ejemplo proponıamos losestimadores

T2 = e−X y T3 =1

n#{1 ≤ i ≤ n : Xi = 0}.

Como nT3 ∼ bin(n, μ), el estimador T3 resulta ser insesgado, y

ecmμ(T3) = Vμ(T3) =1

n2Vμ(bin(n, μ)) =

1

n2nμ(1− μ) = μ(1− μ)

1

n,

o en otros terminos,

(5.3) n · ecmμ(T3) = μ(1− μ) .

El estimador T2, por su parte, es sesgado al alza; aunque es asintoticamente in-sesgado. (En lo que sigue, como en el ejemplo 5.1.6, calcularemos con el parametro λ,para traducir al final a μ). De hecho,

(5.4) sesgoλ(T2) = Eλ(T2)− e−λ = e−λn(1−e−1/n) − e−λ.

Vamos con el calculo de la varianza. Procediendo de manera analoga a la delejemplo 5.1.6, se obtiene que

Eλ(T22 ) = e−λn(1−e−2/n),

y, por tanto,

(5.5) Vλ(T2) = Eλ(T22 )−Eλ(T2)

2 = e−λn(1−e−2/n) − e−2λn(1−e−1/n) .

Las expresiones (5.4) y (5.5) son un tanto complicadas, y conviene analizarlasasintoticamente, cuando n → ∞. Usaremos que, para u > 0,

(5.6) 1− e−u = u− u2

2+O(u3) , cuando u → 0.

Llamemos xn = n(1− e−1/n), que es una sucesion que tiende a 1 cuando n → ∞(recuerdese el ejemplo 5.1.6 o usese (5.6)). La expresion (5.4) se puede reescribircomo

sesgoλ(T2) = e−λxn − e−λ,

lo que nos da, usando la definicion de derivada, que

sesgoλ(T2)

|xn − 1| −−−→n→∞ λ e−λ.

Y como, por (5.6),

xn = n(1− e−1/n) = 1− 1

2n+O

( 1

n2

)y por tanto 2n(1− xn) −−−→

n→∞ 1,

deducimos que

2n |sesgoλ(T2)| −−−→n→∞ λ e−λ, o bien que 4n2 |sesgoλ(T2)|2 −−−→

n→∞ λ2 e−2λ.

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 19: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

5.1. Generalidades sobre estimadores 19

Para la varianza, argumentamos como sigue. Introducimos la sucesion yn = n2 (1−

e−2/n), que tiende a 1 cuando n → ∞, y para la que, de hecho, por (5.6),

yn = 1− 1

n+O

( 1

n2

).

La expresion (5.5) se puede reescribir como

Vλ(T2) = e−2λ yn − e−2λ xn ,

donde xn es la sucesion considerada anteriormente. Usando de nuevo la nocion dederivada, tenemos que

Vλ(T2)

|xn − yn| −−−→n→∞ 2λ e−2λ,

y como |xn − yn| = 1/(2n) +O(1/n2), concluimos que

n ·Vλ(T2) −−−→n→∞ λ e−2λ.

Finalmente,

n · ecmλ(T2) = n ·Vλ(T2) + n · sesgo2λ(T2) −−−→n→∞ λ e−2λ.

Listo. Ya podemos comparar. Tenemos (escribiendo en terminos de λ) que

n · ecmλ(T3) = e−λ(1− e−λ) y n · ecmλ(T2) −−−→n→∞ λ e−2λ.

Comoλ e−2λ

e−λ(1− e−λ)=

λ e−λ

1− e−λ=

λ

eλ − 1< 1,

pues ex > 1 + x para todo x ∈ R, concluimos que, en cuanto n sea moderadamentegrande, el estimador T2 tiene menor ecm que T3, a pesar de que este ultimo esti-mador sea insesgado. En realidad, la conclusion es cierta para todo n ≥ 2, como semuestra en las siguientes graficas, en las que se han dibujado los respectivos ecm(las expresiones exactas) para n = 2, n = 10 y n = 500:

� Nota 5.1.6. Verificar la comparacion que se destila de las graficas anteriores, para todo n ≥ 2, exigeanalisis mas detallados que van mas alla del uso de las comodas estimaciones asintoticas como (5.6),y no lo haremos aquı.

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 20: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

20 Capıtulo 5. Estimacion (puntual) de parametros

Ejemplo 5.1.12. Estimadores del parametro p de X ∼ ber(p) con muestras detamano 2.

Recuerdese que Ep(X) = p y Vp(X) = p(1 − p). Consideramos los siguientesestimadores del parametro p:

T1 =X1 +X2

2y T2 = mın(X1,X2).

De T1 ya sabemos que es insesgado y que su varianza es Vp(T1) = p(1 − p)/2. Porlo tanto,

ecmp(T1) =1

2p(1− p).

Por su parte, el estimador T2 es tambien una variable Bernoulli, de parametro p2

(pues solo vale 1 cuando X1 = X2 = 1), ası que

Ep(T2) = p2 = p−p(1− p)︸ ︷︷ ︸=sesgo

y Vp(T2) = p2(1− p2).

Esto nos da que

ecmp(T2) = p2(1− p2) + p2(1− p)2 = 2p2(1− p).

Las graficas de las funciones ecmp(T1) y ecmp(T1) parap ∈ (0, 1) se representan a la derecha. Observese comose cruzan. Ası que no podemos concluir nada sobrecual de los dos estimadores es mas eficiente, a menosque dividamos la discusion en dos regiones de Θ.

Para muestras de tamano n generico, tomando como estimador T1 la mediaaritmetica, y como T2 el mınimo, los respectivos ecm vienen dados por ecm(T1) =p(1−p)/n y ecm(T2) = pn(1−pn)+p2(1−pn−1)2. Estas dos funciones se cruzan en elespacio de parametros. Pero en cuanto n es moderadamente grande, el estimador T1,la media aritmetica, resulta ser mucho mejor que T2 para casi todos los valores de p,excepto los muy pequenos. Veanse en las figuras el caso n = 10:

La de la izquierda muestra como el ecm del mınimo es considerablemente mas altoque el de la media aritmetica en casi todos los valores de p, pero no en todos, comose ilustra con el zoom para valores pequenos de p de la derecha. ♣

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 21: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

5.2. Metodos de construccion de estimadores 21

5.2. Metodos de construccion de estimadores

Vamos ahora a presentar los dos metodos generales, de amplio espectro, de cons-truccion de estimadores: metodo de momentos y metodo de maxima verosimilitud.

5.2.1. Metodo de momentos

La idea de este metodo es natural, y se basa en que, dada una muestra (x1, . . . , xn)de la variable X que sigue una distribucion dada por f(x; θ),

la media muestral x “debe parecerse” a la media poblacional Eθ(X) (la espe-ranza de X si se diera el parametro θ);

la media poblacional Eθ(X) es de hecho una funcion de θ.

“Por consiguiente”, asimilando el “debe parecerse” con “coincide”,

planteamos la ecuacion (con incognita θ)

(†) Eθ(X) = x ,

despejamos θ de la ecuacion (†),esta es la estimacion por momentos de θ, a la que nombramos como θ.

Veamos un ejemplo numerico sencillo. Digamos que tenemos la siguiente muestrade tamano 8 de una X ∼ ber(p):

(0, 1, 1, 0, 1, 1, 1, 0).

La media muestral es x = 5/8. Por otro lado, Ep(X) = p. De manera que planteamosla ecuacion

p = 5/8,

cuya solucion es, obviamente, p = 5/8. Esta serıa la estimacion de p por momentospara la muestra dada.

La estimacion ası obtenida depende, claro, de la muestra, y en este caso parti-cular del valor de x. Distintas muestras, digamos de tamano 8, producirıan distintasestimaciones (en funcion de cuantos unos contengan), pero con una “formula” comunpara todas ellas (la media aritmetica, en este caso).

En lo que sigue, y para analisis posteriores de cuan buenos resultan ser los es-timadores obtenidos por este metodo, consideraremos la contrapartida teorica habi-tual, y elevaremos la notacion, considerando variables aleatorias: tendremos muestras(X1, . . . ,Xn) de la variable X, y nos referiremos a la solucion de la ecuacion

(5.7) Eθ(X) = X

como el estimador por momentos de θ, en sımbolo: Mθ(X1, . . . ,Xn).

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 22: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

22 Capıtulo 5. Estimacion (puntual) de parametros

Este metodo requiere, primero, disponer de una expresion explıcita de Eθ(X) enterminos de θ, y luego resolver la ecuacion (5.7) para obtener la estimacion; estoultimo, por cierto, no es siempre inmediato (vease el ejemplo 5.2.5).

En algun caso, por ejemplo cuando resulta que Eθ(X) = 0 para todo θ, la ecua-cion (5.7) no tiene contenido, y apelaremos a otros momentos, como Eθ(X

2) o aVθ(X) (o, incluso, si hiciera falta, a Eθ(X

k) con k ≥ 3). Esta es la razon del nombredel metodo. De hecho, para cada momento de la variable se obtiene, en general, unestimador distinto. Si por ejemplo optaramos por utilizar el segundo momento, laecuacion correspondiente serıa

Eθ(X2) = x2,

mientras que usando la varianza tendrıamos que plantear

Vθ(X) = Eθ(X2)−Eθ(X)2 = x2 − x2.

Cuando hay varios parametros, como en las variables normales o en las variablesgamma, se hace imprescindible recurrir a varios momentos.

Veamos ahora unos cuantos ejemplos, en los que ya empleamos la notacion devariables aleatorias, que ilustran todas estas posibilidades. Empezamos con:

Ejemplo 5.2.1. Estimacion por momentos en algunos de los modelos habituales.

a) X ∼ ber(p). Dada una muestra (x1, . . . , xn), como Ep(X) = p, la ecuacion es

p = x =⇒ p = x,

y el estimador esMp(X1, . . . ,Xn) = X . El estimador Mp es el estadıstico que registrala proporcion de unos en la muestra (X1, . . . ,Xn); la estimacion p, dada la lista(x1, . . . , xn) de ceros y unos, viene dada por la proporcion de unos en esa lista.

b) X ∼ exp(λ). Dada una muestra (x1, . . . , xn), como Eλ(X) = 1/λ, tenemos

1

λ= x =⇒ λ =

1

x,

y por tanto el estimador es Mλ(X1, . . . ,Xn) = 1/X .

c) X ∼ poiss(λ). Dada una muestra (x1, . . . , xn), como Eλ(X) = λ, tenemos

λ = x =⇒ λ = x,

y el estimador es Mλ(X1, . . . ,Xn) = X .

d) X ∼ unif[0, a]. Dada una muestra (x1, . . . , xn), como Ea(X) = a/2,

a

2= x =⇒ a = 2x;

el estimador por momentos de a es Ma(X1, . . . ,Xn) = 2X .

e) X ∼ N (μ, σ2). En este modelo tenemos un par de parametros, μ y σ2. Tenemosque Eμ,σ2(X) = μ y que Vμ,σ2(X) = σ2.

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 23: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

5.2. Metodos de construccion de estimadores 23

Dada una muestra (x1, . . . , xn), planteamos el sistema de ecuaciones{μ = x,

σ2 = x2 − x2,

del que se obtienen inmediatamente las estimaciones μ y σ2, y los correspondientesestimadores por momentos de los parametros μ y σ2:

Mμ(X1, . . . ,Xn) = X y Mσ2(X1, . . . ,Xn) = D2.

(Recuerdese que D2 = 1n

∑nj=1(Xj −X)2 = X2 −X

2). Observese que Mσ2 no es S2.

� Nota 5.2.1. Si usamos los dos primeros momentos, y no la media y la varianza, se obtienen losmismos estimadores:{

Eμ,σ2(X) = μ = x

Eμ,σ2(X2) = σ2 + μ2 = x2,−→ Mμ(X1, . . . , Xn) = X y Mσ2(X1, . . . , Xn) = D2.

f) X ∼ gamma(λ, t). El sistema de ecuaciones es, recordando los momentos delas variables Gamma, vease (2.23),⎧⎪⎨⎪⎩

Eλ,t(X) =t

λ= x,

Vλ,t(X) =t

λ2= x2 − x2.

=⇒

⎧⎪⎪⎨⎪⎪⎩λ =

x

x2 − x2,

t =x2

x2 − x2.

Los correspondientes estimadores son

Mλ(X1, . . . ,Xn) =X

D2y Mt(X1, . . . ,Xn) =

X2

D2. ♣

Aunque solo haya un parametro, a veces el primer momento no da informacion.

Ejemplo 5.2.2. Consideremos la funcion de densidad (de una variable aleatoriatriangular, simetrica con moda y media en 0) dada por

f(x; θ) =

{1θ (1− |x|/θ) , si |x| < θ,

0 , en otro caso,

donde θ ∈ Θ = (0,+∞).

En este caso Eθ(X) = 0 para todo θ ∈ (0,+∞). De hecho, por simetrıa, todoslos momentos impares son cero. Los momentos pares son

Eθ(X2k) = 2

∫ θ

0

1

θ

(1− x

θ

)x2k dx =

1

(2k + 1)(k + 1)θ2k,

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 24: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

24 Capıtulo 5. Estimacion (puntual) de parametros

y en particular, Eθ(X2) = θ2/6. Por consiguiente, para una muestra (x1, . . . , xn)

tendrıamos, usando el segundo momento, la siguiente estimacion:

θ2

6= x2 =⇒ θ =

√6x2,

mientras que

Mθ(X1, . . . ,Xn) =√

6X2

serıa el estimador usando el segundo momento. ♣

En principio se pueden usar cualesquiera momentos, y se obtendran estimadoresalternativos.

Ejemplo 5.2.3. X ∼ poiss(λ).

Si se usa el primer momento, la media Eλ(X) = λ, obtenemos el estimadorMλ(X1, . . . ,Xn) = X. Usando que Vλ(X) = λ, tendrıamos el estimador alternativoM�

λ(X1, . . . ,Xn) = D2. ♣

Ejemplo 5.2.4. X ∼ ray(σ2).

Recuerde, lector, el apartado 3.3.4, y en particular la expresion (3.16). Los dosprimeros momentos de una ray(σ2) son

Eσ2(X) =√

π/2 σ , Eσ2(X2) = 2σ2 .

Esto nos da dos estimaciones del parametro σ2 para una muestra (x1, . . . , xn)dada: √

π

2σ = x =⇒ σ2 =

2

πx2, y 2σ2 = x2 =⇒ σ2 =

x2

2,

y los dos estimadores alternativos para el parametro σ2 siguientes:

Mσ2(X1, . . . ,Xn) =2

πX

2y Mσ2(X1, . . . ,Xn) =

12 X

2 .

Como veremos mas adelante (ejemplo 5.4.10), este segundo estimador Mσ2 (queproviene del segundo y no del primer momento) tiene mejores propiedades. ♣

Como se ilustra en el siguiente ejemplo, a veces no es facil despejar θ en laecuacion Eθ(X) = x.

Ejemplo 5.2.5. Para λ > 0, consideremos la funcion de densidad

f(x;λ) =

{λe−λx , para x > 1 ,

1− e−λ , para 0 ≤ x ≤ 1 .

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 25: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

5.2. Metodos de construccion de estimadores 25

Se trata de una exponencial para x > 1, con elresto de la probabilidad repartida uniformementeen [0, 1]. Vease la figura de la derecha. Como

Eλ(X) =1

2+ e−λ

(12+

1

λ

),

la estimacion λ viene dada implıcitamente por

x =1

2+ e−λ

(12+

1

λ

).

No “sabemos” despejar λ de la ecuacion anterior, y para cada muestra habra queresolverla numericamente.

Observe, lector, ademas, que la funcion λ �→ 12 + e−λ

(12 + 1

λ

)decrece desde +∞

hasta 1/2 cuando λ varıa de 0 a ∞. Ası que, ¡atencion!, si la media x de una muestrade X fuera < 1/2 no se tendrıa estimacion por momentos. ♣

Ejemplo 5.2.6. La variable X se escribe como la suma de dos variables X1 y X2

independientes, donde X1 ∼ ber(p) y X1 ∼ ber(1−p). El parametro p es un numeroentre 0 y 1.

Compruebe, lector, que la variable X toma valores 0, 1 y 2, con probabilidadesp(1 − p), p2 + (1 − p)2 y p(1 − p), respectivamente. Para empezar, Ep(X) = 1, asıque no podemos utilizar el primer momento para obtener estimaciones de p. Usandoque X2 toma los valores 0, 1 y 4 con las mismas probabilidades de antes, obtenemosque

Vp(X) = Ep(X2)− 1 = p2 + (1− p)2 + 4p(1− p)− 1 = 2p(1− p).

Dada una muestra (x1, . . . , xn), la estimacion por momentos (usando la varianza) seobtendrıa resolviendo la ecuacion (de segundo grado en p)

p(1− p) =1

2

(x2 − x2

).

Ahora, la funcion p �→ p(1 − p) en p ∈ (0, 1)no es monotona: es simetrica en torno a p = 1/2,vale 0 en los extremos, y alcanza su maximo (elvalor 1/4) en p = 1/2. Ası que, primero, si porventura la varianza muestral fuera un numeromayor que 1/2, la ecuacion anterior no tendrıasolucion; y segundo, en el caso en el que la va-rianza muestral fuera menor que 1/2, habrıa dos

estimaciones para p por momentos (simetricas con respecto a 1/2). En puridad, solotendrıamos estimacion unica por momentos en el (muy improbable) caso de que lavarianza muestral valiera justamente 1/2. Vease la figura. ♣

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 26: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

26 Capıtulo 5. Estimacion (puntual) de parametros

5.2.2. Metodo de maxima verosimilitud

El de maxima verosimilitud es el metodo general, y mas importante, de construirbuenos estimadores de parametros.

Para describirlo, empecemos con una variable X discreta y con funcion de masaf(x; θ), donde x ∈ A = sop(X) y θ ∈ Θ. Tenemos la muestra aleatoria (X1, . . . ,Xn)formada por clones de X independientes entre sı.

A priori, la probabilidad, conocido θ, de obtener una realizacion especıfica (po-tencial) (x1, . . . , xn) de (X1, . . . ,Xn) viene dada por

()n∏

j=1

f(xj; θ) .

En la practica (estadıstica) la situacion es justo la contraria, disponemos de unamuestra observada (x1, . . . , xn), pero desconocemos θ.

El metodo de maxima verosimilitud consiste, para (x1, . . . , xn) dado, en tomarcomo estimacion de θ al valor de θ, digamos θ, que hace maxima la expresion (). En-tendemos que θ es el valor de θ mas verosımil dada la muestra observada (x1, . . . , xn),es decir, el que asocia mas probabilidad a la ocurrencia (x1, . . . , xn).

A priori: probabilidad de realizaciones;a posteriori, verosimilitud de parametros.

Veamos un ejemplo numerico. Digamos que tenemos la siguiente muestra detamano 8 de una X ∼ ber(p):

(0, 1, 1, 0, 1, 1, 1, 0).

La expresion (), en este caso, es p5(1 − p)3, pueshay 5 unos y 3 ceros. Vease la grafica de la derecha. Elmaximo se alcanza justamente en p = 5/8 = 62.5%.Este maximo se puede calcular numericamente o, comoveremos en un momento, y como ya estara sospechando el lector (a la vista de que 5/8es la proporcion de unos en la muestra), analıticamente.

A. Funcion de verosimilitud y estimacion por maxima verosimilitud

Planteamos el metodo en general. La variable aleatoria X tiene funcion de ma-sa/densidad f(x; θ), con θ ∈ Θ. Disponemos de una muestra aleatoria (x1, . . . , xn)de X. Definimos la funcion de verosimilitud (de la muestra) como

(5.8) vero(θ;x1, . . . , xn) =n∏

j=1

f(xj; θ) .

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 27: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

5.2. Metodos de construccion de estimadores 27

Aquı, la variable de la funcion es θ; lo que va detras del punto y coma, la muestra(x1, . . . , xn) ∈ sopθ, se supone fija, y desempena el papel de parametro. La defini-cion (5.8) es valida tanto para variables discretas como para variables continuas3.

En el caso en el que la funcion θ �→ vero(θ;x1, . . . , xn) tenga un maximo global(unico) en θ ∈ Θ, diremos que θ es la estimacion por maxima verosimilitud.

La funcion de verosimilitud es un producto de unos cuantos (quizas muchos) fac-tores, muchas veces numeros menores o iguales que 1. Si se pretende encontrar elmaximo numericamente, tendremos dificultades (computacionales) porque los valo-res de la funcion suelen ser extraordinariamente pequenos; y si se intenta un enfoqueanalıtico, por ejemplo derivando, sera tambien aparatoso, pues hay que derivar pro-ductos. Por eso es habitual4 considerar la funcion de log-verosimilitud, que no esmas que el logaritmo de la anterior:

(5.9) logvero(θ;x1, . . . , xn) = ln(vero(θ;x1, . . . , xn)

)=

n∑j=1

ln f(xj; θ) .

Ahora, observese, la expresion involucra sumas, y no productos.

Si la funcion vero alcanza un maximo global en θ ∈ Θ, entonces la funcionlogvero tiene tambien un maximo global en ese punto.

Como ilustracion de las complicaciones computacionales a las que antes aludıamos,vea el lector las dos siguientes figuras, y atienda en especial a la escala vertical.

vero(p) logvero(p)

En ellas hemos representado la funcion de verosimilitud y su logaritmo para unamuestra de tamano n = 80 procedente de una variable de Bernoulli ber(p). Lamuestra en sı (una lista de ceros y unos) contiene 56 unos. En ambos casos, elmaximo se alcanza en el mismo valor, que resulta ser 56/80 (vease el detalle en elejemplo 5.2.7). Pero mientras que los valores de la funcion de verosimilitud son delorden de 10−22, los de su logaritmo son del orden de cientos (aunque negativos).

En lo que sigue, escribiremos muchas veces simplemente vero(θ) o logvero(θ)para las funciones de verosimilitud o de log-verosimilitud, sin referencia a la muestra(x1, . . . , xn), que se supone fijada.

3Salvo que, en el caso continuo, los valores de la funcion de densidad no se pueden interpretarcomo probabilidades, como sı ocurre en el caso discreto.

4Como logvero suele tomar valores negativos, hay quien usa −logvero y calcula el mınimo.

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 28: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

28 Capıtulo 5. Estimacion (puntual) de parametros

B. Estimador por maxima verosimilitud

Como en el caso del metodo de momentos, la estimacion por maxima verosimili-tud depende de la muestra (x1, . . . , xn). Para analisis posteriores, relacionados con labondad de estas estimaciones, conviene elevar el enfoque y la notacion considerandoel modelo de muestreo aleatorio (X1, . . . ,Xn), y denotando por emvθ(X1, . . . ,Xn)al estimador por maxima verosimilitud de θ.

Insistimos en la notacion: en calculos con muestras (x1, . . . , xn), usaremos θ parala estimacion de θ por maxima verosimilitud dada la muestra; y designaremos comoemvθ(X1, . . . ,Xn) al estadıstico estimador de θ por maxima verosimilitud.

C. Calculo de estimadores por maxima verosimilitud

La definicion de la estimacion del parametro θ por maxima verosimilitud exigeque la funcion de verosimilitud (5.8) de la muestra tenga un unico maximo global.De manera que el primer paso de nuestro analisis, como ilustraremos en los ejemplosque siguen, ha de ser la comprobacion a priori de que efectivamente hay maximoglobal en el espacio de parametros Θ.

Una vez hecho esto, el calculo en sı de la estimacion se puede obtener, en muchasocasiones, analıticamente.

Una situacion habitual (como comprobara el lector en los ejemplos 5.2.7–5.2.10que siguen) es aquella en la que el espacio de parametros Θ es un intervalo Θ = (a, b),con −∞ ≤ a < b ≤ +∞, y en la que comprobamos que la funcion vero(θ)

es derivable en (a, b),

se anula en θ = a y θ = b, en el sentido de que lımθ↓a vero(θ) = 0 ylımθ↑b vero(θ) = 0,

y tiene un unico punto crıtico en (a, b).

En esta situacion, que como hemos dicho es frecuente, la funcion continua y posi-tiva vero(θ) ha de tener un maximo global en (a, b), pues se anula en sus extremos.Como vero(θ) es derivable, ese maximo global ha de alcanzarse en un punto crıtico,que hemos supuesto es unico. Ası que este unico punto crıtico es el unico maximoglobal de vero(θ) y, por tanto, es la estimacion de maxima verosimilitud.

De manera que, en la situacion descrita, el calculo de la estimacion de θ pormaxima verosimilitud se realiza con la siguiente:

Receta generica para el calculo de emvθ

1. Se forma vero(θ;x1, . . . , xn).

2. Se toma su logaritmo: logvero(θ;x1, . . . , xn) = ln(vero(θ;x1, . . . , xn)).

3. Se deriva respecto de θ y se iguala a 0:

(†) ∂θ(logvero(θ;x1, . . . , xn)) = 0 .

4. Se resuelve la ecuacion (†), despejando θ en terminos de (x1, . . . , xn).

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 29: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

5.2. Metodos de construccion de estimadores 29

Usaremos, en lo que sigue de capıtulo, el sımbolo ∂θ, en lugar de ∂/∂θ, paradenotar derivadas respecto de θ. Aunque solo haya un parametro, no usaremos ni dθni d/dθ.

Para los casos de distribuciones que dependan de dos (o mas) parametros, lareceta correspondiente (para hallar puntos crıticos) requerirıa calcular las derivadasparciales de la funcion de verosimilitud (o de su logaritmo), igualarlas a cero, yresolver el sistema de ecuaciones. Vease el ejemplo 5.2.11.

Pero, ¡atencion!, lector, no siempre nos encontramos en la (exigente) situacionanterior. En ocasiones, porque la funcion de verosimilitud no es derivable en todopunto (vease el ejemplo 5.2.13); en otros casos (ejemplo 5.2.16), porque la funcion deverosimilitud tiene varios maximos locales. O incluso podrıa darse el caso de que notuviera sentido derivar la funcion de verosimilitud, porque, por ejemplo, el espaciode parametros fuera finito (ejemplo 5.2.15).

D. Ejemplos

Tratamos primero ejemplos donde la funcion de densidad/masa depende de unparametro, luego ejemplos con varios parametros, y cerramos analizando ejemplosdonde el estimador de maxima verosimilitud no se obtiene a traves de puntos crıticos,o donde no hay estimador de maxima verosimilitud pues hay varios maximos de lafuncion de verosimilitud.

D1. Funciones de densidad/masa con un parametro.

Ejemplo 5.2.7. Maxima verosimilitud para X ∼ ber(p).

La variable X ∼ ber(p) toma solo los valores 0 y 1. El parametro p ∈ [0, 1].

Dada la muestra observada (x1, . . . , xn), la funcion de verosimilitud es, para cadap ∈ [0, 1],

vero(p;x1, . . . , xn)) = p#{xi=1} (1− p)#{xi=0} = pnx (1− p)n−nx .

A la derecha hemos escrito la funcion de verosimilitud en terminos de la mediamuestral, que en este caso es solo la proporcion de unos en la muestra.

La funcion vero(p) es derivable y no negativa. Si la muestra fuera tal que x = 0(es decir, si la muestra solo contuviera ceros), entonces vero(p) = (1 − p)n, que esdecreciente. En el caso en el que x = 1 (muestra con solo unos), entonces vero(p) =pn, que es creciente. En el resto de los casos, cuando 0 < x < 1, la funcion vero(p)se anula en p = 0 y en p = 1, por lo que tiene un maximo en (0, 1). Veanse las tresposibles situaciones en las siguiente figuras:

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 30: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

30 Capıtulo 5. Estimacion (puntual) de parametros

x = 0 0 < x < 1 x = 1

Claramente, el primer caso, x = 0, da como estimacion p = 0, mientras que x = 1nos llevarıa a p = 1; lo que por otra parte es natural: si la muestra solo contieneceros, lo mas verosımil es suponer que la variable X nunca toma el valor uno.

En el resto de los casos, localizamos el maximo buscando puntos crıticos de lafuncion de log-verosimilitud:

logvero(p) = nx ln(p) + (n− nx) ln(1− p),

y por tanto

∂plogvero(p) = nx1

p− (n− nx)

1

1− p= 0 =⇒ x

p=

1− x

1− p,

de donde se obtiene la estimacionp = x .

Recuerdese que, en este caso, la media muestral es la proporcion de unos en lamuestra. Por cierto, en los casos extremos vistos antes, la estimacion para p (0 y1, en cada caso) tambien se obtiene a traves de la media muestral. Es decir, quesi tenemos una muestra con, digamos, un 60% de unos, entonces la estimacion pormaxima verosimilitud de p es, justamente, ese 60%.

En este caso de la Bernoulli de parametro p, el (estadıstico) estimador de p resultaser emvp(X1, . . . ,Xn) = X. ♣

Ejemplo 5.2.8. Maxima verosimilitud para X ∼ geo(p).

En este caso, la realizacion (x1, . . . , xn) consiste de enteros positivos xj ≥ 1, y lafuncion de verosimilitud es

vero(p) = pn (1− p)∑n

j=1 xj−n = pn (1− p)n(x−1) .

Si x = 1, es decir, si xj = 1, para 1 ≤ j ≤ n, entonces vero(p) = pn y el maximose alcanza en p = 1, lo que nos darıa estimacion p = 1, como es natural.

Si x > 1, entonces la funcion vero(p) se anula en p = 0 y en p = 1, y tie-ne un maximo en (0, 1). El unico punto crıtico, que es la estimacion de maximaverosimilitud, p, se obtiene derivando con respecto a p (e igualando a 0) la funcion

logvero(p) = n ln(p) + n(x− 1) ln(1− p) .

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 31: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

5.2. Metodos de construccion de estimadores 31

El resultado es

0 = ∂plogvero(p) =n

p− n(x− 1)

1− p=⇒ p =

1

x.

De manera que si la muestra (de la geometrica) tiene media muestral, por ejemplo, 3,entonces la estimacion por maxima verosimilitud de p es 1/3.

Elevando notacion, tenemos que emvp(X1, . . . ,Xn) ≡ 1/X . ♣Ejemplo 5.2.9. Maxima verosimilitud para X ∼ exp(λ).

La funcion de verosimilitud para una muestra observada (x1, . . . , xn) (que con-siste necesariamente de numeros positivos) es

vero(λ;x1, . . . , xn) = λne−λ∑n

j=1 xj = λn e−λnx .

Como x > 0, se tiene que vero(λ) → 0 cuando λ ↓ 0 y cuando λ ↑ ∞, ası que tienemaximo global, que ha de ser un punto crıtico.

Tomando logaritmos,

logvero(λ) = n ln(λ)− λnx .

Derivando e igualando a 0, deducimos que

∂λ logvero(λ) =n

λ− nx =⇒ λ =

1

x

es el unico punto crıtico, que ha de ser el maximo global de vero y de logvero,y, por tanto, la estimacion de maxima verosimilitud. Dibujamos a continuacion elaspecto de la funcion de verosimilitud y de logverosimilitud para n = 10 y x = 1/2.

Por tanto, emvλ(X1, . . . ,Xn) = 1/X . ♣

Ejemplo 5.2.10. Maxima verosimilitud para X ∼ ray(σ2).

La funcion de densidad de X ∼ ray(σ2), viene dada por

f(x;σ2) =

{xσ2 e

−x2/(2σ2), si x > 0 ,

0, si x ≤ 0 .

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 32: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

32 Capıtulo 5. Estimacion (puntual) de parametros

El parametro de la distribucion a estimar es σ2, ası que pongamos θ = σ2 yescribamos la funcion de verosimilitud en terminos de θ.

Fijada una muestra observada (x1, . . . , xn) (necesariamente numeros positivos)

vero(θ;x1, . . . , xn) =1

θn

( n∏j=1

xj

)e−

∑nj=1 x

2j/(2θ) =

1

θn

( n∏j=1

xj

)e−nx2/(2θ) .

Notese que∏n

j=1 xj > 0 y que x2 > 0. La funcion vero(θ) es derivable, positiva,y tiene lımite 0 cuando θ ↓ 0 y cuando θ ↑ ∞. Ası que tiene maximo en (0,+∞).Tomando logaritmos,

logvero(θ) = ln( n∏

j=1

xj

)− n ln(θ)− nx2

2θ,

y derivando (con respecto a θ),

∂θ logvero(θ) =−n

θ+

nx2

2θ2,

se deduce que el unico punto crıtico es

θ =x2

2,

y ha de ser donde se alcanza el maximo. Si la muestra de la Rayleigh es (x1, . . . , xn),calculamos primero la media de los cuadrados, luego dividimos por 2, y esa serıa laestimacion por maxima verosimilitud del parametro θ = σ2.

Hemos obtenido que

emvθ(X1, . . . ,Xn) =1

2n

n∑j=1

X2j =

1

2X2 ,

que coincide con el estimador asociado al segundo momento que se obtuvo en elejemplo 5.2.4. ♣

D2. Funciones de densidad/masa con varios parametros. Si la funcion dedensidad/masa depende de mas de un parametro, la funcion de verosimilitud es unafuncion de varias variables. Si ademas es derivable, buscamos sus puntos crıticosplanteando un sistema de ecuaciones con las derivadas parciales iguales a 0. Loilustramos con un par de ejemplos.

Ejemplo 5.2.11. Maxima verosimilitud para X ∼ N (μ, σ2).

Hay dos parametros, μ y σ2 (recalcamos: no σ, sino σ2), que queremos estimar:μ ∈ R y σ2 > 0. La region de parametros es

Θ = {(μ, σ2) ∈ R× (0,+∞)},que es el semiplano superior de R

2.

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 33: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

5.2. Metodos de construccion de estimadores 33

La funcion de verosimilitud con una muestra (x1, . . . , xn) fijada es

vero(μ, σ2) =n∏

i=1

e−(xi−μ)2/(2σ2)

√2πσ2

=1

(2π)n/21

(σ2)n/2exp

(− 1

2σ2

n∑i=1

(xi − μ)2).

� Nota 5.2.2. Antes de continuar, analizamos (ası, en formato nota y en pequeno) una situacion untanto especial. Imagine, lector, que todos los datos de la muestra de tamano n coincidieran (contodos los decimales que permita la precision del instrumento de medicion). Esto sugiere, por unlado, que en realidad la muestra no fue producida con un mecanismo aleatorio; y segundo, invita arevisar urgentemente el instrumento de medida.

En cualquier caso, veamos como analizar esta situacion desde el punto de vista de la verosimilitudpara el caso de la normal. Si todos los xi son iguales, e iguales a x, claro, entonces en la expresion dela verosimilitud de arriba hay que sustituir xi por x. Veamos. Para μ = x, la funcion de verosimilitudes simplemente

vero(x, σ2) =1

(2π)n/2

1

(σ2)n/2,

que tiende a +∞ cuando σ2 ↓ 0. ¡Hum! La funcion de verosimilitud no tiene maximo, pero sısupremo, cuando σ2 se hace 0. Y para cualquier otro posible valor de μ, la funcion de verosimilitudtiende a 0 cuando σ2 → 0 y cuando σ2 → ∞. En cualquier caso, es finita. La conclusion es que la

estimacion maximo-verosımil ha de ser μ = x y σ2 = 0; sin aleatoriedad, como ya anticipamos.

La funcion vero(μ, σ2) es diferenciable y positiva en todo Θ.

Siguiendo el plan de ataque general del caso de una variable el primer paso esver que

(�) vero(μ, σ2) → 0 , cuando (μ, σ2) → ∂Θ ,

donde por ∂Θ denotamos el “borde” de la region Θ ⊂ R2 que, recuerde el lector, era

el semiplano superior. Este es en realidad el caso, como comprobaremos con detallemas adelante; asumamoslo, por ahora.

Si es ası, entonces la funcion vero(μ, σ2) tiene maximo absoluto en Θ, que ha deser un punto crıtico. Para localizar los posibles puntos crıticos, tomamos logaritmos,

logvero(μ, σ2) = ln( 1

(2π)n/2

)− n

2ln(σ2)− 1

2σ2

n∑i=1

(xi − μ)2,

y planteamos el sistema⎧⎪⎪⎪⎪⎨⎪⎪⎪⎪⎩0 = ∂μ logvero(μ, σ2) =

1

2σ2

n∑i=1

2(xi − μ) =n

σ2(x− μ),

0 = ∂σ2 logvero(μ, σ2) = −n

2

1

σ2+

1

2

1

σ4

n∑i=1

(xi − μ)2,

cuya solucion (unica) es

μ = x , σ2 =1

n

n∑i=1

(xi − x)2.

Ası que emvμ(X1, . . . ,Xn) = X y emvσ2(X1, . . . ,Xn) = D2, que son los mismosestimadores que se obtenıan por el metodo de momentos. ♣

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 34: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

34 Capıtulo 5. Estimacion (puntual) de parametros

� Nota 5.2.3. Para el lector interesado: verificacion de la condicion (�).

Observe, lector que, en el semiplano (μ, σ2) ∈ R× (0,∞),

Para μ fijo, tanto si σ2 → +∞ como si σ2 → 0, se tiene que vero(μ, σ2) → 0;

Para σ2 fijo, si μ → ±∞, tambien se tiene que vero(μ, σ2) → 0.

Estas dos observaciones pintan bien cara a la verificacion de (�), pero no bastan para nuestro objetivo,pues, por ejemplo, no nos garantizan que sobre la recta μ = σ2 no se tenga que vero(μ, μ) → +∞,cuando μ → ∞.

Para la comprobacion completa, usaremos el siguiente:

Lema 5.2 Para entero n ≥ 1, sea Hn(y) la funcion dada en (0,+∞) por

Hn(y) =1

yn/2e−n/y , para y > 0.

La funcion Hn(y) es continua y positiva, se anula en y = 0 e y = +∞, es decir,

lımy↓0

Hn(y) = 0 y lımy↑0

Hn(y) = 0 ,

y ademas esta acotada; de hecho, Hn(y) ≤ 1 para y > 0 y n ≥ 1.

De hecho, el maximo de Hn(y) se alcanza en y = 2 y el valor maximo es (1/√2e)n.

Llamemos, como es habitual, x a la media de los datos y σ2x a su varianza. Observese primero que

n∑i=1

(xi − μ)2 =

n∑i=1

((xi − x) + (x− μ)

)2= n(σ2

x + (x− μ)2) .

Esto nos permite reescribir la funcion de verosimilitud en la forma

vero(μ, σ2) =1

(2π)n/2

1

(σ2)n/2exp

(− n(σ2

x + (x− μ)2)

2σ2

),

de donde, usando la notacion del lema anterior, resulta que

vero(μ, σ2) ≤ 1

(2π)n/2

1

(σ2)n/2exp

(− nσ2x

2σ2

)=

1

πn/2

1

(σ2x)n/2

Hn(2σ2/σ2

x).

Esta acotacion (que no depende de μ) tiende a 0 tanto cuando σ2 ↓ 0 como cuando σ2 ↑ +∞, porel lema 5.2.

Pero tambien se tiene que

vero(μ, σ2) ≤ 1

(2π)n/2

1

(σ2)n/2exp

(− n (x−μ)2

2σ2

)=

1

πn/2

1

((x− μ)2)n/2Hn(2σ

2/(x− μ)2) ≤ 1

πn/2

1

((x− μ)2)n/2,

usando en el ultimo paso que Hn(y) ≤ 1 para todo y > 0, segun el lema 5.2. Esta acotacion (que nodepende de σ2) de la funcion de verosimilitud tiende a 0 cuando |μ| → ∞.

La combinacion de estas dos acotaciones nos da (�).

Ejemplo 5.2.12. Maxima verosimilitud para X ∼ gamma(λ, t).

La funcion de densidad es, en este caso,

fλ,t(x) =1

Γ(t)λt xt−1 e−λx para x > 0.

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 35: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

5.2. Metodos de construccion de estimadores 35

La region de parametros es

Θ = {(λ, t) ∈ (0,+∞)× (0,+∞)},

que es el cuadrante positivo de R2.

Dada una muestra (x1, . . . , xn), la funcion de verosimilitud es

vero(λ, t;x1, . . . , xn) =

n∏i=1

fλ,t(xi) =λnt

Γ(t)ne−λnx

( n∏i=1

xi

)t−1.

Dejamos como ejercicio para el lector la comprobacion de que esta funcion tiene ununico maximo global en Θ, y nos ponemos con su calculo. Tomamos logaritmos,

logvero(λ, t) = nt ln(λ)− n ln(Γ(t)) − λnx+ n(t− 1)ln(x),

donde hemos abreviado con el sımbolo ln(x) al promedio 1n

∑ni=1 ln(xi) de los loga-

ritmos de la muestra, y planteamos el sistema de ecuaciones⎧⎪⎨⎪⎩0 = ∂λ logvero(λ, t) =

nt

λ− nx,

0 = ∂t logvero(λ, t) = n ln(λ)− nΓ′(t)Γ(t)

+ n ln(x).

Veamos. De la primera ecuacion se obtiene que λ = t/x, que llevado a la segundanos da la ecuacion (en la variable t) siguiente:

ln( tx

)− Γ′(t)

Γ(t)+ ln(x) = 0,

o equivalentemente,

ln(t)− Γ′(t)Γ(t)

= ln(x)− ln(x).

Para empezar, no sabemos despejar t en esta ecuacion. Ası que, de tener solucion,debera ser calculada numericamente. Solucion tiene, y unica. La comprobacion pasa,por un lado, por verificar que la funcion t �→ ln(t) − Γ′(t)/Γ(t) decrece desde +∞hasta 0 cuando t varıa de 0 a +∞ y por otro, cerciorarse de que el miembro de laderecha es un numero positivo. ♣

� Nota 5.2.4. Sean x1, . . . , xn unos numeros positivos. Consideremos los promedios x = 1n

∑ni=1 xi y

ln(x) = 1n

∑ni=1 ln(xi). El que ln(x) ≥ ln(x) se sigue de aplicar la desigualdad de Jensen a la funcion

logaritmo, vease (2.4), tomando allı como variable X la que toma cada uno de los valores x1, . . . , xn

con probabilidad 1/n.

La otra comprobacion requiere conocer ciertas propiedades de la funcion Γ′(t)/Γ(t), la derivadalogarıtmica de la funcion Gamma, que se conoce en ambientes selectos como la funcion digamma, aveces denotada por Ψ(t). No entraremos aquı en los detalles.

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 36: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

36 Capıtulo 5. Estimacion (puntual) de parametros

D3. Matizaciones sobre el calculo del estimador de maxima verosimilitud.Exhibimos a continuacion unos cuantos ejemplos en los que este marco habitual de(unico) punto crıtico no se puede aplicar, y en los que el calculo del estimador demaxima verosimilitud requiere tecnicas y analisis especıficos.

Ejemplo 5.2.13. Maxima verosimilitud para X ∼ unif[0, a], con a > 0.

La funcion de densidad es

f(x; a) =

{1/a si 0 ≤ x ≤ a ,

0 en caso contrario .

Supongamos que tenemos una muestra observada (x1, . . . , xn) de la variable X.Fijamos a. Si en esa lista de numeros hay alguno que sea mayor que a, entonces esimposible (inverosımil) que la muestra provenga de una uniforme con ese parame-tro a. En otras palabras, la verosimilitud de la muestra serıa cero si el maximo delos xi estuviera por encima de a.

La conclusion es que, dada una muestra ob-servada (x1, . . . , xn),

vero(a) =

⎧⎨⎩1

an, si max{xj} ≤ a ,

0, si max{xj} > a .

Aquı no derivamos, sino que observamos direc-tamente que el maximo de la funcion de vero-similitud se alcanza justamente en el valor a =max{x1, . . . , xn}, como se aprecia en la figura, pues 1/an es decreciente en a.

Ası que el estimador resulta ser emva(X1, . . . ,Xn) = max{X1, . . . ,Xn} . Compa-rese con el estimador obtenido por momentos, que es 2X. Veanse tambien los ejer-cicios 5.15 y 5.16. ♣

Ejemplo 5.2.14. Estimador por maxima vero-similitud para el parametro θ > 0 de una varia-ble X con funcion de densidad

f(x; θ) =6

θ2x(1− x

θ

)si x ∈ [0, θ],

y f(x; θ) = 0 en caso contrario.

Observe el lector que, como en el ejemplo an-terior, el soporte de la distribucion depende delparametro. A la derecha dibujamos el aspecto de la funcion de densidad para losvalores θ = 1, θ = 2 y θ = 4.

Empezamos con el (modesto) caso en el que solo disponemos de una muestra,digamos el numero x1.

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 37: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

5.2. Metodos de construccion de estimadores 37

En este caso, la funcion de verosimilitud es,argumentando como en el ejemplo anterior,

vero(θ) =

⎧⎨⎩6

θ2x1

(1− x1

θ

), si x1 < θ ,

0, si x1 ≥ θ ,

cuyo aspecto representamos a la derecha. El maxi-mo de la funcion, marcado con una lınea azul enla figura, se alcanza en θ = 3x1/2, como podracomprobar el lector que se entretenga calculando derivadas con respecto a θ (de lafuncion de verosimilitud o de su logaritmo) e igualando a 0.

En el caso general, para una muestra observada (x1, . . . , xn) de tamano n, sufuncion de verosimilitud resulta ser

vero(θ) =

⎧⎪⎨⎪⎩6n( n∏

i=1

xi

) 1

θ2n

n∏i=1

(1− xi

θ

), si max(x1, . . . , xn) < θ ,

0, si max(x1, . . . , xn) ≥ θ .

La funcion vero(θ), que es no negativa, vale 0 en θ = max(x1, . . . , xn) y tiendea 0 cuando θ → ∞, de manera que tendra (al menos) un maximo en la region deinteres, θ > max(x1, . . . , xn). Como veremos, hay un unico maximo en esa region, yde hecho el aspecto de la funcion vero(θ) es muy similar al de la figura del caso deuna muestra, salvo que ahora la funcion vale 0 hasta el valor max(x1, . . . , xn).

Busquemos los puntos crıticos de la funcion de verosimilitud, o mejor, los de lade log-verosimilitud. Tomamos logaritmos (alla donde la funcion de verosimilitud noes 0) para obtener

logvero(θ) = n ln(6) + ln( n∏

i=1

xi

)− 2n ln(θ) +

n∑i=1

ln(1− xi

θ

),

y derivando alegremente,

∂θ logvero(θ) = −2n

θ+

1

θ

n∑i=1

xiθ − xi

.

Finalmente, igualamos a 0 para obtener que los puntos crıticos de la funcion deverosimilitud verifican la ecuacion

() 2n =n∑

i=1

xiθ − xi

.

Ecuacion que tiene una unica solucion en la region θ > max(x1, . . . , xn). Para verlo,observamos que el miembro de la derecha es una funcion decreciente en θ (lo que secomprueba por simple inspeccion de la funcion, o viendo que su derivada es negativa);

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 38: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

38 Capıtulo 5. Estimacion (puntual) de parametros

que tiende a +∞ cuando θ → max(x1, . . . , xn); y que tiende a 0 cuando θ → ∞.Por lo tanto, solo pasara una vez por la altura 2n. Ese unico punto crıtico sera elmaximo global de la funcion de verosimilitud, y por tanto la estimacion por maximaverosimilitud de θ. Llamemosle, como corresponde, θ.

Llamemos, por abreviar, M = max(x1, . . . , xn). Por un lado sabemos que θ > M ,claro. Pero en realidad

() M < θ ≤ 3

2M.

Para verlo, supongamos que θ fuera mayor que 3M/2, y por tanto θ > 3xi/2 paracada i = 1, . . . , n. Entonces se tendrıa que

n∑i=1

xi

θ − xi<

n∑i=1

xi3xi/2− xi

=n∑

i=1

2 = 2n,

lo que contradice que θ es solucion de ().

En cuanto al calculo en sı del valor de θ, en general deberemos resolver la ecua-cion () con algun procedimiento numerico, para el que, por cierto, la estimacion apriori () de la ubicacion de la solucion puede venir de perlas. Observe el lectorque, en el caso de una unica muestra, la ecuacion () es simplemente 2 = x/(θ − x),de solucion θ = 3x/2, como ya vimos.

Por cierto, como en este caso

Eθ(X) =

∫ ∞

0

6

θ2x2(1− x

θ

)dx =

θ

2,

resulta que la estimacion por momentos de θ para una muestra (x1, . . . , xn) es, sim-plemente, θ = 2x. ¡Vaya! ♣

Ejemplo 5.2.15. La variable X tiene como funcion de densidad f(x; θ), donde θ ∈Θ = {0, 1}. Las dos funciones de densidad alternativas vienen dadas, para x ∈ (0, 1),por

f(x; 0) = 1 , f(x; 1) = 1/(2√x) .

Se pide determinar el estimador de maxima verosimilitud del valor de θ ∈ {0, 1}.En la figura de la derecha representamos las dos po-

sibles funciones de densidad. Sea (x1, . . . , xn) ∈ (0, 1)n

una muestra de X. Notese que el espacio de parame-tros es discreto, y por tanto no tiene sentido derivarla funcion de verosimilitud de la muestra, que tomaunicamente dos valores:

V (θ;x1, . . . , xn) =

⎧⎨⎩ 1, si θ = 0;1

2n√x1 · · · xn , si θ = 1.

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 39: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

5.2. Metodos de construccion de estimadores 39

Basta comparar estas dos cantidades para decidir cuales la estimacion: cuando 2n

√x1 · · · xn sea menor que 1 (de manera que su recıproco

es mayor que 1), optaremos por θ = 1, y en caso contrario tomaremos θ = 0. Enterminos mas simplificados, tendremos la estimacion θ = 1 cuando x1 · · · xn < 1/4n,y θ = 0 en caso contrario.

Observese que el que el producto x1 · · · xn sea menor que 1/4n requiere quemuchos de los xi sean relativamente pequenos, lo que apunta a que, efectivamente,fueron sorteados con el modelo f(x; 1). Por ejemplo, si disponemos de una unicamuestra x1, nos decidiremos por el modelo f(x; 1) cuando x1 < 1/4. ♣

En el siguiente ejemplo, tenemos un modelo en el que la funcion de maximaverosimilitud puede tener, segun sean los datos de la muestra, varios maximos global,un unico maximo global, o ninguno. ¡Vaya, vaya!

Ejemplo 5.2.16. Estimacion del coeficiente de correlacion ρ de un vector aleato-rio (X,Y ) que sigue una normal bidimensional de parametros m = 0 y matriz decovarianzas

( 1 ρρ 1

).

AmbasX e Y son normales estandar. La distribucion conjunta viene determinadapor ρ ∈ Θ = (−1, 1). Recordemos que la funcion de densidad conjunta es, en estecaso,

f(x, y; ρ) =1

1√1− ρ2

e− 1

21

1−ρ2(x2−2xy ρ+y2)

Supongamos que tenemos una muestra ((x1, y1), . . . , (xn, yn)). La funcion de log-verosimilitud es

logvero(ρ; ((x1, y1), . . . , (xn, yn))

)= −

n∑j=1

[ln( 1

)− 1

2ln(1− ρ2)− 1

2

1

1− ρ2(x2j − 2xjyj ρ+ y2j )

]= n ln

( 1

)− n

2ln(1− ρ2)− n

2

x2 + y2 − 2ρ xy

1− ρ2,

esto es,

2

nlogvero(ρ) = 2 ln

( 1

)− ln(1− ρ2)− x2 + y2 − 2ρ xy

1− ρ2.

Vista como funcion de ρ (en el intervalo (−1, 1)), esta logverosimilitud puedetener comportamientos diversos, en funcion de los valores x2, y2 y xy provenientesde la muestra. Observese que, cuando ρ2 → 1, el segundo termino tiende a −∞, peroel tercero puede tender a +∞ o a −∞ en funcion del signo del numerador. Estebalance puede dar lugar a diversas situaciones, algunas de las cuales representamosen las siguientes figuras:

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 40: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

40 Capıtulo 5. Estimacion (puntual) de parametros

x = y = 1, xy = 0 x = y = 1/3, xy = 0 x = y = 1/3, xy = 1/2

En la primera situacion habrıa un maximo global, en la segunda dos, y en latercera no habrıa tal maximo.

La ecuacion de los puntos crıticos

∂ρ

( 2nlogvero(ρ)

)= 0

deviene enρ(1− ρ2) + xy (1− ρ2)− ρ (x2 + y2 − 2ρxy) = 0,

que es una ecuacion cubica en ρ.

A la vista de como son las variables X e Y , uno “espera” que x = y ≈ 0, y quex2 = y2 ≈ 1. Si fueran exactamente esos valores, entonces tendrıamos

ρ(1− ρ2) + xy (1− ρ2)− 2ρ (1 − ρxy) = 0,

una de cuyas soluciones es ρ = xy. Es decir, habrıa un punto crıtico justo en lacorrelacion muestral. Pero, ¿es unico?, ¿es un maximo global?

Pongamonos en otro caso, en el que xy = 0 y x2 = y2 = u > 0. La ecuacion esentonces

ρ(1− ρ2)− 2uρ = 0.

Una raız es ρ = 0. Las otras dos posibles raıces serıan solucion de ρ2 = 1− 2u.

Si u > 1/2 no hay mas puntos crıticos, y ρ = 0 es un maximo de la funcion deverosimilitud.

Pero si u < 1/2, hay dos raıces mas: ρ = ±√1− 2u. En este caso el valor en ρ = 0

de (2/n)logvero(ρ) (quitandole el termino constante inicial) es −2u, mientras queen ρ = ±√

1− 2u es ln(1/2u)− 1. Como para z ∈ (0, 1) se tiene que ln(1/z) > 1− z,se deduce que, en este caso, que ρ = ±√

1− 2u son maximos globales, mientras queρ = 0 es un mınimo local. Estarıamos en una situacion como la representada en lafigura intermedia de mas arriba. ♣

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 41: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

5.3. Informacion y cota de Cramer–Rao 41

5.3. Informacion y cota de Cramer–Rao

Es deseable disponer de estimadores con el menor error cuadratico medio posible,o alternativamente, de estimadores insesgados con la menor varianza posible.

Como vamos a ver en esta seccion, existe una cota, conocida como la cota deCramer–Rao (teorema 5.8), que depende solo de la “forma” de (o mejor, de cuantovarıa al moverse el parametro de interes la forma de) la funcion de masa/densidad, yque restringe cuan pequeno puede llegar a ser ese error cuadratico medio, poniendoası un lımite a la ambicion en la busqueda de estimadores insesgados de varianzapequena.

Antes de iniciar la discusion, vamos a analizar una situacion especialmente sen-cilla, que justificara algunas de las nociones que vamos a introducir para tratar lasituacion general. Supongamos que la variable X es una variable aleatoria continuacon funcion de densidad f(x; θ), y que solo hay (o solo nos interesan) dos posiblesvalores distintos del parametro: θ0 y θ1. Suponemos, tambien para simplificar, queen ambos casos las funciones de densidad tienen como soporte todo R.

El objetivo, como se ha explicado en discusiones anteriores, es obtener informa-cion sobre el valor del parametro a partir de muestras de la variable, lo que en estecaso supone simplemente distinguir si las muestras se produjeron con el valor θ0 ocon el valor θ1.

La funcion

(5.10)f(x; θ1)− f(x; θ0)

f(x; θ0)

mide la diferencia (relativa) entre las dos funciones de densidad en x.

Tomamos como referencia el valor θ0, y promediamos ahora sobre todas las posi-bles muestras. Es decir, consideramos que la muestra se genera con θ0, y consideramosla expresion (5.10) como una variable aleatoria. Primero, comprobamos que su mediavale 0:

Eθ0

(f(X; θ1)− f(X; θ0)

f(X; θ0)

)=

∫R

f(x; θ1)− f(x; θ0)

f(x; θ0)f(x; θ0) dx

=

∫R

f(x; θ1) dx−∫R

f(x; θ0) dx = 1− 1 = 0,(5.11)

pues tanto f(x; θ0) como f(x; θ1) son funciones de densidad.

Como la media es 0, para medir la magnitud (promediada sobre muestras) de esadiferencia relativa recurrimos a la varianza, que en este caso es

(f(X; θ1)− f(X; θ0)

f(X; θ0)

)= Eθ0

[(f(X; θ1)− f(X; θ0)

f(X; θ0)

)2]=

∫R

(f(x; θ1)− f(x; θ0)

f(x; θ0)

)2f(x; θ0) dx =

∫R

(f(x; θ1)f(x; θ0)

− 1)2

f(x; θ0) dx .(5.12)

Veamos. Supongamos que esta varianza fuera pequena, practicamente 0. Eso querrıadecir que el integrando serıa muy pequeno en todo su soporte (que es R), y por

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 42: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

42 Capıtulo 5. Estimacion (puntual) de parametros

tanto f(x; θ0) habrıa de ser muy similar a f(x; θ1) en todo el soporte. La conclusionserıa que las dos funciones de densidad serıan practicamente indistinguibles, y quela muestra en sı no nos sera de gran utilidad para discernir entre θ0 y θ1.

Digamos ahora que tenemos una muestra x = (x1, . . . , xn). Procedemos de ma-nera analoga: consideramos la funcion

(5.13)f(x; θ1)− f(x; θ0)

f(x; θ0),

la interpretamos como una variable aleatoria sobre muestras X de X, y comprobamosque su media, suponiendo que las muestras se producen con θ0, es 0:

Eθ0

(f(X; θ1)− f(X; θ0)

f(X; θ0)

)=

∫Rn

f(x; θ1)− f(x; θ0)

f(x; θ0)f(x; θ0) dx

=

∫Rn

f(x; θ1) dx−∫Rn

f(x; θ0) dx = 1− 1 = 0,(5.14)

pues f(x; θ0) y f(x; θ1) son funciones de densidad. Finalmente, interpretamos denuevo que un valor pequeno de la varianza

(5.15) Vθ

(f(X; θ1)− f(X; θ0)

f(X; θ0)

)=

∫Rn

(f(x; θ1)f(x; θ0)

− 1)2

f(x; θ0) dx

se corresponde con la situacion en la que las dos funciones de densidad son casiindistinguibles, y sera extremadamente complicado discernir si las muestras fuerongeneradas con θ0 o con θ1.

Para extender el argumento a una situacion mas general, podrıamos considerar,en lugar de la cantidad (5.13), la siguiente variacion:

f(x; θ1)− f(x; θ0)

θ1 − θ0

1

f(x; θ0),

que sugiere que, pasando al lımite, la cantidad de interes sera

∂θf(x; θ)

f(x; θ), es decir, ∂θ ln f(x; θ) .

Recordamos, lector, que ∂θ indica derivada con respecto a θ. Y que f(x; θ) =vero(θ;x), la funcion de verosimilitud en x.

La funcion ∂θ ln f(x; θ) mide cuan sensible es la funcion de verosimilitud a varia-ciones del parametro θ: el cociente de la derivada entre el valor. En ingles, se conocetambien como score.

Por analogıa con la situacion descrita antes, una varianza pequena de la variablealeatoria ∂θ ln f(X; θ) se correspondera con la situacion en que la funcion de densidad(de muestras) para un cierto θ sera casi indistinguible de la funcion de densidad (demuestras) para valores del parametro muy cercanos a ese θ.

Es hora ya de formalizar.

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 43: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

5.3. Informacion y cota de Cramer–Rao 43

Derivadas de la funcion de densidad/masa

Escribimos ahora una expresion explıcita de ∂θ ln f(x; θ), usando, claro, que lafuncion de masa/densidad conjunta f(x; θ) se factoriza. Para x ∈ sopn, con la reglade Leibniz se tiene que

(5.16) ∂θ(f(x; θ)

)= ∂θ

( n∏j=1

f(xj; θ))=

n∑j=1

∂θf(xj; θ)f(x; θ)

f(xj; θ),

es decir,

∂θf(x; θ)

f(x; θ)=

n∑j=1

∂θf(xj ; θ)

f(xj; θ)

(expresion que se podıa haber obtenido igualmente tomado logaritmos en f(x; θ) =∏nj=1 f(xj; θ) y luego derivando). Podemos reescribir la expresion anterior en la forma

(5.17) ∂θ ln f(x; θ) =

n∑j=1

∂θ ln(f(xj ; θ)).

Observese que, para θ ∈ Θ, tanto ∂θ ln(f(x; θ)) como ∂θ(ln f(x; θ)) estan bien defi-nidas para x ∈ sop y x ∈ sopn, respectivamente.

Variables placidas

Para poner en practica el plan de analisis que hemos esbozado mas arriba y podercomparar funciones de densidad para valores proximos de θ, usando derivadas res-pecto de θ, vamos a restringirnos a variables aleatorias que denominaremos placidas,y que se definen como sigue:

Definicion 5.3 (Variables placidas) Decimos que una variable X es placida sisu funcion de densidad/masa f(x; θ) cumple los siguientes requisitos:

a) el espacio de parametros es un intervalo (abierto) Θ = (a, b), −∞ ≤ a < b ≤ ∞;

b) el soporte sop es fijo y no depende de θ ∈ Θ;

c) para cada x ∈ sop, la funcion θ ∈ Θ �→ f(x; θ) es C2, es decir, tiene segundasderivadas continuas;

d) por ultimo, para cada θ ∈ Θ,∫sop

∣∣∂θ ln f(x; θ)∣∣2f(x; θ) dx < +∞, o∑

x∈sop

∣∣∂θ ln f(x; θ)∣∣2f(x; θ) < +∞,

en funcion de que X sea continua o discreta, respectivamente.

En lo sucesivo nombraremos como placidas tanto a las variables como a suscorrespondientes funciones de masa/densidad, siempre que cumplan las exigenciasanteriores.

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 44: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

44 Capıtulo 5. Estimacion (puntual) de parametros

La hipotesis a) es natural, pues pretendemos derivar con respecto a θ. Y dada a),la hipotesis c) tambien es natural. Para ciertos resultados, en c) nos bastara con quef(x; θ) sea funcion continua de θ o que tenga primeras derivadas continuas, pero condos derivadas continuas abarcamos todas las aplicaciones de interes.

Sobre la hipotesis b). Imagine, lector: derivamos f(x; θ) con respecto a θ. Vea-mos: cocientes incrementales. Fijamos θ y x, que habra de estar en sopθ; ahoravariamos θ, pero, ¡hum!, el soporte se mueve, a su vez, y ya no estamos seguro desi x. . . La hipotesis b) evita este cırculo de dependencias. Mas adelante discutiremosla relevancia de esta hipotesis de soporte fijo.

Digamos que X es una variable aleatoria continua. La condicion integral d) diceque para cada θ ∈ Θ, la variable Y = ∂θ ln f(X; θ), que va a desempenar un papelcentral en lo que sigue, satisface

Eθ(Y2) =

∫sop

∣∣∂θ ln f(x, θ)∣∣2 f(x; θ) dx < +∞

y, nos permitira tomar esperanzas y varianzas de Y sin grave riesgo para la salud.

Las familias de funciones de masa/densidad habituales son todas placidas; las(notables) excepciones, como la uniforme unif[0, a], lo son por incumplir la clausulab): el espacio de parametros es a ∈ Θ = (0,+∞), pero sopa = [0, a], que dependedel parametro.

� Nota 5.3.1. Comprobemos que dos modelos particulares, la Poisson y la exponencial, son placidos.

Si X ∼ poiss(λ), entonces el espacio de parametros es el intervalo (0 + ∞), y el soporte (fijo)son los enteros no negativos. Esto nos da a) y b). La funcion de masa viene dada por

f(k;λ) = e−λ λk

k!, k entero, k ≥ 0 ,

Claramente, para cada k, f(k; λ) es una funcion de λ con cuantas derivadas se precise. En cuanto ala condicion d), se tiene que ∂(ln f(k; λ))/∂λ = −1 + k/λ, y para cualquier λ > 0, la serie∑

x∈sop

∣∣∂λ ln f(x;λ)∣∣2f(x;λ) = ∞∑

k=0

( k

λ− 1

)2

e−λ λk

k!< +∞;

compruebelo, lector, usando su metodo de comprobacion de convergencia de series favorito.

Si X ∼ exp(λ), entonces el espacio de parametros es de nuevo el intervalo (0+∞), y el soporte(fijo) es (0,+∞). La funcion de densidad es

f(x;λ) = λ e−λx , para x ≥ 0.

Para cada x > 0, la funcion f(x;λ) es otra vez una funcion de λ con cuantas derivadas se requieran.Por ultimo, ∂ ln f(x;λ)/∂λ = −x+ 1/λ, de manera que∫

sop

∣∣∂λ ln f(x;λ)∣∣2f(x;λ) dx =

∫ ∞

0

( 1

λ− x

)2

λ e−λx dx,

que es una integral convergente para cualquier valor λ > 0. (De hecho, en estas dos ilustraciones,los valores de la serie y de la integral se pueden calcular explıcitamente).

En el siguiente apartado introduciremos los conceptos de “variable de informa-cion” y “cantidad de informacion” de X (o de una muestra aleatoria de X); luegoobtendremos uno de los resultados centrales del capıtulo: la cota de Cramer–Rao.

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 45: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

5.3. Informacion y cota de Cramer–Rao 45

El manejo de estos conceptos requiere prestar atencion a ciertas cuestiones analıti-cas, fundamentalmente relacionadas con la derivacion bajo el signo integral y con laderivacion de series, que como el lector recuerda no se deben tratar a la ligera.

Si le parece, lector, para estudiar estos conceptos y sus propiedades, argumenta-remos primero en la situacion de variables placidas y finitas (con sop comun finito),en el que estas sutilezas analıticas no desempenan papel alguno, para poder ası pre-sentar lo esencial de los argumentos.

Luego, por supuesto, estudiaremos la situacion general (en realidad, una situacionbastante general), centrandonos en como incorporar cabalmente la gestion de estosdetalles de convergencia.

5.3.1. Informacion y cantidad de informacion

Con el objetivo de promediar la cantidad anterior, ∂θ ln f(x; θ), sobre el universode posibles muestras x, consideramos primero la variable aleatoria Y dada por

(5.18) Y =∂θf(X; θ)

f(X; θ)= ∂θ ln f(X; θ),

a la que nos referiremos como la informacion de la variable X.

Para cada θ ∈ Θ, la variable Y esta definida por la expresion anterior si x ∈ sop;fuera de sopθ entendemos que Y ≡ 0. Observese que Y es una funcion de X.

La varianza de la variable de informacion Y es conocida como cantidad deinformacion o informacion de Fisher de X, y se denota por IX(θ):

(5.19) IX(θ) = Vθ(Y ) = Vθ(∂θ ln(f(X; θ)).

Observese que IX(θ) es una funcion definida para θ ∈ Θ.

Para variables placidas y finitas, como vamos a comprobar seguidamente, se tienesiempre que Eθ(Y ) = 0. Para variables placidas pero no finitas, hacen falta hipotesisadicionales, que discutiremos mas adelante en el apartado 5.3.3 y que, le anticipamos,lector, son bastante generales, si es que queremos asegurar que Eθ(Y ) = 0.

Lema 5.4 (de Diotivede5, caso de soporte finito). Si X es variable aleatoriaplacida con soporte finito, entonces

Eθ(Y ) = 0 , para cada θ ∈ Θ

e

IX(θ) = Vθ(Y ) = Eθ

((∂θf(X; θ)

f(X; θ)

)2).

Demostracion. Partimos de que

(5.20) 1 =∑

x∈sopf(x; θ) , para todo θ ∈ Θ .

5Diotivede, Teodoro Diotivede.

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 46: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

46 Capıtulo 5. Estimacion (puntual) de parametros

Se trata de una suma finita, pues sop es, por hipotesis, finito. Derivando (5.20)respecto de θ en el intervalo Θ obtenemos que

0 =∑

x∈sop∂θf(x; θ) =

∑x∈sop

(∂θf(x; θ)f(x; θ)

)f(x; θ) = Eθ(Y ) .

Para la segunda parte, como Eθ(Y ) = 0, se tiene que que Vθ(Y ) = Eθ(Y2). �

� Nota 5.3.2. Una expresion para IX(θ), alternativa a la dada en el lema 5.4, y que en ocasionespudiera simplificar algun calculo, es la siguiente:

(5.21) IX(θ) = −Eθ

(∂θθ ln(f(X; θ))

),

donde con el sımbolo ∂θθ indicamos segunda derivada con respecto a θ. Veamoslo. Observamosprimero que

∂θθ ln(f(X; θ)) = ∂θ

(∂θf(x; θ)

f(x; θ)

)=

∂θθf(x; θ)

f(x; θ)−

(∂θf(x; θ)

f(x; θ)

)2

.

Suponemos que X es placida y finita. Usando la identidad anterior en la igualdad (�),

IX(θ) = Eθ

((∂θf(X; θ)

f(X; θ)

)2)=

∑x∈sop

(∂θf(x; θ)

f(x; θ)

)2

f(x; θ)

(�)=

∑x∈sop

∂θθf(x; θ)−∑

x∈sop

∂θθ ln(f(X; θ)) f(x; θ) = ∂θθ

( ∑x∈sop

f(x; θ))−Eθ

(∂θθ ln(f(X; θ))

).

El intercambio de derivadas y suma es legal, pues se trata de una suma finita. El argumento concluyeobservando que

∑x∈sop f(x; θ) = 1.

La expresion (5.21) es valida para variables placidas muy generales, siempre que, ademas deverificarse el lema 5.4, el intercambio de derivadas y sumas infinitas/integrales del argumento queacabamos de exponer este justificado.

A. Ejemplos de calculo de cantidad de informacion

Veamos como se obtiene la variable de informacion y como se calcula la cantidadde informacion en los modelos mas habituales. En todos los ejemplos que siguen setiene que Eθ(Y ) = 0, aunque, de los considerados, solo el caso de X ∼ ber(p) es deuna variable finita y se puede aplicar el lema 5.4 de Diotivede, caso de soporte finito.En todos ellos se tiene, por tanto, que IX(θ) = Vθ(Y ) = Eθ(Y

2).

En este apartado nos limitamos a calcular IX(θ) en cada caso; dejamos para elsiguiente apartado B la discusion sobre el significado de los resultados obtenidos.

Ejemplo 5.3.1. Cantidad de informacion para X ∼ ber(p).

Aquı sop = {0, 1} y Θ = (0, 1). Tenemos que

f(1; p) = p =⇒ ln(f(1; p)) = ln(p) =⇒ ∂p ln(f(1; p)) =1

p,

f(0; p) = 1− p =⇒ ln(f(0; p)) = ln(1− p) =⇒ ∂p ln(f(0; p)) = − 1

1− p

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 47: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

5.3. Informacion y cota de Cramer–Rao 47

En otras palabras, cuando X = 1 se tiene Y = 1/p y cuando X = 0 se tieneque Y = −1/(1 − p). Una alternativa para compactar esta relacion entre X e Y esescribir

Y =X − p

p(1− p).

Como Ep(X) = p, se tiene que Ep(Y ) = 0. Ademas, como Vp(X) = p(1− p),

IX(p) = Vp(Y ) =1

p2(1− p)2Vp(X − p) =

1

p2(1− p)2Vp(X) =

1

p(1− p).

Ejemplo 5.3.2. Cantidad de informacion para una poisson(λ), con λ > 0.

Aquı, sop = {0, 1, . . . } y Θ = (0,+∞). Como

ln f(k;λ) = −λ+ k ln(λ)− ln(k!) , para k ≥ 0 y λ > 0 ,

(donde 0! = 1, como de costumbre), se tiene que

∂λ ln f(k;λ) = −1 +k

λ=

1

λ(k − λ) , para k ≥ 0 y λ > 0 ,

En otros terminos, si X toma el valor k, entonces Y toma el valor 1λ(k − λ).

Podemos registrar compactamente esta relacion entre X e Y mediante

Y =1

λ

(X − λ) .

El soporte de la variable Y es el conjunto {(k − λ)/λ; k = 0, 1, . . .}.Observese que Eλ(Y ) = 0, pues Eλ(X) = λ, y que

Vλ(Y ) =1

λ2Vλ(X − λ) =

1

λ2Vλ(X) =

1

λ,

usando que Vλ(X) = λ. Ası que

IX(λ) =1

λ, para cada λ ∈ (0,+∞) . ♣

Ejemplo 5.3.3. Cantidad de informacion para X ∼ exp(λ).

La funcion de densidad, para cada λ > 0, es

f(x;λ) = λ e−λx , para x > 0 .

Es decir, Θ = (0,+∞) y sop = (0,+∞).

Como ln f(x;λ) = ln(λ)−λx y ∂λ ln f(x;λ) = 1/λ−x, resulta que la variable deinformacion se puede escribir como

Y =1

λ−X,

de manera que Eλ(Y ) = 0 y Vλ(Y ) = IX(λ) = 1/λ2.

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 48: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

48 Capıtulo 5. Estimacion (puntual) de parametros

Pero supongamos ahora que el parametro de interes es θ = 1/λ, la media de ladistribucion. Escribimos la funcion de densidad de la exponencial como

f(x; θ) =1

θe−x/θ , para x > 0 .

Aquı, Θ = (0,+∞) y sop = (0,+∞). Esto nos da que(∂θ ln f(x; θ)

)=

(x− θ)

θ2, y por tanto, Y =

X − θ

θ2.

Como Eθ(X) = (1/λ) = θ y que Vθ(X) = (1/λ2) = θ2, se deduce que Eθ(Y ) = 0 y

IX(θ) = Vθ(Y ) =1

θ4Vθ(X − θ) =

1

θ4Vθ(X) =

1

θ2.

Ejemplo 5.3.4. Cantidad de informacion para X ∼ N (μ0, σ2). Aquı, μ0 es un

dato conocido.

Observe, lector, que estamos suponiendo de partida que se sabe que la mediade esta distribucion normal es μ0. Queremos estimar θ = σ2 ∈ Θ = (0,+∞). Aquı,sop = R. Tenemos

f(x; θ) =1√

2π√θe−

12(x−μ0)2/θ para todo x ∈ R .

De manera que

ln(f(x; θ)) = ln( 1√

)−1

2ln(θ)−1

2

(x−μ0)2

θ=⇒ ∂θ ln(f(x;σ)) =

(x−μ0)2 − θ

2θ2,

y por tanto

Y =(X − μ0)

2 − θ

2θ2.

Como X ∼ N (μ0, θ), podemos escribir X = μ0 +√θZ, donde Z ∼ N (0, 1). Ası que

Eθ((X − μ0)2) = θ, lo que nos dice que Eθ(Y ) = 0.

Finalmente,

IX(θ) = Vθ(Y ) =1

4θ4Vθ((X−μ0)

2−θ) =1

4θ4Vθ((X−μ0)

2) =1

4θ2Vθ(Z

2) =1

2θ2,

usando que Vθ(Z2) = Eθ(Z

4)− Eθ(Z2)2 = 2, pues E(Z2) = 1 y E(Z4) = 3 si Z es

normal estandar (nota 2.3.4). ♣

Ejemplo 5.3.5. Cantidad de informacion para X ∼ N (μ, σ20), con σ2

0 conocida.

El parametro de interes es μ ∈ R. Se tiene

f(x;μ) =1

σ0√2π

e−12(x−μ)2/σ2

0 , para todo x ∈ R .

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 49: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

5.3. Informacion y cota de Cramer–Rao 49

Por tanto,

∂μ ln(f(x;μ)) =x− μ

σ20

=⇒ Y =X − μ

σ20

.

De manera que Eμ(Y ) = 0, puesto que Eμ(X) = μ, e

IX(μ) =1

σ40

((X − μ)2

)=

Vμ(X)

σ40

=σ20

σ40

=1

σ20

,

que, observese, es una constante (no depende de μ). ♣

Ejemplo 5.3.6. Cantidad de informacion para la distribucion de Rayleigh.

La funcion de densidad de X ∼ ray(σ2), viene dada por

f(x;σ2) =

{xσ2 e

−x2/2σ2si x ≥ 0 ,

0 si x < 0 .

Como el parametro de la distribucion de Rayleigh es σ2, para los calculos conderivadas respecto de parametros que siguen conviene poner θ = σ2:

f(x; θ) =

{xθ e

−x2/2θ si x ≥ 0 ,

0 si x < 0 .

Recuerde, lector, de (3.16), que

Eθ(X2) = 2θ y Vθ(X

2) = 4θ2 .

Calculamos

∂θ ln(f(θ;x)) = −1

θ+

x2

2θ2=

1

2θ2(x2 − 2θ),

ası que

Y =1

2θ2(X2 − 2θ

).

Observese que Eθ(Y ) = 0, y que

IX(θ) = Vθ(Y ) =1

4θ4Vθ(X

2 − 2θ) =1

4θ4Vθ(X

2) =1

θ2. ♣

Veamos a continuacion un ejemplo adicional, mas alla de los sospechosos habi-tuales.

Ejemplo 5.3.7. Sea X una variable con funcion de densidad f(x;α) = αxα−1 para0 < x < 1, donde α es un parametro positivo, α > 0.

Nos interesa estimar el parametro θ = 1/α, ası que escribimos:

f(x; θ) =1

θx1/θ−1 .

Aquı sop = (0, 1) y Θ = (0,+∞).

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 50: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

50 Capıtulo 5. Estimacion (puntual) de parametros

Como

∂θ ln(f(x; θ)) =1

θ2

(ln( 1x

)− θ),

se tiene que

Y =1

θ2

(ln( 1

X

)− θ).

Observese que, para cada entero k ≥ 0,

((ln(1/X)

)k)=

∫ 1

0

(ln(1/x)

)k 1

θx1/θ−1 dx

[x=e−θy]= θk

∫ ∞

0yk e−y dy

= θk Γ(k + 1) = θk k! ,

apelando a la funcion Gamma de Euler. En particular,

Eθ(ln(1/X)) = θ y Vθ(ln(1/X)) = Eθ(ln(1/X)2)−Eθ(ln(1/X))2 = 2θ2−θ2 = θ2.

Esto nos da, por un lado, que Eθ(Y ) = 0, como ya es habitual, y por otro que

IX(θ) = Vθ(Y ) =1

θ4Vθ

(ln(1/X) − θ

)=

1

θ4Vθ

(ln(1/X)

)=

1

θ2.

B. Significado de la cantidad de informacion

Antes de estudiar como interviene la cantidad de informacion IX(θ) en la cotade Cramer–Rao, que es el objeto de la proxima seccion 5.3.2, nos detenemos unmomento en el analisis de los resultados de tres de los ejemplos anteriores, parapercibir mejor el significado de la cantidad de informacion.

Para X ∼ N (μ, 1), hemos visto (ejemplo 5.3.5) que IX(μ) = 1, una constanteque no depende de μ. Lo que, siguiendo el razonamiento con el que abrıamos estaseccion 5.3, nos dice que distinguir, a partir de muestras, digamos, un valor μ = 0de un valor μ = 0.1 sera tan facil/difıcil como discernir entre, por ejemplo, μ = 7 deun valor μ = 7.1. Lo que es bien natural si observamos que trasladar el parametro μen una normal no cambia la forma de la distribucion.

CuandoX ∼ ber(p), tenemos (ejemplo 5.3.1)que IX(p) = 1/(p(1 − p)). Esta funcion tienemınimo en p = 1/2, y tiende a∞ cuando p → 0 op → 1. Ası que sera mucho mas difıcil distinguir,a partir de muestras, entre por ejemplo p = 50%y p = 51%, que entre p y p + 1% si p es muypequeno. Para ilustrarlo con un ejemplo extremo(¡muy extremo!), supongamos que pretendemosdiscernir entre p = 0% y p = 1% a partir de una muestra de tamano 100. Observeseque, en cuanto en esa muestra aparezca un 1, nos decantaremos por p = 1%. Por elcontrario, observemos cuan difıcil (y aventurado) serıa decantarnos por p = 50% opor p = 51% si en esa muestra tuvieramos, por ejemplo, 50 ceros y 50 unos.

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 51: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

5.3. Informacion y cota de Cramer–Rao 51

Veamos, por ultimo, el caso en el que X ∼ exp(λ), pero donde el parametro deinteres es la esperanza θ = 1/λ. Ahora tenemos IX(θ) = 1/θ2 (ejemplo 5.3.3), quees pequeno cuando θ es grande. La funcion de densidad es f(x; θ) = 1

θ e−x/θ. Si θ es

muy grande, entonces las funciones de densidad del caso θ y, por ejemplo, θ+1, sonpracticamente indistinguibles. Pero si θ es por ejemplo proximo a 0, entonces θ + 1es casi un 1, lo que es un mundo de diferencia. Veanse las figuras, que correspondena las funciones de densidad f(x; θ) y f(x; θ + 1) para los casos θ = 0.1 (izquierda) yθ = 10 (derecha).

En el primer caso sera relativamente sencillo distinguir los dos parametros a partirde las muestras, mientras que en el segundo sera extremadamente complicado.

C. Informacion y cantidad de informacion de una muestra aleatoria

Para una muestra aleatoria (X1, . . . ,Xn) de X, consideramos las variables deinformacion de cada Xj, es decir,

Yj =∂θf(Xj ; θ)

f(Xj ; θ), para 1 ≤ j ≤ n .

Estas variables de informacion son clones de Y y son independientes entre sı. Lasuma Zn de estas Yj ,

(5.22) Zn =

n∑j=1

Yj ,

es funcion de la muestra (X1, . . . ,Xn), y por tanto un estadıstico.

La variable Zn es conocida como la variable de informacion (total) de lamuestra.

La varianzaVθ(Zn) de la informacion (total) Zn es la cantidad de informacion(total) de la muestra (o informacion de Fisher de la muestra).

Lema 5.5 Para variables placidas y finitas se tiene, para cada θ ∈ Θ, que

Eθ(Zn) = 0 y Vθ(Zn) = n IX(θ) .

Demostracion. Recuerdese que, para cada j = 1, . . . , n, Eθ(Yj) = 0 y Vθ(Yj) =IX(θ). Esto nos da directamente que Eθ(Zn) =

∑nj=1Eθ(Yj) = 0 ; y por la indepen-

dencia de las Yj, que Vθ(Zn) =∑n

j=1Vθ(Yj) = n IX(θ) . �

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 52: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

52 Capıtulo 5. Estimacion (puntual) de parametros

5.3.2. La cota de Cramer–Rao

La cota de Cramer–Rao, que nos ocupa ahora, es una cota inferior para la varianzade los estimadores insesgados del parametro θ, que solo depende de la cantidad deinformacion de X.

De nuevo presentamos el argumento que nos conduce a esa cota primero paravariables finitas (placidas, por supuesto).

En el apartado 5.3.3 veremos condiciones bastante generales sobre la familiaf(x; θ) y sobre el estimador bajo las que se tiene la cota de Cramer–Rao en el casono finito.

Supongamos que la variable X es placida y tiene soporte sop finito. Su funcionde masa se denota por f(x; θ). El espacio de parametros es Θ.

Sea T un estadıstico insesgado del parametro θ para muestras de tamano n. Estoes, T = h(X1, . . . ,Xn) para una cierta funcion h, y ademas

θ = Eθ(T ) , para todo θ ∈ Θ .

Reescribimos que T es insesgado en la forma

(5.23) θ = Eθ

(h(X1, . . . ,Xn)

)=

∑x∈sopn

h(x) f(x; θ) .

Derivando (5.23) respecto de θ, y usando (5.16), tenemos, pues se trata de unasuma finita, que

1 =∑

x∈sopn

h(x)( n∑

j=1

∂θf(xj; θ)

f(xj; θ)

)f(x; θ)

que volvemos a escribir, inasequibles al desaliento, como esperanza en la forma

1 = Eθ(T · Zn) ,

utilizando la variable Zn de informacion de la muestra, definida en (5.22).

Ahora, como Eθ(Zn) = 0 (lema 5.5),

1 = Eθ(T · Zn)−Eθ(T )Eθ(Zn) = covθ(T,Zn) .

De la desigualdad de Cauchy–Schwarz, en su version del corolario 2.4, que dice que

|covθ(T,Zn)|2 ≤ Vθ(T )Vθ(Zn),

se deduce que

1 ≤ Vθ(T )Vθ(Zn) = Vθ(T )n IX(θ) ,

usando de nuevo el lema 5.5 en la ultima identidad.

En otros terminos, hemos probado:

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 53: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

5.3. Informacion y cota de Cramer–Rao 53

Teorema 5.6 (Cota de Cramer–Rao, caso de soporte finito) Si X es una va-riable aleatoria placida y con soporte finito, entonces para todo estadıstico insesga-do T de θ para muestras de tamano n se cumple que

(5.24) Vθ(T ) ≥ 1

n IX(θ), para todo θ ∈ Θ

La relevancia de este resultado estriba en que esta cota inferior para la varianzade T como estimador depende de la distribucion de X directamente y de θ, y no delestimador. La cota es valida para todos los estimadores insesgados: siempre hay unacierta dispersion (varianza), al menos la que viene dada por la cota de Cramer–Rao.Parafraseando,

todo estimador insesgado de θ tiene una varianza no inferior a 1/(nIX(θ)).

La cota de Cramer–Rao del teorema 5.6 recoge, cuantitativa y precisamente,la idea/intuicion antes descrita de que si la informacion IX(θ) es pequena, enton-ces resultara difıcil estimar θ a partir de muestras: si IX(θ) es pequena, entonces,por (5.24), cualquier estimador (insesgado) de θ tiene varianza grande, y las estima-ciones que produce se dispersaran bastante en torno al verdadero valor del parametro.

A un estimador insesgado T del parametro θ cuya varianza es justamente la cotade Cramer–Rao, es decir, tal que

Vθ(X) · IX(θ) =1

n, para todo θ ∈ Θ,

se le dice estimador eficiente o insesgado de mınima varianza. Tal estimadores mas eficiente que cualquier otro estimador de θ.

A. Ejemplos de cotas de Cramer–Rao y de estimadores eficientes

Sigue ahora una lista de ejemplos, las familias habituales, donde exhibimos lacota de Cramer–Rao (apoyandonos en los calculos de las cantidades de informaciondel apartado anterior), y donde investigamos posibles estimadores eficientes.

Solo el primero de los ejemplos, ber(p) es finito. Los demas ejemplos cumplen lascondiciones que detallaremos en el apartado 5.3.3 siguiente, y por tanto para ellosse cumple tambien la cota de Cramer–Rao.

Ejemplo 5.3.8. Cota de Cramer–Rao para X ∼ ber(p).

Como ya sabemos del ejemplo 5.3.1, IX(p) = 1/(p(1 − p)), y por tanto, la cotade Cramer–Rao es

p(1− p)

n.

Como X es insesgado y Vp(X) = Vp(X)/n = p(1 − p)/n, tenemos que X esestimador insesgado de mınima varianza. ♣

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 54: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

54 Capıtulo 5. Estimacion (puntual) de parametros

Ejemplo 5.3.9. Cota de Cramer–Rao para X ∼ poisson(λ).

Como ya sabemos del ejemplo 5.3.2, las cantidad de informacion es IX(λ) = 1/λ.Ası que la cota de Cramer–Rao es, en este caso, λ/n .

La media muestralX es un estimador insesgado de λ. ComoVλ(X) = Vλ(X)/n =λ/n, tenemos que X es un estimador eficiente, con la mınima varianza posible. ♣

Ejemplo 5.3.10. Cota de Cramer–Rao para X ∼ exp(λ).

Si queremos estimar el parametro λ, usamos que (ejemplo 5.3.3)

IX(λ) =1

λ2,

para concluir que si T es un estimador insesgado de λ, entonces

Vλ(T ) ≥ λ2

n.

Pero si lo que queremos es estimar el parametro θ = 1/λ (la media de la distri-bucion), tendrıamos, de nuevo por el ejemplo 5.3.3, que

IX(θ) =1

θ2.

De manera que si T es estimador insesgado de 1/λ, entonces

Vθ(T ) ≥ θ2

n, o en terminos del parametro oficial, Vλ(T ) ≥ 1

nλ2.

El estimador X cumple que Eλ(X) = 1/λ y que Vλ(X) = Vλ(X)/n = 1/(nλ2).Ası que X es un estimador (de 1/λ) insesgado y de mınima varianza, esto es, unestimador eficiente de 1/λ. ♣

Ejemplo 5.3.11. Cota de Cramer–Rao para X ∼ N (μ0, σ2).

Queremos estimar θ = σ2. El valor μ0 es conocido. Como ya sabemos del ejem-plo 5.3.4,

IX(θ) =1

2θ2.

Ası que la cota de Cramer–Rao es 2θ2/n.

Como ya vimos en el ejemplo 5.1.10, para la cuasivarianza muestral S2, que esun estimador insesgado de θ, se tiene que

Vθ(S2) =

2θ2

n− 1,

que no alcanza (por poco) la cota de Cramer–Rao.

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 55: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

5.3. Informacion y cota de Cramer–Rao 55

Recuerdese que X = μ0 +√θ Z, con Z ∼ N (0, 1). Ası que Eθ((X − μ0)

2) = θ yEθ((X − μ0)

4) = θ2Eθ(Z4) = 3θ2.

Consideremos, por otro lado, el estadıstico

T =1

n

n∑j=1

(Xj − μ0)2,

que es insesgado, puesEθ(T ) = Eθ((X − μ0)

2) = θ,

y ademas, es, sı, de mınima varianza, porque

Eθ(T2) =

1

n2

( n∑j=1

Eθ((Xj − μ0)4) +

∑1≤i =j≤n

E((Xi − μ0)2)E((Xj − μ0)

2))

=θ2

n2

(3n+ n(n−1)

)=(1 +

2

n

)θ2

y, por tanto

Vθ(T ) = Eθ(T2)−Eθ(T )

2 =(1 +

2

n

)θ2 − θ2 =

2θ2

n,

que es justo la cota de Cramer–Rao. ♣

Ejemplo 5.3.12. Cota de Cramer–Rao para X ∼ N (μ, σ20), con σ2

0 conocida.

Queremos estimar θ = μ. Como ya sabemos del ejemplo 5.3.5,

IX(μ) =1

σ20

,

de donde la cota de Cramer–Rao es σ20/n.

La media muestral X es estimador insesgado de μ, y V(X) = V(X)/n = σ20/n.

Ası que la cota se alcanza y X es estimador insesgado de mınima varianza. ♣

Ejemplo 5.3.13. Sea X una variable con funcion de densidad f(x;α) = αxα−1

para 0 < x < 1, donde α es un parametro, α > 0.

Nos interesa estimar el parametro θ = 1/α. Como ya sabemos del ejemplo 5.3.7,

IX(θ) =1

θ2,

y, por tanto, que la cota de Cramer–Rao es θ2/n.

Usando que Eθ(ln(1/X)) = θ y Vθ(ln(1/X)) = θ2, tal y como vimos en el citadoejemplo 5.3.7, resulta que el estadıstico

T (X1, . . . ,X1) =1

n

n∑j=1

ln( 1

Xj

)notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 56: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

56 Capıtulo 5. Estimacion (puntual) de parametros

es un estimador insesgado de θ, y ademas Vθ(T ) = Vθ(ln(1/X))/n = θ2/n. Ası queel estadıstico T es estimador insesgado de mınima varianza de θ. ♣

Ejemplo 5.3.14. Cota de Cramer–Rao para la distribucion de Rayleigh.

Para X ∼ ray(σ2), nombramos el parametro que queremos estimar como θ = σ2.Como ya sabemos del ejemplo 5.3.6, la cantidad de informacion viene dada por

IX(θ) =1

θ2,

de manera que la cota de Cramer–Rao es θ2/n.

Recuerde, lector, de (3.15), que Eθ(X2) = 2θ y que Eθ(X

4) = 8θ2.

El estimador T de maxima verosimilitud de θ (y tambien uno de los estima-dores por momentos), vease el ejemplo 5.2.10, viene dado por T = 1

2X2. Como

Eθ(X2) = 2θ, se tiene que Eθ(T ) = 1

2Eθ(X2) = 12Eθ(X

2) = θ, y por tanto el esti-mador T es insesgado.

Ademas,

Eθ(T2) =

1

4Eθ

[( 1n

n∑j=1

X2j

)2 ]=

1

4

1

n2

( n∑j=1

Eθ(X4j ) +

∑1≤i =j≤n

Eθ(X2i )Eθ(X

2j ))

=θ2

4n2

(8n+ 4n(n−1)

)=(1 +

1

n

)θ2,

de manera que

Vθ(T ) = Eθ(T2)−Eθ(T )

2 =(1 +

1

n

)θ2 − θ2 =

θ2

n,

y, por tanto, T es estimador eficiente. ♣

5.3.3. Complementos sobre la cota de Cramer–Rao

Recogemos en este apartado unas cuantas observaciones sobre la cota de Cramer–Rao, a saber,

las versiones generales del lema 5.4 de Diotivede y de la cota de Cramer–Rao(teorema 5.6) para variables continuas (o discretas con soporte numerable);

la expresion de la cota de Cramer–Rao para el caso de estimadores sesgados;

la unicidad del estimador eficiente (cuando este exista) y una “expresion” ge-neral para el estimador eficiente;

y, finalmente, una reflexion sobre el caso de las variables cuyo soporte dependedel parametro.

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 57: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Versionpreliminar,

20denov

iembre

de2018

5.3. Informacion y cota de Cramer–Rao 57

A. Condiciones para el lema de Diotivede y el teorema de Cramer–Rao

En el argumento que nos condujo al lema 5.4 de Diotivede en el caso en que lavariable X, placida ella, tiene soporte finito, se ha derivado la ecuacion (5.20) y seha usado que la derivada de una suma (finita) es la suma de las derivadas.

Cuando la variableX es continua, las esperanzas son integrales. Queremos derivarbajo el signo integral la expresion

1 =

∫sop

f(x; θ)dx

para obtener que

0 =

∫sop

∂θf(x; θ)dx =

∫sop

∂θf(x; θ)

f(x; θ)f(x; θ) dx ,

que ya es la conclusion del lema de Diotivede: Eθ(Y ) = 0 .

La siguiente condicion:

para cada intervalo cerrado I ⊂ Θ se tiene que

[dio]

∫x∈sop

supθ∈I

|∂θθf(x, θ)| dx < +∞,

permite el intercambio de derivacion e integracion que hemos senalado mas arriba.

Lema 5.7 (Diotivede) Si X es una variable aleatoria continua, placida y que cum-ple [dio], entonces

Eθ(Y ) = 0 , para cada θ ∈ Θ ,

Ademas,

IX(θ) = Vθ(Y ) = Eθ

((∂θf(X; θ)

f(X; θ)

)2)=

∫sop

(∂θf(x; θ)f(x; θ)

)2f(x; θ) dx .

� Nota 5.3.3. Va aquı el detalle de la justificacion del intercambio entre derivacion a integracion.Denotemos

AI(x) � supθ∈I

|∂θθf(x, θ)| , para x ∈ sop .

Fijemos θ ∈ Θ. Sea I ⊂ Θ un intervalo cerrado que contiene a θ en su interior. Sea δ > 0, talque θ + δ ∈ I . Como la variable es placida, y en particular por la propiedad c) de la definicion 5.3,tenemos que, para x ∈ sop,

f(x; θ + δ)− f(x; θ)− δ ∂θf(x; θ) =

∫ θ+δ

θ

∫ η

θ

∂θθf(x;φ) dφ dη ;

(esta expresion no es mas que el polinomio de Taylor de grado 1, con termino de error), y por tanto,

(�)∣∣f(x; θ + δ)− f(x; θ)− δfθ(x; θ)

∣∣ ≤ 1

2δ2AI(x) .

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 58: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

58 Capıtulo 5. Estimacion (puntual) de parametros

Como f(x; θ + δ) y f(x; θ) son funciones de densidad,

(�)

∫sop

f(x; θ + δ) dx = 1 =

∫sop

f(x; θ) dx .

Por (�) y (�) (division por δ mediante) se tiene que∣∣∣ ∫x∈sop

fθ(x; θ) dx∣∣∣ ≤ 1

∫x∈sop

AI(x) dx .

Observese que el lado izquierdo de la identidad anterior no depende de δ. Como, por la hipotesis[dio], la integral

∫x∈sop

AI(x) dx es finita, se deduce haciendo δ → 0 que∫sop

fθ(x; θ) dx = 0 ,

y, por tanto,

Eθ(Y ) =

∫sop

∂θ ln f(x; θ)fθ(x; θ) dx =

∫sop

fθ(x; θ) dx = 0 .

Para el caso en queX es variable aleatoria discreta (infinita), placida, el resultadoes el mismo sustituyendo la condicion [dio] del enunciado por

para cada intervalo cerrado I ⊂ Θ se tiene

[dio]�∑

x∈sopsupθ∈I

|∂θθf(x, θ)| dx < +∞

� Nota 5.3.4. La demostracion es analoga a la de la nota 5.3.3: basta reemplazar∫x∈sop

por∑

x∈sop

en cada ocurrencia.

Estas condiciones [dio] o [dio]�, se cumplen para toda la baterıa de modelospara X que se usan en la practica.

Ejemplo 5.3.15. Condiciones del lema 5.7 para la familia exp(λ).

Para la familia exponencial tenemos que sop = (0,+∞) y que Θ = (0,+∞).Para x ∈ sop y λ > 0 se tiene f(x;λ) = λe−λx.

Tenemos

∂λλf(x;λ) = −(2x+ λx2)e−λx , para λ > 0 y x > 0 ,

y f(x;λ) es placida. Si I = [α, β] ⊂ (0,+∞) = Θ, (ası que α > 0 y β < +∞) se tiene

AI(x) ≤ (2x+ βx2)e−αx , para x > 0 ,

De manera que∫ ∞

0AI(x) dx ≤

∫ ∞

0(2x+ βx2)e−αxdx =

2

α2+

α3< +∞ .

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 59: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

5.3. Informacion y cota de Cramer–Rao 59

En la demostracion del teorema 5.6 de Cramer–Rao en el caso de soporte finito,ademas de derivar la funcion de densidad como en el lema de Diotivede, se deriva laidentidad

θ = Eθ(T ) = Eθ

(h(X1, . . . ,Xn)

)=

∑x∈sopn

h(x) f(x; θ) ,

respecto de θ ∈ Θ, donde T es el estimador insesgado dado por T = h(X1, . . . ,Xn).

En el caso continuo habremos de derivar

θ = Eθ(T ) = Eθ

(h(X1, . . . ,Xn)

)=

∫x∈sopn

h(x) f(x; θ) dx

.

La condicion

para cada intervalo cerrado I ⊂ Θ se tiene que

[cr]

∫x∈sop

h(x) supθ∈I

|∂θθf(x, θ)| dx < +∞ ,

que involucra a la variable X y al estadıstico T , permite intercambiar derivada eintegral y probar:

Teorema 5.8 (Cota de Cramer–Rao) Sea X es una variable aleatoria continua,placida y que cumple [dio], y sea T un estadıstico insesgado que se cumple [cr].Entonces,

Vθ(T ) ≥ 1

n IX(θ), para todo θ ∈ Θ.

La condicion [dio] nos da que Eθ(Y ) = 0 y que Eθ(Zn) = 0, mientras que lacondicion [cr] nos permite derivar bajo el signo integral de manera analoga a comose hizo en la demostracion del lema 5.7 de Diotivede.

Para variables discretas (de soporte infinito) la condicion [cr] se traslada en

para cada intervalo cerrado I ⊂ Θ se tiene que

[cr]�∑

x∈soph(x) sup

θ∈I|∂θθf(x, θ)| < +∞ .

y bajo [dio]� y [cr]� la conclusion de la cota de Cramer–Rao sigue siendo valida.

B. Cota de Cramer–Rao, caso sesgado

El siguiente resultado exhibe una suerte de cota de Cramer–Rao para estimadoresgenerales, no necesariamente insesgados.

Sea T un estadıstico para el que

() Eθ(T ) = mT (θ) para cada θ ∈ Θ,

donde mT (θ) es una cierta funcion de θ.

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 60: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

60 Capıtulo 5. Estimacion (puntual) de parametros

Si fuera mT (θ) = θ, entonces dirıamos que T es un estadıstico estimador de θinsesgado. En caso contrario, podemos interpretar () de dos maneras, alternativas(y sugerentes):

T es un estadıstico estimador de θ sesgado, donde el sesgo es mT (θ)− θ;

o bien T es un estimador insesgado de mT (θ), que es una cierta funcion deparametro θ.

En cualquier caso, y siguiendo fielmente los pasos de la demostracion del teore-ma 5.6, obtendrıamos primero que

m′T (θ) = Eθ(T · Zn) = cov(T,Zn),

y luego, usando la desigualdad de Cauchy–Schwarz del corolario 2.4, tendrıamos que

|m′T (θ)|2 = |cov(T,Zn)|2 ≤ Vθ(T )Vθ(Zn) = Vθ(T )nIX(θ).

Es decir,

Teorema 5.9 Con las notaciones anteriores, para todo θ ∈ Θ, se tiene que

Vθ(T ) ≥ m′T (θ)

2

n IX(θ).

Observe, lector, que ahora la cota para la varianza de T es algo menos interesanteque en el caso insesgado, pues no depende unicamente de la funcion de densidadf(x; θ), sino que incorpora el factor mT (θ), que depende del estimador T utilizado.

Ejemplo 5.3.16. La exponencial y sus parametros.

Del ejemplo 5.3.10, recordamos que la informacion de Fisher (con respeto delparametro λ) es IX(λ) = 1/λ2.

Supongamos que tenemos un estadıstico T tal que

Eλ(T ) =1

λ.

Es decir, T es un estimador insesgado de 1/λ. Apelando al teorema 5.9, y tomandoallı m(λ) = 1/λ, para el que m′(λ) = −1/λ2, concluimos que

Vλ(T ) ≥ 1/λ4

n/λ2=

1

nλ2,

que es justamente la cota de Cramer–Rao que obtuvimos en el ejemplo 5.3.10 conel (algo mas tortuoso) camino consistente en reescribir la funcion de densidad de laexponencial en terminos de θ = 1/λ. ♣

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 61: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

5.3. Informacion y cota de Cramer–Rao 61

C. Unicidad y existencia de estimadores eficientes

Lema 5.10 (Unicidad del estimador insesgado de mınima varianza) Sean T1

y T2 estimadores insesgados de θ, ambos de mınima varianza. Entonces T1 ≡ T2.

Aquı, T1 ≡ T2 significa que las variables son iguales con probabilidad 1.

En realidad, este resultado no depende de la cota de Cramer–Rao en sı; sim-plemente dice que, con mınima varianza (sea cual sea esta), solo puede haber unestimador insesgado.

Demostracion. Sea S el estimador

S =1

2T1 +

1

2T2 .

El estimador S es insesgado. Es decir, Eθ(S) = θ, para todo θ. Ademas,

Vθ(S) =1

4Vθ(T1) +

1

4Vθ(T2) +

1

2covθ(T1, T2)

≤ 1

4Vθ(T1) +

1

4Vθ(T2) +

1

2

√Vθ(T1)

√Vθ(T2) = Vθ(T1) = Vθ(T2) .

Como T1 (o T2) son de mınima varianza (estrictamente positiva), se ha de cumplirque Vθ(S) = Vθ(T1) = Vθ(T2), para cada θ. Es decir, en la cadena anterior ha dehaber igualdades, y por tanto

covθ(T1, T2) =√

Vθ(T1)√

Vθ(T2).

Ası que estamos en el caso de igualdad en Cauchy–Schwarz (corolario 2.4), y portanto, para ciertas funciones a(θ) y b(θ), se cumple que

() T2 = a(θ)T1 + b(θ).

Como T1 y T2 son insesgados y de igual varianza, deducimos6 que a ≡ 1 y b ≡ 0. �

El siguiente resultado nos da una expresion para el estimador eficiente, en casode que exista.

Proposicion 5.11 Sea X una variable placida con funcion de densidad f(x; θ).Llamamos Zn = Y1 + · · · + Yn a la variable de informacion total para muestras detamano n. Si T es estimador eficiente de θ, entonces

T ≡ Zn

nIX(θ)+ θ.

6En realidad, de la condicion de iguales varianzas se deduce que a2(θ) = 1, y por tanto a(θ) = ±1.Tomando a(θ) = 1 se deduce que b(θ) = 0. La otra “solucion”, a(θ) = −1, llevarıa a b(θ) = 2θ; peroesto contradirıa la definicion de estadıstico, que no puede contener referencias al parametro θ.

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 62: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

62 Capıtulo 5. Estimacion (puntual) de parametros

Observe, lector, que implıcita en el enunciado subyace la hipotesis de que existeun tal estimador eficiente.

Recuerde, lector, que un estimador es una expresion T = h(X1, . . . ,Xn) quedepende tan solo de la muestra y en la que, por supuesto, no puede aparecer elparametro. En la expresion de la proposicion 5.11 aparece el parametro θ en Zn,en IX(θ), y tambien en el sumando θ. Ası que esta expresion de T solo sera util si,como por ensalmo, todas estas apariciones de θ se cancelan y T no depende de θ.

Si ese fuera el caso, si

T =Zn

nIX(θ)+ θ

fuera realmente un estadıstico estimador, entonces serıa insesgado, pues Eθ(Zn) = 0,y de mınima varianza, pues Vθ(Zn) = nIX(θ), y por tanto, Vθ(T ) = 1/(nIX(θ)).

Demostracion. Si T es de mınima varianza, entonces

1 = covθ(T,Zn) ≤√

Vθ(T )√Vθ(Zn) =

√Vθ(T )

√nIX(θ) = 1 ,

y, por tanto, covθ(T,Zn) =√

Vθ(T )√

Vθ(Zn). El caso de igualdad en la desigualdadde Cauchy-Schwarz nos dice que

T ≡ α(θ)Zn + β(θ) ,

para ciertas funciones α(θ) y β(θ). Como Eθ(T ) = θ y Eθ(Zn) = 0, ha de ser β = θ,y como Vθ(T ) = 1/(nIX (θ)) y Vθ(Zn) = nIX(θ), ha de ser α = 1/(nIX(θ)). �

En el ejemplo 5.3.11 sobre la cota de Cramer–Rao y estimadores eficientes paraN (μ0, σ

2), con μ0 conocido, vimos que el estimador natural S2 no era estimadoreficiente de σ2. Inopinadamente se propuso allı (X − μ0)2 como estimador. Veamos.

Pongamos, por simplificar notacion, que μ0 = 0. De los ejemplos 5.3.4 y 5.3.11obtenemos que para N (0, σ2), poniendo θ = σ2, tenemos que

Y =X2 − θ

2θ2y Zn = n

X2 − θ

2θ2.

Ademas, IX(θ) = 1/(2θ2).

Por tanto, siguiendo la proposicion 5.11, el estimador eficiente, de existir, ha deescribirse como

T =Zn

nIX(θ)+ θ =

2θ2

nnX2 − θ

2θ2− θ = X2 ,

tras sustituir las expresiones de Zn y de IX(θ) y asistir, asombrados, a la fulminantecancelacion de todas las apariciones del parametro.

D. Soporte dependiente del parametro

Hemos derivado el lema de Diotivede y la cota de Cramer–Rao para variablesplacidas con alguna hipotesis adicional en el caso de soporte no finito. Una de las

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez

Page 63: Estimaci´on (puntual) de par´ametros onpreliminar ...verso.mat.uam.es/~pablo.fernandez/cap5-1-EstadI-nov18.pdf · muestral”designamostantoal n´umero 1 n n i=1 x i comoalavariable

Version

preliminar,20

denoviembre

de2018

5.3. Informacion y cota de Cramer–Rao 63

condiciones para que una variable sea placida es que su soporte sea independientedel parametro θ ∈ Θ. Esta hipotesis no es unicamente conveniente para los calculos,sino de hecho, indispensable.

En el ejemplo siguiente, la uniforme unif[0, a], vamos a ver que no se cumplenlas conclusiones ni del lema de Diotivede ni de la cota de Cramer–Rao, tal y comose han formulado.

Ejemplo 5.3.17. X ∼ unif[0, a]. ¿Cota? de Cramer–Rao.

Si procedemos directamente,

f(x; a) =1

a=⇒ ln(f(x; a)) = − ln(a) =⇒ ∂a ln(f(x; a)) = −1/a .

Ası que Y ≡ −1/a. Observese que ya no se cumplirıa que Ea(Y ) = 0, como deberıa.Ademas Ea(Y

2) = 1/a2. Ası que la cota de Cramer–Rao deberıa ser a2/n.

Sin embargo, en el ejemplo 5.1.9 hemos comprobado que el estimador insesgadoT = n+1

n max(X1, . . . ,Xn) tiene varianza

Va(T ) =1

n(n+ 2)a2 .

Por ultimo, notese, en cualquier caso, que Va(Y ) = 0. ♣

notas de estadıstica I – 20 de noviembre de 2018 – jose l. fernandez y pablo fernandez