notas dr. erdely.pdf

104
Monograf´ ıa de Estad´ ıstica Bayesiana Dr. Arturo Erdely Ruiz 1 Dr. Eduardo Guti´ errez Pe˜ na 2 1 FES – Acatl´ an, Universidad Nacional Aut´ onoma de M´ exico 2 IIMAS, Universidad Nacional Aut´ onoma de M´ exico

Upload: ithann-islas

Post on 25-Nov-2015

53 views

Category:

Documents


3 download

TRANSCRIPT

  • Monografa de Estadstica Bayesiana

    Dr. Arturo Erdely Ruiz 1

    Dr. Eduardo Gutierrez Pena 2

    1 FES Acatlan, Universidad Nacional Autonoma de Mexico2 IIMAS, Universidad Nacional Autonoma de Mexico

  • 2

  • Indice general

    1. Introduccion 11.1. Breve resena historica . . . . . . . . . . . . . . . . . . . . . . 11.2. Enfoques bayesiano versus frecuentista . . . . . . . . . . . . . 31.3. Interpretaciones de la Probabilidad . . . . . . . . . . . . . . . 51.4. La Regla de Bayes . . . . . . . . . . . . . . . . . . . . . . . . 91.5. La filosofa bayesiana . . . . . . . . . . . . . . . . . . . . . . . 12

    2. El paradigma bayesiano 152.1. El modelo general . . . . . . . . . . . . . . . . . . . . . . . . . 152.2. Un primer ejemplo . . . . . . . . . . . . . . . . . . . . . . . . 20

    3. Informacion a priori 293.1. Determinacion de la distribucion a priori . . . . . . . . . . . . 293.2. Familias conjugadas . . . . . . . . . . . . . . . . . . . . . . . . 323.3. Distribuciones a priori no informativas . . . . . . . . . . . . . 353.4. Regla de Jeffreys . . . . . . . . . . . . . . . . . . . . . . . . . 36

    4. Elementos de la teora de la decision 454.1. Representacion formal . . . . . . . . . . . . . . . . . . . . . . 454.2. Solucion de un problema de decision . . . . . . . . . . . . . . 494.3. Problemas de decision secuencial . . . . . . . . . . . . . . . . 584.4. Inferencia e informacion . . . . . . . . . . . . . . . . . . . . . 674.5. Acciones y utilidades generalizadas . . . . . . . . . . . . . . . 79

    5. Inferencia estadstica parametrica bayesiana 895.1. Estimacion puntual . . . . . . . . . . . . . . . . . . . . . . . . 895.2. Contraste de hipotesis . . . . . . . . . . . . . . . . . . . . . . 925.3. Estimacion por regiones . . . . . . . . . . . . . . . . . . . . . 95

    3

  • 4 INDICE GENERAL

    Bibliografa 99

  • Captulo 1

    Introduccion

    1.1. Breve resena historica

    Considerando el conjunto de libros de la bibliografa que se incluye alfinal de esta monografa, sin duda el libro de Press (2003) es el que masespacio destina a hacer una resena historica sobre los orgenes y desarrollode la Estadstica Bayesiana, particularmente sobre Thomas Bayes, a quiendedica parte importante del primer captulo, ademas de cuatro apendices.Aprovecharemos ese invaluable trabajo para lograr una breve resena, en elentendido de que el lector interesado en mas detalles debiera, en principio,consultar la mencionada referencia.

    El trabajo de Thomas Bayes, publicado de manera postuma en 1763,ha tenido una importante consecuencia en la forma de hacer inferencia es-tadstica: provee una manera formal de combinar el conocimiento a priori (oinicial) que se tiene sobre un fenomeno, con el nuevo conocimiento que seadquiere a partir de nuevos datos y mediciones sobre el mismo, obteniendoas un conocimiento a posteriori (o final), es decir, el conocimiento a priorise actualiza con la nueva informacion, y dicho conocimiento a posteriori seconvertira en el nuevo conocimiento a priori, a la espera, otra vez, de nuevainformacion que lo actualice.

    Sin embargo, existieron otras figuras en la comunidad cientfica que con-tribuyeron de manera importante al desarrollo del enfoque bayesiano, e inclu-so algunos de ellos precedieron a Thomas Bayes. Por ejemplo, la idea esencialsubyacente en el teorema atribuido a Bayes, el problema de la probabilidadinversa, se encuentra en el libro de James Bernoulli (1713), y aunque su

    1

  • 2 CAPITULO 1. INTRODUCCION

    autor no le dio una estructura matematica, abordo problemas particularesal respecto. De hecho, el trabajo de Bayes (1763) aborda directamente elproblema de hacer inferencias sobre el parametro de una distribucion bino-mial, condicional en algunas observaciones de dicha distribucion, y es estecaso particular lo que originalmente debiera conocerse como el Teorema deBayes. Segun Press (2003), parece ser que Bayes se dio cuenta de que suresultado poda generalizarse mas alla de la distribucion binomial, pero en loque de el se publico se limita a la distribucion binomial. Fue Laplace (1774)quien enuncio el teorema sobre probabilidad inversa en su forma general (ca-so discreto), y segun Stigler (1986 a,b), es muy probable que Laplace jamashaya conocido el famoso ensayo de Bayes, y por tanto que haya descubier-to este resultado de forma totalmente independiente, ya que Bayes llevo acabo su trabajo en Inglaterra, y sus resultados fueron ignorados por mas de20 anos, y Laplace desarrollo su trabajo en Francia. De hecho fue Jeffreys(1939) quien redescubrio el trabajo de Laplace en este campo. Quizas seraigualmente justo hacer referencia a la Estadstica Laplaciana.

    Respecto al desarrollo formal de lo que hoy se conoce como EstadsticaBayesiana, en uno de los apendices del libro de Press (2003) se presentala metodologa y resultados de una consulta a un panel de expertos paraseleccionar a las personalidades que debieran, a juicio de dicho panel, integrarel Salon Bayesiano de la Fama, con los siguientes resultados:

    Thomas Bayes (1701? - 1761),

    Bruno De Finetti (1906 - 1985),

    Morris De Groot (1931 - 1989),

    Harold Jeffreys (1891 - 1989),

    Dennis V. Lindley (1923 - ),

    Leonard J. Savage (1917 - 1971).

    De acuerdo a la metodologa de Press (2003), las siguientes personali-dades lograron una Mencion Honorfica: James O. Berger, George E.P.Box, Pierre Simone de Laplace, Adrian F.M. Smith, Arnold Zellner.

    Aunque la omision de algunos nombres podra generar una controversiaque no es objeto de la presente monografa, lo importante a destacar son jus-tamente algunos nombres importantes y de obligada referencia para conocersobre el origen y cimientos de la Estadstica Bayesiana.

  • 1.2. ENFOQUES BAYESIANO VERSUS FRECUENTISTA 3

    Para completar la lista de referencias obligadas sobre el enfoque bayesiano,se recomienda consultar la seccion 1.5 del libro de Bernardo y Smith (1994),lista a la que sin duda habra que anadir esta ultima.

    1.2. Enfoques bayesiano versus frecuentista

    El enfoque de la llamada estadstica frecuentista no permite incorporarde manera coherente en el analisis estadstico la informacion extra-muestraldisponible, se apoya unicamente en datos muestrales observados. Si no haydatos, la estadstica frecuentista esta imposibilitada para operar. Si hay muypocos datos, la estadstica frecuentista presenta fuertes problemas tambien,pues muchos de sus metodos se apoyan en resultados asintoticos, tales comola ley de los grandes numeros, el teorema central del lmite, y sus consecuen-cias, y por ello por lo general requiere de muestras grandes para que susresultados sean confiables. En cambio, la Estadstica Bayesiana aprovechatanto la informacion que nos proporcionan los datos muestrales as comola informacion extra-muestral disponible, entendiendo por esto ultimo, demanera informal, toda aquella informacion relevante, ademas de los datos,que nos ayude a disminuir nuestra incertidumbre o ignorancia en torno a unfenomeno aleatorio de interes. Esquematicamente:

    Estadstica frecuentista solo datosEstadstica Bayesiana datos + info extra-muestral

    En estadstica bayesiana, el termino comun para referirse a la informa-cion extra-muestral es el de informacion subjetiva, y es importante aclarar,al menos brevemente, que se entiende en este contexto por el adjetivo sub-jetiva, ya que en el lenguaje corriente puede tener una connotacion distintaa la que se requiere bajo el enfoque bayesiano. Al hablar de informacionsubjetiva nos referimos a toda aquella informacion a priori que se tiene enrelacion al fenomento aleatorio de interes, antes de recolectar o realizar nuevasmediciones sobre el mismo, y esto incluye: datos historicos, teoras, opinionesy conjeturas de expertos, conclusiones basadas en estudios previos, etc. Elprimer paso en la inferencia estadstica bayesiana es traducir todo lo anteri-or en una distribucion de probabilidad a priori (o inicial). El segundo pasoconsiste en recolectar o realizar nuevas mediciones, y actualizar la distribu-cion de probabilidad a priori, para obtener, mediante la Regla de Bayes, una

  • 4 CAPITULO 1. INTRODUCCION

    distribucion de probabilidad a posteriori (o final) y sera esta ultima la mejordescripcion posible de nuestra incertidumbre, de acuerdo a toda nuestra in-formacion disponible, y por tanto sera la herramienta fundamental a partirde la cual se realiza inferencia estadstica.

    De una u otra manera, la subjetividad siempre ha estado presente en laactividad cientfica, comenzando por los supuestos sobre los cuales se decideabordar un determinado problema, tpicamente se les denomina supuestosrazonables, pero son razonables de acuerdo a la experiencia e informacion(subjetiva) particular de quien o quienes estudian un fenomeno en un mo-mento dado. De acuerdo a Wolpert (1992):

    [. . . ] la idea de una objetividad cientfica tiene tan solo un valorlimitado, ya que el proceso mediante el cual se generan las ideas [ohipotesis] cientficas puede ser bastante subjetivo [. . . ] Es una ilusioncreer que los cientficos no tienen un cierto vnculo emocional con susconvicciones cientficas [. . . ] las teoras cientficas implican una con-tinua interaccion con otros cientficos y el conocimiento previamenteadquirido [. . . ] as como una explicacion que tenga posibilidades deser aceptada [o al menos considerada seriamente] por el resto de lacomunidad cientfica.

    De acuerdo a Press (2003) la subjetividad es una parte inherente y requeri-da para la inferencia estadstica, y para el metodo cientfico. Sin embargo,ha sido la manera informal y desorganizada en la que ha se ha permitido lapresencia de la subjetividad, la responsable de diversos errores y malas in-terpretaciones en la historia de la ciencia. La estadstica bayesiana incorporade manera formal y fundamentada la informacion subjetiva, y es por ello quePress y Tanur (2001) opinan que la ciencia en general avanzara mas rapidoen la medida en que los metodos modernos del analisis estadstico bayesianoreemplacen varios de los metodos clasicos del siglo XX. De hecho, en el librode Press y Tanur (2001) se hace un recuento historico sobre la presencia dela subjetividad en el trabajo de relevantes cientficos como Kepler, Mendel,Aristoteles, Galileo Galilei, Newton, Darwin, Pasteur, Freud, Einstein, entreotros.

    Un ejemplo tpico es la investigacion cientfica en medicina, en donde co-munmente se cuenta con pocos datos, pero al mismo tiempo se cuenta conla valiosa experiencia de medicos muy familiarizados con una enfermedad enestudio. Otro ejemplo es el caso de los mercados financieros, cuya dinamica es

  • 1.3. INTERPRETACIONES DE LA PROBABILIDAD 5

    impulsada mucho mas por las expectativas futuras de los inversionistas par-ticipantes (apreciaciones subjetivas de lo que creen que va a suceder) que porlo que describen las series de tiempo historicas de los indicadores financieros.En ambos ejemplos, la estadstica bayesiana permite el aprovechamiento dela valiosa informacion subjetiva, en contraste con lo poco que puede hacerel enfoque frecuentista de la estadstica, con pocos datos (en el ejemplo demedicina) o con datos historicos con poco poder predictivo (en el ejemplo demercados financieros).

    1.3. Interpretaciones de la Probabilidad

    El objeto de estudio de la Teora de la Probabilidad son los fenomenos (oexperimentos) aleatorios, mismos que son representados mediante un espaciode probabilidad, digamos (,F ,P), en donde es el espacio muestral (conjun-to cuyos elementos representan resultados posibles del fenomeno aleatorio),F el espacio de eventos (de hecho un -algebra de subconjuntos de ), y unamedida de probabilidad P : F R+ {0}, esto es, una medida que comotal debe satisfacer P() = 0, y para cualesquiera E1, E2, . . . F disjuntossatisface P(

    nEn) =

    n P(En), y ademas P() = 1.

    Recordemos que, en estricto sentido, un evento es una proposicion logicaque puede evaluarse como verdadera o falsa, despues de conocer el resultadode una realizacion (u observacion) del fenomeno aleatorio en cuestion, y comoconsecuencia del Axioma de Comprension de la teora de conjuntos, a todoevento puede asociarsele un subconjunto de . Normalmente no se hace estadistincion, y al hablar de un evento, realmente se trabaja directamente conel conjunto que lo representa. En general, no es cierto que todo subconjuntode representa algun evento, solo es cierto para el caso en que sea, cuandomas, numerable.

    Si el espacio muestral es cuando mas numerable, digamos := {1, 2, . . .},basta poder definir una medida de probabilidad P sobre la clase de los even-tos simples C := {{} : }, ya que en este caso particular cualquierelemento del -algebra F se puede expresar como union disjunta cuandomas numerable de elementos de la clase C, y por la propiedad -aditiva demedidas se tiene que

    P(E) = P(

    E{}

    )= E

    P({}) , para todo evento E F .

  • 6 CAPITULO 1. INTRODUCCION

    Si tiene al menos dos elementos, existe una infinidad no numerable dedistintas medidas de probabilidad que podran definirse sobe el espacio deprobabilidad correspondiente. Cual de todas ellas debe utilizarse? El prob-lema de determinar una medida de probabilidad adecuada para un fenomenoaleatorio dado, y en dado caso verificar su unicidad, depende de nuestrainformacion acerca del mismo.

    Considere el experimento aleatorio de lanzar un dado una vez (no sabe-mos si es un dado equilibrado o no). Como un dado tiene 6 caras podemosetiquetar cada cara con un numero y expresar su espacio muestral como := {1, 2, 3, 4, 5, 6}. Definiremos tres funciones distintas sobre el espacio deeventos F , esto es, P1,P2,P3 : F [ 0, 1 ] tales que para todo evento E F :

    P1(E) :=|E|6,

    P2(E) :=|E|10

    +2

    51E(4) ,

    P3(E) := 1E(4) .en donde |E| representa el numero de elementos del conjunto E. Es facilverificar que las tres funciones anteriores son medidas de probabilidad para elmismo espacio medible (,F) arriba descrito. Y de hecho existe una infinidadno numerable de medidas de probabilidad que se podran definir para esteexperimento aleatorio.

    En lo anterior surge la inquietud sobre cual medida de probabilidad re-sulta ser la mas adecuada, de entre esa infinidad no numerable de medidasde probabilidad posibles. Esto depende de la informacion que se tenga en unmomento dado sobre el experimento aleatorio. Es un sencillo ejercicio veri-ficar lo siguiente: si se tratara de un dado equilibrado (o si al menos creemosrazonable suponer que as es) entonces P1 es la medida de probabilidad ade-cuada; si se tratara de un dado cargado de modo que exista una probabilidadde 1

    2de que salga un 4 y una probabilidad de 1

    2de que salga cualquier otro

    numero que no sea 4 (o si al menos creemos razonable suponer que as es),entonces P2 resulta ser la medida de probabilidad adecuada. Que estado deinformacion representa P3? Existe otro estado de informacion bajo el cualP1 podra considerarse una medida de probabilidad adecuada: si no se tieneinformacion alguna (por que?)

    Enfoque clasico. Si un experimento o fenomeno aleatorio puede ocurrirde n maneras diferentes mutuamente excluyentes e igualmente probables, nos

  • 1.3. INTERPRETACIONES DE LA PROBABILIDAD 7

    encontramos ante el caso de un espacio muestral finito := {1, 2, . . . , n}en donde cualquier medida de probabilidad que se defina sobre el espacio deeventos F debe satisfacer una condicion de equiprobabilidad sobre la clase delos eventos simples C := {{} : }, esto es

    P({1}) = P({2}) = = P({n})

    Es un sencillo ejercicio de probabilidad demostrar que la unica solucionposible bajo la condicion anterior es

    P(E) =|E|n, para todo E F .

    Lo anterior implica que para todos aquellos fenomenos aleatorios conespacio muestral finito en los que, de acuerdo a nuestra informacion, resulterazonable suponer o considerar una condicion de equiprobabilidad, el universode posibles medidas de probabilidad se reduce a una sola.

    El caso anterior es lo que se conoce como el enfoque clasico de la proba-bilidad, y tiene la limitante de que relativamente pocos problemas reales deinteres pueden reducirse a lo anterior.

    Enfoque frecuentista. Bajo este enfoque, normalmente se dice que laprobabilidad de un evento A esta dada por:

    P(A) = lmn

    fA(n)

    n

    donde fA(n) es el numero de veces que ocurre el evento A en n repeticionesidenticas e independientes del experimento o fenomeno aleatorio. Este en-foque presume de ser objetivo porque se basa solo en datos observables pero:

    Tenemos que lmnfA(n)n

    = P(A) si y solo si para todo valor > 0existe un numero natural k tal que si n > k entonces |fA(n)

    nP(A)| < ,

    lo cual NO se puede garantizar ya que bien puede existir n0 > k tal que

    |fA(n0)n0P(A)

    > (por ejemplo, alguna racha de ocurrencias sucesivasdel evento A suficientemente grande).

    fA no es una funcion determinista como las que se utilizan en la teoradel calculo para definir lmites, as que primero se tendra que aclararque definicion de lmite se esta ocupando.

  • 8 CAPITULO 1. INTRODUCCION

    El decir que se tienen repeticiones identicas e independientes, fuera delos juegos de azar, es una apreciacion subjetiva.

    En la practica n nunca se va a, as que no hay manera de comprobarempricamente dicho lmite.

    Enfoque subjetivo. La probabilidad de un evento A es una medida delgrado de creencia que tiene un individuo en la ocurrencia de A con base enla informacion K que dicho individuo posee. Bajo este enfoque toda proba-bilidad es condicional en la informacion de la cual se dispone.

    Por ejemplo, sea A el evento de que este lloviendo en el centro de la Ciudadde Mexico. Para un individuo que vive en el Polo Sur, totalmente aislado delresto del mundo, tendramos que siK1 denota la informacion (total ignoranciaen este caso) que tiene el individuo respecto a lo que sucede en la Ciudadde Mexico, y al no haber razon alguna para asignar mayor probabilidad alevento A o a su complemento, solo queda establecer P(A |K1) = P(Ac |K1)y como se debe cumplir P(A |K1) + P(Ac |K1) = 1 esto inmediatamente noslleva a que P(A |K1) = 12 .

    Si pensamos ahora en un individuo que vive en los suburbios de la Ciudadde Mexico es claro que posee una informacion K2 distinta a la del individuoen el Polo Sur y quizas podramos hablar de algo como:

    P(A |K2) =

    34

    si esta lloviendo en los suburbios

    14

    si no esta lloviendo en los suburbios

    Si bien es cierto que el hecho de que este lloviendo en los suburbios dela Ciudad de Mexico no es garanta de que este lloviendo en el centro dela ciudad, dada la cercana es mas probable que as sea. Podemos decir,informalmente, que K2 representa un mayor nivel de informacion que K1. Ysi ahora pensamos en un individuo que vive justamente en el centro de laCiudad de Mexico tenemos entonces que este inidividuo posee un nivel deinformacion K3 que de hecho es el maximo nivel de informacion que se puedetener respecto al evento A y por lo tanto dicho individuo esta en posicion dereportar uno de dos resultados: P(A |K3) = 1 o bien P(A |K3) = 0.

    Lo importante a destacar en este ejemplo es el hecho de la existencia dedistinitas medidas de probabilidad para un mismo evento, dependiendo de lacantidad de informacion con la que se cuente.

  • 1.4. LA REGLA DE BAYES 9

    Son muy diversos los factores que incrementan nuestro nivel de infor-macion en relacion a un fenomeno o experimento aleatorio. Van desde lainformacion que proveen datos historicos observados hasta la apreciacion yexperiencia de especialistas en dicho fenomeno.

    Este enfoque de la probabilidad es ampliamente aprovechado por lametodologa bayesiana y es por ello que podemos decir que la estadsticabayesiana va mas alla que la estadstica frecuentista al buscar aprovechartoda la informacion disponible, as se trate de datos observados o deinformacion de otro tipo que nos ayude a disminuir de manera coherentenuestra incertidumbre en torno a un fenomeno aleatorio de interes. Un buenejemplo para ilustrar que efectivamente la pura experiencia de las personaspuede contener informacion muy valiosa consiste en el siguiente ejercicio. Enun salon de clase se solicita a cada estudiante que anote en un papel trescosas: su estatura y las estaturas maxima y mnima que el (o ella) creenque hay en el salon. Aun cuando no se hayan practicado mediciones de es-tatura en el salon es sorprendente corroborar que en general los alumnostendran una idea de las estaturas maxima y mnima bastante cercana a larealidad, lo que nos da idea de la cantidad de informacion valiosa que puedellegar a tener una apreciacion subjetiva.

    1.4. La Regla de Bayes

    La estadstica bayesiana toma su nombre del resultado de probabilidadconocido como la Regla de Bayes as que brevemente enunciaremos los prin-cipales resultados al respecto.

    Dado un espacio de probabilidad (,F ,P), si A,B F y P(B) > 0entonces la probabilidad condicional del evento A dado el evento B se definecomo:

    P(A |B) := P(A B)P(B)

    .

    Cabe recordar que aun cuando se tuviera que P(B) = 0 existen resultadosde probabilidad que nos permiten calcular probabilidades condicionales eneventos de probabilidad cero. Quizas una notacion mas adecuada, en vez deP(A |B) sera PB(A) para hacer enfasis en que la medida de probabilidadcondicional PB sustituye (o actualiza) a la medida original P, dado el hechode que ha ocurrido (o se desea suponer que ha ocurrido) el evento B.

  • 10 CAPITULO 1. INTRODUCCION

    Si {Bn} es una particion del espacio muestral y para toda n tenemosque Bn F y P(Bn) > 0, entonces:

    P(A) =n

    P(A |Bn)P(Bn) , para toda A F .

    Un corolario importante del resultado anterior es:

    Si B F P(A) = P(A |B)P(B) + P(A |B c)P(B c) .

    Bajo los supuestos anteriores tenemos la Regla de Bayes :

    P(B k |A) = P(A |B k)P(B k)n

    P(A |Bn)P(Bn) , A F , P(A) > 0 .

    Y como corolario importante:

    P(B |A) = P(A |B)P(B)P(A |B)P(B) + P(A |B c)P(B c) .

    Si bien las demostraciones y ejemplos de lo anterior son propios de un cur-so de probabilidad bien vale la pena abordar un ejemplo que nos servira masadelante para ilustrar el por que algunos calculos de la estadstica frecuentistaresultan cuestionables.

    Supongamos que un grupo de ingenieros biomedicos mexicanos ha disenadoun nuevo aparato para diagnostico del SIDA (en realidad es para diagnosticode presencia de VIH pero coloquialmente nos referimos a esta inmunodefi-ciencia simplemente como SIDA, aunque los medicos nos reganen). Haremosel experimento de escoger a un individuo para probar dicho aparato y con-sideremos los eventos de interes A y B en donde A sea el evento de que elaparato diagnostique SIDA y B el evento de tener efectivamente SIDA. Losingenieros que disenaron este aparato presumen de que este es muy buenopues nos reportan que lo probaron con un grupo de 100 portadores del virusdel SIDA y en 99 % de los casos el aparato dio positivo y que tambien loprobaron con 100 individuos sanos y que tambien en el 99 % de los casos elaparato dio negativo. Probabilsticamente esto se expresa:

    P(A |B) = 99100

    = P(Ac |B c)

  • 1.4. LA REGLA DE BAYES 11

    Sea p la proporcion de mexicanos con virus del SIDA (en este contexo, ap se le conoce como prevalencia). Tenemos entonces que P(B) = p. Con lainformacion anterior y utilizando la Regla de Bayes estamos en posicion decalcular P(B |A), que quedara expresada en funcion de p :

    (p) := P(B |A) =99100

    98100

    + 1100p

    .

    Ahora tabulamos algunos valores (p, (p)):

    p P(B |A)0.002 0.16560.010 0.50000.100 0.91670.500 0.9900

    De lo anterior se observa que unicamente en el caso de que p = 12

    secumple P(B |A) = P(A |B), y que conforme p 0 estas dos probabilidadesse alejan (siendo mas precisos, P(B |A) se aleja de P(A |B) que permanececonstante en 0.99). A primera vista pareciera que estamos discutiendo unatrivialidad, ya que es bien sabido que por lo general P(B |A) suele ser distintade P(A |B), pero si nos detenemos un poco a analizar el ejemplo anterior estotiene consecuencias terribles para los ingenieros que inventaron un aparatoque creen es muy efectivo y en realidad no lo es. En Mexico (2008) se estimauna tasa de prevalencia de SIDA de 0.2 % de la poblacion total, esto es, p =0.002, lo cual significa que la probabilidad (en Mexico) de que un individuotenga SIDA dado que el aparato dice que lo tiene es de tan solo 0.1656 !

    Que sucedio? Sucede que el aparato fue probado con personas de lascuales conocamos previamente su estado de salud, pero ya en la practicacotidiana esto no sucede, las personas que llegan a practicarse un analisis lohacen porque justamente desconocen cual es su estado de salud (es decir sitienen o no el virus) y es por ello que el que P(A |B) sea de 99 % no implicanecesariamente que P(B |A) sea igualmente alta.

    El ejemplo anterior nos sera de mucha utilidad para comprender porque algunos metodos de inferencia de la estadstica frecuentista son cuestion-ables, en particular cuando se busca hacer inferencias sobre un parametro y en lugar de calcular la probabilidad de que tome ciertos valores dada unamuestra, es decir P[ 0 | (x1, . . . , xn) ], la estadstica frecuentista utiliza

  • 12 CAPITULO 1. INTRODUCCION

    la probabilidad de observar una determinada muestra bajo el supuesto de unvalor especfico del parametro, es decir P[ (x1, . . . , xn) | = 0 ], mejor cono-cida como la verosimilitud, y esto es tanto como pretender que P(B |A) =P(A |B) siempre se cumple, o que P(A |B) es siempre una buena aproxi-macion de P(B |A). Para una discusion a detalle sobre inconsistencias enla inferencia estadstica al utilizar verosimilitud se recomienda Le Cam(1990).

    1.5. La filosofa bayesiana

    La teora de la probabilidad se ocupa del estudio de la incertidumbre, y delcomportamiento de los fenomenos o experimentos aleatorios. La probabilidaddepende de dos elementos: el evento incierto y las condiciones bajo las cualeses considerado, por lo que desde este punto de vista la probabilidad es siemprecondicional. La estadstica es una herramienta para la toma de decisiones bajocondiciones de incertidumbre.

    Un enfoque cientfico sobre la incertidumbre es la medicion de la mis-ma. El celebre fsico ingles Sir William Thomson, mejor conocido como LordKelvin, dijo que solo asociando numeros con el concepto cientfico es como sepuede comprender adecuadamente dicho concepto. La razon de querer medirno es solo para ser mas precisos respecto a la intensidad de la incertidum-bre sino tambien para combinar incertidumbres: En un problema tpico deestadstica encontramos combinadas la incertidumbre de los datos y la delparametro.

    La medicion de la incertidumbre puede realizarse por medio del calculo deprobabilidades. En sentido inverso, las reglas de la probabilidad se reducende manera simple a las reglas sobre proporciones. Esto explica por que losargumentos frecuentistas son en muchos casos utiles: La combinacion de in-certidumbres puede ser estudiada por medio de proporciones o frecuencias. Elobjetivo de recolectar datos es precisamente reducir el nivel de incertidumbre,pero bajo la perspectiva bayesiana se aprovechan tanto los datos muestralescomo otro tipo de informaciones que de manera coherente nos ayuden tam-bien a reducir nuestro nivel de incertidumbre en torno a los parametros deinteres.

    En resumen:

    La estadstica es una herramienta para la toma de decisiones bajo condi-

  • 1.5. LA FILOSOFIA BAYESIANA 13

    ciones de incertidumbre.

    La incertidumbre debe ser medida por medio de la probabilidad.

    La incertidumbre sobre los datos debe ser medida condicionalmente enlos parametros.

    La incertidumbre sobre los parametros es similarmente medida pormedio de la probabilidad.

    La inferencia se lleva a cabo mediante calculo de probabilidades, ha-ciendo uso particular de la Regla de Bayes.

    Las discusiones en contra del enfoque bayesiano se centran en el punto demedir la incertidumbre sobre el parametro probabilsticamente, esto es, darletratamiento de variable aleatoria. Para la estadstica frecuentista existe algoque llaman el verdadero valor del parametro que consideran fijo y que soloDios conoce pero que resulta desconocido para nosotros los mortales. Loanterior, ademas de que los estadsticos frecuentistas rechazan la utilizacionde cualquier otro tipo de informacion que no provenga de los datos muestralespara hacer inferencias. Para profundizar mas a detalle en las ideas anterioresse recomienda la lectura del artculo de Lindley (2000).

  • 14 CAPITULO 1. INTRODUCCION

  • Captulo 2

    El paradigma bayesiano

    2.1. El modelo general

    Para referirnos a un modelo probabilstico parametrico general lo denota-mos p(x | ) en donde la funcion p( | ) puede ser una funcion de masa deprobabilidades de una variable (o vector) aleatoria (v.a.) discreta o bien unafuncion de densidad de una v.a. continua. El escribir dicha funcion condi-cional en el parametro (o vector de parametros) se debe al hecho de queuna vez dado un valor especfico de la funcion de probabilidad queda total-mente determinada. Para referirnos a una muestra aleatoria (m.a.) utilizamosla notacion X := (X1, . . . , Xn) y para referirnos a una observacion muestralutilizamos x := (x1, . . . , xn). Por espacio parametrico entendemos el con-junto de todos los valores que puede tomar y por familia parametricaentendemos un conjunto P = {p(x | ) : }.

    Al empezar a estudiar un fenomeno o experimento aleatorio recurrimos ala teora de la probabilidad para escoger o definir alguna familia parametri-ca que modele razonablemente el fenomeno. Una vez hecho esto queda laincertidumbre sobre el parametro del modelo (no olvidemos que el parametropuede ser un vector) pues de entre todos los elementos de la familiaparametrica P = {p(x | ) : } Cual utilizamos para hacer inferen-cias?

    La Estadstica Bayesiana modela la incertidumbre que tenemos sobre probabilsticamente, esto es, consideramos al valor de como una variable (ovector) aleatoria (v.a.) con una distribucion de probabilidad a priori(o inicial) p(). Se trata de una distribucion basada en experiencia previa

    15

  • 16 CAPITULO 2. EL PARADIGMA BAYESIANO

    (experiencia de especialistas, datos historicos, etc.) antes de obtener datosmuestrales nuevos.

    Luego procedemos a observar los nuevos datos (obtencion de la muestra)x := (x1, . . . , xn) y combinamos esta informacion con la distribucion a priorimediante la Regla de Bayes y obtenemos una distribucion de probabili-dad a posteriori (o final) :

    p( |x) = p(x, )p(x)

    =p(x | )p()

    p(x | )p() d(2.1)

    Tenemos que p( |x) es tambien una distribucion de probabilidad de pero que a diferencia de la distribucion a priori p() toma en cuenta tantola informacion contemplada en p() as como la informacion contenida en losdatos observados x = (x1, . . . , xn). La distribucion a posteriori de es la basepara hacer inferencias sobre .

    Es importante tener presente que, por un lado, p(x | ) y p() son dis-tribuciones de probabilidad, y por otro:

    p(x) =

    p(x | )p() d

    es la probabilidad (o densidad) conjunta de la muestrax = (x1, . . . , xn) observada a partir del vector aleatorio X = (X1, . . . , Xn).Pero lo mas importante es estar consciente de que p(x) es constante respectoa , por lo que podemos escribir:

    p( |x) p(x | )p() (2.2)

    Respecto a p(x | ) = p((x1, . . . , xn) | ) tenemos que se trata de la proba-bilidad conjunta de la muestra condicional en (usualmente llamada verosimil-itud). En el caso particular de que los componentes del vector aleatorioX = (X1, . . . , Xn) resulten ser independientes (esto es, observaciones in-dependientes) tenemos que:

    p(x | ) =nj=1

    p(xj | )

  • 2.1. EL MODELO GENERAL 17

    Aunque sera hasta el captulo 5 en donde veamos a detalle la metodologapara la inferencia bayesiana, conviene adelantar un poco al respecto paratener una idea general. Podemos proponer como estimador puntual de aalguna medida de tendencia central, por ejemplo la mediana o la esperanza:

    := E() =

    p( |x) d

    Y aun en el caso de que no se cuente con infomacion muestral se puedecalcular utilizando p() en lugar de p( |x).

    Para hacer estimacion por regiones, por ejemplo, si deseamos calcularla probabilidad de que el vector de parametros pertenezca a una regionA :

    P( A) =A

    p( |x) d

    o bien, dado un valor ] 0, 1 [ se busca un A tal que P( A) = . Confrecuencia la solucion para A no es unica, y se recurre a ciertos criterios dedecision como los que se veran en el captulo 4. Cabe aclarar que si dim = 1las regiones son subconjuntos de R y que un caso particular de estas regionesson los intervalos. En este sentido la estimacion por regiones en estadsticabayesiana es mas general que la estimacion por intervalos de la estadsticafrecuentista.

    Y ya que estamos dando ideas preliminares de lo que es la inferenciabayesiana podemos introducir a un nivel muy simple como se hace el contrastede k hipotesis. Supongamos que se desea contrastar las hipotesis:

    H1 : 1H2 : 2

    ......

    Hk : kUna manera de hacerlo es calcular directamente la probabilidad de cada

    hipotesis y escoger aquella que tenga la mas alta probabilidad, y calcular laprobabilidad de una hipotesis Hj puede ser tan simple como:

    P(Hj) =

    j

    p( |x) d

  • 18 CAPITULO 2. EL PARADIGMA BAYESIANO

    La anterior es una manera muy simple de hacer contraste de hipotesis, enel captulo 5 se vera que este esquema se puede enriquecer mucho medianteel uso de funciones de utilidad.

    Muchos son los casos en los que, mas que estar interesados en el vector deparametros , lo que queremos es describir el comportamiento de observa-ciones futuras del fenomeno aleatorio en cuestion, esto es, hacer prediccion.

    Dado un valor de , la distribucion que describe el comportamiento de laobservacion futura X es p(x | ). El problema es que por lo general el valorde es desconocido. Por lo regular la estadstica frecuentista aborda esteproblema estimando puntualmente a con base en la muestra observada ydicho estimador es sustituido en p(x | ), es decir, utilizan p(x | ). Desde laperspectiva bayesiana el modelo p(x | ) junto con la distribucion a priori p()inducen una distribucion conjunta para el vector aleatorio (X, ) medianteel concepto de probabilidad condicional:

    p(x, ) = p(x | )p()

    y marginalizando la distribucion de probabilidad conjunta anterior obtene-mos:

    p(x) =

    p(x, ) d

    Combinando los dos resultados anteriores:

    p(x) =

    p(x|)p() d (2.3)

    A p(x) la denominamos distribucion predictiva a priori (o inicial),y describe nuestro conocimiento acerca de una observacion futura X basadounicamente en la informacion contenida en p(). Notese que p(x) no dependeya de .

    Una vez obtenida la muestra, el modelo p(x | ) y la distribucion a pos-teriori p( |x) inducen una distribucion conjunta para (X, ) condicional enlos valores observados x = (x1, . . . , xn) :

  • 2.1. EL MODELO GENERAL 19

    p(x, |x) = p(x, ,x)p(x)

    =p(x | ,x)p(,x)

    p(x)

    = p(x | ,x)p( |x)= p(x | )p( |x)

    En lo inmediato anterior p(x | ,x) = p(x | ) se justifica por la indepen-dencia condicional de X y X = (X1, . . . , Xn) dado . Marginalizando ladistribucion conjunta condicional anterior:

    p(x |x) =

    p(x, |x) dCombinando los dos resultados anteriores:

    p(x |x) =

    p(x | )p( |x) d (2.4)

    A p(x |x) la denominamos distribucion predictiva a posteriori (ofinal), y describe nuestro conocimiento acerca de una observacion futura Xbasado tanto en la informacion contenida en p() como en la informacionmuestral x = (x1, . . . , xn). Notese nuevamente que p(x |x) no depende de .

    As que para hacer prediccion sobre observaciones futuras del fenomenoaleatorio que estemos modelando usamos p(x) o bien p(x |x), segun sea elcaso. Y de manera analoga a lo brevemente mencionado sobre inferenciabayesiana, una manera simple de hacer prediccion puntual, por ejemplo, deuna observacion futura X podra ser mediante alguna medida de tendenciacentral, como la mediana o la esperanza:

    x := E(X) =RanX

    xp(x |x) dxdonde RanX es el rango de la v.a. X. Tambien, una manera de calcular laprobabilidad de que una observacion futura caiga en un conjunto A RanXsera:

    P({X A}) =A

    p(x |x) dx

  • 20 CAPITULO 2. EL PARADIGMA BAYESIANO

    Y algo analogo para contraste de hipotesis.

    Las ecuaciones (2.1), (2.3) y (2.4) constituyen el modelo general de laestadstica bayesiana. Cualquier problema estadstico tratado bajo el enfoquebayesiano implica la obtencion y utilizacion de las formulas mencionadas.

    2.2. Un primer ejemplo

    El siguiente ejemplo, a pesar de ser muy simple, resulta muy ilustrati-vo para dos cosas: primero, comenzar a entender por que es valido modelarnuestra incertidumbre sobre probabilsticamente; segundo, para irnos fa-miliarizando con el enfoque bayesiano.

    Ejemplo 1. Consideremos una urna que contiene dos monedas: una cargaday la otra equilibrada. Supongamos que la moneda cargada esta cientfica-mente construida para tener una probabilidad de 3

    4de que salga aguila. Una

    persona tomara una de las dos monedas de la urna (no necesariamente alazar) y echara un volado con apuesta de por medio. Haremos lo siguiente:

    1. Proponer una familia parametrica para el experimento anterior,

    2. proponer una distribucion a priori para el parametro del modelo, toman-do especialmente en cuenta que no estamos seguros de que la monedafue tomada al azar,

    3. obtener la distribucion predictiva a priori,

    4. obtener la distribucion a posteriori,

    5. obtener la distribucion predictiva a posteriori.

    En este sencillo ejemplo es facil identificar que la familia parametricaBernoulli es la adecuada:

    P = {Ber(x | ) : }

    donde

    Ber(x | ) = x(1 )1x1{0,1}(x)

  • 2.2. UN PRIMER EJEMPLO 21

    Solo que en este caso el espacio parametrico se reduce a = {34, 1

    2}.

    Desde el enfoque bayesiano, nuestra incertidumbre sobre el parametro la modelamos probabilsticamente, es decir, trataremos a como variablealeatoria y en tal caso Ran = , y como en este caso es finito entoncestenemos que es una variable aleatoria discreta que solo toma dos valores:34

    o 12.

    Sean P( = 34) = y P( = 1

    2) = 1, para algun entre 0 y 1. Entonces

    la distribucion a priori queda como sigue:

    p() = 1{ 34}() + (1 )1{ 1

    2}() ]0, 1[

    La distribucion inicial propuesta permite modelar la parte de los supuestosdel problema en donde se dijo que se toma una moneda de la urna no nece-sariamente al azar. En particular es por medio de que reflejaremos en ladistribucion a priori nuestro grado de informacion acerca de como fue escogi-da la moneda de la urna. As por ejemplo si estamos o nos sentimos segurosde que fue tomada al azar entonces = 1

    2. Haramos la misma asignacion

    si carecemos totalmente de informacion al respecto ya que no habra razonalguna para suponer que alguna de las dos monedas tiene mayor probabili-dad que la otra de ser escogida. Y si por alguna razon contamos con ciertainformacion que nos haga pensar que alguna de las monedas tiene mayorprobabilidad de ser escogida tambien podemos reflejarlo por medio de . Porejemplo, suponiendo que el procedimiento para elegir la moneda de la urnaes lanzando un dado y que si sale un seis entonces escogemos la moneda equi-librada. En este caso claramente = 5

    6. Es importante destacar el hecho de

    que restringimos a al intervalo abierto ] 0, 1 [ ya que si ocurriese que = 0o bien = 1 entonces querra decir que estamos seguros del valor de y ental caso no tendra sentido hacer inferencias sobre .

    Por medio de la formula (2.3) obtenemos la distribucion predictiva apriori:

    p(x) =

    p(x | )p()

    = (3

    4

    )x(14

    )(1x)1{0,1}(x) + (1 )

    (12

    )x(12

    )(1x)1{0,1}(x)

    La expresion anterior se simplifica a:

    p(x) =

    4

    (1{1}(x) 1{0}(x)

    )+

    1

    21{0,1}(x)

  • 22 CAPITULO 2. EL PARADIGMA BAYESIANO

    es decir:

    p(1) =1

    2+

    4= probabilidad de que salga aguila

    p(0) =1

    2

    4= probabilidad de que salga sol

    De lo anterior cabe destacar que si 1 (lo cual se interpreta como quenos sentimos muy seguros de que se escogio la moneda cargada) entoncesp(1) 3

    4, tal cual se esperara.

    Pensando en que se va a hacer una apuesta sobre el resultado del primervolado, para tener un juego justo, definimos la variable aleatoria U como laganancia/perdida resultante de apostar en favor de que salga sol:

    P[U = u] = p(0)1{a}(u) + p(1)1{b}(u) a, b > 0

    es decir, U es una v.a. que toma el valor +a (ganancia) con probabilidad p(0)o bien el valor b (perdida) con probabilidad p(1). Para tener un juego justose requiere que E(U) = 0 :

    E(U) = 0 ap(0) bp(1) = 0 a = p(1)

    p(0)b =

    2 +

    2 b

    Es decir, que la cantidad justa a apostar en favor de que salga sol debe ser

    igual ap(1)

    p(0)veces la cantidad que se apueste en favor de que salga aguila. Si

    bien lo inmediato anterior es mas un problema tpico de un curso elementalde probabilidad, resultara interesante analizar como se modifica el esquemade apuestas conforme se van lanzando volados, esto es, ante la presencia deinformacion muestral.

    Supongamos ahora que ya se escogio una de las monedas de la urna y quese efectuaron n lanzamientos con ella y los resultados de cada lanzamiento seregistran como un vector ndimensional de unos y ceros x := (x1, . . . , xn).La informacion contenida en la muestra observada x modifica nuestra incer-tidumbre sobre pasando de la distribucion a priori p() a la distribucion aposteriori:

    p( |x) = p(x | )p()p(x | 3

    4)p(3

    4) + p(x | 1

    2)p(1

    2)

    Si resulta razonable suponer que se hacen lanzamientos independientesentonces:

  • 2.2. UN PRIMER EJEMPLO 23

    p(x | ) =nj=1

    p(xj | )

    =nj=1

    xj(1 )1xj1{0,1}(xj)

    = xj(1 )n

    xj

    nj=1

    1{0,1}(xj)

    = xj(1 )n

    xjg(x)

    Por otro lado:

    p(x | 34)p(34) =3xj

    4n g(x) p(x | 12)p(12) =

    1 2n

    g(x)

    De lo anterior:

    p( |x) =[2(1 )]n(

    1)xj [1{ 3

    4}() + (1 )1{ 1

    2}()]

    (

    3xj

    2n 1)+ 1

    Si definimos:

    = (,x) :=3xj

    2n

    ( 1

    )reescribimos p( |x) como:

    p(34 |x) =1

    1 + 1p(12 |x) =

    1

    1 +

    Supongamos que la moneda con que se lanzaran los volados es tomada dela urna al azar. En este caso tendramos que = 1

    2. La probabilidad a priori

    de que la moneda escogida sea la cargada es:

    p(34) = 0.5

    Se lanza un primer volado y observamos que sale aguila. En este caso n = 1,x = (x1) = (1) y por lo tanto p(

    34| (1)) = 0.6. Es decir, a la luz de la infor-

    macion muestral con la que se cuenta hasta el momento nos vemos obligadosa revisar o actualizar la probabilidad de que sea la moneda cargada la que

  • 24 CAPITULO 2. EL PARADIGMA BAYESIANO

    se esta utilizando. Cabe destacar que con la informacion muestral obtenidaahora es mas probable que sea la moneda cargada la que se esta utilizan-do. Se podra pensar que no es difcil que salga un aguila con una monedaequilibrada pero el que haya salido aguila es evidencia mas a favor de que seeste usando la moneda cargada que la equilibrada.

    Ahora efectuamos un segundo lanzamiento con la moneda en cuestion yresulta que obtenemos un sol. Ahora n = 2 , x = (x1, x2) = (1, 0) y obtene-mos p(3

    4| (1, 0)) = 0.4286. Es decir, a la luz de la informacion muestral con

    la que se cuenta hasta el momento nos vemos obligados a actualizar nueva-mente la probabilidad de que sea la moneda cargada la que se esta utilizando.Cabe destacar que con la informacion muestral obtenida hasta ahora es masprobable que sea la moneda equilibrada la que se esta utilizando. Se podrapensar que no es difcil que salga un aguila y luego un sol con una monedacargada pero el que haya salido aguila y luego sol es evidencia mas a favorde que se este usando la moneda equilibrada que la cargada.

    Podra pensarse que nos la podemos pasar as oscilando de un valor aotro a capricho de los resultados muestrales, pero no es as pues conforme eltamano de la muestra n crece el valor de p(3

    4|x) se va estabilizando:

    Si n

    xj 34 n o

    xj 12 n o 0 p(34 |x) 1 o p(34 |x) 0

    Lo anterior quiere decir que conforme el tamano de la muestra se vuelvemas y mas grande iremos acumulando informacion que ira reduciendo nues-tra incertidumbre respecto a (es decir, nuestra incertidumbre respecto aque moneda se esta usando) hasta llegar a un nivel muy cercano a la certeza.

    El siguiente es el resultado de una simulacion del presente ejemplo conn = 20 y = 1

    2:

    x = (0, 1, 1, 1, 0, 1, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1)

    p(34 |x) = 0.9762Y de hecho, efectivamente resulto ser la moneda cargada la que se estabautilizando.

    La informacion contenida en la muestra observada x modifica nuestraincertidumbre sobre un siguiente lanzamiento Xn+1 pasando de la distribu-cion predictiva a priori p(x) a la distribucion predictiva a posteriori:

  • 2.2. UN PRIMER EJEMPLO 25

    p(x |x) = p(x | 34)p(34 |x) + p(x | 12)p(12 |x)=

    3x + 2

    4( + 1)1{0,1}(x)

    Regresando al esquema de la apuesta justa, ante la presencia de infor-macion muestral x = (x1, . . . , xn) es necesario ir revisando o actualizandolos calculos para determinar cual sera la apuesta justa, esto es, sin tenerinformacion muestral y contando tan solo con la informacion inicial de quela moneda fue escogida al azar tenamos que la apuesta justa en favor de quesalga sol era:

    a =p(1)

    p(0)b

    Esto es, que la apuesta en favor de que salga sol debe serp(1)

    p(0)veces la apuesta

    a favor de que salga aguila. Despues de observar el resultado x1 de un primervolado la apuesta justa para el segundo volado se debe actualizar a:

    a =p(1|x1)p(0|x1) b

    Y despues de n volados la apuesta justa para el (n+ 1)-esimo volado se debeactualizar a:

    a =p(1|(x1, . . . , xn))p(0|(x1, . . . , xn)) b

  • 26 CAPITULO 2. EL PARADIGMA BAYESIANO

    EJERCICIOS

    1. Sea p(x | ) el modelo parametrico Bernoulli con parametro desconocido y supongamos que la informacion a priori sobre esta dada porp() = Beta( |, ), con y conocidos. Suponiendo observacionesmuestrales independientes, obtenga la distribucion a posteriori de ,as como las predictivas a priori y posteriori.

    2. Sea p(x | ) = Unif(x | 0, ) con desconocido y con distribucion a priorisobre dada por:

    p 1() = 2( 1)1[ 1,2 ]()Suponiendo observaciones muestrales independientes:

    a) Obtener la distribucion predictiva a priori y graficarla.

    b) Obtener la distribucion a posteriori de as como la predictiva aposteriori, en ambos casos para tamano de muestra n 3.

    c) Obtener nuevamente la distribucion predictiva a priori y graficarla,pero ahora utilizando:

    p 2() = 2(2 )1[ 1,2 ]()

    y compara con lo obtenido en el inciso a). Compare e interpretelas graficas anteriores.

    d) Utilizando lo obtenido en los incisos a), b) y c) calcula = E()sin y con informacion muestral.

    e) Calcula P( < 32) sin y con informacion muestral.

    3. Calcula la distribucion a posteriori del parametro en cuestion as comolas predictivas a priori y a posteriori para los siguientes casos:

    a) p(x |) = Poisson(x |) con desconocida, p() = Gamma( |, ),con y conocidos.

    b) p(x | ) = Unif(x | 0, ) con desconocida, p() = Pareto( |, ),con y conocidos.

  • 2.2. UN PRIMER EJEMPLO 27

    4. Considera una urna con bolas del mismo tamano y numeradas de la 1 alaN , dondeN es desconocido. Sea la variable aleatoriaX Poisson(),con desconocida y sea N := X + 1. Se cuenta con la informacion apriori (inicial) de que el valor mas probable para N es un valor k,conocido. Obtener:

    a) Una distribucion a priori para N .

    b) La distribucion predictiva a priori.

    c) La distribucion a posteriori de N para una muestra aleatoria detamano 1.

    d) La distribucion predictiva a posteriori para una muestra aleatoriade tamano 1, suponiendo que las bolas de la muestra son regre-sadas a la urna antes de hacer prediccion.

    e) Suponiendo que k = 3 y que se tiene la muestra x1 = 2 calculalas probabilidades a priori y a posteriori de que la urna contengamas de 2 bolas y explique por que una es menor que la otra.

    f ) Continuando con el inciso anterior, suponiendo que la bola de lamuestra se regresa a la urna, calcula las probabilidades a priori ya posteriori de que una bola tomada al azar tenga el numero 3.

    5. Si los datos muestrales provienen de observaciones independientes uti-lizamos p(x | ) = p(xj | ), pero si las observaciones no son inde-pendientes el modelo general sigue siendo valido, pero en este casop(x | ) 6= p(xj | ). Supongamos que tenemos una urna con bolasnumeradas de la 1 a la N y que lo unico que sabemos sobre N es quees 4 o 5.

    a) Propon y justifica una distribucion a priori razonable para N .

    b) Deduce la distribucion predictiva a priori y calcula la probabilidadde que una bola tomada al azar tenga el numero 5.

    c) Si se va a tomar una muestra de tamano 2 sin reemplazo deduce ladistribucion a posteriori de N . Luego, suponiendo que la muestraobtenida fueron las bolas 1 y 3 calcula la probabilidad de que haya5 bolas en la urna sin y con informacion muestral, explicando elpor que de la diferencia.

  • 28 CAPITULO 2. EL PARADIGMA BAYESIANO

    d) Supongamos ahora que las dos bolas de la muestra se regresana la urna. Deduce la distribucion predictiva a posteriori y conbase en toda la informacion disponible calcula la probabilidad deque una bola tomada al azar tenga el numero 5 y compara esteresultado con el obtenido en el inciso b), explicando el por que dela diferencia.

    6. Sea {pi()}ki=1 una sucesion de distribuciones de probabilidad sobre .Definimos la siguiente distribucion de probabilidad sobre :

    p() :=ki=1

    i pi() ,ki=1

    i = 1 , i > 0

    Sea la familia parametrica P := {p(x | ) : }. Si utilizamos comodistribucion a priori a la p() definida anteriormente, demuestre quela distribucion a posteriori de se puede expresar tambien como lacombinacion lineal convexa:

    p( |x) =ki=1

    i pi( |x)

    exhibiendo la formula general de i y pi( |x).

  • Captulo 3

    Informacion a priori

    3.1. Determinacion de la distribucion a priori

    Utilizamos el enfoque subjetivo de la probabilidad mencionado en elcaptulo 1 para especificar la distribucion a priori p() con base en la in-formacion que se tiene en un momento dado, como puede ser: informacionhistorica, la experiencia de especialistas, etc. La eleccion de una distribucionpara modelar nuestro nivel de incertidumbre (o informacion) sobre no re-sulta crucial, en tanto cualquiera de ellas (o ambas) tengan la capacidad dereflejar la informacion que se tiene sobre .

    Ejemplo 2. Una compana de seguros va a ser objeto de una auditora porparte de la Comision Nacional de Seguros y Fianzas (CNSyF). La auditoraconsistira en revisar los expedientes de los asegurados y determinar que por-centaje de ellos estan incompletos. En caso de que dicho porcentaje excedael 10 % la CNSyF procedera a multar a la compana de seguros. Antes deque esto suceda, la mencionada compana decide apoyarse en su area de au-ditora interna para darse idea del porcentaje de expedientes incompletos.Supongamos que la cantidad de expedientes es tal que solo dara tiempo derevisar el 0.75 % de ellos antes de que los audite la CNSyF. Aqu podemosintentar aprovechar la experiencia de los auditores internos de la compana,formulando algunas preguntas como:

    1. De acuerdo a su experiencia y conocimiento de la compana Alrededorde que cantidad estiman se ubica el porcentaje de expedientes incom-pletos? Respuesta: El ano pasado estimamos dicho porcentaje en 8 %;

    29

  • 30 CAPITULO 3. INFORMACION A PRIORI

    sin embargo, este ano el volumen de ventas ha superado nuestras ex-pectativas y esto generalmente juega un poco en contra en lo que haeficiencia administrativa se refiere por lo que para este ano estimamosque dicho porcentaje estara alrededor del 9 %.

    2. Cuales seran sus escenarios optimista y pesimista para dicho por-centaje? Respuesta: En el mejor de los casos ubicaramos dicho por-centaje en 8 % y en el peor de los casos vemos difcil que exceda el11 %.

    3. Que cantidad de expedientes da tiempo de revisar antes de la auditorade la CNSyF? Respuesta: 150.

    Sea el porcentaje de expedientes incompletos. Podemos modelar lo anteriormediante la familia parametrica Bernoulli, ya utilizada en el Ejemplo 1, peroaqu el espacio parametrico = ] 0, 1 [ . Las respuestas a las preguntas 1y 2 nos dan idea de la centralidad y dispersion de . Modelaremos dichainformacion mediante:

    p() = Beta( |, )Pudimos haber elegido alguna otra distribucion, la eleccion anterior se

    debe a dos razones: primero, que es una distribucion de probabilidad en el in-tervalo ] 0, 1 [ tal cual la necesitamos; segundo, cuenta con dosparametros (que llamaremos hiperparametros, para distinguirlos del parametrode interes en el modelo) que nos permiten controlar de manera amplia la cen-tralidad y dispersion de la distribucion. Habremos de traducir la informaciona priori que se tiene en p(), esto es, a traves de los hiperparametros y asignandoles valores que reflejen la informacion que se tiene.

    La respuesta a la pregunta 1 nos permite establecer la siguiente ecuacion:

    E() = 0.09 ,

    y la respuesta a la pregunta 2 la podemos expresar como:

    P[ 0.08 < < 0.11 ] = 0.95 ,

    as que para asignar valores a y que reflejen lo anterior basta resolver elsiguiente sistema de ecuaciones:

  • 3.1. DETERMINACION DE LA DISTRIBUCION A PRIORI 31

    + = 0.09 , 0.11

    0.08

    Beta( |, ) d = 0.95 ,

    y obtenemos = 193.090 y = 1952.354. Basandonos unicamente en lainformacion a priori disponible podemos calcular la probabilidad de que elporcentaje de expedientes incompletos rebase el 10 % :

    P[ > 0.10 ] = 1

    0.10

    Beta( | 193.09, 1952.354) d = 0.0561 .

    De la pregunta 3 tenemos que solo queda tiempo para revisar 150 expe-dientes que representan tan solo el 0.75 % de un total de veinte mil expedien-tes que tiene la compana por lo que aprovecharemos esta otra fuente de informacion (informacionmuestral) escogiendo al azar 150 expedientes y obtendremos la informacionmuestral x = (x1, . . . , xn), en donde xj {0, 1} y xj = 1 representa un ex-pediente incompleto. Utilizando el resultado del Ejercicio 1 del Captulo 2obtenemos la distribucion a posteriori de :

    p( |x) = Beta( | + r, + n r) ,

    en donde

    r :=nj=1

    xj ,

    esto es, r es el numero de expedientes incompletos de una muestra aleatoria detamano n = 150. Ya con toda la informacion disponible (a priori y muestral)actualizamos la probabilidad de que el porcentaje de expedientes incompletosrebase el 10 % :

    P[ > 0.10 |x ] = 1

    0.10

    Beta( | 193.09 + r, 2102.354 r) d

    Como comentario general, al proceso de traducir informacion a priorien una distribucion a priori se le conoce en ingles como to elicit a priordistribution. Aunque una traduccion de la palabra elicit con la misma raz

  • 32 CAPITULO 3. INFORMACION A PRIORI

    etimologica no existe (aun) en espanol, en el resto del texto definimos coneste mismo sentido elicitar.1

    En el ejemplo anterior, resulto relativamente sencillo elicitar una distribu-cion a priori para , especialmente por el hecho de que la familia parametricaes univariada, pero tratandose de modelos multivariados elicitar una dis-tribucion a priori puede resultar bastante complicado. De hecho, Lindley(2000) pronostica que uno de los temas mas importantes en la investigacionestadstica del nuevo milenio sera el desarrollo de metodologas adecuadaspara la asignacion de probabilidades [subjetivas], y caso particular de esto esel como elicitar una distribucion a priori.

    Es importante destacar en el ejemplo anterior que al haber elegido unadistribucion beta para modelar la informacion a priori sobre bajo la familiaparametrica Bernoulli nos arrojo como resultado que la distribucion a poste-riori sobre es tambien una distribucion beta, aunque con hiperparametrosdistintos. En ocasiones y bajo ciertas familias parametricas la eleccion deciertas distribuciones a priori trae como consecuencia que la distribucion aposteriori del parametro sea de la misma familia que la distribucion a priori(por ejemplo, Ejercicio 3, Captulo 2), pero esto no siempre es as (Ejercicios2, 4 y 5 del Captulo 2). De esto nos ocupamos en la siguiente seccion.

    3.2. Familias conjugadas

    Tanto p() como p( |x) son distribuciones de probabilidad sobre : laprimera solo incorpora informacion a priori y la segunda actualiza dichainformacion con la informacion muestral que se pueda obtener. Si bien dijimosque la eleccion de una distribucion de probabilidad para modelar nuestraincertidumbre sobre no resulta crucial en tanto sea factible elicitar concualquiera de ellas una distribucion a priori, resulta conveniente tanto parael analisis como desde un punto de vista computacional el que p() y p( |x)pertenezcan a la misma familia.

    3.1. Definicion. Sea P := {p(x | ) : } una familia parametrica.Una clase (o coleccion) de distribuciones de probabilidad F es una familiaconjugada para P si para todo p(x | ) P y p() F se cumple quep( |x) F .

    1En latn elicitum quiere decir hacer salir o sacar de.

  • 3.2. FAMILIAS CONJUGADAS 33

    Como ejemplos de lo anterior estan los resultados de los Ejercicios 1 y 3del Captulo 2. Es inmediato notar que si p() es conjugada para una familiaparametrica P entonces las distribuciones predictivas a priori y a posterioripertenecen a una misma familia de distribuciones F .

    A continuacion se presentan algunos modelos parametricos univariadoscon sus respectivas familias conjugadas:

    Cuadro 3.1: Algunas familias conjugadas

    Fam. parametrica Fam. conjugada

    Bernoulli() Beta ( |, )Poisson () Gamma ( |, )

    Geometrica () Beta ( |, )Exponencial () Gamma ( |, )Uniforme (0, ) Pareto ( |, )

    Normal () Normal ( |0, 0)Normal () Gamma ( |, )

    Normal (, ) Normal-Gamma (, |0, n0, , )

    En lo anterior, para el caso de la Normal usamos como el inverso de lavarianza y por ello la llamamos precision. Se hace este cambio para utilizarla distribucion gamma en vez de la gamma invertida.

    Ejemplo 3. Sea la familia parametrica P := {Poisson(x |) : R+}.Si utilizamos como distribucion a priori p() F := {Gamma( |, ) :, R+} entonces para una muestra aleatoria x = (x1, . . . , xn) :

    p( |x) = Gamma( | + r, + n)

    en donde

    r :=nj=1

    xj

  • 34 CAPITULO 3. INFORMACION A PRIORI

    y ademasp(x) = Pg(x |, , 1)

    p(x |x) = Pg(x | + r, + n, 1)en donde Pg se refiere a la distribucion Poisson-gamma:

    Pg(x |, , n) =

    ()

    ( + x)

    x!

    nx

    ( + n)+x1{0,1,...}(x)

    cuya esperanza y varianza estan dadas por E(X) = n

    y V(X) = n

    [1 + n

    ],

    respectivamente. En el ejemplo anterior, y son los hiperparametros de la distribucion

    a priori de , y por tanto se les debe asignar valores que reflejen la informa-cion a priori que se tenga, como se hizo en el Ejemplo 2. La distribucion aposteriori p( |x) es una gamma con parametros + r y + n, lo cual ilus-tra como se combinan informacion a priori e informacion muestral. Aunquese vera a mayor detalle mas adelante como hacer estimacion puntual, en elCaptulo 2 se menciono que una manera de hacer estimacion puntual sobreel parametro es calculando su esperanza, aprovechando el hecho de que setiene una distribucion de probabilidad sobre y en este caso:

    = E( |x) = + r + n

    Respecto a lo anterior es importante la siguiente observacion. Por simplicidadsupongamos por un momento que = . Si la magnitud de es muygrande en comparacion con r y n tendremos el caso en que la informacion apriori tendra mas peso que la informacion muestral en las inferencias que serealicen con la distribucion a posteriori. En el ejemplo anterior se tendra queE( |x) sera aproximadamente igual a 1 y V( |x) aproximadamente igual a1, varianza que para valores grandes de se acercara a cero, lo cual noshablara de una distribucion cuya densidad (o masa) esta muy concentradaalrededor de un punto, En este caso diremos que la distribucion a priori esmuy informativa. Si, por el contrario, es cercana a cero tendremos que ladistribucion a priori tiene una varianza muy grande y en tal caso diremosque se trata de una distribucion a priori poco informativa. En el ejemploanterior se tendra que E( |x) es aproximadamente igual a la media de losdatos muestrales, que quiere decir que ante tan poca informacion a priori lasinferencias que se hagan se apoyaran practicamente solo en la informacionque provean los datos muestrales. Esto ultimo es materia de la siguienteseccion.

  • 3.3. DISTRIBUCIONES A PRIORI NO INFORMATIVAS 35

    3.3. Distribuciones a priori no informativas

    La estadstica bayesiana proporciona una metodologa que permite combi-nar de manera consistente informacion a priori con informacion experimental(i.e. muestral). Ante esto surge la pregunta de como realizar inferencias cuan-do no se dispone de informacion a priori, o bien cuando dicha informacionno se quiere o no se puede utilizar.

    El problema quedara resuelto si pudiesemos determinar una distribu-cion a priori que describa la situacion en que los datos experimentales con-tienen toda la informacion relevante, en lugar de proporcionar tan solo partede ella como sucede cuando se dispone de informacion a priori. Una formapragmatica (pero incompleta) de atacar este problema sera asignar arbi-trariamente una distribucion a priori con la unica condicion de que tengauna varianza muy grande, con todo lo relativo que esto ultimo puede re-sultar.

    Otra forma sera la siguiente. Supongamos que tenemos un numero finitode sucesos inciertos (o hipotesis) E1, . . . , Ek. Una distribucion a priori quedescribe un estado de ignorancia o carencia de informacion es la siguiente:

    P(Ej) =1

    k1{1,...,k}(j)

    esto es, una distribucion uniforme discreta.

    Thomas Bayes propuso esta distribucion con base en lo que el llamo elPrincipio de la Razon Insuficiente: Si no sabemos cosa alguna sobre{E1, . . . , Ek} no hay razon para asignarle a alguno de los sucesos inciertosuna probabilidad diferente que a los otros.

    Sin embargo, este principio no es aplicable en situaciones donde el numerode sucesos inciertos no es finito. Volviendo al Ejemplo 2, supongamos ahoraque no se tiene informacion alguna acerca de la proporcion de expedientesincompletos. Bajo el principio de la razon insuficiente propondramos comodistribucion a priori no informativa para :

    p() = 1] 0,1 [()

    es decir, una distribucion uniforme continua en ] 0, 1 [ . Supongamos ahoraque, mas que estar interesados en directamente, estamos interesados enuna funcion uno-a-uno de , digamos := log . Si no tenemos informa-cion alguna de entonces tampoco tenemos informacion sobre . Bajo el

  • 36 CAPITULO 3. INFORMACION A PRIORI

    principio de la razon insuficiente asignaramos tambien una distribucion uni-forme continua para , pero aqu aparece el primer problema porque tomavalores en ] 0, [. De hecho, resultado de probabilidad elemental es que si de distribuye como uniforme continua en ] 0, 1 [ entonces se distribuyeexponencial con parametro 1, la cual, por ejemplo, asigna mayor probabili-dad a valores de en un intervalo ] 0, 1 [ que en el intervalo ] 1, 2 [ , violandoas el principio de la razon insuficiente, por lo que dicho principio no pro-duce distribuciones a priori consistentes en el sentido de que no resultan serinvariantes ante reparametrizaciones uno-a-uno.

    3.4. Regla de Jeffreys

    Solo en el caso en que el espacio parametrico sea finito el principiode la razon insuficiente provee distribuciones a priori no informativas queson invariantes ante transformaciones uno-a-uno del parametro (o vector deparametros). Sin embargo, esto es poco util ya que por lo general nos en-frentamos a espacios parametricos infinitos.

    Jeffreys (1961) propuso una clase de distribuciones a priori no informa-tivas para el caso de espacios parametricos infinitos. En terminos generales,la construccion de esta clase consiste en buscar simultaneamente invarianciaante transformaciones y proveer la menor informacion a priori en relacion ala informacion muestral, va la informacion de Fisher.

    Citaremos algunos resultados de probabilidad para recordar el conceptode la informacion de Fisher. Las demostraciones se pueden consultar en libroscomo el de Casella y Berger (2002) y el de Lehmann y Casella (1998), entremuchos otros.

    3.2. Teorema. (cota inferior de Cramer-Rao) Sean X1, . . . , Xn va-riables aleatorias con funcion de densidad conjunta p(x | ), R. SeaW (X) = W (X1, . . . , Xn) cualquier funcion tal que E(W (X)) sea una fun-cion diferenciable de . Suponiendo que p(x | ) = p(x1, . . . , xn | ) satisface:

    d

    dE(W (X)) =

    Rn W (x)

    p(x | ) dx1 dxn

  • 3.4. REGLA DE JEFFREYS 37

    y ademas V(W (X))

  • 38 CAPITULO 3. INFORMACION A PRIORI

    Con lo anterior, el Corolario 3.3 puede expresarse como:

    V(W (X)

    ) [ddE(W (X)

    )]2nI()

    Para el caso de muestras aleatorias, W (X) es lo que se utiliza en estadsti-ca frecuentista para estimar o alguna funcion de . Recuerdese que bajoel enfoque frecuentista la unica fuente de informacion sobre es la muestraaleatoria. En caso de que E(W (X)) = (que en estadstica frecuentista sedice en tal caso que W (X) es un estimador insesgado de ), la varianza dedicho estimador satisface:

    V(W (X)

    ) 1nI()

    Si se tienen varios estimadores de cuya esperanza es justamente se pre-fieren aquellos que tengan menor varianza (i.e. los que sean mas informa-tivos), y el mejor sera aquel o aquellos cuya varianza coincida con la cotainferior de Cramer-Rao ya que por dicho teorema es la mnima. Notemospues que si I() es grande entonces hay posibilidades de obtener un esti-mador con menor varianza y en tal caso decimos que el modelo parametricop(x | ) es muy informativo. Si I() es pequeno entonces la mnima varian-za posible de un estimador de sera grande y en tal caso diremos que elmodelo parametrico es poco informativo. Como I() depende justamente de entonces la varianza de los estimadores (frecuentistas) de dependera delsupuesto verdadero valor de .

    La pregunta natural que surge es cuales familias parametricas satisfacenlas condiciones del teorema de Cramer-Rao (conocidas usualmente comocondiciones de regularidad) as como la condicion del Lema 3.4. Afortunada-mente varias de las familias conocidas satisfacen dichas condiciones, entre lasque se encuentran las pertenecientes a la Familia Exponencial, como son lanormal, gamma, beta, lognormal, binomial, Poisson, binomial negativa, en-tre otras. Las distribuciones cuyo rango de la variable aleatoria depende delparametro no satisfacen dichas condiciones, como es el caso de la distribucionuniforme o Pareto.

    Ejemplo 4. Sea p(x | ) = Binomial(x |m, ) con m fija y = ] 0, 1 [ .Es inmediato verificar que:

    I() =m

    (1 )

  • 3.4. REGLA DE JEFFREYS 39

    Observemos que I() conforme 0 o bien 1 y que alcanza unmnimo en = 1

    2. Esto quiere decir que para valores de cercanos a 0 o a 1 un

    estimador (muestral) W (X) de mnima varianza se vuelve mas informativo,y menos informativo conforme se aproxime a 1

    2.

    Todo lo anterior fue para el caso en que el espacio parametrico sea unidi-mensional, pero para el caso multidimensional se tiene un resultado analogo(ver Lehmann (1998)), solo que en este caso es un vector de parametrosy obtenemos una matriz de informacion de Fisher I() = Iij() cuyasentradas estan dadas por:

    Iij() = E[ 2ij

    log p(X | )]

    3.5. Definicion. Para un modelo parametrico p(x | ) la distribucion a priorino informativa de Jeffreys para esta dada por:

    p() I() , R

    En el caso multidimensional se tiene:

    p()

    det I()

    En cualquier caso la denotaremos por pi().

    La idea es favorecer los valores de para los cuales I(), o en su casodet I(), es grande, lo que resta influencia a la distribucion a priori dan-do mayor peso a la informacion muestral. La raz cuadrada aparece paraque resulte invariante bajo transformaciones uno-a-uno. La anterior Regla deJeffreys tiene la desventaja de que en ocasiones produce distribuciones im-propias (i.e. no integran a 1) lo cual no es del todo grave si realmente lo quese quiere es trabajar con una distribucion a posteriori pi( |x) que describala incertidumbre sobre basandose unicamente en la informacion muestralx = (x1, . . . , xn) . Bastara que se cumpla la condicion

    p(x | ) pi() d

  • 40 CAPITULO 3. INFORMACION A PRIORI

    3.6. Lema. La distribucion a priori no informativa de Jeffreyspi() I() es invariante ante transformaciones uno-a-uno, esto es, si = () es una transformacion uno-a-uno de entonces la distribucion apriori no informativa de Jeffreys para es p() I().Demostracion. Sea = () una transformacion uno-a-uno de . Entonces:

    log p(X | )

    = log p(X |())

    en donde = () es la inversa de la transformacion . Para obtener lainformacion de Fisher de calculamos:

    2 log p(X |)2

    = log p(X |())

    2

    2+2 log p(X |())

    2

    (

    )2Multiplicando ambos miembros por 1 y calculando esperanza respecto ap(x | ) :

    I() = E[ log p(X | )

    ]2

    2+ I()

    (

    )2pero tenemos que:

    E[ log p(X | )

    ]= E

    [ p(X | )p(X | )

    ]=

    p(x | )p(x | ) p(x | ) dx

    =

    p(x | ) dx

    =d

    d

    p(x | ) dx (por las condiciones de regularidad)

    =d

    d(1) = 0

    por lo que:

    I() = I()(

    )2esto es:

    I() =I() |/|

  • 3.4. REGLA DE JEFFREYS 41

    pero |/| es el valor absoluto del jacobiano de la transformacion inversapor lo que si pi() I() entonces:

    p() I(()) |/| =

    I()

    y por lo tanto la distribucion a priori de Jeffreys es invariante ante transfor-maciones uno-a-uno.

    3.7. Teorema. El mismo resultado es valido para el caso en que tiene unespacio parametrico multidimensional. Ver Lehmann y Casella (1998).

    Ejemplo 5. Utilizando el resultado del Ejemplo 4 con m = 1 obtenemos ladistribucion a priori de Jeffreys para la familia parametrica Bernoulli:

    pi() 1/2(1 )1/2

    esto es, el kernel de pi() corresponde a una distribucion beta por lo que eneste caso pi() = Beta( | 1

    2, 1

    2) y como la distribucion beta es conjugada de la

    familia Bernoulli, del Ejercicio 1 del Captulo 2 tenemos que la distribuciona posteriori de es pi( | (x1, . . . , xn)) = Beta( | 12 + r, 12 + n r) donder :=

    xj .

    El siguiente es un ejemplo en el que la distribucion a priori de Jeffreys esimpropia; sin embargo, esto no es del todo relevante ya que lo que se busca esque las inferencias se apoyen exclusivamente en la informacion muestral quese obtenga por lo que lo importante sera que las distribuciones a posteriorisean propias (i.e. que integren a 1):

    Ejemplo 6. Consideremos la familia parametrica Poisson(x |), en donde R+. Es inmediato verificar que la informacion de Fisher esta dada por:

    I() =1

    y por lo tanto la distribucion a priori de Jeffreys es pi() 1/2 la cualresulta ser impropia. Sin embargo, la distribucion a posteriori de :

    pi( |x) p(x |) pi() enxj1/2

    Lo anterior es el kernel de la distribucion gamma por lo que pi( | (x1, . . . , xn)) =Gamma( | xj + 1/2, n) .

  • 42 CAPITULO 3. INFORMACION A PRIORI

    Ademas de la Regla de Jeffreys existen otras propuestas para la con-struccion de distribuciones no informativas, entre las que destacan las dis-tribuciones de referencia de Bernardo (1979), ver tambien Bernardo y Smith(1994).

    EJERCICIOS

    1. Verifique las familias conjugadas del Cuadro 3.1.

    2. Un problema que interesa en riesgo de credito es la posibilidad de queuna empresa que emitio ttulos de deuda (pagares, bonos, etc.) parafinanciarse, incumpla en el pago de dicha obligacion al vencimiento dedichos ttulos. En primer termino, existe incertidumbre en cuanto hasi sera o no solvente para regresar el dinero que obtuvo en prestamoen la fecha fijada. En segundo termino y en caso de que incurra enincumplimiento, existe tambien incertidumbre en cuanto al porcenta-je de incumplimiento, esto es, puede ocurrir que no pueda cumplir al100 % con el reembolso pero quizas pueda hacer un pago parcial delc% de la obligacion y en tal caso diremos que el incumplimiento fuedel (100 c) %, con 0 c 100. Por lo general cada empresa tieneun perfil particular y no es comparable con otras, y de hecho ni con supropio historial crediticio ya que las condiciones del pasado para unamisma empresa suelen ser muy diferentes a las del presente, por lo quese pretende modelar el porcentaje de incumplimiento unicamente conbase en la informacion a priori que proporcione un analista o grupo deanalistas de credito. Supongamos que se cuenta con la siguiente infor-macion a priori: los analistas de credito estiman que la probabilidadde incumplimiento se ubica entre 5 y 15 % y que en caso de que se deel incumplimiento el porcentaje de incumplimiento se ubica entre 60 y100 %. Proponga los modelos adecuados, obtenga la distribucion pre-dictiva a priori del porcentaje de incumplimiento y calcule el porcentajeesperado de incumplimiento.

    3. Supongamos que la llegada de autos a la caseta de cobro de una au-topista los das viernes de 5 a 8 p.m. se puede modelar mediante lafamilia parametrica Poisson. Hacemos dos preguntas al encargado dela caseta: Como cuantos autos llegan en promedio por minuto a la

  • 3.4. REGLA DE JEFFREYS 43

    caseta? A lo cual nos responde que 5. Tomando en cuenta que el datoanterior es una apreciacion subjetiva Cual cree usted que sera en elmayor de los casos el numero promedio de autos por minuto? A lo cualnos responde que 12.

    a) Utilizando una distribucion conjugada especifique la distribuciona priori del parametro con base en la informacion que se tiene.Calcule el valor esperado del parametro as como la probabilidadde que dicho parametro sea mayor a 8.

    b) Supongamos ahora que procedemos a tomar una muestra aleatoriay obtenemos x = (679, 703, 748, 739, 693). Obtenga la distribu-cion a posteriori del parametro y calcule el valor esperado delparametro as como la probabilidad de que dicho parametro seamayor a 8. Compare con el inciso a). Grafique en una misma hojala distribucion a priori, la distribucion a posteriori con el primerdato, con los primeros dos y as sucesivamente hasta la a posterioricon los cinco datos.

    c) Utilizando la Regla de Jeffreys y la informacion del inciso anteriorobtenga la distribucion a posteriori del parametro y calcule el va-lor esperado del parametro as como la probabilidad de que dichoparametro sea mayor a 8. Compare con el inciso b). Grafique loanalogo al inciso anterior. Que se puede concluir sobre la infor-macion a priori proveniente del encargado de la caseta?

    4. Utilizando la Regla de Jeffreys obtenga las distribuciones a posterioride las siguientes distribuciones uniparametricas univariadas:

    a) Geometrica

    b) Exponencial

    c) Normal (con precision conocida)

    d) Normal (con media conocida)

    5. Verifique si las siguientes distribuciones a priori impropias son no in-formativas ya que producen distribuciones a posteriori que dependenunicamente de la informacion muestral y son invariantes ante transfor-maciones uno a uno:

    a) p() 1 para el modelo continuo Uniforme (0, ), R+.

  • 44 CAPITULO 3. INFORMACION A PRIORI

    b) p() k, k una constante, para el modelo Normal con precisionconocida.

  • Captulo 4

    Elementos de la teora de ladecision

    Revisaremos algunos resultados de la teora de la decision que son utilespara hacer inferencias pero no daremos aqu ni la construccion axiomaticani la mayora de las demostraciones de los resultados que al respecto seutilizaran. Para detalles sobre esto se recomienda ampliamemte el libro deBernardo y Smith (1994).

    Uno de los principales objetivos de la teora de la decision es el desarrollode procesos logicos para la toma de decisiones bajo condiciones de incer-tidumbre. La idea es plantear los problemas de inferencia estadstica comoproblemas de decision, y aprovechar por tanto los resultados que ya se tienenrespecto a esto ultimo.

    4.1. Representacion formal

    4.1. Definicion. Un problema de decision esta definido conjuntamente porlos elementos (E , C,A,) en donde:

    1. E es un algebra de eventos relevantes que denotaremos mediante Ej ,

    2. A es un conjunto de opciones o acciones potenciales, cuyos elementosdenotaremos mediante ai ,

    45

  • 46 CAPITULO 4. ELEMENTOS DE LA TEORIA DE LA DECISION

    3. C es el conjunto de consecuencias posibles y mediante cij denotaremosla consecuencia de haber elegido la accion ai A bajo la ocurrencia deel evento Ej E ,

    4. es una relacion (binaria) de preferencia para algunos de los elementosde A.

    Ejemplo 7. Supongamos que nos enfrentamos al trivial problema de decidirsi salimos a la calle con o sin paraguas. Como conjunto de acciones posiblestenemos entonces que A := {a1, a2} en donde a1 puede representar la accionde llevar paraguas y a2 la accion de no llevarlo. Son muchos los eventos queal respecto podramos considerar, pero por el momento aceptemos la ideaintuitiva de que esencialmente tenemos dos eventos relevantes (para lo quese pretende decidir) : llueve (E1) o no llueve (E2). Con lo anterior podemosentonces determinar el conjunto de consecuencias posibles:

    C = {cij = (a,E) : a A , E {E1, E2}}As por ejemplo c22 es la consecuencia de haber decidido no llevar paraguasy que efectivamente no haya llovido; c21 es la consecuencia de haber decidono llevar paraguas y que haya llovido. Intuitivamente podramos decir quenos gusta mas la consecuencia c22 que la c21 (esto en la mayora de los casosquizas, porque hay quienes disfutan mojarse).

    Resolver un problema de decision significa determinar , esto es, definirun criterio para decidir que acciones son preferibles a otras. Hay que notarque A representa la parte del problema de decision que controlamos, queesta en nuestras manos en un momento dado. E representa la parte que nocontrolamos pues se refiere a eventos cuya ocurrencia no depende de nosotros.

    En la Definicion 4.1 se definio a E como un algebra. En un problema dedecision tenemos involucrado un fenomeno o experimento aleatorio para laparte que no controlamos. En probabilidad, se denota por el espacio mues-tral, esto es, el conjunto de resultados posibles del fenomeno o experimentoaleatorio. Los distintos eventos relacionados a este experimento se puedenidentificar como subconjuntos de . Se define un espacio de eventos comoun conjunto de eventos asociados a un experimento o fenomeno aleatorio,esto es, un espacio de eventos es, en principio, un conjunto de subconjuntosde . Sea E justamente ese espacio de eventos. Es cuestion de analizar al-gunos ejemplos sencillos de probabilidad para motivar algunas propiedadesque debe tener dicho espacio de eventos:

  • 4.1. REPRESENTACION FORMAL 47

    4.2. Definicion. Sea un conjunto arbitrario y sea E un conjunto de sub-conjuntos de . Se dice que E es un algebra si:

    1. E ,

    2. Si E E entonces Ec E ,

    3. Si E1, . . . , En E entoncesnj=1

    Ej E .

    Es facil verificar que consecuencia de lo anterior es que el conjunto vaco

    E y que si E1, . . . , En E entoncesnj=1

    Ej E . Pero en probabilidadesto no es suficiente, se pide ademas que la union (infinito) numerable deeventos tambien este en el espacio de eventos, en cuyo caso se le denomina-algebra. Sin embargo, mas adelante mencionaremos el por que se asigna aE una estructura de algebra y no de -algebra.

    En un problema de decision no trabajamos directamente con todo E sinocon algunos de sus elementos que llamamos eventos relevantes, relevantesrespecto a lo que se quiere decidir. Por el momento estableceremos que dichoconjunto de eventos relevantes sea finito. Tambien pediremos que sea unaparticion de . Igualmente pediremos que A sea finito.

    Mencionamos ya que el conjunto de eventos relevantes es la parte queno controlamos del problema de decision, esto es, tenemos incertidumbrerespecto a cual de los eventos relevantes ocurrira, pero esto no nos impi-de estudiar cientficamente el fenomeno o experimento aleatorio asociado aellos e intentar reunir informacion que nos de idea acerca de la posibilidad deocurrencia de cada uno de los eventos. Al respecto Lindley (2000) mencionaque un enfoque cientfico [sobre este problema] implica la medicion de laincertidumbre ya que, citando a Kelvin, es solo asociando numeros a cualquierconcepto cientfico como puede ser adecuadamente entendido. La razon demedir no es solo para ser mas precisos respecto a la nocion de que tenemosmas incertidumbre acerca de lo que sucedera manana en el mercado de valo-res en comparacion con que salga el sol, sino tambien para poder combinarincertidumbres. Lindley (2000) argumenta el por que la incertidumbre debeser medida con probabilidad y Bernardo y Smith (1994) hacen una funda-mentacion rigurosa de ello y de como tomar decisiones bajo condiciones deincertidumbre. Esto ultimo se traduce en poder determinar una relacion depreferencia sobre A y escoger la accion optima.

  • 48 CAPITULO 4. ELEMENTOS DE LA TEORIA DE LA DECISION

    Al hablar de una relacion (binaria) de preferencia no estamos supo-niendo que cualquier par de acciones (a1, a2) A A esta necesariamenterelacionado mediante . En caso de que dicha relacion sea aplicable, me-diante a1 a2 entenderemos que, bajo algun criterio que se defina, a1 no esmas preferible que a2.

    4.3. Definicion. La relacion de preferencia induce las siguientes rela-ciones binarias para elementos a1, a2 A :

    1. a1 a2 si y solo si a1 a2 y a2 a1 (indiferencia),2. a1 a2 si y solo si a1 a2 pero no se cumple que a2 a1 (preferencia

    estricta),

    3. a1 a2 si y solo si a2 a1 ,4. a1 a2 si y solo si a2 a1 .

    Y as como resulta necesario cuantificar la incertidumbre de algun mo-do, que en nuestro caso sera por medio de probabilidad, tambien es necesariocuantificar las consecuencias. En el Ejemplo 7 resulto (quizas) intuitivamenteclaro que la consecuencia c22 es preferible a la consecuencia c21 pero si nospreguntamos lo mismo respecto a c12 y c21 posiblemente no resulte tan con-tundente la respuesta, o al menos no con la intensidad del otro caso. Noteseque de inicio evitamos escribir, por ejemplo, que c22 c21 porque hemosdefinido las relaciones de preferencia para elementos de A y no de C. Claroque podramos definir relaciones de preferencia analogas para C y tener cuida-do en utilizar una simbologa diferente, lo cual no sera practico, as queutilizaremos los mismos smbolos pero conscientes de que las relaciones depreferencia de A son distintas a las de C.4.4. Definicion. Entenderemos por espacio de estados, y lo denotaremos, a una particion de en eventos relevantes.

    Como la incertidumbre sobre los eventos relevantes la mediremos conprobabilidad, si se tiene una medida de probabilidad P : E [ 0, 1 ] entoncestenemos una funcion de probabilidad P : [ 0, 1 ]. Notese ademas queC = A .4.5. Definicion. Una funcion de utilidad es una funcion u : C R .

  • 4.2. SOLUCION DE UN PROBLEMA DE DECISION 49

    El poder cuantificar de algun modo las distintas consecuencias nos proveede un criterio inmediato para determinar las relaciones de preferencia en C :4.6. Definicion. cij ckl si y solo si u(cij) u(ckl) .

    La definicion anteior induce las siguientes relaciones binarias:

    cij ckl cij ckl y ckl cij ,

    cij ckl cij ckl pero no se cumple que ckl cij .

    4.2. Solucion de un problema de decision

    Dijimos ya que resolver un problema de decision (E , C,A,) consiste endeterminar , es decir, definir una relacion de preferencia entre los elementosde A y escoger la accion optima (la mas preferible). Existen diversas formasde hacerlo, pero aqu trataremos exclusivamente la forma que nos interesapara hacer inferencias desde el enfoque bayesiano y para ello requerimos teneridentificado lo siguiente:

    El espacio de estados ,

    una funcion de probabilidad P sobre los elementos de ,

    una funcion de utilidad u sobre C.

    La funcion de probabilidad P : [ 0, 1 ] puede ser a priori o a pos-teriori, en el sentido en que se trato en el Captulo 2. El como establecero construir una funcion de utilidad dependera de cada problema particular.Para mayor detalle acerca de algunas formas generales de funciones de utili-dad nuevamente insistimos en consultar el libro de Bernardo y Smith (1994).Aqu nos limitaremos a ilustrar lo anterior mediante el siguiente:

    Ejemplo 8. Retomando el Ejemplo 1 en la parte referente a la apuesta,podemos plantearlo como un problema de decision. El fenomeno aleatorioinvolucrado es el lanzamiento de una moneda por lo que su espacio muestrales = {aguila, sol} y su algebra de eventos es E = {,, {aguila}, {sol}}. Elespacio de estados = {E1, E2} donde E1 := {aguila} y E2 := {sol}. Noteseque es particion de . El conjunto de acciones es A = {a1, a2} donde a1representa la accion de apostar en favor de que salga aguila y a2 en favor de

  • 50 CAPITULO 4. ELEMENTOS DE LA TEORIA DE LA DECISION

    sol. Si el esquema de apuesta consiste en que quien apueste a favor de aguilaarriesgue b pesos y quien lo haga en favor de sol arriesgue a pesos entoncesla funcion de utilidad queda como sigue:

    u(c11) = a u(c12) = b u(c21) = a u(c22) = b

    De acuerdo al Ejemplo 1 notese que E1 {X = 1} y E2 {X = 0} por loque:

    P(E1) = P(X = 1) y P(E2) = P(X = 0)

    para lo cual podemos utilizar la distribucion predictiva a priori o a posteriori,segun sea el caso, es decir, P(X = x) = p(x) o bien P(X = x) = p(x |x),y con esto queda definida una funcion de probabilidad P sobre el espacio deestados (relevantes) . De manera tabular podemos resumir lo anterior comosigue:

    P(Ej) P(E1) P(E2)u(ai, Ej) E1 E2

    a1 a ba2 a b

    En el Ejemplo 1 se obtuvo la relacion que debe existir entre los montos deapuesta a y b pesos para tener una apuesta justa y dicha relacion se obtuvoa partir de la ecuacion:

    aP(E1) bP(E2) = 0

    El tener una apuesta o juego justo implica que seamos indiferentes respectoa apostar en favor de cualquiera de las opciones disponibles, que en terminosde este problema de decision lo escribimos como a1 a2. Pero eso es tansolo un caso particular. De forma mas general podemos definir las variablesaleatorias:

    U1 := a1E1 b1E2U2 := a1E1 + b1E2

    esto es, U1 representa la ganancia/perdida que obtendra quien decida tomarla accion a1 y U2 lo analogo para la accion a2. Calculando sus esperanzas:

    E(U1) := aP(E1) bP(E2)

    E(U2) := aP(E1) + bP(E2)

  • 4.2. SOLUCION DE UN PROBLEMA DE DECISION 51

    Entonces para tener un juego justo se requiere que E(U1) = 0 y que E(U2) =0, que de hecho tienen la misma solucion, por lo que tendremos que a1 a2si E(U1) = E(U2). Si por el contrario ocurriera que E(U1) > E(U2) entoncessi nos dan a escoger preferimos la accion a1, esto es, a1 a2. E(Ui) es lo quese conoce como la utilidad esperada de la accion ai y es justamente lo quenos servira como criterio para definir una relacion de preferencia sobre Ay poder as elegir la accion optima.

    4.7. Definicion. En un problema de decision (E , C,A,) con espacio deestados (relevantes) = {E1, . . . , Em} E , funcion de probabilidad P sobre y funcion de utilidad u sobre C, la utilidad esperada de la accion ai A ={a1, . . . , ak} se denota u(ai) y se define como:

    u(ai) :=mj=1

    u(ai, Ej)P(Ej) i = 1, . . . , k

    4.8. Definicion. (Criterio general de decision). En un problema de decisioncomo el de la Definicion 4.7, la relacion de preferencia sobre A quedadefinida por:

    a1 a2 u(a1) u(a2)Estrictamente hablando, lo anterior no es una definicion sino una proposi-

    cion que se demuestra despues de una rigurosa axiomatizacion de lo quehemos visto hasta el momento como lo desarrollan Bernardo y Smith (1994),pero como aqu nos limitamos a dar la motivacion intuitiva para establecerdicho criterio,