apuntes proba

55
Pontificia Universidad Católica de Chile Escuela de Ingeniería / Apunte de Probabilidades . Por Sebastián Soto Rojas ([email protected]) Estos apuntes se encuentran basados en el texto Mathematical Statistics and Data Analysis de John Rice (3a edición, Duxbury Advanced Series) y se dejan a disposición de todos aquellos quienes deseen repasar estos tópicos para su preparación en el curso IEE2513 Comunicaciones e ICS2123 Modelos Estocásticos. Índice 1. Probabilidad 3 1.1. Introducción ........................................ 3 1.2. Espacios muestrales .................................... 3 1.3. Medidas de probabilidad ................................. 4 1.4. Cómputo de probabilidades: métodos de conteo .................... 5 1.5. Probabilidad condicional ................................. 7 1.6. Independencia estadística ................................. 8 2. Variables aleatorias 9 2.1. Variables aleatorias discretas ............................... 9 2.2. Variables aleatorias continuas .............................. 12 2.3. Funciones de variables aleatorias ............................. 16 3. Distribuciones conjuntas 18 3.1. Introducción ........................................ 18 3.2. Variables aleatorias discretas ............................... 19 3.3. Variables aleatorias continuas .............................. 19 3.4. Variables aleatorias independientes ........................... 20 3.5. Distribuciones condicionales ............................... 21 3.6. Funciones de variables aleatorias distribuidas conjuntamente ............. 22 3.7. Valores extremos y estadísticos de orden ........................ 24 1

Upload: alberto-avendano-aguirre

Post on 18-Dec-2015

58 views

Category:

Documents


4 download

DESCRIPTION

Apuntes de Probabilidad

TRANSCRIPT

  • Pontificia Universidad Catlica de ChileEscuela de Ingeniera

    / Apunte de Probabilidades .Por Sebastin Soto Rojas ([email protected])

    Estos apuntes se encuentran basados en el texto Mathematical Statistics and Data Analysis deJohn Rice (3a edicin, Duxbury Advanced Series) y se dejan a disposicin de todos aquellosquienes deseen repasar estos tpicos para su preparacin en el curso IEE2513 Comunicaciones eICS2123 Modelos Estocsticos.

    ndice

    1. Probabilidad 3

    1.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

    1.2. Espacios muestrales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

    1.3. Medidas de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

    1.4. Cmputo de probabilidades: mtodos de conteo . . . . . . . . . . . . . . . . . . . . 5

    1.5. Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

    1.6. Independencia estadstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

    2. Variables aleatorias 9

    2.1. Variables aleatorias discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

    2.2. Variables aleatorias continuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

    2.3. Funciones de variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

    3. Distribuciones conjuntas 18

    3.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

    3.2. Variables aleatorias discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

    3.3. Variables aleatorias continuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

    3.4. Variables aleatorias independientes . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

    3.5. Distribuciones condicionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

    3.6. Funciones de variables aleatorias distribuidas conjuntamente . . . . . . . . . . . . . 22

    3.7. Valores extremos y estadsticos de orden . . . . . . . . . . . . . . . . . . . . . . . . 24

    1

  • 4. Valores esperados 26

    4.1. El valor esperado de una variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . 26

    4.2. Varianza y desviacin estndar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

    4.3. Covarianza y correlacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

    4.4. Esperanza condicional y prediccin . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

    4.5. La funcin generadora de momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

    5. Teoremas de los lmites 43

    5.1. La ley de nmeros grandes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

    5.2. Convergencia en la distribucin y el teorema del lmite central . . . . . . . . . . . . 45

    6. Distribuciones derivadas de la distribucin normal 51

    6.1. Distribucin 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

    6.2. Distribucin tstudent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

    6.3. Distribucin F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

    2

  • 1. Probabilidad

    1.1. Introduccin

    La idea de probabilidad es antigua, pero su formulacin matemtica ocurri de forma relativamentereciente, con sus principales ideas originadas en los juegos de azar.

    Durante este siglo la probabilidad ha sido aplicada a una gran variedad de fenmenos, con ejemplosde ellos:

    Gentica, para estudiar mutaciones y asegurar variabilidad natural.

    La teora cintica de gases.

    Anlisis de colas en los sistemas informticos.

    Teoras para analizar el ruido en sistemas electrnicos y dispositivos de comunicaciones.

    En investigacin de operaciones, para modelar las demandas de inventarios de bienes.

    Anlisis financieros y de compaas de seguros.

    Para analizar sistemas complejos y mejorar su desempeo y confiabilidad, tal como en aero-naves comerciales y militares.

    Primero se analizar la teora de probabilidades como modelos matemticos para fenmenos alea-torios. Luego se analizar la estadstica, preocupada de procedimientos para analizar datos, parti-cularmente aquellos con un carcter aleatorio, por lo que es un requisito comprender antes proba-bilidades.

    1.2. Espacios muestrales

    Definicin:

    Para una situacin que ocurre de forma aleatoria, una realizacin se conoce como experimento.

    El conjunto de todos los posibles resultados del experimento se conoce como espacio muestraly se denota por , as como un elemento se denota por .

    Cuando nos interesamos por subconjuntos en particular de , estos se conocen como eventos.

    Se pueden aplicar las definiciones de teora de conjuntos en el espacio muestral as como suseventos, incluyendo unin, interseccin, complemento y resta. Tambin puede considerarseel evento vaco.

    Dos eventos se dicen disjuntos si A1 A2 = .Un conjunto {A1, A2, . . . , An} se dice mutuamente excluyente si para cada i, k se tiene que:

    Ai Ak = i 6= k

    3

  • 1.3. Medidas de probabilidad

    Definicin: Una medida de probabilidad de es una funcin P : A R que satisface lossiguientes axiomas:

    1. Como consiste en todos los elementos, entonces P () = 1.

    2. La probabilidad no es negativa. Si A , entonces P (A) 0.3. Si A1 y A2 son eventos disjuntos, entonces

    P (A1 A2) = P (A1) + P (A2)

    En general, si A1, A2, . . . An son mutuamente excluyentes, entonces:

    P

    (ni=1

    Ai

    )=

    ni=1

    P (Ai)

    Como consecuencia de los axiomas se deducen las siguientes propiedades:

    Proposicin:

    1. P (Ac) = 1 P (A). Se deduce pues A Ac = y A Ac = .2. P () = 0. Se deduce pues = c.

    3. Si A B, entonces P (A) P (B). Se prueba notando que:B = A (B Ac)

    Luego, del tercer axioma:

    P (B) = P (A) + P (B Ac) P (A) = P (B) P (B Ac) P (B)

    4. Ley de adicin: P (A B) = P (A) + P (B) P (A B). Para demostrarlo, notamos que:A B = A\B B\A (A B)

    Como estos tres conjuntos son disjuntos:

    P (A B) = P (A\B) + P (B\A) + P (A B)Pero A\B = A\ (A B) P (A) = P (A) P (A B) y de forma anloga para B\A. Deesta forma,

    P (A B) = P (A) + P (B) P (A B)donde se descuenta una vez la interseccin pues esta se considera dos veces al sumar ambasprobabilidades.

    4

  • 1.4. Cmputo de probabilidades: mtodos de conteo

    Para espacios muestrales finitos las probabilidades son especialmente fciles de calcular, enume-rando y contando los eventos favorables, de modo que:

    P (A) =nmeros de formas que A puede ocurrir

    nmero total de ocurrenciasEn algunos ejemplos es fcil contar el nmero de ocurrencias y calcular las probabilidades, peropara situaciones ms complejas se deben desarrollar formas de contar las ocurrencias.

    1.4.1. El principio de multiplicacin

    Teorema: Si un experimento tiene m realizaciones favorables y otro experimento tiene n realiza-ciones favorables, entonces hay mn realizaciones favorables para ambos experimentos.

    Demostracin:

    Sean a1, . . . , am las realizaciones del primer experimento y b1, . . . , bn las realizaciones del segundoexperimento. Las realizaciones de ambos experimentos son pares de la forma (ai, bj), que por lotanto son entradas de un arreglo cuadrangular de m n, en la cual el par (ai, bj) se encuentra enla fila isima y columna jsima. Por lo tanto hay mn entradas en el arreglo. El principio puede extenderse a k experimentos, donde cada experimento tiene ni realizaciones.Por lo tanto, existir un total de:

    ki=1

    ni

    1.4.2. Permutaciones

    Definicin: Se define una permutacin como un arreglo ordenado de objetos. Si no se permite elduplicado de objetos, se conoce como muestreo sin reemplazo. Si se permite duplicado de objetos,se conoce como muestreo con reemplazo.

    Se puede utilizar el principio de multiplicacin para contar el nmero de diferentes muestras enun conjunto de n elementos. Si suponemos que el muestreo esta realizado sin reemplazo, el primerelemento puede ser escogido de n formas, el segundo de n formas y as las r sucesivas veces, demodo que de acuerdo al principio de multiplicacin, los eventos favorables son:

    n n n r veces

    = nr

    Supongamos ahora que el muestreo se realiza con reemplazo. La primera muestra puede ser escogidade n formas, la segunda de n 1 formas, la tercera de n 2 formas y as sucesivamente hasta larsima iteracin con n r + 1 formas, probando as la sigueinte proposicin:Proposicin: Para un conjunto de tamao n y una muestra de tamao r, existen nr muestrasordenadas con remplazo y n (n 1) (n 2) (n r + 1) muestras ordenadas sin reemplazo.Corolario: Existen n! formas de ordenar n elementos distintos.

    5

  • 1.4.3. Combinaciones

    Si ahora no estamos interesados en obtener muestras de forma ordenada, si no que ms bien de loselementos obtenidos sin importar el orden en que se obtuvieron, estamos interesados en calcularel nmero de combinaciones. Si r objetos son tomados de un conjunto de n objetos sin reemplazoy sin importar el orden, cuntas combinaciones son posibles?

    De acuerdo al principio de multiplicacin, el nmero de muestras ordenadas obtenidas equivalea n (n 1) (n r + 1) y como cada muestra de tamao r puede ser ordenada de r! formas,entonces el nmero de muestras no ordenadas es:

    n (n 1) (n r + 1)r!

    =n!

    (n r)! r!4=

    (n

    r

    )

    Proposicin: El nmero de muestras ordenadas de r objetos seleccionadas de un conjunto de nobjetos sin reemplazo es

    (nr

    ).

    Definicin: Los nmeros(nk

    ), conocidos como coeficientes binomiales, ocurren en la expansin:

    (a+ b)n =nk=0

    (n

    k

    )akbnk

    Proposicin: En particular, puede notarse que:

    2n =nk=0

    (n

    k

    ).

    lo cual puede interpretarse como la suma total de conjuntos posibles, de todos los tamaos, sinimportar el orden, en un conjunto de n elementos: es la suma de combinaciones de 0 elementos,de 1 elemento, de 2 elementos y as hasta los n elementos.

    Puede extenderse este resultado como sigue:

    Proposicin: El nmero de formas en que n objetos pueden ser agrupadas en r clases de nielementos la clase isima con ri=1 ni = n es:(

    n

    n1n2 nr

    )=

    n!

    n1!n2! nr!Demostracin:

    Existen(nn1

    )formas de escoger los objetos de la primera clase,

    (nn1n2

    )formas de escoger la segunda,(

    nn1n2n3

    )formas de escoger la tercera. De acuerdo al principio de multiplicacin, el total vendr

    dado por:(n

    n1

    )(n n1n2

    )(n n1 n2

    n3

    ) (n n1 nr1

    nr

    )=

    n!

    (n n1)!n1!

    (n n1)!

    (((((((((n n1 n2)!n2!

    (((((((((

    (((n n1 nr1)!

    0!nr!

    6

  • Es decir, (n

    n1

    )(n n1n2

    )(n n1 n2

    n3

    ) (n n1 nr1

    nr

    )=

    n!

    n1!n2! nr!

    Definicin: Los nmeros(

    nn1nr

    )se conocen como coeficientes multinomiales y ocurren en la

    expansin:

    (x1 + x2 + + xr)n =( n

    n1n2 nr

    )xn11 x

    n22 xnrr

    donde n1, . . . , nr son tales que n1 + + nr = n.

    1.5. Probabilidad condicional

    Definicin: Sean A y B dos eventos tales que P (B) 6= 0, se define la probabilidad condicional deA dado B como:

    P (A|B) = P (A B)P (B)

    La idea de esta definicin es que, dado que ocurri el evento B, el espacio relevante es en realidadB en vez de , y la probabilidad condicional es una medida de probabilidad con respecto al espacioen B.

    Dado esto, se deduce la ley de multiplicacin, que nos permite calcular P (A B) dado P (A|B) yP (B). Si A y B son eventos y P (B) 6= 0, entonces:

    P (A B) = P (A|B)P (B)

    Teorema: (Regla de Bayes) Sea A y B1, . . . , Bn eventos donde Bi es disjunto,ni=1Bi = y

    P (Bi) > 0 para todo i. Entonces,

    P (Bj|A) = P (A|Bj)P (Bj)ni=1

    P (A|Bi)P (Bi)

    7

  • 1.6. Independencia estadstica

    Definicin: Dos eventos se dicen estadsticamente independientes si la ocurrencia de uno noentrega informacin sobre la ocurrencia del otro. En otras palabras, A y B son independientes siy solo si:

    P (A|B) = P (A) y P (B|A) = P (B)Luego, si

    P (A) = P (A|B) = P (A B)P (B)

    ,

    entoncesP (A B) = P (A)P (B)

    Definicin: Se dice que una coleccin de eventos A1, A2, . . . , An son mutuamente independientessi para cualquier coleccin Ai1 , . . . , Aim

    P (Ai1 Aim) = P (Ai1) P (Aim)

    8

  • 2. Variables aleatorias

    2.1. Variables aleatorias discretas

    Definicin:

    Una variable aleatoria es bsicamente un nmero aleatorio. En general, una variable aleatoriaes una funcin de a los nmeros reales. Como el resultado del experimento en es aleatorio,el nmero producido por la funcin es asimismo aleatorio.

    Usaremos letras itlicas en maysculas para denotar las variables aleatorias.

    Una variable aleatoria discreta es una variable aleatoria que puede tomar un nmero finitoo a lo ms contable de valores.

    En general, se mide la probabilidad de que la variable aleatoria cumpla cierta condicinlgica. A modo de ejemplo,

    P (X = a) ; P (X a) ; P (X > a)

    Definicin: En general, la medida de probabilidad en el espacio muestral determina las probabi-lidades de los distintos valores de X. Si estos valores son denotados por x1, . . . , xn, entonces

    1. Existe una funcin p (xi) = P (X = xi) yp (xi) = 1. Esta funcin se conoce como la

    funcin de probabilidad de masa o la funcin frecuencia de la variable aleatoria X.

    2. Se define la funcin de distribucin acumulada (cdf ) de una variable aleatoria como

    F (x) = P (X x) , < x

  • 2.1.2. La distribucin binomial

    Supongamos que se realizan n experimentos o pruebas donde cada experimento resulta en xitocon probabilidad p y en falla con probabilidad 1 p. El nmero total de xitos, X, es una variablealeatoria binomial con parmetros n y p.

    Se tiene que:

    X Binomial (n, p) p (k) = P (X = k) =(n

    k

    )pk (1 p)nk

    donde pk (1 p)nk es la probabilidad de que ocurran k xitos y n k fallas, tal como se espera y(nk

    )cuenta las

    (nk

    )formas o secuencias sobre las cuales se puede obtener los k xitos.

    Se observa entonces que si X1, . . . , Xn son variables Bernoulli independientes entre ellas, todas conprobabilidad de xito p, entonces

    Y = X1 +X2 + +Xn Binomial (n, p)

    2.1.3. Las distribuciones geomtrica y binomial negativa

    La distribucin geomtrica tambin se construye a partir de intentos Bernoulli, pero conside-rando ahora una sucesin infinita. La variable aleatoria X consiste en el nmero de intentoshasta obtener el primer xito. Es decir, deben ocurrir k 1 intentos fallidos y 1 intentoexitoso, con lo cual

    X Geomtrica(p) P (X = k) = (1 p)k1 p

    Puede notarse que estas probabilidades suman uno cuando se suman todos los casos posibleshasta infinito:

    k=1

    (1 p)k1 p = pk=0

    (1 p)k = p1 (1 p) = 1

    La distribucin binomial negativa consiste en una generalizacin de la distribucin geomtri-ca. Sea X ahora el nmero total de intentos para obtener r xitos en total. Entonces, cadaintento en particular tiene probabilidad pr (1 p)kr, pero para los k 1 intentos restantescon r 1 probabilidades de xito existen (k1

    r1)formas. Luego,

    X Bin. Neg. (p, r) P (X = k) =(k 1r 1

    )pr (1 p)kr

    Se observa que la distribucin binomial negativa puede expresarse como la suma de r variablesaleatorias geomtricas.

    10

  • 2.1.4. La distribucin hipergeomtrica

    Suponiendo un conjunto de n elementos de dos tipos exclusivamente, habiendo r del primer tipoy n r del segundo tipo. Si X denota el nmero de intentos del primer tipo m, sin reemplazo,entonces X es una variable aleatoria hipergeomtrica:

    X H.G.(r, n,m) P (X = k) =

    (r

    k

    )(n rm k

    )(n

    m

    )donde

    (rk

    )denota las formas de obtener los k elementos del primer tipo en el grupo,

    (nrmk)las formas

    de obtener los m k elementos del segundo tipo y (nm

    ), el denominador, toma en consideracin las(

    nm

    )formas de obtener un grupo de m elementos sobre el total de n elementos.

    2.1.5. La distribucin Poisson

    La funcin de frecuencia Poisson se obtiene de tomar el lmite de la distribucin binomial en infinitopara el nmero de intentos n y p para la probabilidad de xito de la forma np = . Es decir,

    p (k) = lmnpnp=

    n!

    k! (n k)!pk (1 p)nk = lm

    npnp=

    n!

    k! (n k)!(

    n

    )k (1

    n

    )nk

    = lmnpnp=

    k

    k!

    *1n!

    (n k)!1

    nk

    *e(

    1 n

    )n

    *1(

    1 n

    )k

    De esta forma,

    X Poisson () P (X = k) = k

    k!e

    Nuevamente, puede notarse que las probabilidades suman 1:

    F () =k=0

    k

    k!e = ee = 1

    La distribucin Poisson peude ser utilizada para aproximar distribuciones binomiales en que n esgrande y p pequeo, lo cual a su vez sugiere cmo aparecen estas distribuciones en la prctica. SiX es una variable aleatoria que equivale al nmero de veces que un evento ocurre en un intervalode tiempo dado.

    Heursticamente, si dividimos el intervalo en un nmero grande de subintervalos de igual longitud,y asumimos que los subintervalos son tan pequeos que la probabilidad de que ms de un eventoen el subintervalos es despreciable relativo a la probabilidad de un evento, que por si misma esmuy pequea. Asumamos que la probabilidad de un evento es la misma en cada subintervalo y

    11

  • que cuando ocurre un evento en el subintervalo es independiente de lo que ocurre en los prximossubintervalos, entonces la variable X es prcticamente una variable binomial, con los subintervalosconsistiendo en los intentos, y por el resultado anterior X tiene casi una distribucin Poisson.

    Los supuestos importantes son:

    1. La distribucin no tiene memoria: lo que ocurre en un subintervalo es independiente de loque ocurre en otro subintervalo.

    2. La probabilidad de un evento es la misma en cada subintervalo.

    3. Los eventos no ocurren simultneamente.

    La distribucin Poisson tiene importancia terica y prctica fundamnetal. Puede ser utilizada enmuchas reas, incluyendo las siguientes:

    Anlisis de sistemas telefnicos. El nmero de llamadas llegando a una unidad duranteuna unidad de tiempo puede modelarse como una variable Poisson si la unidad entregaservicio a un gran nmero de clientes que actan ms o menos independientemente.

    Radioactividad. Para modelar el nmero de partculas alfa emitidas por una fuente radio-activa durante cierto perodo de tiempo.

    Compaas de seguros. La distribucin Poisson ha sido como modelo en las compaas deseguros. Por ejemplo, el nmero accidentes extraos, como cadas en la ducha, para grandesgrupos de poblacin.

    Ingeniera de trnsito. La distribucin Poisson ha sido utilizada como un modelo para eltrfico liviano. El nmero de vehculos que pasa un marcador en una autopista durante unaunidad de tiempo puede ser contada. Si el trfico es liviano, los vehculos actan de formaindependiente entre ellos. En trfico alto, sin embargo, esto no sucede porque el movimientode un auto puede influir en los otros.

    2.2. Variables aleatorias continuas

    En muchas aplicaciones es de inters estudiar variables aleatorias que pueden tomar un continuode valores en vez de un conjunto contable de estos.

    12

  • Definicin:

    Una variable aleatoria continua es una variable aleatoria en la cual X puede tomar el valorde cualquier nmero real.

    En analoga a la funcin de frecuencia, se dice que f (x) es la funcin de densidad de lavariable aleatoria (pdf) que tiene la propiedad de ser no negativa, continua a tramos y talque

    f (x) dx = 1

    Si X es una variable aleatoria con funcin de densidad f , entonces para todo a < b laprobabilidad de que X est en el intervalo (a, b) viene dada por:

    P (a < X < b) =

    ba

    f(x)dx

    Si F es la cdf de una variable continua y es estrictamente creciente en el intervalo I y queF = 0 a la izquierda y F = 1 a la derecha de I, entonces I puede ser no acotado. Bajo estesupuesto, la funcin F1 est bien definida, i.e. x = F1 (y) si y = F (x), entonces el cuantilpsimo se define como el valor xp est definido nicamente como xp = F1 (p).El caso p = 1

    2se conoce como la mediana de F , y p = 1

    4y p = 3

    4, los cuales corresponden a

    los cuartiles inferior y superior de F .

    Una consecuencia de la definicin anterior es que la probabilidad de que una variable continuatome un valor en particular es cero, i.e.

    P (X = c) =

    cc

    f (x) dx = 0

    Esto implica que:P (a < x < b) = P (a x b)

    Para un pequeo , si f es continua en x, entonces de acuerdo al teorema del valor medio integralse tiene que:

    P(x

    2 X x+

    2

    )=

    x+/2x/2

    f (t) dt f (x)

    De aqu se sigue que la probabilidad de un intervalo pequeo cerca de x es proporcional a f (x).Se dice entonces la notacin:

    P (a X b) = ba

    f (x) dx = F (b) F (a)

    13

  • 2.2.1. La distribucin uniforme

    Respondiendo a la pregunta escoge un nmero al azar entre 0 y 1, se tiene una variable aleatoriacuya distribucin es la uniforme entre [0, 1]. La densidad viene dada por:

    f (x) =

    {1, si 0 x 1,0, en otro caso.

    De este modo la integral en todo R es 1 y asigna una densidad de probabilidad igual para cadanmero. En general, para el intervalo [a, b] la funcin de densidad es:

    X Uniforme(a, b) f (x) ={

    1/(b a), si a x b,0, en otro caso.

    La cdf en este caso viene dada por:

    F (x) =

    0, si x a,(x a)/(b a), si a < x b,1, si x b.

    2.2.2. La distribucin exponencial

    La distribucin exponencial tiene como funcin densidad:

    X Exponencial() f (x) ={ex, si x 0,0, si x < 0.

    donde > 0 es el nico parmetro al igual que en la distribucin Poisson. La distribucin acumu-lada viene dada por:

    F (x) =

    x

    f(x)dx =

    {1 ex, si x 0,0, si x < 0.

    El despeje de la mediana es directo:

    1 e = 12 = log 2

    La distribucin exponencial se usa para modelar tiempos de vida o tiempos de espera, reemplazandox por t en dicho contexto.

    Se dice que la distribucin exponencial no tiene memoria pues:

    P (X > t+ |X > ) = P (X > t+ X > )P (X > )

    =e(t+)

    e= et

    Es decir, no depende de la probabilidad condicional, y por lo tanto no recuerda el tiempo queha transcurrido. La ausencia de memoria es de hecho una caracterstica de la distribucin.

    14

  • Relacin con el proceso Poisson. Supongamos que un evento ocurre en el tiempo como unproceso Poisson con parmetro en un instante t0. Sea T el tiempo para la prxima ocurrenciadel evento. Entonces,

    P (T > t) = P (sin eventos en [t0, t0 + t])Como el nmero de eventos en el intervalo (t0, t0 + t), de largo t, sigue una distribucin Poissoncon parmetro t, la probabilidad es et y por lo tanto T sigue una distribucin de parmetro.Si el siguiente evento ocurre en un tiempo t1, la distribucin para la siguiente ocurrencia siguesiendo exponencial e independiente de la distancia de tiempo entre los eventos.

    2.2.3. La distribucin Gamma

    La distribucin Gamma tiene como densidad a una funcin que depende de dos parmetros, y:

    T Gamma (, ) g (t) =

    ()t1et , t 0

    Para t < 0, g (t) = 0. Se define la funcin Gamma como:

    (x)4=

    0

    ux1eudu, x > 0

    Si = 1 se recupera la densidad exponencial. Este parmetro se denomina parmetro de forma y se denomina parmetro de escala.

    2.2.4. La distribucin normal

    La distribucin normal juega un rol central en probabilidades y estadstica. Tambin se conocecomo distribucin Gaussiana en honor al matemtico Carl Friedrich Guss, quien la propuso comomodelo para los errores de medicin. Ha sido utilizada para modelar un sin fin de situaciones reales.

    La densidad depende de dos parmetros, (media) y (desviacin estndar) y su expresin es:

    X N (, ) f (x) = 1

    2pie(x)

    2/22 , x R

    La cdf no puede ser evaluada en forma cerrada para esta funcin de densidad. No tiene una frmulaexplcita pero se computa numricamente una tabla para la densidad normal estndar, donde = 0y = 1. Se utiliza la variable (x) para referirse a esta funcin de distribucin acumulada (y para la densidad) y puede ser encontrada una tabla con diversos valores en el anexo.

    2.2.5. La distribucin Beta

    La distribucin beta es til para modelar variables que se encuentran restringidas al intervalo [0, 1]:

    X B (a, b) f (x) = (a+ b) (a) (b)

    ua1 (1 u)b1 ; 0 u 1

    Si a = b = 1 se recupera la distribucin uniforme.

    15

  • 2.3. Funciones de variables aleatorias

    Supongamos que una variable aleatoria X tiene una funcin densidad f (x). Surge la pregunta:cul es la funcin de densidad de Y = g(X) para una funcin g dada? A modo de ejemplo, Xpuede ver la velocidad de una partcula de masa m y estamos interesados en obtener la funcin dedensidad probabilstica para su energa cintica, Y = 1

    2mX2.

    Utilizaremos la notacin fX y FX para referirnos a las distribuciones deX y fY y FY para referirnosa las de Y .

    2.3.1. La distribucin normal

    Si X N (, 2) y que Y = aX + b donde a > 0, la probabilidad de densidad acumulada de Y es:

    FY (y) = P (Y y)= P (aX + b y)= P

    (X y b

    a

    )= FX

    (y ba

    )Luego,

    fY (y) =ddyFX

    (y ba

    )=

    1

    afX

    (y ba

    )Es decir,

    fY (y) =1

    a

    2piexp

    [1

    2

    (y b a

    a

    )2]

    Se sigue que X N (, 2) Y N (a+ b, a22) .Esta proposicin es til para encontrar probabilidades de la distribucin normal. Supongamos queX N (, 2) y se desea buscar P (x0 < X < x1) para algunos nmeros x0 y x1. Se tiene que:

    P (x0 < X < x1) = P

    (x0

    0 y 0 de otra forma.

    Se obtiene de forma anloga la ley de probabilidad total en este caso integrando:

    fY (y) =

    fY |X (y|x) fX (x) dx

    3.6. Funciones de variables aleatorias distribuidas conjuntamente

    Primero consideramos algunos casos particulares.

    3.6.1. Sumas

    Sean X e y variables aleatorias discretas tomando valores en los enteros y teniendo una funcin defrecuencia conjunta p (x, y) y sea Z = X + Y. Para encontrar la funcin frecuencia de Z, notamosque Z = z cuando X = x e Y = z x, donde x es un entero. La probabilidad de que Z = z es porlo tanto la suma sobre todos los x de estas probabilidades conjuntas, es decir,

    pZ (z) =

    x=p (x, z x)

    Si X e Y son independientes, entonces:

    pZ (z) =

    x=pX (x) pY (z x) ,

    suma conocida como convolucin de las sucesiones pX y pY .

    El caso continuo puede deducirse de forma similar, obteniendo as que:

    fZ (z) =

    f (x, z x) dx

    Si las variables son continuas e independientes, entonces:

    fZ (z) =

    fX (x) fY (z x) dx,

    la cual tambin se conoce como la convolucin de las funciones fX y fY .

    22

  • 3.6.2. Cocientes

    Consideremos ahora el caso del cociente entre dos variables continuas aleatorias. La derivacin essimilar a la deducida para la suma de dichas variables. Supongamos que X e Y son continuas conuna densidad conjunta f y sea Z = Y/X, entonces FZ (z) = P (Z z) . Si X > 0, entonces esequivalente a buscar y xz, si X < 0, a buscar y xz. Luego,

    FZ (z) =

    0

    xz

    f (x, y) dydx+

    0

    xz

    f (x, y) dydx

    Para remover la independencia de x, se hace y = xv para obtener:

    FZ (z) =

    0

    z

    xf (x, xv) dvdx+

    0

    z

    xf (x, xv) dvdx

    =

    z

    |x|f (x, xv) dxdv

    Derivando con respecto a z:

    fZ (z) =

    |x|f (x, xz) dx

    Si son independientes las variables:

    fZ (z) =

    |x|fX (x) fY (xz) dx

    Ejemplo Suponiendo que X e Y son variables independientes que distribuyen normalestndar. Calculemos la distribucin de Z = Y/X. Solucin:De acuerdo al resultado anterior se tiene que:

    fZ (z) =1

    2pi

    |x|ex2/2ex2z2/2dx = 1

    pi

    0

    xex2(1+z2)/2

    Haciendo u = x2 du = 2x dx:

    fZ (z) =1

    2pi

    0

    eu(1+z2)/2du =

    1

    pi (z2 + 1)

    Esta funcin de densidad se conoce como densidad de Cauchy y est definida para todo z.

    23

  • 3.6.3. Caso general

    Para el caso general, suponemos que X e Y son variables aleatorias continuas distribuidas conjun-tamente y que X e Y son mapeados en U y V bajo la transformacin:

    u = g1 (x, y)

    v = g2 (x, y)

    De acuerdo al Teorema de la Funcin Inversa, de existir la inversa, deber cumplirse que:

    (g1, g2)

    (x, y)=g1x

    g2y g2x

    g1y6= 0

    Esto lleva directamente al siguiente resultado, que puede ser demostrado mediante lo aprendidodel teorema de sustitucin de integrales dobles en el curso de clculo en varias variables:

    Proposicin: Bajo los supuestos mencionados anteriormente, la distribucin conjunta de U y Ves:

    fUV (u, v) = fXY (h1 (u, v) , h2 (u, v))

    [ (g1, g2)

    (x, y)

    ]1para (u, v) tal que u = g1 (x, y) y v = g2 (x, y) para algunos (x, y) y cero en otro caso.

    El resultado es extendible a Rn de forma similar, obteniendo as que:

    fY1YN (y1, . . . , yn) = fX1Xn (x1, . . . , xn)[ (g1, . . . , gn)

    (x1, . . . , xn)

    ]1

    3.7. Valores extremos y estadsticos de orden

    Sean X1, X2, . . . , Xn variables independientes y aleatorias con una cdf comn F y densidad f (iid.,independientes e idnticamente distribuidas). Sea U el mximo de Xi y V el mnimo. Las cdfs deU y V , y por lo tanto sus densidades, sern calculadas.

    Notamos que U u Xi u para todo i. Luego,

    FU (u) = P (U u) = P (i : Xi u) iid.=ni=1

    P (Xi u) = F n (u)

    Derivando con respecto a u:

    fU (u) = nFn1 (u)

    dFdu

    = nF n1 (u) f(u)

    De forma anloga, V v Xi v para todo i. Luego, se puede deducir mediante lgicacomplementaria que:

    1 FV (v) = [1 F (v)]n FV (v) = 1 [1 F (v)]n

    Finalmente, derivando con respecto a v:

    fU (u) = n [1 F (v)]n1 dFdv = n [1 F (v)]n1 f(v)

    24

  • Ahora asumamos los mismos supuestos, ordenamos los Xi y denotamos esta lista por:

    X(1) < X(2) < < X(n)Estos resultados se conocen como estadsticos de orden. Debe notarse de inmediato que no necesa-riamente X1 = X(1). Se nota aqu que X(1) es el mnimo, X(2) el mximo y si n = 2m+ 1, entoncesX(m+1) es la mediana de Xi.

    Teorema: La densidad de X(k), el ksimo estadstico de orden es:

    fk (x) =n!

    (k 1)! (n k)!f (x)Fk1 (x) [1 F (x)]nk

    25

  • 4. Valores esperados

    4.1. El valor esperado de una variable aleatoria

    El concepto de valor esperado de una variable aleatoria recuerda la nocin de promedio ponderado.Los posibles valores de una variable aleatoria son ponderados por sus probabilidades, tal como seespecifica en la siguiente definicin:

    Definicin: Sea X una variable aleatoria discreta con funcin de frecuencia p (x), el valor esperadoo promedio de X, denotado por E (X), es:

    E (x) 4=i

    xip (xi)

    Tambin suele denotarse por X y puede entenderse como el centro de masa de la funcinfrecuencia.

    Bajo esta definicin, calculemos el promedio de cada una de las distribuciones discretas enunciadasen el captulo 2.

    Bernoulli. Usando la definicin:

    E (X) = p 1 + (1 p) 0 = p

    Binomial. Usando la misma definicin:

    E (X) =nk=0

    k

    (n

    k

    )pk (1 p)nk =

    nk=1

    kn!

    (n k)! k!pk (1 p)nk

    =nk=1

    n (n 1)!(n k)! (k 1)!p

    k (1 p)nk

    = nnk=1

    (n 1k 1

    )pk (1 p)nk

    = nn1k=0

    (n 1k

    )pk+1 (1 p)n1k

    = np

    :1n1

    n1k=0

    (n 1k

    )pk (1 p)(n1)k

    Finalmente,E (X) = np

    26

  • Geomtrica. Se tiene que:

    E (X) =k=1

    k (1 p)k1 p = pk=1

    k (1 p)k1

    = p ddp

    k=0

    (1 p)k

    = p ddp

    1

    1 (1 p) = pddp

    1

    p

    Finalmente,

    E (X) =1

    p

    Es decir, si la probabilidad es 10 % de ocurrencia de un error, entonces tras 10 inspeccionesse espera que aparezca un artculo defectuoso.

    Binomial negativa. Se tiene que

    E (X) =k=r

    k

    (k 1r 1

    )pr (1 p)kr =

    k=r

    k(k 1)!

    (r 1)! (k r)!pr (1 p)kr

    =pr

    (r 1)!k=r

    (k r + 1) (k r + 2) (k 1) k (1 p)kr

    =pr

    (r 1)! (1)r dr

    dpr

    k=0

    (1 p)k = pr

    (r 1)!dr

    dpr1

    p

    =pr

    (r 1)! (1)2r r!

    pr+1

    Finalmente,

    E (X) =r

    p

    Hipergeomtrica. El clculo es complejo y no se mencionar ac. Se puede demostrar que:

    E (X) =mr

    n

    Poisson. En este caso se tiene que:

    E (X) =k=0

    kk

    k!e = e

    k=1

    k1

    (k 1)!

    = ek=0

    k

    k!= ee

    Finalmente,E (X) =

    Entonces el parmetro de la distribucin Poisson puede interpretarse como la cuenta pro-medio de ocurrencias.

    27

  • En el caso discreto, es razonable e intuitivo que se reemplaza la suma por la integracin. Se tieneentonces la siguiente definicin:

    Definicin: Si X es una variable aleatoria continua con densidad f (x), entonces:

    E (X) 4=

    xf (x) dx

    considerando que |x|f (x) dx

  • Es decir,E (x) =

    donde se cancel la integral pues esta simtrica en torno al punto (, 0) (de forma anlogaa una funcin impar). La segunda integral vale

    2pi, por lo que el resultado total es . De

    aqu que este parmetro se conoce tambin como el promedio de la distribucin normal.

    5. Beta. En este caso, se tendr que:

    E (X) = (a+ b)

    (a) (b)

    10

    ua (1 u)b1 du (a+1)(b)/(a+b+1)

    = (a+ b)

    (a) (b)

    (a+ 1) (b)

    (a+ b+ 1)

    Se tiene entonces que:

    E (X) =a

    a+ b

    donde se uso la relacin (?+ 1) = ? (?) para simplificar los trminos.

    Teorema: (Desigualdad de Markov) Si X es una variable aleatoria con P (X 0) = 1 y para lacual E (X) existe, entonces P (X t) E (X) /t.

    Demostracin:

    Se probar para el caso continuo, considerando que es anlogo para el caso con sumatoria. Sepa-rando integrales, se tiene que:

    E (X) = t

    xp (x) dx+ t

    xp (x) dx t

    xp (x) dx t t

    p (x) dx = tP (X t)

    De aqu se deduce que:

    P (X t) E (X)t

    4.1.1. Esperanza de funciones de variables aleatorias

    Teorema: Suponiendo que Y = g (X) donde X es una variable aleatoria, entonces:

    1. Si X es discreta con funcin de frecuencia p (x), entonces:

    E (Y ) =x

    g (x) p (x)

    siempre que |g(x)|p(x)

  • 2. Si X es continua con funcin de densidad f (x), entonces:

    E (Y ) =

    g (x) f (x) dx

    siempre que|g(x)|f(x)dx

  • y en el caso continuo:

    Var (X) =

    (x )2 f (x) dx

    Teorema: Si Var (X) existe e Y = a+bX, entonces Var (Y ) = b2Var (X) y por lo tanto Y = |b|X .Demostracin:

    Se tiene que:

    Var (Y ) = E (Y Y )2= E (a+ bX a bX)2= E

    [b2 (X X)2

    ]= b2E (X X)2

    Finalmente,Var (Y ) = b2Var (X)

    El siguiente teorema entrega una forma alternativa para calcular la varianza:

    Teorema: La varianza de X, de existir, tambin puede ser calculada como:

    Var (X) = E(X2) 2X

    Demostracin:

    Se tiene que:

    Var (X) = E (X )2 = E (X2 2X + 2)= E

    (X2) 2E (X)

    +2

    Finalmente,Var (X) = E

    (X2) 2

    Considerando la descripcin dada de la varianza como indicacin de qu tan dispersos estn los va-lores de una variable aleatoria, existe una famosa desigualdad para entregar un aspecto cuantitativode este indicador:

    Teorema: (Desigualdad de Chebyshev) Sea X una variable aleatoria con media y varianza 2,entonces para cualquier t > 0:

    P (|X | > t) 2

    t2

    Este teorema plantea que si 2 es muy pequeo, entonces hay una alta probabilidad de X no sedesve mucho de . Otra interpretacin puede hacerse haciendo t = k:

    P (|X | > k) 1k2

    31

  • Es decir, la probabilidad de que X se aleje una distancia k (o k veces la desviacin) de la mediaes menor a 1/k2, donde a medida que se aumenta k disminuye la probabilidad.

    Corolario: Si Var (X) = 0, entonces P (X = ) = 1.

    Demostracin:

    Por contradiccin, supongamos que P (X = ) < 1. Luego, se tendr que

    P (|X | ) > 0

    lo cual contradice la desigualdad de Chebyshev, pues:

    P (|X | ) 0

    4.2.1. Un modelo para el error de medicin

    Los valores de las constantes fsicas no son conocidas con precisin pero deben ser determinadasmediante procedimientos experimentales. Operaciones tan sencillas como pesar un objeto, deter-minar un voltaje o medir un intervalo de tiempo son en realidad bastante complicadas cuando setoman en cuenta todos los detalles y posibles fuentes de error.

    Una distincin realizada usualmente es aquella entre error aleatorio y error sistemtico, dondeel primero puede producir errores en las mediciones sin cambiar deliberadamente variables en elexperimento, mientras que el segundo puede producirse en cada medicin, como consecuencia de lamala calibracin de instrumentos o errores asociados con la teora detrs del mtodo de medicin.

    Si el valor real que se desea medir se denota por x0, entonces la medida X se modela como:

    X = x0 + +

    donde es la constante de error sistemtico y es la componente aleatoria del error, donde esuna variable aleatoria tal que E () = 0 y Var () = 2. Se tiene entonces que:

    E (X) = x0 +

    y queVar (X) = 2

    donde se llama comnmente el sesgo del procedimiento de medicin. Los dos factores afectandoel tamao del error son el sesgo y el tamao de la varianza, 2. Una medicin perfecta (e ideal)debiese entregar = 0 y 2 = 0.

    Definicin: Una medida del tamao del error total de medicin que se usa comnmente es elerror cuadrtico medio (MSE, por sus trminos en ingls mean squared error), el cual se definecomo:

    MSE (X, x0) = E (X x0)2

    32

  • El error cuadrtico medio, que es la desviacin cuadrtica esperada de X con respecto a x0, puedeser descompuesta en el sesgo y la varianza.

    Teorema: MSE = 2 + 2.

    Demostracin:

    E (X x0)2 = Var (X x0) + [E (X x0)]2= Var (X) + 2

    = 2 + 2

    4.3. Covarianza y correlacin

    La varianza de una variable aleatoria es una medida de su variabilidad, y la covarianza de dosvariables aleatorias es una medida de su variabilidad conjunta, o de su grado de asociacin. Despusde definir covarianza, se revisarn algunas propiedades y se discutir una medida de asociacinllamada correlacin, definida en trminos de la covarianza.

    Definicin: Si X e Y son variables distribuidas conjuntamente con esperanzas X y Y respecti-vamente, la covarianza de X e Y es:

    Cov (X, Y ) = E [(X X) (Y Y )]

    siempre que esta esperanza exista. De aqu se sigue que Var (X) = Cov (X,X).

    La covarianza es el valor promedio del producto de la desviacin deX de su media y de la desviacinde Y de su media. Si las variables aleatorias estn positivamente asociadas si X es ms grandeque su media, entonces Y tambin, la covarianza ser positiva. Si la asociacin es negativa estoes, cuando X es ms grande que su media, Y tiende a ser ms pequeo que su media la covarianzaes negativa.

    Realizando una expansin de trminos, se puede encontrar una expresin equivalente para la co-varianza:

    Cov (X, Y ) = E (XY ) XYDe aqu se puede notar que si X e Y son independientes, entonces E (XY ) = E (X)E (Y ) = XYy por lo tanto la covarianza es cero (pero la expresin recproca no es verdadera).

    Proposicin: Se verifican las siguientes identidades:

    1. Cov (a+X, y) = Cov (X, Y ).

    2. Cov (aX, bY ) = abCov (X, Y ).

    33

  • 3. Cov (X, Y + Z) = Cov (X, Y ) + Cov (X,Z).

    4. CoV (aW + bX, cY + dZ) = acCov (W,Y ) + adCov (W,Z) + bcCov (X, Y ) + bdCov (X,Z).

    Teorema: Si U = a+n

    i=1 biXi y V = c+m

    j=1 djYj, entonces:

    Cov (U, V ) =ni=1

    mj=1

    bidjCov (Xi, Yj)

    Corolario:

    1. Var

    (a+

    ni=1

    biXi

    )=

    ni=1

    nj=1

    bibjCov (Xi, Xj).

    2. Var

    (ni=1

    Xi

    )=

    ni=1

    Var (Xi) si Xi son independientes.

    El cociente de correlacin se define en trminos de la covarianza:

    Definicin: Si X e Y son variables aleatorias distribuidas conjuntamente y las varianzas y cova-rianzas de ambas X e Y existen y las varianzas de ambas X e Y son no nulas, entonces el cocientede correlacin de X e Y , denotado por es:

    =Cov (X, Y )

    Var (X)Var (Y )=

    XYXY

    Puede notarse que el cociente ser adimensional. Se sigue de forma sencilla que ante transforma-ciones lineales de X e Y el cociente de correlacin no cambia. Como no depende de las unidades demedicin y no discrimina las transformaciones lineales que se le puedan efectuar a las variables, elcociente de correlacin es en muchos casos una medida til de asociacin, ms que la covarianza.

    Teorema: 1 1. Adicionalmente, = 1 si y solo si P (Y = a+ bX) = 1 para algunasconstantes a y b.

    Demostracin:

    Como la varianza de una variable aleatoria es no negativa:

    0 Var(X

    X+

    Y

    Y

    )= Var

    (X

    X

    )+ Var

    (Y

    Y

    )+ 2Cov

    (X

    X,Y

    Y

    )=

    Var (X)2X

    +Var (Y )2Y

    +2Cov (X, Y )

    XY= 2 (1 + )

    34

  • de donde se observa que 1. Similarmente, se puede demostrar que:

    0 Var(X

    X YY

    )= 2 (1 ) 1

    Supongamos que = 1, entonces:

    Var(X

    X YY

    )= 0 P

    (X

    X YY

    = c

    )= 1

    para alguna constante c. Por lo tanto, P (Y = a+ bX) = 1 para algunos a y b, y de forma anlogapara = 1. Ejemplo La distribucin normal bivariada, de parmetros X , Y , X , Y y tiene comofuncin de densidad:

    f (x, y) =1

    2piXY

    1 2exp

    ( 1

    2 (1 2)

    [(x X)2

    2X+

    (y Y )22Y

    2 (x X) (y Y )XY

    ])

    Demostraremos que la covarianza de la distribucin viene dada por XY .

    Solucin:Por definicin, la covarianza es:

    Cov (X, Y ) =

    (x X) (y Y ) f (x, y) dxdy

    Haciendo el cambio de variables u = (x X) /X y v = (y Y ) /Y se tiene que dxdy =XY dudv y por lo tanto:

    Cov (X, Y ) =XY

    2pi

    1 2

    uv exp[u

    2 + v2 2uv2 (1 2)

    ]dudv

    Aplicando la tcnica de completacin de cuadrados se tendr que toda esta expresin esequivalente a:

    XY

    2pi

    1 2

    v exp(v2/2){

    u exp

    [(u v)22 (1 )2

    ]du

    }dv

    La integral interior es la media de una variable aleatoria que distribuye normal de parmetros

    = v y = (1 2) salvo la constante 1/

    2pi (1 )2, por lo que toda la expresin es igual

    35

  • a:

    Cov (X, Y ) =XY

    2pi

    v2ev2/2dv = 2

    XY2pi

    0

    v2ev2/2dv

    = 2XY

    2pi

    0

    2t etdt =

    2piXY

    (3

    2

    )

    =2piXY

    (3

    2

    )=

    2piXY

    1

    2

    pi

    (1

    2

    )Finalmente,

    Cov (X, Y ) = XY

    Esto implica que el coeficiente de correlacin es (coincidente con el parmetro de la distri-bucin) para la distribucin normal bivariada.

    El coeficiente de correlacin mide la fuerza de una relacin lineal entre X e Y . La correlacintambin afecta a la apariencia del grfico de muestras en el plano coordenado, construido al generarpares de variables independientes (Xi, Yi). En la siguiente figura se puede observar el coeficientede correlacin para distintos tipos de variables aleatorias con ciertos grados de independencia:

    146 Chapter 4 Expected Values

    As in Example F in Section 3.3, we use the technique of completing the square torewrite this expression as

    XY

    2

    1 2

    v exp(v2/2)(

    u exp

    [ 1

    2(1 2) (u v)2]

    du)

    dv

    The inner integral is the mean of an N [v, (1 2)] random variable, lacking onlythe normalizing constant [2(1 2)]1/2, and we thus have

    Cov(X, Y ) = XY2

    v2ev2/2dv = XY

    as was to be shown.

    The correlation coefficient measures the strength of the linear relationshipbetween X and Y (compare with Figure 3.9). Correlation also affects the appearanceof a scatterplot, which is constructed by generating n independent pairs (Xi , Yi ),where i = 1, . . . , n, and plotting the points. Figure 4.7 shows scatterplots of 100pairs of pseudorandom bivariate normal random variables for various values of .Note that the clouds of points are roughly elliptical in shape.

    1

    !3!2

    !1

    0

    2

    3

    !2(a)!1 0 1 2 3 4

    x

    y

    1

    !3!2

    !1

    0

    2

    3

    !2(b)

    !1 0 1 2 3 4x

    x

    y

    1

    !3!2!1

    0

    23

    !2(c)!1 0 1 2 3 4

    x

    y

    4

    1

    !3!2!1

    0

    23

    !2(d)!1 0 1 2 3 4

    y

    4

    F I GUR E 4.7 Scatterplots of 100 independent pairs of bivariate normal randomvariables, (a) = 0, (b) = .3, (c) = .6, (d) = .9.Figura 4.1: (a) = 0, (b) = 0,3, (c) = 0,6, (d) = 0,9.

    36

  • 4.4. Esperanza condicional y prediccin

    4.4.1. Definiciones

    Siempre asociada a una distribucin condicional hay asociada una esperanza condicional.

    Definicin: Supongamos que Y y X son variables discretas aleatorias y que la funcin defrecuencia condicional de Y es pY |X (y|x). La esperanza condicional de Y dado X = x es:

    E (Y |X = x) 4=y

    ypY |X (y|x)

    Para el caso continuo, se tiene que:

    E (Y |X = x) 4=yfY |X (y|x) dy

    Y en el caso ms general, la esperanza condicional de la funcin h (Y ) es:

    E [h (Y ) |X = x] 4=

    h (y) fY |X (y|x) dy

    Asumiendo que la esperanza condicional de Y |X existe para cada x en el rango de X, es unafuncin bien definida de X y por lo tanto una variable aleatoria, que escribimos como E (Y |X) ypor lo tanto, puede existir su esperanza, E [E (Y |X)].Teorema: E (Y ) = E [E (Y |X)].Demostracin:

    Se probar para el caso continuo. Tenemos que demostrar que:

    E (Y ) =

    E (Y |X = x) pX (x) dx

    =

    ypY |X (y|x) pX (x) dydx

    =

    y

    (

    pY |X (y|x) pX (x) dx)

    pY (y)

    dy

    =

    ypY (y) dy

    lo cual es cierto pues es la definicin de esperanza. El tercer paso se dio utilizando la ley deprobabilidades totales.

    37

  • Ejemplo Consideremos las sumas del tipoT =

    Ni=1

    Xi

    donde N es una variable aleatoria con esperanza finita y Xi son variables alea-torias que son independientes de N y tienen esperanza comn X . CalcularE (T ).

    Solucin:Se tiene que:

    E (T ) = E [E (T |N)]Se tiene que E (T |N = n) = nX E (T |N) = NX . Entonces,

    E (T ) = E (NX) = NX

    Teorema: Var (Y ) = Var [E (Y |X)] + E [Var (Y |X)].

    Ejemplo Continuando el ejemplo anterior, asumamos tambin que Xi son variables inde-pendientes con la misma media X y varianza 2X . Calcular Var (T ). Solucin:Se tiene que:

    Var (T ) = Var [E (T |N)] + E [Var (T |N)]Se tiene que E (T |N) = NX y

    Var (T |N) = Var(

    Ni=1

    Xi

    )

    Como las variables son independientes, desaparecen los trminos asociados a las covarianzas,de modo que:

    Var (T |N) = Var(

    Ni=1

    Xi

    )=

    Ni=1

    2X = N2X

    Luego, reemplazando,

    Var (T ) = Var (NX) + E(N2X

    )= 2XVar (N) +

    2XN

    38

  • 4.4.2. Prediccin

    En esa seccin se trata el problema de predecir el valor de una variable aleatoria a partir de otra,tal como se podra desear, por ejemplo, al medir una variable fsica utilizando un instrumento.Asumamos que las mediciones deben medirse a travs de un instrumento que produce una respuestaX, relacionada con Y de cierta forma pero corrompida por ruido aleatorio. Y y X tienen unadistribucin conjunta, y deseamos predecir la variable Y a partir de la respuesta del instrumentoX.

    Partamos de la situacin trivial: deseamos predecir Y por una constante c, donde el mejor valorde c debe ser obtenido a partir de la medicin de la efectividad de la prediccin. Una medicinampliamente utilizada es el error cuadrtico medio:

    MSE = E[(Y c)2]

    El problema consiste en encontrar c que minimice el MSE. Denotemos E (Y ) por y observemosque:

    E (Y c)2 = Var (Y c) + E2 (Y c)= Var (Y ) + ( c)2

    El primer trmino es constante y el segundo se minimiza tomando = c.

    Consideremos ahora el problema de predecir Y por una funcin h (X) de modo de minimizarMSE = E2 [Y h (X)]. Se tiene entonces que:

    E2 [Y h (X)] = E{E [(Y h(X))2 |X]}La esperanza de adentro se minimiza haciendo h(x) = E (Y |X = x) de acuerdo al resultado obte-nido en la parte anterior. Entonces,

    h (X) = E (Y |X)

    4.5. La funcin generadora de momentos

    Definicin: La funcin generadora de momentos de una variable aleatoria X es M(t) = E(etX)

    si esta est definida. En el caso discreto,

    M (t) =x

    etxp (X) ,

    y en el caso continuo

    M (t) =

    etxf (x) dx.

    39

  • Proposicin: Si la funcin generadora de momentos existe en un intervalo abierto conteniendo alcero, entonces

    M (r) (0) = E (Xr)

    donde (r) representa r veces la derivacin con respecto a t.

    Demostracin:

    Asumiendo alternancia de operadores, se tiene que:

    dr

    dtr

    etxf (x) dx =

    f (x)

    (dr

    dtretx)dx

    =

    f (x)xretxdx

    Haciendo t = 0:M (r) (0) =

    xrf (x) dx 4= E (Xr)

    Teniendo calculada explcitamente la funcin generadora de momentos, puede calcularse de formarpida cualquier momento central. A modo de ejemplo,

    Var (X) = E(X2) 2X = M (2) (0) [M (0)]2

    Esta es la utilidad prctica de la funcin generadora de momentos.

    Proposicin: Si X tiene la funcin generadora de momentos MX (t) e Y = a + bX, entonces Ytiene la funcin generadora de momentos MY (t) = eatMX (bt).

    Demostracin:

    Se tiene que:

    MY (t) = E(etY)

    = E(eat+btX

    )= eatE

    (ebtX

    )= eatMX (bt)

    Proposicin: Si X e Y son variables aleatorias independientes con funciones generadoras demomentos MX y MY y Z = X + Y , entonces MZ (t) = MX (t)MY (t) en el intervalo comn dondeambas funciones generadoras de momentos existen.

    Por induccin esta propiedad puede extenderse a la suma de una cantidad arbitraria de variablesaleatorias independientes. Esta propiedad es muy til en las funciones generadoras de momentos.

    40

  • 4.5.1. Clculo de funciones generadoras de momentos

    A continuacin calcularemos la funcin generadora de momentos para algunas distribuciones deinters:

    Distribucin Poisson. En la distribucin Poisson, se tiene por definicin que:

    M (t) =k=0

    etkk

    k!e

    = ek=0

    (et)k

    k!

    = e(et1)

    Se tiene entonces que:M (0) = 1 lo esperable!

    M (t) = ete(et1) M (0) = E (X) =

    M (t) = ete(et1) + 2e2te(e

    t1) M (t) = E (X2) = 2 + Luego, se sigue que:

    Var (X) = E(X2) E (X) =

    Distribucin normal. Se tiene que:

    M (t) =1

    2pi

    etxe(x)222 dx

    Notamos que:

    tx (x )2

    22= x

    2 2x+ 2 22tx22

    = x2 2 (+ 2t)x+ (2 + 22t+ 4t2) (22t+ 4t2)

    22

    = (x 2t)

    2

    22+t (2+ t2)

    2

    Es decir,

    M (t) = et(2+t2)

    21

    2pi

    e(x2t)

    2

    22 dx = et(2+t2)

    2

    De aqu:M (0) = 1

    M (0) = E (X) =

    M (0) = + 2 Var (X) = 2Se puede haber obtenido el mismo resultado notando que Y = + X y calculando elresultado para la distribucin normal estndar, mucho ms sencilla de calcular.

    41

  • Distribucin Gamma. Por definicin:

    M (t) =

    0

    etx

    ()x1exdx =

    ()

    0

    x1ex(t)dx ()/(t)

    Luego,

    M(t) =

    (

    t)

    Se puede demostrar as que:

    M (0) = E (X) =

    M (0) = E(X2)

    = ( + 1)

    2 Var (X) =

    2

    Suma de variables Poisson. Si X Poisson () e Y Poisson (), entonces:

    MX+Y (t) = MX (t)MY (t) = e(et1)e(e

    t1) = e(+)(et1)

    Es decir, X + Y Poisson (+ ) .

    Suma de variables normales. Si X N (, 2) y X N (, 2), entonces:

    MX+Y (t) = et+t22/2et+t

    22/2 = e(+)t+t2(2+2)/2

    Es decir, X + Y N (+ , 2 + 2)Suma de variables Gamma. Si X (, 1) e Y (, 2), entonces:

    MX+Y (t) =

    (

    t)1 (

    t)2

    =

    (

    t)1+2

    donde t < . Luego, X + Y (, 1 + 2) . Si 1 = 2 = 1 (en cuyo caso las distribucionesgamma tambin son exponenciales), entonces se deduce que la suma de n exponenciales deparmetro resulta en una distribucin Gamma de parmetros y n.

    42

  • 5. Teoremas de los lmites

    En este captulo se estudia el comportamiento en el lmite de la suma de variables aleatoriasindependientes cuando el nmero de sumandos se vuelve grande. Los resultados presentados aquson tanto interesante como tiles en estadstica, debido a que la mayora de cantidades estadsticascomnmente calculadas, tales como promedios, pueden ser representadas como sumas.

    5.1. La ley de nmeros grandes

    Es habitual pensar que si una moneda se lanza muchas veces y se calcula la proporcin entrecaras y sellos, la proporcin ser cercana a 1/2. John Kerrich, un matemtico sudafricano probesta creencia empricamente mientras fue un prisionero de la Segunda Guerra mundial. Lanz lamoneda 10.000 veces y observ 5.067 caras.

    La ley de nmeros grandes es una formulacin matemtica de esta creencia. Los lanzamientossucesivos de monedas son modelados como intentos aleatorios independientes. La variable aleatoriaXi toma el valor 0 o 1 de acuerdo a los resultados del intento isimo en una cara o un sello, y laproporcin de caras y sellos en n intentos es:

    Xn =1

    n

    ni=1

    Xi

    La ley de nmeros grandes plantea que Xn tiende a 1/2 tal como se plantea en el siguiente teorema:

    Teorema: (Ley de nmeros grandes) Sean X1, X2, . . ., Xi una secuencia de variable aleatoriasindependientes con E (Xi) = y Var (Xi) = 2. Dado Xn definido anteriormente, se tiene quepara todo > 0:

    lmn

    P(|Xn | > ) = 0

    Demostracin:

    Primero encontramos E(Xn)y Var

    (Xn):

    E(Xn)

    =1

    n

    ni=1

    E (Xi) =

    Como Xi son independientes:

    Var(Xn)

    =1

    n2

    ni=1

    Var (Xi) =2

    n

    De acuerdo a la desigualdad de Chebyhshev:

    0 P (|Xn | > ) 2n2

    43

  • Haciendo n se cumple el teorema del sndwich y por lo tanto:lmn

    P(|Xn | > ) = 0

    Si una secuencia de variables aleatorias Zn es tal que

    lmn

    P (|Zn | > ) = 0

    para todo > 0 y donde es un escalar, entonces se dice que Zn converge en probabilidad a .

    Ejemplo Integracin Monte Carlo. Supongamos que se desea calcularI (f) =

    10

    f (x) dx

    donde no se puede determinar la primitiva o utilizar una tabla de integrales.Introduzcamos el mtodo de integracin Monte Carlo.

    Solucin:El mtodo ms comn es aproximar la integral mediante una suma y otro mtodo es el mtodode Monte Carlo. Se generan variables aleatorias uniformes en [0, 1]X1, X2, . . . , Xn para calcular

    I (f) =1

    n

    ni=1

    f (Xi)

    Por la ley de nmeros grandes, esto debe ser cercano a E [f (X)] que en este caso no es msque

    E [f (X)] = 1

    0

    f (x) dx = I (f)

    Ejemplo Mediciones repetitivas. Supongamos que repetidas mediciones no sesgadasX1, X2, . . . , Xn se hacen sobre una cantidad. Si n es grande, entonces de acuerdoa la ley de nmeros grandes se tendr que X ser cercano a , pero qu tancercano depende del error de medicin 2, tal como se pudo observar en lamedicin del teorema?

    Solucin:Afortunadamente, 2 puede ser estimado y por lo tanto

    Var(X)

    =2

    n

    44

  • puede ser estimado de los datos para estimar la precisin de X. Primero, notamos que

    1

    n

    ni=1

    X2i E(X2)

    de acuerdo a la ley de nmeros grnades. Se puede demostrar asimismo que si Zn converge enprobabilidad a y g es una funcin continua, entonces

    g (Zn) g ()

    lo cual implica que:X

    2 E2 (X)Se puede demostrar entonces que:

    lmn

    1

    n

    ni=1

    X2i X2 = E(X2) E2 (X) = Var (X)

    Se puede demostrar a modo general que:

    lmn

    1

    n

    ni=1

    Xri = E (Xr)

    5.2. Convergencia en la distribucin y el teorema del lmite central

    En muchas ocasiones deseamos calcular P (a < X < b) pero no sabemos la cdf X precisamente yse puede hacer en ocasiones aproximando FX mediante un argumento asinttico. El teorema dellmite ms famoso en teora de probabilidades es el teorema del lmite central. Antes de examinarlo,se desarrollar terminologa introductoria, teora y ejemplos.

    Definicin: Sean X1, X2, . . . , Xn una secuencia de variables aleatorias con funciones de distribu-cin acumulada F1, . . . , Fn y sea X una variable aleatoria con funcin de distribucin F. Decimosque Xn converge en distribucin a X si:

    lmn

    Fn (x) = F (x)

    en cada punto en que F es continua.

    Teorema. Teorema de continuidad. Sea Fn una sucesin de funciones de distribucin acumuladascon la correspondiente funcin generadora de momentos Mn, de modo que:

    Mn (t) = E(etXn

    )Sea F la funcin de distribucin acumulada con la funcin generadora de momentos M . SiMn (t) M(t) para todo t en un intervalo abierto conteniendo al cero, entonces Fn (x) F (x).

    45

  • Nos enfocaremos ahora en el teorema del lmite central, el cual se preocupa de la propiedadasinttica de sumas de variables aleatorias. SiX1, X2, . . . , Xn es una sucesin de variables aleatoriasindependientes con media y varianza 2 y si

    Sn =ni=1

    Xi

    Sabemos por la ley de nmeros grandes que Sn/n converge en probabilidad a . Esto se sigue porel hecho de que:

    Var(Snn

    )=

    1

    n2Var (Sn) =

    2

    n 0

    El teorema del lmite central se preocupa no del hecho de que Sn/n converge a este cociente si nocmo Sn/n flucta cerca de . Para analizar estas situaciones estandarizaremos:

    Zn =Sn nn

    donde Zn tiene esperanza 0 y varianza 1, como es fcil de notar:

    E (Zn) =1

    n

    [E (Sn) n] = n nn

    = 0

    Var (Zn) =Var (Sn)n2

    = 1

    El teorema del lmite central plantea que la distribucin de Zn converge a la distribucin normalestndar.

    Teorema. (Teorema del lmite central) Sean X1, X2, . . . , Xn una secuencia de variables aleatoriasindependientes teniendo cada una de ellas media 0 y varianza 2 y la funcin de distribucin comnF y la funcin generadora de momentos M definida en una vecindad de cero. Sea

    Sn =ni=1

    Xi

    Entonces,

    lmn

    P

    (Snn x

    )= (x) ; < x

  • Se tiene por propiedades de la funcin generadora de momentos que:

    MSn (t) = Mn (t) MZn (t) = Mn

    (t

    n

    )Luego, M (s) puede expandirse en Taylor en torno al origen con un polinomio de orden 2. Este esel hecho central de la demostracin:

    M (s) M (0) + sM (0) + s2

    2M (0)

    Como M (0) =f(x)dx = 1, M (0) = 0 y M (0) = 2, entoncess cuando n t/(n) 0

    y por lo tanto:

    M

    (t

    n

    )= 1 +

    1

    22(

    t

    n

    )2+ n

    = 1 +t2

    2n+ n

    donden

    t2/n2 0 cuando n . Reemplazando, se tendr que:

    MZn (t) (

    1 +t2

    2n

    )nLuego, cuando n se tiene que este lmite converge a la exponencial:

    lmn

    MZn (t) = et2/2

    donde et2/2 es la funcin generadora de momentos de la distribucin normal estndar, justo comoque sera demostrar y concluyendo as la demostracin del teorema. Notar que este teorema exigeque exista como mnimo la segunda derivada de la funcin generadora de momentos.

    Ejemplo Como la distribucin uniforme en [0, 1] tiene media 1/2 y varianza 1/12, la sumade 12 variables aleatorias uniformes, menos 6, tiene media 0 y varianza 1. Ladistribucin de esta suma es muy cercana a la normal, tan cercana que fue unode los algoritmos iniciales para generar nmeros aleatorios normales antes deque existieran algoritmos ms sofisticados.

    Solucin:La siguiente figura muestra un histograma con 1000 de dichas sumas de 12 nmeros aleatoriosentre 0 y 1. El ajuste a la distribucin normal es sorprendentemente correcto, especialmenteconsiderando que 12 es un nmero pequeo para considerar que n tiende a infinito:

    47

  • 5.3 Convergence in Distribution and the Central Limit Theorem 185

    could modify the proof so that it would only be necessary that first and second mo-ments exist. Further generalizations weaken the assumption that the Xi have the samedistribution and apply to linear combinations of independent random variables. Cen-tral limit theorems have also been proved that weaken the independence assumptionand allow the Xi to be dependent but not too dependent.

    For practical purposes, especially for statistics, the limiting result in itself is not ofprimary interest. Statisticians are more interested in its use as an approximation withfinite values of n. It is impossible to give a concise and definitive statement of howgood the approximation is, but some general guidelines are available, and examiningspecial cases can give insight. How fast the approximation becomes good dependson the distribution of the summands, the Xi . If the distribution is fairly symmetricand has tails that die off rapidly, the approximation becomes good for relatively smallvalues of n. If the distribution is very skewed or if the tails die down very slowly, alarger value of n is needed for a good approximation. The following examples dealwith two special cases.

    E X A M P L E C Because the uniform distribution on [0, 1] has mean 12 and variance 112 , the sum of12 uniform random variables, minus 6, has mean 0 and variance 1. The distributionof this sum is quite close to normal; in fact, before better algorithms were developed,it was commonly used in computers for generating normal random variables fromuniform ones. It is possible to compare the real and approximate distributions analyt-ically, but we will content ourselves with a simple demonstration. Figure 5.1 showsa histogram of 1000 such sums with a superimposed normal density function. The fitis surprisingly good, especially considering that 12 is not usually regarded as a largevalue of n.

    0

    50

    Coun

    t

    100

    150

    200

    250

    !2 0 2 4Value

    !4 6

    F I GUR E 5.1 A histogram of 1000 values, each of which is the sum of 12 uniform[ 12 , 12 ] pseudorandom variables, with an approximating standard normal density.

    Figura 5.1: Histograma de 1000 valores, en que cada uno es la suma de 12 variables aleatoriasentre 0 y 1 menos 6, comparado con la densidad normal estndar.

    Ejemplo La suma de n variables exponenciales aleatorias con parmetro = 1 sigue unadistribucin gamma con =1 y = n. La siguiente figura muestra la cdf dela funcin gamma estandarizada y la cdf de la funcin normal estandarizada amedida que n aumenta. Se comprueba cmo a medida que se aumenta n (y porlo tanto ) las distribuciones comienzan a parecerse.

    Solucin:

    48

  • 186 Chapter 5 Limit Theorems

    E X A M P L E D The sum of n independent exponential random variables with parameter = 1follows a gamma distribution with = 1 and = n (Example F in Section 4.5). Theexponential density is quite skewed; therefore, a good approximation of a standardizedgamma by a standardized normal would not be expected for small n. Figure 5.2 showsthe cdfs of the standard normal and standardized gamma distributions for increasingvalues of n. Note how the approximation improves as n increases.

    0

    .2

    0 1

    Cum

    ulat

    ive

    prob

    abili

    ty

    x

    .4

    .6

    .8

    1.0

    !3 !2 !1 2 3

    F I GUR E 5.2 The standard normal cdf (solid line) and the cdfs of standardizedgamma distributions with = 5 (long dashes), = 10 (short dashes), and = 30 (dots).

    Let us now consider some applications of the central limit theorem.

    E X A M P L E E Measurement ErrorSuppose that X1, . . . , Xn are repeated, independent measurements of a quantity, ,and that E(Xi ) = and Var(Xi ) = 2. The average of the measurements, X , isused as an estimate of . The law of large numbers tells us that X converges to in probability, so we can hope that X is close to if n is large. Chebyshevsinequality allows us to bound the probability of an error of a given size, but thecentral limit theorem gives a much sharper approximation to the actual error. Supposethat we wish to find P(|X | < c) for some constant c. To use the central limittheorem to approximate this probability, we first standardize, using E(X) = andVar(X) = 2/n:

    P(|X | < c) = P(c < X < c)

    = P( c/

    n