textoest218
DESCRIPTION
EstadisticaTRANSCRIPT
-
PONTIFICIA UNIVERSIDAD CATOLICA DEL PERU
ESTADISTICAPARA INGENIERIA
Autor:
Dr. Cristian Bayes
Lima, Marzo 2014
-
Bayes, C.
ii
-
Indice general
1. Organizacion y resumen de datos 1
1.1. Conceptos basicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Organizacion de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3. Medidas de Tendencia Central . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4. Medidas de Dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.5. Medidas de Forma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.6. Graficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.7. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2. Probabilidad 19
2.1. Conceptos basicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2. Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.3. Calculo de probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.4. Conteo de puntos muestrales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.5. Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.6. Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.7. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3. Variable Aleatoria 35
3.1. Conceptos basicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.2. Variable Aleatoria Discreta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.3. Variable Aleatoria Continua . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.4. Otras propiedades de valor esperado . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.5. Funcion de una variable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4. Distribuciones de probabilidad 51
4.1. Distribuciones Discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.1.1. Distribucion Hipergeometrica . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.1.2. Distribucion de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.1.3. Distribucion Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.1.4. Distribucion Geometrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.1.5. Distribucion Binomial Negativa . . . . . . . . . . . . . . . . . . . . . . . . 56
4.1.6. Distribucion de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.2. Distribuciones Continuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
iii
-
Bayes, C. INDICE GENERAL
4.2.1. Distribucion Exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.2.2. Distribucion Gama . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.2.3. Distribucion Uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.2.4. Distribucion Beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.2.5. Distribucion Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.2.6. Distribucion Log-Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.2.7. Distribucion Weibull . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.2.8. Distribuciones de Valor Extremo . . . . . . . . . . . . . . . . . . . . . . . 62
4.2.9. Distribucion de Valor Extremo tipo I . . . . . . . . . . . . . . . . . . . . . 63
4.2.10. Distribucion de Valor Extremo tipo II . . . . . . . . . . . . . . . . . . . . 63
4.3. Distribuciones Muestrales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.3.1. Distribucion Chi-cuadrado . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.3.2. Distribucion t de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.3.3. Distribucion F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
5. Inferencia Estadstica 67
5.1. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
Bibliografa 71
iv
-
Captulo 1
Organizacion y resumen de datos
1.1. Conceptos basicos
Estadstica
Es un conjunto de metodos cientficos para la recoleccion, organizacion, analisis e interpretacion
de datos con la finalidad de realizar conclusiones y toma de decisiones validas.
Usualmente se divide en:
Estadstica Descriptiva: El objetivo de la estadstica descriptiva es resumir las prin-
cipales caractersticas de un conjunto de datos a traves de tablas, graficos y medidas
numericas.
Estadstica Inferencial: Se encarga del analisis de los datos con el proposito de realizar
conclusiones validas acerca de la poblacion de donde originalmente se recolectaron estos
datos. La Estadstica inferencial esta basada en la teora de probabilidades.
Poblacion
Es un conjunto de elementos que poseen al menos un atributo en comun, sobre los cuales se
desea investigar una o mas caractersticas. El numero de elementos que conforman una poblacion
sera denotado por la letra N .
Ejemplo 1.1.
Son ejemplos de poblacion:
Las bolsas de cemento producidas en un da por una fabrica.
Los hogares de una region.
Caudal de un ro.
Muestra
Es un subconjunto de la poblacion. El numero de elementos que conforman una muestra sera de-
notado por la letra n. Se dira que una muestra es aleatoria si sus elementos han sido seleccionados
mediante un procedimiento probabilstico.
Ejemplo 1.2.
Son ejemplos de una muestra:
50 bolsas de cemento seleccionadas de la produccion de un da de una fabrica.
1
-
Bayes, C. CAPITULO 1. ORGANIZACION Y RESUMEN DE DATOS
400 hogares seleccionados de una region.
20 mediciones del volumen anual de un ro.
Variable
Es el resultado de una medicion o una caracterstica en los elementos de la poblacion. Una
variable suele ser denotada por una letra mayuscula, por ejemplo: X, Y , Z.
Ejemplo 1.3.
Son ejemplos de variable:
X = Peso de una bolsa de cemento de la produccion de un da de una fabrica.
Y = Ingreso mensual de un hogar de una region.
Z = Nivel socioeconomico de un hogar de una region.
se denominara como dato al valor que toma una variable en un elemento de la poblacion. Un
conjunto de n datos de una variable X se suele denotar como x1, x2, ..., xn.
Ejemplo 1.4.
Considerando las variables dadas en el Ejemplo 1.3 son ejemplos de datos:
x1 = 42.5, x2 = 42.3, x3 = 42.7, x4 = 42.9, x5 = 41.9, tenemos n = 5 datos
y1 = 5400, y2 = 2300, y3 = 3000, y4 = 4370, tenemos n = 4 datos
z1 = B, z2 = A, z3 = B, z4 = B, z5 = B, z6 = C, tenemos n = 6 datos
Las variables se pueden clasificar en
Variables cuantitativas: Es una variable que toma valores numericos, por lo tanto se
pueden realizar operaciones aritmeticas con ella. Se dividen en
Discretas: son aquellas variables que pueden tomar un numero enumerable de va-lores que puede ser finito o infinito. Usualmente se consideran numeros enteros.
Continuas: son aquellas variables que pueden asumir cualquier valor dentro de unintervalo de valores, por lo que pueden tomar un numero no enumerable de valores.
Variables cualitativas: Es una variable que no toman valores numericos al contrario
son definidas por varias categoras que representan una clasificacion de los elementos de
una poblacion. Aun cuando estas categoras puedan ser representadas por numeros no es
posible realizar operaciones aritmeticas con ellos. Las variables cualitativas se denominan:
Nominal: cuando no existe ningun orden entre las categoras. Ordinal: cuando existe un orden entre las categoras.
Ejemplo 1.5.
Clasifique las variables dadas en el Ejemplo 1.3.
2
-
Bayes, C. 1.2. ORGANIZACION DE DATOS
Parametro
Es una medida que describe a una poblacion. Un parametro resume la informacion de una po-
blacion por lo tanto su valor es unico y generalmente es desconocido, usualmente es un valor que
deseamos conocer. Un parametro suele ser denotado por una letra griega, por ejemplo: para
la media, 2 para la varianza, para una proporcion, no necesariamente se sigue esta notacion
para el mnimo y el maximo se suele usar Mn y Max.
Estadstica
Es una medida que describe a una muestra, se puede definir tambien como una funcion de las
observaciones de la muestra que no depende de ningun parametro. Seguiremos la siguiente no-
tacion para los siguientes estadsticas: X para la media muestral, S2 para la variancia muestral,
p para la proporcion muestral, mn para el valor mnimo y max para el valor maximo de una
muestra.
Estimador
Es una estadstica que es utilizada para estimar el valor de un parametro.
Estimacion
Es el valor que se obtiene para un estimador para una muestra dada.
Ejemplo 1.6.
Considerando como poblacion los hogares de una cierta region y como variable el ingreso de
estos hogares, podemos definir como parametro = ingreso promedio de un hogar de esta
region, como estimador de este parametro podemos utilizar a X la media muestral, que para
los datos del Ejemplo 1.4 nos da la siguiente estimacion X = 3767.5.
1.2. Organizacion de datos
Tabla de frecuencias
Variable cualitativa
Cuando la variable en estudio es cualitativa, una tabla de frecuencias estara constituida por
una lista de las posibles categoras acompanadas por el numero de veces que ocurre cada una
de ellas. En este caso asumiremos que la variable tiene k categoras diferentes y consideraremos
la siguiente notacion
nj : la frecuencia o numero de veces que ocurre la categora j.
fj : la frecuencia relativa de la categora j, calculada como fj = nj/n, siendo n el numero
total de datos.
pj : el porcentaje de la categora j, calculado como pj = 100 fj .
Es claro que se cumple que
kj=1
nj = n,
kj=1
fj = 1 y
kj=1
pj = 100 %. La informacion contenida
en la tabla de frecuencias puede ser representada a traves de graficos como:
3
-
Bayes, C. CAPITULO 1. ORGANIZACION Y RESUMEN DE DATOS
Grafico de barras: a cada categora se la representa por una barra cuya altura es proporcio-
nal a la frecuencia con que ocurre. En este tipo de graficos se suele dejar un espacio entre
las barras para indicar que se esta presentando informacion de una variable cualitativa.
Grafico de sectores circulares: a cada categora se la representa por un sector del crculo
proporcional a la frecuencia con que ocurre.
Ejemplo 1.7.
Durante un mes se monitoreo el estado de la calidad del aire en una ciudad, estos fueron los
resultados:
Bueno Moderado Bueno Malo Moderado Malo
Malo Moderado Malo Malo Malo Moderado
Moderado Moderado Moderado Malo Muy Malo Malo
Moderado Moderado Malo Moderado Moderado Malo
Malo Moderado Moderado Bueno Moderado Malo
La variable estado de la calidad del aire tiene las siguiente categoras: Bueno, Moderado, Malo
y Muy Malo. Una vez que hemos identificado las categoras pasamos a construir la tabla de
frecuencias:
j Categoras Frecuencia Frecuencia relativa Porcentaje
nj fj pj
1 Bueno 3 0.10 10
2 Moderado 14 0.47 47
3 Malo 12 0.40 40
4 Muy Malo 1 0.03 3
Total 30 1.00 100
La informacion contenida en esta tabla se presenta en forma grafica en la Figura 1.1.
Variable cuantitativa discreta
Cuando la variable en estudio es cuantitativa discreta, una tabla de frecuencias estara cons-
tituida por una lista de las posibles valores que puede tomar la variable acompanadas por el
numero de veces que ocurre cada uno de estos valores. En este caso asumiremos que la variable
X tiene k valores distintos x1, ..., xk y consideraremos la siguiente notacion
nj : la frecuencia o numero de veces que ocurre el valor xj .
fj : la frecuencia relativa del valor xj , calculada como fj = nj/n, siendo n el numero total
de datos.
pj : el porcentaje del valor xj , calculado como pj = 100 fj .
Esta tabla de frecuencias suele ser resumida a traves de:
Grafico de bastones: a cada valor posible xj se la representa por una lnea vertical cuya
altura es proporcional a la frecuencia con que ocurre.
4
-
Bayes, C. 1.2. ORGANIZACION DE DATOS
Bueno Moderado Malo Muy Malo
0.0
0.1
0.2
0.3
0.4
Bueno10%
Moderado47%
Malo40%
Muy Malo3%
Figura 1.1: Grafico de Barras y de Sectores circulares
Ejemplo 1.8.
En un cierto distrito durante un mes se registro el numero de accidentes de transito por da,
estos fueron los resultados:
1 2 0 3 1 0 1 0 4 2
1 1 2 0 1 1 0 3 1 1
0 2 1 0 4 0 1 2 2 2
La variable numero de accidentes de transito por da en un distrito puede tomar los siguientes
valores: 0, 1, 2, 3 y 4. A continuacion presentamos la tabla de frecuencias para este conjunto de
datos
Numero de Frecuencia Frecuencia relativa Porcentaje
accidentes nj fj pj
0 8 0.27 27
1 11 0.37 37
2 7 0.23 23
3 2 0.07 7
4 2 0.07 7
Total 30 1.00 100
La informacion contenida en esta tabla se presenta en forma grafica en la Figura 1.2.
Variable cuantitativa continua
Cuando la variable en estudio es cuantitativa continua, para construir una tabla de frecuencias se
agrupan las observaciones en clases y se consideran las frecuencias en cada clase. Consideraremos
las clases como intervalos de igual amplitud, podemos seguir el siguiente procedimiento:
5
-
Bayes, C. CAPITULO 1. ORGANIZACION Y RESUMEN DE DATOS
0.0
0.1
0.2
0.3
Nmero de accidentes
Frec
uenc
ia re
lativ
a
0 1 2 3 4
l
l
l
l l
Figura 1.2: Grafico de bastones
Establecer el numero de clases k, usualmente se consideran entre 5 y 10 intervalos, es-
ta es una decision subjetiva se puede escoger cualquier valor que consideremos permita
representar adecuadamente a los datos. Una sugerencia es seguir la regla de Sturges:
k = 1 + 3.3log10(n).
Determinar la amplitud de los datos, A = maxmn.
Determinar el tamano de la clase, c =A
k. Se debe redondear por exceso al numero de
decimales que tengan los datos.
Usar c para construir los intervalos de cada clase, en este caso se considera que los intervalos
son cerrados por la izquierda y abiertos por la derecha, con excepcion del ultimo que es
cerrado en ambos lados.
Construir la tabla, calculando la frecuencia de cada clase.
Usualmente se considera la siguiente notacion
xj : marca de clase, el punto medio del intervalo de clase.
nj : la frecuencia de la clase j.
fj : la frecuencia relativa de la clase j, calculada como fj = nj/n, siendo n el numero total
de datos.
pj : el porcentaje de la clase j, calculado como pj = 100 fj .
6
-
Bayes, C. 1.2. ORGANIZACION DE DATOS
Nj : la frecuencia acumulada de la clase j, calculada como Nj =
jh=1
nh.
Fj : la frecuencia relativa acumulada de la clase j, calculada como Fj =
jh=1
Fh.
Pj : el porcentaje acumulado de la clase j, calculada como Pj =
jh=1
ph.
Esta tabla de frecuencias suele ser resumida a traves de:
Histograma: a cada clase se la representa por una barra cuya altura es proporcional a
la frecuencia con que ocurre. En este tipo de graficos no se debe dejar espacios entre
las barras para indicar que se esta presentando informacion de una variable cuantitativa
continua.
Polgono de frecuencias: Se unen los puntos medios de cada barra del histograma.
Grafico de frecuencias acumuladas: Se utiliza las frecuencias acumuladas y los limites
superiores de cada intervalo de clase para la construccion este grafico.
Ejemplo 1.9.
Se registro el consumo de electricidad en kWh de 50 hogares en un cierto distrito estos fueron
los resultados:
589 493 531 355 469 432 415 468 617 426
300 439 464 430 403 525 478 392 432 459
398 372 488 481 620 484 509 522 488 502
596 567 466 477 580 555 520 525 425 650
384 497 438 501 521 452 508 462 457 577
Considerando la regla de Sturges debemos considerar k = 1 + 3.3log10(50) = 6.6 7 clases.Luego, tenemos como valores mnimo 300 kWh y maximo 650 kWh, por la tanto la amplitud
es de A = 650 300 = 350 con lo que obtenemos que el ancho del intervalo de clase es dec = 350/7 = 50. A partir de estos resultados obtenemos la siguiente tabla de frecuencias para
este conjunto de datos
Clase Intervalo Marca Frecuencia Frecuencia Porcentaje Frecuencia Frec. rel. Porcentaje
de clase de clase relativa acumulada acumulada acumulado
j xj nj fj pj Nj Fj Pj
1 [300, 350) 325 1 0.02 2 1 0.02 2
2 [350, 400) 375 5 0.10 10 6 0.12 12
3 [400, 450) 425 9 0.18 18 15 0.30 30
4 [450, 500) 475 16 0.32 32 31 0.62 62
5 [500, 550) 525 10 0.20 20 41 0.82 82
6 [550, 600) 575 6 0.12 12 47 0.94 94
7 [600, 650] 625 3 0.06 6 50 1.00 100
Total 50 1.00 100
7
-
Bayes, C. CAPITULO 1. ORGANIZACION Y RESUMEN DE DATOS
Se puede observar que las frecuencias, van cambiando a partir del valor 1 en el primer intervalo
hasta alcanzar los valores de 9, 16 y 10 en los intervalos 3, 4 y 5 para luego decrecer en los
intervalos 6 y 7. Esto sugiere que la mayora de los hogares tienen un consumo de electricidad
intermedio entre los intervalos 3, 4 y 5 (de 400 a 550 kWh). Que existen pocos hogares con
consumo de electricidad bajos o altos. Estos resultados tambien se pueden observar si analizamos
las frecuencias relativas y los porcentajes. Otras posibles interpretaciones que podemos hacer
son: solamente el 1 % de los hogares tienen consumos por debajo de los 350 kWh; el 18 % de los
hogares tienen consumos mayores a los 550 kWh.
La informacion contenida en esta tabla se presenta tambien en forma grafica en la Figura 1.3.
Consumo en kWh
Frec
uenc
ia
300 350 400 450 500 550 600 650
05
1015
ll
l
l
l
l
l
l
300 350 400 450 500 550 600 650
0.0
0.2
0.4
0.6
0.8
1.0
Consumo en kWh
Frec
uenc
ia re
lativ
a
Figura 1.3: Histograma con polgono de frecuencias y grafico de frecuencias acumuladas
1.3. Medidas de Tendencia Central
En esta seccion estudiaremos estadsticas que son utilizadas para representar el centro de
un conjunto de datos. Consideraremos a partir de ahora en las definiciones que contamos con
una muestra de tamano n denotada por x1, x2, ..., xn.
Media
La media muestral es la suma de todos los datos dividido por el numero de datos. Se suele
denotar por una letra con una barra encima (X). La media muestral estara en las mismas
unidades que los valores de la muestra x1, x2, ..., xn.
X =
ni=1
xi
n=x1 + x2 + ...+ xn
n
A continuacion presentamos algunas caractersticas de la media:
La media es calculada tomando en cuenta todos los valores de la muestra.
La media puede verse fuertemente afectada por la presencia de valores outlier (observa-
ciones que son muy grandes o muy pequenas con respecto al resto de observaciones).
8
-
Bayes, C. 1.3. MEDIDAS DE TENDENCIA CENTRAL
Es el valor de b que minimiza
ni=1
(xi b)2
Ejemplo 1.10.
Una forma de evaluar la calidad del aire es medir la cantidad de material particulado menor de 10
micrometros (que pueden tener efectos nocivos en la salud), se tienen las siguientes mediciones
en g/m3 durante 6 das en una ciudad:
39.39 39.12 32.08 29.85 48.25 36.09
La media muestral sera
X =39.39 + 39.12 + 32.08 + 29.85 + 48.25 + 36.09
6= 37.46 g/m3
Consideremos ahora que el primer valor sea reemplazado por un valor outlier quedando ahora
el conjunto de datos como
89.39 39.12 32.08 29.85 48.25 36.09
ahora tenemos que X = 45.80, observamos que un unico valor outlier puede tener un fuerte
impacto en el valor de la media.
En algunas ocasiones se nos presentara el problema en que necesitamos calcular la media
de un conjunto de datos que se presenta como una tabla de frecuencias, en esos calcularemos la
media como
X =
kj=1
xjnj
n=
kj=1
xjfj
donde la variable toma x1, ..., xk valores distintos; nj es la frecuencia y fj es la frecuencia relativa
del valor xj . Este caso se suele denominar como media ponderada.
Ejemplo 1.11.
Si consideramos los datos del Ejemplo 1.8 tenemos que el numero de accidentes promedio por
da es
X =0 8 + 1 11 + 2 7 + 3 2 + 4 2
30= 1.3.
Mediana
La mediana es el valor que ocupa la posicion central en los datos ordenados. Si tenemos una
muestra x1, x2, ..., xn, para calcular la mediana primero ordenamos los datos como x(1) x(2) ... x(n), luego la mediana es calculada como
Me =
x(n+1
2) , si n es impar
x(n2
) + x(n2
+1)
2 , si n es par
9
-
Bayes, C. CAPITULO 1. ORGANIZACION Y RESUMEN DE DATOS
A continuacion presentamos algunas caractersticas de la mediana:
El 50 % de los datos es menor a la mediana y el 50 % son mayores.
La mediana es calculada tomando en cuenta solamente los valor(es) central(es).
La mediana no es fuertemente afectada por la presencia de valores outlier
Es el valor de b que minimizani=1
|xi b|.
Ejemplo 1.12.
Considerando los datos del Ejemplo 1.10, calculamos ahora la mediana, primero ordenamos los
datos
29.85 32.08 36.09 39.12 Me
39.39 48.25
como el numero de datos n = 6 es par, la mediana sera el promedio de las observaciones centrales
Me =x(3) + x(4)
2=
36.09 + 39.12
2= 37.605
como en el Ejemplo 1.10 consideramos que la observacion 39.39 es reemplazada por 89.39,
ordenamos los datos nuevamente
29.85 32.08 36.09 39.12 Me
48.25 89.39
y calculamos la medianaMe = 37.605, observamos que en este caso la mediana no es influenciada
por el valor outlier.
Moda
Se define la moda como el valor que mas se repite en un conjunto de datos. Utilizaremos como
notacion Mo.
Ejemplo 1.13.
Para los datos del Ejemplo 1.7 la moda del estado de la calidad del aire sera Moderado. En el
Ejemplo 1.8 la moda del numero de accidentes por dia sera 1. Como ningun dato se repite en
el Ejemplo 1.10 la moda no existe en este caso.
Cuantiles
El p-esimo cuantil es el valor qp de modo que el 100p% de los valores es menor que este
valor y 100(1 p) % son mayores. Por ejemplo, el cuantil 50 % q0.50 sera la mediana. Una formasencilla de calcular los cuantiles es a traves de la siguiente aproximacion
qp =
x(k) + x(k+1)
2 , si k es entero
x(k) , si k no es entero
donde k = np y k es el valor de k redondeado por exceso. Como casos particulares tenemos:
10
-
Bayes, C. 1.4. MEDIDAS DE DISPERSION
Cuartiles: dividen a los datos en 4 partes iguales, se denotan por Q1, Q2 y Q3 que serian
los cuantiles 0.25, 0.50 y 0.75.
Deciles: dividen a los datos en 10 partes iguales, se denotan por D1, D2, .... y D9 que
serian los cuantiles 0.10, 0.20, ... y 0.90.
Percentiles: dividen a los datos en 100 partes iguales, se denotan por P1, P2, ... y P99 que
serian los cuantiles 0.01, 0.02, ... y 0.99.
Ejemplo 1.14.
Considerando los datos del Ejemplo 1.10, calculamos ahora los cuantiles q0.25 y q0.75.
Para q0.25 tenemos que k = 6 0.25 = 1.5, as k = 2 entonces q0.25 = x(2) = 32.08.
Para q0.75 tenemos que k = 6 0.75 = 4.5, as k = 5 entonces q0.75 = x(5) = 39.39.As tenemos que el 25 % de las observaciones es menor a 32.08 y el 75 % son mayores a este
valor. En forma similar podemos decir que el 75 % de las observaciones es menor a 39.39 y el
25 % son mayores.
1.4. Medidas de Dispersion
Las medidas de dispersion representan la variabilidad de los valores de un conjunto de datos.
Variancia
La variancia muestral es definida como
S2 =
ni=1
(xi X)2
n 1 =
ni=1
x2i nX2
n 1Para ver como la variancia es una medida de variabilidad, consideremos las distancias de cada
observacion a la media xi X, podemos observar que entre mayor sea la variabilidad mayorsera el el valor de algunas xi X. La variancia considera el promedio de estas distancias alcuadrado.
Ejemplo 1.15.
Considerando los datos del Ejemplo 1.10, la variancia es dada por
S2 =(39.392 + 39.122 + 32.082 + 29.852 + 48.252 + 36.092) 6 37.462
6 1 = 42.33
Desviacion estandar
La variancia puede ser difcil de interpretar debido a que esta medida en unidades al cuadrado
de la variable original. Por esta razon se suele utilizar la desviacion estandar que es definida
como la raz cuadrada de la varianza
S =S2
esta medida si estara en las mismas unidades que la variable en estudio.
11
-
Bayes, C. CAPITULO 1. ORGANIZACION Y RESUMEN DE DATOS
Ejemplo 1.16.
Considerando los datos del Ejemplo 1.10, la desviacion estandar es dada por
S =
42.33 = 6.51
Coeficiente de Variabilidad
El coeficiente de variabilidad es definido como la razon entre la desviacion estandar y la media,
CV = 100 SX
como podemos observar es una medida relativa, por lo que no tiene unidades. Una de las prin-
cipales aplicaciones de esta medida es para comparar conjuntos de datos medidos en diferentes
unidades.
Ejemplo 1.17.
Considerando los datos del Ejemplo 1.10, el coeficiente de variabilidad es dado por
CV = 100 6.5137.46
= 17.37
Rango
Es la distancia entre el valor mnimo y el maximo
R = x(n) x(1)
Ejemplo 1.18.
Considerando los datos del Ejemplo 1.10, el rango es dado por
R = x(6) x(1) = 48.25 29.85 = 18.4
Rango intercuartlico
Es la distancia entre el primer y tercer cuartil
RIC = Q3 Q1
Entre el primer y tercer cuantil estan contenidas el 50 % de las observaciones, donde hemos
descartado el 25 % de las observaciones mas grandes y el 25 % de las mas pequenas. Esta es una
medida alternativa al rango que no es afectada por valores extremos.
Ejemplo 1.19.
Considerando los datos del Ejemplo 1.10 y los resultados del Ejemplo 1.14, el rango intercuartli-
co es dado por
RIC = 39.39 32.08 = 7.31
1.5. Medidas de Forma
Las medidas presentadas en esta seccion son consideradas para conjuntos de datos unimo-
dales.
12
-
Bayes, C. 1.5. MEDIDAS DE FORMA
Asimetra
Un conjunto de datos sera simetrico si se distribuyen con igual frecuencia alrededor de un
punto central, en este caso la media, mediana y moda coinciden (X = Me = Mo). Se pueden
presentar dos tipos de asimetra:
Asimetra positiva o hacia la derecha: La mayor parte de los observaciones se con-
centran en valores bajos y pocos en valores altos. En este caso Mo < Me < X.
Asimetra negativa o hacia la izquierda: La mayor parte de los observaciones se
concentran en valores altos y pocos en valores bajos. En este caso X < Me < Mo.
Estos tipos de asimetria se encuentran ilustrados en la Figura 1.4. El coeficiente de asimetra
de Pearson es dado por
A1 =X Mo
S
si A1 = 0 los datos son simetricos, si A1 < 0 los datos presentan asimetra negativa o a la
izquierda y si A1 > 0 los datos presentan asimetra positiva o hacia la derecha. Una definicion
alternativa de esta medida es dada por
A2 =3(X Me)
S
que se basa en la siguiente relacion 3(X Me) X Mo que se cumple cuando los datospresentan poca asimetra. Una medida mas exacta de asimetra es dada por
1 =
1
n
ni=1
(xi X
)3s3
que se interpreta de manera similar al coeficiente de asimetra de Pearson.
asimetra negativa a la izquierda
Media Mediana Moda
simetra
Den
sity
MediaMediana
Moda
asimetra positiva a la derecha
Den
sity
Moda Mediana Media
Figura 1.4: Asimetra
Curtosis
Es una medida del apuntalamiento de la distribucion de frecuencias de un conjunto de datos
con referencia a la distribucion Normal. Se pueden presentar los siguientes tipos de curtosis:
Mesocurtica: Tiene el mismo apuntalamiento de la distribucion Normal.
13
-
Bayes, C. CAPITULO 1. ORGANIZACION Y RESUMEN DE DATOS
Leptocurtica: Es mas apuntalada que la distribucion Normal, los datos se concentran en
los valores centrales y pocos en los valores extremos de la variable.
Platicurtica: Es mas achatada que la distribucion Normal, los datos se encuentran mas
dispersos.
Estos tipos de curtosis se encuentran ilustrados en la Figura 1.5. El coeficiente de curtosis de
Pearson es dado por
=0.5(Q3 Q1)D9 D1
si = 0.25 los datos son mesocurticos, si > 0.25 los datos son leptocurticos y si < 0.25 los
datos son mesocurticos. Una medida mas precisa para medir curtosis es dada por
2 =
1
n
ni=1
(xi x)4
s4 3
en este caso 2 = 0 indica que los datos son mesocurticos, 2 > 0 indica que los datos son
leptocurticos y 2 < 0 indica que los datos son mesocurticos.
Platicrtica Mesocrtica
Den
sity
Platicrtica
Den
sity
Figura 1.5: Curtosis
Ejemplo 1.20.
Calcule algunas medidas de asimetra y curtosis para los datos del Ejemplo 1.9.
1.6. Graficos
En esta seccion presentamos algunos graficos adicionales para el analisis de datos.
Boxplot
Tambien denominado diagrama de cajas y bigotes, es un grafico que permite visualizar la ten-
dencia central, dispersion, asimetra y la presencia de valores atpicos u outliers. Esta basado en
5 medidas estadsticas: el mnimo, el primer cuartil, la mediana, el tercer cuartil y el maximo,
a continuacion detallamos brevemente como se construye este tipo de grafico (ver Figura 1.6):
14
-
Bayes, C. 1.6. GRAFICOS
Dibujar una caja con limites el primer y tercer cuartil.
Dibujar una linea central en la posicion de la mediana.
Calcular las siguientes cantidades: LI = Q1 1.5RIC y LS = Q3 + 1.5RIC.
Dibujar los bigotes, una linea desde el Q1 hasta el menor valor de los datos que no sea
menor a LI y una linea desde el Q3 hasta el mayor valor de los datos que no sea mayor a
LS.
Marcar los valores menores a LI y mayores a LS con un , estos seran considerados valoresoutlier.
* *
Q1 Mediana Q3
Outlier Q11.5 RIC Q3+1.5 RIC Outlier
menor valor antes de Q11.5 RIC mayor valor antes de Q3+1.5 RIC
Figura 1.6: Boxplot
La lnea central (mediana) nos da una medida de tendencia central, el ancho de la caja (rango
intercuartil) nos da una medida de dispersion y la posicion de la lnea central en la caja nos
indica el tipo de asimetra (ver Figura 1.7).
asimetra negativa simetrica asimetra positiva
Figura 1.7: Asimetra y Boxplot
Ejemplo 1.21.
Se registro el tiempo de duracion en horas de 10 componentes electronicos elegidos al azar
126 130 130 133 136 148 148 157 189 199
15
-
Bayes, C. CAPITULO 1. ORGANIZACION Y RESUMEN DE DATOS
presentaremos estos datos a traves un grafico de boxplot. Primero calculamos las siguientes
medidas
Mnimo: x(1) = 126
Maximo: x(10) = 199
Mediana: Me = 142
Primer cuartil: Q1 = 130
Tercer cuartil: Q3 = 157
Luego, el RIC = 27 con el cual obtenemos LI = 89.5 y LS = 197.5. As tenemos que el bigote
del lado izquierdo ira hasta 126 (el primer valor observado mayor a LI) y el bigote del lado
derecho ira hasta 189 (el primer valor observado menor a LS). Finalmente, la observacion 190
sera marcada como un valor outlier. El grafico obtenido se muestra en la Figura 1.8
*
140 160 180 200
Tiempo de duracin
Figura 1.8: Boxplot para los datos del ejemplo 1.21
Analizando directamente el grafico, podemos observar que los datos presentan asimetra positiva
y que existe un valor outlier.
Diagrama de tallos y hojas
Es un grafico similar al histograma pero que adicionalmente presenta el valor individual de
cada observacion. Para construir este grafico primero se divide cada observacion en dos partes:
el tallo y la hoja, usualmente el tallo seran los primeros dgitos y la hoja el ultimo dgito, por
ejemplo para el numero 37, 3 sera la parte del tallo y 7 la hoja. Luego, se listan los valores
posible para el tallo en forma vertical y se van colocando los valores de las hojas en la parte
derecha.
16
-
Bayes, C. 1.6. GRAFICOS
Ejemplo 1.22.
Consideremos los siguientes datos correspondientes al tiempo de vida medido en anos de un
cierto producto:
2.5 4.4 3.8 4.8 3.5 4.0 3.3 2.9
3.7 1.9 3.4 3.6 4.1 3.4 5.0 4.0
2.8 4.6 3.7 3.9 3.2 3.6 4.2 3.4
3.6 3.4 4.0 4.7 3.5 4.4 2.2 3.7
5.0 4.1 3.5 2.9 4.2 3.3 4.5 3.8
consideraremos como tallo el valor antes del punto decimal y como hoja el valor despues del
punto decimal, el diagrama de tallos y hojas se presenta en la Figura 1.9.
1 | 9
2 | 25899
3 | 2334444555666777889
4 | 0001122445678
5 | 00
Figura 1.9: Diagrama de tallos y hojas para los datos del Ejemplo 1.22
En caso consideremos que que se necesitan mas tallos para representar adecuadamente a los
datos, podemos subdividir cada tallo en 2, marcando con un punto . al tallo que tomara los
valores de hojas 0-4 y con un * al que tomara los valores de hojas de 5-9, este grafico se presenta
en la Figura 1.10.
1*| 9
2.| 2
2*| 5899
3.| 2334444
3*| 555666777889
4.| 000112244
4*| 5678
5.| 00
Figura 1.10: Diagrama de tallos y hojas para los datos del Ejemplo 1.22
El diagrama de tallos y hojas es de facil elaboracion y ademas nos permite observar directamen-
te los valores de las observaciones, lo que no se puede hacer con el histograma. Sin embargo,
debemos tener en cuenta que los tallos son determinados por las unidades en que hayan sido
medidas las variables, y no como en el histograma en el que se divide la amplitud de los datos
en una serie de intervalos adecuadamente elegidos.
17
-
Bayes, C. CAPITULO 1. ORGANIZACION Y RESUMEN DE DATOS
1.7. Ejercicios
1. Clasifique cada una de las siguientes variables e indique un grafico que se puede realizar
con la informacion de cada variable.
El tiempo que una persona debe espera en una fila en un banco.
El numero de multas en un mes de un distrito.
La temperatura medida en grados centgrados.
El estado civil de una persona.
2. El siguiente Boxplot recoge informacion de las notas de un examen de matematicas de un
aula de 60 alumnos.
*
1012
1416
18
(a) Indique cual es el valor de la mediana.
(b) Indique cuales son las notas mnima y maxima.
(c) Cuantos alumnos tuvieron notas entre 14 y 17? (Indicar un numero no un porcentaje).
(d) Indique que tipo de asimetra presentan los datos.
3. Considere las siguientes variables obtenidas en 10 ensayos de un robot mecanico al recoger
un objeto
Papel 12.10 11.60 12.50 8.20 11.90 10.00 7.54 7.40 9.10 10.60
Tiza 17.50 16.00 19.00 15.90 15.80 13.60 12.90 14.20 15.40 14.20
(a) Compare los resultados obtenidos en ambas tareas utilizando medidas estadsticas.
(b) Realice un grafico de boxplot.
18
-
Captulo 2
Probabilidad
2.1. Conceptos basicos
Experimento Aleatorio
Es un experimento que tiene las siguientes caractersticas:
No se conoce el resultado del experimento, pero si conocemos los posibles resultados del
experimento.
Es posible repetir el experimento bajo las mismas condiciones.
Cuando el experimento se repite un gran numero de veces, aparece un modelo definido de
regularidad
Ejemplo 2.1.
Son ejemplos de experimento aleatorio:
Lanzar una moneda.
Lanzar un dado.
Medir la cantidad de material particulado menor de 10 micrometros en una ciudad.
Medir el estado de la calidad del aire en una ciudad.
El numero de accidentes de transito por da en un distrito.
Tiempo de corrosion de una pieza de maquinaria
Espacio Muestral
El espacio muestral es el conjunto de todos los posible resultados de un experimento aleatorio,
utilizaremos la letra como notacion.
Ejemplo 2.2.
Para los experimentos aleatorios dados en el Ejemplo 2.1 presentamos sus espacios muestrales
= {cara, sello}
= {1, 2, 3, 4, 5, 6}
= [0,)
19
-
Bayes, C. CAPITULO 2. PROBABILIDAD
= {Bueno,Moderado,Malo,Muy Malo}
= {1, 2, 3, 4, ...}
= [0,)
Los espacios muestrales los podemos clasificar como
Espacio muestral finito.
Espacio muestral infinito enumerable.
Espacio muestral infinito no enumerable.
Ejemplo 2.3.
Clasifique los espacios muestrales dados en el Ejemplo 2.2.
Evento
Es cualquier subconjunto del espacio muestral. Se dice que un evento ocurre si alguno de sus ele-
mentos es el resultado del esxperimento. Los eventos se suelen denotar por una letra mayuscula.
Ejemplo 2.4.
Si definimos como experimento aleatorio el lanzamiento de un dado, su espacio muestral sera
dado por = {1, 2, 3, 4, 5, 6}, seran ejemplos de eventos:
A = {el resultado es par}A = {2, 4, 6}
B = {el resultado es menor a 3}B = {1, 2}
A continuacion presentamos algunos tipos de eventos
Evento unitario o elemental si A contiene solamente un elemento de .
Evento compuesto si tienen mas de un resultado del experimento aleatorio.
es el evento seguro o cierto
es el evento imposible
Se dice que dos eventos A y B son mutuamente excluyentes si no tienen elementos en
comun, por lo tanto no pueden ocurrir al mismo tiempo, esto es A B = .
Algunas operaciones basicas con eventos son
Interseccion : A B = {w | w A w B}
Union : A B = {w | w A w B}
20
-
Bayes, C. 2.2. PROBABILIDAD
Complemento : AC = {w | w / A}
Diferencia: AB = {w | w A w / B} esto es AB = A BC
Producto Cartesiano: AB = {(w1, w2) | w1 A w2 B}
Tenemos las siguientes propiedades
A A = AA A = A
A B = B AA B = B A
A AC = A AC =
A = AA =
A = A = A
C = C = (AC)C = A
A (B C) = (A B) (A C)A (B C) = (A B) (A C)
(A B)C = AC BC(A B)C = AC BC
Cuando se trabaje con mas de dos o tres eventos consideraremos la siguiente notacion
A1 A2 ... An =ni=1
Ai
A1 A2 ... An =ni=1
Ai
2.2. Probabilidad
Definicion Axiomatica
Sea un experimento aleatorio y su espacio muestral. La probabilidad de cualquier evento
A se denota por P (A) y satisface:
(i) P (A) 0
(ii) P () = 1
21
-
Bayes, C. CAPITULO 2. PROBABILIDAD
(iiia) Si A y B son eventos mutuamente excluyentes entonces
P (A B) = P (A) + P (B)
(iiib) Si A1, A2, ..., An, ... son eventos mutuamente excluyentes entre s, entonces
P
( i=1
Ai
)=
i=1
P (Ai)
Propiedades
A partir de los 3 axiomas podemos encontrar las siguientes propiedades
P () = 0
P (AC) = 1 P (A)
Si A B P (A) P (B)
P (AB) = P (A) P (A B)
P (A B) = P (A) + P (B) P (A B)
P (AB C) = P (A) +P (B) +P (C)P (AB)P (AC)P (B C) +P (AB C)
Sean A1, A2, ..., An eventos entonces
P
(ni=1
Ai
)=
ni=1
P (Ai)i
-
Bayes, C. 2.3. CALCULO DE PROBABILIDADES
Sabemos que P (A) = 0.40, P (B) = 0.30 y P (AC BC) = 0.35.
En la parte (a) nos piden P (A B) y en la parte (b) P (A B).
Por la ley de Morgan tenemos que
P (AC BC) = P ((A B)C) = 0.35por lo tanto P (A B) = 0.65
Sabemos que P (A B) = P (A) + P (B) P (A B) de donde podemos encontrar
P (A B) = P (A) + P (B) P (A B) = 0.40 + 0.30 0.65 = 0.05
2.3. Calculo de probabilidades
La definicion axiomatica de la probabilidad define las propiedades que debe tener una me-
dida de probabilidad. Sin embargo, no nos indica como realizar el calculo de la probabilidad de
algun evento. Consideraremos las siguientes formas de asignar o calcular probabilidades.
Clasica
Si el espacio muestral es finito y asumimos que todos los resultados del experimento son
igualmente posibles de ocurrir, entonces la probabilidad de un evento A es definida como
P (A) =n(A)
n()
donde n(A) es el numero de elementos de A.
Ejemplo 2.6.
Si consideramos el lanzamiento de un dado, asumiendo que cualquiera de las caras del dado
tienen las mismas posibilidades de ocurrir, calcule la probabilidad de que el resultado del expe-
rimento sea un numero par.
Solucion:
En este caso el espacio muestral sera dado por = {1, 2, 3, 4, 5, 6} y el eventoA = {resultado sea par} ={2, 4, 6} por lo que
P (A) =n(A)
n()=
3
6=
1
2
Frecuencia relativa
Si se repite n veces un experimento aleatorio y el evento A ocurre nA veces, entonces la proba-
bilidad de A es definida como
P (A) =nAn
Formalmente esta probabilidad debe ser calculada en el lmite esto es P (A) = lmn
nAn
.
Ejemplo 2.7.
Se recopilaron datos sobre el numero de accidentes en un distrito durante 30 das
23
-
Bayes, C. CAPITULO 2. PROBABILIDAD
Numero de Frecuencia
accidentes
0 8
1 11
2 7
3 2
4 2
calcule la probabilidad que en un da no haya accidentes de transito en el distrito.
Solucion:
Sea el evento A = {en un da no hay accidentes de transito en el distrito} entonces
P (A) =nAn
=8
30= 0.2667
Subjetiva
Es una probabilidad calculada a partir de una opinion personal acerca de que tan posible es
que un evento ocurra. La probabilidad subjetiva no presenta calculos formales y solamente
representa un opinion personal basada en experiencias pasadas, informacion o creencias.
Ejemplo 2.8.
La probabilidad que la tasa de crecimiento del pas sea mayor al 6 % es de 0.25.
Geometrica
Si el espacio muestral es infinito y y asumimos que todos los resultados del experimento son
igualmente posibles de ocurrir, entonces la probabilidad de un evento A se puede definir como
P (A) =m(A)
m()
donde m(A) es una medida del evento A.
Ejemplo 2.9.
Si consideramos como experimento aleatorio el tiempo en horas hasta que falle un circuito don-
de sabemos que su espacio muestral es dado por = [0, 200], asumiendo que cualquiera de los
resultados tienen la misma posibilidad de ocurrir, calcule la probabilidad de que el circuito dure
mas de 150 horas.
Solucion:
Sea el evento A = {el circuito dure mas de 150 horas} = [150, 200] por lo que
P (A) =m(A)
m()=
50
200= 0.25
2.4. Conteo de puntos muestrales
Regla del producto
Si un primer experimento puede realizarse de n1 formas distintas, el segundo de n2, ..., hasta
24
-
Bayes, C. 2.4. CONTEO DE PUNTOS MUESTRALES
el k-esimo que puede realizarse de nk formas distintas. Entonces los k experimentos pueden
realizarse de
n1 n2 . . . nkformas distintas.
Regla de la adicion
Sean A y B son dos eventos mutuamente excluyentes, entonces n(A B) = n(A) + n(B).Adicionalmente, si tenemos 2 eventos A y B cualesquiera tenemos que n(A B) = n(A) +n(B) n(A B)Ejemplo 2.10.
Una contrasena para acceder a un sistema debe tener 5 caracteres los cuales pueden ser letras
(27) o numeros (10).
(a) Cuantas contrasenas diferentes se pueden formar?
(b) Cuantas contrasenas diferentes se pueden formar de modo que tengan solo numeros?
(c) Cuantas contrasenas diferentes se pueden formar si deben tener por lo menos una letra?
Solucion:
(a) 37 37 37 37 37 = 375 = 69, 343, 957
(b) 10 10 10 10 10 = 105 = 100, 000
(c) Por complemento, 375 105 = 69, 243, 957
Permutacion
Una permutacion es un arreglo de elementos en un orden en particular. Por ejemplo, las per-
mutaciones posibles de los elementos A, B y C seleccionando 2 elementos cada vez son
AB,BA,AC,CA,BC,CB.
El numero de permutaciones de n elementos distintos seleccionando r cada vez es dado por:
Pnr = n(n 1)...(n r + 1) =n!
(n r)!
donde n! = 1 2 ... n y por convencion 0! = 1.Ejemplo 2.11.
8 alumnos se han presentado a una competencia, de cuantas formas distintas se puede asignar
el primer y el segundo lugar?
Solucion:
En este caso de 8 elementos distintos estamos seleccionando 2 y el orden interesa, por lo tanto
nos estan preguntando
P 82 =8!
(8 2)! = 7 8 = 56.
25
-
Bayes, C. CAPITULO 2. PROBABILIDAD
Combinacion
Una combinacion es un arreglo de elementos donde el orden no interesa. Por ejemplo, las com-
binaciones posibles de los elementos A, B y C seleccionando 2 elementos cada vez son
AB,AC,BC.
El numero de combinaciones de n elementos distintos seleccionando r cada vez es dado por:
Cnr =
(n
r
)=
n!
r!(n r)! =Pnrr!
Es facil ver que (n
n
)=
(n
0
)= 1
Ejemplo 2.12.
Una junta esta conformada por 5 personas, 2 mujeres y 3 hombres, se va formar una comision
de 3 miembros, calcule
(a) de cuantas formas diferentes se puede conformar la comision.
(b) de cuantas formas diferentes se puede conformar la comision de modo que este conformada
por una mujer y dos hombres.
(c) la probabilidad de que este conformada solamente por hombres.
Solucion:
(a) En este caso el espacio muestral estara conformado por
= {formas diferentes en que se puede conformar la comision de 3 miembros de la junta}
como no importa el orden, tenemos que n() sera el numero de combinaciones que se puede
formar de 5 elementos seleccionando 3 cada vez
n() = C53 =5!
3!(5 3)! = 10
(b) Sea el evento A = {la comision este conformada por una mujer y dos hombres}, en estecaso haremos uso del principio de la multiplicacion, considerando primera la seleccion de
una mujer y luego la seleccion de los dos hombres que conformaran la comision,
n(A) = C21 C32 =2!
1!(2 1)! 3!
2!(3 2)! = 1 3 = 3
26
-
Bayes, C. 2.5. PROBABILIDAD CONDICIONAL
(c) Sea el evento B = {la comision este conformada por tres hombres}, en este caso tambienharemos uso del principio de la multiplicacion,
n(B) = C20 C33 =2!
0!(2 0)! 3!
3!(3 3)! = 1 1 = 1
finalmente la probabilidad pedida es dada por
P (B) =n(B)
n()=
1
10.
Permutacion con elementos repetidos
Se tienen n elementos, de los cuales n1 son del tipo 1, n2 del tipo 2,..., nk del tipo k, con
n = n1 + n2 + ... + nk. El numero de permutaciones distintas considerando los n elementos es
dado por
Pnn1,n2,...,nk =n!
n1!n2!...nk!
Ejemplo 2.13. Si tenemos tenemos dos fichas rojas y una negra, las permutaciones posibles
serian RRN , RNR y NRR, usando permutacion con elementos repetidos obtenemos
P 31,2 =3!
1!2!= 3.
2.5. Probabilidad condicional
Sean A y B dos eventos de un mismo espacio muestral . La probabilidad condicional de A
dado que ha ocurrido B esta dada por
P (A | B) = P (A B)P (B)
desde que P (A) > 0. Debemos notar, que en probabilidad condicional, estamos considerando
un espacio muestral restringido a que se conoce que el evento B ha ocurrido. En otras palabras,
el evento B esta reemplazando al espacio muestral y la probabilidad condicional P (A | B) escalculada como la probabilidad de A con respecto al nuevo espacio muestral.
Es importante resaltar que la probabilidad condicional tambien es una probabilidad y por lo
tanto, satisface los 3 axiomas de la probabilidad.
Ejemplo 2.14.
Considere como experimento el lanzamiento de un dado, calcule la probabilidad que se obtenga
un numero par si se sabe que el resultado fue menor o igual que 3.
Solucion:
Definimos los eventos:
A = {resultado es par}
27
-
Bayes, C. CAPITULO 2. PROBABILIDAD
B = {resultado es menor o igual a 3}
Debemos calcular la probabilidad A dado que el evento B ha ocurrido esto es
P (A | B) = P (A B)P (B)
=1/6
1/2=
1
3
1 3 5
2 4 6
B A
Regla del producto
Dados dos eventos A y B en un espacio muestral , la probabilidad de que ambos ocurran esta
dado por:
P (A B) = P (B)P (A | B).
Para 3 eventos A, B y C tenemos que
P (A B C) = P (A)P (B | A)P (C | A B)
De manera similar podemos generalizar cuando se tienen n eventos, A1, A2, A3,..., An
P (A1A2A3. . .An) = P (A1)P (A2 | A1)P (A3 | A1A2) . . . P (An | A1A2A3. . .An1)
Ejemplo 2.15.
En un proceso de manufactura consta de dos procesos. La probabilidad que un producto no tenga
fallas luego del primer proceso es de 0.95. Si el producto no tuvo fallas en el primer proceso la
probabilidad que no tenga fallas en el segundo proceso es de 0.97. Calcule la probabilidad que
el producto no tenga fallas en los dos procesos.
Solucion:
Definimos los eventos:
A = {el producto no tuvo fallas en el primer proceso}B = {el producto no tuvo fallas en el segundo proceso}
Sabemos que P (A) = 0.95 y P (B | A) = 0.97,
Debemos calcular
P (A B) = P (A)P (B | A) = 0.95 0.97 = 0.9215
28
-
Bayes, C. 2.5. PROBABILIDAD CONDICIONAL
Teorema de Probabilidad total
Sea B1, . . . , Bn una particion del espacio muestral , esto esni=1
Bi = y para todo i 6= jBi Bj = . Sea A otro evento definido sobre entonces:
P (A) =
ni=1
P (Bi)P (A | Bi)
Prueba:
Es facil ver que el evento A es la union de los eventos mutuamente excluyentes A B1,A B2,..., A Bn (ver Figura 2.1) por lo tanto
P (A) =ni=1
P (A Bi)
Luego, aplicando la regla del producto tenemos que P (A Bi) = P (Bi)P (A | Bi) con loque queda probado el teorema.
Figura 2.1: Probabilidad Total
Ejemplo 2.16.
Si el nivel de contaminacion del aire es alto la probabilidad de que un equipo electronico falle
es de 0.05. La probabilidad de que falle si el nivel de contaminacion del aire es bajo es de 0.001.
Ademas se conoce que el 25 % de los das se tiene un alto nivel de contaminacion del aire.
Calcule la probabilidad de que el equipo falle en un cierto da.
Solucion:
Definimos los eventos:
B1 = {en un da el nivel de contaminacion del aire es alto}B2 = {en un da el nivel de contaminacion del aire es bajo}notemos que los eventos B1 y B2 son una particion del espacio muestral.
Al mismo tiempo ocurre el evento
A = {el equipo electronico fallo}
29
-
Bayes, C. CAPITULO 2. PROBABILIDAD
Sabemos que P (B1) = 0.25, P (B2) = 0.75, P (A | B1) = 0.05 y P (A | B2) = 0.001.
Debemos calcular P (A), utilizando el teorema de probabilidad total tenemos que
P (A) = P (B1)P (A | B1) + P (B2)P (A | B2)= 0.25 0.05 + 0.75 0.001= 0.01325
Teorema de Bayes
Sea B1, . . . , Bn una particion del espacio muestral , esto esni=1
Bi = y para todo i 6= jBi Bj = . Sea A otro evento definido sobre entonces:
P (Bj | A) =P (Bj)P (A | Bj)ni=1
P (Bi)P (A | Bi)
Prueba:
Por definicion de probabilidad condicional tenemos que
P (Bj | A) = P (A Bj)P (A)
Por la regla del producto tenemos que P (A Bj) = P (Bj)P (A | Bj).
Por el teorema de la probabilidad total P (A) =ni=1
P (Bi)P (A | Bi).
Reemplazando estos dos ultimos resultados en la definicion P (Bj | A) queda demostradoel teorema.
Denominaremos a las probabilidades P (B1), . . . , P (Bn) como probabilidad a priori, esto es las
probabilidades de los eventos B1, . . . , Bn antes de tener ninguna otra informacion. El Teorema
de Bayes nos permite revisar estas probabilidades en base a la informacion que el evento A ha
ocurrido, esto es podemos calcular P (B1 | A), . . . , P (Bn | A) que son denominadas probabilida-des a posteriori.
Ejemplo 2.17.
Cuando una maquina que produce circuitos esta funcionando correctamente, el 93 % de los
circuitos producidos satisface las especificaciones. Cuando la maquina no funciona correctamente
solamente el 55 % de los circuitos producidos satisfacen las especificaciones. La maquina esta en
buen estado el 92 % del tiempo. Si se selecciona un circuito y este cumple con las especificaciones
cual es la probabilidad de que la maquina no haya estado funcionando correctamente? Solucion:
Definimos los eventos:
B1 = {la maquina funciona correctamente}B2 = {la maquina no funciona correctamente}notemos que los eventos B1 y B2 son una particion del espacio muestral.
30
-
Bayes, C. 2.6. INDEPENDENCIA
Al mismo tiempo ocurre el evento
A = {el circuito seleccionado cumple con las especificaciones}
Sabemos que P (B1) = 0.92, P (B2) = 0.08, P (A | B1) = 0.93 y P (A | B2) = 0.55.
Debemos calcular P (B2 | A), utilizando el teorema de Bayes tenemos que
P (B2 | A) = P (B2)P (A | B2)P (B1)P (A | B1) + P (B2)P (A | B2)
=0.08 0.55
0.92 0.93 + 0.08 0.55= 0.0489
Podemos representar la informacion sobre el problema a traves de un diagrama del arbol,
ver Figura 2.2.
Figura 2.2: Diagrama del arbol
2.6. Independencia
Dos eventos A y B son independientes si la ocurrencia de uno de ellos no afecta la probabi-
lidad de ocurrencia del otro, esto es:
P (A | B) = P (A) o P (B | A) = P (B).
Por la definicion de probabilidad condicional obtenemos la siguiente definicion equivalente que
es util para verificar la independencia de eventos:
Dos eventos A y B son independientes si y solamente si P (A B) = P (A)P (B).
Propiedad:
Las siguientes situaciones son equivalentes:
Los eventos A y B son independientes.
31
-
Bayes, C. CAPITULO 2. PROBABILIDAD
Los eventos A y BC son independientes.
Los eventos AC y B son independientes.
Los eventos AC y BC son independientes.
Si consideramos ahora que tenemos A1, A2,..., An eventos mutuamente independientes (Ai es
independiente de Aj para todo i 6= j), entonces tenemos que
P (A1 A2 . . . An) = P (A1)P (A2) . . . P (An).
Ejemplo 2.18.
Se va realizar un evento durante dos das, se sabe que el primer da puede tener nivel de
contaminacion del aire aceptable con probabilidad 0.40, el segundo da puede tener nivel de
contaminacion del aire aceptable con probabilidad 0.30. Se conoce que el nivel de contaminacion
del aire de un da es independiente del otro.
(a) Cual es la probabilidad de que los dos das se tenga un nivel de contaminacion aceptable?
(b) Cual es la probabilidad de que al menos uno de los das se tenga un nivel de contaminacion
aceptable?
(c) Cual es la probabilidad de que solamente uno de los das se tenga un nivel de contaminacion
aceptable?
(d) Cual es la probabilidad de que los dos das no se tenga un nivel de contaminacion aceptable?
Solucion:
Los eventos son:
A = {El primer da tiene un nivel de contaminacion del aire aceptable}B = {El segundo da tiene un nivel de contaminacion del aire aceptable}
Sabemos que P (A) = 0.40, P (B) = 0.30 y que A y B son independientes. Usando las
propiedades de independencia tenemos que
(a) P (A B) = P (A)(B) = 0.40 0.30 = 0.12
(b) P (A B) = P (A) + (B) P (A B) = 0.40 + 0.30 0.40 0.30 = 0.58
(c) P (A BC) + P (AC B) = 0.40 0.70 + 0.60 0.30 = 0.46
(d) P (AC BC) = P (AC)(BC) = 0.60 0.70 = 0.42
32
-
Bayes, C. 2.7. EJERCICIOS
2.7. Ejercicios
1. Un aparato electronico consta de dos circuitos A y B. La probabilidad que falle el circuito
A es de 0.25, que fallen los dos circuitos es de 0.18 y que falle al menos uno de los circuitos
es de 0.56. Calcular la probabilidad que:
(a) Falle solamente el circuito B.
(b) Falle el circuito A si se sabe que el circuito B funciona correctamente
2. En una ciudad se publican tres revistas A, B y C. El 25 % de la poblacion lee A, 35 % lee
B y el 25 % lee C. Ademas, el 10 % lee A y B, el 8 % lee A y C, el 12 % lee B y C, y el
3 % lee las tres revistas. Si se elige una persona aleatoriamente de esta ciudad, calcule la
probabilidad de que:
(a) Lea solamente una revista.
(b) Lea como maximo dos revistas.
(c) Lea la revista B si se sabe que lee las revistas A y C.
(d) Lea la revista A si sabe que lee al menos una de las otras dos revistas.
3. El precio de dos productos A y B se distribuye uniformemente entre 10 y 30 soles. Calcular
(a) La probabilidad de que el costo de los dos productos sea mayor a 24 soles.
(b) La probabilidad de que el producto A haya costado mas de 20 soles, si sabe que se
pago mas de 24 soles por los dos productos.
4. En una empresa, produce circuitos en 3 fabricas, el 30 % de los circuitos se produce en la
fabrica 1, el 20 % en la fabrica 2, y el resto en la fabrica 3. En la fabrica 1 se sabe que el
1 % de los circuitos producidos resultan defectuosos; el 3 % en la fabrica 2; y el 4 % en la
fabrica 3.
a) Cual es la probabilidad de producir un circuito defectuoso?.
b) Si un circuito elegido al azar resulta defectuoso, cual es la probabilidad de que se
haya fabricado en la fabrica 3.
5. Un sistema consta de 10 componentes en serie. Por lo tanto, si cualquier componente
falla todo el sistema tambien fallara. Cualquier componente tiene probabilidad de fallar
de 0.01. Asuma independencia entre los componentes del sistema.
a) Cual es la probabilidad de falla del sistema?
b) Si se requiere que la probabilidad que el sistema funcione sea de 0.99 cual debera
ser la probabilidad de falla de cada componente?
6. Una empresa generadora de energa electrica tiene 3 plantas P1, P2 y P3 que funcionan
de manera independiente las cuales pueden fallar con probabilidad 0.10, 0.09 y 0.12 res-
pectivamente. La empresa es la unica que abastece de energa electrica a una ciudad, si
las tres plantas funcionan correctamente la probabilidad que haya un apagon es de 0.02,
33
-
Bayes, C. CAPITULO 2. PROBABILIDAD
en caso que una de ellas falle la probabilidad que ocurra un apagon es 0.15, si dos fallan
la probabilidad que ocurra un apagon es 0.40.
(a) Calcule la probabilidad de que ocurra un apagon.
(b) Si no ocurrio un apagon, Cual es la probabilidad de que haya fallado solo una planta?
7. La probabilidad de que falle el motor de un avion es de 0.08 y cada uno funciona indepen-
dientemente de los otros. Con cuantos motores debe estar equipado un avion para tener
una probabilidad mayor o igual a 0.999 de que el avion vuele? Suponga que es suficiente
que un motor funcione para que el avion se mantenga en vuelo.
8. Cuatro componentes que funcionan independientemente estan conectados en un sistema
como se muestra en la Figura 2.3. Si la probabilidad de fallar de los componentes C1, C2,
C3 y C4 es de 0.30, 0.20, 0.10 y 0.25 respectivamente. Calcule la probabilidad de falla de
todo el sistema.
C1
C2
C3
C4
Figura 2.3: Figura para el Problema 8
34
-
Captulo 3
Variable Aleatoria
3.1. Conceptos basicos
Variable Aleatoria
Usualmente cuando se realiza un experimento aleatorio, no siempre se esta interesado en
todos los detalles del resultado de un experimento sino solamente en alguna medida numeri-
ca determinada por este resultado. Por ejemplo, si lanzamos dos veces una moneda podemos
no estar interesados en el resultado que puede ser (cara, cara) o (cara, sello) o (sello, cara) o
(sello, sello) sino solamente en el numero de caras obtenidas en el experimento. Estas medidas
numericas son denominadas de variables aleatorias.
Formalmente una variable aleatoria es una funcion
X() : R
que asigna a cada punto del espacio muestral en un numero real R. El valor que puedatomar una variable aleatoria depende del resultado de un experimento, por lo tanto su valor
no es conocido antes que el experimento sea realizado y podemos asignar probabilidades a los
posibles valores que puede tomar. Usualmente se consideran letras mayusculas para denotar
una variable aleatoria, por ejemplo X, y letras minusculas para denotar un valor particular que
pueda tomar, por ejemplo x. Los posibles valores que puede tomar una variable se denomina
rango, al rango de una variable aleatoria X se le denota como RX .
Ejemplo 3.1.
Se lanza dos veces una moneda y estamos interesados solamente en el numero de caras obtenidas
en el experimento. En este caso el espacio muestral esta dado por
= {SS, SC,CS, SS}
donde C denota que obtuvimos un cara y S un sello. Sobre este espacio muestral se define la
variable aleatoria X =numero de caras obtenidas en el experimento, s aplicamos X a cada
35
-
Bayes, C. CAPITULO 3. VARIABLE ALEATORIA
punto del espacio muestral tenemos
X(SS) = 0
X(SC) = 1
X(CS) = 1
X(CC) = 2
Por lo tanto el rango de X es RX = {0, 1, 2}. Finalmente, podemos calcular probabilidades paracada posible valor de X
P (X = 0) = P ({SS}) = 14
P (X = 1) = P ({SC,CS}) = 12
P (X = 2) = P ({CC}) = 14
Las variables aleatorias se pueden clasificar en
Discretas: si su rango es finito o infinito enumerable.
Continuas: si su rango es infinito no enumerable.
En la mayora de problemas practicos, las variables aleatorias continuas representan medidas,
tales como alturas, pesos, temperaturas, tiempos de duracion o distancias, mientras que las
variables aleatorias discretas representan datos de conteo, como el numero de productos que
cumplen las especificaciones o el numero de accidentes en un da en un distrito.
3.2. Variable Aleatoria Discreta
Una variable aleatoria que puede asumir un numero finito de valores o una cantidad enu-
merable de valores, cuyas probabilidades son conocidas es denominada de variable aleatoria
discreta.
Ejemplo 3.2.
Continuando con el Ejemplo 3.1, tenemos que X=numero de caras obtenidas en dos lanza-
mientos de una moneda es una variable aleatoria discreta. Los posibles valores x de X y sus
probabilidades son
x 0 1 2
P (X = x) 0.25 0.50 0.25
Notemos que los valores x presentados son todos los posibles casos y que las probabilidades
suman 1.
36
-
Bayes, C. 3.2. VARIABLE ALEATORIA DISCRETA
Funcion de probabilidad
Sea X una variable aleatoria discreta con rango RX , definiremos f(x) como la funcion de
probabilidad de X por
f(x) = P (X = x)
esta debe cumplir:
f(x) 0, x RXxRX
f(x) = 1
Cualquier funcion en RX y que cumpla con los dos propiedades es una funcion de probabilidad
para X.
0.0
0.1
0.2
0.3
x
f(x)
0 1 2 3 4
l
l
l
l l
Figura 3.1: Funcion de probabilidad de una variable aleatoria discreta
Ejemplo 3.3.
Se tiene un lote de 10 artculos de los cuales 4 son defectuosos. Se van a seleccionar al azar una
muestra de 3 de estos artculos, la variable de interes es X = el numero de artculos defectuosos
en la muestra.
(a) Encuentre la funcion de probabilidad X.
Solucion:
El rango de X es RX = {0, 1, 2, 3}.
f(0) = P (X = 0) =C40C
63
C103=
1
6
f(1) = P (X = 1) =C41C
62
C103=
1
2
37
-
Bayes, C. CAPITULO 3. VARIABLE ALEATORIA
f(2) = P (X = 2) =C42C
61
C103=
3
10
f(3) = P (X = 3) =C43C
60
C103=
1
30
Por lo que la funcion de probabilidad de X puede ser escrita como
x 0 1 2 3
f(x) 1612
310
130
En forma equivalente podemos expresar f(x) como
f(x) =C4xC
63x
C103, x = 0, 1, 2, 3.
Funcion de distribucion acumulada
La funcion de distribucion acumulada de una variable aleatoria discreta X es dada por
F (x) = P (X x) =tx
f(t), x R
0 1 2 3 4
0.0
0.2
0.4
0.6
0.8
1.0
x
F(x)
l l
l l
l l
l l
l
Figura 3.2: Funcion de distribucion acumulada de una variable aleatoria discreta
Ejemplo 3.4.
Continuando con el Ejemplo 3.2, tenemos que la funcion de distribucion acumulada de X es
dada por
38
-
Bayes, C. 3.2. VARIABLE ALEATORIA DISCRETA
F (x) =
0, x < 016 , 0 x < 123 , 1 x < 22930 , 2 x < 31, x 3
Valor esperado y varianza
Sea X una variable aleatoria discreta con funcion de probabilidad f(x) y rango de valores
RX , entonces su media o valor esperado es dado:
= E(X) =xRX
xf(x)
El valor esperado de g(X), donde g(.) es cualquier funcion, es dado por
E(g(X)) =xRX
g(x)f(x)
La varianza de X se define por:
2 = V ar(X) = E((X )2) =
xRX(x )2f(x).
Usualmente para calcular la varianza se utiliza la siguiente formula
2 = E(X2) E(X)2.
Ejemplo 3.5.
En el contexto del Ejemplo 3.2.
(a) Calcule el valor esperado y la varianza del numero de artculos defectuosos en la muestra.
(b) Si cada artculo se vende a 100 soles y por cada defectuoso se debe devolver 50 soles, calcule
la ganancia esperada por los tres artculos seleccionados.
Solucion:
El valor esperado de X es dado por
E(X) =xRX
xf(x)
= 0 16
+ 1 12
+ 2 310
+ 3 130
= 1.2
39
-
Bayes, C. CAPITULO 3. VARIABLE ALEATORIA
Para calcular la varianza de X primero calculamos
E(X2) =xRX
x2f(x)
= 02 16
+ 12 12
+ 22 310
+ 32 130
= 2
por lo tanto
V ar(X) = E(X2) E(X)2 = 2 1.22 = 0.56
Finalmente, la ganancia es dada por g(X) = 300 50X por lo que
E(g(X)) =xRX
g(x)f(x)
= g(0) 16
+ g(1) 12
+ g(2) 310
+ g(3) 130
= 300 16
+ 250 12
+ 200 310
+ 150 130
= 240
3.3. Variable Aleatoria Continua
Una variable aleatoria continua puede asumir un numero infinito no enumerable de valores,
por lo tanto no es posible asignar probabilidad a cada posible valor como en el caso de una va-
riable aleatoria discreta. En este tipo de variable se calcula probabilidades utilizando la funcion
de densidad de probabilidad.
Funcion de densidad de probabilidad
Sea X una variable aleatoria continua con rango RX , f(x) es una funcion de densidad
probabilidad de X si cumple:
f(x) 0, x RXRX
f(x)dx = 1
P (a X b) =baf(x)dx
Notemos que una variable aleatoria continua tiene probabilidad 0 de asumir exactamente un
valor de su rango, esto es
P (X = x) = 0, x RX .
40
-
Bayes, C. 3.3. VARIABLE ALEATORIA CONTINUA
x
f(x)
a b
Figura 3.3: Funcion de probabilidad de una variable aleatoria continua
Ejemplo 3.6.
Suponga que el error en el llenado de una bebida, en mililitros, es una variable aleatoria continua
X con funcion de densidad de probabilidad
f(x) = c(4 x2), 2 < x < 2
(a) Encuentre el valor de c de modo que f(x) sea una funcion de densidad.
(b) Calcule la probabilidad que el error se encuentre entre 1 y 1
Solucion:
Una funcion de densidad debe cumplir queRX
f(x)dx = 1, entonces tenemos
RX
f(x)dx =
22
c(4 x2)dx
= c
(4x x
3
3
)2
2
=32
3c
por lo tanto c =3
32.
41
-
Bayes, C. CAPITULO 3. VARIABLE ALEATORIA
La probabilidad pedida es dada por
P (1 x 1) =11
3
32(4 x2)dx
=3
32
(4x x
3
3
)1
1
=22
32
Funcion de distribucion acumulada
La funcion de distribucion acumulada de una variable aleatoria continua X es dada por
F (x) = P (X x) =x
f(t)dt, x R
la cual tiene las siguientes propiedades
P (a x b) = F (b) F (a)
F (x) es no decreciente.
F () = 0 y F () = 1.
f(x) =d
dxF (x)
Como una variable aleatoria continua tiene probabilidad 0 de asumir exactamente un valor de
su rango, tenemos ademas que P (a X b) = P (a < X < b) = P (a X < b) = P (a < X b) = F (b) F (a)
Ejemplo 3.7.
En el contexto del Ejemplo 3.6.
(a) Encuentre la funcion de distribucion acumulada.
(b) Calcule la probabilidad de que el error haya sido menor a 0 si se sabe que fue mayor a -1.
Solucion:
La funcion de distribucion acumulada es dada por
F (x) =
x2
3
32(4 t2)dt
=3
32
(4t t
3
3
)x
2
=1
32(12x x3 + 16)
42
-
Bayes, C. 3.3. VARIABLE ALEATORIA CONTINUA
x
f(x)
Figura 3.4: Funcion de distribucion acumulada de una variable aleatoria continua
La probabilidad pedida es dada por
P (X < 0 | X > 1) = P (1 < X < 0)P (X > 1)
=F (0) F (1)
1 F (1)
=0.5 0.156251 0.15625
= 0.4074
Valor esperado y varianza
Sea X una variable aleatoria continua con funcion de probabilidad f(x) y rango de valores
RX , entonces su media o valor esperado es dado:
= E(X) =
RX
xf(x)dx
El valor esperado de g(X), donde g(.) es cualquier funcion, es dado por
E(g(X)) =
RX
g(x)f(x)dx
43
-
Bayes, C. CAPITULO 3. VARIABLE ALEATORIA
La varianza de X se define por:
2 = V ar(X) = E((X )2) =
RX
(x )2f(x)dx.
Usualmente para calcular la varianza se utiliza la siguiente formula
2 = E(X2) E(X)2.
Ejemplo 3.8.
En el contexto del Ejemplo 3.6.
(a) Calcule el valor esperado y la varianza del error de llenado de una bebida.
(b) Si cada mililitro errado genera un costo de 0.05 soles, as sea por exceso o por defecto,
calcule el costo esperado.
Solucion:
El valor esperado de X es dado por
E(X) =
RX
xf(x)dx
=
22
x3
32(4 x2)dx
=3
32
(2x2 x
4
4
)2
2= 0
Para calcular la varianza de X primero calculamos
E(X2) =
RX
x2f(x)dx
=3
32
(4x3
3 x
5
5
)2
2= 0.8
por lo tanto
V ar(X) = E(X2) E(X)2 = 0.8 02 = 0.8
44
-
Bayes, C. 3.4. OTRAS PROPIEDADES DE VALOR ESPERADO
Finalmente, el costo es dado por g(X) = 0.05|X| por lo que
E(g(X)) =
RX
g(x)f(x)
=
02xf(x) +
20
xf(x)
=
02x 3
32(4 x2)dx+
20
x3
32(4 x2)
= 332
(2x2 x
4
4
)0
2+
3
32
(2x2 x
4
4
)2
0
= 0.75
3.4. Otras propiedades de valor esperado
E(a) = a.
E(a+ bX) = a+ bE(X).
V ar(a) = 0.
V ar(a+ bX) = b2V ar(X).
E(aX + bY ) = aE(X) + bE(Y ) para cualesquiera v.a. X e Y .
V ar(aX + bY ) = a2V ar(X) + b2V ar(Y ) solamente si las v.a. X e Y son independientes.
Ejemplo 3.9.
La fabricacion de una pieza metalica requiere de dos etapas independientes entre s, sean las
variables aleatorias X = tiempo de fabricacion requerido en la primera etapa e Y = tiempo
de fabricacion requerido en la segunda etapa, ambos medidos en minutos. Las funciones de
densidad de X e Y son dadas por
fX(x) = 2 x2, 2 < x < 4 y fY (y) =
1
2, 1 < y < 3
Cada minuto de fabricacion en la primera etapa por pieza cuesta 3 soles, cada minuto de la
segunda etapa por pieza cuesta 5 soles y ademas los materiales usados cuestan 10 soles por
pieza.
(a) Calcule el costo total esperado en la fabricacion de una pieza metalica.
(b) Calcule la varianza del costo total de fabricacion.
Solucion:
45
-
Bayes, C. CAPITULO 3. VARIABLE ALEATORIA
Sea C el costo total por la fabricacion de una pieza metalica, entonces tenemos que
C = 3X + 5Y + 10
por lo tanto
E(C) = E(3X + 5Y + 10)
= 3E(X) + 5E(Y ) + 10
= 3 83
+ 5 2 + 10= 28
Como X e Y son independientes
V ar(C) = V ar(3X + 5Y + 10)
= 32V ar(X) + 52V ar(Y )
= 32 29
+ 52 13
= 10.33
3.5. Funcion de una variable
Sea la funcion Y = g(X) y asumimos que conocemos la funcion de probabilidad de X si es
discreta o la funcion de densidad si X es continua, denotada por fX(x). Adicionalmente, consi-
deraremos que y = g(x) es una funcion inyectiva en RX , esto es a cada valor de x le corresponde
un unico valor de y.
As tenemos que si X es discreta, la funcion de probabilidad de Y es dada por
fY (y) = fX(g1(y)
)donde g1(y) es la funcion inversa. En el caso que X sea continua, la funcion de densidad de Yes dada por
fY (y) = fX(g1(y)
) ddyg1(y).
Ejemplo 3.10.
La temperatura medida en grados Fahrenheit de un da es una variable aleatoria X cuya funcion
de densidad es dada por
fX(x) =1
36, 50 < x < 86
Determine la funcion de densidad de probabilidad de Y la temperatura medida en grados Cel-
sius. Recuerde que Y = 5(X 32)/9.
46
-
Bayes, C. 3.5. FUNCION DE UNA VARIABLE
Solucion:
Tenemos que Y = g(X), con g(X) = 5(X 32)/9 que es una funcion inyectiva.
La funcion inversa es g1(y) =9
5y + 32, luego
fY (y) = fX(g1(y)
) ddyg1(y)
= fX
(9
5y + 32
)95
=1
36 9
5
=1
20
Como el rango de X es 50 < x < 86, tenemos que 10 < 5(x 32)/9 < 30 por lo que elrango de Y es 10 < y < 30. Finalmente, la funcion de densidad de Y es dada por
fY (y) =1
20, 10 < y < 30.
47
-
Bayes, C. CAPITULO 3. VARIABLE ALEATORIA
3.6. Ejercicios
1. Considere el siguiente juego que consiste en lanzar tres veces una moneda, por cada cara
la persona que lanzo la moneda recibe un sol y por cada sello la persona debe pagar un
sol. Se esta interesado en la posible ganancia resultante de este juego.
(a) Describa el espacio muestral del experimento.
(b) Determine el rango de la ganancia.
(c) Considere que existe la misma posibilidad de obtener un sello o una cara en el lan-
zamiento de la moneda, asigne probabilidades a cada valor del rango encontrado en
(b).
2. El numero de artculos defectuosos por lote de 10 unidades es una variable aleatoria X
cuya funcion de probabilidad es :
x 0 1 2 3 4
P (X = x) 1/16 k 6/16 4/16 1/16
(a) Calcular el valor de la constante k
(b) Si un lote tiene al menos dos artculos defectuosos, cual es la probabilidad de que
tenga exactamente 3?.
(c) Hallar E(X) y V ar(X).
(d) Un cliente inspecciona el lote, si este tiene menos de dos artculos artculos defectuosos
se pasa la inspeccion y el cliente compra el lote a 1000 soles, si encuentra al menos
dos defectuosos tambien compra el lote al mismo precio pero se le debera devolver 50
soles por cada artculo defectuoso encontrado. Calcule la ganancia esperada.
3. Considere la variable aleatoria X =el numero de lanzamientos de un dado hasta conseguir
un 1. Asuma que el resultado de cada lanzamiento es independiente de los otros.
(a) Encuentre la funcion de probabilidad de X.
(b) Calcule la probabilidad de que sea necesarios mas de 2 lanzamientos para conseguir
un 1.
(c) Calcule el valor esperado de X.
4. El numero de errores que puede tener una pieza de tela de 10 metros es una variable
aleatoria con funcion de probabilidad
x 0 1 2 3
f(x) a a b b
Se sabe que en promedio ocurren 1.7 errores por cada 10 metros de tela.
(a) Calcular el valor de las constantes a y b.
(b) Calcular la probabilidad una pieza de tela de 10 metros tenga exactamente 3 errores
si se sabe que tiene al menos un error.
48
-
Bayes, C. 3.6. EJERCICIOS
5. Suponga que la variable aleatoria X tiene funcion de densidad de probabilidad
f(x) = ex, si x > 0
Encontrar la funcion de densidad de Y = X2 y calcule el valor esperado de X y de Y .
6. La demanda semanal de un producto, en toneladas, es una variable aleatoria X cuya
funcion de densidad es dada por
f(x) =x
50, 0 < x < 10.
Cada tonelada producida cuesta 10 mil soles y se vende a 25 mil soles. Toda cantidad
que no se consigue vender, se pierde sin generar un costo adicional al de su fabricacion.
Suponga que en cierta semana un productor decide fabricar 5 toneladas.
a) Cual es la probabilidad de satisfacer la demanda?
b) Cual es la probabilidad de que se satisfaga la demanda y al mismo tiempo el productor
gane mas de 30 mil soles?
c) Cual es la probabilidad de que la demanda no sea satisfecha?
d) Cual es la utilidad esperada?
7. Una estacion de servicio es abastecida de gasolina una vez por semana. El volumen X
de la posible venta semanal en miles de galones tiene la siguiente funcion de distribucion
acumulada
F (x) = 1 (1 x)k, 0 < x < 1
(a) Halle el valor de k si se sabe que la probabilidad de que se vendan mas de 500 galones
es 0.0625
(b) Cual debe ser la capacidad del tanque de la estacion de servicio para que la proba-
bilidad de que su provision se agote en una semana sea solo de 0.01?
8. El tiempo de duracion de un cierto componente electronico es una variable aleatoria X
con funcion de densidad
f(x) =
{ax , 0 x < 1b(2 x) , 1 x 2
donde X, esta medido en anos. Ademas se sabe que en promedio uno de estos componentes
dura 1.2 anos.
a) Halle las constantes a y b.
b) Encuentre la funcion de distribucion acumulada.
c) El componente se vende a 10000 soles y se la da una garanta de 6 meses (si falla antes
de 6 meses se devuelve el dinero). Calcule la utilidad esperada por la venta de 20 de
estos componentes.
49
-
Bayes, C. CAPITULO 3. VARIABLE ALEATORIA
d) Si el componente tiene 6 meses de funcionamiento, calcule la probabilidad que dure
mas de un ano.
50
-
Captulo 4
Distribuciones de probabilidad
En este captulo presentaremos algunas de las distribuciones de probabilidad mas importan-
tes.
4.1. Distribuciones Discretas
4.1.1. Distribucion Hipergeometrica
Sea una poblacion de N elementos, M de los cuales presentan una caracterstica de interes
y N M no la presentan. Si de esta poblacion se selecciona una muestra aleatoria de tamanon sin reemplazo y se define una variable aleatoria X como
X = el numero de elementos que presentan la caracterstica de interes en la muestra.
Entonces X es una variable aleatoria con distribucion Hipergeometrica, cuya funcion de proba-
bilidad es dada por:
f(x) =
(M
x
)(N Mn x
)(N
n
) ,x = {max {0, n+M N} , . . . ,min {M,n}}
Consideraremos la siguiente notacion X HG(N,M,n) para representar esta distribucion.Los parametros de esta distribucion pueden tomar los siguientes valores N = 1, 2, . . ., M =
0, 1, . . . , N y n = 1, 2, . . . , N .
El valor esperado y la varianza son dados por
E(X) = nM
Ny V ar(X) = n
(M
N
)(N MN
)(N nN 1
).
Ejemplo 4.1.
Se tiene un lote de 10 artculos de los cuales 4 son defectuosos. Se van a seleccionar al azar y
sin reemplazo una muestra de 3 de estos artculos, la variable de interes es X = el numero de
artculos defectuosos en la muestra.
(a) Calcule la probabilidad que los tres artculos sean defectuosos.
(b) Calcule el valor esperado y la varianza de X.
51
-
Bayes, C. CAPITULO 4. DISTRIBUCIONES DE PROBABILIDAD
Solucion:
Tenemos que
X HG(10, 4, 3)
entonces la funcion de probabilidad de X es dada por
f(x) =
(4
x
)(6
3 x
)(
10
3
) , x = 0, 1, 2, 3
por lo tanto P (X = 3) = f(3) =
(4
3
)(6
0
)(
10
3
) = 130
Luego,
E(X) = 34
10= 1.2 y V ar(X) = 3
(4
10
)(6
10
)(7
9
)= 0.56.
4.1.2. Distribucion de Bernoulli
Un ensayo de Bernoulli es un experimento aleatorio que cumple las siguientes condiciones
Para cada ensayo solamente son posibles dos resultados, usualmente denominados, exito
(E) y fracaso (F) con
P (E) = p y P (F ) = 1 p
p la probabilidad de exito se mantiene constante al repetirse el experimento.
Si definimos la variable aleatoria X como
X =
{1, si el resultado es un exito
0, si el resultado es un fracaso
Entonces X es una variable aleatoria con distribucion Bernoulli, cuya funcion de probabilidad
es dada por:
f(x) = px(1 p)1x, x = 0, 1
El valor esperado y la varianza son dados por
E(X) = p y V ar(X) = p(1 p).Ejemplo 4.2.
Como ejemplos de ensayos de Bernoulli tenemos
El lanzamiento de una moneda, en este caso los posibles resultados son {cara, sello}, siconsideramos como un exito el obtener una cara tenemos que p = P (Exito) = 0.5.
52
-
Bayes, C. 4.1. DISTRIBUCIONES DISCRETAS
En el lanzamiento de un dado si consideramos obtener el valor de 6 o no, en este caso los
posibles resultados son {obtener un 6, no obtener un 6}, si consideramos como un exito elobtener un 6 tenemos que p = P (Exito) = 1/6.
4.1.3. Distribucion Binomial
Consideremos que se repite en forma independiente n ensayos de Bernoulli con probabilidad
p de obtener un exito. Si definimos la variable aleatoria X como
X = Numero de exitos obtenidos en n ensayos de Bernoulli.
Entonces X es una variable aleatoria con distribucion Binomial, cuya funcion de probabilidad
es dada por:
f(x) =
(n
x
)px(1 p)nx, x = 0, 1, ..., n, 0 < p < 1
Consideraremos la siguiente notacion X Binomial(n, p) para representar esta distribucion.El valor esperado y la varianza son dados por
E(X) = np y V ar(X) = np(1 p).
Ejemplo 4.3.
Se sabe que la probabilidad de que un artculo producido por una cierta empresa sea defectuoso
es de 0.01 independientemente de los otros. Los artculos se venden en cajas de 12 unidades
y tienen una garanta de reemplazo por una caja nueva si se encuentra mas de un artculo
defectuoso.
(a) Calcule la probabilidad que la garanta aplique en una de estas cajas.
(b) Si se venden 4 de estas cajas calcule la probabilidad que la garanta aplique solamente en
una de estas cajas.
(c) Si se venden 1000 de estas cajas, calcule el numero esperado de cajas en que se aplicara la
garanta.
Solucion:
Definimos
X = numero de artculos defectuosos en una caja de 12 unidades,
como existe independencia entre los artculos y la probabilidad de que un artculo sea
defectuoso es de 0.01 y no cambia tenemos que
X Binomial(12, 0.01)
entonces la funcion de probabilidad de X es dada por
fX(x) =
(12
x
)0.01x(1 0.01)12x, x = 0, 1, ..., 12
53
-
Bayes, C. CAPITULO 4. DISTRIBUCIONES DE PROBABILIDAD
Luego,
P (se aplique la garanta) = P (X > 1)
= 1 P (X 1)= 1 P (X = 0) P (X = 1)= 1 fX(0) fX(1)
= 1(
12
0
)0.010(1 0.01)120
(12
1
)0.011(1 0.01)121
= 0.006174
Definimos ahora
Y = numero de cajas en que la garanta se aplica de 4 vendidas,
como existe independencia entre las cajas y la probabilidad de que en una caja se aplique
la garanta no cambia, tenemos que
Y Binomial(4, p)
entonces la funcion de probabilidad de Y es dada por
fY (y) =
(4
y
)py(1 p)4y, y = 0, 1, 2, 3, 4
donde p = P (exito) = P (en una caja se aplique la garanta) = P (X > 1) = 0.006174
Luego,
P (Y = 1) = fY (1) =
(4
1
)0.0061741(1 0.006174)41 = 0.02424.
Definimos ahora
W = numero de cajas en que la garanta se aplica de 1000 vendidas,
como existe independencia entre las cajas y la probabilidad de que en una caja se aplique
la garanta no cambia, tenemos que
W Binomial(1000, 0.006174)
Finalmente
E(W ) = 1000 0.006174 = 6.17.
podemos decir que se espera que de 1000 cajas vendidas aproximadamente en 6 se aplique
la garanta.
54
-
Bayes, C. 4.1. DISTRIBUCIONES DISCRETAS
4.1.4. Distribucion Geometrica
Consideremos que se repite en forma independiente ensayos de Bernoulli con probabilidad
p de obtener un exito. Si definimos la variable aleatoria X como
X = Numero de ensayos de Bernoulli hasta obtener el primer exito.
Entonces X es una variable aleatoria con distribucion Geometrica, cuya funcion de probabilidad
es dada por:
f(x) = p(1 p)x1, x = 1, 2, ..., 0 < p < 1
Consideraremos la siguiente notacion X Geometrica(p) para representar esta distribucion.En este caso su funcion de distribucion acumulada tiene forma conocida dada por
F (m) = 1 (1 p)m
donde m es el mayor entero que sea menor o igual que x. El valor esperado y la varianza son
dados por
E(X) =1
py V ar(X) =
1 pp2
.
Ademas, la distribucion geometrica es la unica distribucion de probabilidad discreta que
tiene falta de memoria, esto es
P (X > m+ k | X > m) = P (X > k).
Ejemplo 4.4.
Se sabe que la probabilidad que ocurra una inundacion que puede causar danos importantes a la
infraestructura de una ciudad en un cierto ano es de 0.05. Asumiendo que existe independencia
entre la ocurrencia de las inundaciones.
(a) Calcule el numero promedio de anos hasta que ocurra una inundacion que cause danos
importantes a una ciudad.
(b) Calcule la probabilidad que el tercer ano ocurra una inundacion que cause danos importantes
a una ciudad.
(c) Si han pasado dos anos sin que ocurra una inundacion, calcule la probabilidad que pasen
dos anos mas antes que ocurra una inundacion que cause danos importantes a una ciudad
Solucion:
Definimos
X