resumen estadistica general cecilia rangel

Resumen elaborado por Cecilia Rangel para www.admycontuna.multiply.com


ESTADISTICA GENERAL

DEFINICIONES BASICAS: poblacin (universo) coleccin o conjunto completo de observaciones de

inters. Parmetro es la medida descriptiva de una poblacin total de todas las observaciones de

inters. Muestra es una pequea porcin o parte representativa de una poblacin. Es el

subconjunto de la poblacin seleccionado cientficamente. Estadstico es la medida descriptiva de

una muestra. Es a la muestra lo que el parmetro es a la poblacin. Es una estimacin del

parmetro. Variable es la caracterstica de la muestra o poblacin que se est observando. La

variable puede ser cuantitativa (expresadas numricamente) o cualitativa (se mide de manera no

numrica). Las variables pueden ser continuas (puede tomar cualquier valor dentro de un rango

dado. Generalmente resulta de la medicin) o discretas (limitada a ciertos valores, generalmente

nmeros enteros. Resultan de la enumeracin o el conteo. No tiene valores fraccionarios).

La estadstica descriptiva es el proceso de recolectar, agrupar y presentar datos para describirlos

fcil y rpidamente. La estadstica inferencial usa muestras para inferir o concluir sobre la

poblacin de la que es parte la muestra. El error de muestreo es la diferencia entre el estadstico

de la muestra usada para calcular el parmetro de la poblacin y el valor real pero desconocido del

parmetro. El error de muestreo se causa por el azar en el proceso de muestreo (seleccin de

elementos atpicos que no representan a la poblacin) o por sesgo muestral (tendencia a

seleccionar determinados elementos en vez de otros.

ESCALAS DE MEDIDA: medicin en escala nominal es cuando se usan nombres para establecer

categoras para registrarlas separadamente. No indica orden de preferencia (ej. hombre, mujer).

Medicin en escala ordinal muestra un ordenamiento secuencial de datos segn algn criterio

particular (ej. bueno, mejor). Medicin en escala de intervalo mide variables en forma numrica

y tienen rango u ordenamiento (como las ordinales), pero la diferencia entre valores es

importante, por lo que cobra significacin las operaciones de suma y resta (ej. Escala de

temperatura). El valor de cero se selecciona arbitrariamente, ya que es un punto de referencia

arbitrario. Medicin en escala de razn es un sistema numrico con cero significativo. Las

operaciones de multiplicacin y divisin toman interpretacin racional. La diferencia entre valores

tambin es importante (ej. Costos). Estas escalas incrementan en complejidad.

Objetivo 1 Datos estadsticos cualitativos y cuantitativos

Todos los trabajos de estadstica comienzan por la recoleccin de datos, que es un procedimiento

tedioso y que revela poco por s sola. Para determinar la significancia, los datos de agrupan y

organizan usando 1) tablas de frecuencia. 2) grficos. 3) tablas de contingencia y diagrama de

tallo y hoja.

METODOS DE AGRUPACION DE DATOS: 1) serie ordenada: enumera observaciones en orden

ascendente o descendente. Tiene utilidad limitada. 2) distribucin o tabla de frecuencias: ordena

los datos divididos en clases, registrando el nmero de observaciones en cada clase. Usa una

variable a la vez. Cada clase tiene un lmite inferior y uno superior. Los valores exactos de estos

lmites son muy importantes. Si los datos son continuos, es necesario permitir valores faccionarios,

cuando sea apropiado. El nmero de clases es arbitrario, entre 5 y 20 clases. Una forma de

aproximar el nmero de clases que se necesitan es a travs de 2c n, donde n es el nmero de

observaciones y c, el nmero de clases (la menor potencia a la cual se eleva 2 para que el

resultado sea igual o mayor que el nmero de observaciones). El punto medio de la clase (M) es el

promedio de los lmites superior e inferior de la clase. El intervalo de clase es el rango de valores

www.

admy

contu

na.m

ultipl

y.com



dentro de una clase. Se determina restando superior (o inferior) de una clase del lmite (inferior

(superior) de la siguiente. Los intervalos de clase deben ser iguales para facilitar la interpretacin

estadstica. A veces se usan intervalos abiertos, que no especifican un lmite inferior para la

primera clase o superior, para la ltima. El intervalo de clase tambin se puede calcular usando IC

= (valor ms grande valor ms pequeo) / numero deseado de clases. Una variante es la

frecuencia acumulada. La frecuencia acumulada ms de resta las frecuencias acumulativas de la

frecuencia de una clase para obtener la frecuencia acumulativa de la siguiente clase. La frecuencia

acumulada menor que se construye sumando las frecuencias de cada clase para obtener la de la

siguiente clase. Una distribucin de frecuencia relativa expresa la frecuencia dentro de una clase

como un porcentaje del nmero total de observaciones, dividiendo la frecuencia entre el nmero

de observaciones y multiplicando el resultado por 100. 3) tablas de contingencia: compara 2

variables, poniendo una en la parte superior y la otra, abajo. 4) grficos: a) histograma: coloca las

clases de una distribucin de frecuencia en el eje horizontal y las frecuencias en el eje vertical. b)

diagrama de barras: puede mostrar cantidades o porcentajes para 2 o ms valores sobre el eje

vertical. c) diagrama circular: muestra proporciones (porcentajes) relativas de una variable. d)

grafico de mximos-mnimos y al cierre: muestra el valor ms alto, el ms bajo y el de cierre de

instrumentos financieros. e) diagrama de tallo y hoja: hace que el histograma proporcione una

impresin visual rpida sobre el nmero de observaciones de cada clase, dividiendo cada

observacin en 2 partes (tallo y hoja), separadas por una recta vertical. El tallo y la hoja estn

colocados en series ordenadas. Si un tallo tiene un gran nmero de observaciones en su hoja, se

divide en 2 tallos independientes, en su punto medio. La unidad de hoja expresa donde colocar el

decimal.

En http://www.estadisticaparatodos.es/taller/graficas/tallos_hojas.html

El diagrama "tallo y hojas" (Stem-and-Leaf Diagram) permite obtener simultneamente una

distribucin de frecuencias de la variable y su representacin grfica. Para construirlo basta

separar en cada dato el ltimo dgito de la derecha (que constituye la hoja) del bloque de cifras

restantes (que formar el tallo). Esta representacin de los datos es semejante a la de un

histograma pero adems de ser fciles de elaborar, presentan ms informacin que estos.

Ejemplo: Horarios de trenes: Originalmente el horario ocupa una tabla de 10 filas y 9 columnas

ms una columna "viuda" con el tren de las 22:38. Un total de 91 campos con formato hh.mm

cada uno, 455 caracteres. 5.03 7.32 9.02 11.07 13.32 15.07 16.50 18.32 20.07 22.38 6.02 7.37 9.07 11.32 13.37 15.20 17.02 18.37 20.20 6.18 7.50 9.24 11.37 13.50 15.32 17.07 18.50 20.32 6.37 8.02 9.32 12.02 14.02 15.37 17.20 19.02 20.37 6.48 8.05 9.37 12.07 14.07 15.50 17.32 19.07 20.50 6.55 8.20 10.02 12.32 14.20 16.02 17.37 19.20 21.02 7.02 8.24 10.07 12.37 14.32 16.07 17.50 19.32 21.07 7.07 8.32 10.32 13.02 14.37 16.20 18.02 19.37 21.20 7.20 8.37 10.37 13.07 14.50 16.32 18.07 19.50 21.32 7.25 8.51 11.02 13.20 15.02 16.37 18.20 20.02 21.37 En el diagrama Stem & Leaf se representa la hora a la izquierda de la barra de separacin | y los

minutos de la salida de cada tren a la derecha. La frecuencia de los trenes se deduce fcilmente de

la longitud de las filas y es, adems, muy fcil ver en qu minutos de cada hora pasan tpicamente

los mismos. 05 | 03 06 | 02 18 37 48 55 07 | 02 07 20 25 32 37 50 08 | 02 05 20 24 32 37 51

www.

admy

contu

na.m

ultipl

y.com



09 | 02 07 24 32 37 10 | 02 07 32 37 11 | 02 07 32 37 12 | 02 07 32 37 13 | 02 07 20 32 37 50 14 | 02 07 20 32 37 50 15 | 02 07 20 32 37 50 16 | 02 07 20 32 37 50 17 | 02 07 20 32 37 50 18 | 02 07 20 32 37 50 19 | 02 07 20 32 37 50 20 | 02 07 20 32 37 50 21 | 02 07 20 32 37 22 | 38 Por otra parte, dado que a algunas horas se repite exactamente el horario de los trenes se puede

reducir an ms el tamao del grfico, sin perder informacin y ganando en claridad. 05 | 03 06 | 02 18 37 48 55 07 | 02 07 20 25 32 37 50 08 | 02 05 20 24 32 37 51 09 | 02 07 24 32 37 10 11 12 | 02 07 32 37 13 14 15 16 17 18 19 20 | 02 07 20 32 37 50 21 | 02 07 20 32 37 22 | 38 Al final tenemos 59 campos de 2 dgitos, 118 caracteres ms los separadores, es decir 4 veces

menos dgitos que con el horario original, menos espacio y ms claridad. Esto nos da idea de que

una disposicin apropiada de los datos puede ser doblemente informativa y que la representacin

grfica puede contribuir enormemente a la percepcin de patrones y a la comprensin de la

naturaleza de los fenmenos.

Objetivo 2 Medidas descriptivas asociadas a un conjunto de datos

MEDIA O MEDIDA DE LA TENDENCIA CENTRAL: ubica e identifica el punto alrededor del cual se

centran los datos.

MEDIA (ARITMETICA): medida de la tendencia central, tambin llamada promedio. La media de

una poblacin es (mu). Si ha N observaciones en el conjunto de datos de la poblacin, la media

es: = (X1 + X2 + .. XN) / N = Xi / N. La media de una muestra es X barra que, con n observaciones

en el conjunto de datos de la muestra se calcula con: X barra = (X1 + X2 + + Xn) / n = Xi / n.

MEDIANA: media posicional porque queda en la mitad del conjunto de datos despus de que las

observaciones se han colocado en serie ordenada. Si el conjunto de datos tiene un nmero impar

de observaciones, la posicin de la mediana es (n + 1) / 2. Si el conjunto de datos tiene un nmero

par de observaciones, se debe promediar los valores medios.

MODA: (observacin modal) es la observacin que ocurre con ms frecuencia.

MEDIA PONDERADA: se calcula con Xw = XW / W, donde Xw es la media ponderada; X es la

observacin individual y W es el peso o ponderacin asignada a cada observacin. Por lo tanto,

toma en cuenta la importancia relativa de las observaciones.

www.

admy

contu

na.m

ultipl

y.com



MEDIA GEOMETRICA: muestra cambios porcentuales en una serie de nmeros positivos.

Proporciona una media precisa de un cambio porcentual promedio en una serie de nmeros. Se

calcula tomando la raz ensima del producto de n nmeros, MG = X1 X2 Xn. Se usa para

calcular la tasa de crecimiento porcentual promedio de algunas series a travs del tiempo. Para tal

fin, primero se calcula el porcentaje de cambio entre una fecha y la inmediatamente anterior.

Luego se calcula la media geomtrica de estos porcentajes, tomando la raz elevada al nmero de

observaciones (fechas). Esta tasa de crecimiento se compara con los datos reales de incremento.

COMPARACION ENTRE MEDIA, MEDIANA Y MODA: la media es la medida ms comn de tendencia

central, pero se afecta por valores extremos o atpicos y, a diferencia de la mediana, puede ser

sesgada por observaciones muy por encima o por debajo de ella. Por ejemplo, en la muestra 4, 5,

6, 6, 7, 8, tanto la media como la mediana es 6, pero si el valor final fuera 80 en vez de 8, la media

seria 18 mientras que la mediana seguira siendo 6, ya que no se afecta por valores extremos. La

moda tampoco se afecta por valores extremos, pero su uso se hace confuso cuando no hay moda

o los datos son bimodales. La medida usada depende de la naturaleza de los datos o la forma de

usarlos.

MEDIDAS DE DISPERSION: punto hasta el cual las observaciones individuales se esparcen

alrededor de su punto central (media). Miden la dispersin o la variabilidad de los datos y reflejan

la tendencia de las observaciones individuales a desviarse de dicho punto central.

RANGO O RECORRIDO: la ms simple e intil. Diferencia entre la observacin ms alta y la ms

baja. Es fcil de calcular.

VARIANZA DE UNA POBLACION: promedio de las desviaciones respecto a su media elevadas al

cuadrado. 1) se encuentra la cantidad por la cual cada observacin se desva de la media. 2) se

elevan al cuadrado las desviaciones. 3) se haya la media de las desviaciones al cuadrado. Entonces,

la varianza de una poblacin 2 = (X1 )

2 + (X2 )

2 + (XN )

2 / N = (Xi )

2 / N, donde es la

media poblacional. Sin embargo, la varianza es un nmero muy grande respecto a las

observaciones.

DESVIACION ESTANDAR DE UNA POBLACION: se calcula con = 2, es decir, la raz cuadrada de

la varianza. Como se trabaja con una poblacin, la media es y no X barra, y el nmero de

observaciones es N y no n. En finanzas, se usa como medida de riesgo de inversin. Entre mayor

sea la desviacin estndar de las tasas de rendimiento de una inversin, mayor ser su riesgo.

VARIANZA Y DESVIACION ESTANDAR DE UNA MUESTRA: se calcula con s2 = (Xi X barra)

2 / n 1

y s = s2. n 1 es el grado de libertad. Una muestra generalmente esta menos dispersa que la

poblacin de la que se tom; entonces, la desviacin estndar de la muestra tiende a ser menor

que la de la poblacin. Por eso se usa n 1.

MEDIDAS DE TENDENCIA CENTRAL Y DE DISPERSION PARA DATOS AGRUPADOS: aproximaciones

que se usan cuando no se cuenta con observaciones individuales.

MEDIA: para calcularla, se supone que las observaciones en cada clase son iguales al punto medio

de la clase y se tiene en cuenta la frecuencia y los puntos medios de cada clase. El clculo es Xg

barra = fM / n = fM / f, donde f es la frecuencia o nmero de observaciones en cada clase, M

es el punto medio y n es el tamao de la muestra, que es igual a las frecuencias sumadas en todas

las clases.

www.

admy

contu

na.m

ultipl

y.com



MEDIANA: si se han registrado los datos en una tabla de frecuencia, no pueden colocarse en un

arreglo ordenado para calcular la mediana. Primero se calcula la clase mediana de la distribucin

de frecuencia, que es la clase cuya frecuencia acumulada es mayor o igual a n/2. La mediana se

calcula con = Lmd + [{(n/2) F} /fmd ] C, donde Lmd es el lmite inferior de la clase de la mediana, F es

la frecuencia acumulada de la clase que antecede a la clase de la mediana, fmd es la frecuencia de

la clase de la mediana y C es el intervalo de clase de la clase de la mediana.

MODA: como es por definicin la observacin que ocurre con mayor frecuencia, se halla en la

clase que tiene la frecuencia ms alta (clase modal). La frmula es: Moda = Lmo + [ D / (Db + Da) ] C,

donde Lmo es el lmite inferior de la clase modal, Da es la diferencia entre la frecuencia de la clase

modal y la clase que antecede, Db es la diferencia entre la frecuencia de la clase modal y la clase

que sigue y C es el intervalo de la clase modal.

VARIANZA Y DESVIACION ESTANDAR: si los datos estn agrupados en una tabla de frecuencia, la

varianza y la desviacin estndar se calculan con: s2 = fM

2 nX

2 barra/ n 1 y s = s

2.

OTRAS MEDIDAS DE DISPERSION: cada conjunto de datos tiene 3 cuartiles que lo dividen en 4

partes iguales. El primer cuartil es el valor debajo del cual clasifica el 25% de las observaciones y

sobre el cual se ubica el 75% restante. El segundo cuartil es la mitad, por lo que es lo mismo que la

mediana. El tercer cuartil es el opuesto del primero. Los deciles separan un conjunto de datos en

10 subconjuntos iguales y los percentiles en 100 partes. El primer decil es la observacin debajo

de la cual est el 10% de las observaciones, mientras que el 90% restante se encuentra encima de

El primer decil es la observacin debajo de la cual est el 10% de las observaciones, mientras que

el 90% restante se encuentra encima de l. El primer percentil es el valor debajo del cual est el

1% de las observaciones y encima est el 99% restante. El percentil (P) y su ubicacin (L) en un

arreglo ordenado se identifica mediante subndices. La ubicacin se calcula con Lp = (n + 1) (P /

100), donde Lp es la ubicacin del percentil deseado en la serie ordenada, n es el nmero de

observaciones y P es el percentilo deseado.

El rango o recorrido intercuartilico (interquartile range RIQ) es la diferencia entre el tercer

cuartil y el primer cuartil (P75 P25). La mitad de las observaciones estn dentro de este rango,

consta del 50% de la mitad de las observaciones y corta el 25% inferior y el 25% superior de los

puntos de datos. No se influencia por datos extremos.

USOS FRECUENTES DE LA DESVIACION ESTANDAR: la desviacin estndar es til para describir un

conjunto de datos al medir el grado de dispersin de las observaciones individuales alrededor de

su media. Teorema de Chebyshev: para todo conjunto de datos, por lo menos 1 1/K2 % de las

observaciones estn dentro de K desviaciones estndar de la media, donde K es cualquier nmero

mayor que 1. Regla emprica: una distribucin normal es una con datos continuos (no discretos),

que produce una curva simtrica en forma de campana. La media, mediana y moda son iguales. La

mitad de las observaciones est por encima de la media y la otra mitad est por debajo de esta.

www.

admy

contu

na.m

ultipl

y.com



La regla emprica dice que su se incluyen todas las observaciones que estn a una desviacin

estndar de la media (una por encima y una por debajo), estas sern el 68,3% de todas las

observaciones, independientemente de cul es la media ni la desviacin estndar. La regla

emprica tambin dice que 95,5% de las observaciones estn dentro de ms o menos 2

desviaciones estndar de la media y 99,7% de las observaciones estn dentro de ms o menos 3

desviaciones de la media.

Si las observaciones estn altamente dispersas, la curva en forma de campana se aplana y esparce,

sin perder la media. Sesgo: son distribuciones sesgadas, no normales. El pico ser la moda, pero la

media se afecta por observaciones extremas y es halada en la direccin del sesgo, ms que la

mediana. El sesgo se mide a travs del coeficiente de sesgo de Pearson P = [3(X barra mediana)]

/ s. Si P < 0, los datos estn sesgados a la izquierda, si P > 0, el sesgo es hacia la derecha y si P = 0,

los datos estn distribuidos normalmente.

Coeficiente de variacin: cuando se consideran 2 o ms distribuciones que tienen medias

significativamente diferentes, o que estn en unidades distintas, no se puede opinar acerca de la

dispersin usando la desviacin estndar. Entonces se usa el coeficiente de variacin para

determinar el grado de dispersin de un conjunto de datos relativo a su media. Se calcula

dividiendo la desviacin estndar de una distribucin entre su media y multiplicando el resultado

por 100.

Objetivo 3 Probabilidad asociada a un evento dentro de un experimento aleatorio

www.

admy

contu

na.m

ultipl

y.com



PROBABILIDAD: posibilidad numrica de que ocurra un evento. La probabilidad de un evento se

mide con valores entre 0 y 1, para menor a mayor probabilidad. La probabilidad de certeza es 1

(evento cierto); la de una imposibilidad es 0 (evento imposible). Entonces, 0 P (Ei) 1, con Ei siendo algn evento. El proceso que produce un evento es un experimento, que es toda accin

bien definida que conlleva a un resultado nico bien definido. El conjunto de todos los posibles

resultados de un experimento es el espacio muestral SS. La probabilidad de que al menos uno de

los eventos que estn en el espacio muestral ocurra es igual a 1 ( P (Ei) = 1).

INTRODUCCION A LA PROBABILIDAD: 1) modelo de frecuencia relativa (a posteriori): usa datos

observados empricamente, registra la frecuencia con que ha ocurrido algn evento y estima la

probabilidad de que el evento ocurra nuevamente. La probabilidad se estima con P = nmero de

vences que ha ocurrido el evento en el pasado / nmero total de operaciones. Debe tener un

nmero adecuado de observaciones y contar con datos pasados. 2) modelo subjetivo: establece la

probabilidad de un evento en base a la mejor evidencia disponible. Se usa cuando se desea asignar

probabilidad a un evento que nunca ha ocurrido. 3) modelo clsico (a priori): relacionado a

apuestas y juegos de azar. Se determina con P = nmero de formas en las que puede ocurrir un

evento / nmero total de posibles resultados. Implica la determinacin de la probabilidad de algn

evento a priori.

UNIONES, INTERSECCIONES Y RELACIONES ENTRE EVENTOS: un conjunto es toda reunin de

objetos. Cada conjunto tiene numerosos elementos y es posible que algunos elementos

pertenezcan a ms de 1 conjunto, por lo que comprenden la interseccin entre dichos conjuntos.

Un diagrama de Venn muestra la relacin entre conjuntos. Para que la interseccin ocurra, los

eventos A y B deben ocurrir, por lo que se llaman eventos no disyuntos (ocurren antes que la

interseccin). La unin de A y B es el conjunto de todos los elementos que estn en A o en B. Se

dice que 2 eventos son mutuamente excluyentes si la ocurrencia de uno prohbe la ocurrencia del

otro.

Los eventos colectivamente exhaustivos constan de todos los posibles resultados de un

experimentos y constituyen su espacio muestral. Su probabilidad combinada es igual a 1. Eventos

independientes son aquellos en los que la ocurrencia de uno no tiene nada que ver con la

ocurrencia del otro. En un conjunto finito, 2 eventos son independientes si y solo si se realiza el

reemplazo. Eventos complementarios son aquellos en los que si uno no ocurre, el otro debe

ocurrir. Estos eventos son, entonces, colectivamente exhaustivos. El complemento de A es no A

y se escribe con una barra arriba.

TABLAS DE CONTINGENCIA Y TABLAS DE PROBABILIDAD: suponiendo la siguiente tabla hipottica

de contingencia:

www.

admy

contu

na.m

ultipl

y.com



Genero Personal Linea Auxiliar Total

Hombres 120 150 30 300

Mujeres 50 140 10 200

Total 170 290 40 500

La tabla de probabilidad se crea tomando el total de los trabajadores (500):

Genero Personal Linea Auxiliar Total

Hombres 120/500=0,24 150/500=0.30 30/500=0.06 300/500=0.60

Mujeres 50/500=0,10 140/500=0,28 10/500=0,02 200/500=0,40

Total 170/500=0,34 290/500=0,58 40/500=0,08 500/500=1,00

Los valores en las mrgenes de la tabla se llaman probabilidades marginales (totales). Las

probabilidades conjuntas en las celdas de la estructura principal de la tabla muestran la

probabilidad de la interseccin entre 2 eventos (cifras hombre/mujer que no son totales estn

dentro de la tabla).

PROBABILIDAD CONDICIONAL: probabilidad de que el evento A ocurrir si el evento B ocurri. Se

denota con P (A B) y se calcula con la interseccin de A y B dividido entre la probabilidad de B.

esto es igual a P(A)P(BA) / P(B).

REGLAS DE PROBABILIDAD: 1) regla de la multiplicacin: se usa para determinar la probabilidad de

la interseccin entre A y B. para tal fin se multiplican sus probabilidades, y esto depende de si A y

B son dependientes o independientes. Los eventos A y B son independientes si P(A) = (A B),

entonces la probabilidad de estos eventos independientes es su interseccin, que es igual a P(A) x

P(B). Si los eventos son dependientes, entonces se debe considerar el primer evento al determinar

la probabilidad del segundo, es decir, la probabilidad del evento B depende de que A haya

ocurrido. Segn el principio de probabilidad condicional, la probabilidad de los 2 eventos

conjuntos A y B es su interseccin, que es igual a P(A) x P(B A). 2) Regla de la adicin: se usa para

determinar la probabilidad de la unin de A o B, es decir, P(A) + P(B) menos la interseccin de A y

B, esto es porque los evento A y B no son mutuamente excluyentes y as se evita el doble conteo.

Si A y B son mutuamente excluyentes, la interseccin de A y B es cero, y la formula se reduce a

P(A) + P(B).

TECNICAS DE CONTEO: al seleccionar los elementos en los subconjuntos, si el orden de las

selecciones es suficiente para constituir otro subconjunto, se hacen permutaciones. Si 2

subconjuntos son iguales ya que se reordenaron los mismos elementos, entonces hay

combinaciones. Dado un conjunto de n elementos, el nmero de permutaciones cada uno de

tamao r es nPr = n! / (n r)!, donde n! (n factorial) es el producto de todos los nmeros de 1 a n.

el factorial de cero es 1. El nmero de combinaciones de n elementos tomados r a la vez es nCr = n!

/ r! (n r)! Ni las permutaciones ni las combinaciones permiten que se seleccione un elemento

ms de una vez. Para la duplicacin, se usa el mtodo de escogencia mltiple de conteo, nMr = nr.

Si se escoge un elemento de 2 o ms conjuntos, se usa el proceso de multiplicacin, que requiere

que se multiplique el nmero de elementos en cada conjunto.

Objetivo 4 Reglas de probabilidades en eventos estadsticamente dependientes e

independientes

www.

admy

contu

na.m

ultipl

y.com



Estudiadas las 2 reglas de probabilidad (multiplicacin y adicin), se estudia el Teorema de Bayes.

Este teorema dice que P(A B) = interseccin A y B / intersecciones de A y su evento condicional

(D) ms B y su evento condicional (D) = P(A) x P(D A) / P(A) x P(D A) + P(B) x P(D B).

En http://www.ugr.es/~jsalinas/bayes.htm

El teorema de Bayes parte de una situacin en la que es posible conocer las probabilidades de que

ocurran una serie de sucesos Ai. A esta se aade un suceso B cuya ocurrencia proporciona cierta

informacin, porque las probabilidades de ocurrencia de B son distintas segn el suceso Ai que

haya ocurrido. Conociendo que ha ocurrido el suceso B, la frmula del teorema de Bayes nos

indica como modifica esta informacin las probabilidades de los sucesos Ai.

En http://www.vitutor.com/pro/2/a_17.html

E jem pl o: E l 20% de l os em pl eados de una em presa son i ngeni eros y otro 20%

son econom i stas . E l 75% de l os i ng enieros ocupan un puesto d i rect i v o y e l

50% de l os econom i stas tam bi n, m i entras que l os no i ng eni eros y l os no

econom i stas so l am ente e l 20% ocupa un puesto d i rect i v o. C u l es l a

probabi l i dad de que un em pl eado d i rect i v o e l eg i do a l azar sea i ngeni ero?

Objetivo 5 Valor esperado y varianza de una variable aleatoria, dada su distribucin de

probabilidades

VARIABLE ALEATORIA: aquella cuyo valor es el resultado de un evento aleatorio. La variable

aleatoria discreta asume solo ciertos valores, generalmente nmeros enteros y resulta

principalmente del conteo. La variable aleatoria continua resulta de la medicin y puede

tomar cualquier valor dentro de un rango dado, incluso fracciones.

DISTRIBUCION DE PROBABILIDAD: despliegue de todos los posibles resultados de un

experimento junto con las probabilidades de cada resultado.

MEDIA Y VARIAZA DE DISTRIBUCIONES DISCRETAS: la media aritmtica de una distribucin de

probabilidad es el valor esperado E(X) y se halla multiplicando cada resultado posible por su

probabilidad y sumando los resultados = E(X) = [ (x)P(xi)], donde xi son los resultados

individuales. La varianza de una distribucin de probabilidad es el promedio de las

desviaciones al cuadrado con respecto de la media 2 = [(xi )

2 P(xi)]. Mide la diferencia

www.

admy

contu

na.m

ultipl

y.com



entre cada uno de los resultados y su media. Las diferencias se elevan al cuadrado y se

multiplican por sus probabilidades, para luego sumar los resultados. La desviacin estndar es

= 2. La varianza y la desviacin estndar miden la dispersin de los resultados alrededor de

su media. La varianza se expresa en unidades al cuadrado y la desviacin estndar, en las

mismas unidades que la variable aleatoria.

Objetivo 6 Distribuciones discretas en el clculo de probabilidades

DISTRIBUCION BINOMIAL: distribucin discreta de probabilidad. Sus propiedades son: 1) tiene

2 posibles resultados, xito y fracaso, mutuamente excluyentes. 2) la probabilidad de xito es

constante de un ensayo al siguiente, igual que la probabilidad de fracaso 1 . 3) la

probabilidad de un xito en un ensayo es totalmente independiente de cualquier otro ensayo.

4) el experimento puede repetirse muchas veces. La frmula binomial es P8x) = {n! / [x!(n

x)!]} x(1 )

n-x = nCx()

x(1-)

n-x. Las probabilidades para diferentes valores de , x y n estn

tabuladas en la tabla binomial, que es limitada ya que los valores de llegan solo hasta 0,5.

MEDIA Y VARIANZA DE UNA DISTRIBUCION BINOMIAL: como hay solo 2 resultados posibles, la

media y varianza son ms fciles de calcular con media = E(X) = = n y varianza = 2 = n(1

).

DISTRIBUCIONES BINOMIALES ACUMULADAS:

De http://sauce.pntic.mec.es/~jpeo0002/Archivos/PDF/T03.pdf

Es posible que nos pidan no solo la probabilidad de que ocurran un cierto nmero de xitos en

concreto, sino que ocurran como mucho k xitos o preguntas similares. Podran pedirnos:

a) Cual es la probabilidad de que aprueben como mucho 2 alumnos?

Si xito = aprobar y fracaso = suspender, p= 0,7 y q = 0,3, entonces nos piden p(X 2). En este

caso, basta pensar en que para que aprueben 2 alumnos como mucho, puede que aprueben 2, 1 o

ninguno, es decir:

p(X 2) = p(X = 0)+p(X = 1)+p(X = 2) =0_ 0001 + 0_0012 + 0_01 = 0_1013

b) Cual es la probabilidad de que aprueben entre 3 y 6 alumnos (inclusive)?

Del mismo modo:

p(3 X 6) = p(X = 3)+p(X = 4)+p(X = 5)+p(X = 6) = 0_0467 + 0_1361 + 0_2541 + 0_2965 = 0_7334

Hemos de tener en cuenta que para la distribucin binomial, en las tablas solo se admiten valores

hasta n=10 (10 repeticiones del experimento). Para valores de n > 10, inevitablemente hemos de

utilizar la formula. Ejemplo:

Los alumnos de cierta clase se encuentran en una proporcin del 67% que estudian ingls y el

resto francs. Tomamos una muestra de 15 alumnos de la clase, calcular:

a) Probabilidad de que al menos encontremos tres alumnos de ingls.

b) Probabilidad de que los 15 alumnos estudien ingls.

c) Probabilidad de que estudien ingles entre 7 y 10 alumnos.

Si xito = estudiar ingls, p = 0,67 y fracaso = estudiar francs, q = 1-0,67 = 0,33. Manejamos por

tanto una Bin(15;0,67)

a) p(X 3) = p(X = 3)+p(X = 4)+p(X = 5)+p(X = 6)+. . .+ p(X = 15).

Una opcin es calcular estas 13 probabilidades y sumarlas. Como hay que aplicar la frmula para

calcular cada una, la tarea se puede hacer bastante larga. Otra opcin, ms sencilla, es pasar al

complementario. El complementario de encontrar al menos 3 alumnos de ingls es encontrar

como mucho 2 alumnos de ingls, p(X 2). Es decir,

www.

admy

contu

na.m

ultipl

y.com



p(X 3) = 1 p(X insertar > funcin > estadsticas (categora de

funciones) > distr.binom (nombre de funcin) > aceptar. En la casilla num-xito se coloca el

nmero de xitos; en la de ensayos, el nmero de ensayos; en la de prob-xito las

probabilidades de xito y en la casilla acumulado se coloca falso > aceptar. La respuesta

aparecer en la casilla de valor, en la esquina superior derecha y en la celda seleccionada en la

hoja de trabajo. Si se ingres verdadero en la casilla de acumulado, la probabilidad acumulada

para los xitos se reportara como tal y como aparece en la tabla correspondiente.

DISTRIBUCION HIPERGEOMETRICA: se usa si la poblacin es pequea y ocurre muestreo sin

reemplazo, es finita y conocida, y contiene una proporcin relativamente grande de la poblacin,

de manera que la probabilidad de xito sea perceptiblemente alterada de una seleccin a la

siguiente. Esta distribucin es til cuando la probabilidad de un xito no es constante. Se calcula

con P(x) = (rCx N-rCn-x) / NCn, en donde N es el tamao de la poblacin, r es el nmero de xitos de la

poblacin, n es el tamao de la muestra y x es el nmero de xitos de la muestra. En Excel, se

calcula con la funcin distr.hipergeon.

DISTRIBUCION DE POISSON: es una variable aleatoria discreta til para medir la frecuencia relativa

de un evento sobre una unidad de tiempo o espacio. Supone que la probabilidad de ocurrencia del

evento es constante para 2 intervalos cualesquiera de tiempo o espacio y que la ocurrencia del

evento en un intervalo es independiente de la ocurrencia de otro intervalo cualquiera. Se expresa

con P(x) = (xe

-) / x!, donde x es el nmero de veces en que ocurre el evento, es el numero

promedio de ocurrencias por unidad de tiempo o espacio y e es la base del logaritmo natural

(2,71828). Los valores de esta frmula estn tabulados. Tambin se puede usar Excel para este

clculo usando la funcin poisson.

Objetivo 7 Clculo de probabilidades usando la tabla de distribucin normal

DISTRIBUCION NORMAL: continua, no discreta. Se usa para reflejar la distribucin de variables,

tales como estatura, peso, distancia, etc., que son divisibles infinitamente, que resultan de las

mediciones. La forma y posicin de una distribucin normal estn determinadas por su media y

su desviacin estndar . La regla emprica especifica que, sin considerar el valor de la media o la

desviacin estndar, 68,3% de todas las observaciones est a 1 desviacin estndar de la media,

95,5% de todas las observaciones est a 2 desviaciones estndar de la media y 99,7% de todas las

observaciones est a 3 desviaciones estndar de la media. www.

admy

contu

na.m

ultipl

y.com



Puede existir un nmero infinito de distribuciones normales posibles, cada una con su propia

media y desviacin estndar. Como no se puede analizar un nmero tan grande de probabilidades,

las distribuciones normales se convierten a una distribucin normal estndar a travs de la

frmula de conversin (formula-Z), Z = (X ) / , donde Z es la desviacin normal y X algn valor

especifico de la variable aleatoria. Despus de la conversin, la media es 0 y la desviacin estndar

es 1. La desviacin normal es el nmero de desviaciones estndar a las que una observacin esta

de la media.

CALCULO DE PROBABILIDADES CON LA DESVIACION NORMAL: estandarizar una distribucin

normal permite determinar la probabilidad de que ocurra cierto evento, hallando el rea que est

debajo de la curva. El rea relacionada con un valor dado de Z esta tabulada. Esta tabla da el rea

bajo la curva desde la media hasta algn valor por encima o por debajo de esta. Entre mayor sea el

valor de Z, menor ser el rea en la cola de la distribucin. La tabla muestra que a medida que Z se

aproxima a 3,99, el rea abarcada es virtualmente el 50% por encima de la media, dejando poco

en la cola (la probabilidad es aproximadamente 0). Como la distribucin normal es continua, existe

un nmero infinito de valores que puede tomar X, por lo que incluir el valor de x no incrementa la

posibilidad de que un evento ocurra, P(X < x) = P(X x).

CALCULO DE UN VALOR x A PARTIR DE UNA PROBABILIDAD CONOCIDA: se conoce el rea y se

busca el valor correspondiente para X. Se consulta la tabla y se usa la frmula para calcular X por

despeje. Z ser negativo si se trabaja con el rea izquierda de la media.

APROXIMACION NORMAL A LA DISTRIBUCION BINOMIAL: la distribucin binomial involucra una

serie de n ensayos que pueden producir 1 xito o 1 fracaso. Las respuestas se consiguen en la

tabla binomial o con la formula, pero si n es muy grande, se usa la distribucin normal para

aproximar la distribucin binomial, que es precisa si n 5 y n(1 ) 5 y si est prximo a 0,50.

Primero se halla la media y la desviacin estndar de la distribucin normal usando = n y

= n(1 ). Debido a que existe un nmero infinito de valores posibles en una distribucin

normal o cualquier distribucin continua, la probabilidad de que la variable aleatoria sea

exactamente igual a algn valor especifico es cero. Cuando se usa una distribucin continua para

estimar una variable aleatoria discreta, se ajusta con el factor de correccin de continuidad, que

requiere que se trate la probabilidad como un intervalo de 0,5 por encima y por debajo del valor

especifico discreto dado. Luego se usa la frmula de distribucin normal Z para hallar X.

Objetivo 8 Clculo de probabilidades asociadas a las distribuciones uniforme y exponencial

DISTRIBUCION EXPONENCIAL: distribucin contina que mide el paso de tiempo entre ocurrencias.

Si el nmero de ocurrencias tiene distribucin de Poisson, el lapso entre las ocurrencias se

distribuye exponencialmente. La probabilidad de que el lapso sea menor o igual a cierta cantidad x

es P(X x) = 1 e-t

, donde t es el lapso de tiempo, e es la base del logaritmo natural (2,71828) y

www.

admy

contu

na.m

ultipl

y.com



es la tasa promedio de ocurrencia. La curva en continuo descenso muestra que con el paso del

tiempo X aumenta y la probabilidad disminuye.

X

En Excel, se calcula con insertar > funcin > estadsticas > Distr.exp. Se ingresa el valor ajustado de

t en la casilla x, la media en la casilla de lambda y verdadero en la casilla de acum, para que

la respuesta aparezca en la casilla de valor.

DISTRIBUCION UNIFORME: las probabilidades de todos los resultados son las mismas. La media o

valor esperado de una distribucin uniforme est a mitad de camino entre sus 2 extremos, y se

calcula con E(x) = = (a + b) / 2, donde a y b son los valores ms bajo y alto, respectivamente.

La varianza se calcula con 2 = (b a)

2 / 12. El rea total bajo la curva, como para todas las

distribuciones de probabilidad, debe ser igual a 1 o 100%. Ya que el rea es altura por ancho,

despejando, altura = rea / ancho = 1 / (b a), donde (b a) es el ancho o rango de la distribucin.

La probabilidad de que una observacin caiga entre 2 valores X1 y X2 es P(X1 X X2) = (X2 X1) /

rango.

www.

admy

contu

na.m

ultipl

y.com

resumen estadistica general cecilia rangel

Documents