microsoft word - probabilidad estad.stica

75
Universidad de -g Pamplon a Centro de Educación Virtual y a Distancia

Upload: romesu

Post on 30-Jul-2015

804 views

Category:

Documents


1 download

DESCRIPTION

8 SEPTIEMBRE 2012

TRANSCRIPT

Page 1: Microsoft Word - Probabilidad Estad.stica

Universidad de -g

Pamplona

Centro de Educación Virtual y a Distancia

Page 2: Microsoft Word - Probabilidad Estad.stica

Programas de Educación a Distancia

Probabilidad Estadística

Yolanda Gallardo de Parada Aurora Inés Gáfaro Rojas Sandra Patricia Valero Ortega

Formando Colombianos de BienÁlvaro González JovesRector

María Eugenia Velasco EspitiaDecana Facultad de Estudios Avanzados, Virtuales, a Distancia y Semiescolarizados

Luis Armando Portilla GranadosDirector Centro de Educación Virtual y a Distancia

Page 3: Microsoft Word - Probabilidad Estad.stica

Tabla de Contenido

Presentación Introducción

UNIDAD 1: ProbabilidadNúcleos Temáticos y Problemáticos Proceso de Información1.1 GENERALIDADES1.2 VARIABLES ALEATORIAS1.3 VALOR ESPERADO Proceso de Comprensión y Análisis

UNIDAD 2: Distribución de Probabilidades Núcleos Temáticos y Problemáticos Proceso de Información2.1 DISTRIBUCIÓN NORMAL2.2 INFERENCIA ESTADÍSTICA

2.2.1 Estimación Puntual2.2.2 Estimación por Intervalo2.2.3 Intervalos de Confianza2.2.4 Estimas Insesgadas

2.3 TAMAÑO DE LA MUESTRA2.4 TEORÍA DE LA DECISIÓN ESTADÍSTICA

2.4.1 Hipótesis Estadística2.4.2 Hipótesis Nula2.4.3 Hipótesis Alternativa2.4.4 Prueba de Hipótesis

2.5 ESTADÍSTICOS DE PRUEBA2.6 TABLA DE CONTINGENCIA O COMPARACIÓN DE COLECTIVOS

2.6.1 Análisis de Tablas de Contingencia2.6.2 Ensayos de Significación

Proceso de Comprensión y AnálisisUNIDAD 3: Regresión y Correlación

Núcleos Temáticos y Problemáticos Proceso de Información

Page 4: Microsoft Word - Probabilidad Estad.stica

3.1 DIAGRAMA DE DISPERSIÓN3.2 ANÁLISIS DE REGRESIÓN3.3 MÉTODO DE MÍNIMOS CUADRADOS 3.3.1 Recta de

Mínimos Cuadrados3.4 CORRELACIÓN

3.4.1 Correlación Lineal3.4.2 Correlación Positiva3.4.3 Correlación Negativa3.4.4 Correlación no Lineal

3.5 COEFICIENTE DE CORRELACIÓN Proceso de Comprensión y Análisis

ANEXO: Tablas

BIBLIOGRAFÍA GENERAL

Presentación

La educación superior se ha convertido hoy día en prioridad para el gobierno Nacional y para las universidades públicas, brindando oportunidades de superación y desarrollo personal y social, sin que la población tenga que abandonar su región para merecer de este servicio educativo; prueba de ello es el espíritu de las actuales políticas educativas que se refleja en el proyecto de decreto Estándares de Calidad en Programas Académicos de Educación Superior a Distancia de la Presidencia de la República, el cual define: "Que la Educación Superior a Distancia es aquella que se caracteriza por diseñar ambientes de aprendizaje en los cuales se hace uso de mediaciones pedagógicas que permiten crear una ruptura espacio temporal en las relaciones inmediatas entre la institución de Educación Superior y el estudiante, el profesor y el estudiante, y los estudiantes entre sí".

La Educación Superior a Distancia ofrece esta cobertura y oportunidad educativa ya que su modelo está pensado para satisfacer las necesidades de toda nuestra población, en especial de los sectores menos favorecidos y para quienes las oportunidades se ven disminuidas por su situación económica y

Page 5: Microsoft Word - Probabilidad Estad.stica

social, con actividades flexibles acordes a las posibilidades de los estudiantes.

La Universidad de Pamplona gestora de la educación y promotora de llevar servicios con calidad a las diferentes regiones, y el Centro de Educación Virtual y a Distancia de la Universidad de Pamplona, presentan los siguientes materiales de apoyo con los contenidos esperados para cada programa y les saluda como parte integral de nuestra comunidad universitaria e invita a su participación activa para trabajar en equipo en pro del aseguramiento de la calidad de la educación superior y el fortalecimiento permanente de nuestra Universidad, para contribuir colectivamente a la construcción del país que queremos; apuntando siempre hacia el cumplimiento de nuestra visión y misión como reza en el nuevo Estatuto Orgánico:

Misión: Formar profesionales integrales que sean agentes generadores de cambios, promotores de la paz, la dignidad humana y el desarrollo nacional.

Visión: La Universidad de Pamplona al finalizar la primera década del siglo XXI, deberá ser el primer centro de Educación Superior del Oriente Colombiano.

Luis Armando Portilla Granados. Director CEVDUP

Introducción

La importancia que tiene la matemática en el desarrollo de los procesos intelectuales del hombre es notoria a través de su historia. Fue así como en la antigüedad el pensamiento matemático contribuyó a resolver problemas en tareas económicas y constructoras de diferentes pueblos, dio la base para revelar tos misterios del mundo, es decir, dar explicaciones razonables para alcanzar la verdad de los fenómenos que lo suceden. Contrariamente a los griegos, los hombres de la edad media utilizaron el contenido matemático como una simple rutina para disciplinar la mente. Sin embargo, a partir de los trabajos de Galileo, la matemática en la edad moderna ayudó a buscar

Page 6: Microsoft Word - Probabilidad Estad.stica

explicaciones concretas de problemas que se daban en ingeniería, construcción y otras actividades prácticas del hombre.

Por tal motivo, gracias al medio, las personas están rodeadas constantemente por un conjunto de experiencias, que manejan y manipulan de una manera sorprendente. Es decir, en cierta forma se está efectuando una serie de operaciones: recoge, organiza, analiza e interpreta esas informaciones mediante unas representaciones significativas para él y así se obtiene una serie de conclusiones razonables.

Esta información que de cierta manera se manipula, se debe matematizar. Es decir, seguir un procedimiento para poder tabular la información, presentarla y así hacer el análisis respectivo para dar las conclusiones pertinentes al estudio que se está realizando.

La Estadística es utilizada en casi todas las ramas de la ciencia moderna, así como en muchos otros campos de la actividad humana. Como dijo Salomón Fabricant "todo el mundo parece hoy coincidir en que la Estadística puede ser útil para comprender, evaluar y controlar el funcionamiento de la sociedad". En nuestra sociedad, el progreso puede medirse mediante diversos índices numéricos, la estadística se utiliza para describir, manipular e interpretar estos números.

Aún cuando los tipos de problemas a los cuales puede aplicarse la Estadística como herramienta fundamental para el análisis e interpretación de resultados son bastante heterogéneos, en muchos casos los pasos de una investigación estadística son los siguientes:Primera etapa: formulación del problema. Para investigar con éxito un problema dado, primero se tienen que crear conceptos precisos, formular preguntas claras e imponer limitaciones adecuadas al problema, tomando en cuenta el tiempo, dinero disponible y la habilidad de los investigadores.Segunda etapa: diseño del experimento. Nuestro deseo es obtener un máximo de información empleando un mínimo de costo y tiempo. Esto implica, entre otras cosas, que se debe

Page 7: Microsoft Word - Probabilidad Estad.stica

determinar el tamaño de la muestra o la cantidad y tipo de datos que resolverán más eficientemente el problema. A la vez este tamaño será afectado por el método empleado para la selección de la muestra representativa.

Con respecto a la representatividad de la muestra, se debe observar que no es fácil obtener selecciones que sean completamente aleatorias. Existe el peligro de que una selección pueda ser preferida en alguna forma. Se han propuesto varios métodos para vencer esta dificultad y se han usado en la práctica. Se considera este punto dentro del desarrollo del módulo.

Tercera etapa: experimentación o recolección de datos. En general, ésta es la parte que más tiempo consume en toda investigación que sea realizada, ésta debe sujetarse a reglas estrictas. De hecho, cuanto menos opiniones impongamos, serán mejores los resultados.

Cuarta etapa: tabulación y formulación de la respuesta. Al aplicar el método estadístico antes mencionado, se obtienen conclusiones a partir de la muestra, acerca de la población correspondiente. Es decir, se va a inferir sobre la muestra y se trata de sacar conclusiones para la población. Es esta etapa la que le da el objetivo final a la estadística, puesto que se van a tomar decisiones con base en los resultados obtenidos en el estudio descriptivo de la muestra.

No existe una fórmula mágica ni única en estadística que tome en cuenta todas las situaciones prácticas concebibles. Por lo cual es necesario adquirir conocimientos generales de los métodos más importantes para hacer inferencias. En cada caso práctico debe situarse con cuidado la naturaleza del problema específico, para estar seguros de que será escogido el método más apropiado.

Con el apoyo del computador los cálculos matemáticos se hacen más fáciles, por lo tanto se recomienda utilizar e integrar un software apropiado para tal fin. En la actualidad existen varios paquetes estadísticos sencillos de manejar, tales como el Statgraphics, Sas, Minitab, Spss.

Page 8: Microsoft Word - Probabilidad Estad.stica

De común acuerdo con su Tutor se pueden desarrollar los ejercicios propuestos al final de cada tema, se puede utilizar calculadora y computador para facilidad de los cálculos.

UNIDAD 1: Probabilidad

Núcleos Temáticos y Problemáticos

• Generalidades• Variables Aleatorias• Valor Esperado

Proceso de Información

1.1 GENERALIDADES

En la vida cotidiana, se observa que el hombre está constantemente tomando decisiones donde intervienen acontecimientos, como son los juegos de azar, el clima, la genética, etc. Estos sucesos probables, son juicios u opiniones que pueden ser a la vez probablemente verdaderos y probablemente falsos.

Cuando los datos a estudiar son una muestra de una población el problema central es inferir las propiedades de ésta a partir de la muestra. El instrumento conceptual que permitirá esta generalización es un modelo de la población, es decir, una representación simbólica de su comportamiento. Los modelos estadísticos van a actuar de puente entre lo observado (muestra) y lo desconocido (población). Su construcción y estudio es el objetivo del cálculo de probabilidades.

Por lo anterior se nota que el problema central de la estadística es, a partir de una muestra, hacer inferencia de tipo probabilístico sobre la población. Por ejemplo si en una muestra de 100 personas, 28 tienen estudios universitarios, se puede decir que

Page 9: Microsoft Word - Probabilidad Estad.stica

más o menos 2800 de 1000000 de habitantes de una ciudad tienen estudios universitarios.

Lo importante es precisar este "más o menos". Por ejemplo se puede decir que con un 95% de seguridad hay entre 2500 y 3100 personas con estudios universitarios.El primero que intentó definir la probabilidad matemáticamente fue Laplace. "la proporción del número de casos favorables al número de casos posibles, siempre que todos los resultados sean igualmente probables".

Casos FavorablesP (E) =--------------------------

Casos Posibles

Esta fórmula quiere decir que si se tiene un suceso E tiene f posibilidades de ocurrir entre un total de n posibilidades, cada una de las cuales tiene la misma oportunidad de ocurrir que las demás. Entonces la probabilidad de que ocurra ese evento E (o sea un éxito) se denota por:

fP (E) =------= p

n

Ejemplo

Sea E el suceso de que al tirar un dado una vez salga:

• Un 3

Hay seis formas de caer el dado: S = {1, 2, 3, 4, 5, 6}; y si el dado es bueno, se puede suponer que las seis tienen la misma oportunidad de salir. Entonces, la probabilidad que salga un 3 es: P (3) = 1/6. La probabilidad que al lanzar el dado una vez salga un tres es de 1/6 = 0.17 o del 17%.

Page 10: Microsoft Word - Probabilidad Estad.stica

• Un 3 o un 4

Como E puede ocurrir de dos formas, se tiene que: P (E) = P (3) + P (4) = 1/6 + 1/6 = 2/6 = 1/3 = p. Entonces la probabilidad que salga un 3 o un 4 al lanzar el dado es de 1/3. O hay una probabilidad del 33.3% que al lanzar el dado salga un 3 o un 4.

NOTA. Para cualquier evento E la probabilidad de E es un número real entre O y 1. es decir: 0<P (E) <1. Además la probabilidad se expresa en términos de Porcentaje.

Ejemplos

Suponer que en un supermercado existen 80 productos enlatados, de los cuales 30 de ellos son de color verde y el resto rojos. Si extraemos al azar un producto de estos enlatados:

• ¿Cuál es la probabilidad de que el producto esté enlatado

de color verde? P (V) = 30/80 = 3/8 = 0.375 = 37.5%

• ¿Cuál es la probabilidad de que el artículo esté enlatado

de color rojo? P (R) = 50/80 = 5/8 = 0.625 = 62.5%

• ¿Cuál es la probabilidad de que el artículo esté enlatado

de color negro? P (N) = 0/80 = 0

• ¿Cual es la probabilidad que salga el enlatado de color verde

o de color rojo? P (VOR) = 3/8 + 5/8 = 1= 100%NOTA. El evento C es llamado evento imposible y su probabilidad es O. El evento D es un evento seguro, si la probabilidad es 1.

1.2 VARIABLES ALEATORIAS

Una variable X es una variable aleatoria si los valores que toma corresponden a los distintos resultados posibles de un

Page 11: Microsoft Word - Probabilidad Estad.stica

experimento, y por ello el hecho de que tome un valor particular es un evento aleatorio.

Por ejemplo, considérese el muestreo de 20 deportistas a los que se les pregunta su preferencia por el refresco A o B. El número de deportistas que prefiera el producto A puede considerarse como una variable aleatoria X, puede tomarcualquiera de los valores O, 1, 2, 20. Cada uno de estos valores corresponde aun resultado posible del experimento consistente en la extracción de una muestra de 20 deportistas y el consiguiente registro del número de ellos que prefieren el producto A.La variable X as una variable aleatoria, ya que el valor que tomará al llevar a cabo el experimento no puede predecirse con certeza; esto es, el hecho de que X tome un valor determinado, por ejemplo el 4, es en si, un evento aleatorio.

Las variables aleatorias se clasifican en dos tipos: discretas o continuas. Una variable aleatoria discreta, es aquella que toma valores enteros, como por ejemplo el número de personas, ciudades, teatros, etc. Una variable aleatoria continua es aquella que puede tomar valores no necesariamente enteros, por ejemplo las distancias, pesos, estatura, tiempo, etc.

1.3 VALOR ESPERADO

El valor esperado de una variable aleatoria discreta se define como el producto del tamaño de la muestra por la probabilidad.

Ve = n * p

* Cuál es la esperanza matemática que un hombre gane un premio de $100000 si su probabilidad es de 1/5?

Ve = 100000* 1/5 = 20000

Significa que el hombre ganará $20000 si sale favorecido para el premio.

Page 12: Microsoft Word - Probabilidad Estad.stica

Al valor esperado se le llama "Esperanza Matemática". Además, si X denota una variable aleatoria discreta que puede tomar los valores X1, X2,....Xk conprobabilidades p1, p2, pk, la esperanza matemática de X denotada E (X), sedefine como:

E (X) = P1X1 + P2X2 ++ PkXK = ZpX

Ejemplo: Un examen de admisión fue presentado por 300 estudiantes. ¿Cuántos estudiantes obtendrán un puntaje superior a 90, con una probabilidad del 6%?

Solución

Se sabe que la probabilidad de obtener un puntaje superior a 90 es del 6% entonces:

Ve = 300 * O.06 = 18 alumnos

Lo que quiere decir que se espera que 18 alumnos de los 300 obtendrán un puntaje superior a 90.

Page 13: Microsoft Word - Probabilidad Estad.stica

Probabilidad Estadística 13

• En el lanzamiento 900 veces de dos dados. ¿Cuál es la esperanza de que la suma de sus caras sea un valor menor a 6?

Solución

Primero se obtiene la probabilidad de éxito del suceso en un solo ensayo, es decir que al lanzar los dados la suma de sus valores sean menor de 6:

(1,1) (1,2) (1,3) (1,4) (2,1) (2,2) (2,3) (3,1) (3,2) (4,1) = 10: entonces la probabilidad será 10 lanzamientos de 36 posibilidades P = 10/36.

Como se lanzan 900 veces los dos dados, se obtiene:

109000

------= 25036

La esperanza es que en 250 de los 900 lanzamientos, la suma de sus caras sea menor de 6.

• Un boleto de una rifa ofrece dos premios, uno de $5.000.000 y otro de $2000.000, con probabilidades 0.001 y 0.003. ¿Cuál sería el precio justo a pagar por él?

Solución

E (X) = (5.000.000) (0.001 ) + (2000.000) (O.003) = 5000 + 6000 = 11000; el precio justo a pagar es de $11000.

Proceso de Comprensión y Análisis

• En una caja hay 10 bolas rojas y 6 blancas. ¿Si se extrae una bola de la caja, cuál es la probabilidad de que la bola sea blanca?

UNIVERSIDAD DE PAMPLONA - Centro de Educación Virtual y a Distancia

Ve = 90036

Page 14: Microsoft Word - Probabilidad Estad.stica

Probabilidad Estadística 14

• En un grupo de 48 estudiantes, 12 de ellos expresan preferencia por el ajedrez; ¿cuál es la probabilidad de que al seleccionar un estudiante éste exprese preferencias por el ajedrez?

• En una población de 50000 habitantes 7500 son mayores de 60 años. ¿Cuál es la probabilidad que al seleccionar un habitantes este tenga una edad inferior a los 60 años?

• Suponer que en una fábrica se producen 5000 artículos eléctricos. 200 de ellos son defectuosos. ¿Cuál es la probabilidad de que al seleccionar un artículo de esa fábrica, el artículo no sea defectuoso?.

• Suponer que en una fábrica de productos lácteos el 15% de los artículos tienen fecha de vencimiento fuera de lo normal. ¿Cuál es la probabilidad de que al seleccionar un artículo lácteo de esta fábrica tenga fecha de vencimiento fuera de lo normal?

• Suponer que un vendedor de seguros ofrece este servicio a 5000 personas de las cuales el 20% de ellas adquiere el seguro. ¿Cuál es la probabilidad de que al seleccionar una de estas personas halla comprado el seguro?

• Cuál es la probabilidad de que al lanzar un dado:

- Aparezca el número 3- Aparezca un número par- Aparezca un número múltiplo de 7

• Suponer que en un grupo de 60 estudiantes, 20 de ellos obtuvieron una nota de matemática sobresaliente, 30 bueno y los demás insuficiente.

- ¿Cuál es la probabilidad de que al seleccionar un alumno, éste tenga una nota Sobresaliente?.

- Cuál es la probabilidad de que al seleccionar un alumno insuficiente?.- Cuál es la probabilidad de que al seleccionar un alumno sobresaliente o bueno?.- Cuál es la probabilidad de que al seleccionar un alumno

sobresaliente, buena o insuficiente?

UNIVERSIDAD DE PAMPLONA - Centro de Educación Virtual y a Distancia

, éste tenga una

nota , éste tenga

una nota , éste

tenga una nota

Page 15: Microsoft Word - Probabilidad Estad.stica

Probabilidad Estadística 15

• Determinar o estimar, la probabilidad de los siguientes sucesos:

- Una tirada de un dado resulte impar.- Al menos una cara en dos tiradas de una moneda.- Un as, el 10 de diamantes o el 2 de picas aparezca al sacar una

sola carta de una baraja francesa de 52 naipes.- La suma de dos dados sea 7.

• De una baraja de 52 naipes, mezclados al azar, se sacan dos naipes. Hallar la probabilidad de que ambos sean ases si el primer naipe extraído:

- Se devuelve a la baraja.- Si no se devuelve.

• Clasificar las siguientes variables aleatorias como continuas o discretas:

- Un banco no sabe con exactitud cuantos clientes llegarán un día determinado.

- El peso de las cajas de tomate.- El número de accidentes que ocurren en una semana.- El tiempo de duración de una conversación telefónica.- Número de años que deben transcurrir para que una empresa logre

que sus acciones valgan seis millones de pesos.- El número de autos que entran a un parqueadero.- El tiempo que gastamos en ir de la casa al trabajo.- El número de clientes esperando servicio en la caja de un

supermercado.- Las ventas semanales de una almacén.- El número de robos ocurridos en un almacén en determinado

período detiempo.

• Si se llama X a la variable aleatoria que indica el número de hijos varones en una familia de 3 hijos, ¿cuáles son los posibles valores que toma esta variable?

• Sea X la suma de puntos obtenida al lanzar dos dados. Determinar los posibles valores que puede tomar la variable.

UNIVERSIDAD DE PAMPLONA - Centro de Educación Virtual y a Distancia

P (Xj)

0 1 23

4

0.20 0.30 0.30 0.115 0.05

Page 16: Microsoft Word - Probabilidad Estad.stica

Probabilidad Estadística 16

¿Cuántas neveras espera vender en la próxima semana?

• En los concursos para la obtención de contratos, es usual que los contratistas se sometan a concurso sí sus expectativas, teniendo en cuenta el tipo de proyecto y al resto de participantes, les indican que sus ganancias estarán por encima de cierta cantidad. Suponer que un contratista considera un proyecto en el cual ganará 50 millones de pesos si le es otorgado. El costo de preparación del proyecto, si lo somete a concurso, es de 5 millones de pesos y el propio contratista piensa que la probabilidad de que gane el concurso es 0.4.

Finalmente, el contratista ha decidido concursar sí su ganancia esperada es de por lo menos 12 millones de pesos. ¿Debe someterse a concurso para este proyecto?

• Un fabricante de llantas para automóviles ha conservado registros sobre la calidad de su producto y tiene la siguiente tabla sobre el número de defectuosos encontrados en 100 llantas examinadas:

Número de defectos

- Construir la función de probabilidad.- Calcular e interpretar el valor esperado.

• Un vendedor de automóviles tiene la oportunidad de trabajar con el comerciante A o con el comerciante B. El vendedor evalúa los prospectos de venta de cada comerciante de automóviles de la siguiente manera:

Comerciante A

UNIVERSIDAD DE PAMPLONA - Centro de Educación Virtual y a Distancia

Número de llantas

0 1 2345

60 22 8 5 3 2

Comerciante B

P (x) 0.4 0.3 0.2 0.1

P (x) 0.2 0.6 0.2 0.0

X 0 1 2 3

X 0 1 2 3

Page 17: Microsoft Word - Probabilidad Estad.stica

Probabilidad Estadística 17

¿Esperaría vender más automóviles con el vendedor A que con el B?

UNIVERSIDAD DE PAMPLONA - Centro de Educación Virtual y a Distancia

Page 18: Microsoft Word - Probabilidad Estad.stica

Probabilidad Estadística 18

• Una firma aseguradora ha determinado por experiencias, en un período largo de tiempo, que la probabilidad de que ocurra un robo en una casa asegurada contra este delito, es de 0,02. Si se tiene una póliza de seguros por $10'000.000 y si X es la ganancia financiera anual para la compañía de seguros como resultado de la venta de la póliza y sea C la prima anual desconocida.

Calcular el valor de C de manera que la ganancia esperada E (X), sea igual a cero. Entonces C es la prima necesaria para cubrir los gastos. A esta cifra la compañía añadirá los costos administrativos y las utilidades.

• En un juego de moneda, entre dos personas, con un premio de $1000 por aparición de cara. ¿Cuál es la esperanza de ganar con el resultado de cara?

• En un negocio aventurado, una señora puede ganar $3.000.000 con probabilidad de 0.6, o perder 1.000.000 con probabilidad de 0.4. Hallar su esperanza matemática.

• Si llueve, un vendedor de paraguas gana $30.000 al día y si no llueve pierde $6000 al día. ¿Cuál es su esperanza matemática si la probabilidad de lluvia es 0.3?

UNIDAD 2: Distribución de Probabilidades

Núcleos Temáticos y Problemáticos

• Distribución Normal• Inferencia Estadística• Tamaño de la Muestra• Teoría de la Decisión Estadística• Principales Estadísticos de Prueba• Tabla de Contingencia o Comparación de Colectivos

UNIVERSIDAD DE PAMPLONA - Centro de Educación Virtual y a Distancia

Page 19: Microsoft Word - Probabilidad Estad.stica

Probabilidad Estadística 19

Proceso de Información

Las probabilidades asignadas a cada uno de los valores que puede tomar una variable aleatoria discreta X, se denominan distribuciones de probabilidad, si la suma de las probabilidades es igual a 1.

Por ejemplo, considerar el evento de lanzar un dado. Entonces la variable aleatoria X = 1, 2,3, 4, 5, 6. Las probabilidades asignadas a cada valor de X son:

P (1) = 1/6; P (2) = 1/6; P (3) = 1/6; P (4) = 1/6; P (5) = 1/6; P (6) = 1/6

Estas probabilidades forman una distribución de probabilidad, puesto que P (1) + P (2) + P (3) + P (4) + P (5) + P (6) = 1

Si X es una variable aleatoria discreta las principales distribuciones son:

• Bernoulli• Binomial• Poisson

UNIVERSIDAD DE PAMPLONA - Centro de Educación Virtual y a Distancia

Page 20: Microsoft Word - Probabilidad Estad.stica

Probabilidad Estadística 20

Si X es una variable aleatoria continua las principales distribuciones son:

• Uniforme• Normal• T - student• Chi - cuadrado

Cada una de ellas tiene su comportamiento característico y será objeto de estudio posteriormente.

2.1 DISTRIBUCIÓN NORMAL

Muchas distribuciones de mediciones que se hacen tanto en las ciencias sociales como en las ciencias naturales, tienden a tener un polígono de frecuencias con una forma que se asemeja al corte transversal de una campana.

Esta distribución se observa más cuando el número de observaciones es grande y cuando en muchos casos las investigaciones se realizan con muestras de poblaciones grandes; en la mayoría de los casos las distribuciones tienden a aproximarse a la curva en forma de campana ya mencionada.

El modelo de distribución de probabilidad para variables continuas más importante es esta, cuya función de densidad es:

1e-1/2 (x-|)2/° 2

tV2TC

UNIVERSIDAD DE PAMPLONA - Centro de Educación Virtual y a Distancia

F(x)=

Page 21: Microsoft Word - Probabilidad Estad.stica

Probabilidad Estadística 21

UNIVERSIDAD DE PAMPLONA - Centro de Educación Virtual y a Distancia

Donde | es la media aritmética y a es la desviación estándar cuya gráfica es la siguiente:

Page 22: Microsoft Word - Probabilidad Estad.stica

Probabilidad Estadística 22

La distribución normal juega un papel primordial en la Estadística. Sin exagerar se puede decir que es la más importante. Esto se debe a varias razones:

• Muchas variables que aparecen en experimentos prácticos están distribuidas normalmente.

• Otras variables están distribuidas aproximadamente a la normal.

• Ciertas distribuciones más complicadas se pueden aproximar por lo normal.

• Algunas variables que son básicas para justificar pruebas estadísticas están distribuidas normalmente.

El área total limitada por la curva y el eje X es uno (1); de aquí que el área bajo la curva entre dos puntos de X a < b, representa la probabilidad de que X se encuentre entre a y b, se denota: P {a < x < b}.

En la tabla de área bajo la curva normal tipificada Z (que aparece al final como anexo), están las áreas o probabilidades correspondientes a las variables tipificadas.

X - ^Una variable X se tipifica así: Z =--

a

Ejemplo

• Los resultados de un examen de admisión en un colegio tienen una distribución normal con media 75 y desviación estándar 10. ¿Qué fracción de resultado quedan?

- ¿Superior a 90?- ¿Inferior a 60?- ¿Entre 70 y 90?

Solución

• Para aplicar la distribución normal a datos discretos es necesario tratar los datos como si fuesen continuos, así, un puntaje superior a 90 se considera 90.5.

- ¿Superior a 90?

Es necesario tipificar la variable X = 90.5, por tanto:

UNIVERSIDAD DE PAMPLONA - Centro de Educación Virtual y a Distancia

Page 23: Microsoft Word - Probabilidad Estad.stica

Probabilidad Estadística 23

= 1.55

La proporción o fracción pedida corresponde al área sombreada y es igual a:

0.5 - 0.4394 = 0.0606 = 6%. 0.5 es el valor correspondiente a la mitad de la curva; 0.4394 es el valor tomado de la tabla, área bajo la curva.

Lo que significa que el 6% de los aspirantes obtuvieron una nota superior a 90 en el examen de admisión.

- ¿Inferior a 60?

59.5 - 7.5 - 15.5Es necesario tipificar 59.5: z =-----------= =1.55

10 10

UNIVERSIDAD DE PAMPLONA - Centro de Educación Virtual y a Distancia

10

10

Z =15.590.5 - 75

Page 24: Microsoft Word - Probabilidad Estad.stica

Probabilidad Estadística 24

UNIVERSIDAD DE PAMPLONA - Centro de Educación Virtual y a Distancia

Page 25: Microsoft Word - Probabilidad Estad.stica

Probabilidad Estadística 25

La proporción o fracción pedida corresponde al área sombreada y es igual a 0.5 - 0.4394 = 0.0606 = 6%. 0.5 es el valor correspondiente a la mitad de la curva; 0.4394 es el valor tomado de la tabla, área bajo la curva.

Lo que significa que el 6% de los aspirantes obtuvieron una nota inferior a 60 en el examen de admisión.

- Entre 70 y 90

Se hace necesario tipificar los dos valores:

69.5 - 75 -5.5Zi =----------=-----------= -0.55

10 10

El área que hay de 0 a - 0.55 es igual al área que hay de 0 a 0.55 puesto que la gráfica es simétrica con respecto al eje Y. En la tabla anexo corresponde a 0.2088.

90.5 - 75 15.5Z2 =------------=----------------= 1.55 = 0.4394

10 10

UNIVERSIDAD DE PAMPLONA - Centro de Educación Virtual y a Distancia

La proporción o fracción pedida corresponde al área sombreada y es igual a 0.2088 + 0.4394 = 0.6482 = 64.8%.

Lo que quiere decir que el 64.8% de los aspirantes obtuvieron una nota entre 70 y 90 en el examen de admisión.

Page 26: Microsoft Word - Probabilidad Estad.stica

Probabilidad Estadística 26

2.2 INFERENCIA ESTADÍSTICA

En la mayor parte de los estudios estadísticos, los parámetros poblaciones son desconocidos y es necesario estimarlos mediante una muestra, ya que no es posible, o no es práctico (en función del tiempo o del costo), inspeccionar la totalidad de la población. Por tanto, el desarrollo de métodos para estimar el valor de los parámetros poblacionales con mayor precisión posible. El que produce artículos deportivos podría estar interesado en averiguar el promedio de unidades defectuosas por cada lote de 1000 artículos sin tener que inspeccionar todos y cada uno de ellos. El psicólogo que desea determinar el cociente medio de inteligencia de los estudiantes de una universidad tendrá que confiar en una información muestral. En tales casos hay que usar un estadístico, tal como la media aritmética, como estimador del parámetro poblacional. Si quiere conocerse el grado de dispersión de los artículos deportivos defectuosos en los diversos lotes, o la variabilidad de los cocientes de inteligencia, entonces será necesario estimar también este parámetro a partir de los datos muéstrales.

Las variables aleatorias utilizadas para estimar los parámetros poblacionales reciben el nombre de estimadores en tanto que los valores específicos de estas variables se llaman estimaciones de los parámetros poblacional.

Así, las variables aleatorias Xy S2, son estimadores de los parámetros poblacionales | a 2 . Un valor específico de X, tal como X = 280, es una estimación de | . Un valor específico de S2 = 18,2 es una estimación de a2.

Donde:

• X significa media aritmética muestral.• | significa media aritmética de la población.• S desviación estándar muestral.• a desviación estándar de la población.

La estimación se puede realizar de dos formas: estimación puntual y estimación por intervalos.

2.2.1 Estimación Puntual

Es en donde queremos determinar un valor numérico que nos sirva como aproximación.

UNIVERSIDAD DE PAMPLONA - Centro de Educación Virtual y a Distancia

Page 27: Microsoft Word - Probabilidad Estad.stica

Probabilidad Estadística 27

Ejemplo: la estimación puntual del puntaje promedio de las pruebas de ICFES obtenido por los estudiantes de cierto colegio de Pamplona en el último año fue de 280, lo que significa que nuestra mejor estimación de la media poblacional es 280.

2.2.2 Estimación por Intervalo

Es en donde no nos interesa saber un valor fijo sino solamente calcular dos valores, dentro de los cuales podemos asegurar con una probabilidad dada, que está el valor verdadero de nuestro parámetro.

Ejemplo: con un 95% de seguridad el puntaje promedio de las pruebas ICFES en Pamplona está entre 260 y 300 puntos.

Para construir los intervalos de estimación se requiere conocer la distribución de la cual proviene la muestra y el margen de error o seguridad que se desee. Las estimaciones por intervalos indican la exactitud de una estima, y por tanto, son proferidas a las estimas puntuales.

2.2.3 Intervalos de Confianza

En las estimaciones por intervalo no nos interesa calcular un valor fijo para el parámetro desconocido, sino más bien buscamos dos valores a y b de los cuales podemos afirmar con un determinado grado de seguridad que el valor verdadero del parámetro desconocido está contenido. Es decir, buscamos los valores a y b tal que con un margen de seguridad, tenemos la probabilidad de que el parámetro se encuentre en ese intervalo.

Si la distribución muestral es aproximadamente normal, el estadístico X (media de la muestra), los límites de confianza del 95% y 99% para la estimación de la media poblacional m., vienen dados por:

a a

X ± 1.96------y x ± 2.58-- - -respectivamente.Vn Vn

aEn forma general, los límites de confianza son dados por: x ± Zc

VnDonde Zc depende del nivel de confianza que en cada caso se desee y puede obtenerse de la siguiente tabla:

UNIVERSIDAD DE PAMPLONA - Centro de Educación Virtual y a Distancia

Page 28: Microsoft Word - Probabilidad Estad.stica

Probabilidad Estadística 28

Un estadístico es jnsesgado si su esperanza es igual al correspondiente parámetro poblacional. Así, X yS2 son insesgados porque E{x} = p y E{s2}=a2.

• La media muestral X es una estima insesgada de la media poblacional ^• La desviación estándar muestral dividida por n - 1 es una estima

insesgada de la desviación estándar poblacional a.

Ejemplo

En una muestra de cinco medidas, un científico anotó 6.33, 6.37, 6.36, 6.32 y 6.37 cm. Determinar estimaciones insesgadas con respecto a la varianza.

Solución: la estimación sin sesgo de la varianza o sea, de la población es

N E (X - X)2

S2 =-----S2 =-----------------N - 1 N - 1

(6.33 - 6.35)2 + (6.37 - 6.35)2 + (6.36 - 6.35)2 + (6.32 - 6.35)2 + (6.37 - 6.35)2

S2 = ________________________________________________________________5 - 1

S2 = 0.00055 cm2

2.3 TAMAÑO DE LA MUESTRA

Uno de los principales problemas que se debe resolver antes de efectuar un trabajo de investigación que requiere recolección de información muestral es la determinación del tamaño de la muestra. Dado que el muestreo es costoso y requiere de tiempo, el objetivo al seleccionar una muestra es obtener una cantidad especifica de información a un costo mínimo.

UNIVERSIDAD DE PAMPLONA - Centro de Educación Virtual y a Distancia

Nivel de

confianza

99% 95% 90% 80% 50%

Z< 2.58 1.96 1.645 1.28 0.67452.2.4 Estimas Insesgadas

Page 29: Microsoft Word - Probabilidad Estad.stica

Probabilidad Estadística 29

Esto se puede llevar a cabo estableciendo un margen de error de estimación (que mide la cantidad de información) y posteriormente aplicando la fórmula apropiada para la estimación del tamaño de la muestra.Cuando la población es uniforme, una muestra pequeña produce la misma cantidad de información que una muestra grande; por lo tanto un médico puede basar su diagnóstico en el análisis de una sola gota de sangre del paciente; seleccionar una muestra en estos casos es un desperdicio de tiempo y dinero.

Por otro lado, si la población consiste en elementos muy diferentes entre si, una muestra pequeña puede ser un reflejo muy deficiente de las características de la población. En un estudio para estimar la estatura promedio de los estudiantes de sexo masculino de una determinada universidad, una muestra pequeña de n = 3 estudiantes, puede por azar consistir únicamente en miembros del equipo de Basketboll. Una muestra aleatoria de n = 100 estudiantes proporciona una cobertura mucho más amplia y por lo tanto, mayor información sobre las estaturas de los estudiantes de sexo masculino.

Las decisiones sobre el tamaño de la muestra se toman de acuerdo a la variabilidad inherente en la población de mediciones y a la exactitud que se requiere del estimador.

A mayor variabilidad de la población, mayor es el tamaño de la muestra que se requiere para mantener un determinado grado de exactitud en la estimación.

Según los criterios expuestos, el tamaño de la muestra se puede obtener aplicando la siguiente fórmula:

Mzc2P(1 - P)n =---------------------

ME2+Zc2P(1 - P)

Donde:

n = Tamaño de la muestra. M = Tamaño de la población.Zc = Valor crítico para la distribución normal según margen de error. P = Valor de la probabilidad de variabilidad de la población. Se toma 0.5 como máxima variabilidad. E = Margen de error

UNIVERSIDAD DE PAMPLONA - Centro de Educación Virtual y a Distancia

Page 30: Microsoft Word - Probabilidad Estad.stica

Probabilidad Estadística 30

Ejemplo

• Un profesor de Educación Física del Colegio Provincial de Pamplona, desea conocer el peso promedio de los estudiantes matriculados durante 2001 en ese plantel. Según informes de la coordinación hay 1800 alumnos matriculados, dado que no dispone del tiempo suficiente para pesar a todos los alumnos, decide seleccionar una muestra aleatoria por estratos (grados académicos) con un margen de error del 5% y 95% de confiabilidad.

El tamaño de la muestra en este caso será:

1800(1.96)2 - (0.5)(0.5)n =-------------------------------------------= 316

1800(0.05)2 +(1.96)2(0.5)(0.5)

M = 1800, tamaño de la población.Zc = 1 .96, corresponde al valor crítico para un 5% de error (95% de seguridad).P = 0.5 se ha considerado la máxima probabilidad de variabilidad para la población.E = 0.05 corresponde al margen de error 5%.

• Se desea realizar una investigación para conocer los problemas que se vienen presentando en los colegios y escuelas de Cúcuta con relación a la falta de motivación para la práctica de la lectura.

Según las estadísticas de la Secretaría de Educación hay 120.500 alumnos matriculados en los niveles de primaria y secundaria, con un margen de error del 5%, la muestra que se seleccione al azar debe tener un tamaño de:

120500(1.96)2 - (0.5)(0.5)n =----------------------------------------------= 383

120500(0.05)2 + (1.96)2 (0.5)(0.5)

2.4 TEORÍA DE LA DECISIÓN ESTADÍSTICA

Muy a menudo, en la práctica, se tienen que tomar decisiones sobre poblaciones, partiendo de la información muestral de las mismas. Tales decisiones se llaman decisiones estadísticas.

Por ejemplo se puede querer decir a partir de los datos de un muestreo, si un fertilizante es mejor que otro, si el nuevo sistema de evaluación es

UNIVERSIDAD DE PAMPLONA - Centro de Educación Virtual y a Distancia

Page 31: Microsoft Word - Probabilidad Estad.stica

Probabilidad Estadística 31

mejor que el antiguo, si una vacuna es efectiva, si el índice de desempleo de este año superó el del año pasado, etc.Para llegar a tomar decisiones, conviene hacer determinados supuestos o conjeturas acerca de las poblaciones que se estudian. Tales supuestos que pueden ser o no ciertos se llaman hipótesis estadísticas.

2.4.1 Hipótesis Estadística

Una hipótesis estadística es una suposición que se hace acerca de la distribución de una variable aleatoria. Por ejemplo, que cierta distribución tiene una media aritmética de 20,3.

2.4.2 Hipótesis Nula

Es la hipótesis de trabajo o hipótesis a aprobar. Se denota por Ho. Se construye artificialmente para que el investigador evalúe su hipótesis de investigación.

2.4.3 Hipótesis Alternativa

Cualquier hipótesis que difiera de una hipótesis dada se llama hipótesis alternativa; por ejemplo si la hipótesis de trabajo Ho es que el tiempo promedio de recorrido en una competencia es de 4 horas; las hipótesis alternativas son que el tiempo promedio de recorrido es diferente de 4 horas.

Ho: | = 4 horas H1: | * 4 horas

2.4.4 Prueba de Hipótesis

El razonamiento que se emplea en la prueba de una hipótesis es muy semejante al que se emplea en un proceso judicial. Al juzgar a un individuo por robo, la corte supone que el acusado es inocente mientras no se pruebe su culpabilidad. El fiscal debe obtener y presentar todas las evidencias disponibles en un intento por contradecir la hipótesis de "no - culpabilidad".

Lo que se conoce en la inferencia estadística como pruebas de hipótesis consiste en verificar, por medio de una prueba, la validez de una determinada proposición.

En un problema estadístico el procedimiento a seguir en una prueba de hipótesis es el siguiente:

• Formular la hipótesis nula Ho.

UNIVERSIDAD DE PAMPLONA - Centro de Educación Virtual y a Distancia

Page 32: Microsoft Word - Probabilidad Estad.stica

Probabilidad Estadística 32

• Formular la hipótesis alternativa H1, de tal manera que el rechazo de la hipótesis nula implique la aceptación de la alternativa.

• Se escoge convenientemente un estadístico de prueba. Esto quiere decir, elegir con base en una muestra (si no lo hay es necesario efectuarlo), un estimador sobre el cual estamos efectuando la prueba, de tal manera que conozcamos su distribución.

• Se elige un margen de error. Este margen se denomina comúnmente el nivel de significación y se denota por a.

• Se determina la región de aceptación y la de rechazo. Estas regiones se determinan de acuerdo al estadístico de prueba utilizado y al margen de error elegido.

• Se toma una decisión. Si como resultado de la realización de un experimento se obtiene un valor contenido en la región de rechazo, se rechaza la hipótesis nula, en cuyo caso se acepta H1: si se obtiene un valor contenido en la región de aceptación, se acepta la hipótesis nula.

Desde el punto de vista del estadístico, el problema que se presenta en una prueba de hipótesis es determinar cuál estadístico utilizar.

Para seleccionar el estadístico de prueba se debe tener en cuenta la hipótesis nula, los datos conocidos de la población y de la muestra y el tamaño de la muestra.

2.5 ESTADÍSTICOS DE PRUEBA

Los principales estadísticos de prueba son:

• La distribución normal• La distribución t - student• La distribución X2 (chi cuadrado.)• La distribución F - Fisher

Ejemplo

Suponer que sé desea realizar un trabajo para experimentar una nueva metodología de la enseñanza en el español en 5o. de primaria. Para tal fin se seleccionaron dos colegios uno experimental y otro de control. Los resultados obtenidos en una prueba, después de realizar las actividades previstas fueron las siguientes:Grupo de Control

UNIVERSIDAD DE PAMPLONA - Centro de Educación Virtual y a Distancia

Page 33: Microsoft Word - Probabilidad Estad.stica

Probabilidad Estadística 33

28 35 46 76 24 54 75 52 24 37 46 75 38 45

Grupo Experimental

75 26 48 36 47 54 72 51 26 39 49 80

¿Es significativa la diferencia de los puntajes en los dos grupos?

Solución

• En este caso la hipótesis nula o hipótesis de trabajo es la de que los puntajes promedios son iguales en los dos casos:

Ho = | A = ip

• La hipótesis alternativa H1 es que los puntajes promedios son diferentes:

H1 = |A * ip

• Para seleccionar el estadístico de prueba apropiado se examinan los datos que se conocen así:

Tamaño de la muestra de cada grupo. Media aritmética de cada muestra. Desviación estándar de cada muestra.

Con base en los datos conocidos se selecciona un estadístico de prueba. En este caso es la distribución t - student que da un valor específico.

Elegir un margen de error por ejemplo el 5%.

Con base en los anteriores datos se determina la región de aceptación o de rechazo.

Si el valor queda en la región de rechazo no se acepta que el promedio de puntajes en los dos grupos es igual, por lo tanto es que el promedio de puntajes es diferente.

Decisión: con un 95% de seguridad puedo afirmar que hay diferencia significativa entre los puntajes de los dos grupos.

En algunos casos especiales se pueden utilizar los siguientes estadísticos de prueba:

Caso 1

UNIVERSIDAD DE PAMPLONA - Centro de Educación Virtual y a Distancia

Page 34: Microsoft Word - Probabilidad Estad.stica

Probabilidad Estadística 34

• La distribución de la población es normal.• La hipótesis nula es de la forma Ho: | = K, significa que el valor de la

media poblacional es K.• Se conoce a (desviación de la población).• Se tiene una muestra de tamaño n, se utiliza como estadístico de

prueba la distribución normal.

Vn ( x - |)Z =-------------con n - 1 grados de libertad

aCaso 2

• La distribución de la población es normal.• La hipótesis nula es de la forma Ho: | = K, significa que el valor de la

media poblacional es K.• No se conoce a, se conoce S (desviación de la muestra).• Se tiene una muestra de tamaño n, se utiliza como estadístico de

prueba la distribución t - student.

Vn( x - |)t =-------------con n - 1 grados de libertad

SCaso 3

• La distribución de la poblacional es normal.• La hipótesis nula es de la forma Ho: a2 = S2, significa que no hay

cambio de variabilidad en la población y la muestra.• Se tiene una muestra de tamaño n, se utiliza como estadístico de

prueba la distribución "chi cuadrado".

(n - 1) S2

X2 =-------------con n - 1 grados de libertada

UNIVERSIDAD DE PAMPLONA - Centro de Educación Virtual y a Distancia

Page 35: Microsoft Word - Probabilidad Estad.stica

Probabilidad Estadística 35

Caso 4, Comparación de medias aritméticas

• Se tienen dos poblaciones A y B las cuales se distribuyen normalmente.• Se extraen muestras de A y B de tamaño nA y nB respectivamente.• La hipótesis nula es de la forma Ho: |A = |B

• Se conoce CA y CB

• Se utiliza como estadístico de prueba la distribución normal.

( XA - XB) - (|a - |b)Z = -

VaA2/nA + CB

2/nB

Caso5, Comparación de Medias Aritméticas

Lo mismo que el caso anterior pero no se conoce CA y CB:

Parte 1. Si nA y nB son suficientemente grandes. En Estadística esta afirmación se utiliza para muestras de tamaño mayor o igual a 30.

nA y nB > 30

Se utiliza como estadístico de prueba la distribución normal:

( XA - XB) - (|a - |b) Z =- -VSA

2/nB + SB2/nB

Parte 2: Si nA y nB < 30

Se utiliza come estadístico de prueba la distribución t - student:

fc-Xj-t^-."b)

UNIVERSIDAD DE PAMPLONA - Centro de Educación Virtual y a Distancia

'1 1X<nA-1&l+(v-l»S(

Page 36: Microsoft Word - Probabilidad Estad.stica

Probabilidad Estadística 36

SA :

F =SB2

Ejemplo

En una investigación tendiente a comprobar la lectura como medio de ocio utilizado por los estudiantes de Pamplona se tomaron unas muestras y se obtuvieron los siguientes resultados:

n = 60X = 30% = 18a = 21

Probar la hipótesis de que en promedio, el número de estudiantes de Pamplona que utilizan la lectura como medio de ocio es del 40%. Tomar un margen de error del 5%.

Siguiendo los pasos mencionados anteriormente

tenemos: Ho = ^ = 24a = 5% (margen de error)

Según los datos conocidos utilizamos la distribución normal.

UNIVERSIDAD DE PAMPLONA - Centro de Educación Virtual y a Distancia

Page 37: Microsoft Word - Probabilidad Estad.stica

Probabilidad Estadística 37

UNIVERSIDAD DE PAMPLONA - Centro de Educación Virtual y a Distancia

Page 38: Microsoft Word - Probabilidad Estad.stica

Probabilidad Estadística 38

Como -2.2 queda ubicado en la región de rechazo no se acepta la hipótesis nula.

Decisión: con un 95% de seguridad no se puede afirmar que el 40% de los estudiantes utilizan la lectura como medio de ocio.

• Para comprobar la efectividad de un programa contra la drogadicción se realizó un trabajo para verificar los efectos de drogas alucinantes sobre el grado de criminalidad y se obtuvieron los siguientes resultados:

A = Usar droga B = No usar droga XA = 31 XB

= 26 SA = 5 SB = 8 NA = 36 NB

=70

Comprobar la hipótesis de que en promedio, el número de delitos es igual en ambas poblaciones. Utilizar un margen de error del 1%.

Solución

Ho: ^A = ^B como nA y nB > 30 utilizamos Z.

UNIVERSIDAD DE PAMPLONA - Centro de Educación Virtual y a Distancia

El valor critico para un 1% de error es + 2.58.

Page 39: Microsoft Word - Probabilidad Estad.stica

Probabilidad Estadística 39

Decisión: como 2.18 queda en la región de aceptación, se acepta la hipótesis nula. Por lo tanto con un 99% de seguridad podemos afirmar que no influye la utilización de droga en el grado de criminalidad.

2.6 TABLA DE CONTINGENCIA O COMPARACIÓN DE COLECTIVOS

Los colectivos a comparar pueden ser subgrupos de una misma población comunidades, un mismo grupo en dos o más puntos del tiempo, etc.

Existen múltiples procedimientos para hacer comparaciones y éstas se pueden representar en cuadros que resultan de cruce de variables llamados Tabla de Contingencia.

Ejemplo

• El siguiente cuadro resume la información obtenida por el Rector de un Colegio, sobre el nivel de escolaridad y el sexo de los padres de

familia:

NIVEL DE ESCOLARIDAD

HOMBRES MUJERES

Analfabetos 3 5Básica incompleta 22 24Básica completa 33 37

Media incompleta 18 30Media completa 15 20

Universidad incompleta

12 10

Universidad completa

6 2

• El siguiente cuadro presenta el porcentaje de niños, jóvenes, adultos y el grado de motivación que presentaron en la realización de una

actividad musical:

UNIVERSIDAD DE PAMPLONA - Centro de Educación Virtual y a Distancia

Motivación

Niños Jóvenes Adultos

Alto 56% 65% 26%Medio 28% 31% 38%Bajo 16% 4% 36%

TOTAL 100% 100% 100%2.6.1 Análisis de Tablas de Contingencia

Page 40: Microsoft Word - Probabilidad Estad.stica

Probabilidad Estadística 40

El análisis de tablas de contingencia es un procedimiento general para investigar la homogeneidad de poblaciones cualitativas. En síntesis, el método consiste en comparar las frecuencias observadas para cada atributo dentro de cada clase con las esperadas por un modelo que suponga homogeneidad en todas las clases o categorías.

Una media de la discrepancia entre las frecuencias observadas y esperadas es suministrada por el estadístico X2 (léase chi - cuadrado) dado por:

Z(oi - ei)2

X2 =-------------ei

Donde: oi = Frecuencia observada ei = Frecuencia

esperada

Si X2= 0 las frecuencias observadas teóricas concuerdan exactamente; mientras que si X2 > 0 no coinciden exactamente, a valores mayores de X2, mayores son las discrepancias entre las frecuencias observadas y esperadas.

2.6.2 Ensayos de Significación

La hipótesis nula Ho corresponde a que no hay discrepancia entre las frecuencias observadas y esperadas. Se toman como grados de libertad.

V = (h - 1) (k - 1) donde h corresponde al número de filas y k al número de columnas.

Ejemplo

La siguiente tabla muestra el número de alumnos que aprobaron las asignaturas A y B. Mediante un nivel de significación del 5%, ensayar la hipótesis de que no hay diferencia entre los resultados.

APROBARON NOAsignatura A 72 17Asignatura B 64 23

TOTAL 136 40

h = 2 K = 2

UNIVERSIDAD DE PAMPLONA - Centro de Educación Virtual y a Distancia

Page 41: Microsoft Word - Probabilidad Estad.stica

Probabilidad Estadística 41

v = (2 - 1) (2 - 1) = 1 (grados de libertad).Las frecuencias esperadas para los alumnos que APROBARON serán: 136/2 = 68; las frecuencias esperadas para los alumnos que NO APROBARON serán: 40/2=20.

(72 - 68)2 (64 - 68)2 (17 - 20)2 (23 - 20)2

x2 =-----------+--------------+-----------------+--------------= 1.3768 68 20 20

Con un nivel de significación del 5% y un grado de libertad no se puede rechazar la hipótesis.

Conclusión: con un 95% de confianza no hay discrepancia entre los resultados de los que aprobaron y los que no aprobaron con relación a las asignaturas A y B.

Proceso de Comprensión y Análisis

• En un examen final de matemáticas la media fue de 72 y la desviación típica fue de 15.

- Determinar las referencias tipificadas (es decir, graduaciones en unidades de desviación típica) de los estudiantes que obtuvieron puntuaciones de: 60, 93 y de 72.

- Hallar las puntuaciones correspondientes a las referencias tipificadas -1 y 1.6.

• Hallar el área bajo la curva en cada uno de los siguientes casos:

- Entre Z = O y Z = 1.2

- Entre Z = -0.68 y Z = 0

- Entre Z = -0.46 y Z = 2.21

UNIVERSIDAD DE PAMPLONA - Centro de Educación Virtual y a Distancia

Page 42: Microsoft Word - Probabilidad Estad.stica

Probabilidad Estadística 42

• En un examen de estadística, la media fue de 78 y la desviación típica 10.

- Determinar las puntuaciones estándar de dos estudiantes que obtuvieron 62 puntos.

- Hallar las puntuaciones de dos estudiantes cuyas puntuaciones estándar fueron -0.6 y 1.2.

• Una prueba estandarizada de comprensión de lectura se realiza entre 10000 estudiantes de secundaria. Se observa que las calificaciones están normalmente distribuidas con unas medidas de 500 y una desviación estándar de 60. Si se considera una calificación menor que 440 como indicadora de una grave deficiencia en la lectura, aproximadamente ¿cuántos estudiantes están catalogados como seriamente deficientes en comprensión de lectura?

• Se midió la estatura de 1000 niñas y se encontró que estaban normalmente distribuidas con una media de 1.62 m y una desviación estándar de 5.08 cm.

- ¿Aproximadamente cuántas niñas miden más de 1.73 m de altura?

- ¿Aproximadamente cuántas niñas tienen entre 1.52 y 1.62 m de

estatura?

- ¿Cuántas están entre 1.57 y 1.67 de estatura?

• El peso de 500 estudiantes varones de cierta universidad es de 151 lb y la desviación típica es 15 lb. Suponiendo que los pesos están normalmente distribuidos, hallar cuántos estudiantes pesan:

- Entre 120 y 125 lb- Más de 185 lb- Menos de 128 lb- 128 lb- No más de 128 lb• La vida útil de cierto tipo de calentador eléctrico tiene una

distribución aproximadamente normal, con media de 3.1 y desviación estándar de 1.2 años. Si este tipo de calentador tiene garantía de un año, ¿que porcentajes de calentadores necesitarán ser reemplazados?

• Las ventas diarias (de lunes a viernes) en un restaurante pequeño, tienen una distribución normal, con una media de $53000 por día y una desviación estándar de $1200.

UNIVERSIDAD DE PAMPLONA - Centro de Educación Virtual y a Distancia

Page 43: Microsoft Word - Probabilidad Estad.stica

Probabilidad Estadística 43

- ¿Cuál es la probabilidad que las ventas excedan de $70000 en un día dado?

- ¿El restaurante necesita ventas diarias de por lo menos $30000 para cubrir los gastos. ¿Cuál es la probabilidad de que, en un día dado el establecimiento no cubra los gastos?

• Se ha comprobado que el tiempo necesario para atender a un contribuyente en una oficina de recaudación de impuestos está normalmente distribuido, con una media de 15 minutos y una desviación estándar de 5 minutos. Cuál es la probabilidad de que un cliente seleccionado aleatoriamente:

- Dure de 10 a 25 minutos.

- Tarde más de 20 minutos en la ventanilla.

- ¿Cuál es el tiempo mínimo que tardan el 10% de los clientes más

demorados?

• Plantear un tema de trabajo y:

- Seleccionar la población- Cuantificarla- Seleccionar una muestra representativa- Suponer un margen de error- ¿Qué tamaño debe tener la muestra 7?- Qué método de muestreo va a utilizar?. ¿Por qué?

• El muestreo por cuotas es una técnica de uso común en encuestas de opinión pública. Al usar esta técnica, el entrevistador selecciona, de acuerdo con su criterio un número determinado de individuos (cuota) de cada uno de varios sectores de la población. Por ejemplo, se le puede pedir que entreviste a 10 mecánicos, 36 amas de casa o 7 abogados.

¿Bajo qué condiciones el muestreo por cuotas proporciona una muestra aleatoria?

UNIVERSIDAD DE PAMPLONA - Centro de Educación Virtual y a Distancia

Page 44: Microsoft Word - Probabilidad Estad.stica

Probabilidad Estadística 44

• En una Universidad, los estudiantes se oponen al nuevo régimen tributario. Se hizo esta declaración con base en una encuesta para la cual se escogieron al azar y se entrevistaron 86 estudiantes. El 52% de los entrevistados declararon que se oponían a la reforma tributaria. A partir de esta información, obtener un intervalo de confianza del 95% para la proporción real de estudiantes que se oponen a la reforma tributaria.

• Una prueba de Matemática aplicada a 9 estudiantes arrojó los siguientes puntajes:

67 54 46 78 70 95 45 97 56

Encontrar un intervalo de confianza del 95% para la media real de los puntajes.

• Se desea estimar el puntaje promedio de los alumnos de un grupo escolar. Se pretende que el error de estimación sea menor de 5 puntos con una probabilidad del 95%. Se sabe que el rango de los puntajes es de 84. ¿Cuál debe ser el tamaño de la muestra?

• La entidad encargada de la protección infantil reunió información con respecto al número de niños abandonados que se pueden encontrar probablemente en una determinada ciudad los doce meses del año. Los resultados fueron los siguientes:

16 5 21 19 10 5 8 2 7 2 4 9

Estimar el verdadero promedio de niños abandonados con un nivel de confianza del 90%.

Medellín Bogotá

Cali Cúcuta Pereira Manizales Valledupar Leticia

Barranquilla Bucaramanga Santa marta Popayán Pasto Arauca San Andrés

Quibdo

UNIVERSIDAD DE PAMPLONA - Centro de Educación Virtual y a Distancia

18664685176539217391018480177

1961115239454068341591673

Page 45: Microsoft Word - Probabilidad Estad.stica

Probabilidad Estadística 45

Estimar el promedio de lesiones personales con un nivel de confianza del 95%.

• Suponer que las alturas de 100 estudiantes varones de la Universidad XYZ representan una muestra aleatoria de las estaturas de los 1546 estudiantes de esa Universidad. Determinar estimaciones sin sesgo con respecto de la varianza.

• Las mediciones de una muestra de masas dieron 8.3, 10.6, 9.7, 8.8, 10,2 y 9.4 kg respectivamente. Determinar estimaciones sin sesgo de la varianza de la población.

• El tiempo promedio empleado para la repartición de 240 camiones de una empresa es de por lo menos 80 minutos, en base a una muestra sin reemplazamiento de 40 camiones encontramos: EX = 2800 y una desviación de 11. X: tiempo empleado en la repartición. ¿Con un nivel de significancia del 5% se podrá rechazar la hipótesis planteada inicialmente?

• El jefe de personal de una gran corporación esta contratando un gran número de empleados para un trabajo en el extranjero. Durante la realización de pruebas la gerencia pregunta como marchan las cosas y el jefe de personal contesta "bien, creo que la puntuación promedio en el test de aptitudes será 90". Cuando la gerencia revisa 20 de los resultados de la prueba, averigua que la puntuación media es 84 y la desviación estándar de esta puntuación es 11; si la gerencia quiere probar la hipótesis del jefe de personal en el nivel de significancia de 10%, ¿cuál será el procedimiento al que recurra?

• Una muestra de 25 observaciones tiene una media de 42 y una desviación estándar de 8. Trabajando con un nivel de significancia del 1%. ¿Existe razón para rechazar la hipótesis de que la media de la población es de 46?

• Un fabricante de cigarrillos, analiza el tabaco de dos marcas diferentes, para determinar el contenido de nicotina y obtiene los siguientes resultados en miligramos:

MARCA A: 24 26 25 22 23 MARCA B: 27 28 25 29 26

¿Los resultados anteriores, señalan que existe una diferencia en el contenido medio de nicotina en ambas marcas?

UNIVERSIDAD DE PAMPLONA - Centro de Educación Virtual y a Distancia

Page 46: Microsoft Word - Probabilidad Estad.stica

Probabilidad Estadística 46

dicha industria, que cuenta con 4 obreros paga en promedio $122000 ¿puede acusarse a esta compañía de pagar salarios inferiores al nivel de significancia del 1%?

• Un fabricante de ciertas piezas de proyectiles, sostiene que en condiciones normales de reparación, tienen una duración media ^ = 320 horas. Probar esta afirmación frente a la alternativa ^ * 320, si 16 piezas duran un promedio de 308 horas, con una desviación de 29 horas. Utilizar un nivel de significancia del 5%.

• Una compañía esta evaluando el promover a sus empleados, es decir está determinando la proporción de aquellos cuya habilidad, preparación y experiencia en la supervisión los califica para un ascenso a niveles superiores.

El director de talento humano le dice al presidente que el 80% de los empleados son promovibles. El presidente crea un comité especial para evaluar esta situación. El comité realiza entrevistas en profundidad con 150 empleados y en su juicio se da cuenta que sólo el 70% de la muestra llena los requisitos de promoción. El presidente quiere probar, en un nivel de significancia de 0.05 la afirmación del director de talento humano.

• Al jefe de personal se le pide determinar si los sueldos por hora de trabajadores semiclasificados son iguales en dos ciudades. Se extraen muestras aleatorias simples de los sueldos por hora que se pagan en ambas localidades. Los resultados de la encuesta son:

Ciudad 1 X1 = 6.95 S1 = 0.40 n1 = 200 Ciudad 2 X2 = 7.10 S2 = 0.60 n2 = 175

La compañía quiere probar la hipótesis con un nivel del 5% de que no existe diferencia entre los sueldos por hora que ganan los trabajadores en las dos ciudades.Los datos arrojados con dos muestras son:

Programa Formal ni = 12 x1 = 92 Si = 15Programa Informal n2 = 15 x2 = 84 S2 = 19

* Los salarios diarios de una industria están distribuidos normalmente con una media de $132000 y una desviación estándar de $25000. Si una empresa de

UNIVERSIDAD DE PAMPLONA - Centro de Educación Virtual y a Distancia

Page 47: Microsoft Word - Probabilidad Estad.stica

Probabilidad Estadística 47

• En una muestra de 400 amas de casa, el 20% indicó preferencia por la marca A de una margarina. Con posterioridad a una compañía de radio y televisión, se seleccionó una nueva muestra de amas de casa, del mismo tamaño y clase social. En esta muestra el 22% indicó preferencia por la marca A. De acuerdo con estos resultados y a un nivel del 5% ¿podría rechazarse la hipótesis de que la compañía fue inefectiva?

• La siguiente tabla presenta la relación entre las notas de los estudiantes de 5o grado del Colegio de la Presentación de Bucaramanga en Matemática y Lenguaje.

Ensayar la hipótesis de que las notas de lenguaje son independientes de las obtenidas en Matemática, mediante el nivel de significación

del 5% y del 1 %.

MATEMÁTICASNOTAS ALTAS

NOTAS MEDIAS

NOTAS BAJAS

NOTAS ALTAS

56 71 12

NOTAS MEDIAS

47 463 38

NOTAS BAJAS

14 42 85

• Suponer que se desea investigar los efectos combinados que el nivel de stress y la dificultad del examen, causan en el rendimiento, en una tarea de solución de problemas. Para tal fin se seleccionaron cinco sujetos en cada grupo y los resultados sobre rendimiento son los siguientes:

TENSIÓNMODERADA INTENSA

20 2320 22

T SENCILLA 19 21A 19 20R 17 19E 22 18A 21 16

DIFICIL 20 1519 14

UNIVERSIDAD DE PAMPLONA - Centro de Educación Virtual y a Distancia

Page 48: Microsoft Word - Probabilidad Estad.stica

Probabilidad Estadística 48

18 12• Cuál es el promedio de puntaje del grupo:

- De tensión moderada- De tensión intensa- De tarea sencilla- De tarea difícil- De tensión moderada y tarea difícil- De tarea sencilla y tensión intensa- Total

• Verificar si:

- Existe o no diferencia significativa entre el rendimiento de los sujetos en condiciones de tensión moderada y los de tensión intensa.

- Hay una diferencia significativa en el rendimiento de los sujetos a quienes se les asigna un problema sencillo y los que reciben uno difícil.

- Las dos variables (tensión y dificultad del problema) ejercen o no un efecto combinado sobre el rendimiento.

• Analizar:

- ¿Entre los cuatro grupos cuál es más homogéneo?- ¿Al considerar la variable tarea, cuál grupo tiene menor variación?- Existe diferencia significativa entre los datos observados y los datos

esperados?

• Los siguientes datos corresponden al puntaje obtenido por 10 estudiantes, de un Colegio de Bucaramanga, en pruebas estandarizadas para medir habilidad matemática y habilidad en el lenguaje:

ALUMNOS HABILIDAD MATEMÁTICA

HABILIDAD EN LENGUAJE

1 25 402 22 713 59 794 35 485 93 616 17 307 98 888 21 499 77 4510 25 62

UNIVERSIDAD DE PAMPLONA - Centro de Educación Virtual y a Distancia

Page 49: Microsoft Word - Probabilidad Estad.stica

Probabilidad Estadística 49

Distribuirlos en la siguiente tabla de contingencia:

• Alta habilidad (Puntaje mayor de 50)• Baja Habilidad (Puntaje menor o igual a 50)

M A T E M Á T I C A S

LENGUAJEHABILIDAD ALTA BAJA

ALTA

BAJA

Probar la hipótesis de que no existe discrepancia entre habilidades de Matemática y de Lenguaje.

UNIDAD 3: Regresión y Correlación

Núcleos Temáticos y Problemáticos

• Diagramas de Dispersión• Análisis de Regresión• Método de Mínimos Cuadrados• Correlación• Coeficiente de Correlación

Proceso de Información

Hasta el momento se ha tratado con experimentos aleatorios que incluyen solo una variable. Ahora se tratará con experimentos aleatorios que incluyen dos o más variables.

Un problema de estimación que es particularmente importante en casi todo campo de estudio es el de pronosticar o predecir el valor de una variable de algún proceso, a partir de los valores conocidos de otras variables que estén relacionadas.

UNIVERSIDAD DE PAMPLONA - Centro de Educación Virtual y a Distancia

Page 50: Microsoft Word - Probabilidad Estad.stica

Probabilidad Estadística 50

3.1 DIAGRAMA DE DISPERSIÓN

Es la representación gráfica sobre un plano cartesiano de los puntos correspondientes al valor de dos variables.

Ejemplo

Suponer que los siguientes datos corresponden a la edad y peso de ocho niños:

Edad en años

12

10

8 6 4 10

9 6

Peso en Kilos

34

30

28

24

20

32

33

25

Con el diagrama de dispersión es posible frecuentemente representar una línea recta o curva que aproxime a los datos. Tal curva se llama curva de aproximación.

Si los datos se aproximan bien a una línea recta se dice que entre las variables existe una relación lineal; si se aproximan a una curva se dice que existe una relación no lineal. La relación o dependencia de estas variables de la muestra se conoce con el nombre de análisis de regresión.

UNIVERSIDAD DE PAMPLONA - Centro de Educación Virtual y a Distancia

Page 51: Microsoft Word - Probabilidad Estad.stica

Probabilidad Estadística 51

3.2 ANÁLISIS DE REGRESIÓN

Basándonos en los datos muéstrales, se puede estimar el valor de una variable correspondiente a un valor dado de una variable X. Esto se puede conseguir estimando el valor de la variable y de la recta o curva que se ajusta a los datos muéstrales.

Existen varios métodos de ajuste, uno de los más utilizados es el de mínimos cuadrados. La recta o curva resultante se denomina recta de Regresión o Curva de Regresión.Ejemplo

Con base en los datos obtenidos en un muestreo con niños sobre estatura y peso, se puede construir la recta de regresión tal que, conociendo la estatura del niño se estime su peso.

Con base en una muestra, donde se relaciona la edad y la presión sanguínea se puede construir una recta de regresión; de tal forma que conociendo la edad de una persona se estime el valor de su presión sanguínea.

La recta de regresión tiene la ecuación de la siguiente forma:

Y = mx + b

Donde m es la pendiente o inclinación de la línea recta. Si m > O la recta en su gráfica está inclinada hacia la derecha. Si m < O la recta en su gráfica está inclinada hacia la izquierda.

Para encontrar la ecuación de la recta de regresión se aplica un procedimiento especial y muy sencillo de realizar.

Si la variable independiente x es el tiempo, los datos muestran los valores de la otra variable en diferentes tiempos. Los ordenados en relación con el tiempo se denominan "series de tiempo".

La recta o curva de regresión se denomina recta o curva de tendencia y se utiliza constantemente para fines de estimación, predicción o pronóstico.

Ejemplo

Con base en los datos de los últimos 10 años, del número de alumnos que participan en las actividades deportivas de un determinado colegio,

UNIVERSIDAD DE PAMPLONA - Centro de Educación Virtual y a Distancia

Page 52: Microsoft Word - Probabilidad Estad.stica

Probabilidad Estadística 52

se puede predecir el número de alumnos que participarán el próximo año en dichas actividades deportivas.

3.3 MÉTODO DE MÍNIMOS CUADRADOS

Una forma de aproximar los datos de un diagrama de dispersión a una recta o curva es por medio del método de mínimos cuadrados.

UNIVERSIDAD DE PAMPLONA - Centro de Educación Virtual y a Distancia

Page 53: Microsoft Word - Probabilidad Estad.stica

Probabilidad Estadística 53

3.3.1 Recta de Mínimos Cuadrados

Cuando los puntos del diagrama de dispersión tienden a estar alrededor de una línea, se dice que existe correlación lineal y la recta de aproximación por el Método de mínimos cuadrados se obtiene al reemplazar en la siguiente fórmula:

ExyY =

Donde x = X - x y = Y - Y

Esta recta se conoce como recta de

regresión. Ejemplo

Suponer que los siguientes datos corresponden al número de preguntas contestadas correctamente por 8 alumnos en dos pruebas de aptitud verbal; encontrar la recta de regresión Y sobre X, si un alumno obtiene 5 puntos en la primera prueba, ¿cuánto se espera obtener en la segunda prueba?

x

Puntuación Primera

Puntuación Segunda

Prueba

(x) Prueba (y)

X Y x = X - x

y = Y - Y

xy x2 y2

UNIVERSIDAD DE PAMPLONA - Centro de Educación Virtual y a Distancia

Ex2

x

Page 54: Microsoft Word - Probabilidad Estad.stica

Probabilidad Estadística 54

1 1 -6 -4 24 36 163 2 -4 -3 12 16 94 4 -3 -1 3 9 16 4 -1 1 1 1 18 5 1 0 0 1 09 7 2 2 4 4 411 8 4 3 12 16 914 9 7 4 28 49 16

X = 7 Y = 5

E = 84

E = 132

E = 56

ExyY =

Ex2

UNIVERSIDAD DE PAMPLONA - Centro de Educación Virtual y a Distancia

Page 55: Microsoft Word - Probabilidad Estad.stica

Probabilidad Estadística 55

v

Y - 5 = 0.63 (X - 7)Y - 5 = 0.63X - 4.41Y = 0.63X + 5 - 4.41Y = 0.63X + 0.59

Por lo tanto si un alumno obtiene 5 puntos en la primera prueba (X) se espera que en la segunda obtenga:

Y = 0.63 (5) + 0.59Y = 3.15 + 059 +3.74Y = 4

3.4 CORRELACIÓN

La correlación mide el grado de relación entre las variables. Cuando se trata de dos variables, se habla de correlación simple y regresión simple.

Cuando existen más de dos variables se habla de correlación múltiple y regresión múltiple.

3.4.1 Correlación Lineal

Si todos los puntos de un diagrama de dispersión parecen encontrarse cerca de una recta la correlación se llama lineal. En tal caso, los pronósticos o estimativos se dan con base a una recta de regresión. La correlación lineal puede ser positiva o negativa.

3.4.2 Correlación Positiva

Una variable tiende a incrementarse cuando se incrementa la otra. Por

ejemplo la edad y la presión sanguínea. A esta correlación se le llama también correlación directa.

UNIVERSIDAD DE PAMPLONA - Centro de Educación Virtual y a Distancia

r 84 ^

Y= X132

Page 56: Microsoft Word - Probabilidad Estad.stica

Probabilidad Estadística 56

3.4.3 Correlación Negativa

Una variable tiende a incrementarse cuando se disminuye la otra. Por ejemplo la temperatura y la altura sobre el nivel del mar. Esta correlación se llama también correlación inversa.

3.4.4 Correlación no Lineal

Si todos los puntos del diagrama de dispersión parecen estar cerca de alguna curva la correlación se denomina no lineal. Si no existe ninguna relación entre las variables, se dice que no hay correlación entre ellas, es decir, no están correlacionadas.

3.5 COEFICIENTE DE CORRELACIÓN

Con frecuencia se requiere de un indicador o medida de la fuerza con la que dos variables se encuentran linealmente relacionadas, de modo que el indicador no dependa de las escalas en las que cada una de las variables se hallan medido. Un tal indicador o medida se conoce como una medida de correlación lineal. La más usada en estadística es el llamado coeficiente de correlación de Pearson. Ésta cantidad se denota por r.

Para encontrar su valor se aplica una fórmula específica. Si r toma un valor positivo se dice que existe correlación lineal directa; a medida que r se aproxime a 1 es mayor la relación directa entre las dos variables.

Si r toma un valor negativo se dice que existe correlación lineal inversa; a medida que r se aproxime a -1 es mayor la relación inversa entre las dos variables. Si r = 0 implica ausencia de correlación lineal.

Este coeficiente de correlación se puede aplica a datos que estén agrupados en tablas de contingencia, aplicando la fórmula específica.

Una forma de encontrar él valor del coeficiente de correlación lineal r entre dos variables es aplicando la siguiente fórmula:

Zxyr =---------------------

V(Zx2)(Zy2)Donde x = X - xy y = Y

- Y

UNIVERSIDAD DE PAMPLONA - Centro de Educación Virtual y a Distancia

Page 57: Microsoft Word - Probabilidad Estad.stica

Probabilidad Estadística 57

Ejemplo

El coeficiente de correlación de los puntajes obtenidos en las dos pruebas del ejemplo anterior es:

84r =----------------= 0.977

Vl32*56

Esto muestra que hay una correlación lineal positiva entre las variables muy alta, es decir que al aumentar el puntaje en la primera prueba también aumenta el puntaje en la segunda prueba.

Proceso de Comprensión y Análisis

• La compañía Hermanos Luna, cree que sus ingresos anuales (variable y) dependen de sus gastos (variable x) en publicidad. Para comprobarlo, analiza la información registrada en los últimos seis años. Gastos en publicidad e ingresos en millones de pesos.

Gastos e Ingresos de la Compañía Hermanos LunaAño Gastos (x) Ingresos (y)1997 2 201998 3 251999 5 342000 4 302001 11 402002 5 31

- Graficar en un diagrama de dispersión la información conocida.- Estimar la ecuación de la recta para ver la dependencia o

independencia de la información.- Predecir los ingresos, si los gastos de publicidad van a ser de 7

millones- Obtener el error estándar del estimado para verificar la confianza en

su modelo de regresión.• El jefe de personal de una planta de ensamblaje de utensilios,

establece una relación entre la edad del trabajador (x) y su ausentismo (y). Para esto recogió la información de una muestra de 10 empleados tomados al azar entre todas las hojas de vida de los empleados.

Edad ( 4 2 3 2 2 3 5 1 3 3

UNIVERSIDAD DE PAMPLONA - Centro de Educación Virtual y a Distancia

Page 58: Microsoft Word - Probabilidad Estad.stica

Probabilidad Estadística 58

x)

2 7 6 5 2 9 7 19

3 0

Días de Ausencia

(y)

2 7 5 9 10

4 4 8 6 5

Empleando un modelo de regresión lineal, se desea predecir el comportamiento de los empleados en cuanto a la edad y al ausentismo.

• El departamento de publicidad de la compañía T&T, desea saber si existe una relación entre las ventas y el número de comerciales de televisión transmitidos por día para una muestra de siete ciudades.

Ventas en Cientos de Unidades

Comerciales Trasmitidos por Día

y x8.4 115.2 67.1 810 912.9 1211.5 1514.4 14

- Estimar las ventas en función del numero de comerciales por medio de la ecuación de la recta y el error estándar del estimado.

- Calcular el estimado en ventas para 11 comerciales.

• Un equipo de investigadores de la UMATA han estudiado la relación entre la cosecha de maíz y la temperatura promedio durante la etapa de crecimiento; las medidas durante varios años produjeron los siguientes resultados:

X Temp. en grados

19

23 25 24 26

21

Y Bultos por Ha 66

74 72 76 78

72

Estimar los bultos por hectárea en función de la temperatura, predecir el número de bultos de maíz por hectárea para una temperatura de 20 grados y el error estándar del estimado.

UNIVERSIDAD DE PAMPLONA - Centro de Educación Virtual y a Distancia

Page 59: Microsoft Word - Probabilidad Estad.stica

Probabilidad Estadística 59

Un analista de una compañía vendedora de libros estudió la relación entre gastos de viajes en miles de pesos para 102 vendedores y la duración de estos viajes en días, para obtener los siguientes resultados:

Total de duración 510 díasTotal de gastos 7.140 Miles de pesosProducto de gastos por días 54.900Suma de cuadrados de gastos 740.200Suma de cuadrados de duración 4.150

- Con base en la información anterior calcular un modelo lineal para estimar los gastos en función de la duración.

- Obtener el error estándar del estimado.

• Con base en las normas de servicio, se obtuvo la información referente al área en metros cuadrados (Y) y al número de turistas alojados (X) en ocho establecimientos. Los datos se presentan en miles:

l 1 2 3 4 5 6 7 8Xi

15

10

11

13

18

9 14

16

Yi 59

45

48

52

54

41

58

61

- Estimar el área contenida en función del número de turistas alojados.- Estimar el espacio para un total de 18 turistas.- Establecer el error de estimación.

• La empresa Todo a Mil, maneja una cadena de 100 almacenes; con el objeto de medir la eficiencia de las tiendas, se hizo un estudio acerca del volumen de ventas mensuales (Y) en función del número de empleados (X). Se obtuvieron los siguientes resultados:

EX = 600 ZY = 1.600 EX2 = 5.200 ZY2 = 37.700ZXY = 13.600

- Establecer un modelo lineal.- Estimar las ventas para un almacén con tres empleados.- Calcular el error estándar del estimado.

Años Alumnos1993 125.5431994 203.569

UNIVERSIDAD DE PAMPLONA - Centro de Educación Virtual y a Distancia

Page 60: Microsoft Word - Probabilidad Estad.stica

Probabilidad Estadística 60

1995 287.5691996 256.8901997 356.9831998 387.1271999 403.0052000 398.1272001 417.3452002 482.106

- Construir el diagrama de dispersión de los anteriores datos.- Encontrar el valor de la recta de regresión de mínimos cuadrados.- ¿Cuál es el valor del coeficiente de correlación y que significado

tiene?- Con base a los anteriores datos estimar el número de alumnos que

se matricularán en el 2007.

• Suponer que los siguientes datos corresponden al número de alumnos que reprobaron el Grado Sexto en el Colegio CEMUP de la ciudad de Pamplona durante los últimos seis años.

AÑOS NÚMERO DE REPROBADOS

1996 121997 131998 71999 102000 72001 42002 5

- Construir el diagrama de dispersión.- Encontrar el valor de la recta de regresión de mínimos cuadrados.- Calcular el valor del coeficiente de correlación e interpretar el

resultado.- Estimar el número de alumnos que reprobarán en el año 2004.

Álgebra (X)

Física (Y)

75 8280 7893 8665 7287 91

UNIVERSIDAD DE PAMPLONA - Centro de Educación Virtual y a Distancia

Page 61: Microsoft Word - Probabilidad Estad.stica

Probabilidad Estadística 61

71 80

- Representar los datos.- Hallar una recta de mínimos cuadrados que ajuste los datos usando

X como variable independiente.- Hallar una recta de mínimos cuadrados que ajuste los datos usando

Y como variable independiente.- ¿Si un estudiante tiene 75 en álgebra, cuál es su nota esperada en

física?- ¿Si un estudiante tiene 95 en física, cuál es su nota esperada en

álgebra?

UNIVERSIDAD DE PAMPLONA - Centro de Educación Virtual y a Distancia

Page 62: Microsoft Word - Probabilidad Estad.stica

Probabilidad Estadística 62

ANEXO: Tablas

AREAS BAJO LA CURVA NORMAL T? PIRCA ¡~»

A !>L t i :

0,0000

0.O04O

0.0080

0,0120

0,0398

0,0438

0,0478

0,0517

0,0793

0,0832

0,0871

0.0910

0, 179

0,1217

0,1 ¿55

0.1293

0.1554

0,159)

0.1628

0.1664

0.Í9I5

0,1950

0,1985

0,2019

0.225K

0.2291

0,2324

0.2357

0,?>8U

0,2612

0,2642

0,2673

o.?««!

0,79(0

0.2».»

0,2967

0.1 ¡86

01212

0.3238

0.M3

0.V<3*

1! 346»

0.3485

0,3643

0,3*65

0,1686

0.370»,

0,1M9

0. 016

ir >h8

0.190

9 8 73,4(1?

0,4fM9

t: 4<«i

04082

o.4t9:

0,4707

0.4230

0,43.32

0,4145

0,4357

0,4170

0,4452

0.-346)

'•>(74

{1,4484

0,4544

0.45«

í.,4573

0.4 582

0,4*4!

0.4MS

0.4656

0.4664

0,4713

0.4726

0,4132

0.4?» 3 0,4830 0,486« 0.48980.49«Q.4*H i 0.49« 0,4967 0.4976 0.4982

UNIVERSIDAD DE PAMPLONA - Centro de Educación Virtual y a Distancia

0 i

Page 63: Microsoft Word - Probabilidad Estad.stica

Probabilidad Estadística 63

0 498/ 0 4991 0,4994 0,4995 0,4997

0,499a 0.4999 0.4999 0,4999 >,5<X»

UNIVERSIDAD DE PAMPLONA - Centro de Educación Virtual y a Distancia

0.0

0,1

nj0 3

0.40.5 0.

6

0.7

0,*0,9

1.01.1

!.i 1.3 ).•!

1.5>•61,7 1.3.t2, 0

2, i 3.13.33.4

1.5

2.6

2,7 . S

W 1,

0

: iù ¡4

j,sÎ.S 1,7j.a

0.0219 0,0636O.IOit (1,1406 0.17(2

0,2123 0,24 M 0.2764 O.JHÍi 0,3315

0.3554 0.1770 0.3962 0,4131 0,4279

II 4406 0.4515 0.460S 0.4ÓS60,4750

0.4803 0.4K4(,0,4881 0,49090,4931

0,4943 0,4961 0 49''I ü.4979 0 4985

0.4989 0.4992 0,4994 0.4996 0.4997

0.4998 0,4999 0,4999 0.4999 0,5000

0,0160 0,0557 0,094«O.lJll O,I7<X¡

0.2054 0.23(19 0,.>JlM o.2"W¡0.1 >4

0.3508 0,3 729 0,19.'J 0,40990,4251

0,4.181 0,4495 0.4 Wi 0,467! 0.47.18

Ii,4í9j Ú4ÍJ8 0 4875 0,4904 0,4927

0,4945 0.4959 0.496'í 0,49 ?' 0,498**

0.4988 0.499.' 0 4 994 (1,4996

0.494 ;0,4993 0,4999 0.4999 0,4999 0,5000

0,0199 <1,059* 0,098'ï 0.1 V.* 0,1 7 K.

0,201

18

0,2422 0.2714 0,302.3 0.32H9

0.3531 0,374') U.J944

0.411

5

0.426

5

0.4.394 0,450 S 0,4599 0.4678 0,4744

0.479« 0.4842 «48/8 0.4906 0,4929

0.494

A 0 4)400.497(

1

0,497

8

0.498

4

0-4989 0,4992 0,4994 0.4996 0,4947

0,4998 0,4999 0,4999 0,4999 0,5000

0,4772

o,<*;:Q4S¿¡ 0.4B91

0,441S

0,4') 38

0

.4453

0.40740,4'lS l

0,4V8?

0,4993 0,4995 0,4997

0.499S 0.4WÍ 0,4999 0,(9» 0.5O00

0.4778 0.4* 26 0,4864 0.4H96 0.493(1

0.4940 0,4955 0,4966 0.4975 0.49B2

0,4987 0,4 9e)! 0,4941 0,4995 0,4997

0,4998 0,4998 0,4999 0.4999 C.5C00

0,4 m fi. 48.34 0,4« 7! Ü.490I 0.4425

0,4943 0.4957 0.4968 0.4977 0.4983

0,4988 0.4991 0.4994 0.4996 0,499,"

0.4998 0.4999 0.4999 0.4999 a. 5«»

Page 64: Microsoft Word - Probabilidad Estad.stica

Probabilidad Estadística 64

0.0279

0,0119

0.0359

0.0675

0,07(4

0,0754

S 1064

0.1103

0.1141

0,1443

0.1480

0,1517

1) 18(38

0,1844

0,1879

0,2157

0,2190

0.2224

0.2486

0J518

0.2549

0.2794

0,2823

0,3852

0,3078

0,3106

O.JíJJ

0.3341)

0.3365

0,3389

0.357?

0,3599

0,362!

0,3790

0.1810

0,38 JO

0,3980

0,3997

3 40! 5

0,4147

0,4162

0,4177

0,4292

0,4.106

0.4319

0,4418

0,4429

0,4441

0,452.5

13,4535

0.4545

0.4616

0,4625

0 44«

0.4693

0.4699

U,4706

0.4756

0,4761

0,4767

0,4808

0,48)2

0.4815

0,4850

0,4854

0,4857

0.48Í4

0,4887

0.489

UNIVERSIDAD DE PAMPLONA - Centro de Educación Virtual y a Distancia

Page 65: Microsoft Word - Probabilidad Estad.stica

Probabilidad Estadística 65

00,49 ! ¡

0,4913

0,4916

0.4932

0,4914

0,4936

0,4949

0,4951

0,4952

0.4962

0,4963

0,4964

0,4972

0,4973

0,4974

0,4979

0,4980

0,4981

0,4985

0,4986

0,4984

0,4989

0,4990

0,4990

0.4992

0,4993

0.4993

0.4995

0,4995

0,4995

0,4996

0,4996

0,4997

0,4997

0,4997

0.4998

0,4998

0,4998

0,4998

0,4999

0,4999

0,4999

0,49*59

0,4999

0.4999

0,4999

0,4999

<>,'4999

0,5000

0,5000

0,5000

UNIVERSIDAD DE PAMPLONA - Centro de Educación Virtual y a Distancia

Page 66: Microsoft Word - Probabilidad Estad.stica

Probabilidad Estadística 66

PKRCENTlUiS {/;) DE I.ADISTRIBUCION Cl».CUADRADO CON v GRADOS DE UliERTAD

(ASEA SOMBREADA = p)r JÍ

O.fV

tó í^l

Ai.vi

/¿.•ÍÍÍ

;>

/.ti. lí /y.ííí /o.Ji 0

■ o /£.*) /ó.gil /a.o i ¿o.tei

( 7,*í

6,63

5,02

3,84

2.71

1,32

0,45?

o.iu:

0,0158 0,0039 0,0010

0,0002

0.0000

2 10.6

9.2 í

7,38

5,99

■Í.6I

2,77

1 19

0 í 75

0.211

C,!03

0,0506

0.0201

0,0100

3 12.8

1 .3

9.35

7.XI

6,25

4.Ü

2.37

1,21

0,584

0,352

0.216

0,115

0,072

4 14.9

13.5

ti.i

V.41

!

7.78

5.39

U6

1.92

1,06

0,711

0.484

0,297

0,207

& 16.7

15.1

12.8

11,1

9.24

6,6.1

4,35

2.6 J

1,61

1,4 5

0.831

0,554

0,412

(1

IK.5

Pfi'.K

14,4

12,6

10.6

7.84

5.15

.1.45

2.20

1,64

IJ4 0.872

0,676

7 20.1

11.5

16,0

14.1

12,0

9.04

6,35

4,25

2,83

2.17

1.69

1,24

0,989

8 12,0

20,1

17.5

15.5

13,4

10,3

7,34

5.1)7

3.49

2,73

2,18

1,65

!,34

9 23.6

21,7

19.0

16,9

14 7

11,4

8,34

5,90

4,17

3,33

2,70

2,09

1,73

10

25,2

23.2

20.5

18,5

16,0

! !,5

9,34

6.74

4 «7

3,94

3.25

2.56

2.16

11

26,i

24,7

21.9

19,7

! 7,3

I3.T

10,3

7,58

5.58

4,57

-M2 3.05

2.60

28,3

26,2

23.3

21,0

18.5

14.8

lt,3

844

6 10

5.23

<.40

3,51

3.07

UNIVERSIDAD DE PAMPLONA - Centro de Educación Virtual y a Distancia

Page 67: Microsoft Word - Probabilidad Estad.stica

Probabilidad Estadística 67

IJ

29,8

27.7

24.7

22,4

19,8

16,0

12,3

9,30

7.0-1

5.89

5.01

4,1 f

3.57

M 3Í.3

29,1

26.!

23.7

21.r

!7,|

13,3

10.2

7,79

6,57

5.63

4.66

4,07

32.8

30,6

27,5

25,0

12,3

18.2

14,3

! 1,0

8,55

7.26

6,26

5.13

4,60

Ifl

54.5

52.0

28.8

26,3

23,5

i 9.4

15,3

! 1,9

9.31

7.96

6,91

5.81

5,14

:7

5Í.7

35,4

3Q.2

27,6

24,8

20,5

16,3

12.«

10, t

8 67

7.Í6 6,41

Í.70

18

57.2

54.8

31,5

28.9

26,0

21.6

17,3

13,1

10.9

9 39

8,23

7.01

6,26

11,6

36,2

32,9

30,1

27,2

22,?

18,3

14.6

11.7

10,1

8,91

7,63

6.84

20

40,0

37.6

34.2

31.4

28.4

21 8

19,3

15,5

12,4

10.9

9,59

8,26

7.43

21

41,4

38.9

35.5

32.7

29.6

24,9

20,3

16,3

13,2

11.6

10,3

8,90

8.03

22

42,K

40.3

16,8

31,9

10,8

26.0

21.3

17,2

14,0

12.3

11.0

9.54

8,64

23

44,2

41,6

38.1

35,2

32,(1

27.1

22.3

18, i

14,8

15,1

11,7

10,2

9.26

24

45,6

43,0

39,4

36.4

33.2

28.2

23.3

19,0

tí,7

13,8

12,4

10,9

9.89

25

46,9

44.3

40.6

37,7

.14.4

29,3

24.3

19.9

16,5

14,6

13.1

M.5 10,5

26

48.3

45.6

41.9

38,9

3S.6

10,4

25.3

20.8

17,3

i 5.4

13.8

12,2

11.2

27

49,6

47,0

41,2

40.1

36,7

31,5

26.3

21.7

18.1

16,2

14.6

12,9

11,8

28

51.0

4K.3

44,5

41,3

37.9

32,6

37.3

22,7

18,9

169

15.3

13,6

12.5

52.3

49.6

45,7

42.6

19,1

33.7

28,3

33,6

19 8

17,7

16.0

14.3

13.1

30

55.7

50.9

47,0

43.8

40,3

34,8

29,5

24.5

20.6

18,5

16.8

15,0

13,8

40

66,

63,

59,

51,8

45.

39.3

33.7

29.1

26.5

24.4

22.2

20.7

UNIVERSIDAD DE PAMPLONA - Centro de Educación Virtual y a Distancia

Page 68: Microsoft Word - Probabilidad Estad.stica

Probabilidad Estadística 68

S 7 5 6SO

79,5

76,2

71,4

67.5

63,2

56.3

49.5

42.9

37,7

34,8

32.4

29.7

28,0

«0

92,0

88,4

83,1

79.1

74.4

67,0

59,1

52,3

46,5

43.2

40.5

37,5

35,5

70

104J

100.4

95.0

90,5

85,5

77 5

69.3

61.7

55,3

51.7

48,8

45,4

43,3

SO

¡66.5

112,3

106,6

101.9

%,6

88,1

79,3

71.1

64.1

60.4

57,2

53,5

51,2

M 128,3

¡24.1

118.1

113,1

I07.fi

98,6

89.1

80.6

71,3

69,¡

65,6

61,1

59,2

100

í 40.2

135,8

129,6

124.3

118.5

109.1

99.1

90.1

82.4

77.9

74.2

70.1

"J

BIBLIOGRAFIA GENERAL

BERNAL V. Miguel. Estadística Descriptiva: J. Elaboración y Presentación de Datos Universidad de Pamplona, 1987.

GALLARDO, Yolanda. Estadística: Programa de Sicología Universidad de Pamplona. 1997.MARTÍNEZ BENCARDINO, Ciro. Estadística Comercial. Bogotá: Norma, 1981.MORENO GARZÓN, Adonay. Serie aprender a investigar: Recolección de la información. Cali: ICFES, 1995.PARZEN, Emmanuel. Teoría Moderna de Probabilidades y sus Aplicaciones México: LIMUSA, 1991.PEÑA SÁNCHEZ, Damel. Estadística Modelos y Métodos I. Fundamentos. Madrid: Alianza editorial, 1986.PORTUS GOVINDEN. Lincoyán. Curso Práctico de Estadística. Bogotá: McGRAW - Hill, 1986.SPIEGEL Murria R. Estadística. Madrid: McGraw Hill, 1993.• En un colegio hay 25 profesores de los cuales 6 de ellos tienen

estudios de Postgrado. Se ofrece una beca para que uno de los

UNIVERSIDAD DE PAMPLONA - Centro de Educación Virtual y a Distancia

Page 69: Microsoft Word - Probabilidad Estad.stica

Probabilidad Estadística 69

profesores que no tiene estudios de Postgrado pueda realizarlos. Juan Pérez no tiene estudios de Postgrado. ¿Qué probabilidad tiene Juan de ganarse la beca?• El supermercado COOTRUP ha reunido los siguientes datos sobre las ventas semanales de neveras:

XjCantidad de neveras vendidas

í =■Con nA + nB - 2 grados de libertad

Caso 6: Inferencia Relativa a Dos varianzas

• Se tienen dos muestras con distribución normal.• Se conocen las desviaciones standar de las dos muestras SA y SB.

• La hipótesis nula es de la forma Ho: <tA2 = SB2.

• Se utiliza como estadístico de prueba la distribución F - Fisher• Un programa de capacitación ha sido diseñado con el ánimo de mejorar la habilidad de los operarios de una línea de producción. El programa es autoaplicable y por esto los operarios requieren diferentes números de horas para terminarlo. Un estudio de participantes anteriores revela que el tiempo promedio dedicado al programa es de 500 horas y que el tiempo se distribuye normalmente con una desviación estándar de 1000 horas.- Cuál es la probabilidad de que un participante elegido de forma aleatoria tarde más de 500 horas en terminar el programa- Cuál es la probabilidad de que un participante gaste entre 500 y 650 horas en terminar el programa- Cuál es la probabilidad de que un participante gaste menos de 580 horas en terminar el programa.

UNIVERSIDAD DE PAMPLONA - Centro de Educación Virtual y a Distancia

Page 70: Microsoft Word - Probabilidad Estad.stica

Probabilidad Estadística 70

• Según los datos suministrados por el Ministerio de Justicia y la Dirección General de Prevención y conciliación, en 1996 se registraron por ciudades los siguientes números de lesiones personales:• Una compañía ha estado investigando dos programas educativos tendientes a acrecentar el mejor trato de sus gerentes ante las necesidades de sus empleados. El programa original estaba compuesto de varias sesiones de pregunta y respuesta informal con algunos trabajadores. En los últimos años, se introdujo un programa formal con psicólogos profesionales. El nuevo programa es mucho más caro y el presidente de la compañía quiere saber con un nivel de significación del 5% si ese gasto ha mejorado el trato de los gerentes.• Las estadísticas de la Secretaría de Educación del Departamento Norte de Santander, registraron durante el año 2002 los siguientes datos relacionados con el número de alumnos matriculados en Primaria, en Colegios oficiales.• La siguiente tabla presenta las notas en Álgebra y Física de 10 estudiantes elegidos al azar entre un grupo muy numeroso:

UNIVERSIDAD DE PAMPLONA - Centro de Educación Virtual y a Distancia