principal g
TRANSCRIPT
Apuntes de Estadıstica para LCEA
M.C.M.A. Gladys del Carmen Velazquez Lopez
UPGM
Version 1
10 de enero de 2011
2
.
Indice general
Introduccion 5
1. Introduccion a la Estadıstica 6
1.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2. Definicion de estadıstica . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3. ¿Para que estudiamos estadıstica? . . . . . . . . . . . . . . . . . . . . 9
1.4. Terminologıa estadıstica . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.5. Notacion de suma con sigma . . . . . . . . . . . . . . . . . . . . . . . 15
1.6. Notas Sobre redondeo . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.7. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2. Estadıstica descriptiva 23
2.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2. Datos estadısticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2.1. Tipos de datos . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.2. Organizacion de datos mediante tablas . . . . . . . . . . . . . 24
2.3. Distribuciones de frecuencias . . . . . . . . . . . . . . . . . . . . . . . 25
2.3.1. Obtencion de los intervalos y lımites de clases . . . . . . . . . 26
2.4. Presentacion grafica de datos . . . . . . . . . . . . . . . . . . . . . . 32
2.5. Medidas de tendencia central . . . . . . . . . . . . . . . . . . . . . . 36
2.5.1. Datos no agrupados . . . . . . . . . . . . . . . . . . . . . . . . 36
2.6. Medidas de dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4 INDICE GENERAL
2.6.1. Datos no agrupados . . . . . . . . . . . . . . . . . . . . . . . . 40
2.7. Medidas de tendencia central y de dispersion para datos agrupados . 44
2.8. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3. Muestreo 64
3.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.2. Muestra y censo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.2.1. Ventajas y desventajas del censo . . . . . . . . . . . . . . . . . 66
3.2.2. Ventajas y desventajas del muestreo . . . . . . . . . . . . . . . 67
3.3. Tabla de numeros aleatorios . . . . . . . . . . . . . . . . . . . . . . . 70
3.4. Estimacion basada en una muestra aleatoria simple . . . . . . . . . . 75
3.5. Muestreo aleatorio estratificado . . . . . . . . . . . . . . . . . . . . . 81
3.6. Muestreo por conglomerados . . . . . . . . . . . . . . . . . . . . . . . 92
3.7. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
4. Regresion lineal y multilineal 106
4.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
4.2. Estimacion de los coeficientes del modelo por mınimos cuadrados . . 110
4.3. Supuestos adicionales para los estimadores de mınimos cuadrados . . 115
4.4. Inferencias relativas a la pendiente β1 de una recta . . . . . . . . . . 116
4.5. Correlacion lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
4.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
4.7. Regresion lineal multiple . . . . . . . . . . . . . . . . . . . . . . . . . 138
5. Habilidades basicas 143
Bibliografıa 149
Introduccion
Llegara un dıa en el que el razonamiento estadıstico sera tan necesario
para el ciudadano como ahora lo es la habilidad de leer y escribir
H.G. Wells (1866-1946)
La creciente complejidad de la sociedad moderna ha provocado incertidumbre en las
mentes de muchas personas en posiciones de mando. Aun ası, deben de tomar deci-
siones relativas a sus funciones diarias y planes para el futuro, ya sea que esten en
negocios, gobierno o en cualquier otra institucion. La Estadıstica es una herramienta
intelectual con la cual pueden tomarse decisiones racionales; y en realidad ha habido
un enfasis creciente en los enfoques cuantitativos a los problemas administrativos du-
rante las ultimas decadas. La estadıstica ha respondido a las necesidades de nuestro
tiempo y se ha desarrollado como una disciplina practica para auxiliar a los adminis-
tradores en el proceso de toma de decisiones.
El objeto fundamental de la edicion de este documento es facilitar a los alumnos de
licenciatura en comercio exterior y aduanas de la universidad politecnica del golfo de
mexico el desarrollo de los contenidos teoricos de la asignatura Estadıstica. Desde un
punto de vista menos local, espero que sea util, en alguna medida, a todo aquel que
necesite conocimientos basicos de las tecnicas estadısticas mas usuales en el ambiente
cientıfico-tecnologico.
Capıtulo 1
Introduccion a la Estadıstica
1.1. Introduccion
Para la gente comun y corriente la estadıstica significa numeros. En el periodico de la
manana se pueden encontrar las estadısticas mas recientes sobre los delitos de la ciu-
dad: numero de asesinatos, robos de automoviles, asaltos y demas delitos que hayan
sido denunciados en determinado periodo de tiempo; o las mas recientes estadısticas
acerca de la mano de obra en el paıs: por ejemplo, el numero de desempleados; o
las ultimas estadısticas sobre el numero de nacimientos y muertes que han ocurrido
durante cierto periodo de tiempo.
Los ejemplos anteriores forman parte del concepto total de Estadıstica, pero dicha
palabra tiene un concepto mas amplio para las personas que tienen conocimiento de
los aspectos tecnicos. Para estas personas, la estadıstica tiene relacion con aquellos
conceptos y tecnicas que se emplean en la recopilacion, organizacion, resumen, anali-
sis, interpretacion y comunicacion de informacion numerica.
Generalmente se disena una serie de trabajos para alcanzar uno de los siguientes
objetivos, o ambos.
1. Describir cuantitativamente una serie de personas lugares o cosas. (Estadıstica
descriptiva).
1.2 Definicion de estadıstica 7
2. Dar informacion de la que se puedan sacar conclusiones acerca de un gran numero
de personas, lugares o cosas mediante la observacion de una pequena parte del
conjunto total. (Estadıstica Inferencial: Predecir y decidir).
El capıtulo incluye una introduccion del termino Estadıstica y presenta los conceptos
mas basicos relativos a poblaciones y muestras.
1.2. Definicion de estadıstica
¿Que es la estadıstica?. La estadıstica es un conjunto de procedimientos que sirven
para organizar y resumir datos, hacer inferencias a partir de ellos y transmitir los
resultados de una manera clara concisa y significativa. Tambien podemos entender la
estadıstica como la ciencia que permite responder a ciertas preguntas basandose en
datos empıricos, es decir, en datos que se originan de la observacion o de la experiencia.
Ası, diremos que es la ciencia que tiene que ver con los metodos que dan respuesta a
determinadas cuestiones mediante la recoleccion, analisis e interpretacion apropiada
de datos empıricos, ası como del proceso de toma de desiciones acerca del sistema del
cual fueron obtenidos los datos.
Definicion 1.2.1. La Estadıstica es la ciencia que se ocupa de los metodos cientıfi-
cos para recolectar, organizar, resumir, presentar y analizar datos, ası como sacar
conclusiones validas y tomar desiciones con base en este analisis.
Para su estudio la estadıstica se divide en tres ramas que son:
Estadıstica descriptiva: Es un conjunto de procedimientos que sirven para
organizar, describir y sintetizar datos sin que las conclusiones que se extraigan
de estas rebasen su ambito especıfico, es decir, se busca unicamente describir y
analizar un grupo determinado, sin sacar conclusiones o inferencias acerca de
un grupo mas grande. Generalmente los datos en una muestra pueden escribirse
de tres maneras:
8 Introduccion a la Estadıstica
Descripcion tabular: Elaboracion de tablas para distribuciones de frecuen-
cia;
Descripcion grafica: Construccion de esquemas, histogramas, ojivas, polıgonos
de frecuencia, etc. La grafica describe de una manera mas objetiva la na-
turaleza de los rasgos;
Descripcion aritmetica: Calculo del numero, rango, media, moda, mediana,
etc.
El ındice de desempleo, el costo de la vida, la precipitacion pluvial, el rendimien-
to medio de un auto en kilometros por litro y los promedios de calificacion,
quedan todos en esta categorıa.
Estadıstica inferencial: Es un conjunto de procedimientos que se emplean
para hacer inferencias y generalizaciones respecto a una totalidad partiendo
del estudio de un numero limitado de casos tomados de esta ultima. Es decir,
consiste en el analisis e interpretacion de una muestra de datos. El muestreo
es un ejemplo vivo del dicho “no tienes que comerte todo el pastel para saber
si te gusta”. Por lo tanto, la idea basica en el muestreo es medir una porcion
pequena, pero tıpica, de alguna “poblacion ”, y posteriormente utilizar dicha
informacion para inferir que caracterısticas tiene la poblacion total.
En la industria y los negocios hay muchas formas de aplicar este concepto. Por
ejemplo, un estudio cinematografico somete a diversas pruebas a algunos actores
y actrices antes de decidir quien interpretara cada papel, las fabricas suelen
producir un pequeno numero de piezas (produccion piloto) antes de pasar a la
produccion a gran escala. Muchas companıas almacenan cientos de artıculos en
inventario y, mediante tecnicas de muestreo, pueden estimar su valor en unidades
monetarias sin tener que contar por completo todos sus artıculos. Algunas veces
se llevan a a cabo estudios de mercado de los nuevos productos en ciudades
claves, para establecer el grado de aceptacion por el consumidor. Las empresas
privadas y las dependencias gubernamentales realizan muestreos por multiples
1.3 ¿Para que estudiamos estadıstica? 9
razones. El costo suele ser el factor principal. Como cualquier otra cosa, recopilar
datos y analizar los resultados cuesta dinero y, generalmente, cuantos mas datos
se reunan, mayor es el costo. El muestreo reduce la cantidad de datos que se
deben reunir y analizar, por lo tanto, dicha operacion reduce el costo. Otra
razon para realizar el muestreo es el hecho de que la informacion pierde su
valor en poco tiempo. Para que esta sea util, se debe obtener y aprovechar con
bastante rapidez. A menudo el muestreo es el unico medio posible de lograr lo
anterior. Algunas veces, el examen de los artıculos, causa destruccion. Al probar
los cinturones de seguridad para conocer su punto de ruptura, evidentemente se
destruye el producto. Si todos se probaran de esa manera, no quedarıa ninguno
para vender. Esas y otras razones para el muestreo, se consideraran con mayor
detalle en capıtulos posteriores.
Probabilidad: La probabilidad estudia situaciones en las que interviene el azar.
Sus primeras aplicaciones se relacionaban basicamente con los juegos de azar,
como la loterıa, casinos, carreras de caballos, etc. (en este curso no se considera-
ra esta parte de la estadıstica).
Como mas tarde observaremos, las ramas de la estadıstica no son indepen-
dientes y distintas por completo, tienden a superponerse considerablemente.
En resumen, existen tres areas muy relacionadas de interes en estadıstica: la
descripcion y resumen de datos, la teorıa de la probabilidad y el analisis e in-
terpretacion de los datos de muestra.
El objetivo de la Estadıstica es: Hacer inferencias (predecir, decidir) sobre algunas
caracterısticas de una poblacion con base en la informacion contenida en una muestra.
1.3. ¿Para que estudiamos estadıstica?
1.-Los conceptos y tecnicas se usan en un gran numero de ocupaciones,
2.-Las ideas constituyen una parte integral de las investigaciones, de las encuestas
para recopilar datos y del analisis de los datos que se originan en las actividades que
10 Introduccion a la Estadıstica
desarrollan las instituciones y organizaciones.
Ejemplo 1.3.1. Un trabajador que no necesariamente conoce conceptos y tecnicas
estadısticas muy bien, por lo menos debe tener la facultad de reconocer cuando
necesita la ayuda de un experto y poder comunicarse cuando trabajen juntos en la
planeacion, direccion e interpretacion de los resultados de una actividad que requiera
la metodologıa de esta ciencia.
F Si comprendes los conceptos y metodologıa sacaras provecho de ello. Si lo entiendes
bien podras leer con mayor inteligencia toda la literatura !.
En la vida cotidiana hay muchos ejemplos de como la estadıstica esta presente. Las
aplicaciones estadısticas se presentan en muchos campos incluyendo la ingenierıa,
ciencias fısicas, negocios, ciencias biologicas y de salud, ciencias sociales y educacion,
comercio, quımica, comunicacion, economıa, ciencias polıticas, psicologıa, etc. A con-
tinuacion se describen algunas aplicaciones.
a) Se disenan encuestas con el fin de recoger las primeras cifras de las elecciones y
predecir los resultados (o pronosticar).
b) Se realizan entrevistas con los consumidores para obtener mas informacion acerca
de los productos que prefieren.
c) Se toman muestras de fusibles recien fabricados, con el fin de decidir si se embarcan
o se retiran ciertos lotes de ese producto (Control de calidad en las industrias).
d) Los Economistas observan los ındices para saber que tan saludable es la economıa
durante un periodo y utilizan la informacion para predecir como se compar-
tira en el futuro.
e) En Agricultura se realizan experimentos sobre la reproduccion de plantas y anima-
les, se estudia la bondad de fertilizantes, insecticidas, etc., y se estudian metodos
para aumentar el rendimiento de las cosechas.
1.4 Terminologıa estadıstica 11
f) En Biologıa se emplean los metodos estadısticos para estudiar las reacciones de
las plantas y animales ante diferentes presiones ambientales.
g) En Negocios se usa para predecir volumenes de ventas, medir las reacciones de los
consumidores ante un nuevo producto, tomar desiciones en cuanto a la forma
de invertir presupuesto en publicidad, etc.
h) En Salud y medicina los medicos investigadores se ayudan de la estadıstica para
evaluar la efectividad de diversos tratamientos.
i) En Psicologıa se ayudan de la estadıstica para medir y comparar la conducta, las
actitudes, la inteligencia y las aptitudes del hombre.
1.4. Terminologıa estadıstica
Es este apartado definiremos algunos terminos fundamentales que se utilizaran en el
curso, los demas terminos se definiran a medida que se vayan presentando.
Poblacion: Tambien llamada universo, es todo conjunto de personas, cosas u
objetos con ciertas caracterısticas comunes. Cada uno de los elementos de la
poblacion recibe el nombre de elemento o unidad. Definimos Poblacion como
el conjunto mas grande de valores (de una variable), por el cual existe algun
interes.
Una poblacion puede ser finita o infinita. Por ejemplo, la poblacion que com-
prende todas las piezas producidas en un dıa determinado en una fabrica, los
productos de un supermercado, los libros de una biblioteca, son ejemplos de una
poblacion finita, mientras que la poblacion que consta de todos los resultados
posibles (cara o cruz) en lanzamientos sucesivos de una moneda, la produccion
futura de una maquina y el nacimiento de insectos son ejemplos de poblaciones
infinitas.
Nota 1. Los elementos que forman una poblacion pueden ser personas, empresas,
12 Introduccion a la Estadıstica
productos manufacturados, inventarios, escuelas, ciudades, calificaciones esco-
lares, precios, o cualquier otra cosa que se pueda medir, contar o jerarquizar.
Muestra: Se llama muestra a toda porcion de elementos sacada de una poblacion.
Sirve para estimar los resultados que se obtendrıan con el estudio completo de
la poblacion. Para que los resultados de la muestra puedan generalizarse a la
poblacion, es necesario que la muestra se elija adecuadamente, es decir, que sea
representativa de la poblacion.
Muestra aleatoria: Es aquella que se obtiene cuando todos los elementos de
la poblacion tienen igual posibilidad de ser elegidos, es decir, es la muestra que
se trae de una poblacion al azar.
De las definiciones anteriores podemos concluir que el objetivo de una muestra,
es que los elementos de la muestra representen al conjunto de todos los ele-
mentos de la poblacion. Esta cuestion, la construccion de muestras adecuadas,
representativas, es uno de los aspectos mas delicados de la Estadıstica. Nosotros
vamos a considerar en esta asignatura solo un tipo de muestras, denominadas
muestras aleatorias simples. En una muestra aleatoria simple, todos los elemen-
tos de la poblacion deben tener las mismas posibilidades de salir en la muestra
y, ademas, los elementos de la muestra deben ser independientes: el que salga
un resultado en la muestra no debe afectar a que ningun otro resultado salga
en la muestra.
Entidad: Conjunto de personas, lugares o cosas.
I Un biologo puede estar interesado en las ardillas que habitan determinada
region.
I Un medico puede mostrar interes por los pacientes que muestren determinada
serie de sıntomas.
I A un agrıcola le llamara la atencion cierta variedad de trigo.
1.4 Terminologıa estadıstica 13
Variable: Es toda propiedad o conjunto de caracterısticas de las entidades que
admiten variaciones dentro de un conjunto de objetos y que interesan en una
investigacion cientıfica. Por ejemplo, el biologo puede tener interes especial en
el tamano de las ardillas, el medico puede querer investigar el nivel de colesterol
de ciertos pacientes; al educador le puede llamar la atencion el rendimiento de
lectura de los estudiantes que han aprendido a leer con un metodo determinado;
el investigador agrıcola puede estar interesado en conocer la resistencia de una
variedad de trigo a cierta enfermedad, al educador le puede llamar la atencion
el rendimiento en la lectura de los estudiantes que han aprendido a leer con
un metodo determinado, al meteorologo le puede llamar la atencion de la nieve
como una proporcion de la precipitacion total, etc. En virtud de que cualquiera
de estas caracterısticas presenta un valor diferente cuando se observa desde
diferentes ambitos, recibe el nombre de variable. Hay tres tipos de variables las
cuales son: nominales, ordinales y cardinales.
• Variables nominales. Son las mas simples y abundantes y su unica fun-
cion es clasificar. Su variable operacional correspondiente es una escala
nominal que sirve para clasificar las observaciones en un conjunto de ca-
tegorıas mutuamente excluyentes cuyo orden de colocacion es indistinto.
A esto se les puede asignar cifras u otros sımbolos arbitrarios con el fin de
distinguirlas. Si son cifras, no tienen ningun valor ni propiedades numericas
como en aritmetica, es decir, no se puede hacer ninguna medida numerica
solo clasificacion.
Ejemplo 1.4.1. Variable nominal −→ { Estado civil
soltero,
casado,
viudo,
divorciado,
union libre.
14 Introduccion a la Estadıstica
Ejemplo 1.4.2. Entre los datos numericos que son nominales (datos cuan-
titativos) se incluyen los numeros de las camisetas deportivas, los numeros
de codigo de las zonas postales, los numeros telefonicos, etc.
Ejemplo 1.4.3. Los datos nominales que son cualitativos incluyen el genero,
la raza, el tipo de sangre y la religion. Ver ejemplo 1.4.1.
Los datos nominales se obtienen cuando se definen las categorıas y se cuen-
ta el numero de observaciones que queda en cada una.
• Variables ordinales o jerarquizados. Clasifican las observaciones en
categorıas mutuamente excluyentes que exigen ordenacion, ya que guardan
entre sı relaciones de mayor que. Su variable operacional es una escala
ordinal que va desde la categorıa mas baja hasta la mas alta o biceversa, de
modo que las observaciones queden en el orden apropiado. Estas categorıas
tampoco tienen propiedades numericas, aunque se les represente por cifras.
Ejemplo 1.4.4. Variable ordinal−→ {Alcoholismo
1.-Abstemio,
2.-Bebedor ocasional,
3.-Bebedor regular,
4.-Bebedor consuetudinario.
Ejemplo 1.4.5. Variable ordinal−→ { La evaluacion de un maestro
1.-Pobre,
2.-Razonable,
3.-Buena,
4.-Superior.
Las variables nominales y ordinales son variables cuyos valores consisten
en categorıas de clasificacion y se denominan Variables Cualitativas.
• Variables cardinales o cuantitativas. Se dice que una variable es cuan-
titativa siempre que los valores que puede asumir sean los resultados de
medidas numericas. Ejemplos de variable cuantitativa son la estatura, el
peso, la temperatura, el cociente de inteligencia, la presion sanguınea, el
1.5 Notacion de suma con sigma 15
numero de estudiantes de primer ano, etc. Las variables cardinales, se di-
viden en continuas y discretas.
Continuas: Son las que pueden tomar cualquier valor dentro de un inter-
valo de valores, por ejemplo, la edad, los salarios, la estatura, la masa, la
distancia en kilometros, etc. En general, las mediciones dan origen a los
datos continuos.
Discretas: Son las que toman solo algunos valores dentro de un intervalo,
es decir, adquieren solo valores enteros. Por ejemplo, el numero de alumnos
en un aula, el numero de enfermos que ingresan a un hospital, el numero
de ninos en una familia, la cantidad de coches en un estacionamiento, el
conjunto de personas en una fila, etc. En general, las enumeraciones o los
conteos dan origen a los datos discretos.
1.5. Notacion de suma con sigma
En muchos de los procedimientos estadısticos que estudiaremos en el curso, se requiere
de obtener la suma de un conjunto de numeros. La letra griega∑
se utiliza para
denotar una suma. De ahı que, si alguna variable x tiene los valores 1, 5, 6 y 9, entonces∑
x = 21. De manera similar, si los gastos en comestibles durante una semana fueron
$8.82, $12.01, entonces∑
y = $22.93.
Ejemplo 1.5.1. Si los valores de x son 2, 4, 5 y 9, encuentre∑
x,∑
x2 y (∑
x)2.
Solucion:∑
x = 2 + 4 + 5 + 9 = 20∑
x2 = 22 + 42 + 52 + 92 = 4 + 16 + 25 + 81 = 126
(∑
x)2 = 202 = 400
Si solo se van a sumar algunos de los valores, se utilizan subındices para indicar dichos
valores de este modo:5∑
i=1
xi
16 Introduccion a la Estadıstica
indica la suma de los valores de la variable x, empezando con i = 1 y terminando con
i = 5:5∑
i=1
xi = x1 + x2 + x3 + x4 + x5
n∑i=1
xi significa que hay que sumar n observaciones. A menudon∑
i=1
xi se abrevia con
los sımbolos∑
xi o∑
x.
Ejemplo 1.5.2. Usando los datos que se indiquen, calcule2∑
i=1
xi,4∑
i=1
xi,11∑i=7
xi y∑
xi
i 1 2 3 4 5 6 7 8 9 10 11
xi 8 2 3 6 7 8 9 4 5 4 1
Solucion:2∑
i=1
xi = x1 + x2 = 8 + 2 = 10,
4∑i=1
xi = x2 + x3 + x4 = 2 + 3 + 6 = 11,
11∑i=7
xi = x7 + x8 + x9 + x10 + x11 = 9 + 4 + 5 + 4 + 1 = 23,
∑xi = x1 + x2 + . . . + x11 = 8 + 2 + . . . + 1 = 57.
Cuando cada valor de una variable va a ser multiplicada por una constante, o dividida
entre ella, dicha constante se puede aplicar despues de que los valores se hayan sumado
∑cx = c
∑x
Ası,4∑
i=1
2xi = 2x1 + 2x2 + 2x3 + 2x4 = 2(x1 + x2 + x3 + x4) = 24∑
i=1
xi
Por ejemplo,
3(2) + 3(8) + 3(4) = 3(2 + 4 + 8) = 3(14) = 42
1.5 Notacion de suma con sigma 17
La operacion de suma o sumatoria de una constante es igual al producto de la cons-
tante y el numero de veces que se presenta.
n∑i=1
ci = nc
Por ejemplo,6∑
i=1
5i = 5 + 5 + 5 + 5 + 5 + 5 = 30
o bien, 6(5) = 30.
La adicion de una suma (o diferencia) de dos variables es igual a la suma (o diferencia)
de sumatorias individuales de las dos variables.
n∑i=1
(x2i + yi) =
n∑i=1
x2i +
n∑i=1
yi
n∑i=1
(xi − yi) =n∑
i=1
xi −n∑
i=1
yi
.
Ejemplo 1.5.3. Se tienen dos conjuntos de numeros, tales como salarios por hora para
diversos empleados y el numero de horas que cada uno trabajo.
i: Individuos fi: Horas trabajadas xi: Salarios por hora
1 1 $2
2 5 3
3 7 2
4 3 4
5 3 3
Supongase que han de evaluarse las sumas que siguen:∑
fi,∑
xi,∑
x2i ,
∑fixi,
∑fix
2i
y∑
(fixi)2.
Solucion:
18 Introduccion a la Estadıstica
i fi xi x2i fixi fix
2i
1 1 $2 4 2 4
2 5 3 9 15 45
3 7 2 4 14 28
4 3 4 16 12 48
5 3 3 9 9 27∑
fi = 19∑
xi = 14∑
x2i = 42
∑fixi = 52
∑fix
2i = 152
y (∑
fixi)2 = 2704
1.6. Notas Sobre redondeo
Durante el curso cuando se registren datos finales o intermedios, se tendra en cuenta
la siguiente regla:
Si el dıgito que queda a la derecha de la posicion del ultimo dıgito que se va a
retener (y registrar) es menor que 5 se registrara el dıgito que ocupa la posicion
que hay que retener (y registrar). Ejemplo que ilustra esta regla
Resultado final o intermedio Resultado registrado
175.783 175.78
164.78432 164.78
Si el dıgito que queda a la derecha de la posicion del ultimo dıgito que se va a
retener es mayor que 5 se aumentara en 1 el dıgito que ocupa la posicion del
ultimo dıgito que se va a retener y se registrara este resultado. Ejemplo que
ilustra esta regla
Resultado final o intermedio Resultado registrado
175.787 175.79
164.796 164.8
Si el dıgito que queda a la derecha de la posicion del ultimo dıgito que se va a
retener es igual a 5. Entonces, se registrara el dıgito que ocupa la posicion del
1.6 Notas Sobre redondeo 19
ultimo dıgito que se va a retener tal como aparece si es par, y aumentando en
1, si es impar. Ejemplo que ilustra esta regla
Resultado final o intermedio Resultado registrado
Par 175.785 175.78
Impar 175.775 175.8
20 Introduccion a la Estadıstica
1.7. Ejercicios
1. Desarrolle cada uno de los siguientes:
a)5∑
i=1
xi
b)5∑
i=1
xiyi
c)6∑
i=1
(xi − yi)2
d)n∑
i=1
xi
npara n = 8.
2. Calcule las siguientes cantidades segun los datos que se indican.∑
xi,∑
fi,∑fixi y
∑fix
2i .
i 1 2 3 4 5 6
fi 3 5 9 10 2 1
xi 10 11 15 19 21 26
3. De acuerdo a las reglas de redondeo establecidas, redondee las siguientes cifras
hasta dos lugares decimales:
a) 5.781 b) 46.7385 c) 125.9995 d) 43.87500 e) 148.475
4. Clasifique los siguientes datos como discretos o continuos:
Puntajes de matematicas en la prueba de aptitud academica de 30 alumnos
del ultimo ano de preparatoria.
El numero de defectos en cada unidad de un lote de 50 coches nuevos.
El numero de carreras anotadas en cada juego por los Piratas en la tem-
porada de 1990.
1.7 Ejercicios 21
Distancia en yardas recorrida por un mediocampista en cada juego durante
la ultima temporada.
Peso perdido en libras por 20 personas debido a una dieta.
El numero de acciones vendidas por dıa de la bolsa de valores.
Las temperaturas registradas cada media hora en un observatorio.
El tiempo de vida de los bulbos de television producidos por una empresa.
El ingreso anual de los profesores universitarios.
La longitud de 1000 tornillos producidos en una fabrica.
El tiempo de vuelo de un misil.
El numero de billetes de $20 que circulan en Mexico en un momento de-
terminado.
La suma S de los puntos obtenidos al lanzar un par de dados.
El paıs C en Europa.
El estado civil de una persona.
El numero N de individuos en una familia.
5. Clasifique los datos siguientes en cuantitativos y cualitativos:
Estaturas en pulgadas de cinco jugadores de basquetbol.
Peso en onzas de doce pollitos.
Clasificacion etnica de 20 empleados
Numeros telefonicos de amigos
6. Identifique lo siguiente en terminos del tipo de datos:
17 gramos.
25 segundos.
3 canastas.
22 Introduccion a la Estadıstica
Mas lento.
Talla de camisas.
El mas encantador.
Estatura de un hombre.
Color de piel de los perros.
La vida de las llantas de un automovil.
Capıtulo 2
Estadıstica descriptiva
2.1. Introduccion
Los metodos estadısticos comprenden el analisis e interpretacion de numeros, ventas
mensuales, calificaciones de examenes, numeros de partes defectuosas, porcentaje de
respuestas correctas a un cuestionario, etc. A tales numeros se les conoce como datos.
Los datos no procesados pueden carecer de significado, por lo cual para interpretarlos
correctamente es necesario primero organizar y resumir los numeros. En este capıtu-
lo aprenderemos metodos para resumir y describir conjuntos de datos a traves de
distintos tipos de tablas, graficos y medidas estadısticas.
2.2. Datos estadısticos
Obtenidos a traves de encuestas, experimentos o cualquier otro conjunto de medidas,
los datos estadısticos suelen ser tan numerosos que resultan practicamente inutiles
si no son resumidos de forma adecuada. Para ello la Estadıstica utiliza tanto tecni-
cas graficas como numericas, algunas de las cuales describiremos en este capıtulo.
Ahora bien, los datos estadısticos se obtienen mediante un proceso que comprende
la observacion o medicion de conceptos como ingresos anuales de una comunidad,
24 Estadıstica descriptiva
calificaciones de examenes, porcentaje de azucar en cereales, etc., los cuales se cono-
cen como variables, ya que producen valores que tienden a mostrar cierto grado de
variabilidad, al efectuarse mediciones sucesivas.
2.2.1. Tipos de datos
Como se describio en la seccion 1.4, los datos pueden ser de dos tipos: cuantitativos y
cualitativos. Los datos cuantitativos son los que representan una cantidad reflejada en
una escala numerica. A su vez, pueden clasificarse como datos cuantitativos discretos
si se refieren al conteo de alguna caracterıstica, o datos cuantitativos continuos si se
refieren a una medida. Los datos cualitativos o categoricos se refieren a caracterısticas
de la poblacion que no pueden asociarse a cantidades con significado numerico, sino
a caracterısticas que solo pueden clasificarse.
Ejemplo 2.2.1. Veamos algunos ejemplos de cada uno de estos tipos de variables:
Si estamos interesados en un asfalto, la variable tension de fractura es cuanti-
tativa continua.
En un ejemplo de unos cojinetes, el diametro de los cojinetes es una variable
cuantitativa continua.
En un ejemplo de los niveles de plomo, se esta analizando si una muestra con-
tiene niveles detectables o no. Se trata, por tanto, de una variable cualitativa con
dos categorıas: sı contiene niveles detectables o no contiene niveles detectables.
En el ejemplo de accidentes laborales, la variable numero de accidentes labo-
rales es cuantitativa discreta, mientras que las franjas horarias constituyen una
variable cualitativa.
2.2.2. Organizacion de datos mediante tablas
El objetivo de la organizacion de datos es acomodar un conjunto de datos en forma
util para revelar las caracterısticas esenciales y simplificar ciertos analisis. Los datos
2.3 Distribuciones de frecuencias 25
que no estan organizados se llaman datos no agrupados. Una manera de acomodarlos
es construir un arreglo ordenado, acomodando los datos de abajo hacia arriba o al
reves; si el numero de datos es muy grande, el arreglo puede ser difıcil de manejar
o de comprender; por eso a menudo se usan tablas como aproximacion general a la
organizacion de datos no agrupados. Un ejemplo es el conjunto de las estaturas de
100 estudiantes hombres, obtenidas del registro universitario, que esta ordenado en
forma alfabetica.
Los metodos principales para organizar datos estadısticos comprenden el ordenamien-
to de elementos en subconjuntos que presenten cualidades semejantes (por ejemplo,
misma edad, misma finalidad, misma escuela, misma ciudad, etc.). Los datos agru-
pados se pueden resumir graficamente, o en tablas, y mediante el uso de medidas
numericas, como la media, amplitud, la desviacion estandar, y otras mas. El nom-
bre que reciben los datos ordenados en grupos o categorıas es el de distribucion de
frecuencia.
2.3. Distribuciones de frecuencias
Una distribucion de frecuencia es un metodo estadıstico de clasificacion de datos en
clases o intervalos, de manera tal que se pueda establecer el numero o porcentaje
(es decir, la frecuencia de los datos) de cada clase. Esto proporciona una forma de
observar un conjunto de numeros sin que se tenga que considerar cada numero, y
puede ser extremadamente util al manejar grandes cantidades de datos. El numero o
porcentaje en una clase se denomina frecuencia de clase.
Definicion 2.3.1. Una distribucion de frecuencia es un agrupamiento de datos en
clases, que muestra el numero o porcentaje de observaciones de cada una de ellas.
Una distribucion de frecuencias se puede representar en forma tabular o grafica.
Ejemplo 2.3.1. Construya una tabla de frecuencias para los datos siguientes, corres-
pondientes al numero de faltas a clases durante el periodo de otono de 2010 para
26 Estadıstica descriptiva
estudiantes inscritos en la materia de Estadıstica.
9 8 7 8 4 3 2 1 0 3 2
5 3 2 1 1 7 3 2 8 1 4
7 6 6 4 3 2 2 0 9 4 2
4 6 9 6 9 4 3 5 7
Solucion:
Definicion 2.3.2. Frecuencia absoluta (F ). Es el numero de veces que un numero
aparece en el conjunto inicial de datos. La frecuencia de un intervalo de clase es igual
a la suma de las frecuencias de los datos que aparecen en el.
Definicion 2.3.3. Frecuencia acumulada (Fa): La frecuencia acumulada de un
dato o de un intervalo es igual a la suma de su frecuencia mas la frecuencia de los
datos anteriores a el.
Definicion 2.3.4. Frecuencia Relativa (Fr). Indica los porcentajes de la totalidad
de los datos que corresponden a cada clase. Se obtiene dividiendo la frecuencia de cada
clase entre el numero total de datos y se multiplica por 100, se expresa en porcentaje
y su formula es
Fr =F
N× 100 (2.1)
donde Fr : frecuencia relativa, F : frecuencia absoluta y N : numero total de datos.
2.3.1. Obtencion de los intervalos y lımites de clases
Numero del intervalo de clase: No hay formas definidas respecto al numero de
clase que deben utilizarse en una distribucion de frecuencia, si los intervalos de clase
son muy pocos se pierden detalles y si son muchos aparte de ser laborioso se mani-
fiestan irregularidades que no permiten apreciar con claridad un patron de compor-
tamiento. En otro caso, la mayorıa de los analistas recomiendan no menos de 5 ni
mas de 15 intervalos de clase.
2.3 Distribuciones de frecuencias 27
Definicion 2.3.5. Clase. Se le llama Clase a cada uno de los intervalos que forman
una distribucion de frecuencia. Una aproximacion razonable para calcular el numero
de clases nos la da la regla de Sturges
n0 = 1 + 3.3 log N, (2.2)
donde n0 : numero de clases o intervalos y N : numero total de datos.
Nota 2. n0 se redondea siempre al numero inmediato superior (entero su-
perior mas cercano).
Ejemplo 2.3.2. Si N = 30, =⇒ n0 = 1 + 3.3 log 30 = 5.87 ∴ n0 = 6.
Ejemplo 2.3.3. Si n0 = 5.12 =⇒ n0 = 6.
Definicion 2.3.6. Anchura o tamano del intervalo de clase. Es la diferencia
entre los lımites reales de un intervalo de clase. Todas las clases deben tener la misma
amplitud, se simboliza con la letra C mayuscula y su formula es:
C =Vmax − Vmin
n0
, (2.3)
donde C : Amplitud del intervalo de clase, Vmax : Valor maximo, Vmin : Valor mınimo
y n0 : numero de clases.
Nota 3. Siempre se redondea a C segun las caracterısticas del problema.
Nota 4. Si con el ancho de intervalo de clase encontrado, no contienen a
todos los datos, hay que tomar el mınimo entero mayor que la C encon-
trada.
Ejemplo 2.3.4. Encuentra el tamano de los intervalos de clase
Datos 3 5 4 3 8 5 4 1 ⇒ C = 1.75 ∴ C = 2.
Definicion 2.3.7. Lımite normal de clase: Las clases o intervalos de clase estan
limitados por sus valores extremos que se denominan lımite inferior y lımite superior.
Sus sımbolos son: L.N.I. y L.N.S.
28 Estadıstica descriptiva
Definicion 2.3.8. Lımites reales de clase: Corresponde al punto medio entre el
lımite normal superior de una clase y el lımite normal inferior de la clase siguiente.
Se denotan por: L.R.I. y L.R.S.
Definicion 2.3.9. Marca de Clase: Es el valor correspondiente al punto medio de
un intervalo de clase y su valor es igual a la mitad de la suma de los lımites normales
inferior y superior de un intervalo de clase. Denotamos la marca de clase como
x =LNI + LNS
2, (2.4)
donde x : marca de clase y LNI y LNS : lımites normales.
Reglas generales para formar una distribucion de frecuencia.
1. Seleccione el numero de intervalos de clase, la cantidad de intervalos de clase
no debe de ser menor de 5 ni mayor de 15, entre mas datos se tengan, mas
intervalos de clases deben considerarse. Si el numero de intervalos es demasiado
pequeno pueden estarse ocultando caracterısticas importantes de los datos en
esta agrupacion. Si se tienen demasiados intervalos de clase se pueden tener
muchos intervalos vacıos que resten significado a la distribucion.
2. Calcule la amplitud o tamano del intervalo de clase C,
3. Forme los intervalos de clase iniciando por el lımite inferior del rango o por el
dato menor. El lımite inferior de la clase siguiente sera el valor consecutivo al
maximo de la clase anterior y ası sucesivamente,
4. Fige los lımites reales de cada clase,
5. Determine la frecuencia de clase contando el numero de observaciones que caen
dentro de cada intervalo de clase.
Ejemplo 2.3.5. En una universidad de E.U., se saco una muestra aleatoria de 25
profesores suministrando informacion de los salarios anuales en millones de dolares.
2.3 Distribuciones de frecuencias 29
Construya una distribucion de frecuencia con la muestra siguiente:
12 21 14 22 12 14 18 11 11
20 19 9 26 17 11 12 24 9
21 17 22 13 19 15 11
Solucion:
1.- Ordenar del numero menor al numero mayor para saber la frecuencia de cada
numero,
=⇒ 9-2, 11-4| 12-3, 13-1, 14-2| 15-1, 17-2| 18-1, 19-2, 20-1| 21-2, 22-2| 24-1, 26-1.
2.- Sacar el numero y amplitud de clases
=⇒ n0 = 1 + 3.3 log N = 1 + 3.3 log 25 = 5.6 =⇒ el numero de clases es n0 = 6.
Ahora C =Vmax − Vmin
n0
=26− 9
6= 2.83, ası la amplitud del intervalo de clase es
C = 3.
3.-
Clase LNI − LNS LRI − LRS F Fa Fr Fra X
1 9− 11 8.5− 11.5 6 6 24 % 24 % 10
2 12− 14 11.5− 14.5 6 12 24 % 48 % 13
3 15− 17 14.5− 17.5 3 15 12 % 60 % 16
4 18− 20 17.5− 20.5 4 19 16 % 76 % 19
5 21− 23 20.5− 23.5 4 23 16 % 92 % 22
6 24− 26 23.5− 26.5 2 25 8 % 100 % 25
25
Tabla 2.1: Distribucion de frecuencia de la muestra.
donde
Fr =F
N× 100 =⇒ para la primera clase Fr =
6
25× 100 = 24 % y ası sucesivamente
para las demas.
Fra =Fa
N× 100 =⇒ para la primera clase Fra =
6
25× 100 = 24 %, para la segunda
Fra =12
25× 100 = 48 % y ası sucesivamente.
30 Estadıstica descriptiva
x =LNI + LNS
2=⇒ para la primera marca x =
9 + 11
2= 10, para la segunda
x =12 + 14
2= 13 y ası en sucesivamente. Continuando con todos los calculos se
obtiene la tabla 2.1.
F Los datos son de unidad ⇒ 1
2= 0.5 (lo que se resta y suma a los lımites normales
para obtener los lımites reales).
Ejemplo 2.3.6. Elabore una distribucion de frecuencia para los siguientes datos toma-
dos de una encuesta de la edad de 70 personas.
32 20 20 24 24 18 18 18 25 26 28 40 20 28
41 37 37 37 26 26 26 27 27 32 44 20 22 35
32 32 29 40 40 44 44 18 18 45 35 26 28 26
34 34 30 30 30 28 28 28 35 28 45 32 35 26
42 42 30 22 30 24 30 22 24 20 26 28 22 32
Clase LNI − LNS LRI − LRS F Fa Fr Fra X
1 18−21 .5− .5
2 22−25 .5− .5
3 26−29 .5− .5
4 30−33 .5− .5
5 34−37 .5− .5
6 38−41 .5− .5
7 42−55 .5− .5
8 56−59 .5− .5
Tabla 2.2: Distribucion de frecuencia de la muestra.
Solucion:
n0 = 1 + 3.3 log 70 = 7.08 =⇒ n0 = 8. Ahora C =45− 18
8= 3.375 =⇒ C = 4.
(Completa la tabla 2.2.)
2.3 Distribuciones de frecuencias 31
Ejercicios
Resuelve los siguientes:
1. Los datos siguientes representan el numero de clientes que visitan una tienda en
un periodo de 22 dıas. Construya la distribucion de frecuencias para los datos
28 42 52 50 29 31 34 45 48 38 28
33 33 49 32 37 41 43 46 49 34 39
2. Los siguientes datos representan las edades de los empleados de un supermer-
cado. Construye una distribucion de frecuencia
20 21 25 28 24 22 38 54 28
23 26 32 20 30 28 42 59 32
25 25 25 26 19 23 46 40 37
21 23 25 36 21 27 46 26 36
24 25 24 24 21 22 29 26 37
22 18 27 30 25 26 30 35 52
29 19 23 21 19 21 35 60 44
3. Los datos siguientes representan los dıas de Zafra en cada uno de los ingenios
azucareros de la republica mexicana. Construye una distribucion de frecuencia.
151 177 146 150 177 208 166 136 101 152 141
142 142 139 148 149 171 152 137 136 170 141
136 156 163 138 138 155 149 172 161 180 141
116 158 170 147 146 182 150 157 155 122 172
124 177 147 168 136 173 124 153 112 192 178
164 204 135 144 178 160 140 156
4. En la siguiente lista aparecen las calificaciones de 50 alumnos que presentaron
32 Estadıstica descriptiva
un examen de matematicas. Elabore una tabla de distribucion de frecuencia.
57 60 33 85 52 65 77 84 65 74
68 71 81 35 50 35 64 74 47 62
45 80 41 61 100 55 73 59 53 37
76 41 78 55 48 65 85 67 100 60
88 94 69 98 65 73 42 65 92 88
5. El conjunto de datos siguiente representa los totales de efectivo (en dolares)
gastados en un cierto fin de semana por 25 estudiantes graduados. Construya
una tabla de frecuencias agrupadas
39.78 28.30 28.31 17.95 44.47
46.65 31.47 33.45 29.17 48.39
82.71 43.63 41.17 47.32 52.16
25.94 50.32 35.25 35.70 17.89
60.20 48.14 22.78 38.22 23.25
2.4. Presentacion grafica de datos
Con frecuencia, el significado de los datos se puede comunicar mas efectivamente por
medio de graficos que por medio de tablas. Existe una gran variedad de formas para
presentar los datos graficamente. En la presente seccion se describiran algunos tipos
de graficos que seran utilizados en el presente curso.
Grafico estadıstico
Es la representacion de datos estadısticos por medio de figuras geometricas (puntos,
lıneas, rectangulos, etc.) cuyas dimensiones son proporcionales de valor numerico de
los datos. Su fin principal es permitir de un solo vistazo, la captacion rapida del con-
junto de caracterısticas presentadas y evidenciar sus variaciones en intensidad.
2.4 Presentacion grafica de datos 33
Un grafico es util para dar una rapida idea de la situacion general que se esta ana-
lizando, permite determinar por simple examen, el maximo y mınimo de las varia-
ciones de un fenomeno.
Graficas circulares
Se llama tambien grafica de pastel, es bastante util para representar proporciones o
porcentajes. Para construir el diagrama se puede usar el compas y el transportador:
el primero para trazar el circulo y el segundo para medir los sectores correspondientes
al pastel. Dado que el circulo tiene 360o (equivalente al 100 %), se puede utilizar el
transportador para dividir el pastel con base en las “rebanadas”deseadas de porcenta-
je. Esta grafica se construye generalmente cuando en la distribucion de frecuencia las
clases no se representan de manera cuantitativa. Para representar una grafica de sec-
tores circulares se lleva a cabo el siguiente procedimiento:
1.- Calcular Fr,
2.- Calcular los porcentajes obtenidos de 360o para determinar los grados que debe
tener cada sector aplicando la formula
(Fra)(360)
100
3.- Marcar en un circulo los sectores con angulos iguales a los obtenidos en el paso 2.
Cuente los grados del primer sector en el sentido conforme a las agujas del reloj y a
partir del radio vertical superior del circulo.
Ejemplo 2.4.1. La tabla 2.3 muestra el area de los cinco Grandes Lagos bajo jurisdic-
cion de E.U. Grafique los datos:
34 Estadıstica descriptiva
Gran Lago Area (en millas cuadradas)
Michigan 22342
Superior 20557
Huron 8800
Erie 5033
Ontario 3446
Total 60178
Tabla 2.3: Areas de los cinco Grandes Lagos bajo la jurisdiccion de E.U.
Se hace corresponder el area total, 60178 millas cuadradas a los 360◦ del cırculo. Ası,
una milla cuadrada corresponde a360◦
60178. Se deduce que el lago Superior, con 20557
millas cuadradas ocupa un arco de 20557
(360◦
60178
)= 123◦ y del mismo modo se
deducen los arcos de los otros lagos. Las lıneas divisorias se pueden trazar usando un
transportador.
Histograma
El histograma es una representacion grafica hecha en un plano cartesiano que consiste
en una serie de rectangulos que se caracterizan por que la variable aleatoria o el
fenomeno de interes se representa a lo largo del eje horizontal (estando referidos a las
marcas de clase como sus centros); el eje vertical representa el numero, proporcion o
porcentaje de observaciones por intervalos de clase, dependiendo de que el histograma
particular sea o no, un histograma de porcentaje (de frecuencia relativa).
Caracterısticas de un histograma:
1. Los posibles valores de la variable que se esta considerando se disponen en el
eje horizontal. Las frecuencias con que ocurren los valores de la variable se
representan en el eje vertical.
2. Cada intervalo de clase de la distribucion de frecuencia se representa por una
barra del histograma.
2.4 Presentacion grafica de datos 35
3. Las barras tienen la misma amplitud de los intervalos de clase correspondientes.
4. La altura de una barra dada correspondiente a la frecuencia con que ocurren los
valores en el correspondiente intervalo de clase. Es decir, para un conjunto dado
de datos, los intervalos de clase con frecuencias grandes, se representaran en el
histograma con barras altas y los intervalos de clases con frecuencias pequenas
con barras cortas.
5. Las barras de dibujan adyacentes entre sı. Esto tiene por objeto dar a entender
graficamente la naturaleza continua de los datos que se estan considerando.
6. Respecto del area total que aparece en el histograma, la proporcion encerrada
por una barra determinada es igual a la proporcion que la frecuencia del intervalo
de clase correspondiente tiene del numero total de observaciones.
Ejemplo 2.4.2. x: Numero de ninos en edad escolar, y: Frecuencia.
Polıgono de frecuencias
Aunque de menor uso, los polıgonos de frecuencia son otro medio de representar
graficamente las distribuciones de frecuencia simple como la frecuencia relativa. Para
construir un polıgono de frecuencias marcamos estas sobre el eje vertical y los valores
de la variable que vamos a medir, las marcamos sobre el eje horizontal. El siguiente
paso consiste en graficar cada frecuencia de clase dibujando un punto sobre su marca
de clase, o punto medio, y en unir por un trazo continuo a todas las marcas de clase.
Se puede obtener uniendo los puntos medios de las partes superiores de los rectangulos
del histograma.
Ejemplo 2.4.3. x: Marca de clase, y: Frecuencia.
Ojivas
Representacion grafica de frecuencias acumuladas. La representacion grafica de
la informacion contenida en los cuadros de frecuencia acumulada son curvas llamadas
36 Estadıstica descriptiva
ojivas. Una ojiva es una curva equivalente a un polıgono de frecuencia acumulada
suavizado. Para representar una ojiva se deben seguir los siguientes pasos:
1.- Localizar en el eje x los lımites reales superiores de clase,
2.- Localizar en el eje y las frecuencias acumuladas de cada clase,
3.- Unir por trazos continuos los puntos anteriores.
Ejemplo 2.4.4. x: LRS, y: Frecuencia acumulada.
2.5. Medidas de tendencia central
En una tabla de distribucion de frecuencias hay una zona en donde los valores son
mas altos, es decir, hay valores de las variables que son mas frecuentes, en cambio,
existen zonas en donde los valores de las variables son menos frecuentes. Surge ası, el
concepto de medida de tendencia central, tambien conocida como variable de centra-
lizacion, de posicion o parametros poblacionales que indican alrededor de que valor
se agrupa el mayor numero de casos en estudio. Las medidas de tendencia central
son representativas de toda la poblacion. Se les llama de tendencia central porque
en torno a ellas parecen agruparse los datos. Sirven para resumir todo un conjunto
de valores, por ello bien, se les puede considerar como sintetizadores. En general,
cualquier medida de tendencia central es un valor medio, ya que este por definicion
es todo valor que se haya entre dos extremos. Las medidas de tendencia central son
principalmente la media aritmetica, la mediana y la moda.
2.5.1. Datos no agrupados
El analisis de datos suele realizarse de diversas maneras, dependiendo de si existe una
cantidad pequena o grande de datos que se deba analizar. Cuando existen, digamos,
30 o menos puntos de datos, se utilizan los metodos que se presentan a continuacion.
Para mayores cantidades de datos, son mas practicas las computadoras o tecnicas en
las que es necesario llevar a cabo, en primer lugar el agrupamiento de los datos antes
del analisis. Tales tecnicas se explicaran con mas detalle mas adelante.
2.5 Medidas de tendencia central 37
Dos caracterısticas importantes de los datos que las medidas pueden poner de mani-
fiesto son: 1) el valor central o tıpico del conjunto y 2) la dispersion de los numeros.
La media aritmetica
Se define como la suma de un conjunto cantidades dividida entre el numero total de
ellas. Esta medida es la mas comun dentro de las de tendencia central y corresponde
al centro de gravedad de los datos. Por ejemplo, cuando nos preguntamos sobre el
promedio que obtuvimos en un ciclo escolar, estamos hablando de media aritmetica
o valor medio o simplemente media, se denota por x y su formula es
x =
∑Ni=1 xi
N(2.5)
para datos no agrupados.
Ejemplo 2.5.1. Los diez puntajes siguientes representan el numero de puntos anotados
en diez juegos de basquetbol por el jugador A: 6,10,3,7,6,6,8,5,9 y 10. La media es:
6 + 10 + 3 + 7 + 6 + 6 + 8 + 5 + 9 + 10
10=
70
10= 7
El valor 7 representa, en algun sentido, el numero central o medio de los puntos
anotados en diez juegos por el jugador A.
Ejemplo 2.5.2. Los totales anuales, en miles de millones de dolares, para las exporta-
ciones agrıcolas de Mexico de 2000 a 2010 son:
21.9 21.9 23.0 23.6 29.4 34.7 41.2 43.3 39.1 33.7
Determine la media si los datos constituyen una poblacion.
Nota 5. La media tiene una seria desventaja. Se ve afectada por los valores extremos
del final de una distribucion. Como depende de cada medida, los valores extremos
pueden llevarla a representar defectuosamente los datos.
Ejemplo 2.5.3. Suponga que un corredor de maraton ha corrido en seis maratones
mas grandes del paıs, quedando en las posiciones siguientes (el orden es el de los
maratones):
3 5 4 6 2 85
38 Estadıstica descriptiva
En la ultima carrera, en la que el ocupo el 85◦ lugar, fue todo el tiempo tratando
de ganar la carrera. Corrio en primer lugar las primeras 22 millas, pero le dieron
calambres y tuvo que caminar parte de las ultimas cuatro millas. Si la media se usa
para describir la habilidad del corredor, entonces debe usarse el valor 17.5, pero como
termino a lo mas en sexto lugar en las cinco primeras carreras, no parece razonable
usar la media para medir su capacidad de correr. Quiza la mediana proporcione una
medida mejor, pues en este ejemplo la media se afecta mucho por el valor extremo
85.
La mediana
La mediana es el punto dentro del recorrido de una variable que supera a no mas
de la mitad de los datos y es superado por no mas de la otra mitad. Dicho de otro
manera es un punto dentro de una distribucion de datos que tiene la caracterıstica
de dividirla en dos partes iguales. La identificaremos con el sımbolo Me.
Cuando se trata de datos no ordenados no es necesario utilizar formulas, unicamente
tenemos que ordenar los datos de menor a mayor, el concepto de termino medio es
correcto si el numero de datos ordenados es impar, si el numero de datos es par la
mediana es la semisuma de los dos valores intermedios que satisfacen su definicion.
Ejemplo 2.5.4. En cada uno de los siguientes la mediana esta dada por el numero
subrayado.
3 5 7 9 10
1 2 5 8 9 10
aquı Me = 5+82
= 6.5.
Nota 6. El uso de la mediana para datos de intervalo posee tanto ventajas como
desventajas. Una ventaja es que la mediana no se ve afectada por puntajes extremos
al final de la distribucion. La desventaja del uso de la mediana reside en que no
es facilmente determinable si el conjunto de datos es grande, puesto que las medidas
deben ordenarse primero, ponerse en orden numerico de menor a mayor o al contrario.
2.6 Medidas de dispersion 39
Para conjuntos grandes de datos que han sido organizados la mediana se encuentra
ası:
a) Si N es impar, la mediana es la medida que esta en el lugarN + 1
2,
b) Si N es par, la mediana es el promedio de las medidas que estan en los lugaresN
2y
N
2+ 1.
La moda
Es el dato que aparece mas veces en una distribucion de frecuencia. Es facil deter-
minarla por simple inspeccion, para una distribucion de frecuencia es la marca de
clase que se presenta con mayor frecuencia. Cuando en una distribucion de frecuencia
existe una sola moda, se dice que es unimodal, con dos modas es bimodal con tres es
trimodal, con mas de tres es multimodal.
Ejemplo 2.5.5.
3 5 8 3 7 4 3 2
2.6. Medidas de dispersion
Al grado en que los datos numericos tienden a extenderse alrededor de un valor medio
se le llama dispersion o variacion de los datos. Una medida de tendencia central por
si sola, no describe ni resume adecuadamente una distribucion de datos, es necesario
acompanarla de un indicador que de cuenta del grado de dispersion con que se dis-
tribuyen los datos de la variable. Una medida de dispersion dice cuanto se desvıan los
datos respecto a las tendencias centrales. Las medidas de dispersion mas importantes
son: el rango, la desviacion media, la varianza, la desviacion estandar y los
porcentajes.
40 Estadıstica descriptiva
2.6.1. Datos no agrupados
Rango
Se trata de la mas simple de las medidas de dispersion, representa la distancia entre el
mayor y el menor de los datos de una distribucion, por lo que puede ser interpretado
como la dispersion total de todos ellos. Se obtiene restando el dato menor del mayor,
consecuentemente, es calculable unicamente en variable cardinal.
Desviacion media
Mide la desviacion promedio de valores con respecto a la media del grupo, sin tomar
en cuenta el signo de la desviacion. Se obtiene al restar la media de cada valor del
grupo, eliminando el signo (+ o −) de la desviacion, hallando despues el promedio.
Al calcular la desviacion media es necesario considerar el hecho de que la suma de
las desviaciones positiva y negativa de la media siempre sera (por definicion) igual a
cero. De convertirse las diferencias a valores absolutos (todos los valores se consideran
desviaciones positivas) antes de sumar, se soluciona dicho problema. La desviacion
absoluta media se calcula con la formula siguiente
D.M. =
∑ | xi − x |N
(2.6)
donde N es el numero de observaciones del conjunto.
Varianza
Se obtiene restando a cada uno de los valores el valor de la media de todos los valores,
elevando al cuadrado cada una de las diferencias resultantes, sumando las diferencias
al cuadrado y dividiendo este total por el numero de valores menos 1. La varianza
muestral se puede calcular mediante la formula
S2 =
∑(xi − x)2
N − 1(2.7)
2.6 Medidas de dispersion 41
Una formula alternativa para calcular la varianza muestral es
S2 =
∑x2
i −(∑
xi)2
NN − 1
(2.8)
Tanto mayor sea la varianza de unos datos, mas dispersos, heterogeneos o variables
son esos datos. Cuanto mas pequena sea una varianza de unos datos, mas agrupados
u homogeneos son dichos datos.
Ejemplo 2.6.1. La tabla 2.4 muestra los costos por litro, en centavos de dolar, de la
gasolina de alto octanaje en 19 ciudades del mundo. Determine la varianza muestral.
Ciudad Costo por litro Ciudad Costo por litro
Amsterdam 57 Nairobi 57
Bruselas 53 Nueva York 40
Buenos Aires 38 Oslo 65
Hong Kong 57 Parıs 58
Johannesburgo 48 Rıo de Janeiro 42
Londres 56 Roma 76
Madrid 59 Singapur 59
Manila 46 Sidney 43
Mexico 25 Tokio 79
Montreal 47
Tabla 2.4:
Solucion:
Al usar la formula 2.8 se obtiene que S2 = 167.32. Entonces, la varianza muestral de
los 19 precios de gasolina es 167.32 centavos cuadrados.
Observacion 1. Para los datos de los precios por litro de la gasolina, el conocimiento
de que S2 = 167.32 centavos cuadrados tiene muy poco significado por sı mismo,
si es que tiene alguno. Sabemos que si el valor de la varianza es grande, entonces
las medidas estan muy dispersas, mientras que si el valor es pequeno hay muy poca
variabilidad en las medidas.
42 Estadıstica descriptiva
Ejemplo 2.6.2. Los datos de la tabla 2.5 indican los precios, en dolares, por libra, de
asado de cerdo y queso cheddar en 15 capitales del mundo.
Capital Cerdo asado Queso cheddar
Berna $6.61 $4.00
Bonn 2.38 2.74
Brasilia 1.27 1.08
Buenos Aires 1.36 2.03
Camberra 2.06 2.60
Londres 1.56 1.81
Madrid 2.33 3.15
Mexico 1.08 2.29
Ottawa 1.99 3.98
Parıs 2.47 2.37
Pretoria 1.95 1.76
Roma 2.46 2.96
Estocolmo 5.35 2.54
Tokio 4.19 2.38
Washington 3.29 2.69
Tabla 2.5:
¿Para cual alimento, el asado de cerdo o el queso cheddar, son menos variables y mas
estables los precios?
Solucion:
Ejemplo 2.6.3. Los datos adjuntos representan el promedio de millas por galon diario
por cinco dıas para los coches A y B, en condiciones similares.
A 20 25 30 15 35
B 15 27 25 23 35
a) Encuentre la media y el rango de millas por galon para cada coche.
2.6 Medidas de dispersion 43
b) ¿Cual coche parece haber logrado un rendimiento mas consistente si la consisten-
cia se determina examinando las varianzas? Explique.
Solucion:
Desviacion estandar
La desviacion estandar es simplemente la raız cuadrada positiva de la varianza. Para
muchos fines es una medida de la variabilidad mas util que la varianza. Por un lado,
la desviacion tıpica se expresa en las mismas unidades que las observaciones originales
y la media, mientras que la varianza se expresa en unidades cuadradas. Las siguientes
formulas dan la desviacion tıpica de la muestra
S =
√√√√∑x2
i −(∑
xi)2
NN − 1
(2.9)
Coeficiente de variacion
Las medidas de dispersion son valores absolutos y no resultan adecuados cuando se
lleva a cabo una comparacion entre dos distribuciones. Ası, una desviacion de unos
cuantos gramos al medir el peso de un caballo no es importante, pero es de mucha
importancia al medir la dosis de una medicina. Obtenemos una medida relativa de
dispersion cuando dividimos la desviacion estandar entre la media aritmetica, a esta
se le llama coeficiente de variacion.
Es la razon de la desviacion estandar a la media de una distribucion dada. El coefi-
ciente de variabilidad se acostumbra a expresarlo en porcentajes
C.V. =S
x(2.10)
La principal ventaja del coeficiente de variacion es que no tiene unidades de medida,
lo que hace mas facil su interpretacion. En general, valores de C.V. menores a 0.1
indican una alta concentracion, entre 0.1 y 0.5 una concentracion media y valores
superiores a 0.5 una alta dispersion y una media poco o nada representativa.
44 Estadıstica descriptiva
Ejemplo 2.6.4. En caso de que C.V. =S
x=
0.6831
11.48= 0.0595. El bajo valor del
coeficiente de variacion indica que los valores estan muy concentrados y que la media
representa aceptablemente al conjunto de la distribucion.
Ejemplo 2.6.5. En caso de que C.V. =S
x=
9.06
15= 0.6. Lo que implica que la media
no representa en modo alguno al conjunto de la distribucion.
Ejemplo 2.6.6. Supongamos que para los datos de tiempo de procesado en una CPU
de 25 tareas, la varianza es 1.42, luego su desviacion estandar es 1.19, y el coeficiente
de variacion1.19
1.63= 0.73. Por tanto, la desviacion estandar es algo mas del 70 % de
la media. Esto indica que los datos no estan muy concentrados en torno a la media,
probablemente debido a la presencia de los valores altos que hemos comentado antes.
2.7. Medidas de tendencia central y de dispersion
para datos agrupados
Las medidas de resumen fundamentales en lo que a datos agrupados se refiere, son
las mismas que para los pequenos conjuntos de datos, principalmente la media, la
mediana y moda como medidas de tendencia central y la desviacion estandar, varianza
y el rango como medidas de dispersion.
La media aritmetica
Para datos agrupados se utiliza
x =
N∑i=1
xF
N(2.11)
donde F es la frecuencia, x es la marca de la clase, N es el total de frecuencias y xi
son los datos.
Ejemplo 2.7.1. Los datos siguientes representan el numero de discos vendidos cada
dıa durante un periodo de 25 dıas en una tienda de musica localizada en un centro
2.7 Medidas de tendencia central y de dispersion para datos agrupados 45
comercial:
60 36 61 56 19 35 51 42 21 28 33 67 30
49 57 54 59 28 63 38 15 24 35 46 53
Ahora, por conveniencia los datos se presentan en la siguiente tabla 2.6 de frecuencia
agrupada
Numero de discos vendidos Numero de dıas
15-25 4
26-36 7
37-47 3
48-58 6
59-69 5
Tabla 2.6:
Encuentre:
a) El numero promedio de discos vendidos por dıa, x.
b) El numero promedio aproximado de discos vendidos por dıa, xa.
Solucion:
a) Con la ayuda de una calculadora, determinamos que la suma de las 25 medidas
es∑
x = 1060. En consecuencia, la media muestral es: x =Σx
N=
1060
25= 42.4.
Ası, el numero de discos vendidos por dıa es 42.4.
b) Encontramos primero las marcas de clase x. Recuerde que las marcas de clase son
el punto medio de cada intervalo de clase. Cada marca de clase se multiplica
entonces por su frecuencia correspondiente, como lo muestra la tabla siguiente
2.7:
46 Estadıstica descriptiva
Clase F x xF
15-25 4 20 80
26-36 7 31 217
37-47 3 42 126
48-58 6 53 318
59-69 5 64 320
Tabla 2.7:
Usando la formula (2.11), la media aproximada es xa =1061
25= 42.44.
Note que xa = 42.44 es solo un valor aproximado para la media de las 25 medidas
muestrales originales; la aproximacion se considera buena comparada con el valor
exacto x = 42.40 obtenido en la parte a).
Mediana
Para datos agrupados la formula a usar es
Me = LRI +
(N2− Fa−1
Fm
)C (2.12)
donde LRI de la clase mediana, N total de datos, Fa−1 es la Fa anterior a la Fa de la
clase mediana, Fm es F de la clase mediana y C es el tamano del intervalo de clase.
Ejemplo 2.7.2. La tabla 2.8 representa las velocidades, en millas por hora, para una
muestra de 37 coches que recorren una zona escolar donde se permite circular hasta
25 millas por hora. Encuentre la mediana aproximada de la velocidad.
Velocidad Numero de coches: F Fa
1-5 3 3
6-10 2 5
11-15 5 10
16-20 10 20
21-25 7 27
26-30 10 37
2.7 Medidas de tendencia central y de dispersion para datos agrupados 47
Solucion:
Como N = 37, queremos localizar elN
2=
37
2= 18.5−esimo valor. Al observar la
tabla 2.8 notamos que tal valor cae en la clase 16−20, porque las tres primeras clases
contienen un total de 10 valores y la cuarta 10 valores; por lo tanto, debemos contar
(18.5 − 10) = 8.5 valores en la clase 16 − 20, bajo la hipotesis de que los 10 valores
que caen en esta clase estan distribuidos homogeneamente a lo largo de ella; en otras
palabras, estamos buscando la medida en la clase 16− 20 localizada en los8.5
10de la
clase. Como el ancho de cada clase es C = 5, para encontrar el valor aproximado de
la mediana Me solo necesitamos sumar8.5
10del ancho C = 5 a la frontera inferior de
la cuarta clase. Ası el valor aproximado de la mediana es:
Me = 15.5 +
(8.5
10
)5 = 15.5 + 4.25 = 19.75
Moda
La formula es
Mo = LRI +
(∆1
∆1 + ∆2
)C (2.13)
donde ∆1 exceso de F antes de la clase modal (Frecuencia modal menos la frecuencia
antes de la frecuencia modal), ∆2 exceso de F despues de la clase modal (Frecuencia
modal menos la frecuencia despues de la frecuencia modal).
F La clase modal es el intervalo de clase que contiene al mayor numero de observa-
ciones.
Desviacion media
Se define como la desviacion promedio de los valores absolutos de las desviaciones de
los datos de una variable con respecto a su media, su formula es la siguiente:
D.M. =
∑ | x− x | FN − 1
(2.14)
Tabla 2.8:
48 Estadıstica descriptiva
donde x es la marca de la clase, x es la media aritmetica, F es la frecuencia y N es
el total de datos.
La varianza
Se define como la suma de los cuadrados de las desviaciones de las observaciones con
respecto a la media, dividida entre el total de datos N − 1
S2 =
∑ | x− x |2 F
N − 1(2.15)
Desviacion estandar
Es la desviacion promedio de los datos de una distribucion respecto a su media. La
desviacion estandar es simplemente la raız cuadrada de la varianza.
S =
√∑ | x− x |2 F
N − 1(2.16)
Ejemplo 2.7.3. Calcule las medidas descriptivas a partir de los datos agrupados de la
siguiente tabla.
Intervalo de Clase Frecuencia
85− 89 9
90− 94 11
95− 99 14
100− 104 20
105− 109 27
110− 114 22
115− 119 19
120− 124 16
125− 129 12
N = 150
2.8 Ejercicios 49
2.8. Ejercicios
1. Los datos anotados en seguida representan los totales, en dolares, gastados en
golosinas por una muestra de 25 estudiantes durante un periodo de examenes.
57 28 63 38 29 89 77 72 39
47 64 84 88 42 36 72 69
68 41 52 39 72 45 52 84
Construya una tabla de frecuencia agrupada.
2. Los datos siguientes indican los pesos en libras rebajados por grupo de mujeres
en las dos primeras semanas de un programa de ejercicios diarios:
1 2 12 3 15 5 12 11 3 4
3 5 0 7 17 6 17 13 2 5
5 7 1 11 3 9 9 8 18 9
10 9 4 12 1 8 8 7 11 9
15 11 8 4 5 11 3 14 12 10
Use el conjunto de datos para cubrir los siguientes:
Construya una tabla de frecuencia agrupada con 5 clases.
Trace una ojiva usando frecuencias relativas y la tabla construida en el
punto anterior.
Grafique un histograma de frecuencia con cinco barras usando la tabla ya
realizada.
Encuentre el ancho de la clase 10 − 20, donde los 10 y 20 son los lımites
de clase.
Si Vmax = 89.7 y Vmin = 32.1, n0 = 5 y la unidad de medida es 0.1,
determine el lımite superior de la primera clase.
3. Se proponen 3 calificaciones para los salarios por hora de un artesano. Critique
usted cada una de las clasificaciones dadas a continuacion:
50 Estadıstica descriptiva
Clasificacion I Clasificacion II Clasificacion III
$ 0-3.00 $ 0-3.50 $ 0-menos de 3.00
3.00-6.00 3.51-7.00 4.00-menos de 7.00
6.00-9.00 7.01-10.00 8.00-menos de 11.00
9.00-12.00 10.01-15.00 12.00-menos de 15.00
12.00-15.00 mas de 15.00 mas de 15.00
4. La tabla 2.9 muestra una distribucion de frecuencias de los salarios semanales
de 65 empleados de la empresa P&R. De acuerdo con esta tabla, determine:
El lımite inferior de la sexta clase.
El lımite superior de la cuarta clase.
La marca de clase de la tercera clase.
Los lımites reales del quinto intervalo.
El tamano del quinto intervalo de clase.
La frecuencia de la tercera clase.
La frecuencia relativa de la tercera clase.
El intervalo de clase con mayor frecuencia.
El porcentaje de empleados que ganan menos de $280.00 a la semana.
El porcentaje de empleados que reciben por semana mas de $260.00, pero
menos de $300.00.
2.8 Ejercicios 51
Salarios Numero de empleados
$ 250.00-259.99 8
260.00-269.99 10
270.00-279.99 16
280.00-289.99 14
290.00-299.99 10
300.00-309.99 5
310.00-319.99 2
Total 65
Tabla 2.9: Distribucion de frecuencia de salarios semanales.
5. Como control de la etica publicitaria se requiere que el rendimiento, en mi-
llas por galon de gasolina, que los fabricantes de automoviles usan con fines
publicitarios, este basado en un buen numero de pruebas efectuadas en diver-
sas condiciones. Al tomar una muestra de n = 50 automoviles se registran las
siguientes observaciones en millas por galon:
27.9 29.3 31.8 22.5 34.2 33.5 30.5 30.6 35.1 28.6
34.2 32.7 26.5 26.4 31.6 30.1 30.3 29.6 31.4 32.4
35.6 31.0 28.0 33.7 32.0 28.7 30.4 31.3 32.7 30.3
28.5 27.5 29.8 31.2 28.7 30.5 31.3 24.9 26.8 29.9
30.0 28.7 33.2 30.5 27.9 31.2 29.5 28.7 23.0 30.1
Construya un histograma de frecuencias relativas usando 5 intervalos de
clase de la misma longitud.
Los fabricantes afirman que su automovil esta disenado para rendir al
menos 30 millas por galon. ¿Que porcentaje de autos en la muestra produce
este rendimiento?.
52 Estadıstica descriptiva
6. Las calificaciones finales en matematicas de 80 estudiantes universitarios son las
siguientes:
68 84 75 82 68 90 62 88 76 93
73 79 88 73 60 93 71 59 85 75
61 65 75 87 74 62 95 78 63 72
66 78 82 75 94 77 69 74 68 60
96 78 89 61 75 95 60 79 83 71
79 62 67 97 78 85 76 65 71 75
65 80 73 57 88 78 62 76 53 74
86 67 73 81 72 63 76 75 85 77
Encuentre:
La calificacion mas alta.
La calificacion mas baja.
El rango.
Las cinco calificaciones mas altas.
Las cinco calificaciones mas bajas.
La calificacion del alumno que obtuvo el decimo lugar mas alto.
El numero de estudiantes con calificaciones de 75 o mas.
El numero de estudiantes con calificaciones menores que 85.
El porcentaje de estudiantes con calificaciones mayores que 65, pero menores
a 85.
7. La tabla 2.10 muestra la distribucion de frecuencias del numero semanal de mi-
nutos que pasan viendo la television 400 estudiantes de secundaria. Determine:
El lımite superior de la quinta clase.
El lımite inferior de la octava clase.
La marca de la septima clase.
2.8 Ejercicios 53
Los lımites reales de la ultima clase.
El tamano de los intervalos de clase.
La frecuencia de la cuarta clase.
La frecuencia relativa de la sexta clase.
El porcentaje de estudiantes cuyo tiempo semanal de ver la television no
excede de 600 minutos.
El porcentaje de estudiantes cuyo tiempo semanal de ver la television es
mayor o igual de 900 minutos.
El porcentaje de estudiantes cuyo tiempo de ver la television es mayor de
500 minutos, pero menor que 1000 minutos.
Construir un histograma de frecuencias correpondiente a la distribucion de
la tabla 2.10.
Tiempo de ver TV (min.) Num. de estudiantes
300-399 14
400-499 46
500-599 58
600-699 76
700-799 68
800-899 62
900-999 48
1000-1099 22
1100-1199 6
Tabla 2.10: Distribucion de frecuencia.
8. Con la siguiente lista de numeros realiza la tabla de distribucion de frecuencias,
54 Estadıstica descriptiva
calcula las medidas de tendencia central y las medidas de dispersion.
3.32 3.98 3.23 3.07 3.04 3.85 3.59
3.42 3.89 3.40 3.15 3.49 3.61 3.41
3.05 3.81 3.39 3.54 3.28 3.84 3.34
3.49 3.74 3.00 3.10 3.76 3.71 3.29
9. Con la siguiente lista de numeros realiza la tabla de distribucion de frecuencias,
calcula las medidas de tendencia central y las medidas de dispersion.
4.32 3.26 4.18 5.21 4.26 8.25
5.16 5.20 4.98 4.48 3.58 4.32
4.96 5.27 4.16 4.29 4.56 5.36
6.28 3.96 5.44 5.36 4.84 5.36
4.72 4.12 5.13 5.65 4.16 5.17
10. Con la siguiente lista de numeros realiza la tabla de distribucion de frecuencias,
calcula las medidas de tendencia central y las medidas de dispersion.
52 63 92 92 83 74 66
98 68 81 88 77 41 60
46 77 81 82 84 70 76
79 98 82 81 87 70 78
79 88 77 84 70 61 80
78 76 66 77 78 67
11. Calcule la media, la mediana y la moda para cada una de las muestras siguientes:
a) 3, 9, 12, 7, 16, 20, 33, 3
b) 5, 7, 22, 17, 5, 7, 20
c) 8, 6, 0, 17, 12, 7, 5
d) −4, 0, 13, 9, 4, 14, 20, 15
2.8 Ejercicios 55
12. Calcule la media, la mediana y la moda para cada una de las muestras siguientes:
a) 0, 0, 1, 1, 1, 0, 0, 0
b) 3, 3, 3, 2, 2, 2, 4, 5, 3
c) 0, 1, 1, 2, 2, 3, 3, 4, 4
d) −1, 0, 0, 0,−1, 2,−2, 3
13. Un instructor borra accidentalmente la calificacion de uno de sus 6 estudiantes;
las 5 calificaciones restantes son 76, 85, 43, 89 y 65, y la media de las seis es 70.
Encuentre la calificacion que se borro.
14. En un esfuerzo por reducir su consumo de cafe, un trabajador de oficina registra
los numeros siguientes de tazas de cafe consumidas durante un periodo de 20
dıas:4 5 3 6 7 1 2 3 0 5
6 5 8 4 0 2 3 7 5 6
¿Que medida de tendencia central le servira mejor a su proposito?¿Cual es el
valor numerico?.
15. A continuacion hay una coleccion de calificaciones del examen de Estadıstica
de 25 estudiantes, en un examen de 50 preguntas
38 39 33 37 34 31 38 36 35 5
¿Cual medida de tendencia central es mas util para describir el valor cen-
tral?¿Cual es su valor numerico?.
16. En una investigacion realizada por la secretaria de un medico para averiguar los
tiempos de espera en minutos de los pacientes que acuden con el doctor, una
muestra de pacientes de un dıa arrojo los resultados:
35 25 35 50 25 55 30 50 35 35
5 5 60 35 30 30 25 55 30 20
60 25 25 40 80 20 20 5 5 10
56 Estadıstica descriptiva
a) Describa un tiempo tıpico de espera usando la media.
b) Describa un tiempo tıpico de espera usando la mediana.
c) ¿Cual medida, media o mediana, considera usted que es mas representativa
del conjunto de datos? Explique.
17. La tabla siguiente contiene los salarios en cientos de dolares de 25 trabajadores.
Salario anual Frecuencia
55 7
60 5
70 6
80 4
300 3
a) ¿Cual es la moda?
b) ¿Cual es la media?
c) ¿Cual es la mediana?
18. Se escogio una muestra de 705 conductores de autobus y se registro en la tabla
siguiente el numero de accidentes de transito que tuvieron durante 4 anos.
Numero de accidentes Frecuencia Numero de accidentes Frecuencia
0 114 6 21
1 157 7 7
2 158 8 6
3 115 9 1
4 78 10 3
5 44 11 1
2.8 Ejercicios 57
a) ¿Cual es la moda?
b) Senale la media, la mediana.
c) ¿Cual es el rango?
19. La tabla siguiente da una muestra de los tiempos de recorrido, en minutos, de
un camino de 2.5 millas para dos coches, A y B.
A 1.0 0.9 1.0 0.8 0.9 1.0 0.9 1.0
B 1.3 1.3 1.0 0.9 1.1 0.9 1.4 1.3
a) Encuentre el promedio de los tiempos de recorrido para cada uno de los
coches, A y B.
b) Calcule la varianza de los tiempos de recorrido para A y B, respectivamente.
c) ¿Cual coche tuvo un tiempo promedio menor de recorrido?
d) ¿Que coche tuvo un desempeno mas consistente, si la consistencia se mide
por la varianza?
20. La tabla adjunta indica los salarios anuales, en dolares, para una muestra de 25
trabajadores.
Salario anual Frecuencia
$5,500 7
6,000 5
7,000 6
8,000 4
30,000 3
Encuentre el rango, la media, la desviacion estandar.
58 Estadıstica descriptiva
21. Una gran lecherıa vigila continuamente el nivel de contenido graso en su produc-
to; el porcentaje de grasa no debe desviarse mucho del 2 % de la leche, siendo
aceptable una desviacion estandar del 10 %; se obtuvo una muestra de 20 car-
tones de leche y se registro el porcentaje de grasa en cada uno. Los resultados
se anotan a continuacion.
1.85 2.25 2.01 1.90 1.97
1.80 2.05 2.23 1.65 1.86
2.02 2.09 2.04 2.07 2.14
1.93 2.08 2.17 1.91 1.93
Calcule la media y la desviacion estandar para la muestra de contenidos de grasa.
¿Hay evidencia de que el contenido de grasa es demasiado alto? Explique.
22. La tabla de frecuencias agrupadas exhibe las edades de una muestra de 36
personas asistentes a una pelıcula para adultos.
Clase F
8-13 2
14-19 7
20-25 13
26-31 5
32-37 9
Encuentre la media, mediana, moda, varianza y desviacion estandar.
23. La tabla de frecuencia agrupada adjunta indica las edades de compradores de
coches nuevos en una gran distribuidora.
2.8 Ejercicios 59
Clase de edades F
28-32 20
33-37 23
38-42 71
43-47 45
48-52 26
Encuentre la edad media, mediana, moda, varianza y desviacion estandar.
60 Estadıstica descriptiva
Autoevaluacion
Nombre:
1. Define Estadıstica.
2. ¿Cual es la diferencia entre una poblacion y una muestra?.
3. ¿Cual es la diferencia entre las variables discretas y continuas?. De un ejemplo
de cada una.
4. ¿Que es la estadıstica y para que la estudiamos?
5. ¿Cual es la diferencia entre una variable cualitativa y una cuantitativa?. De dos
ejemplos de cada una.
En los siguientes elige la respuesta correcta y subraya.
6. Es una ciencia que analiza series de datos y trata de extraer conclusiones sobre
el comportamiento de estas variables.
a) La estadıstica descriptiva b) La estadıstica inferencial c) El muestreo
7. Es la representacion estructurada, en forma de tabla, de toda la informacion
que se ha recogido sobre la variable que se estudia.
a) La distribucion de frecuencia b) La muestra c) La estadıstica descriptiva
8. Son las medidas que nos informan sobre los valores medios de la serie de datos.
a) Las MTC b) Las MD c) Las variables.
9. Son las medidas que estudian la distribucion de los valores de la serie, analizando
si estos se encuentran mas o menos concentrados, o mas o menos dispersos.
a) Las MTC b) Las MD c) Las variables.
10. Es el valor medio ponderado de la serie de datos.
a) La media b) La mediana c) La moda
2.8 Ejercicios 61
11. Es el valor de la serie de datos que se situa justamente en el centro de la muestra.
a) La media b) La mediana c) La moda
12. Mide la distancia existente entre los valores de la serie y la media. Se calcula
como sumatoria de las diferencias al cuadrado de cada valor y la media, mul-
tiplicadas por el numero de veces que se ha repetido cada valor. La sumatoria
obtenida se divide por el tamano de la muestra.
a) La varianza b) La desviacion media c) La desviacion estandar
13. Calcule la media, mediana y moda para cada uno de los siguientes:
a) 12 15 23 7 12 40 22 16
14. La tabla siguiente contiene los salarios en cientos de pesos, de 25 trabajadores.
Salario anual 55 60 70 80 300
Frecuencia 7 5 6 4 3
a)¿Cual es la media?, b)¿Cual es la moda?, c)¿Cual es la mediana?, d)¿Que
medida de tendencia central usarıa para determinar el valor central?. Explique.
15. Se inspeccionaron 15 radios antes de enviarlos para su venta. El numero de
defectos por radio es: 1, 0, 3, 4, 2, 1, 0, 3, 1, 2, 0, 1, 1, 0, 1. Obtenga: x, Me y Mo
para el numero de defectos.
16. La generacion de energıa resulta costosa para el gobierno federal. Con el fin de
ahorrar por ese concepto, se han propuesto diferentes estrategias, entre ellas
destacan los mensages a la poblacion para que economicen energıa apagando
los focos que no esten utilizando o cambiando los focos convencionales por aho-
rradores. Entre las medidas adoptadas por los gobiernos esta el uso del horario
de verano. Para contar con una idea mas clara sobre el consumo de energıa en
los hogares, se requiere de la informacion correspondiente. Para obtenerla, se
pidio a un grupo de 40 alumnos que cada uno de ellos llevara a la clase su ultimo
62 Estadıstica descriptiva
recibo de luz. En la facturacion aparece el consumo en KWh. A continuacion
se muestran los 40 consumos:
299 308 335 330 317 330 327 346 315 320 301 312 320 334
319 314 309 326 314 311 322 325 300 322 312 307 311
322 298 308 312 336 314 312 328 305 315 301 327 324
a) Hacer una tabla de distribucion de frecuencias usando 8 clases.
b) Trazar un histograma de Fr, un polıgono de frecuencias y de acuerdo a
estos dos ultimos, diga en cuantos hogares se consumen menos de 310
KWh y a que porcentaje corresponde. Senale estos datos en las graficas
correspondientes.
17. Considere la tabla de frecuencia agrupada siguiente:
Clases F
4.5-9.4 2
9.5-14.4 3
14.5-19.4 4
19.5-24.4 1
24.5-29.4 8
a) Encuentre la amplitud C de cada clase.
b) Las 5 marcas de clase.
c) Localice las fronteras reales para la primera clase.
d) ¿Que porcentaje hay de datos mayores que 19.45?.
e) ¿Y de los datos menores de 24.5?.
f) ¿Que tanto por ciento cae en la clase 14.5− 19.4?.
2.8 Ejercicios 63
18. Se realizo un experimento para determinar el efecto de un cierto
farmaco en los niveles de colesterol en la sangre, enmg
100 ml, en hom-
bres de 30 anos. Se obtuvieron las siguientes medidas:
245 185 230 225 265 210 235 145 195 215
245 165 195 170 205 225 190 220 210 195
160 240 285 175 260 225 120 185 140
a) Hacer una distribucion de frecuencias con 10 clases
b) Trazar un histograma de Fr.
19. Los datos que a continuacion se exhiben representan las razones de
costo beneficio para 25 distintos tipos de acciones de mercado de
valores.
20.5 15.4 16.9 13.4 8.8 19.5 12.7 7.8 14.3 22.1 15.6 5.4 23.3
19.2 20.8 24.1 17.0 11.8 9.2 12.6 9.9 28.6 18.4 16.8 15.9
a) Construya un histograma de frecuencias relativas para describir estos datos.
b) ¿Que proporcion de las acciones tienen tasas de costo-beneficio de 17.0 o
mayores?.
Capıtulo 3
Muestreo
3.1. Introduccion
En multitud de ambitos de la vida real es evidente que la mejor forma de aprender
algo es a partir de la experiencia. Eso quiere decir que solemos utilizar aquello que
vemos para aprender pautas y conductas que luego generalizamos. En Estadıstica
pasa algo muy similar: necesitamos basarnos en muestras de una variable para poder
aprender de ellas y generalizar, inferir, aspectos referentes a las muestras a toda la
poblacion. Sin embargo, como en la vida real, en Estadıstica tambien debemos ser muy
cuidadosos con los datos sobre los que basamos nuestro aprendizaje. ¿Que pasarıa si
basamos nuestro aprendizaje en experiencias incorrectas o poco significativas? Para
que esto no ocurra debemos basarnos en muestras donde todos los individuos de la
poblacion puedan verse representados. Por otra parte, es evidente que cuanto mayores
sean las muestras mas fiables deberıan ser nuestras inferencias.
Ahora bien, el principal objetivo de la estadıstica es hacer inferencias acerca de una
poblacion con base en la informacion contenida en una parte o muestra de ello. El ob-
jetivo principal de un diseno de muestreo es proporcionar indicaciones para la seleccion
de una muestra que sea representativa de la poblacion bajo estudio, proporcionando
ası una cantidad especificada de informacion a un costo mınimo.
Los terminos usados frecuentemente en inferencia son:
3.1 Introduccion 65
1) Parametros de una poblacion: Un parametro es una medida usada para describir
algunas caracterısticas de una poblacion de estudio o variable especıfica de una
poblacion de estudio. Por ejemplo,
El ingreso promedio de las familias que habitan en Tabasco.
El porcentaje de mujeres que hay en una ciudad.
El numero de familias con vehıculos.
El porcentaje de personas diabeticas.
2) Estadısticos: Son las medidas usadas para describir algunas caracterısticas de la
muestra tal como la media, mediana o desviacion estandar de una muestra.
3) Poblacion de estudio: Es el conjunto universal de elementos que tienen en comun
la variable de interes (parametro) para el estudio. Dependiendo del parametro
que se quiere investigar se determina la poblacion de estudio. Si la poblacion
de estudio es uniforme en las caracterısticas que seran medidas, entonces casi
cualquier muestra produce resultados aceptables.
Por ejemplo, una agencia para la proteccion del medio ambiente basa su diag-
nostico de la calidad del agua de una ciudad en el analisis de algunos litros de
agua. Esto es posible debido a que se supone que una gota de agua contiene
aproximadamente la misma cantidad de impurezas que otra.
Las poblaciones de estudio se clasifican en homogenea y heterogenea.
PEHo: Los datos numericos de los elementos de la poblacion no estan muy
dispersos, es decir, los datos son parecidos.
PEHe: Es el conjunto universal de elementos cuyos datos con respecto a una
variable auxiliar numerica estan muy dispersos. Por ejemplo:
La poblacion de predios agrıcolas.
El ingreso economico de las familias de la ciudad.
66 Muestreo
El numero de empleados de un centro de trabajo.
Hay dos formas de generar informacion estadıstica
1) Censo: Es un inventario (o registro) de todos y cada uno de las unidades (elemen-
tos) que constituyen una poblacion.
2) Muestreo: Es un metodo probabilıstico que consiste en investigar una porcion de
la poblacion de estudio.
Se podrıa pensar que la unica forma de garantizar que un conjunto de datos represente
a la poblacion es a traves del censo pues se registra a cada elemento de la poblacion.
Entonces ¿porque llevar a cabo investigaciones muestrales en lugar de censos comple-
tos?.
3.2. Muestra y censo
3.2.1. Ventajas y desventajas del censo
Ventajas
Se obtiene informacion completa de todos los parametros posibles que se deseen
conocer, es decir, los parametros son ilimitados.
Muy util cuando se tiene poblaciones pequenas
Si existe mucha variabilidad entre los elementos de la poblacion, puede ser
necesario considerar una muestra muy grande para obtener una que sea repre-
sentativa. Si la poblacion no es mas grande que la muestra, entonces es mejor
un censo.
Si se requiere exactitud completa.
Ejemplo 3.2.1. Un gerente bancario no tomara una muestra al azar del dinero
en las cajas para saber de cuanto efectivo dispone el banco, sino que contarıa
3.2 Muestra y censo 67
todo el dinero depositado en ellas. Esto no hace que no se cometan errores
y fallas aritmeticas al sumar las cantidades, pero evita los problemas que se
presentarıan si se tomara alguna caja como representativas de todas las demas.
Desventajas
Es muy costoso.
Los resultados finales se tienen a largo plazo. Por esta razon la informacion
estadıstica ya no es oportuna para la toma de desiciones adecuada.
No se puede contar con un equipo de trabajo altamente capacitado porque en
el participan miles de personas.
No se puede conocer la dimension del error que se comete en los registros de los
datos.
Es imposible hacer una supervision a un alto porcentaje de las unidades o
elementos censados.
La poblacion es infinita. En este caso es imposible efectuar un censo ya que
es un proceso que no termina y serıa evidentemente imposible examinar cada
elemento de la poblacion.
3.2.2. Ventajas y desventajas del muestreo
Ventajas
Resultados a corto plazo lo cual es oportuno para la toma de desiciones.
Ejemplo 3.2.2. En el tiempo que se necesita para examinar cada caja de un
cargamento de fresas frescas, la fruta se podrıa deteriorar hasta el punto que no
pudiera venderse.
Ejemplo 3.2.3. Encuestar personas de una gran comunidad para descubrir el
porcentaje de individuos que contrajeron cierta enfermedad contagiosa puede
68 Muestreo
tardarse tanto que, cuando se obtengan los resultados y se tomen las medidas de
sanidad convenientes, el padecimiento puede haberse extendido en tal grado que
serıa necesario tomar otras disposiciones. De hecho, los encuestadores pueden
ser un factor que contribuya a la propagacion de la enfermedad. Ası, el estudio
puede indicar que localmente se dispone de suficiente vacuna para hacer frente
a la enfermedad pero, para ese momento, esta se encontrara fuera de control y
requerira dosis masivas de la vacuna.
Investigacion practica y a bajo costo
Como el numero de los participantes es pequeno se puede contar con un equipo
altamente capacitado.
Se puede controlar el error que se comete en el registro de datos.
Alto porcentaje de investigacion.
Si el tamano de la muestra es mas pequeno que la poblacion, entonces se pueden
extraer dos muestras o mas.
Pueden intervenir ensayos destructivos.
Ejemplo 3.2.4. Cuando los datos se obtienen de la destruccion de los elementos
de la muestra, el muestreo es mas eficiente que un censo.
En control de calidad por ejemplo, la prueba de bombillas para flash es de tipo
destructivo. En este caso es indispensable el muestreo porque un censo destruirıa
todos los elementos de la poblacion y no habrıa artıculos para la venta.
Exactitud cuando la poblacion es grande. El muestreo comprende menos obser-
vaciones, y por lo tanto, menos recopiladores de datos, lo que puede dar lugar
a mayor uniformidad en los metodos de recopilacion.
Desventajas
Solo se puede conocer un numero limitado de parametros.
3.2 Muestra y censo 69
En ocasiones no se cuenta con una poblacion completa de los elementos de
estudio.
Si se requiere de exactitud completa no es muy util.
Para que las conclusiones de la teorıa del muestreo sean validas es necesario que las
muestras sean representativas y que se satisfaga:
El tamano de la muestra sea suficientemente grande.
La muestra debe ser seleccionada aleatoriamente. Es decir, cada miembro de la
poblacion debe tener la misma posibilidad de ser elegido.
Una muestra aleatoria se selecciona de forma que toda combinacion de n mediciones
de la poblacion tenga la misma posibilidad de ser seleccionada.
Una tecnica de obtencion de una muestra aleatoria es la asignacion de numeros a tro-
zos de papel, colocarlos en una urna y despues sacar numeros de dicha urna teniendo
cuidado de mezclar bien antes de cada extraccion.
Tipo de seleccion de los elementos de una muestra
1) Con reemplazo: Consiste en que una vez que se ha seleccionado de manera aleatoria
un elemento, esta se regresa a la poblacion. Se observa que un elemento en comun
puede ser seleccionado mas de una vez para la muestra y es posible que un solo
elemento contribuya a la muestra.
Ejemplo 3.2.5. Un numero en una urna, existe la opcion de reponer o no el
numero en la urna antes de la segunda extraccion. En esta caso el numero
puede salir una y otra vez.
Poblacion de estudio de tamano N .
1ra 2da 3ra 4ta · · · (n− 1) n1
N
1
N
1
N
1
N· · · 1
N
1
N
70 Muestreo
Entonces, la posibilidad de seleccionar aleatoriamente n elementos con reem-
plazo de una poblacion de estudio de tamano N es
(1
N
)n
=1
Nn.
2) Sin reemplazo: Los elementos que se seleccionan sin reemplazo de una poblacion
de estudio consiste en que una vez que se mide un elemento esta ya no se regresa
al conjunto.
Ejemplo 3.2.6. En el caso de la urna, el numero solo sale una vez.
1ra 2da 3ra 4ta · · · (n− 1)1
N
1
N − 1
1
N − 2
1
N − 3· · · 1
N − (n− 1)
Las poblaciones son finitas o infinitas. Si el muestreo es sin reemplazo entonces es
de poblacion finita, pues el conjunto disminuye y la probabilidad de seleccion del
siguiente elemento aumenta. Si es con reemplazo teoricamente puede considerarse
como muestreo de poblacion infinita ya que es posible extraer cualquier numero de
muestras sin extinguir la poblacion.
Ejemplos de poblacion infinita son: la produccion futura de una maquina, tiradas
de una moneda y dados no cargados. Ejemplos de procesos aleatorios son: llegadas
de autos a una caseta de cobro, llamadas telefonicas que se reciben en un enorme
conmutador, los clientes en las cajas de los supermercados.
Otra forma de seleccionar una muestra aleatoria es mediante una tabla de numeros
aleatorios.
3.3. Tabla de numeros aleatorios
En esta seccion se describira la forma de llevar a cabo una encuesta por muestreo con
base en una muestra aleatoria simple.
Definicion 3.3.1. Al seleccionar una muestra de n mediciones de una poblacion
finita de N mediciones, si el muestreo se lleva a cabo de forma que todas las muestras
3.3 Tabla de numeros aleatorios 71
posibles de tamano n tengan la misma probabilidad de ser seleccionadas, el muestreo
se llama aleatorio y el resultado es una muestra aleatoria simple.
En la practica es muy difıcil lograr un muestreo aleatorio perfecto. Si la poblacion no
es muy grande, cada una de las N mediciones se puede anotar en un pedazo de papel
que se coloca en una urna. Posteriormente se extrae de la urna una muestra aleatoria
de n mediciones.
La mejor manera de estar seguros de efectuar un muestreo aleatorio es usar una
tabla de numeros aleatorios. Las tablas de numeros aleatorios contienen los 10 dıgi-
tos 0, 1, 2, . . . , 7, 8, 9. Tales dıgitos se pueden leer individualmente o en grupos y en
cualquier orden, en columnas hacia abajo, columnas hacia arriba, en fila, diagonal-
mente, etc., y es posible considerarlos como aleatorios. Las tablas se caracterizan por
dos cosas que las hacen particularmente utiles para el muestreo al azar. Una carac-
terıstica es que los dıgitos estan ordenados de tal manera que la probabilidad de que
aparezca cualquiera en un punto dado de una secuencia es igual a la probabilidad
de que ocurra cualquier otro. La otra es que las combinaciones de dıgitos tienen la
misma probabilidad de ocurrir que las otras combinaciones de un numero igual de
dıgitos.
En el siguiente ejemplo se ilustra el uso de una tabla de numeros aleatorios.
Ejemplo 3.3.1. Para las empresas es sumamente inportante tener una administracion
adecuada de los flujos de efectivo para presupuestar y controlar en forma eficiente
sus recursos presentes y futuros. Cuando los flujos de efectivos son altos, la empresa
puede adquirir inventarios y bienes de capital en forma inmediata, aprovechando las
rebajas de precio que ofrecen los proveedores. Cuando hay escasez de efectivo, no es
posible comprar al contado y es necesario pagar mas por bienes y servicios.
Una de las mejores maneras de medir la situacion de una companıa de ventas al
menudeo, en lo que se refiere a efectivo, es a traves de las cuentas por cobrar a corto
plazo que tiene la empresa. Al analizar la situacion de una tienda, una firma de con-
tadores decide seleccionar una muestra aleatoria simple de n = 15 cuentas mensuales
72 Muestreo
por cobrar de la N = 1000 cuentas de la tienda, para estimar la cantidad total venci-
da en todas las cuentas por cobrar. Se sabe que para obtener una muestra aleatoria
simple se requiere que todas las muestras posibles de n = 15 cuentas tengan la misma
probabilidad de ser seleccionadas. Usando la tabla 3.1, se determinara cuales son las
cuentas que seran incluidas en la muestra de tamano n = 15.
Solucion:
Se puede pensar que las N = 1000 cuentas por cobrar estan numeradas como sigue:
001, 002, . . . , 999, 000. Es decir, se tienen 1000 numeros de tres dıgitos, donde 001
representa la primera cuenta, 999 la cuenta numero 999 y 000 la cuenta numero mil.
En la tabla 3.1 se elige un punto de partida arbitrario. Si el punto de partida es el
primer numero de la quinta columna y se eliminan el ultimos dıgito de cada numero
de cuatro, se vera que el primer numero de tres dıgitos que se obtiene es el 700, el
segundo 110, en tercero el 40, etc. Si un numero aleatorio ocurre dos veces, se omite
la segunda ocurrencia y se selecciona otro numero aleatorio para reemplazarlo. Al
tomar una muestra aleatoria que consista en los primeros 15 numeros de tres dıgitos
no repetidos de la columna 5, se obtienen los siguientes numeros:
700 078 761
110 795 545
040 513 506
995 250 034
915 957 624
Si las cuentas por cobrar estan numeradas, simplemente se escogen aquellas cuyos
numeros corresponden a los de la lista anterior y se forma la muestra de n = 15 de
las N = 1000 cuentas por cobrar. Si las cuentas por cobrar no estan numeradas, se
toma una lista de ellas y se seleccionan aquellas cuyo orden coincide con los numeros
obtenidos anteriormente.
En el ejemplo 3.3.1, el tamano de la poblacion N = 1000 hizo posible el asociar en
forma unica cada elemento de la poblacion con un numero diferente de tres dıgitos.
3.3 Tabla de numeros aleatorios 73
¿Que se puede hacer si N = 964? Esta claro que se pueden asociar los numeros de
tres dıgitos 001, 002, . . . , 964 con los elementos de la poblacion. Los numeros de tres
dıgitos que restan, 965, 966, . . . , 999, 000. Deben ignorarse al seleccionar la muestra
de n numeros de tres dıgitos de la tabla de numeros al azar.
en ocasiones el experimentador usa su propio criterio para seleccionar una muestra
representativa o emplea procedimientos intuitivos para seleccionar la muestra en for-
ma “aleatoria”. Ambos procedimientos estan sujetos al sesgo del experimentador y
deben evitarse cuando se desea obtener una muestra aleatoria simple.
74 Muestreo
9869 8728 0368 4431 7002 5030 2227 0479 6343
6339 6518 5946 3213 1109 1313 3450 8522 0293
7643 4939 0996 4039 0400 4453 4430 3263 4107
3661 6244 3738 8889 9959 4514 1236 6241 2889
3802 6424 2819 2820 9158 1249 5365 9601 5421
7456 8278 4622 1342 0784 4285 1249 0238 8195
9015 9975 5045 7059 7958 9806 9754 5941 4796
9891 0292 2203 2661 5130 3766 4364 9713 2171
5943 4287 6682 0697 2509 6664 0303 1635 5072
0515 6671 9202 6750 9579 8805 9213 5242 9971
8222 6702 7366 2906 7615 8908 8480 0654 5960
5000 7560 0966 8264 5457 4426 4762 3986 0510
2590 8247 8506 5768 5069 2032 5654 7557 5502
0473 8236 0827 0574 0349 8170 1543 9000 7482
6937 2597 8681 2096 6247 1383 3437 2588 5284
5158 7530 5320 3511 7314 5708 2709 2387 6091
2310 0964 4722 7120 6271 5957 0280 4955 6849
1786 0971 5708 4059 9337 5967 3091 9742 1162
4308 6633 6767 9898 4654 8966 0897 8079 4353
6171 7594 6443 2396 4173 7014 8416 5544 6123
3868 6313 4085 4719 0566 7105 9903 7031 5643
9874 3122 7417 8464 7114 8828 8576 4743 9959
3173 8599 5281 6337 4298 8768 3089 8776 6610
7808 9715 0093 9837 0300 4042 5759 7071 5572
0131 2852 0015 2708 8486 0070 3609 9647 3977
4950 7115 2338 0984 0321 9763 8976 2102 7253
6071 5446 7233 4295 4168 0254 0279 1792 5917
Tabla 3.1: Tabla de numeros aleatorios.
3.4 Estimacion basada en una muestra aleatoria simple 75
3.4. Estimacion basada en una muestra aleatoria
simple
La seleccion de una muestra aleatoria simple, es el mas simple de los disenos de
encuestas, fue presentada en la seccion 3.3. Una vez recolectadas las observaciones
muestrales, el siguiente objetivo consiste en la estimacion de ciertos parametros pobla-
cionales de interes. Frecuentemente se tiene interes es estimar la media poblacional µ
o el total poblacional τ (letra griega tau). Por ejemplo, la firma de contabilidad del
ejemplo 3.3.1 podrıa estar interesada en el valor promedio de las cuentas por cobrar
y tambien en el valor total de las cuentas.
Las formulas de calculo para estimar la media poblacional µ y el total poblacional τ ,
basados en un muestreo aleatorio simple, se presentan mas adelante. Es importante
aclarar que una estimacion puntual, como µ y τ , no proporcionan informacion acerca
de la bondad de la estimacion. Por lo tanto, se dan las formulas de la varianza con el
proposito de establecer cotas para el error de estimacion de µ y τ .
Al usar muestreo aleatorio simple para estimar la media poblacional µ, se obtiene el
siguiente estimador:
Estimacion de la media poblacional para un muestreo aleatorio simple
Estimador
µ = y =n∑
i=1
yi
n(3.1)
Varianza estimada del estimador
σ2y =
(s2
n
)(N − n
N
)con s2 =
n∑i=1
(yi − y)2
n− 1(3.2)
Cotas para el error de estimacion
y ± 2σy (3.3)
Notese que la cantidad 2σy es una cota aproximada del error de estimacion y solo
implica que al menos el 75 %, y muy posiblemente el 95 %, de las estimaciones se
76 Muestreo
desviaran de la media en menos de 2σy. En el presente capıtulo se usara la cota de
dos desviaciones estandar para describir un intervalo de estimacion para µ y τ al usar
cada uno de los diferentes disenos de muestreo.
Al usar muestreo aleatorio simple para estimar el total poblacional τ , se obtiene el
siguiente estimador:
Estimacion del total poblacional para una muestra aleatoria simple
Estimador
τ = Ny (3.4)
Varianza estimada del estimador
σ2τ = N2σ2
y (3.5)
Cota para el error de estimacion
Ny ± 2στ (3.6)
Ejemplo 3.4.1. En la tabla 3.2 aparecen los saldos correspondientes a las cuentas de
una muestra de tamano n = 15 de la poblacion de cuentas por cobrar del ejemplo
3.3.1
$14.50 $23.40 $42.00
30.20 15.50 13.30
17.80 27.50 23.70
10.00 6.90 18.40
8.50 19.50 12.10
Tabla 3.2: Saldos de cuentas para el ejemplo 3.5.1
a) Estime el saldo promedio para las N = 1000 cuentas por cobrar de la tienda y
establezca una cota para el error de estimacion.
b) Estime el total τ de los saldos de todas las cuentas y establezca una cota para el
error de estimacion.
3.4 Estimacion basada en una muestra aleatoria simple 77
Solucion:
Para facilitar los calculos es conveniente escribir los datos como se muestran en la
siguiente tabla 3.3
yi y2i
$14.50 210.25
30.20 912.04
17.80 316.84
10.00 100.00
8.50 72.25
23.40 547.56
15.50 240.25
27.50 756.25
6.90 47.61
19.50 380.25
42.00 1764.00
13.30 176.89
23.70 561.69
18.40 338.56
12.10 146.4115∑i=1
yi = 283.3015∑i=1
y2i = 6570.85
Tabla 3.3: Saldos de cuentas para el ejemplo 3.5.1
a) La estimacion del saldo promedio µ es
y =
15∑i=1
yi
15=
283.30
15= $18.89
78 Muestreo
Para encontrar una cota para el error de estimacion de µ, es necesario calcular
s2 =
15∑i=1
(yi − y)2
14=
15∑i=1
y2i −
(15∑i=1
yi
)2
15
14
=1
14
[6570.85− (283.30)2
15
]=
1
14[6570.85− 5350.59] = 87.16
Por lo tanto, la varianza estimada de y es
σ2y =
(s2
n
)(N − n
N
)=
(87.16
15
)(1000− 15
1000
)= 5.72
Una estimacion del saldo promedio µ, con una cota para el error de estimacion,
es
y ± 2σy = $18.89± $4.78
b) Una estimacion del total de los saldos corresponde a
τ = Ny = 1, 000($18.89) = $18, 890
Dado que la varianza estimada de τ es σ2τ = N2σ2
y, una estimacion del total de
los saldos de las N = 1000 cuentas, con una cota para el error de estimacion,
corresponde a
τ ± 2στ = Ny ± 2Nσy = $18, 890± 2(1, 000)√
5.72
= $18, 890± $4, 783
En algunas investigaciones experimentales puede ser de interes estimar la propor-
cion de la poblacion que posee determinada caracterıstica. Un auditor podrıa estar
interesado en la proporcion de cuentas por cobrar atrasadas; un investigador de mer-
cados podrıa estar interesado en la proporcion del mercado que controla la empresa;
un ejecutivo corporativo puede estar interesado en la proporcion de accionistas que
esta a favor de una decision particular.
3.4 Estimacion basada en una muestra aleatoria simple 79
Estimacion de la proporcion poblacional para una muestra aleatoria simple
Estimador
p =y
n
Varianza estimada del estimador
σ2p =
(p q
n− 1
)(N − n
N
)con q = 1− p
Cotas para el error de estimacion
p± 2σp
En este caso y es el numero total de los elementos de la muestra que tienen determi-
nada caracterıstica por la cual se tiene interes.
Ejemplo 3.4.2. Es comun que las empresas manufactureras establezcan descuentos
durante periodos cortos de tiempo para convencer a sus clientes de que incrementen
y anticipen sus compras, mejorando ası la situacion de la empresa en lo que se refiere
a efectivo. Siguiendo la polıtica anterior un fabricante y distribuidor de alimentos
congelados pretende establecer un descuento del 20 % en el precio de sus productos
para aquellos compradores que dupliquen sus pedidos mensuales.
Dado que el almacenaje de los alimentos congelados es muy costoso, no se tiene
la seguridad de que los compradores esten interesados en la oferta de descuento.
Se tomo una muestra de n = 50 de los N = 430 clientes de la empresa y 15 de
los 50 clientes manifestaron que aceptarıan la oferta de descuento y duplicarıan sus
pedidos mensuales. Estime la proporcion p de los N = 430 clientes de la companıa
que aceptaron la oferta, y determine una cota para el error de estimacion.
Solucion:
Una estimacion de la proporcion p de los clientes de la empresa que aceptaron la
oferta de descuento es
p =y
n=
15
50= 0.30
80 Muestreo
Para establecer cota para el error de estimacion, es necesario calcular la varianza σ2p
σ2p =
(p q
n− 1
)(N − n
N
)=
[(0.30)(0.70)
49
](430− 50
430
)
=
(0.21
49
)(0.88) = 0.003771
Una estimacion de p, con una cota para el error de estimacion, corresponde a
p± 2σp = 0.30± 2√
0.003771 ≈ 0.30± 0.12
Es decir, se estima que la proporcion de los clientes de la empresa que aceptaran la
oferta de descuento es 0.30, con una cota para el error de estimacion de 0.12.
Ejercicios
1. En vista de la crisis energetica y del numero creciente de accidentes de carretera,
el Congreso de los Estados Unidos en 1974 aprobo una ley que establece un lımite
de velocidad de 55 mph en todas las carreteras del paıs. Desde entonces, se han
producido gran cantidad de discusiones sobre la aceptacion de esta medida por
parte del publico. Para estudiar este problema, la policıa de caminos del estado
de California decidio seleccionar aleatoriamente n = 25 vehıculos que viajaban
en un determinado tramo de una carretera interestatal y medir sus velocidades.
Se encontro que la velocidad promedio de los 25 vehıculos fue de 57.5 mph con
una desviacion estandar de 9.4 mph. Estime la velocidad promedio µ de los
vehıculos que viajan en esa carretera, y establezca una cota para el error de
estimacion.
2. Una agencia gubernamental ha propuesto que se esteblezca una reglamentacion
para permitir a las farmacias que hagan publicidad sobre los precios al menudeo
de las medicinas. Esta reglamentacion permitirıa la competencia de los medica-
mentos, permitiendo ası a los comunicadores obtener los mejores precios posi-
bles. Para establecer el grado de disparidad de los precios que diferentes far-
macias de determinada zona cobran por un medicamento de uso comun, se
3.5 Muestreo aleatorio estratificado 81
selecciono una muestra aleatoria de n = 20 farmacias de las N = 152 de la
zona. El precio de 100 tabletas del medicamento en las farmacias seleccionadas
aparece en la lista adjunta
$3.75 $4.10 $10.40 $7.50 $2.95
5.75 7.50 8.90 4.75 11.75
5.85 7.65 8.10 6.50 7.50
5.50 8.00 4.50 10.25 4.95
Estime el precio promedio µ que las 152 farmacias cobran por 100 tabletas del
medicamento, y establezca una cota para el error de estimacion.
3. Suponga que una organizacion de trabajadores textiles esta interesada en deter-
minar la proporcion de los N = 352 trabajadores de una fabrica textil que estan
satisfechos con las prestaciones que reciben en lo que se refiere a beneficios de
jubilacion y seguro. Usando una tabla de numeros aleatorios, un representante
de la organizacion selecciono n = 40 de los trabajadores y encontro que 23 de
ellos estan satisfechos con las prestaciones de seguro y jubilacion que la empresa
ofrece actualmente. Estime la proporcion p de los empleados de la empresa tex-
til que estan de acuerdo con las prestaciones que la empresa ofrece. Establezca
una cota para el error de estimacion.
3.5. Muestreo aleatorio estratificado
Un segundo tipo de diseno de muestreo, que frecuentemente proporciona una cantidad
especificada de informacion a menor costo que el muestreo aleatorio simple, es el
llamado muestreo aleatorio estratificado. Este diseno se recomienda cuando la
poblacion consiste en un conjunto de grupos heterogeneos (distintos).
Definicion 3.5.1. Una muestra aleatoria estratificada es una muestra aleatoria
que se obtiene separando los elementos de la poblacion en grupos disjuntos, llamados
estratos, y seleccionando una muestra aleatoria simple de cada estrato.
82 Muestreo
El muestreo aleatorio estratificado tiene tres ventajas importantes sobre el muestreo
aleatorio simple. Primera, frecuentemente el costo de recoleccion y el analisis de los
datos se reduce al estratificar en grupos cuyos elementos tienen caracterısticas simila-
res pero que difieren de un grupo a otro. Por ejemplo, en una encuesta de compradores
industriales es mas costoso obtener informacion de aquellos que estan en el extranjero
que de los nacionales. Se debe, por lo tanto, tomar muestras pequenas de los estratos
con altos costos de muestreo para satisfacer el objetivo de minimizar el costo total de
muestreo.
La segunda ventaja esta relacionada con la varianza del estimador de la media pobla-
cional. Usualmente esta varianza se reduce usando muestreo aleatorio estratificado,
debido a que la varianza dentro de los estratos es generalmente menor que la variabili-
dad de la poblacion. Por ejemplo, el consumo de energıa electrica es mas variable en el
caso de los consumidores industriales que en el de los consumidores residenciales. Por
lo tanto, si se desea estimar el consumo promedio de los usuarios de energıa electrica,
deben seleccionarse muestras mayores de los sectores industriales menos homogeneos
para obtener mejores estimadores de los parametros poblacionales.
La tercera ventaja es que se obtienen estimadores separados para los parametros de
cada estrato, sin necesidad de seleccionar otra muestra e incurrir en mayores gastos.
Por ejemplo, podrıa ser de mayor utilidad el conocer el consumo promedio de energıa
electrica de los usuarios industriales y de los usuarios residenciales de una ciudad,
que conocer unicamente el consumo promedio de todos los usuarios de esta ciudad.
El muestreo aleatorio estratificado permite analizar las diferencias entre estratos, de
manera que se pueden identificar mas facilmente aquellos grupos que requieren de
una mayor atencion.
En esta seccion se usara el procedimiento de afijacion proporcional, que parti-
ciona el tamano de la muestra en forma proporcional al tamano de los estratos. La
principal ventaja del uso de la afijacion proporcional es que se obtiene una muestra
“auto-ponderada ”, dado que la fraccion de muestreo es la misma en cada estrato.
Cuando es necesario obtener muchos estimadores se producen ahorros en los costos de
3.5 Muestreo aleatorio estratificado 83
muestreo. En los casos en los que el costo de muestreo y las varianzas difieren mucho
entre estratos, es preferible utilizar una afijacion optima que particione la muestra de
acuerdo con el costo, la variabilidad y el tamano de los estratos.
El primer paso en la seleccion de una muestra aleatoria estratificada consiste en la
especificacion clara y detallada de cada estrato, asociando a cada elemento de la
poblacion con uno y solo un estrato. En algunos casos esto no es tan sencillo. En una
encuesta de opinion, en la que la poblacion se divide en urbana y rural, ¿como deben
clasificarse las personas que viven en una unidad de 1000 habitantes?. En el ejemplo
sobre el consumo de energıa, ¿como debe clasificarse la residencia de un contador
cuya oficina esta en su propia casa?. La resolucion que se tome no afecta los resul-
tados siempre y cuando se tenga una polıtica consistente al respecto. Por ejemplo,
podrıa establecerse que las poblaciones de menos de 2500 habitantes se consideran
siempre como rurales, y las de mas de 2500 como urbanas; las unidades comerciales-
residenciales pueden clasificarse segun la actividad para la cual se ocupa una mayor
cantidad de espacio.
Una vez especificados los estratos, se puede usar el metodo de la seccion 3.3 para
seleccionar una muestra aleatoria en cada estrato. El tamano total de la muestra n
dependera del presupuesto disponible para el muestreo y de la presicion y exactitud
que se requieran del estimador. Usando afijacion proporcional, el tamano de muestra
n se particiona en un tamano de muestra para cada uno de los L estratos de forma que
n = n1 + n2 + · · ·+ nL, con cada ni dado por la formula que aparece a continuacion.
Afijacion de la muestra para los estratos
ni = n
(Ni
N
)i = 1, 2, . . . , L
donde Ni es el numero de elementos del estrato i y
N =L∑
i=1
Ni
84 Muestreo
es el tamano de la poblacion.
De la informacion obtenida de los elementos muestrales, se puede calcular la media
estimada yi y la varianza s2i para las observaciones de cada estrato, usando las formulas
que aparecen a continacion.
Estimacion de la media y la varianza de cada estrato
yi =
ni∑j=1
yij
ni
s2i =
ni∑j=1
(yij − yi)2
ni − 1i = 1, 2, . . . , L
donde yij es la j-esima observacion del estrato i.
La varianza s2i es un estimador de la correspondiente varianza del estrato σ2
i .
A continuacion se define el estimador yest de la media poblacional µ, basado en un
muestreo aleatorio estratificado.
Estimacion de la media poblacional para una muestra aleatoria estratifi-
cada
Estimador
yest =1
N
L∑i=1
Niyi
Varianza estimada del estimador
σ2yest
=1
N2
L∑i=1
N2i
(Ni − ni
Ni
)(s2
i
ni
)
Cotas para el error de estimacion
yest ± 2σyest
3.5 Muestreo aleatorio estratificado 85
Ejemplo 3.5.1. En el periodo de 1973 a 1975 hubo una rapida disminucion en el
numero de nuevas construcciones de viviendas en los Estados Unidos. La causa prin-
cipal de esta disminucion fue la escasez de fondos, en los bancos y otras instituciones
de ahorro, para prestamos hipotecarios. Para aumentar la disponibilidad de fondos
para prestamos hipotecarios, una gran companıa manufacturera instituyo polıticas
para convencer a sus empleados que inviertan regularmente parte de sus ingresos en
las instituciones locales de ahorro. Posteriormente, la companıa decidio llevar a cabo
un estudio de los habitos de ahorro de sus empleados para juzgar la efectividad de la
campana de ahorro de la empresa. Se desea estimar la cantidad promedio invertida
en ahorro por los empleados durante el ultimo mes. Proponga un diseno de encuesta
para este problema.
Solucion:
Los empleados de la empresa pueden clasificarse en tres grupos: oficinistas y obreros,
supervisores y gerentes, y ejecutivos de alto nivel. Una muestra aleatoria estratifica-
da, con L = 3 estratos, parece ser el diseno mas apropiado en este caso. Se espera
que en cada uno de los estratos, los habitos de consumo e inversion de los empleados
sean razonablemente homogeneos. En cada uno de los estratos se debe seleccionar
una muestra aleatoria simple para preguntar a los empleados acerca de la cantidad
invertida en ahorros durante el ultimo mes.
La companıa manufacturera emplea un total de 5000 personas, de las cuales 3500 son
oficinistas y obreros, 1000 son supervisores o gerentes, y 500 son ejecutivos. El depar-
tamento de investigacion tiene suficiente tiempo y dinero para entrevistar unicamente
n = 50 empleados. Usando una afijacion proporcional, se particiona la muestra como
sigue:
n1 = n
(N1
N
)= 50
(3500
5000
)= 35
n2 = n
(N2
N
)= 50
(1000
5000
)= 10 y n3 = n
(N3
N
)= 50
(500
5000
)= 5
El marco muestral esta constituido por una lista alfabetica de los empleados de ca-
da categorıa, disponible en la oficina de nominas. Empezando arbitrariamente en
86 Muestreo
la columna 4 de la tabla de numeros aleatorios 3.1, se seleccionan los primeros 35
numeros no repetidos de cuatro dıgitos entre 0000 y 3499 para identificar los oficinis-
tas y obreros que seran incluidos en la muestra. Por lo tanto, el primer elemento de la
muestra debe ser el oficinista u obrero que ocupa el lugar 3213 en el orden alfabetico,
el siguiente sera el que ocupa el lugar 2820, etc. En forma similar, se usan numeros
de tres dıgitos entre 000 y 999 para seleccionar la muestra de n2 = 10 capataces y
gerentes y numeros de tres dıgitos entre 001 y 500 para seleccionar n3 = 5 ejecutivos.
Una vez seleccionados los elementos muestrales (empleados), se procede con la entre-
vista. De las respuestas de los empleados, se calcula la media yi y la varianza s2i de
las observaciones de cada estrato. Los valores obtenidos aparecen en la tabla 3.4
Estrato 1 Estrato 2 Estrato 3
n1 = 35 n2 = 10 n3 = 5
y1 = $10.16 y2 = $25.50 y3 = $21.80
s21 = 16.81 s2
2 = 22.09 s23 = 125.44
N1 = 3500 N2 = 1000 N3 = 500
Tabla 3.4:
A partir de los datos de la tabla 3.4 se estima la inversion promedio en ahorros yest
como
yest =1
N
L∑i=1
Niyi =1
5000[(3500)(10.16) + (1000)(25.50) + (500)(21.80)]
=1
5000(71, 960) = $14.39
Por lo tanto, la cantidad promedio estimada que los empleados invirtieron en ahorros
es $14.39.
3.5 Muestreo aleatorio estratificado 87
La varianza estimada es
σ2yest
=1
N2
3∑i=1
N2i
(Ni − ni
Ni
)(s2
i
ni
)
=1
(5000)2
[(3500)2(0.99)(16.81)
35+
(1000)2(0.99)(22.09)
10+
(500)2(0.99)(125.44)
5
]
= 0.5688
La estimacion de los ahorros promedio, con una cota para el error de estimacion,
esta dada por
yest ± 2σyest = $14.39± 2√
0.5688 = $14.39± 2(0.75) = $14.39± $1.50
Si el objetivo de la encuesta es usar el muestreo aleatorio estratificado para estimar
el total poblacional τ , entonces el estimador es el siguiente.
Estimador del total poblacional para una muestra aleatoria estratificada
Estimador
τ = Nyest
Varianza estimada del estimador
σ2τ = N2σ2
yest
Cotas para el error de estimacion
τ ± 2στ
Ejemplo 3.5.2. En el ejercicio 3.5.1, estime el total invertido en ahorros, el ultimo
mes, por los empleados de la companıa manufacturera. Establezca una cota para el
error de estimacion.
Solucion:
De los calculos anteriores yest = $14.39. Por lo tanto, un estimador del total de ahorros
es
τ = Nyest = (5000)($14.39) = $71, 950
88 Muestreo
Para encontrar cotas para el error de estimacion de τ , se debe calcular la varianza
estimada σ2τ
σ2τ = N2σ2
yest= (5000)2(0.5688) = 14, 220, 000
La estimacion del total de ahorros, con una cota para el error de estimacion, esta dada
por
τ ± 2στ = $71, 950± 2√
14, 220, 000 = $71, 950± 2(3, 771)
= $71, 950± $7, 542
Po lo tanto, hay una certeza del 95 % de que la inversion total en ahorros de los
empleados esta contenida en el intervalo de $64, 410 a $79, 490.
Supongase que la empresa manufacturera esta interesada en estimar la proporcion
de empleados que invirtieron parte de los ingresos del ultimo mes en una cuenta de
ahorros. Usando los mismos estratos definidos anteriormente, el investigador puede
seleccionar una muestra aleatoria de cada estrato y encontrar la proporcion pi de
empleados en el estrato i que invirtieron parte de sus ingresos del ultimo mes en
cuentas de ahorros. Las proporciones muestrales de los estratos pueden combinarse
para producir un estimador de la proporcion poblacional.
Estimacion de la proporcion poblacional para una muestra aleatoria es-
tratificada
Estimador
pest =1
N
L∑i=1
Nipi
Varianza estimada del estimador
σ2pest
=1
N2
L∑i=1
N2i
(Ni − ni
Ni
)(piqi
ni − 1
)con qi = 1− pi
Cotas para el error de estimacion
pest ± 2σpest
3.5 Muestreo aleatorio estratificado 89
Ejemplo 3.5.3. De los n = 50 empleados entrevistados en el estudio sobre inversion
en ahorros, el numero de los que indicaron que habıan participado aparecen en la
siguiente tabla. Estime la proporcion de empleados que participaron en el programa
de ahorro, y establezca una cota para el error de estimacion.
Estrato Tamano de muestra Numero de participantes pi
1 n1 = 35 21 2135
= 0.60
2 n2 = 10 7 710
= 0.70
3 n3 = 5 4 45
= 0.80
Solucion:
La estimacion deseada esta dada por pest, de donde
pest =1
5000[(3500)(0.60) + (1000)(0.70) + (500)(0.80)] = 0.64
Para obtener la cota para el error de estimacion, es necesario calcular la varianza
estimada
σ2pest
=1
(5000)2
[(3500)2
(3500− 35
3500
)((0.6)(0.4)
34
)]
+1
(1000)2
[(1000)2
(1000− 10
1000
) ((0.7)(0.3)
9
)]
+1
(500)2
[(500)2
(500− 5
500
)((0.8)(0.2)
4
)]= 0.004744
La estimacion de la proporcion de empleados que participaron en el programa de
ahorros de la companıa manufacturera, con una cota para el error de estimacion,
esta dada por
pest ± 2σpest = 0.64± 2√
0.004744 = 0.64± 2(0.069) = 0.64± 0.14
Ejercicios
1. Las companıas manufactureras gastan enormes cantidades de dinero en el de-
sarrollo, promocion y mercadotecnia de nuevos productos. Sin embargo, la tasa
de exitos de los nuevos productos es mınima. La experiencia indica que menos
90 Muestreo
de uno de cada diez nuevos productos satisface los criterios de exito de las em-
presas. Uno de los procedimientos mas utiles para medir la aceptacion de un
nuevo producto consiste en su introduccion al mercado en una zona de ventas
representativa. Como un ejemplo, se considera el caso de una companıa fabri-
cante de implementos agrıcolas que esta interesada en introducir al mercado
un nuevo equipo para riego en tres zonas agrıcolas diferentes. Para probar la
aceptacion de los equipos de riego, se selecciono una muestra de 30 tiendas dis-
tribuidoras, localizadas en las tres zonas agrıcolas y se observo el numero de
equipos vendidos durante un periodo de 12 meses. Las 30 tiendas fueron selec-
cionadas usando un muestreo aleatorio estratificado con afijacion proporcional.
Los resultados aparecen en la siguiente tabla:
Zona 1 Zona 2 Zona 3
ni 9 6 15
yi 26 23 39
s2i 31.2 19.3 38.5
a) Estime el numero promedio µ de ventas para las 250 tiendas de las tres zonas
agrıcolas, y establezca una cota para el error de estimacion.
b) Estime el total de ventas que habrıa en las tres zonas agrıcolas, si el nuevo
equipo estuviera a la venta en las 250 tiendas. Establezca una cota para el
error de estimacion.
2. La insatisfaccion de los empleados en su trabajo puede causar un aumento de
costos a la empresa, debido a la baja calidad de la mano de obra y el aumento en
el ausentismo. En un estudio sobre el ausentismo, un gerente de personal estaba
interesado en determinar el numero de dıas laborales perdidos por ausencias de
los trabajadores de la empresa. Por razones de tipo administrativo, se uso un
muestreo aleatorio estratificado con afijacion proporcional para seleccionar una
muestra de n = 27 de los 2700 trabajadores de la empresa. Los estratos estaban
representados por obreros, tecnicos, y administradores empleados en la empresa.
3.5 Muestreo aleatorio estratificado 91
Los datos obtenidos del muestreo de 15 obreros, 10 tecnicos y 2 administradores
aparecen en la siguiente tabla:
Obreros Tecnicos Administradores
8 24 0 4 5 1
0 16 32 0 24 8
6 0 16 8 12
7 4 4 3 2
9 5 8 1 8
a) Estime el numero promedio µ de dıas perdidos por ausencias de los 2700
empleados de la empresa. Establezca una cota para el error de estimacion.
b) Estime el numero total de dıas perdidos por los empleados de la empresa.
Establezca una cota para el error de estimacion.
3. Generalmente, las cadenas de bancos procesan sus cuentas en una oficina cen-
tral regional, en lugar de hacerlo independientemente en cada sucursal. De
esta manera se logra un control mas eficiente de las actividades administra-
tivas de las sucursales. El gerente de credito de una cadena esta interesado
en conocer el volumen de cuentas atrasadas que tiene la organizacion. Para
reducir el costo de muestreo, se uso un muestreo estratificado en el que los es-
tratos estan constituidos por cada uno de los cuatro bancos. De los registros
que hay en su oficina, el gerente de credito decidio usar afijacion proporcional
para seleccionar la muestra aleatoria estratificada de n = 50 cuentas de un
total de N = 200. Los resultados obtenidos se muestran en la siguiente tabla:
Bancos
1 2 3 4
Numero total de cuentas por cobrar N1 = 56 N2 = 68 N3 = 40 N4 = 36
Tamano de muestra n1 = 14 n2 = 17 n3 = 10 n4 = 9
Numero de cuestas atrasadas y1 = 5 y2 = 7 y3 = 5 y4 = 1
92 Muestreo
a) Estime la proporcion p de cuentas atrasadas y establezca una cota para el
error de estimacion.
b) ¿Hay alguna razon para pensar que el gerente del banco 3 es demasiado
descuidado al autorizar prestamos a sus clientes?. Estime la proporcion p3
de cuentas atrasadas del banco 3 y establezca una cota para el error de
estimacion.
3.6. Muestreo por conglomerados
Frecuentemente es mas facil obtener muestras de conglomerados de elementos que
muestras de los elementos mismos.
Definicion 3.6.1. Una muestra por conglomerados se obtiene seleccionando
aleatoriamente un conjunto de m colecciones de elementos muestrales, llamados con-
glomerados, de la poblacion y posteriormente llevando a cabo un censo completo en
cada uno de los conglomerados.
El muestreo por conglomerados proporciona una cantidad especificada de informacion
a un costo mınimo cuando:
1. No existe una lista de todos los elementos de la poblacion o serıa muy costoso
obtenerla, o
2. la poblacion es grande y esta dispersa en una region muy extensa.
Como ilustracion, supongase que un economista desea estimar la cantidad promedio
empleada en comida por vivienda en una ciudad. Para usar muestreo aleatorio simple
o muestreo aleatorio estratificado, el economista debe tener una lista de todas las
viviendas para poder seleccionar la muestra. Sin embargo, obtener una lista de todas
las viviendas de una ciudad puede ser muy costoso y en algunos casos imposible. Aun
en el caso de tener la lista completa, los costos pueden ser sumamente altos porque,
al usar muestreo aleatorio simple o estratificado, las viviendas escogidas pueden estar
3.6 Muestreo por conglomerados 93
muy alejadas unas de otras. Como resultado de lo anterior, el costo de la encuesta
aumenta debido al tiempo de traslado de los entrevistadores y a otros gastos.
En lugar de seleccionar una muestra distribuida en toda la ciudad, el economista
podrıa usar el muestreo por conglomerados dividiendo la ciudad en conglomerados y
obteniendo despues una muestra aleatoria de estos. Esto debe poder efectuarse mas
facilmente pues es posible que exista una lista de los diferentes conglomerados. Debe
encuestarse cada una de las viviendas que esten en cada uno de los conglomerados es-
cogidos. El costo total de la encuesta disminuye dado que se ha eliminado la necesidad
de elaborar una lista de todas las viviendas y, dado que las viviendas que pertenecen
a un conglomerado pueden estar geograficamente cercanas, se reducen los gastos de
los entrevistadores.
El uso del muestreo por conglomerados produce normalmente una disminucion de
los costos, pero algunas veces es necesario pagar un precio. En ocasiones el error de
muestreo aumenta debido a que los elementos de un conglomerado tienden a tener
caracterısticas comunes. Por ejemplo, en encuestas de poblaciones humanas, los con-
glomerados son frecuentemente vecindarios, que son semejantes en lo que se refiere a
edad, ingreso, antecedentes etnicos y clase ocupacional. Por lo tanto, al seleccionar
aleatoriamente los conglomerados para la encuesta, se corre el riesgo de que algunas
clases socioeconomicas no esten representadas si no se incluyen sus vecindarios. Por
otra parte, otras clases pueden estar representadas en exceso.
Se puede reducir el error de muestreo seleccionando un mayor numero de conglome-
rados pequenos en lugar de unos cuantos conglomerados grandes. Entre mas pequeno
es el tamano de los conglomerados, menor es el riesgo de excluir ciertas clases de
elementos de la muestra. Por lo tanto, seleccionando un mayor numero de conglome-
rados de menor tamano se obtiene mayor informacion acerca de la poblacion.
Una vez especificados los conglomerados, es necesario contar con una lista de todos
ellos. Para seleccionar una muestra aleatoria de m conglomerados de los M de la
poblacion, se usa el muestreo aleatorio simple.
Al usar muestreo por conglomerados, la media poblacional µ se estima utilizando las
94 Muestreo
formulas que a continuacion se describiran.
Estimacion de la media poblacional en un muestreo por conglomerados
Estimador
µ = yc =
m∑i=1
ti
m∑i=1
ni
donde ni es el numero de elementos del i-esimo conglomerado y ti es el total de las
mediciones del conglomerado i.
Varianza estimada del estimador
σ2yc
=
(M −m
Mmn2
)
m∑i=1
(ti − ycni)2
m− 1
donde
n =1
m
m∑i=1
ni y t =1
m
m∑i=1
ti
Cotas para el error de estimacion
yc ± 2σyc
M es el numero de conglomerados en la poblacion y m es el numero de conglomerados
en la muestra.
Estimacion del total poblacional en un muestreo por conglomerados
Estimador
τ =M
m
m∑i=1
ti
3.6 Muestreo por conglomerados 95
Varianza estimada del estimador
σ2τ = M2
(M −m
Mm
)
m∑i=1
(ti − t)2
m− 1
Cotas para el error de estimacion
τ ± 2στ
Como se dijo anteriormente, ni es el numero de elementos de i-esimo conglomerado,
mientras que ti es el total de las mediciones que estan en el conglomerado i. Por lo
tanto
ti =
ni∑j=1
yij
donde yij es la j-esima observacion del conglomerado i. Los terminos n y t representan,
respectivamente, el tamano promedio y el total promedio de los conglomerados.
Ejemplo 3.6.1. El objetivo de la publicidad es aumentar las ventas o crear interes en
los productos de determinada companıa. Por lo tanto, en publicidad es esencial que los
anuncios aparezcan en los medios adecuados para que lleguen al publico consumidor.
Un agente de publicidad de una empresa que vende artıculos para el hogar, desea
estimar la cantidad mensual que gastan en revistas y periodicos las amas de casa de
una ciudad, para determinar si estas son suficientes para garantizar el uso de estos
medios en la publicidad. Dado que no existe una lista de amas de casa, y para controlar
los costos directos de las entrevistas, se usara el muestreo por conglomerados. De los
50 distritos electorales se selecciona una muestra aleatoria de 10. Los entrevistadores
encuestan a cada una de las amas de casa de los 10 distritos, y se registraran la
cantidad total que gastaron en revistas y perıodicos durante el ultimo mes.
96 Muestreo
Distrito Num. de amas Gastos tot. Distrito Num. de amas Gastos tot.
i de casa ni ti i de casa ni ti
1 62 $380 6 69 $403
2 55 517 7 58 555
3 49 480 8 74 486
4 71 613 9 57 450
5 70 540 10 54 395
Sumas10∑i=1
ni = 63010∑i=1
ti = $4819
a) Estime la cantidad promedio mensual que las amas de casa gastan en revistas y
periodicos, y establezca una cota para el error de estimacion.
b) Estime la cantidad total mensual que las amas de casa gastan en revistas y perio-
dicos, y establezca una cota para el error de estimacion.
Solucion:
a) La media poblacional µ se estima por
yc =
10∑i=1
ti
10∑i=1
ni
=$4819
630= $7.65
Para calcular σ2yc
se evalua primero el termino correspondiente a la suma de
cuadradosm∑
i=1
(ti − ycni)2
Se puede probar que
m∑i=1
(ti − ycni)2 =
m∑i=1
t2i − 2yc
m∑i=1
tini + y2c
m∑i=1
n2i
3.6 Muestreo por conglomerados 97
Tomando cada termino por separado, se tiene
10∑i=1
t2i = (380)2 + (517)2 + · · ·+ (395)2 = 2, 374, 613
10∑i=1
tini = (380)(62) + (517)(55) + · · ·+ (395)(65) = 304, 124
10∑i=1
n2i = (62)2 + (55)2 + · · ·+ (65)2 = 40, 286
Sustituyendo estos valores en la ecuacion de la suma de cuadrados, se tiene que
m∑i=1
(ti − ycni)2 = 2, 374, 613− 2(7.65)(304, 124) + (7.65)2(40, 286) = 79, 153.235
El tamano promedio del conglomerado es
n =1
m
m∑i=1
ni =1
10(630) = 63
Dado que el numero total de conglomerados en la poblacion es M = 50,
σ2yc
=
(M −m
Mmn2
)
m∑i=1
(ti − ycni)2
m− 1
=
(50− 10
(50)(10)(63)2
)(79, 153.235
9
)= 0.1773
Por lo tanto, una estimacion de µ, con una cota para el error de estimacion es
yc ± σyc = $7.65± 2√
0.1773 = $7.65± $0.84
b) Una estimacion de los gastos totales mensuales en revistas y periodicos es
τ =M
m
m∑i=1
ti =50
10($4, 819) = $24, 095
98 Muestreo
que no depende del tamano de la poblacion N .
Para establecer una cota superior para el error de estimacion, es necesario cal-
cular la expresion
m∑i=1
(ti − t)2 =m∑
i=1
t2i −1
m
(m∑
i=1
ti
)2
= 2, 374, 613− 1
10(4, 819)2 = 52, 336.90
La varianza estimada es
σ2τ =M2
(M −m
Mm
)
m∑i=1
(ti − t)2
m− 1
=(50)2
(50− 10
(50)(10)
)(52, 336.90
9
)= 1, 163, 042.222
La estimacion de los gastos totales en revistas y periodicos de las amas de casa,
de la ciudad, con una cota para el error de estimacion es
τ ± 2στ = $24, 095± 2√
1, 163, 042.222
= $24, 095± $2, 157
Frecuentemente, un experimentador desea usar el muestreo por conglomerados para
estimar una proporcion poblacional p. Por ejemplo, en una encuesta pre-electoral
puede ser deseable estimar la proporcion de habitantes de una comunidad que estan
a favor de determinadas medidas; o podrıa ser importante estimar la proporcion de
automoviles en una ciudad que satisfacen los requisitos en lo referente al control de
contaminacion, o la proporcion de miembros de una organizacion laboral que estan de
acuerdo con un nuevo ajuste salarial. Para estimar p cuando se usa el muestreo por
conglomerados, es necesario encontrar ai, el numero de elementos de conglomerado i
que tienen la caracterıstica de interes, para cada conglomerado i = 1, 2, . . . , m. Las
siguientes formulas proporcionan un estimador de la proporcion de la poblacion que
tiene la caracterıstica de interes ai.
3.6 Muestreo por conglomerados 99
Estimacion de la proporcion poblacional en un muestreo por conglomera-
dos
Estimador
pc =
m∑i=1
ai
m∑i=1
ni
Varianza estimada del estimador
σ2pc
=
(M −m
Mmn2
)
m∑i=1
(ai − pcni)2
m− 1
Cotas para el error de estimacion
pc ± 2σpc
Ejercicios
1. El inspector de una cadena de ferreterias desea estimar la proporcion de bom-
billas defectuosas enviadas a su almacen por determinado fabricante. Las bom-
billas se envıan en paquetes de 12 cajas, cada una delas cuales contiene 6 bom-
billas. Suponga que el inspector opta por usar las cajas de bombillas como
conglomerados y selecciona aleatoriamente m = 20 cajas de entre los 100 pa-
quetes recibidos en un envıo. Los numeros de bombillas defectuosas encontradas
en cada una de las 20 cajas son los siguientes:
0 2 0 0 1 1 0 1 2 1 0 0 0 1 0 0 3 0 2 1
Estime la proporcion p de bombillas defectuosas en el envıo, y establezca una
cota para el error de estimacion.
100 Muestreo
2. En un artıculo que aparecio recientemente en la prensa se afirma que la tasa de
incremento de las contribuciones para obras de beneficiencia es mucho menor
que la tasa de inflacion, durante los periodos de recesion. Un director regional de
la Sociedad Contra el Cancer esta interesado en estimar la contribucion prome-
dio por familia y la contribucion total de todas las familias de su ciudad. Un
grupo de voluntarios selecciono una muestra de 12 de los 47 distritos electorales
de la ciudad y obtuvo los datos que aparecen en la tabla.
Distrito ] de viviendas Donacion total Distrito ] de viviendas Donacion total
1 36 $117 7 29 $165
2 42 105 8 52 105
3 40 210 9 44 121
4 47 142 10 40 103
5 39 235 11 45 136
6 50 96 12 36 190
a) Estime la contribucion promedio por familia en la ciudad, y establezca una
cota para el error de estimacion.
b) Estime la contribucion total de todas las familias de la ciudad, y establezca
una cota para el error de estimacion.
3.7. Ejercicios
1. Define que es una muestra aleatoria.
2. Escribe las definiciones de cada uno de los siguientes tipos de muestreo.
a) MAS b) MAE c) MAC
3. Diga cuales de los siguientes ejemplos constituyen aplicaciones del muestreo
aleatorio, y cuales de un muestreo no aleatorio. Explique porque
3.7 Ejercicios 101
a) Las manzanas incluidas en una bolsa de 5 kilos adquiridas en un supermer-
cado local.
b) Una bolsa de 5 kilos de manzanas seleccionadas por una ama de casa de un
deposito de manzanas de un supermercado local.
c) Preguntas que una tienda de departamentos hace a cada decimo cliente que
tiene cuenta de credito, acerca de nuevos horarios.
d) Tarjetas de garantıa, que proporcionan informacion demografica y personal,
recibidas por un fabricante, de personas que compraron recientemente alguno
de los artıculos de cocina que fabrican.
4. Discuta las ventajas de efectuar un muestreo en lugar de un censo en cada uno
de los siguientes casos:
a) Un representante de mercadotecnia de una fabrica de alimentos esta intere-
sado en determinar el total de ventas del primer ano, de un nuevo producto que
fabrica la companıa.
b) Un ejecutivo de una companıa petrolera esta interesado en determinar el
precio promedio por galon de gasolina sin plomo, que las estaciones de servicio
cobran en determinado estado. De una lista de estaciones de servicio, el ejecuti-
vo selecciona aleatoriamente 20 de un total de 249, y obtiene su precio de venta
por telefono.
c) Un candidato a la gubernatura de un estado desea conocer la proporcion de
votantes que esta a su favor, un semana antes de la eleccion.
d) Un diario local ha adoptado una polıtica editorial mas liberal. Para captar la
reaccion de los lectores al cambio, un agente del diario selecciona aleatoriamente
10 suscriptores locales de una lista de suscripciones, los contacta por telefono,
y les pide su opinion sobre el cambio de polıtica editorial.
5. Explique porque es preferible el uso del muestreo a un censo de poblacion.
6. Menciona 3 ventajas y 3 desventajas de un muestreo.
7. Menciona 3 ventajas y 3 desventajas de un censo.
102 Muestreo
8. Describe brevemente la diferencia entre muestreo con reemplazo y muestreo sin
reemplazo.
9. Describe explıcitamente que es una tabla de numeros aleatorios.
10. Para cada una de las siguientes encuestas por muestreo, proponga las unidades
muestrales y el marco muestral apropiados (Un marco muestral es una lista
de unidades muestrales. Las unidades muestrales son colecciones disjuntas de
elementos (objeto del cual se toma una medicion) de la poblacion).
a) Un economista desea efectuar una encuesta para estimar la cantidad promedio
mensual por familia empleada en la compra de comestibles en determinada
ciudad.
b) El asistente administrativo del gobernador de un estado desea estimar la
proporcion de votantes en el estado que estara a favor de la aprobacion de una
ley.
c) Una cadena de supermercados desea conocer la opinion de sus empleados
acerca del plan de seguro medico patrocinado por la companıa.
d) Un ejecutivo de mercadotecnia de una companıa desea hacer una encuesta
entre los compradores para determinar su actitud hacia una nueva lınea de
productos.
11. Explique porque cada uno de los siguientes ejemplos no se puede considerar
como muestra aleatoria:
a) Para conocer la opinion de la comunidad sobre los planes de estudio de una
escuela, se le da al alumno un breve cuestionario para que lo llenen sus padres.
b) Para determinar el sentimiento publico respecto al ultimo decreto presiden-
cial, un reportero entrevista a mediodıa a 25 personas en la esquina de una
centrica calle.
c) Se seleccionan al azar 10 nombres de la lista de representantes de la Camara
de Diputados en un intento por predecir la opinion de varios Estados con res-
pecto al aumento de la deuda publica por tercera vez en una semana.
3.7 Ejercicios 103
12. Proponga una ejemplo donde sea preferible un muestreo a un censo.
13. Una tienda de descuento de una ciudad de 745 familias ha adoptado un nuevo
tema publicitario disenado para mejorar la imagen de la tienda en lo que se re-
fiere a la calidad de sus productos. De un directorio residencial se selecciono una
muestra aleatoria simple de n = 50 familias. Un mes despues de iniciada la cam-
pana publicitaria, se entrevisto a los jefes de familia y 13 de ellos afirmaron que
la calidad de la mercancia de la tienda de descuento es aparentemente de infe-
rior calidad a la de las tiendas competidoras. Estime la proporcion de familias
que piensan que la calidad de la mercancia de la tienda de descuento es inferior
a la de las demas tiendas. Establezca una cota para el error de estimacion.
14. Un ejecutivo de seguros, preocupado porque la alta tasa de inflacion puede
dejar a sus clientes con una cobertura insuficiente en los seguros de incendio
de sus viviendas, ha propuesto una clausula que establece el incremento de la
cobertura (y de las primas anuales) de acuerdo con la tasa de inflacion anual.
Para conocer la opinion de los clientes sobre la polıtica propuesta, el ejecutivo de
seguros decidio seleccionar una muestra aleatoria estratificada de los clientes de
su companıa en los tres municipios de su jurisdiccion. Los resultados aparececen
en la tabla. Estime la proporcion p de clientes de los tres municipios que estan a
favor de la polıtica propuesta, y establezca una cota para el error de estimacion.
Municipio
A B C
Total de clientes 231 407 187
Clientes encuestados 21 37 17
Numero de los que aprueban la nueva polıtica 8 20 9
15. El gerente de ventas de una fabrica de maquinas de escribir desea saber si existe
la demanda suficiente en determinada ciudad, que justifique agregar un nuevo
104 Muestreo
tipo de maquina de escribir portatil a sus existencias. Actualmente la fabrica
surte de mercancıa a cuatro cadenas de tiendas que consisten de 25, 20, 30 y 25
tiendas. Por motivos de tipo administrativo se decidio usar el muestreo aleatorio
estratificado, con las cadenas de tiendas como estratos.
E1 16 12 10 13 9
E2 10 17 12 6
E3 5 18 13 15 20 12
E4 17 11 12 15 18
El gerente de ventas dispone de tiempo y dinero suficientes para obtener datos
de ventas en 20 tiendas solamente. Usando afijacion proporcional, selecciono en
forma aleatoria 5 tiendas de la primera cadena, 4 de la segunda, 6 de la tercera,
y 5 de la cuarta. Las ventas efectuadas al cabo de un mes aparecen en la tabla.
Estime las ventas mensuales promedio por tienda, y establezca una cota para
el error de estimacion.
16. a)Un fabricante de sierras de cadena ha recibido quejas de los compradores en
relacion con los costos de reparacion excesivos. Para estudiar el problema, el
fabricante desea estimar el costo de reparacion promedio por sierra y por mes,
para las sierras que se han vendido a las campanıas madereras. No es posible
obtener los costos de reparacion para cada sierra, pero se pueden determinar
los costos totales de reparacion y el numero de sierras que tienen las diferentes
companıas. El fabricante decidio usar un muestreo por conglomerados, usando
las companıas como conglomerados. De las M = 87 companıas madereras que
compran sierras de este fabricante, se selecciono una muestra aleatoria simple
de m = 12. Los datos de la tabla representan los costos de reparacion durante
el ultimo mes para cada companıa.
3.7 Ejercicios 105
Cia. ] de sierras C. de Reparacion Cia. ]. de sierras C. de reparacion
1 4 $55 7 11 $103
2 7 83 8 1 15
3 5 47 9 8 110
4 11 210 10 11 164
5 15 235 11 7 80
6 6 88 12 10 146
b)Para el ejercicio anterior, tambien estime la cantidad total que las companıas
madereras gastaron en reparaciones de las sierras de cadena durante el ultimo
mes, y establezca una cota de error de estimacion.
c)Al consultar los registros de ventas, el fabricante mencionado encontro que ha
vendido 703 sierras de cada cadena a las 87 companıas madereras. Usando esta
informacion adicional, estime la cantidad total que las 87 companıas madereras
gastaron en reparaciones, y establezca una cota para el error de estimacion.
(Sugerencia: Si yc es la media obtenida en el muestreo por conglomerados y
N el numero de elementos de la poblacion, entonces τ = Nyc y σ2τ = N2σ2
yc).
Compare estos resultados con los obtenidos en el inciso b).
17. El punto de partida, para lograr un mejor entendimiento del comportamiento de
los consumidores, es la demografıa del consumidor; las medidas descriptivas que
caracterizan al publico comprador. De los registros de la companıa, la gerente de
una empresa distribuidora de automoviles obtuvo una muestra aleatoria simple
de 25 expedientes de los 582 correspondientes a clientes que compraron un
automovil de tipo economico durante el ultimo ano. La media y la varianza
de las edades de los 25 clientes fueron y = 27.5 y s2 = 16.81. Estime la edad
promedio de los compradores del automovil economico, y establezca una cota
para el error de estimacion.
Capıtulo 4
Regresion lineal y multilineal
4.1. Introduccion
En este capıtulo se describe el modelo de regresion lineal simple, que asume que en-
tre dos variables dadas existe una relacion de tipo lineal contaminada por un error
aleatorio. Aprenderemos a estimar dicho modelo y, a partir de estas estimaciones y
bajo determinadas hipotesis, podremos extraer predicciones del modelo e inferir la
fortaleza de dicha relacion lineal.
En la practica es comun encontrar relacion entre dos o mas variables. Por ejemplo,
1. El peso de un hombre adulto depende de su estatura
2. Las circunferencias de los circulos dependen de su radio
3. La presion de una masa de gas depende de su temperatura y volumen
4. La distancia media de frenado de un automovil depende de la velocidad a la que
este viaja
5. La efectividad media de un antibiotico depende del tiempo que este lleve almace-
nado.
4.1 Introduccion 107
Uno de los aspectos mas relevantes que aborda la Estadıstica se refiere al analisis
de las relaciones que se dan entre dos variables aleatorias. El analisis de estas rela-
ciones esta muy frecuentemente ligado al analisis de una variable, llamada variable
dependiente Y , y del efecto que sobre ella tiene otra (u otras) variable(s), llamada(s)
variable(s) independiente(s) X, y permite responder a dos cuestiones basicas:
¿Es significativa la influencia que tiene la variable independiente sobre la vari-
able dependiente?
Si, en efecto, esa relacion es significativa, ¿como es? y ¿podemos aprovechar
esa relacion para predecir valores de la variable dependiente a partir de valores
observados de la variable independiente?.
La regresion lineal simple comprende el intento de desarrollar una lınea recta o
ecuacion matematica que describe la relacion entre dos variables, con la finalidad
de estimar los valores de una variable con base en los valores conocidos de la otra.
Para determinar dicha ecuacion primero hay que recolectar datos que muestren los
valores de las variables en consideracion.
Ejemplo 4.1.1. Supongase que se han reunido datos locales de vendedores de au-
tomoviles con respecto al kilometraje y precios de los modelos 1975 de cierta marca,
y que tienen determinado equipo (aire acondicionado, direccion hidraulica, etc.).Los
datos muestrales que pueden provenir de una muestra aleatoria de vendedores de la
region serıan los mostrados en la tabla
Observacion Recorrido Precio de Observacion Recorrido Precio de
i (en miles) xi venta yi i (en miles) xi venta yi
1 40 $1000 6 60 1000
2 30 1500 7 65 500
3 30 1200 8 10 3000
4 25 1800 9 15 2500
5 50 800 10 20 2000
108 Regresion lineal y multilineal
Si dibujamos los datos de xi e yi en unos ejes cartesianos ya intuimos que, en efecto,
hay una relacion latente entre las variables, que parece ser de tipo lineal. A esta
representacion en los ejes cartesianos se le denomina diagrama de dispersion.
Un modelo de regresion lineal simple para una variable, Y (variable dependiente),
dada otra variable, X (variable independiente), es un modelo matematico que permite
obtener una formula capaz de relacionar Y con X basada solo en relaciones lineales,
del tipo
Y = β0 + β1X + ε.
donde
Y representa a la variable dependiente, es decir, a aquella variable que deseamos
estudiar en relacion con otras.
X representa a la variable independiente, es decir, aquella que creemos que
puede afectar en alguna medida a la variable dependiente. La estamos denotan-
do en mayuscula, indicando que podrıa ser una variable aleatoria, pero habi-
tualmente se considera que es una constante que el investigador puede fijar a
su antojo en distintos valores.
ε representa el error aleatorio, es decir, aquella cantidad (aleatoria) que provoca
que la relacion entre la variable dependiente y la variable independiente no sea
perfecta, sino que este sujeta a incertidumbre.
Hay que tener en cuenta que el valor de ε sera siempre desconocido hasta que se
observen los valores de X e Y , de manera que el modelo de prediccion sera realmente
Y = β0+β1X. Lo que en primer lugar resultarıa deseable de un modelo de regresion es
que estos errores aleatorios ocurran en la misma medida por exceso que por defecto,
sea cual sea el valor de X, de manera que E[ε/X = x] = E[ε] = 0 y, por tanto,
E[Y/X = x] = β0 + β1x + E[ε/X = x] = β0 + β1x. Es decir, las medias de los valores
de Y para un valor de X dado son una recta. La interpretacion de los coeficientes del
modelo es:
4.1 Introduccion 109
β0 es la ordenada al origen del modelo, es decir, el punto donde la recta inter-
cepta o corta al eje y.
β1 representa la pendiente de la lınea y, por tanto, puede interpretarse como el
incremento de la variable dependiente por cada incremento en una unidad de
la variable independiente.
Nota 7. Es evidente que la utilidad de un modelo de regresion lineal tiene sentido
siempre que la relacion hipotetica entre X e Y sea de tipo lineal, pero ¿que ocurre si
en vez de ser de este tipo es de otro tipo (exponencial, logarıtmico, hiperbolico...)?.
En primer lugar, es absolutamente conveniente dibujar el diagrama de dispersion
antes de comenzar a tratar de obtener un modelo de regresion lineal, ya que si la
forma de este diagrama sugiere un perfil distinto al de una recta quiza deberıamos
plantearnos otro tipo de modelo. Y, por otra parte, si se observa que el diagrama de
dispersion es de otro tipo conocido, puede optarse por realizar un cambio de variable
para considerar un modelo lineal. Existen tecnicas muy sencillas para esta cuestion,
pero no las veremos todas aquı.
Algunas curvas de aproximacion y sus ecuaciones
Varios tipos de curvas de aproximacion y sus ecuaciones se presentan ahora.
Sean x y y variables independiente y dependiente respectivamente, a0, a1, . . . , an y
b, p, q, g y h constantes.
y = a0 + a1x Lınea recta
y = a0 + a1x + a2x2 Parabola o curva cuadratica
y = a0 + a1x + a2x2 + a3x
3 Curva cubica
y = a0 + a1x + a2x2 + a3x
3 + a4x4 Curva cuartica
y = a0 + a1x + . . . + anxn Curva de grado n
Las ecuaciones anteriores se denominan polinomios de: primero, segundo, tercer, cuar-
to y n-esimo grados respectivamente.
110 Regresion lineal y multilineal
Otras ecuaciones usadas con frecuencia en la practica son:
y =1
a0 + a1xo
1
y= a0 + a1x Hiperbola
y = abx o log y = log a + x log b = a0 + a1x Curva exponencial
y = axb o log y = log a + b log x Curva geometrica
y = abx + g Curva exponencial modificada
y =1
abx + go
1
y= abx + g Curva logıstica.
Para decidir cual es la que debe usarse, antes se debe hacer un diagrama de dispersion.
El tipo mas simple de curva de aproximacion es una lınea recta, pero no en todos lo
casos se puede obtener una aproximacion mediante una ecuacion lineal. Para ver si
un modelo lineal sera adecuado entonces el procedimiento es:
1. Graficar los datos
2. Determinar por examen si parece existir una relacion lineal
Cuando las graficas no siguen un alineamiento entonces hay que buscar en un modelo
no lineal. El modelo lineal y = β0 + β1x se dice ser un modelo determinista porque
no permite error en la prediccion de y como funcion de x (no interviene el azar o
la incertidumbre). En fısica, quımica, economıa, etc., describen fenomenos (explican
y predicen) en los cuales el error de prediccion es despreciable en la practica. Por
ejemplo 0.1 cm de error en la construccion de una viga de un puente es pequeno, pero
0.1 cm en una pieza de relojeria es absurdamente grande.
4.2. Estimacion de los coeficientes del modelo por
mınimos cuadrados
Si queremos obtener el modelo de regresion lineal que mejor se ajuste a los datos
de la muestra, deberemos estimar los coeficientes β0 y β1 del modelo. Para obtener
estimadores de estos coeficientes vamos a considerar un nuevo metodo de estimacion,
4.2 Estimacion de los coeficientes del modelo por mınimos cuadrados 111
conocido como metodo de mınimos cuadrados. Hay que decir que bajo determinados
supuestos que veremos en breve, los estimadores de mınimos cuadrados coinciden con
los estimadores maximo-verosimiles de β0 y β1.
El razonamiento que motiva el metodo de mınimos cuadrados es el siguiente: si tene-
mos una muestra de valores de las variables independiente y dependiente, (x1, y1), . . . ,
(xn, yn), buscaremos valores estimados de β0 y β1, que notaremos por β0 y β1, de ma-
nera que en el modelo ajustado, y = β0 + β1x minimice la suma de los cuadrados de
los errores observados. Es decir, usando mınimos cuadrados para ajustar una recta
al conjunto de datos queremos que las desviaciones entre los valores observados y los
puntos correspondientes sean “pequenos ”.
Entonces si yi = β0 + β1xi es el valor de y (cuando x = xi) entonces la desviacion del
valor observado y, a partir de la recta y es yi − yi (desviacion del i-esimo punto).
Ahora debemos escoger como la recta de mejor ajuste, a la que minimice la suma de
los cuadrados de las desviaciones entre los valores observados y los pronosticados.
SSE =n∑
i=1
(yi − yi)2 =
n∑i=1
(yi − [β0 + β1xi]
)2
(Suma de los cuadrados de los errores)
Es decir, buscamos (β0, β1) = arg [minβ0,β1SSE].
Se llama recta de regresion por mınimos cuadrados (o simplemente recta de regresion)
de Y dada X a la lınea que tiene la SSE mas pequena de entre todos los modelos
lineales. La solucion de ese problema de mınimo se obtiene por el mecanismo habitual:
se deriva SSE respecto de β0 y β1, se iguala a cero y se despejan estos. Entonces
112 Regresion lineal y multilineal
∂SSE
∂β0
=∂
∂β0
[n∑
i=1
(yi − [β0 + β1xi]
)2]
=∑ [
2(yi − (β0 + β1xi))(−1)]
= −∑
2(yi − β0 − β1xi)
= −2(∑
yi −∑
β0 − β1
∑xi
)
= −2(∑
yi − nβ0 − β1
∑xi
)= 0
=⇒ −2∑
yi + 2nβ0 + 2β1
∑xi = 0
=⇒ β0 =
∑yi − β1
∑xi
n
∴ β0 = y − β1x
∂SSE
∂β1
=∂
∂β1
[n∑
i=1
(yi − [β0 + β1xi]
)2]
=∑[
2(yi − (β0 + β1xi))(−xi)]
= −∑
2(xiyi − β0xi − β1x2i )
= −2(∑
xiyi − β0
∑xi − β1
∑x2
i
)= 0
= −∑
xiyi + β0
∑xi + β1
∑x2
i = 0
=⇒ β1 =
∑xiyi − β0
∑xi∑
x2i
4.2 Estimacion de los coeficientes del modelo por mınimos cuadrados 113
Sustituyendo β0 = y − β1x en la ecuacion anterior se obtiene
β1 =
∑xiyi − (y − β1x)
∑xi∑
x2i
=
∑xiyi −
(∑ yi
n− β1
∑ xi
n
) ∑xi
∑x2
i
=
∑xiyi − 1
n
∑yi
∑xi + β1
n(∑
xi)2
∑x2
i
=⇒∑
x2i β1 − β1
n
(∑xi
)2
=∑
xiyi − 1
n
∑yi
∑xi
=⇒ β1 =
∑xiyi − 1
n
∑yi
∑xi
∑x2
i −1
n(∑
xi)2
=
n∑i=1
(xi − x)(yi − y)
n∑i=1
(xi − x)2
Por lo tanto los estimadores de mınimos cuadrados de β0 y β1 son:
β1 =SSxy
SSxx
donde SSxy =n∑
i=1
(xi − x)(yi − y) y SSxx =n∑
i=1
(xi − x)2
β0 = y − β1
Ejemplo 4.2.1. En la siguiente tabla se muestran los gastos publicitarios y volumenes
de ventas de una companıa durante 10 meses elegidos al azar.
yi xi yi xi
101 1.2 82 0.8
92 0.8 93 1.0
110 1.0 75 0.6
120 1.3 91 0.9
90 0.7 105 1.1
114 Regresion lineal y multilineal
a) ¿Cual es la lınea recta de mejor ajuste que relaciona los gastos en publicidad con
volumen de ventas?
b) Si se tienen $10, 000 para publicidad este mes ¿Cual es el volumen de ventas
pronosticado?
Solucion:
Para los datos del ejemplo, vamos a calcular e interpretar la recta de regresion.
SSxy = 23.34, SSxx = 0.444, y = 95.9 y x = 0.94
luego
β1 =SSxy
SSxx
=23.34
0.444= 52.57
β0 = y − β1x = 95.9− (52.57)(0.94) = 46.49
ası que la recta de regresion ajustada es
y = 46.49 + 52.57x
Se puede predecir un y para un x dado. Por ejemplo, si se usan x = $10, 000 para
publicidad este mes, el volumen de ventas pronosticados para este mes es
y = 46.49 + 52.57(1.0) = 99.06
o bien $990600.
Ahora, debemos encontrar las cotas para el error de estimacion. Para eso estimamos
σ2, la varianza de y dado un valor de x. Entonces
σ2 = s2 =SCE
n− 2
donde SCE =n∑
i=1
(yi− yi)2 y n−2 son los grados de libertad (numero de parametros
estimados en el modelo).
4.3 Supuestos adicionales para los estimadores de mınimos cuadrados 115
Una forma mas facil para calcular SCE es:
SCE = SCyy − β1SCxy donde
SCyy =n∑
i=1
y2i −
1
n
(n∑
i=1
yi
)2
SCxy =n∑
i=1
xiyi − 1
n
n∑i=1
xi
n∑i=1
yi
Ejercicio 4.2.1. Calcule σ2 para el ejemplo anterior 4.2.1.
4.3. Supuestos adicionales para los estimadores de
mınimos cuadrados
Hasta ahora lo unico que le hemos exigido a la recta de regresion es:
1. Que las medias de Y para cada valor de X se ajusten mas o menos a una lınea
recta, algo facilmente comprobable con un diagrama de puntos. Si el aspecto
de este diagrama no recuerda a una lınea recta sino a otro tipo de funcion,
logicamente no haremos regresion lineal.
2. Que los errores tengan media cero, independientemente del valor de X, lo que,
por otra parte, no es una hipotesis sino mas bien un requerimiento logico al
modelo.
Lo que ahora vamos a hacer es anadir algunos supuestos al modelo de manera que
cuando estos se cumplan, las propiedades de los estimadores de los coeficientes del
modelo sean muy buenas. Esto nos va a permitir hacer inferencia sobre estos coeficien-
tes y sobre las estimaciones que pueden darse de los valores de la variable dependiente.
116 Regresion lineal y multilineal
4.4. Inferencias relativas a la pendiente β1 de una
recta
La primera inferencia que debe hacerse cuando se estudia la relacion entre x e y
concierne a la existencia misma de dicha relacion. Entonces surgen dos preguntas:
1) ¿Muestran los datos suficiente evidencia como que para pensar que el conocimiento
de x contribuye para predecir y en alguna region de observacion?
2) ¿Podemos pensar que aun no habiendo relacion entre x y y los puntos observados
forman un diagrama como el de la figura?
Las cuestiones anteriores se refieren al valor de β1, el cambio medio que se experimenta
en y por unidad de cambio en x (la pendiente).
Si x no proporciona informacion para predecir y, entonces β1 = 0. Que β1 = 0 significa
que y siempre es el mismo para cualquier valor de x.
Ejemplo 4.4.1. Suponga que un ingeniero ajusto el modelo y = β0 + β1x + ε, donde:
y =resistencia del concreto despues de 28 dıas
x =proporcion agua/cemento que se uso para producir el concreto
Si la resistencia del concreto y, no cambia con la proporcion agua/cemento x, entonces
β1 = 0 (la pendiente es cero). Por lo tanto, el ingeniero intentara realizar una prueba
H0 : β1 = 0 contra Ha : β1 6= 0 para verificar si la variable independiente influye sobre
la variable dependiente. O bien, estimar la razon media de cambio β1 en E[y] para
un cambio de una unidad en la proporcion de agua/cemento, x.
Al hacer inferencia lo que se quiere probar es la hipotesis de que:
H0 : βi = 0 contra Ha : βi 6= 0
βi es un estimador insesgado de βi con una distribucion normal que tiene el valor
esperado E[βi].
4.4 Inferencias relativas a la pendiente β1 de una recta 117
Para cada uno de los parametros β0 y β1 se tiene:
E[β0] = β0 y σ2β0
= σ2C00
E[β1] = β1 y σ2β1
= σ2C11
donde : C00 =
n∑i=1
x2i
nSCxx
y C11 =1
SCxx
Podemos construir una prueba de hipotesis H0 : βi = βi0 (βi0 es un valor especıfico
para βi). Usando el estadıstico de prueba:
Z =βi − βi0
σ√
Cii
Distribucion normal estandar
La region de rechazo para una prueba de dos colas 1 esta dado por:
| z | ≥ zα/2
Como σ2 es desconocido, entonces se puede obtener un estimador de el
Sβi= S
√Cii
Entonces
t =βi − βi0
S√
Cii
,
estadıstico que se distribuye con una t de Student con n − 2 grados de libertad
(varianza desconocida y n pequena).
Prueba de hipotesis para βi
H0 :βi = βi0
Ha :
βi > βi0 region de rechazo de cola superior,
βi < βi0 region de rechazo de cola inferior,
βi 6= βi0 region de rechazo de dos colas.
1Prueba estadıstica en la cual la region de rechazo esta separada por la region de aceptacion yse localiza en ambos extremos de la distribucion de la estadıstica de prueba
118 Regresion lineal y multilineal
Estadıstico de prueba:
t =βi − βi0
S√
Cii
Region de rechazo:
t > tα alternativa de cola superior
t > −tα alternativa de cola inferior
| t | > tα/2 alternativa de dos colas
donde:
C00 =
∑x2
i
nSCxx
y C11 =1
SCxx
Nota 8. tα se basa en n− 2 grados de libertad 2.
Ejemplo 4.4.2. Use los datos del ejemplo 4.2.1 para determinar si existe evidencia que
indique que β1 difiere de cero al usar una relacion lineal entre el gasto publicitario x
y el volumen mensual medio, y, de ventas.
Solucion:
Se quiere probar
H0 : β1 = 0 contra Ha : β1 6= 0
Entonces t =β1 − 0
S√
C11
. Usando α = 0.05 se rechaza H0 si t > 2.306 o t < −2.306
con n − 2 = 8 grados de libertad. Entonces t =52.87
6.84√
2.25= 5.15. Como 5.15 >
2.306, entonces se rechaza H0. Hay evidencia que indica que los gastos publicitarios
proporcionan informacion para la prediccion de los volumenes mensuales de ventas.
Ahora si x aumenta una unidad ¿Cual sera el cambio estimado para y?,¿que confianza
se puede tener en dicha estimacion?.
Debemos investigar la amplitud de un intervalo de confianza para β1 y verificar si
es lo bastante pequeno para detectar una desviacion de cero que sea de significancia
practica.
2Numero de observaciones linealmente independientes de un conjunto de n observaciones
4.4 Inferencias relativas a la pendiente β1 de una recta 119
Intervalo de confianza de (1− α)100 % para βi
βi ± tα/2S√
Cii
Ejemplo 4.4.3. Encuentre el intervalo de confianza del 95 % para β1 usando los datos
del ejercicio 4.2.1.
Solucion:
1− α =95 % =⇒ 1− α = 0.95
despejando α = 1− 0.95 =⇒ α/2 = 0.025
asi, 52.57 ± 23.67
Por lo tanto, si se aumenta en una unidad x, por ejemplo, $10, 000 en gasto publici-
tario, se estima que los volumenes de ventas mensuales correspondientes sera 28.90 y
76.24.
Ejercicio 4.4.1. Ajuste una recta a los 5 datos siguientes. Obtenga las estimaciones de
β0 y β1. Trace una grafica de los puntos y represente la recta ajustada para verificar
los calculos. ¿Presentan los datos suficiente evidencia para indicar que la pendiente
β1 difiere de cero? (Haga la prueba con un nivel de significancia de 5 %). Encuentre
un intervalo de confianza de 95 % para β1.
y x
3 -2
2 -1
1 0
1 1
0.5 2
120 Regresion lineal y multilineal
Estimacion de E[y/x].
Ejemplo 4.4.4. El encargado se seguridad industrial en una empresa puede estar
interesado en estimar el numero medio de algun tipo de accidentes dado el
numero de horas que cada empleado ha estado sujeto a entrenamiento especial
para seguridad.
Si en una empresa, la ganacia y, se encuentra linealmente relacionada a los
gastos publicitarios x, el gerente de ventas querra estimar la ganancia media
para un cierto nivel de publicidad x. entonces si la companıa invierte $10, 000 en
publicidad, ¿Cuanto debe esperar que sea E[y/x]?. Entonces, debemos encontrar
un intervalo de confianza para E[y/x].
Prueba de hipotesis relativa al valor esperado
Hipotesis nula H0 :E[y/x = xp] = E0
Hipotesis alternativa Ha :La da el experimentador y depende de los valores de E[y/x]
que desea detectar
Estadıstico de prueba:
t =y − E0
S
√1
n+
(xp − x)2
SCxx
Region de rechazo:
t > tα alternativa de cola superior
t > −tα alternativa de cola inferior
| t | > tα/2 alternativa de dos colas
4.4 Inferencias relativas a la pendiente β1 de una recta 121
Intervalo de confianza del (1− α)100 % para E[y/x]
y ± tα/2S
√1
n+
(xp − x)2
SCxx
(4.1)
Prediccion de y dado un valor particular de x
y ± tα/2,n−2S
√1 +
1
n+
(xp − x)2
SCxx
(4.2)
Ejemplo 4.4.5. Considere los datos del ejercicio 4.2.1 para
a) Encontrar un intervalo de confianza del 99 % para el volumen mensual esperado
de ventas cuando los gastos en publicidad son xp = 1.0 ($10, 000)
b) Calcular S2
c) Probar la hipotesis nula contra la alternativa usando un nivel se significancia de
α = 0.01
Solucion:
xp = 1.0, entonces y = β0 + β1x = 46.49 + (52.57)(1.0) = 99.06, entonces, multipli-
camos por $10, 000 y se obtiene $990, 600.
El intervalo de confianza de 95 % para el volumen mensual medio asociado al gasto
de publicidad es
y ± t0.025S
√1
n+
(xp − x)2
SCxx
99.06 ± (2.306)(6.84)
√1
10+
(1.0− 0.94)2
0.444
99.06 ± 5.19, es decir, (93.87,104.25)
Como cada unidad representa $10, 000 en unidades monetarias, se estima que las
ventas mensuales esperadas sobre la poblacion de los meses en los que la companıa
gasta $10, 000 estan entre $938, 700 y $1042, 500.
122 Regresion lineal y multilineal
Ejemplo 4.4.6. Un equipo de investigadores de un hospital psiquiatrico realizo un
experimento para estudiar la relacion que existe en pacientes esquizofrenicos, entre
el tiempo de reaccion a un estımulo particular y el nivel de la dosis de una dro-
ga. Especıficamente los investigadores deseaban hacer el experimento con dosis de
0.5, 1.0, 1.5, 2.0, 2.5 y 3.0 mg. Seleccionaron una muestra aleatoria de 18 pacientes
en una poblacion hospitalaria de esquizofrenicos y asignaron al azar a cada paciente
una de las dosis. Ası pues cada dosis fue administrada a un total de tres pacientes.
Tiempo de Tiempo de
Paciente Dosificacion x reaccion y Paciente Dosificacion x reaccion y
(mg) (mseg) (mg) (mseg)
1 0.5 12 10 2.0 40
2 0.5 22 11 2.0 44
3 0.5 30 12 2.0 50
4 1.0 18 13 2.5 44
5 1.0 32 14 2.5 60
6 1.0 36 15 2.5 64
7 1.5 30 16 3.0 64
8 1.5 34 17 3.0 68
9 1.5 46 18 3.0 76
Solucion:
El modelo de prediccion obtenido hal hacer los calculos es:
y = β0 + β1x = 9.77 + 18.85x
Observacion 2. La suma de los valores ajustados es igual a la suma de los valores
observados,∑
yi =∑
yi.
Ahora bien, usaremos la prueba de hipotesis para probar si uno de los coeficientes de
regresion toma valor particular o si puede ser excluido del modelo.
Si el que se quiere escluir es β1 entonces la prueba es:
H0 : β1 = 0 vs Ha : β1 6= 0
4.4 Inferencias relativas a la pendiente β1 de una recta 123
Ası, el estadıstico es
t =18.85− 0
(7.51)(0.28)= 8.96
de acuerdo a la tabla de la t de Student, la hipotesis H0 se rechaza con un nivel de
significancia de 0.05 ya que
t0.05/2,16 = t0.025,16 = 2.120
y como
| t | > tα/2,n−2 es decir, 8.96 > 2.120
entonces rechazamos H0. Esto indica que la variable independiente es significativa o
ayuda a predecir el comportamiento de y. Por cada incremento de una unidad en la
variable independiente x, habra un incremento de β1 unidades en la variable depen-
diente y.
Para saber la cantidad en que varıa en promedio la variable dependiente cuando la
variable independiente varıa una unidad, calculamos el intervalo de confianza para
β1.
En nuestro ejemplo β1 nos dara la informacion acerca de la cantidad en que varıa
en promedio, el tiempo de reaccion cuando se produce un aumento en una unidad la
dosis de la droga. Entonces
β1 ± tα/2,n−2S√
C11
18.86 ± (2.120)(7.51)(0.28)
18.86 ± 4.46
14.4 ≤β1 ≤ 23.42
Ası, tenemos en 95 % de confianza al afirmar que la cantidad promedio de aumento
en el tiempo de reaccion para cada aumento de 1 mg varıa entre 14.4 y 23.42 mseg.
Teniendo un sujeto nuevo cuyo valor x es un puntaje determinado xp ¿que valor
asumira y?.
124 Regresion lineal y multilineal
Prediccion de y dado un valor de x en particular
Supongamos que a un esquizofrenico recientemente admitido en el hospital se le ad-
ministran 2 mg de la droga ¿cual sera el tiempo de reaccion de esta persona?.
Estimando puntualmente en un valor x = xp = 2 se tiene
y = 9.77 + 18.86(2) = 47.49
Cuando σ2 es desconocida podemos obtener el intervalo de prediccion del (1−α)100 %
mediante la ecuacion (4.2). Entonces:
47.49 ± (2.120)(7.51)
√1 +
1
18+
(2− 1.75)2
13.13
47.49 ± 16.39
31.1 ≤y ≤ 63.88
Ası, podemos afirmar con un 95 % de confianza que el tiempo de reaccion de una
persona esquizofrenica que recibe 2 mg de la dosis esta entre 31 y 64 mseg.
En lo anterior estamos prediciendo el tiempo de reaccion de la persona antes de ad-
ministrarle la droga. Para descubrir con certeza el tiempo de reaccion de una persona,
en relacion a una determinada dosis de droga, tenemos que darle al paciente la droga
y luego medir su tiempo de reaccion.
Ahora bien, dada una poblacion de sujetos y dado un puntaje determinado de x di-
gamos xp ¿Cual es el valor promedio de la variable dependiente y mas probable para
esta poblacion?.
Supongamos entonces que tenemos una poblacion de personas esquizofrenicas y a to-
das se les han administrado 2mg de la dosis ¿Cual sera el tiempo de reaccion promedio
de esta poblacion?.
Un intervalo de confianza para el (1 − α)100 % es el dado por la ecuacion (4.1).
4.4 Inferencias relativas a la pendiente β1 de una recta 125
Entonces, como y = 47.49 para x = 2 mg se tiene que
47.49 ± (2.120)(7.51)
√1
18+
(2− 1.75)2
13.13
47.49 ± 3.9101
43.58 ≤y ≤ 51.40
Por lo tanto, podemos afirmar con un 95 % de confianza que el tiempo de reaccion
promedio de una poblacion de esquizofrenicos que recibio la dosis de 2mg estara entre
44 y 51 mg.
Si el experimento se repite muchas veces, aproximadamente el 95 % de los intervalos
de confianza calculados en la forma anterior incluiran a E[y/x] y el otro 5 % no.
Ejemplo 4.4.7. En su tesis para obtener el doctorado, H. Behbahani estudio el efecto
de la variacion agua/cemento en la resistencia del concreto despues de 28 dıas. Para
el concreto que contiene 200 libras por yarda cubica de cemento obtuvo los datos que
se presentan en la tabla 4.1. Sea y la resistencia y x la razon de agua/cemento.
Razon agua/cemento Resistencia (100 pies/libra)
1.21 1.302
1.29 1.231
1.37 1.061
1.46 1.040
1.62 0.803
1.79 0.711
Tabla 4.1: Datos.
a) Ajuste el modelo.
b) Pruebe H0 : β1 = 0 vs Ha : β1 < 0 con α = 0.05 (si rechazamos H0 entonces
concluimos β1 < 0, y que la resistencia tiende a disminuir con un incremento
en la razon agua/cemento).
126 Regresion lineal y multilineal
c) Encuentre un intervalo de confianza de 90 % de la resistencia esperada del concreto
cuando la razon agua/cemento es de 1.5. ¿Que pasara con el intervalo de con-
fianza si tratamos de estimar la resistencia media para razones de agua/cemento
de 0.3 o 2.7?.
Solucion:
a)
β1 =SCxy
SCxx
=−0.247
0.234= −1.056
β0 =2.563
=⇒ y =2.563− 1.056x
b)
H0 :β1 = 0 vs Ha : β1 < 0 con α = 0.05
t =−1.056− 0
0.045
√1
0.234
= −11.355 (En este caso debemos probar si t < −tα)
tα,n−2 =t0.05,4 = 2.132
=⇒ −11.355 < −2.132.
Se rechaza H0, hay evidencia para indicar que la resistencia disminuye con un incre-
mento en la razon agua/cemento en la region donde se hizo el experimento.
En la practica, la razon agua/cemento debe ser lo suficientemente para humedecer el
cemento, la arena y los otros elementos que forman el concreto; pero si la razon es
muy grande no servira.
c)
y = 2.563− 1.056(1.5) = 0.979
0.979± (2.132)(0.045)
√1
6+
(1.5− 1.457)2
0.234
=⇒(0.938, 1.020)
4.5 Correlacion lineal 127
La resistencia media de la razon agua/cemento de 1.5 esta entre 0.938 y 1.020.
x∗ = 0.3 y x∗ = 2.7 son valores lejanos a los experimentados, quizas producirıan
concreto completamente inservible.
4.5. Correlacion lineal
En la seccion anterior se establecio que la regresion lineal estudia la natutaleza de la
relacion entre dos (o mas variables si no es lineal). En esta seccion vamos a definir
el llamado coeficiente de correlacion lineal, que ofrece una medida cuantitativa de
la fortaleza de la relacion lineal entre x e y en la muestra, pero que a diferencia de
β1, es adimensional, ya que sus valores siempre estan entre -1 y 1, sean cuales sean
las unidades de medida de las variables. En otras palabras, la correlacion mide la
fuerza de la relacion entre variables. Si estan relacionadas las variables dependiente e
independiente, entonces hay que averiguar que tan fuerte es la relacion.
Dada una muestra de valores de dos variables (x1, y1), . . . , (xn, yn), el coeficiente de
correlacion lineal muestral r se define como
r =SCxy√
SCxxSCyy
Como digimos antes, la interpretacion del valor de r es la siguiente:
r cercano o igual a 0 implica poca o ninguna relacion lineal entre x e y.
Cuanto mas se acerque a 1 o −1, mas fuerte sera la relacion lineal entre x e y.
Si r = ±1, todos los puntos caeran exactamente en la recta de regresion.
Un valor positivo de r implica que y tiende a aumentar cuando x aumenta, y
esa tendencia es mas acusada cuanto mas cercano esta r de 1.
Un valor negativo de r implica que y disminuye cuando x aumenta, y esa ten-
dencia es mas acusada cuanto mas cercano esta r de −1.
Si r = 0, no hay relacion.
128 Regresion lineal y multilineal
¿Como determinar que tan bueno es el modelo ajustado?
El coeficiente de determinacion lineal r2 proporciona una medida de la bondad de
ajuste del modelo de regresion
r2 = 1− SCE
SCyy
0 ≤ r2 ≤ 1
Si el modelo es correcto, entonces SCE = 0 y r2 = 1. Si r2 esta cerca de cero (Cuando
SCE puede ir a SCyy), el ajuste no es el adecuado.
Notese que la notacion es r al cuadrado, ya que, en efecto, en una regresion lineal
simple coincide con el coeficiente de correlacion lineal al cuadrado. Por lo tanto, la
interpretacion de r2 es la medida en que x contribuye a la prediccion de y en una
escala de 0 a 1, donde el 0 indica que el error es el total de la variacion de los valores
de y y el 1 es la precision total, el error 0. La medida suele darse en porcentaje.
Intervalo de confianza para r
Se quiere probar la hipotesis de que el coeficiente de correlacion es cero, es decir,
H0 : r = 0 vs Ha : r 6= 0
lo anterior es equivalente a probar
H0 : β1 = 0 vs Ha : β1 6= 0
con su estadıstico t =β1 − 0
S√
C11
.
Dejando el estadıstico anterior en terminos de r se obtiene
t =r√
n− 2√1− r2
Para probar la hipotesis nula H0 = r = r0 r0 6= 0 contra Ha = r 6= r0 se utiliza el
estadıstico1
2ln
(1 + r
1− r
)
4.5 Correlacion lineal 129
que sigue una distribucion normal con media 12ln
(1 + r
1− r
)y varianza
1
n− 3. En-
tonces, usaremos
z =
12ln
(1 + r
1− r
)− 1
2ln
(1 + r0
1− r0
)
√1
n− 3
lo anterior es equivalente a
z =
√n− 3
2ln
[(1 + r)(1− r0)
(1− r)(1 + r0)
]
H0 se rechaza si | z | > zα/2, donde α es el nivel de significancia.
Ha :
r > r0 region de rechazo:z > zα,
r < r0 region de rechazo:z < −zα,
r 6= r0 region de rechazo:| z | > zα/2,
Ejercicio 4.5.1. Los siguientes datos representan las calificaciones de quımica para
una muestra aleatoria de 12 estudiantes de primer ano de determinada institucion de
ensenanza superior, junto con sus calificaciones en un examen de inteligencia aplicado
cuando aun cursaban el ultimo ano de secundaria.
Calif. Examen Calif. Quımica Calif. Examen Calif. Quımica
65 85 65 94
50 74 70 98
55 76 55 81
65 90 70 91
55 85 50 76
70 87 55 74
a) Calcule e interprete el coeficiente de correlacion muestral,
b) Pruebe la hipotesis de que r = 0.5 contra r > 0.5.
130 Regresion lineal y multilineal
Solucion:
a) r = β1
√SCxx
SCyy, entonces
SCxx =∑
x2i −
1
n
(∑xi
)2
= 44475− 1
12(725)2 = 672.92
SCyy =∑
y2i −
1
n
(∑yi
)2
= 85905− 1
12(1011)2 = 728.25
β1 =SCxy
SCxx
=⇒ SCxy =∑
xiyi − 1
n
∑xi
∑yi = 61685− 1
12(725)(1011) = 603.75
=⇒ β1 =603.75
672.92= 0.897 o 0.9
Ası, el coeficiente de correlacion es
r = 0.897
√672.92
728.25= 0.862.
Note que, el coeficiente esta cerca de 1, entonces hay una fuerte asociacion entre x e
y, como se podra esperar.
b)
H0 : r = 0.5 vs Ha : r > 0.5
z =
√n− 3
2ln
[(1 + 0.862)(1− 0.5)
(1− 0.862)(1 + 0.5)
]
=3
2ln
[0.931
0.207
]= 2.255
Ahora veamos si se cumple que z > zα, para esto usamos α = 0.05. Entonces, z0.05 =
1.645 (buscamos α = 0.05 en la tabla de la distribucion normal y cae en1.64 + 1.65
2=
1.645).
Ası, 2.255 > 1.645, por lo cual se rechaza la hipotesis nula H0.
Ejercicio 4.5.2. En un estudio acerca de la cantidad de precipitacion pluvial y la
cantidad de contaminacion de aire eliminada, se obtuvieron los siguientes datos:
4.6 Ejercicios 131
Lluvia diaria (0.01 cm) x Partıculas eliminadas (mg por metro cubico) y
4.3 126
4.5 121
5.9 116
5.6 118
6.1 114
5.2 118
3.8 132
2.1 141
7.5 108
a) Calcule r,
b) Prueba H0 : r = −0.5 vs Ha : r < −0.5 con un nivel de significancia de 0.025,
c) Determine el porcentaje de variacion en que la cantidad de partıculas eliminadas
que se deben a los cambios en la cantidad diaria de precipitacion pluvial.
Solucion:
4.6. Ejercicios
1. Los auditores a menudo necesitan comparar el valor revisado (o actual de un
artıculo) del catalogo de inventario con el valor en los libros (o nominal). Si una
companıa tiene su inventario y sus libros al dıa, debe existir una relacion lineal
muy estrecha entre los valores revisados y los nominales. Una muestra de 10
artıculos del catalogo de cierta companıa dio los datos que contiene la tabla 4.2
acerca de los valores revisados y los nominales. Ajuste el modelo y = β0+β1x+ε
a esos datos. ¿Cual es su estimacion para el cambio que se espera en el valor
revisado para un cambio de una unidad en el valor nominal? Si el valor nominal
es x = 100, ¿que utilizarıa para estimar el valor revisado?
132 Regresion lineal y multilineal
Artıculo Valor revisado (yi) Valor nominal (xi)
1 9 10
2 14 12
3 7 9
4 29 27
5 45 47
6 109 112
7 40 36
8 238 241
9 60 59
10 170 167
Tabla 4.2: Datos.
2. En la tabla 4.3 se muestra la clasificacion combinada del numero de millas y
el volumen del motor establecidos por la EPA en estados de la Union Ameri-
cana en 1980 (todos menos California) de nueve automoviles subcompactos con
transmision estandar, de cuatro cilindros, que utilizan gasolina. El tamano del
motor se da en pulgadas cubicas totales del cilindraje.
Automovil Cilindraje (x) mpg combinado (y)
VW Rabitt 97 24
Datsun 210 85 29
Chevrolet Chevette 98 26
Dodge Omni 105 24
Mazda 626 120 24
Oldsmobile Starfire 151 22
Mercury Capri 140 23
Toyota Celica 134 23
Datsun 810 146 21
4.6 Ejercicios 133
a) Localice los datos en una grafica.
b) Encuentra la recta de mınimos cuadrados para los datos.
c) Trace una grafica de la recta de mınimos cuadrados para ver cuanto se ajusta
a los datos.
d) Utilice la recta de mınimos cuadrados para estimar el promedio de millas por
galon (mpg) para un automovil subcompacto con un volumen de motor de 125
pulgadas cubicas.
3. En un estudio de distintos fondos para inversion se desarrollo un procedimien-
to consistente en construir la llamada “recta caracterıstica”para cada posible
fondo. Dicha recta no es otra cosa mas que la recta de regresion de la re-
dituabilidad del fondo considerado sobre la redituabilidad promedio del mer-
cado bursatil. Si para un fondo de inversion la pendiente de su recta carac-
terıstica es significativamente distinta de cero, se dice que ese fondo es muy
sensible a las fluctuaciones de la bolsa de valores y por ende es una inver-
sion riesgosa. Si el fondo tiene una recta caracterıstica con pendiente cercana
a cero se dice que es una inversion estable y de poco riesgo. La redituabili-
dad tanto del fondo “Penn Square Mutual”como la promedio en el mercado
bursatil se observo en el periodo 1964 a 1973 y se dan en la tabla siguiente.
Ano 1964 1965 1966 1967 1968 1969 1970 1971 1972 1973
P. Square 18.4 29.7 -12.3 10.8 23.6 -16.2 5.8 7.2 7.7 -8.8
p. en m. 12.9 9.1 -13.1 20.1 7.7 -11.4 .1 10.8 15.6 -17.4
a) Encuentre la “recta caracterıstica”del fondo “Penn Square Mutual”(esto es,
la recta de regresion de la redituabilidad del fondo sobre la redituabilidad prome-
dio).
b) Grafique los puntos y la recta de regresion para verificar sus calculos.
c) Describa el tipo de riesgo asociado a invertir en el “Penn Square Mutual”(esto
es, pruebe la hipotesis β1 = 0; use α = 0.05).
Tabla 4.3: Datos.
134 Regresion lineal y multilineal
d) Encuentre un intervalo confidencial del 95 % para la pendiente de la recta
caracterıstica del fondo “Penn Square Mutual”.
4. Un experimento de mercados se realizo para estudiar la relacion entre el tiempo
que requiere un comprador para decidirse en su compra y el numero de pre-
sentaciones distintas del producto exhibidas. Las marcas se eliminaron de los
productos para reducir el efecto de las preferencias a determinadas marcas. Los
compradores seleccionaron los artıculos basados exclusivamente en las descrip-
ciones y disenos de las presentaciones de cada producto. El tiempo utilizado
hasta llegar a una seleccion fue registrado para los 15 participantes en el estu-
dio.
Tiempo requerido (en seg.) 5,8,8,7,9 7,9,8,9,10 10,11,10,12,9
Numero de laternativas (presentaciones) 2 3 4
a) Encuentre la recta de mınimos cuadrados para esos datos.
b) Grafique los puntos y la recta para verificar sus calculos.
c) Calcule s2.
d)¿Presentan los datos suficiente evidencia evidencia que indique que el tiem-
po requerido para decidir esta linealmente relacionado al numero de presenta-
ciones? (Pruebe al nivel α = 0.05).
5. La siguiente tabla contiene la lista del numero de casos de tuberculosis (por
cada 100000 habitantes) en el estado de Florida durante la decada que va de
1967 a 1976. ¿Hay suficiente evidencia para afirmar que la tasa de tuberculosis
decrece en tal periodo? Utilice α = 0.05. (Se pueden codificar los anos de la
manera que se considere conveniente.)
6. Las medianas de los precios de ventas de casas nuevas para una sola familia
durante un periodo de 8 anos se indican en la tabla siguiente. Sea y la mediana
de los precios de venta y x el ano (representado con numeros enteros, 1,2,...,8),
4.6 Ejercicios 135
ajuste el modelo y = β0 + β1x + ε. ¿Que se puede concluir con los resultados?.
Ano Mediana del precio de venta (x 1000)
1972 (1) $27.6
1973 (2) 32.6
1974 (3) 35.9
1975 (4) 39.3
1976 (5) 44.2
1977 (6) 48.8
1978 (7) 55.7
1979 (8) 62.9
Conteste lo siguiente:
a) ¿Hay suficiente evidencia que permita afirmar que la mediana de los precios
de venta de casas nuevas para una sola familia se ha incrementado durante el
periodo de 1972 a 1979, con un nivel de significancia de 0.01?
b) Estime el incremento anual esperado en la mediana de los precios de venta
al construir un intervalo de confianza de 99 %.
7. Se llevo a cabo un estudio de la cantidad de azucar refinada mediante un cierto
proceso a varias temperaturas diferentes. Los datos se codificaron y registraron
136 Regresion lineal y multilineal
en el siguiente cuadro:
Temperatura Azucar refinada
1.0 8.1
1.1 7.8
1.2 8.5
1.3 9.8
1.4 9.5
1.5 8.9
1.6 8.6
1.7 10.2
1.8 9.3
1.9 9.2
2.0 10.5
a) Determine el modelo de regresion lineal simple.
b) Calcule la cantidad promedio de azucar refinada que se produce cuando la
temperatura codificada es 1.75.
c) Determine un intervalo de confianza del 95 % para el parametro β1.
d) Prueba H0 : β1 = 0 vs Ha : β1 6= 0.
e) Encuentre un intervalo de prediccion del 95 % para un valor particular de
azucar refinada cuando la temperatura es 1.75.
8. Los siguientes datos presentan el numero promedio de bacterias que sobreviven
4.6 Ejercicios 137
en un producto alimenticio enlatado y los minutos de exposicion a una tempe-
ratura de 300◦F .
Numero de bacterias Minutos de exposicion
175 1
108 2
95 3
82 4
71 5
50 6
49 7
31 8
28 9
17 10
16 11
11 12
a) Dibuje el diagrama de dispersion de los datos.
b) Identifique el modelo apropiado para estos datos (es lineal o exponencial) y
estime los parametros de dicho modelo.
9. La empresa Bradford Electric Illuminating Co., estudia las relaciones entre los
consumos de energıa (en miles de kilowatts-hora, kwh) y el numero de habita-
ciones en una residencia privada unifamiliar. Una muestra aleatoria de 10 casas
produjo lo siguiente:
138 Regresion lineal y multilineal
Num.de habitaciones Consumo
12 9
9 7
14 10
6 5
10 8
8 6
10 8
10 10
5 4
7 7
a) Dibuje el diagrama de dispersion. Explique,
b) Ajuste un modelo de regresion lineal simple a estos datos,
c) Estime el consumo promedio para una casa con 11 habitaciones,
d) Pruebe la significancia del modelo con α = 0.05,
c) Determine un intervalo de confianza del 95 % para el consumo promedio
cuando una casa tiene 11 habitaciones.
4.7. Regresion lineal multiple
Un modelo de regresion que involucre mas de una variable independiente se llama
modelo de regresion multiple.
El modelo de regresion lineal multiple con k variables esta dado por:
y = β0 + β1x1 + β2x2 + . . . + βkxk + ε (4.3)
Los βi i = 0, . . . , k se llaman coeficientes de regresion.
Ajuste del modelo de regresion lineal mediante matrices.
4.7 Regresion lineal multiple 139
Supongamos que tenemos el modelo de regresion lineal (4.3) y hacemos n observa-
ciones y1, y2, . . . , yn. Entonces, cada observacion yi se escribe como
yi = β0 + β1xi1 + β2xi2 + . . . + βkxik + εi
xij es la j-esima variable independiente para la i-esima observacion (i = 1, . . . , n).
Ahora, definimos las matrices
Y =
y1
y2
...
yn
y X =
x0 x11 x12 · · · x1k
x0 x21 x23 · · · x2k
x0 x31 x33 · · · x3k
......
.... . .
...
x0 xn1 xn2 · · · xnk
con x0 = 1
β =
β0
β1
...
βk
y ε =
ε1
ε2
...
εk
Las n ecuaciones que representan a las n observaciones yi se pueden escribir como:
Y = Xβ + ε
Ahora, las ecuaciones de mınimos cuadrados ordinarios estan dadas por
X tXβ = X tY
donde
β =
β0
β1
...
βk
Entonces β = (X tX)−1X tY .
Por lo tanto, el modelo ajustado es
y = Xβ = X(X tX)−1X tY
140 Regresion lineal y multilineal
Ejercicio 4.7.1. Dados los siguientes datos
x 0 1 2 3 4 5 6
y 1 4 5 3 2 3 4
a) Ajuste el modelo cuadratico
E(y/x) = β0 + β1x + β2x2
b) Estime y cuando x = 2
Solucion:
a) Sea x1 = x y x2 = x2, entonces y = β0 + β1x1 + β2x2. Ahora,
X =
1 0 0
1 1 1
1 2 4
1 3 9
1 4 16
1 5 25
1 6 36
y X t =
1 1 1 1 1 1 1
0 1 2 3 4 5 6
0 1 4 9 16 25 36
entonces
X tX =
1 1 1 1 1 1 1
0 1 2 3 4 5 6
0 1 4 9 16 25 36
1 0 0
1 1 1
1 2 4
1 3 9
1 4 16
1 5 25
1 6 36
=
7 21 91
21 91 441
91 441 2275
4.7 Regresion lineal multiple 141
Calculando la inversa de X tX
(X tX)−1 =
7 21 91 | 1 0 0
21 91 441 | 0 1 0
91 441 2275 | 0 0 1
Pant = 1
Pact = 7∼
7 21 91 | 1 0 0
0 196 1176 | −21 7 0
0 1176 7644 | −91 0 7
Pant = 7
Pact = 196∼
196 0 −980 | 91 −21 0
0 196 1176 | −21 7 0
0 0 16464 | 980 −1176 196
Pant = 196
Pact = 16464∼
16464 0 0 | 12544 −7644 980
0 16464 0 | −7644 7644 −1176
0 0 16464 | 980 −1176 196
dividiendo todo el arreglo anterior entre el ultimo Pact
1 0 0 | 16/21 −13/28 5/84
0 1 0 | −13/28 13/28 −1/14
0 0 1 | 5/84 −1/14 1/84
Por lo tanto,
(X tX)−1 =
16/21 −13/28 5/84
−13/28 13/28 −1/14
5/84 −1/14 1/84
142 Regresion lineal y multilineal
Ahora bien,
β = (X tX)−1X tY =
16/21 −13/28 5/84
−13/28 13/28 −1/14
5/84 −1/14 1/84
1 1 1 1 1 1 1
0 1 2 3 4 5 6
0 1 4 9 16 25 36
1
4
5
3
2
3
4
=
2.4062
0.7143
−0.09524
Por lo tanto, β0 = 2.4062, β1 = 0.7143 y β3 = −0.09524. Entonces, el modelo de
prediccion es
y = 2.4062 + 0.7143x− 0.09524x2.
b) E(y/x = 2) = 2.4062 + 0.7143(2)− 0.09524(2)2 = 3.4538.
Ejercicio 4.7.2. Se llevo a cabo un experimento para determinar la distancia de fre-
nado a diferentes velocidades de un modelo nuevo de automovil. Se registraron los
siguientes datos:
Velocidad 35 50 65 80 95 110
Distancia de frenado 16 26 41 62 88 119
a) Ajuste una curva de regresion multiple de la forma E(y/x) = β0 + β1x + β2x2
b) Estime la distancia de frenado cuando el vehıculo viaja a la velocidad de 70 kmh
Solucion:
Capıtulo 5
Habilidades basicas
I.- Complete los siguientes:
1. Comprende las tecnicas que se emplean para resumir y describir datos numeri-
cos, de tipo grafico, o que requieren analisis computacional.
2. En base a que, en una muestra sometida a observacion sirven para tomar deci-
siones.
3. Si cuento como observaciones el numero de alumnos del grupo, se refiere a
variable:
4. Si tomo el promedio de peso de los integrantes del grupo, hablo de una variable:
5. Los metodos de muestreo aleatorio son:
6. ¿Cuando aplico muestreo de juicio?
7. ¿Cuando aplico muestreo por conveniencia?
8. ¿Cuando aplico muestreo por subgrupos racionales?
9. ¿Cuando aplico muestreo sistematico?
144 Habilidades basicas
10. ¿Cuando aplico muestreo estratificado?
II.- Instrucciones: Realiza los siguientes ejercicios
11. Con los siguientes datos Datos:
1, 4, 5, 6, 6, 8, 9, 10, 10, 10, 11, 12, 13, 14, 15, 16, 24, 28, 29, 49, 58, 67, 77, 94
a) Construye una tabla de distribucion de frecuencias.
b) Encuentra las medidas de tendencia central y de dispersion.
c) Realiza las graficas de: histograma (o grafica de barras segun convenga),
pastel, polıgono de frecuencias.
12. Con los siguientes datos
10, 20, 30, 30, 20, 20, 2040, 60, 60, 60, 60, 70, 90, 80, 100
a) Construye una tabla de distribucion de frecuencias.
b) Encuentra las medidas de tendencia central y de dispersion.
c) Realiza las graficas de: histograma (o grafica de barras segun convenga),
pastel, polıgono de frecuencias.
13. Con los siguientes datos
50, 44, 47, 47, 47, 32, 33, 34, 45, 28, 10, 12, 14, 15, 27, 50, 33, 22, 22, 11
a) Construye una tabla de distribucion de frecuencias.
b) Encuentra las medidas de tendencia central y de dispersion.
c) Realiza las graficas de: histograma (o grafica de barras segun convenga),
pastel, polıgono de frecuencias.
III.- Instrucciones: Conteste el siguiente cuestionario de acuerdo a los
conocimientos adquiridos en estadistica descriptiva
145
14. Se ocupa una vez hecha la recopilacion de los datos, ordenarlos y clasificarlos
para extraer conclusiones:
15. Estudia las tecnicas de ordenacion, clasificacion, recuento y presentacion de
datos en tablas y graficas, y de obtener valores que resuman la informacion:
16. Es el conjunto de elementos que poseen una determinada caracterıstica que
deseamos medir o estudiar:
17. Es la seleccion de un subconjunto de la poblacion:
18. Al n0 de elementos de una muestra se le denomina:
19. Es la caracterıstica que se va a estudiar en la poblacion:
20. Son aquellas que se pueden cuantificar, como la edad, peso, n0 de hijos, etc.
Ademas es una de las divisiones de caracter:
21. Es el conjunto de valores que toma un caracter estadıstico:
22. Son las representaciones que se hacen cuando la variable es continua:
23. Es la representacion que se usa cuando la variable es cualitativa, por ejemplo
color del coche, aunque tambien se puede usar en variable discreta:
IV.- Instrucciones: Conteste el siguiente cuestionario de acuerdo a los
conocimientos adquiridos en Regresion.
24. ¿Que es una lınea de regresion?
25. ¿Como se utilizan las lıneas de regresion?
26. Compare los terminos “variable dependiente”y “variable independiente”.
27. ¿Que mide r2?
146 Habilidades basicas
28. ¿Que ventaja tiene la regresion multiple con respecto a la regresion lineal?¿Que desven-
tajas?
29. ¿Como determinarıa cual de las dos tecnicas: la de regresion lineal o la multiple
serıa la mas apropiada para una situacion determinada?
30. Compare la finalidad del analisis de regresion con la del analisis de correlacion.
31. ¿Porque es importante trazar un diagrama de dispersion para tecnicas de regre-
sion o correlacion de dos variables?
32. ¿Que significa un signo − antes de r?¿Antes de β1?
33. En la mayorıa de las aplicaciones en negocios, ¿que tecnica es mas util la de
correlacion o la de regresion?¿Por que?
V.- Usando las tecnicas de Regresion Lineal, resuelve los siguientes:
34. Dada la siguiente distribucion:
X 2 2 2 4 7 7 10 10
Y 3 4 5 5 4 5 3 5
Determina la recta de regresion de Y sobre X.
35. En el servicio central de turismo del paıs se ha observado que el numero de plazas
hoteleras ocupadas es diferente segun sea el precio de la habitacion. Sobre el
total de plazas ocupadas en un ano se tiene:
Precio (US$/noche) 250 650 1000 1400 2100 2500 2700 3300 4000
N0 hab. ocup. 4725 2610 1872 943 750 700 700 580 500
a) Representa los datos graficamente, para comprobar que existe cierta depen-
dencia lineal entre las variables.
147
b) Halla la ecuacion de la recta de regresion del numero de habitaciones sobre
el precio. Halla la ecuacion de la recta de regresion del precio sobre el
numero de habitaciones.
c) ¿Cuantas habitaciones se llenarıan a 1500 US$?
36. El volumen de ahorro y la renta del sector familiar en billones de pesos, para el
periodo 77− 86 fueron:
Ano 77 78 79 80 81 82 83 84 85 86
Ahorro 1.9 1.8 2.0 2.1 1.9 2.0 2.2 2.3 2.7 3.0
Renta 20.5 20.8 21.2 21.7 22.1 22.3 22.2 22.6 23.1 23.5
a) Recta de regresion considerando el ahorro como variable independiente.
b) Recta de regresion considerando la renta como variable independiente
c) Para el ano 87 se supone una renta de 24.1 billones de pesos. ¿Cual sera el
ahorro esperado para el ano 87?
37. Los datos de la tabla adjunta muestran el tiempo en horas de impresion de tra-
bajos que se han imprimido en una impresora laser de la marca HP . Se esta in-
teresado en estudiar la relacion existente entre la variable de interes “tiempo
de impresion de un trabajo ”y la variable explicativa “numero de paginas del
trabajo ”.
Tiempo 1 2 3 4 5 6 7 8
N0 Paginas 600 900 1400 1800 2500 3200 3400 4500
a) Encuentre la recta de regresion considerando el tiempo como variable inde-
pendiente.
b) Encuentre la recta de regresion considerando el numero de paginas como
variable independiente
c) Estime cuantas paginas se imprimirıan en 12 horas.
148 Habilidades basicas
VI.- Usando las tecnicas de Regresion Multiple, resuelve los sigu-
ientes:
[?]
Bibliografıa