principal g

149
Apuntes de Estad´ ıstica para LCEA M.C.M.A. Gladys del Carmen Vel´ azquezL´opez UPGM Versi´ on 1 10 de enero de 2011

Upload: laura-olivia

Post on 13-Aug-2015

27 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Principal g

Apuntes de Estadıstica para LCEA

M.C.M.A. Gladys del Carmen Velazquez Lopez

UPGM

Version 1

10 de enero de 2011

Page 2: Principal g

2

.

Page 3: Principal g

Indice general

Introduccion 5

1. Introduccion a la Estadıstica 6

1.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.2. Definicion de estadıstica . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.3. ¿Para que estudiamos estadıstica? . . . . . . . . . . . . . . . . . . . . 9

1.4. Terminologıa estadıstica . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.5. Notacion de suma con sigma . . . . . . . . . . . . . . . . . . . . . . . 15

1.6. Notas Sobre redondeo . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

1.7. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2. Estadıstica descriptiva 23

2.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.2. Datos estadısticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.2.1. Tipos de datos . . . . . . . . . . . . . . . . . . . . . . . . . . 24

2.2.2. Organizacion de datos mediante tablas . . . . . . . . . . . . . 24

2.3. Distribuciones de frecuencias . . . . . . . . . . . . . . . . . . . . . . . 25

2.3.1. Obtencion de los intervalos y lımites de clases . . . . . . . . . 26

2.4. Presentacion grafica de datos . . . . . . . . . . . . . . . . . . . . . . 32

2.5. Medidas de tendencia central . . . . . . . . . . . . . . . . . . . . . . 36

2.5.1. Datos no agrupados . . . . . . . . . . . . . . . . . . . . . . . . 36

2.6. Medidas de dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . 39

Page 4: Principal g

4 INDICE GENERAL

2.6.1. Datos no agrupados . . . . . . . . . . . . . . . . . . . . . . . . 40

2.7. Medidas de tendencia central y de dispersion para datos agrupados . 44

2.8. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

3. Muestreo 64

3.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

3.2. Muestra y censo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

3.2.1. Ventajas y desventajas del censo . . . . . . . . . . . . . . . . . 66

3.2.2. Ventajas y desventajas del muestreo . . . . . . . . . . . . . . . 67

3.3. Tabla de numeros aleatorios . . . . . . . . . . . . . . . . . . . . . . . 70

3.4. Estimacion basada en una muestra aleatoria simple . . . . . . . . . . 75

3.5. Muestreo aleatorio estratificado . . . . . . . . . . . . . . . . . . . . . 81

3.6. Muestreo por conglomerados . . . . . . . . . . . . . . . . . . . . . . . 92

3.7. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

4. Regresion lineal y multilineal 106

4.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

4.2. Estimacion de los coeficientes del modelo por mınimos cuadrados . . 110

4.3. Supuestos adicionales para los estimadores de mınimos cuadrados . . 115

4.4. Inferencias relativas a la pendiente β1 de una recta . . . . . . . . . . 116

4.5. Correlacion lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127

4.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131

4.7. Regresion lineal multiple . . . . . . . . . . . . . . . . . . . . . . . . . 138

5. Habilidades basicas 143

Bibliografıa 149

Page 5: Principal g

Introduccion

Llegara un dıa en el que el razonamiento estadıstico sera tan necesario

para el ciudadano como ahora lo es la habilidad de leer y escribir

H.G. Wells (1866-1946)

La creciente complejidad de la sociedad moderna ha provocado incertidumbre en las

mentes de muchas personas en posiciones de mando. Aun ası, deben de tomar deci-

siones relativas a sus funciones diarias y planes para el futuro, ya sea que esten en

negocios, gobierno o en cualquier otra institucion. La Estadıstica es una herramienta

intelectual con la cual pueden tomarse decisiones racionales; y en realidad ha habido

un enfasis creciente en los enfoques cuantitativos a los problemas administrativos du-

rante las ultimas decadas. La estadıstica ha respondido a las necesidades de nuestro

tiempo y se ha desarrollado como una disciplina practica para auxiliar a los adminis-

tradores en el proceso de toma de decisiones.

El objeto fundamental de la edicion de este documento es facilitar a los alumnos de

licenciatura en comercio exterior y aduanas de la universidad politecnica del golfo de

mexico el desarrollo de los contenidos teoricos de la asignatura Estadıstica. Desde un

punto de vista menos local, espero que sea util, en alguna medida, a todo aquel que

necesite conocimientos basicos de las tecnicas estadısticas mas usuales en el ambiente

cientıfico-tecnologico.

Page 6: Principal g

Capıtulo 1

Introduccion a la Estadıstica

1.1. Introduccion

Para la gente comun y corriente la estadıstica significa numeros. En el periodico de la

manana se pueden encontrar las estadısticas mas recientes sobre los delitos de la ciu-

dad: numero de asesinatos, robos de automoviles, asaltos y demas delitos que hayan

sido denunciados en determinado periodo de tiempo; o las mas recientes estadısticas

acerca de la mano de obra en el paıs: por ejemplo, el numero de desempleados; o

las ultimas estadısticas sobre el numero de nacimientos y muertes que han ocurrido

durante cierto periodo de tiempo.

Los ejemplos anteriores forman parte del concepto total de Estadıstica, pero dicha

palabra tiene un concepto mas amplio para las personas que tienen conocimiento de

los aspectos tecnicos. Para estas personas, la estadıstica tiene relacion con aquellos

conceptos y tecnicas que se emplean en la recopilacion, organizacion, resumen, anali-

sis, interpretacion y comunicacion de informacion numerica.

Generalmente se disena una serie de trabajos para alcanzar uno de los siguientes

objetivos, o ambos.

1. Describir cuantitativamente una serie de personas lugares o cosas. (Estadıstica

descriptiva).

Page 7: Principal g

1.2 Definicion de estadıstica 7

2. Dar informacion de la que se puedan sacar conclusiones acerca de un gran numero

de personas, lugares o cosas mediante la observacion de una pequena parte del

conjunto total. (Estadıstica Inferencial: Predecir y decidir).

El capıtulo incluye una introduccion del termino Estadıstica y presenta los conceptos

mas basicos relativos a poblaciones y muestras.

1.2. Definicion de estadıstica

¿Que es la estadıstica?. La estadıstica es un conjunto de procedimientos que sirven

para organizar y resumir datos, hacer inferencias a partir de ellos y transmitir los

resultados de una manera clara concisa y significativa. Tambien podemos entender la

estadıstica como la ciencia que permite responder a ciertas preguntas basandose en

datos empıricos, es decir, en datos que se originan de la observacion o de la experiencia.

Ası, diremos que es la ciencia que tiene que ver con los metodos que dan respuesta a

determinadas cuestiones mediante la recoleccion, analisis e interpretacion apropiada

de datos empıricos, ası como del proceso de toma de desiciones acerca del sistema del

cual fueron obtenidos los datos.

Definicion 1.2.1. La Estadıstica es la ciencia que se ocupa de los metodos cientıfi-

cos para recolectar, organizar, resumir, presentar y analizar datos, ası como sacar

conclusiones validas y tomar desiciones con base en este analisis.

Para su estudio la estadıstica se divide en tres ramas que son:

Estadıstica descriptiva: Es un conjunto de procedimientos que sirven para

organizar, describir y sintetizar datos sin que las conclusiones que se extraigan

de estas rebasen su ambito especıfico, es decir, se busca unicamente describir y

analizar un grupo determinado, sin sacar conclusiones o inferencias acerca de

un grupo mas grande. Generalmente los datos en una muestra pueden escribirse

de tres maneras:

Page 8: Principal g

8 Introduccion a la Estadıstica

Descripcion tabular: Elaboracion de tablas para distribuciones de frecuen-

cia;

Descripcion grafica: Construccion de esquemas, histogramas, ojivas, polıgonos

de frecuencia, etc. La grafica describe de una manera mas objetiva la na-

turaleza de los rasgos;

Descripcion aritmetica: Calculo del numero, rango, media, moda, mediana,

etc.

El ındice de desempleo, el costo de la vida, la precipitacion pluvial, el rendimien-

to medio de un auto en kilometros por litro y los promedios de calificacion,

quedan todos en esta categorıa.

Estadıstica inferencial: Es un conjunto de procedimientos que se emplean

para hacer inferencias y generalizaciones respecto a una totalidad partiendo

del estudio de un numero limitado de casos tomados de esta ultima. Es decir,

consiste en el analisis e interpretacion de una muestra de datos. El muestreo

es un ejemplo vivo del dicho “no tienes que comerte todo el pastel para saber

si te gusta”. Por lo tanto, la idea basica en el muestreo es medir una porcion

pequena, pero tıpica, de alguna “poblacion ”, y posteriormente utilizar dicha

informacion para inferir que caracterısticas tiene la poblacion total.

En la industria y los negocios hay muchas formas de aplicar este concepto. Por

ejemplo, un estudio cinematografico somete a diversas pruebas a algunos actores

y actrices antes de decidir quien interpretara cada papel, las fabricas suelen

producir un pequeno numero de piezas (produccion piloto) antes de pasar a la

produccion a gran escala. Muchas companıas almacenan cientos de artıculos en

inventario y, mediante tecnicas de muestreo, pueden estimar su valor en unidades

monetarias sin tener que contar por completo todos sus artıculos. Algunas veces

se llevan a a cabo estudios de mercado de los nuevos productos en ciudades

claves, para establecer el grado de aceptacion por el consumidor. Las empresas

privadas y las dependencias gubernamentales realizan muestreos por multiples

Page 9: Principal g

1.3 ¿Para que estudiamos estadıstica? 9

razones. El costo suele ser el factor principal. Como cualquier otra cosa, recopilar

datos y analizar los resultados cuesta dinero y, generalmente, cuantos mas datos

se reunan, mayor es el costo. El muestreo reduce la cantidad de datos que se

deben reunir y analizar, por lo tanto, dicha operacion reduce el costo. Otra

razon para realizar el muestreo es el hecho de que la informacion pierde su

valor en poco tiempo. Para que esta sea util, se debe obtener y aprovechar con

bastante rapidez. A menudo el muestreo es el unico medio posible de lograr lo

anterior. Algunas veces, el examen de los artıculos, causa destruccion. Al probar

los cinturones de seguridad para conocer su punto de ruptura, evidentemente se

destruye el producto. Si todos se probaran de esa manera, no quedarıa ninguno

para vender. Esas y otras razones para el muestreo, se consideraran con mayor

detalle en capıtulos posteriores.

Probabilidad: La probabilidad estudia situaciones en las que interviene el azar.

Sus primeras aplicaciones se relacionaban basicamente con los juegos de azar,

como la loterıa, casinos, carreras de caballos, etc. (en este curso no se considera-

ra esta parte de la estadıstica).

Como mas tarde observaremos, las ramas de la estadıstica no son indepen-

dientes y distintas por completo, tienden a superponerse considerablemente.

En resumen, existen tres areas muy relacionadas de interes en estadıstica: la

descripcion y resumen de datos, la teorıa de la probabilidad y el analisis e in-

terpretacion de los datos de muestra.

El objetivo de la Estadıstica es: Hacer inferencias (predecir, decidir) sobre algunas

caracterısticas de una poblacion con base en la informacion contenida en una muestra.

1.3. ¿Para que estudiamos estadıstica?

1.-Los conceptos y tecnicas se usan en un gran numero de ocupaciones,

2.-Las ideas constituyen una parte integral de las investigaciones, de las encuestas

para recopilar datos y del analisis de los datos que se originan en las actividades que

Page 10: Principal g

10 Introduccion a la Estadıstica

desarrollan las instituciones y organizaciones.

Ejemplo 1.3.1. Un trabajador que no necesariamente conoce conceptos y tecnicas

estadısticas muy bien, por lo menos debe tener la facultad de reconocer cuando

necesita la ayuda de un experto y poder comunicarse cuando trabajen juntos en la

planeacion, direccion e interpretacion de los resultados de una actividad que requiera

la metodologıa de esta ciencia.

F Si comprendes los conceptos y metodologıa sacaras provecho de ello. Si lo entiendes

bien podras leer con mayor inteligencia toda la literatura !.

En la vida cotidiana hay muchos ejemplos de como la estadıstica esta presente. Las

aplicaciones estadısticas se presentan en muchos campos incluyendo la ingenierıa,

ciencias fısicas, negocios, ciencias biologicas y de salud, ciencias sociales y educacion,

comercio, quımica, comunicacion, economıa, ciencias polıticas, psicologıa, etc. A con-

tinuacion se describen algunas aplicaciones.

a) Se disenan encuestas con el fin de recoger las primeras cifras de las elecciones y

predecir los resultados (o pronosticar).

b) Se realizan entrevistas con los consumidores para obtener mas informacion acerca

de los productos que prefieren.

c) Se toman muestras de fusibles recien fabricados, con el fin de decidir si se embarcan

o se retiran ciertos lotes de ese producto (Control de calidad en las industrias).

d) Los Economistas observan los ındices para saber que tan saludable es la economıa

durante un periodo y utilizan la informacion para predecir como se compar-

tira en el futuro.

e) En Agricultura se realizan experimentos sobre la reproduccion de plantas y anima-

les, se estudia la bondad de fertilizantes, insecticidas, etc., y se estudian metodos

para aumentar el rendimiento de las cosechas.

Page 11: Principal g

1.4 Terminologıa estadıstica 11

f) En Biologıa se emplean los metodos estadısticos para estudiar las reacciones de

las plantas y animales ante diferentes presiones ambientales.

g) En Negocios se usa para predecir volumenes de ventas, medir las reacciones de los

consumidores ante un nuevo producto, tomar desiciones en cuanto a la forma

de invertir presupuesto en publicidad, etc.

h) En Salud y medicina los medicos investigadores se ayudan de la estadıstica para

evaluar la efectividad de diversos tratamientos.

i) En Psicologıa se ayudan de la estadıstica para medir y comparar la conducta, las

actitudes, la inteligencia y las aptitudes del hombre.

1.4. Terminologıa estadıstica

Es este apartado definiremos algunos terminos fundamentales que se utilizaran en el

curso, los demas terminos se definiran a medida que se vayan presentando.

Poblacion: Tambien llamada universo, es todo conjunto de personas, cosas u

objetos con ciertas caracterısticas comunes. Cada uno de los elementos de la

poblacion recibe el nombre de elemento o unidad. Definimos Poblacion como

el conjunto mas grande de valores (de una variable), por el cual existe algun

interes.

Una poblacion puede ser finita o infinita. Por ejemplo, la poblacion que com-

prende todas las piezas producidas en un dıa determinado en una fabrica, los

productos de un supermercado, los libros de una biblioteca, son ejemplos de una

poblacion finita, mientras que la poblacion que consta de todos los resultados

posibles (cara o cruz) en lanzamientos sucesivos de una moneda, la produccion

futura de una maquina y el nacimiento de insectos son ejemplos de poblaciones

infinitas.

Nota 1. Los elementos que forman una poblacion pueden ser personas, empresas,

Page 12: Principal g

12 Introduccion a la Estadıstica

productos manufacturados, inventarios, escuelas, ciudades, calificaciones esco-

lares, precios, o cualquier otra cosa que se pueda medir, contar o jerarquizar.

Muestra: Se llama muestra a toda porcion de elementos sacada de una poblacion.

Sirve para estimar los resultados que se obtendrıan con el estudio completo de

la poblacion. Para que los resultados de la muestra puedan generalizarse a la

poblacion, es necesario que la muestra se elija adecuadamente, es decir, que sea

representativa de la poblacion.

Muestra aleatoria: Es aquella que se obtiene cuando todos los elementos de

la poblacion tienen igual posibilidad de ser elegidos, es decir, es la muestra que

se trae de una poblacion al azar.

De las definiciones anteriores podemos concluir que el objetivo de una muestra,

es que los elementos de la muestra representen al conjunto de todos los ele-

mentos de la poblacion. Esta cuestion, la construccion de muestras adecuadas,

representativas, es uno de los aspectos mas delicados de la Estadıstica. Nosotros

vamos a considerar en esta asignatura solo un tipo de muestras, denominadas

muestras aleatorias simples. En una muestra aleatoria simple, todos los elemen-

tos de la poblacion deben tener las mismas posibilidades de salir en la muestra

y, ademas, los elementos de la muestra deben ser independientes: el que salga

un resultado en la muestra no debe afectar a que ningun otro resultado salga

en la muestra.

Entidad: Conjunto de personas, lugares o cosas.

I Un biologo puede estar interesado en las ardillas que habitan determinada

region.

I Un medico puede mostrar interes por los pacientes que muestren determinada

serie de sıntomas.

I A un agrıcola le llamara la atencion cierta variedad de trigo.

Page 13: Principal g

1.4 Terminologıa estadıstica 13

Variable: Es toda propiedad o conjunto de caracterısticas de las entidades que

admiten variaciones dentro de un conjunto de objetos y que interesan en una

investigacion cientıfica. Por ejemplo, el biologo puede tener interes especial en

el tamano de las ardillas, el medico puede querer investigar el nivel de colesterol

de ciertos pacientes; al educador le puede llamar la atencion el rendimiento de

lectura de los estudiantes que han aprendido a leer con un metodo determinado;

el investigador agrıcola puede estar interesado en conocer la resistencia de una

variedad de trigo a cierta enfermedad, al educador le puede llamar la atencion

el rendimiento en la lectura de los estudiantes que han aprendido a leer con

un metodo determinado, al meteorologo le puede llamar la atencion de la nieve

como una proporcion de la precipitacion total, etc. En virtud de que cualquiera

de estas caracterısticas presenta un valor diferente cuando se observa desde

diferentes ambitos, recibe el nombre de variable. Hay tres tipos de variables las

cuales son: nominales, ordinales y cardinales.

• Variables nominales. Son las mas simples y abundantes y su unica fun-

cion es clasificar. Su variable operacional correspondiente es una escala

nominal que sirve para clasificar las observaciones en un conjunto de ca-

tegorıas mutuamente excluyentes cuyo orden de colocacion es indistinto.

A esto se les puede asignar cifras u otros sımbolos arbitrarios con el fin de

distinguirlas. Si son cifras, no tienen ningun valor ni propiedades numericas

como en aritmetica, es decir, no se puede hacer ninguna medida numerica

solo clasificacion.

Ejemplo 1.4.1. Variable nominal −→ { Estado civil

soltero,

casado,

viudo,

divorciado,

union libre.

Page 14: Principal g

14 Introduccion a la Estadıstica

Ejemplo 1.4.2. Entre los datos numericos que son nominales (datos cuan-

titativos) se incluyen los numeros de las camisetas deportivas, los numeros

de codigo de las zonas postales, los numeros telefonicos, etc.

Ejemplo 1.4.3. Los datos nominales que son cualitativos incluyen el genero,

la raza, el tipo de sangre y la religion. Ver ejemplo 1.4.1.

Los datos nominales se obtienen cuando se definen las categorıas y se cuen-

ta el numero de observaciones que queda en cada una.

• Variables ordinales o jerarquizados. Clasifican las observaciones en

categorıas mutuamente excluyentes que exigen ordenacion, ya que guardan

entre sı relaciones de mayor que. Su variable operacional es una escala

ordinal que va desde la categorıa mas baja hasta la mas alta o biceversa, de

modo que las observaciones queden en el orden apropiado. Estas categorıas

tampoco tienen propiedades numericas, aunque se les represente por cifras.

Ejemplo 1.4.4. Variable ordinal−→ {Alcoholismo

1.-Abstemio,

2.-Bebedor ocasional,

3.-Bebedor regular,

4.-Bebedor consuetudinario.

Ejemplo 1.4.5. Variable ordinal−→ { La evaluacion de un maestro

1.-Pobre,

2.-Razonable,

3.-Buena,

4.-Superior.

Las variables nominales y ordinales son variables cuyos valores consisten

en categorıas de clasificacion y se denominan Variables Cualitativas.

• Variables cardinales o cuantitativas. Se dice que una variable es cuan-

titativa siempre que los valores que puede asumir sean los resultados de

medidas numericas. Ejemplos de variable cuantitativa son la estatura, el

peso, la temperatura, el cociente de inteligencia, la presion sanguınea, el

Page 15: Principal g

1.5 Notacion de suma con sigma 15

numero de estudiantes de primer ano, etc. Las variables cardinales, se di-

viden en continuas y discretas.

Continuas: Son las que pueden tomar cualquier valor dentro de un inter-

valo de valores, por ejemplo, la edad, los salarios, la estatura, la masa, la

distancia en kilometros, etc. En general, las mediciones dan origen a los

datos continuos.

Discretas: Son las que toman solo algunos valores dentro de un intervalo,

es decir, adquieren solo valores enteros. Por ejemplo, el numero de alumnos

en un aula, el numero de enfermos que ingresan a un hospital, el numero

de ninos en una familia, la cantidad de coches en un estacionamiento, el

conjunto de personas en una fila, etc. En general, las enumeraciones o los

conteos dan origen a los datos discretos.

1.5. Notacion de suma con sigma

En muchos de los procedimientos estadısticos que estudiaremos en el curso, se requiere

de obtener la suma de un conjunto de numeros. La letra griega∑

se utiliza para

denotar una suma. De ahı que, si alguna variable x tiene los valores 1, 5, 6 y 9, entonces∑

x = 21. De manera similar, si los gastos en comestibles durante una semana fueron

$8.82, $12.01, entonces∑

y = $22.93.

Ejemplo 1.5.1. Si los valores de x son 2, 4, 5 y 9, encuentre∑

x,∑

x2 y (∑

x)2.

Solucion:∑

x = 2 + 4 + 5 + 9 = 20∑

x2 = 22 + 42 + 52 + 92 = 4 + 16 + 25 + 81 = 126

(∑

x)2 = 202 = 400

Si solo se van a sumar algunos de los valores, se utilizan subındices para indicar dichos

valores de este modo:5∑

i=1

xi

Page 16: Principal g

16 Introduccion a la Estadıstica

indica la suma de los valores de la variable x, empezando con i = 1 y terminando con

i = 5:5∑

i=1

xi = x1 + x2 + x3 + x4 + x5

n∑i=1

xi significa que hay que sumar n observaciones. A menudon∑

i=1

xi se abrevia con

los sımbolos∑

xi o∑

x.

Ejemplo 1.5.2. Usando los datos que se indiquen, calcule2∑

i=1

xi,4∑

i=1

xi,11∑i=7

xi y∑

xi

i 1 2 3 4 5 6 7 8 9 10 11

xi 8 2 3 6 7 8 9 4 5 4 1

Solucion:2∑

i=1

xi = x1 + x2 = 8 + 2 = 10,

4∑i=1

xi = x2 + x3 + x4 = 2 + 3 + 6 = 11,

11∑i=7

xi = x7 + x8 + x9 + x10 + x11 = 9 + 4 + 5 + 4 + 1 = 23,

∑xi = x1 + x2 + . . . + x11 = 8 + 2 + . . . + 1 = 57.

Cuando cada valor de una variable va a ser multiplicada por una constante, o dividida

entre ella, dicha constante se puede aplicar despues de que los valores se hayan sumado

∑cx = c

∑x

Ası,4∑

i=1

2xi = 2x1 + 2x2 + 2x3 + 2x4 = 2(x1 + x2 + x3 + x4) = 24∑

i=1

xi

Por ejemplo,

3(2) + 3(8) + 3(4) = 3(2 + 4 + 8) = 3(14) = 42

Page 17: Principal g

1.5 Notacion de suma con sigma 17

La operacion de suma o sumatoria de una constante es igual al producto de la cons-

tante y el numero de veces que se presenta.

n∑i=1

ci = nc

Por ejemplo,6∑

i=1

5i = 5 + 5 + 5 + 5 + 5 + 5 = 30

o bien, 6(5) = 30.

La adicion de una suma (o diferencia) de dos variables es igual a la suma (o diferencia)

de sumatorias individuales de las dos variables.

n∑i=1

(x2i + yi) =

n∑i=1

x2i +

n∑i=1

yi

n∑i=1

(xi − yi) =n∑

i=1

xi −n∑

i=1

yi

.

Ejemplo 1.5.3. Se tienen dos conjuntos de numeros, tales como salarios por hora para

diversos empleados y el numero de horas que cada uno trabajo.

i: Individuos fi: Horas trabajadas xi: Salarios por hora

1 1 $2

2 5 3

3 7 2

4 3 4

5 3 3

Supongase que han de evaluarse las sumas que siguen:∑

fi,∑

xi,∑

x2i ,

∑fixi,

∑fix

2i

y∑

(fixi)2.

Solucion:

Page 18: Principal g

18 Introduccion a la Estadıstica

i fi xi x2i fixi fix

2i

1 1 $2 4 2 4

2 5 3 9 15 45

3 7 2 4 14 28

4 3 4 16 12 48

5 3 3 9 9 27∑

fi = 19∑

xi = 14∑

x2i = 42

∑fixi = 52

∑fix

2i = 152

y (∑

fixi)2 = 2704

1.6. Notas Sobre redondeo

Durante el curso cuando se registren datos finales o intermedios, se tendra en cuenta

la siguiente regla:

Si el dıgito que queda a la derecha de la posicion del ultimo dıgito que se va a

retener (y registrar) es menor que 5 se registrara el dıgito que ocupa la posicion

que hay que retener (y registrar). Ejemplo que ilustra esta regla

Resultado final o intermedio Resultado registrado

175.783 175.78

164.78432 164.78

Si el dıgito que queda a la derecha de la posicion del ultimo dıgito que se va a

retener es mayor que 5 se aumentara en 1 el dıgito que ocupa la posicion del

ultimo dıgito que se va a retener y se registrara este resultado. Ejemplo que

ilustra esta regla

Resultado final o intermedio Resultado registrado

175.787 175.79

164.796 164.8

Si el dıgito que queda a la derecha de la posicion del ultimo dıgito que se va a

retener es igual a 5. Entonces, se registrara el dıgito que ocupa la posicion del

Page 19: Principal g

1.6 Notas Sobre redondeo 19

ultimo dıgito que se va a retener tal como aparece si es par, y aumentando en

1, si es impar. Ejemplo que ilustra esta regla

Resultado final o intermedio Resultado registrado

Par 175.785 175.78

Impar 175.775 175.8

Page 20: Principal g

20 Introduccion a la Estadıstica

1.7. Ejercicios

1. Desarrolle cada uno de los siguientes:

a)5∑

i=1

xi

b)5∑

i=1

xiyi

c)6∑

i=1

(xi − yi)2

d)n∑

i=1

xi

npara n = 8.

2. Calcule las siguientes cantidades segun los datos que se indican.∑

xi,∑

fi,∑fixi y

∑fix

2i .

i 1 2 3 4 5 6

fi 3 5 9 10 2 1

xi 10 11 15 19 21 26

3. De acuerdo a las reglas de redondeo establecidas, redondee las siguientes cifras

hasta dos lugares decimales:

a) 5.781 b) 46.7385 c) 125.9995 d) 43.87500 e) 148.475

4. Clasifique los siguientes datos como discretos o continuos:

Puntajes de matematicas en la prueba de aptitud academica de 30 alumnos

del ultimo ano de preparatoria.

El numero de defectos en cada unidad de un lote de 50 coches nuevos.

El numero de carreras anotadas en cada juego por los Piratas en la tem-

porada de 1990.

Page 21: Principal g

1.7 Ejercicios 21

Distancia en yardas recorrida por un mediocampista en cada juego durante

la ultima temporada.

Peso perdido en libras por 20 personas debido a una dieta.

El numero de acciones vendidas por dıa de la bolsa de valores.

Las temperaturas registradas cada media hora en un observatorio.

El tiempo de vida de los bulbos de television producidos por una empresa.

El ingreso anual de los profesores universitarios.

La longitud de 1000 tornillos producidos en una fabrica.

El tiempo de vuelo de un misil.

El numero de billetes de $20 que circulan en Mexico en un momento de-

terminado.

La suma S de los puntos obtenidos al lanzar un par de dados.

El paıs C en Europa.

El estado civil de una persona.

El numero N de individuos en una familia.

5. Clasifique los datos siguientes en cuantitativos y cualitativos:

Estaturas en pulgadas de cinco jugadores de basquetbol.

Peso en onzas de doce pollitos.

Clasificacion etnica de 20 empleados

Numeros telefonicos de amigos

6. Identifique lo siguiente en terminos del tipo de datos:

17 gramos.

25 segundos.

3 canastas.

Page 22: Principal g

22 Introduccion a la Estadıstica

Mas lento.

Talla de camisas.

El mas encantador.

Estatura de un hombre.

Color de piel de los perros.

La vida de las llantas de un automovil.

Page 23: Principal g

Capıtulo 2

Estadıstica descriptiva

2.1. Introduccion

Los metodos estadısticos comprenden el analisis e interpretacion de numeros, ventas

mensuales, calificaciones de examenes, numeros de partes defectuosas, porcentaje de

respuestas correctas a un cuestionario, etc. A tales numeros se les conoce como datos.

Los datos no procesados pueden carecer de significado, por lo cual para interpretarlos

correctamente es necesario primero organizar y resumir los numeros. En este capıtu-

lo aprenderemos metodos para resumir y describir conjuntos de datos a traves de

distintos tipos de tablas, graficos y medidas estadısticas.

2.2. Datos estadısticos

Obtenidos a traves de encuestas, experimentos o cualquier otro conjunto de medidas,

los datos estadısticos suelen ser tan numerosos que resultan practicamente inutiles

si no son resumidos de forma adecuada. Para ello la Estadıstica utiliza tanto tecni-

cas graficas como numericas, algunas de las cuales describiremos en este capıtulo.

Ahora bien, los datos estadısticos se obtienen mediante un proceso que comprende

la observacion o medicion de conceptos como ingresos anuales de una comunidad,

Page 24: Principal g

24 Estadıstica descriptiva

calificaciones de examenes, porcentaje de azucar en cereales, etc., los cuales se cono-

cen como variables, ya que producen valores que tienden a mostrar cierto grado de

variabilidad, al efectuarse mediciones sucesivas.

2.2.1. Tipos de datos

Como se describio en la seccion 1.4, los datos pueden ser de dos tipos: cuantitativos y

cualitativos. Los datos cuantitativos son los que representan una cantidad reflejada en

una escala numerica. A su vez, pueden clasificarse como datos cuantitativos discretos

si se refieren al conteo de alguna caracterıstica, o datos cuantitativos continuos si se

refieren a una medida. Los datos cualitativos o categoricos se refieren a caracterısticas

de la poblacion que no pueden asociarse a cantidades con significado numerico, sino

a caracterısticas que solo pueden clasificarse.

Ejemplo 2.2.1. Veamos algunos ejemplos de cada uno de estos tipos de variables:

Si estamos interesados en un asfalto, la variable tension de fractura es cuanti-

tativa continua.

En un ejemplo de unos cojinetes, el diametro de los cojinetes es una variable

cuantitativa continua.

En un ejemplo de los niveles de plomo, se esta analizando si una muestra con-

tiene niveles detectables o no. Se trata, por tanto, de una variable cualitativa con

dos categorıas: sı contiene niveles detectables o no contiene niveles detectables.

En el ejemplo de accidentes laborales, la variable numero de accidentes labo-

rales es cuantitativa discreta, mientras que las franjas horarias constituyen una

variable cualitativa.

2.2.2. Organizacion de datos mediante tablas

El objetivo de la organizacion de datos es acomodar un conjunto de datos en forma

util para revelar las caracterısticas esenciales y simplificar ciertos analisis. Los datos

Page 25: Principal g

2.3 Distribuciones de frecuencias 25

que no estan organizados se llaman datos no agrupados. Una manera de acomodarlos

es construir un arreglo ordenado, acomodando los datos de abajo hacia arriba o al

reves; si el numero de datos es muy grande, el arreglo puede ser difıcil de manejar

o de comprender; por eso a menudo se usan tablas como aproximacion general a la

organizacion de datos no agrupados. Un ejemplo es el conjunto de las estaturas de

100 estudiantes hombres, obtenidas del registro universitario, que esta ordenado en

forma alfabetica.

Los metodos principales para organizar datos estadısticos comprenden el ordenamien-

to de elementos en subconjuntos que presenten cualidades semejantes (por ejemplo,

misma edad, misma finalidad, misma escuela, misma ciudad, etc.). Los datos agru-

pados se pueden resumir graficamente, o en tablas, y mediante el uso de medidas

numericas, como la media, amplitud, la desviacion estandar, y otras mas. El nom-

bre que reciben los datos ordenados en grupos o categorıas es el de distribucion de

frecuencia.

2.3. Distribuciones de frecuencias

Una distribucion de frecuencia es un metodo estadıstico de clasificacion de datos en

clases o intervalos, de manera tal que se pueda establecer el numero o porcentaje

(es decir, la frecuencia de los datos) de cada clase. Esto proporciona una forma de

observar un conjunto de numeros sin que se tenga que considerar cada numero, y

puede ser extremadamente util al manejar grandes cantidades de datos. El numero o

porcentaje en una clase se denomina frecuencia de clase.

Definicion 2.3.1. Una distribucion de frecuencia es un agrupamiento de datos en

clases, que muestra el numero o porcentaje de observaciones de cada una de ellas.

Una distribucion de frecuencias se puede representar en forma tabular o grafica.

Ejemplo 2.3.1. Construya una tabla de frecuencias para los datos siguientes, corres-

pondientes al numero de faltas a clases durante el periodo de otono de 2010 para

Page 26: Principal g

26 Estadıstica descriptiva

estudiantes inscritos en la materia de Estadıstica.

9 8 7 8 4 3 2 1 0 3 2

5 3 2 1 1 7 3 2 8 1 4

7 6 6 4 3 2 2 0 9 4 2

4 6 9 6 9 4 3 5 7

Solucion:

Definicion 2.3.2. Frecuencia absoluta (F ). Es el numero de veces que un numero

aparece en el conjunto inicial de datos. La frecuencia de un intervalo de clase es igual

a la suma de las frecuencias de los datos que aparecen en el.

Definicion 2.3.3. Frecuencia acumulada (Fa): La frecuencia acumulada de un

dato o de un intervalo es igual a la suma de su frecuencia mas la frecuencia de los

datos anteriores a el.

Definicion 2.3.4. Frecuencia Relativa (Fr). Indica los porcentajes de la totalidad

de los datos que corresponden a cada clase. Se obtiene dividiendo la frecuencia de cada

clase entre el numero total de datos y se multiplica por 100, se expresa en porcentaje

y su formula es

Fr =F

N× 100 (2.1)

donde Fr : frecuencia relativa, F : frecuencia absoluta y N : numero total de datos.

2.3.1. Obtencion de los intervalos y lımites de clases

Numero del intervalo de clase: No hay formas definidas respecto al numero de

clase que deben utilizarse en una distribucion de frecuencia, si los intervalos de clase

son muy pocos se pierden detalles y si son muchos aparte de ser laborioso se mani-

fiestan irregularidades que no permiten apreciar con claridad un patron de compor-

tamiento. En otro caso, la mayorıa de los analistas recomiendan no menos de 5 ni

mas de 15 intervalos de clase.

Page 27: Principal g

2.3 Distribuciones de frecuencias 27

Definicion 2.3.5. Clase. Se le llama Clase a cada uno de los intervalos que forman

una distribucion de frecuencia. Una aproximacion razonable para calcular el numero

de clases nos la da la regla de Sturges

n0 = 1 + 3.3 log N, (2.2)

donde n0 : numero de clases o intervalos y N : numero total de datos.

Nota 2. n0 se redondea siempre al numero inmediato superior (entero su-

perior mas cercano).

Ejemplo 2.3.2. Si N = 30, =⇒ n0 = 1 + 3.3 log 30 = 5.87 ∴ n0 = 6.

Ejemplo 2.3.3. Si n0 = 5.12 =⇒ n0 = 6.

Definicion 2.3.6. Anchura o tamano del intervalo de clase. Es la diferencia

entre los lımites reales de un intervalo de clase. Todas las clases deben tener la misma

amplitud, se simboliza con la letra C mayuscula y su formula es:

C =Vmax − Vmin

n0

, (2.3)

donde C : Amplitud del intervalo de clase, Vmax : Valor maximo, Vmin : Valor mınimo

y n0 : numero de clases.

Nota 3. Siempre se redondea a C segun las caracterısticas del problema.

Nota 4. Si con el ancho de intervalo de clase encontrado, no contienen a

todos los datos, hay que tomar el mınimo entero mayor que la C encon-

trada.

Ejemplo 2.3.4. Encuentra el tamano de los intervalos de clase

Datos 3 5 4 3 8 5 4 1 ⇒ C = 1.75 ∴ C = 2.

Definicion 2.3.7. Lımite normal de clase: Las clases o intervalos de clase estan

limitados por sus valores extremos que se denominan lımite inferior y lımite superior.

Sus sımbolos son: L.N.I. y L.N.S.

Page 28: Principal g

28 Estadıstica descriptiva

Definicion 2.3.8. Lımites reales de clase: Corresponde al punto medio entre el

lımite normal superior de una clase y el lımite normal inferior de la clase siguiente.

Se denotan por: L.R.I. y L.R.S.

Definicion 2.3.9. Marca de Clase: Es el valor correspondiente al punto medio de

un intervalo de clase y su valor es igual a la mitad de la suma de los lımites normales

inferior y superior de un intervalo de clase. Denotamos la marca de clase como

x =LNI + LNS

2, (2.4)

donde x : marca de clase y LNI y LNS : lımites normales.

Reglas generales para formar una distribucion de frecuencia.

1. Seleccione el numero de intervalos de clase, la cantidad de intervalos de clase

no debe de ser menor de 5 ni mayor de 15, entre mas datos se tengan, mas

intervalos de clases deben considerarse. Si el numero de intervalos es demasiado

pequeno pueden estarse ocultando caracterısticas importantes de los datos en

esta agrupacion. Si se tienen demasiados intervalos de clase se pueden tener

muchos intervalos vacıos que resten significado a la distribucion.

2. Calcule la amplitud o tamano del intervalo de clase C,

3. Forme los intervalos de clase iniciando por el lımite inferior del rango o por el

dato menor. El lımite inferior de la clase siguiente sera el valor consecutivo al

maximo de la clase anterior y ası sucesivamente,

4. Fige los lımites reales de cada clase,

5. Determine la frecuencia de clase contando el numero de observaciones que caen

dentro de cada intervalo de clase.

Ejemplo 2.3.5. En una universidad de E.U., se saco una muestra aleatoria de 25

profesores suministrando informacion de los salarios anuales en millones de dolares.

Page 29: Principal g

2.3 Distribuciones de frecuencias 29

Construya una distribucion de frecuencia con la muestra siguiente:

12 21 14 22 12 14 18 11 11

20 19 9 26 17 11 12 24 9

21 17 22 13 19 15 11

Solucion:

1.- Ordenar del numero menor al numero mayor para saber la frecuencia de cada

numero,

=⇒ 9-2, 11-4| 12-3, 13-1, 14-2| 15-1, 17-2| 18-1, 19-2, 20-1| 21-2, 22-2| 24-1, 26-1.

2.- Sacar el numero y amplitud de clases

=⇒ n0 = 1 + 3.3 log N = 1 + 3.3 log 25 = 5.6 =⇒ el numero de clases es n0 = 6.

Ahora C =Vmax − Vmin

n0

=26− 9

6= 2.83, ası la amplitud del intervalo de clase es

C = 3.

3.-

Clase LNI − LNS LRI − LRS F Fa Fr Fra X

1 9− 11 8.5− 11.5 6 6 24 % 24 % 10

2 12− 14 11.5− 14.5 6 12 24 % 48 % 13

3 15− 17 14.5− 17.5 3 15 12 % 60 % 16

4 18− 20 17.5− 20.5 4 19 16 % 76 % 19

5 21− 23 20.5− 23.5 4 23 16 % 92 % 22

6 24− 26 23.5− 26.5 2 25 8 % 100 % 25

25

Tabla 2.1: Distribucion de frecuencia de la muestra.

donde

Fr =F

N× 100 =⇒ para la primera clase Fr =

6

25× 100 = 24 % y ası sucesivamente

para las demas.

Fra =Fa

N× 100 =⇒ para la primera clase Fra =

6

25× 100 = 24 %, para la segunda

Fra =12

25× 100 = 48 % y ası sucesivamente.

Page 30: Principal g

30 Estadıstica descriptiva

x =LNI + LNS

2=⇒ para la primera marca x =

9 + 11

2= 10, para la segunda

x =12 + 14

2= 13 y ası en sucesivamente. Continuando con todos los calculos se

obtiene la tabla 2.1.

F Los datos son de unidad ⇒ 1

2= 0.5 (lo que se resta y suma a los lımites normales

para obtener los lımites reales).

Ejemplo 2.3.6. Elabore una distribucion de frecuencia para los siguientes datos toma-

dos de una encuesta de la edad de 70 personas.

32 20 20 24 24 18 18 18 25 26 28 40 20 28

41 37 37 37 26 26 26 27 27 32 44 20 22 35

32 32 29 40 40 44 44 18 18 45 35 26 28 26

34 34 30 30 30 28 28 28 35 28 45 32 35 26

42 42 30 22 30 24 30 22 24 20 26 28 22 32

Clase LNI − LNS LRI − LRS F Fa Fr Fra X

1 18−21 .5− .5

2 22−25 .5− .5

3 26−29 .5− .5

4 30−33 .5− .5

5 34−37 .5− .5

6 38−41 .5− .5

7 42−55 .5− .5

8 56−59 .5− .5

Tabla 2.2: Distribucion de frecuencia de la muestra.

Solucion:

n0 = 1 + 3.3 log 70 = 7.08 =⇒ n0 = 8. Ahora C =45− 18

8= 3.375 =⇒ C = 4.

(Completa la tabla 2.2.)

Page 31: Principal g

2.3 Distribuciones de frecuencias 31

Ejercicios

Resuelve los siguientes:

1. Los datos siguientes representan el numero de clientes que visitan una tienda en

un periodo de 22 dıas. Construya la distribucion de frecuencias para los datos

28 42 52 50 29 31 34 45 48 38 28

33 33 49 32 37 41 43 46 49 34 39

2. Los siguientes datos representan las edades de los empleados de un supermer-

cado. Construye una distribucion de frecuencia

20 21 25 28 24 22 38 54 28

23 26 32 20 30 28 42 59 32

25 25 25 26 19 23 46 40 37

21 23 25 36 21 27 46 26 36

24 25 24 24 21 22 29 26 37

22 18 27 30 25 26 30 35 52

29 19 23 21 19 21 35 60 44

3. Los datos siguientes representan los dıas de Zafra en cada uno de los ingenios

azucareros de la republica mexicana. Construye una distribucion de frecuencia.

151 177 146 150 177 208 166 136 101 152 141

142 142 139 148 149 171 152 137 136 170 141

136 156 163 138 138 155 149 172 161 180 141

116 158 170 147 146 182 150 157 155 122 172

124 177 147 168 136 173 124 153 112 192 178

164 204 135 144 178 160 140 156

4. En la siguiente lista aparecen las calificaciones de 50 alumnos que presentaron

Page 32: Principal g

32 Estadıstica descriptiva

un examen de matematicas. Elabore una tabla de distribucion de frecuencia.

57 60 33 85 52 65 77 84 65 74

68 71 81 35 50 35 64 74 47 62

45 80 41 61 100 55 73 59 53 37

76 41 78 55 48 65 85 67 100 60

88 94 69 98 65 73 42 65 92 88

5. El conjunto de datos siguiente representa los totales de efectivo (en dolares)

gastados en un cierto fin de semana por 25 estudiantes graduados. Construya

una tabla de frecuencias agrupadas

39.78 28.30 28.31 17.95 44.47

46.65 31.47 33.45 29.17 48.39

82.71 43.63 41.17 47.32 52.16

25.94 50.32 35.25 35.70 17.89

60.20 48.14 22.78 38.22 23.25

2.4. Presentacion grafica de datos

Con frecuencia, el significado de los datos se puede comunicar mas efectivamente por

medio de graficos que por medio de tablas. Existe una gran variedad de formas para

presentar los datos graficamente. En la presente seccion se describiran algunos tipos

de graficos que seran utilizados en el presente curso.

Grafico estadıstico

Es la representacion de datos estadısticos por medio de figuras geometricas (puntos,

lıneas, rectangulos, etc.) cuyas dimensiones son proporcionales de valor numerico de

los datos. Su fin principal es permitir de un solo vistazo, la captacion rapida del con-

junto de caracterısticas presentadas y evidenciar sus variaciones en intensidad.

Page 33: Principal g

2.4 Presentacion grafica de datos 33

Un grafico es util para dar una rapida idea de la situacion general que se esta ana-

lizando, permite determinar por simple examen, el maximo y mınimo de las varia-

ciones de un fenomeno.

Graficas circulares

Se llama tambien grafica de pastel, es bastante util para representar proporciones o

porcentajes. Para construir el diagrama se puede usar el compas y el transportador:

el primero para trazar el circulo y el segundo para medir los sectores correspondientes

al pastel. Dado que el circulo tiene 360o (equivalente al 100 %), se puede utilizar el

transportador para dividir el pastel con base en las “rebanadas”deseadas de porcenta-

je. Esta grafica se construye generalmente cuando en la distribucion de frecuencia las

clases no se representan de manera cuantitativa. Para representar una grafica de sec-

tores circulares se lleva a cabo el siguiente procedimiento:

1.- Calcular Fr,

2.- Calcular los porcentajes obtenidos de 360o para determinar los grados que debe

tener cada sector aplicando la formula

(Fra)(360)

100

3.- Marcar en un circulo los sectores con angulos iguales a los obtenidos en el paso 2.

Cuente los grados del primer sector en el sentido conforme a las agujas del reloj y a

partir del radio vertical superior del circulo.

Ejemplo 2.4.1. La tabla 2.3 muestra el area de los cinco Grandes Lagos bajo jurisdic-

cion de E.U. Grafique los datos:

Page 34: Principal g

34 Estadıstica descriptiva

Gran Lago Area (en millas cuadradas)

Michigan 22342

Superior 20557

Huron 8800

Erie 5033

Ontario 3446

Total 60178

Tabla 2.3: Areas de los cinco Grandes Lagos bajo la jurisdiccion de E.U.

Se hace corresponder el area total, 60178 millas cuadradas a los 360◦ del cırculo. Ası,

una milla cuadrada corresponde a360◦

60178. Se deduce que el lago Superior, con 20557

millas cuadradas ocupa un arco de 20557

(360◦

60178

)= 123◦ y del mismo modo se

deducen los arcos de los otros lagos. Las lıneas divisorias se pueden trazar usando un

transportador.

Histograma

El histograma es una representacion grafica hecha en un plano cartesiano que consiste

en una serie de rectangulos que se caracterizan por que la variable aleatoria o el

fenomeno de interes se representa a lo largo del eje horizontal (estando referidos a las

marcas de clase como sus centros); el eje vertical representa el numero, proporcion o

porcentaje de observaciones por intervalos de clase, dependiendo de que el histograma

particular sea o no, un histograma de porcentaje (de frecuencia relativa).

Caracterısticas de un histograma:

1. Los posibles valores de la variable que se esta considerando se disponen en el

eje horizontal. Las frecuencias con que ocurren los valores de la variable se

representan en el eje vertical.

2. Cada intervalo de clase de la distribucion de frecuencia se representa por una

barra del histograma.

Page 35: Principal g

2.4 Presentacion grafica de datos 35

3. Las barras tienen la misma amplitud de los intervalos de clase correspondientes.

4. La altura de una barra dada correspondiente a la frecuencia con que ocurren los

valores en el correspondiente intervalo de clase. Es decir, para un conjunto dado

de datos, los intervalos de clase con frecuencias grandes, se representaran en el

histograma con barras altas y los intervalos de clases con frecuencias pequenas

con barras cortas.

5. Las barras de dibujan adyacentes entre sı. Esto tiene por objeto dar a entender

graficamente la naturaleza continua de los datos que se estan considerando.

6. Respecto del area total que aparece en el histograma, la proporcion encerrada

por una barra determinada es igual a la proporcion que la frecuencia del intervalo

de clase correspondiente tiene del numero total de observaciones.

Ejemplo 2.4.2. x: Numero de ninos en edad escolar, y: Frecuencia.

Polıgono de frecuencias

Aunque de menor uso, los polıgonos de frecuencia son otro medio de representar

graficamente las distribuciones de frecuencia simple como la frecuencia relativa. Para

construir un polıgono de frecuencias marcamos estas sobre el eje vertical y los valores

de la variable que vamos a medir, las marcamos sobre el eje horizontal. El siguiente

paso consiste en graficar cada frecuencia de clase dibujando un punto sobre su marca

de clase, o punto medio, y en unir por un trazo continuo a todas las marcas de clase.

Se puede obtener uniendo los puntos medios de las partes superiores de los rectangulos

del histograma.

Ejemplo 2.4.3. x: Marca de clase, y: Frecuencia.

Ojivas

Representacion grafica de frecuencias acumuladas. La representacion grafica de

la informacion contenida en los cuadros de frecuencia acumulada son curvas llamadas

Page 36: Principal g

36 Estadıstica descriptiva

ojivas. Una ojiva es una curva equivalente a un polıgono de frecuencia acumulada

suavizado. Para representar una ojiva se deben seguir los siguientes pasos:

1.- Localizar en el eje x los lımites reales superiores de clase,

2.- Localizar en el eje y las frecuencias acumuladas de cada clase,

3.- Unir por trazos continuos los puntos anteriores.

Ejemplo 2.4.4. x: LRS, y: Frecuencia acumulada.

2.5. Medidas de tendencia central

En una tabla de distribucion de frecuencias hay una zona en donde los valores son

mas altos, es decir, hay valores de las variables que son mas frecuentes, en cambio,

existen zonas en donde los valores de las variables son menos frecuentes. Surge ası, el

concepto de medida de tendencia central, tambien conocida como variable de centra-

lizacion, de posicion o parametros poblacionales que indican alrededor de que valor

se agrupa el mayor numero de casos en estudio. Las medidas de tendencia central

son representativas de toda la poblacion. Se les llama de tendencia central porque

en torno a ellas parecen agruparse los datos. Sirven para resumir todo un conjunto

de valores, por ello bien, se les puede considerar como sintetizadores. En general,

cualquier medida de tendencia central es un valor medio, ya que este por definicion

es todo valor que se haya entre dos extremos. Las medidas de tendencia central son

principalmente la media aritmetica, la mediana y la moda.

2.5.1. Datos no agrupados

El analisis de datos suele realizarse de diversas maneras, dependiendo de si existe una

cantidad pequena o grande de datos que se deba analizar. Cuando existen, digamos,

30 o menos puntos de datos, se utilizan los metodos que se presentan a continuacion.

Para mayores cantidades de datos, son mas practicas las computadoras o tecnicas en

las que es necesario llevar a cabo, en primer lugar el agrupamiento de los datos antes

del analisis. Tales tecnicas se explicaran con mas detalle mas adelante.

Page 37: Principal g

2.5 Medidas de tendencia central 37

Dos caracterısticas importantes de los datos que las medidas pueden poner de mani-

fiesto son: 1) el valor central o tıpico del conjunto y 2) la dispersion de los numeros.

La media aritmetica

Se define como la suma de un conjunto cantidades dividida entre el numero total de

ellas. Esta medida es la mas comun dentro de las de tendencia central y corresponde

al centro de gravedad de los datos. Por ejemplo, cuando nos preguntamos sobre el

promedio que obtuvimos en un ciclo escolar, estamos hablando de media aritmetica

o valor medio o simplemente media, se denota por x y su formula es

x =

∑Ni=1 xi

N(2.5)

para datos no agrupados.

Ejemplo 2.5.1. Los diez puntajes siguientes representan el numero de puntos anotados

en diez juegos de basquetbol por el jugador A: 6,10,3,7,6,6,8,5,9 y 10. La media es:

6 + 10 + 3 + 7 + 6 + 6 + 8 + 5 + 9 + 10

10=

70

10= 7

El valor 7 representa, en algun sentido, el numero central o medio de los puntos

anotados en diez juegos por el jugador A.

Ejemplo 2.5.2. Los totales anuales, en miles de millones de dolares, para las exporta-

ciones agrıcolas de Mexico de 2000 a 2010 son:

21.9 21.9 23.0 23.6 29.4 34.7 41.2 43.3 39.1 33.7

Determine la media si los datos constituyen una poblacion.

Nota 5. La media tiene una seria desventaja. Se ve afectada por los valores extremos

del final de una distribucion. Como depende de cada medida, los valores extremos

pueden llevarla a representar defectuosamente los datos.

Ejemplo 2.5.3. Suponga que un corredor de maraton ha corrido en seis maratones

mas grandes del paıs, quedando en las posiciones siguientes (el orden es el de los

maratones):

3 5 4 6 2 85

Page 38: Principal g

38 Estadıstica descriptiva

En la ultima carrera, en la que el ocupo el 85◦ lugar, fue todo el tiempo tratando

de ganar la carrera. Corrio en primer lugar las primeras 22 millas, pero le dieron

calambres y tuvo que caminar parte de las ultimas cuatro millas. Si la media se usa

para describir la habilidad del corredor, entonces debe usarse el valor 17.5, pero como

termino a lo mas en sexto lugar en las cinco primeras carreras, no parece razonable

usar la media para medir su capacidad de correr. Quiza la mediana proporcione una

medida mejor, pues en este ejemplo la media se afecta mucho por el valor extremo

85.

La mediana

La mediana es el punto dentro del recorrido de una variable que supera a no mas

de la mitad de los datos y es superado por no mas de la otra mitad. Dicho de otro

manera es un punto dentro de una distribucion de datos que tiene la caracterıstica

de dividirla en dos partes iguales. La identificaremos con el sımbolo Me.

Cuando se trata de datos no ordenados no es necesario utilizar formulas, unicamente

tenemos que ordenar los datos de menor a mayor, el concepto de termino medio es

correcto si el numero de datos ordenados es impar, si el numero de datos es par la

mediana es la semisuma de los dos valores intermedios que satisfacen su definicion.

Ejemplo 2.5.4. En cada uno de los siguientes la mediana esta dada por el numero

subrayado.

3 5 7 9 10

1 2 5 8 9 10

aquı Me = 5+82

= 6.5.

Nota 6. El uso de la mediana para datos de intervalo posee tanto ventajas como

desventajas. Una ventaja es que la mediana no se ve afectada por puntajes extremos

al final de la distribucion. La desventaja del uso de la mediana reside en que no

es facilmente determinable si el conjunto de datos es grande, puesto que las medidas

deben ordenarse primero, ponerse en orden numerico de menor a mayor o al contrario.

Page 39: Principal g

2.6 Medidas de dispersion 39

Para conjuntos grandes de datos que han sido organizados la mediana se encuentra

ası:

a) Si N es impar, la mediana es la medida que esta en el lugarN + 1

2,

b) Si N es par, la mediana es el promedio de las medidas que estan en los lugaresN

2y

N

2+ 1.

La moda

Es el dato que aparece mas veces en una distribucion de frecuencia. Es facil deter-

minarla por simple inspeccion, para una distribucion de frecuencia es la marca de

clase que se presenta con mayor frecuencia. Cuando en una distribucion de frecuencia

existe una sola moda, se dice que es unimodal, con dos modas es bimodal con tres es

trimodal, con mas de tres es multimodal.

Ejemplo 2.5.5.

3 5 8 3 7 4 3 2

2.6. Medidas de dispersion

Al grado en que los datos numericos tienden a extenderse alrededor de un valor medio

se le llama dispersion o variacion de los datos. Una medida de tendencia central por

si sola, no describe ni resume adecuadamente una distribucion de datos, es necesario

acompanarla de un indicador que de cuenta del grado de dispersion con que se dis-

tribuyen los datos de la variable. Una medida de dispersion dice cuanto se desvıan los

datos respecto a las tendencias centrales. Las medidas de dispersion mas importantes

son: el rango, la desviacion media, la varianza, la desviacion estandar y los

porcentajes.

Page 40: Principal g

40 Estadıstica descriptiva

2.6.1. Datos no agrupados

Rango

Se trata de la mas simple de las medidas de dispersion, representa la distancia entre el

mayor y el menor de los datos de una distribucion, por lo que puede ser interpretado

como la dispersion total de todos ellos. Se obtiene restando el dato menor del mayor,

consecuentemente, es calculable unicamente en variable cardinal.

Desviacion media

Mide la desviacion promedio de valores con respecto a la media del grupo, sin tomar

en cuenta el signo de la desviacion. Se obtiene al restar la media de cada valor del

grupo, eliminando el signo (+ o −) de la desviacion, hallando despues el promedio.

Al calcular la desviacion media es necesario considerar el hecho de que la suma de

las desviaciones positiva y negativa de la media siempre sera (por definicion) igual a

cero. De convertirse las diferencias a valores absolutos (todos los valores se consideran

desviaciones positivas) antes de sumar, se soluciona dicho problema. La desviacion

absoluta media se calcula con la formula siguiente

D.M. =

∑ | xi − x |N

(2.6)

donde N es el numero de observaciones del conjunto.

Varianza

Se obtiene restando a cada uno de los valores el valor de la media de todos los valores,

elevando al cuadrado cada una de las diferencias resultantes, sumando las diferencias

al cuadrado y dividiendo este total por el numero de valores menos 1. La varianza

muestral se puede calcular mediante la formula

S2 =

∑(xi − x)2

N − 1(2.7)

Page 41: Principal g

2.6 Medidas de dispersion 41

Una formula alternativa para calcular la varianza muestral es

S2 =

∑x2

i −(∑

xi)2

NN − 1

(2.8)

Tanto mayor sea la varianza de unos datos, mas dispersos, heterogeneos o variables

son esos datos. Cuanto mas pequena sea una varianza de unos datos, mas agrupados

u homogeneos son dichos datos.

Ejemplo 2.6.1. La tabla 2.4 muestra los costos por litro, en centavos de dolar, de la

gasolina de alto octanaje en 19 ciudades del mundo. Determine la varianza muestral.

Ciudad Costo por litro Ciudad Costo por litro

Amsterdam 57 Nairobi 57

Bruselas 53 Nueva York 40

Buenos Aires 38 Oslo 65

Hong Kong 57 Parıs 58

Johannesburgo 48 Rıo de Janeiro 42

Londres 56 Roma 76

Madrid 59 Singapur 59

Manila 46 Sidney 43

Mexico 25 Tokio 79

Montreal 47

Tabla 2.4:

Solucion:

Al usar la formula 2.8 se obtiene que S2 = 167.32. Entonces, la varianza muestral de

los 19 precios de gasolina es 167.32 centavos cuadrados.

Observacion 1. Para los datos de los precios por litro de la gasolina, el conocimiento

de que S2 = 167.32 centavos cuadrados tiene muy poco significado por sı mismo,

si es que tiene alguno. Sabemos que si el valor de la varianza es grande, entonces

las medidas estan muy dispersas, mientras que si el valor es pequeno hay muy poca

variabilidad en las medidas.

Page 42: Principal g

42 Estadıstica descriptiva

Ejemplo 2.6.2. Los datos de la tabla 2.5 indican los precios, en dolares, por libra, de

asado de cerdo y queso cheddar en 15 capitales del mundo.

Capital Cerdo asado Queso cheddar

Berna $6.61 $4.00

Bonn 2.38 2.74

Brasilia 1.27 1.08

Buenos Aires 1.36 2.03

Camberra 2.06 2.60

Londres 1.56 1.81

Madrid 2.33 3.15

Mexico 1.08 2.29

Ottawa 1.99 3.98

Parıs 2.47 2.37

Pretoria 1.95 1.76

Roma 2.46 2.96

Estocolmo 5.35 2.54

Tokio 4.19 2.38

Washington 3.29 2.69

Tabla 2.5:

¿Para cual alimento, el asado de cerdo o el queso cheddar, son menos variables y mas

estables los precios?

Solucion:

Ejemplo 2.6.3. Los datos adjuntos representan el promedio de millas por galon diario

por cinco dıas para los coches A y B, en condiciones similares.

A 20 25 30 15 35

B 15 27 25 23 35

a) Encuentre la media y el rango de millas por galon para cada coche.

Page 43: Principal g

2.6 Medidas de dispersion 43

b) ¿Cual coche parece haber logrado un rendimiento mas consistente si la consisten-

cia se determina examinando las varianzas? Explique.

Solucion:

Desviacion estandar

La desviacion estandar es simplemente la raız cuadrada positiva de la varianza. Para

muchos fines es una medida de la variabilidad mas util que la varianza. Por un lado,

la desviacion tıpica se expresa en las mismas unidades que las observaciones originales

y la media, mientras que la varianza se expresa en unidades cuadradas. Las siguientes

formulas dan la desviacion tıpica de la muestra

S =

√√√√∑x2

i −(∑

xi)2

NN − 1

(2.9)

Coeficiente de variacion

Las medidas de dispersion son valores absolutos y no resultan adecuados cuando se

lleva a cabo una comparacion entre dos distribuciones. Ası, una desviacion de unos

cuantos gramos al medir el peso de un caballo no es importante, pero es de mucha

importancia al medir la dosis de una medicina. Obtenemos una medida relativa de

dispersion cuando dividimos la desviacion estandar entre la media aritmetica, a esta

se le llama coeficiente de variacion.

Es la razon de la desviacion estandar a la media de una distribucion dada. El coefi-

ciente de variabilidad se acostumbra a expresarlo en porcentajes

C.V. =S

x(2.10)

La principal ventaja del coeficiente de variacion es que no tiene unidades de medida,

lo que hace mas facil su interpretacion. En general, valores de C.V. menores a 0.1

indican una alta concentracion, entre 0.1 y 0.5 una concentracion media y valores

superiores a 0.5 una alta dispersion y una media poco o nada representativa.

Page 44: Principal g

44 Estadıstica descriptiva

Ejemplo 2.6.4. En caso de que C.V. =S

x=

0.6831

11.48= 0.0595. El bajo valor del

coeficiente de variacion indica que los valores estan muy concentrados y que la media

representa aceptablemente al conjunto de la distribucion.

Ejemplo 2.6.5. En caso de que C.V. =S

x=

9.06

15= 0.6. Lo que implica que la media

no representa en modo alguno al conjunto de la distribucion.

Ejemplo 2.6.6. Supongamos que para los datos de tiempo de procesado en una CPU

de 25 tareas, la varianza es 1.42, luego su desviacion estandar es 1.19, y el coeficiente

de variacion1.19

1.63= 0.73. Por tanto, la desviacion estandar es algo mas del 70 % de

la media. Esto indica que los datos no estan muy concentrados en torno a la media,

probablemente debido a la presencia de los valores altos que hemos comentado antes.

2.7. Medidas de tendencia central y de dispersion

para datos agrupados

Las medidas de resumen fundamentales en lo que a datos agrupados se refiere, son

las mismas que para los pequenos conjuntos de datos, principalmente la media, la

mediana y moda como medidas de tendencia central y la desviacion estandar, varianza

y el rango como medidas de dispersion.

La media aritmetica

Para datos agrupados se utiliza

x =

N∑i=1

xF

N(2.11)

donde F es la frecuencia, x es la marca de la clase, N es el total de frecuencias y xi

son los datos.

Ejemplo 2.7.1. Los datos siguientes representan el numero de discos vendidos cada

dıa durante un periodo de 25 dıas en una tienda de musica localizada en un centro

Page 45: Principal g

2.7 Medidas de tendencia central y de dispersion para datos agrupados 45

comercial:

60 36 61 56 19 35 51 42 21 28 33 67 30

49 57 54 59 28 63 38 15 24 35 46 53

Ahora, por conveniencia los datos se presentan en la siguiente tabla 2.6 de frecuencia

agrupada

Numero de discos vendidos Numero de dıas

15-25 4

26-36 7

37-47 3

48-58 6

59-69 5

Tabla 2.6:

Encuentre:

a) El numero promedio de discos vendidos por dıa, x.

b) El numero promedio aproximado de discos vendidos por dıa, xa.

Solucion:

a) Con la ayuda de una calculadora, determinamos que la suma de las 25 medidas

es∑

x = 1060. En consecuencia, la media muestral es: x =Σx

N=

1060

25= 42.4.

Ası, el numero de discos vendidos por dıa es 42.4.

b) Encontramos primero las marcas de clase x. Recuerde que las marcas de clase son

el punto medio de cada intervalo de clase. Cada marca de clase se multiplica

entonces por su frecuencia correspondiente, como lo muestra la tabla siguiente

2.7:

Page 46: Principal g

46 Estadıstica descriptiva

Clase F x xF

15-25 4 20 80

26-36 7 31 217

37-47 3 42 126

48-58 6 53 318

59-69 5 64 320

Tabla 2.7:

Usando la formula (2.11), la media aproximada es xa =1061

25= 42.44.

Note que xa = 42.44 es solo un valor aproximado para la media de las 25 medidas

muestrales originales; la aproximacion se considera buena comparada con el valor

exacto x = 42.40 obtenido en la parte a).

Mediana

Para datos agrupados la formula a usar es

Me = LRI +

(N2− Fa−1

Fm

)C (2.12)

donde LRI de la clase mediana, N total de datos, Fa−1 es la Fa anterior a la Fa de la

clase mediana, Fm es F de la clase mediana y C es el tamano del intervalo de clase.

Ejemplo 2.7.2. La tabla 2.8 representa las velocidades, en millas por hora, para una

muestra de 37 coches que recorren una zona escolar donde se permite circular hasta

25 millas por hora. Encuentre la mediana aproximada de la velocidad.

Velocidad Numero de coches: F Fa

1-5 3 3

6-10 2 5

11-15 5 10

16-20 10 20

21-25 7 27

26-30 10 37

Page 47: Principal g

2.7 Medidas de tendencia central y de dispersion para datos agrupados 47

Solucion:

Como N = 37, queremos localizar elN

2=

37

2= 18.5−esimo valor. Al observar la

tabla 2.8 notamos que tal valor cae en la clase 16−20, porque las tres primeras clases

contienen un total de 10 valores y la cuarta 10 valores; por lo tanto, debemos contar

(18.5 − 10) = 8.5 valores en la clase 16 − 20, bajo la hipotesis de que los 10 valores

que caen en esta clase estan distribuidos homogeneamente a lo largo de ella; en otras

palabras, estamos buscando la medida en la clase 16− 20 localizada en los8.5

10de la

clase. Como el ancho de cada clase es C = 5, para encontrar el valor aproximado de

la mediana Me solo necesitamos sumar8.5

10del ancho C = 5 a la frontera inferior de

la cuarta clase. Ası el valor aproximado de la mediana es:

Me = 15.5 +

(8.5

10

)5 = 15.5 + 4.25 = 19.75

Moda

La formula es

Mo = LRI +

(∆1

∆1 + ∆2

)C (2.13)

donde ∆1 exceso de F antes de la clase modal (Frecuencia modal menos la frecuencia

antes de la frecuencia modal), ∆2 exceso de F despues de la clase modal (Frecuencia

modal menos la frecuencia despues de la frecuencia modal).

F La clase modal es el intervalo de clase que contiene al mayor numero de observa-

ciones.

Desviacion media

Se define como la desviacion promedio de los valores absolutos de las desviaciones de

los datos de una variable con respecto a su media, su formula es la siguiente:

D.M. =

∑ | x− x | FN − 1

(2.14)

Tabla 2.8:

Page 48: Principal g

48 Estadıstica descriptiva

donde x es la marca de la clase, x es la media aritmetica, F es la frecuencia y N es

el total de datos.

La varianza

Se define como la suma de los cuadrados de las desviaciones de las observaciones con

respecto a la media, dividida entre el total de datos N − 1

S2 =

∑ | x− x |2 F

N − 1(2.15)

Desviacion estandar

Es la desviacion promedio de los datos de una distribucion respecto a su media. La

desviacion estandar es simplemente la raız cuadrada de la varianza.

S =

√∑ | x− x |2 F

N − 1(2.16)

Ejemplo 2.7.3. Calcule las medidas descriptivas a partir de los datos agrupados de la

siguiente tabla.

Intervalo de Clase Frecuencia

85− 89 9

90− 94 11

95− 99 14

100− 104 20

105− 109 27

110− 114 22

115− 119 19

120− 124 16

125− 129 12

N = 150

Page 49: Principal g

2.8 Ejercicios 49

2.8. Ejercicios

1. Los datos anotados en seguida representan los totales, en dolares, gastados en

golosinas por una muestra de 25 estudiantes durante un periodo de examenes.

57 28 63 38 29 89 77 72 39

47 64 84 88 42 36 72 69

68 41 52 39 72 45 52 84

Construya una tabla de frecuencia agrupada.

2. Los datos siguientes indican los pesos en libras rebajados por grupo de mujeres

en las dos primeras semanas de un programa de ejercicios diarios:

1 2 12 3 15 5 12 11 3 4

3 5 0 7 17 6 17 13 2 5

5 7 1 11 3 9 9 8 18 9

10 9 4 12 1 8 8 7 11 9

15 11 8 4 5 11 3 14 12 10

Use el conjunto de datos para cubrir los siguientes:

Construya una tabla de frecuencia agrupada con 5 clases.

Trace una ojiva usando frecuencias relativas y la tabla construida en el

punto anterior.

Grafique un histograma de frecuencia con cinco barras usando la tabla ya

realizada.

Encuentre el ancho de la clase 10 − 20, donde los 10 y 20 son los lımites

de clase.

Si Vmax = 89.7 y Vmin = 32.1, n0 = 5 y la unidad de medida es 0.1,

determine el lımite superior de la primera clase.

3. Se proponen 3 calificaciones para los salarios por hora de un artesano. Critique

usted cada una de las clasificaciones dadas a continuacion:

Page 50: Principal g

50 Estadıstica descriptiva

Clasificacion I Clasificacion II Clasificacion III

$ 0-3.00 $ 0-3.50 $ 0-menos de 3.00

3.00-6.00 3.51-7.00 4.00-menos de 7.00

6.00-9.00 7.01-10.00 8.00-menos de 11.00

9.00-12.00 10.01-15.00 12.00-menos de 15.00

12.00-15.00 mas de 15.00 mas de 15.00

4. La tabla 2.9 muestra una distribucion de frecuencias de los salarios semanales

de 65 empleados de la empresa P&R. De acuerdo con esta tabla, determine:

El lımite inferior de la sexta clase.

El lımite superior de la cuarta clase.

La marca de clase de la tercera clase.

Los lımites reales del quinto intervalo.

El tamano del quinto intervalo de clase.

La frecuencia de la tercera clase.

La frecuencia relativa de la tercera clase.

El intervalo de clase con mayor frecuencia.

El porcentaje de empleados que ganan menos de $280.00 a la semana.

El porcentaje de empleados que reciben por semana mas de $260.00, pero

menos de $300.00.

Page 51: Principal g

2.8 Ejercicios 51

Salarios Numero de empleados

$ 250.00-259.99 8

260.00-269.99 10

270.00-279.99 16

280.00-289.99 14

290.00-299.99 10

300.00-309.99 5

310.00-319.99 2

Total 65

Tabla 2.9: Distribucion de frecuencia de salarios semanales.

5. Como control de la etica publicitaria se requiere que el rendimiento, en mi-

llas por galon de gasolina, que los fabricantes de automoviles usan con fines

publicitarios, este basado en un buen numero de pruebas efectuadas en diver-

sas condiciones. Al tomar una muestra de n = 50 automoviles se registran las

siguientes observaciones en millas por galon:

27.9 29.3 31.8 22.5 34.2 33.5 30.5 30.6 35.1 28.6

34.2 32.7 26.5 26.4 31.6 30.1 30.3 29.6 31.4 32.4

35.6 31.0 28.0 33.7 32.0 28.7 30.4 31.3 32.7 30.3

28.5 27.5 29.8 31.2 28.7 30.5 31.3 24.9 26.8 29.9

30.0 28.7 33.2 30.5 27.9 31.2 29.5 28.7 23.0 30.1

Construya un histograma de frecuencias relativas usando 5 intervalos de

clase de la misma longitud.

Los fabricantes afirman que su automovil esta disenado para rendir al

menos 30 millas por galon. ¿Que porcentaje de autos en la muestra produce

este rendimiento?.

Page 52: Principal g

52 Estadıstica descriptiva

6. Las calificaciones finales en matematicas de 80 estudiantes universitarios son las

siguientes:

68 84 75 82 68 90 62 88 76 93

73 79 88 73 60 93 71 59 85 75

61 65 75 87 74 62 95 78 63 72

66 78 82 75 94 77 69 74 68 60

96 78 89 61 75 95 60 79 83 71

79 62 67 97 78 85 76 65 71 75

65 80 73 57 88 78 62 76 53 74

86 67 73 81 72 63 76 75 85 77

Encuentre:

La calificacion mas alta.

La calificacion mas baja.

El rango.

Las cinco calificaciones mas altas.

Las cinco calificaciones mas bajas.

La calificacion del alumno que obtuvo el decimo lugar mas alto.

El numero de estudiantes con calificaciones de 75 o mas.

El numero de estudiantes con calificaciones menores que 85.

El porcentaje de estudiantes con calificaciones mayores que 65, pero menores

a 85.

7. La tabla 2.10 muestra la distribucion de frecuencias del numero semanal de mi-

nutos que pasan viendo la television 400 estudiantes de secundaria. Determine:

El lımite superior de la quinta clase.

El lımite inferior de la octava clase.

La marca de la septima clase.

Page 53: Principal g

2.8 Ejercicios 53

Los lımites reales de la ultima clase.

El tamano de los intervalos de clase.

La frecuencia de la cuarta clase.

La frecuencia relativa de la sexta clase.

El porcentaje de estudiantes cuyo tiempo semanal de ver la television no

excede de 600 minutos.

El porcentaje de estudiantes cuyo tiempo semanal de ver la television es

mayor o igual de 900 minutos.

El porcentaje de estudiantes cuyo tiempo de ver la television es mayor de

500 minutos, pero menor que 1000 minutos.

Construir un histograma de frecuencias correpondiente a la distribucion de

la tabla 2.10.

Tiempo de ver TV (min.) Num. de estudiantes

300-399 14

400-499 46

500-599 58

600-699 76

700-799 68

800-899 62

900-999 48

1000-1099 22

1100-1199 6

Tabla 2.10: Distribucion de frecuencia.

8. Con la siguiente lista de numeros realiza la tabla de distribucion de frecuencias,

Page 54: Principal g

54 Estadıstica descriptiva

calcula las medidas de tendencia central y las medidas de dispersion.

3.32 3.98 3.23 3.07 3.04 3.85 3.59

3.42 3.89 3.40 3.15 3.49 3.61 3.41

3.05 3.81 3.39 3.54 3.28 3.84 3.34

3.49 3.74 3.00 3.10 3.76 3.71 3.29

9. Con la siguiente lista de numeros realiza la tabla de distribucion de frecuencias,

calcula las medidas de tendencia central y las medidas de dispersion.

4.32 3.26 4.18 5.21 4.26 8.25

5.16 5.20 4.98 4.48 3.58 4.32

4.96 5.27 4.16 4.29 4.56 5.36

6.28 3.96 5.44 5.36 4.84 5.36

4.72 4.12 5.13 5.65 4.16 5.17

10. Con la siguiente lista de numeros realiza la tabla de distribucion de frecuencias,

calcula las medidas de tendencia central y las medidas de dispersion.

52 63 92 92 83 74 66

98 68 81 88 77 41 60

46 77 81 82 84 70 76

79 98 82 81 87 70 78

79 88 77 84 70 61 80

78 76 66 77 78 67

11. Calcule la media, la mediana y la moda para cada una de las muestras siguientes:

a) 3, 9, 12, 7, 16, 20, 33, 3

b) 5, 7, 22, 17, 5, 7, 20

c) 8, 6, 0, 17, 12, 7, 5

d) −4, 0, 13, 9, 4, 14, 20, 15

Page 55: Principal g

2.8 Ejercicios 55

12. Calcule la media, la mediana y la moda para cada una de las muestras siguientes:

a) 0, 0, 1, 1, 1, 0, 0, 0

b) 3, 3, 3, 2, 2, 2, 4, 5, 3

c) 0, 1, 1, 2, 2, 3, 3, 4, 4

d) −1, 0, 0, 0,−1, 2,−2, 3

13. Un instructor borra accidentalmente la calificacion de uno de sus 6 estudiantes;

las 5 calificaciones restantes son 76, 85, 43, 89 y 65, y la media de las seis es 70.

Encuentre la calificacion que se borro.

14. En un esfuerzo por reducir su consumo de cafe, un trabajador de oficina registra

los numeros siguientes de tazas de cafe consumidas durante un periodo de 20

dıas:4 5 3 6 7 1 2 3 0 5

6 5 8 4 0 2 3 7 5 6

¿Que medida de tendencia central le servira mejor a su proposito?¿Cual es el

valor numerico?.

15. A continuacion hay una coleccion de calificaciones del examen de Estadıstica

de 25 estudiantes, en un examen de 50 preguntas

38 39 33 37 34 31 38 36 35 5

¿Cual medida de tendencia central es mas util para describir el valor cen-

tral?¿Cual es su valor numerico?.

16. En una investigacion realizada por la secretaria de un medico para averiguar los

tiempos de espera en minutos de los pacientes que acuden con el doctor, una

muestra de pacientes de un dıa arrojo los resultados:

35 25 35 50 25 55 30 50 35 35

5 5 60 35 30 30 25 55 30 20

60 25 25 40 80 20 20 5 5 10

Page 56: Principal g

56 Estadıstica descriptiva

a) Describa un tiempo tıpico de espera usando la media.

b) Describa un tiempo tıpico de espera usando la mediana.

c) ¿Cual medida, media o mediana, considera usted que es mas representativa

del conjunto de datos? Explique.

17. La tabla siguiente contiene los salarios en cientos de dolares de 25 trabajadores.

Salario anual Frecuencia

55 7

60 5

70 6

80 4

300 3

a) ¿Cual es la moda?

b) ¿Cual es la media?

c) ¿Cual es la mediana?

18. Se escogio una muestra de 705 conductores de autobus y se registro en la tabla

siguiente el numero de accidentes de transito que tuvieron durante 4 anos.

Numero de accidentes Frecuencia Numero de accidentes Frecuencia

0 114 6 21

1 157 7 7

2 158 8 6

3 115 9 1

4 78 10 3

5 44 11 1

Page 57: Principal g

2.8 Ejercicios 57

a) ¿Cual es la moda?

b) Senale la media, la mediana.

c) ¿Cual es el rango?

19. La tabla siguiente da una muestra de los tiempos de recorrido, en minutos, de

un camino de 2.5 millas para dos coches, A y B.

A 1.0 0.9 1.0 0.8 0.9 1.0 0.9 1.0

B 1.3 1.3 1.0 0.9 1.1 0.9 1.4 1.3

a) Encuentre el promedio de los tiempos de recorrido para cada uno de los

coches, A y B.

b) Calcule la varianza de los tiempos de recorrido para A y B, respectivamente.

c) ¿Cual coche tuvo un tiempo promedio menor de recorrido?

d) ¿Que coche tuvo un desempeno mas consistente, si la consistencia se mide

por la varianza?

20. La tabla adjunta indica los salarios anuales, en dolares, para una muestra de 25

trabajadores.

Salario anual Frecuencia

$5,500 7

6,000 5

7,000 6

8,000 4

30,000 3

Encuentre el rango, la media, la desviacion estandar.

Page 58: Principal g

58 Estadıstica descriptiva

21. Una gran lecherıa vigila continuamente el nivel de contenido graso en su produc-

to; el porcentaje de grasa no debe desviarse mucho del 2 % de la leche, siendo

aceptable una desviacion estandar del 10 %; se obtuvo una muestra de 20 car-

tones de leche y se registro el porcentaje de grasa en cada uno. Los resultados

se anotan a continuacion.

1.85 2.25 2.01 1.90 1.97

1.80 2.05 2.23 1.65 1.86

2.02 2.09 2.04 2.07 2.14

1.93 2.08 2.17 1.91 1.93

Calcule la media y la desviacion estandar para la muestra de contenidos de grasa.

¿Hay evidencia de que el contenido de grasa es demasiado alto? Explique.

22. La tabla de frecuencias agrupadas exhibe las edades de una muestra de 36

personas asistentes a una pelıcula para adultos.

Clase F

8-13 2

14-19 7

20-25 13

26-31 5

32-37 9

Encuentre la media, mediana, moda, varianza y desviacion estandar.

23. La tabla de frecuencia agrupada adjunta indica las edades de compradores de

coches nuevos en una gran distribuidora.

Page 59: Principal g

2.8 Ejercicios 59

Clase de edades F

28-32 20

33-37 23

38-42 71

43-47 45

48-52 26

Encuentre la edad media, mediana, moda, varianza y desviacion estandar.

Page 60: Principal g

60 Estadıstica descriptiva

Autoevaluacion

Nombre:

1. Define Estadıstica.

2. ¿Cual es la diferencia entre una poblacion y una muestra?.

3. ¿Cual es la diferencia entre las variables discretas y continuas?. De un ejemplo

de cada una.

4. ¿Que es la estadıstica y para que la estudiamos?

5. ¿Cual es la diferencia entre una variable cualitativa y una cuantitativa?. De dos

ejemplos de cada una.

En los siguientes elige la respuesta correcta y subraya.

6. Es una ciencia que analiza series de datos y trata de extraer conclusiones sobre

el comportamiento de estas variables.

a) La estadıstica descriptiva b) La estadıstica inferencial c) El muestreo

7. Es la representacion estructurada, en forma de tabla, de toda la informacion

que se ha recogido sobre la variable que se estudia.

a) La distribucion de frecuencia b) La muestra c) La estadıstica descriptiva

8. Son las medidas que nos informan sobre los valores medios de la serie de datos.

a) Las MTC b) Las MD c) Las variables.

9. Son las medidas que estudian la distribucion de los valores de la serie, analizando

si estos se encuentran mas o menos concentrados, o mas o menos dispersos.

a) Las MTC b) Las MD c) Las variables.

10. Es el valor medio ponderado de la serie de datos.

a) La media b) La mediana c) La moda

Page 61: Principal g

2.8 Ejercicios 61

11. Es el valor de la serie de datos que se situa justamente en el centro de la muestra.

a) La media b) La mediana c) La moda

12. Mide la distancia existente entre los valores de la serie y la media. Se calcula

como sumatoria de las diferencias al cuadrado de cada valor y la media, mul-

tiplicadas por el numero de veces que se ha repetido cada valor. La sumatoria

obtenida se divide por el tamano de la muestra.

a) La varianza b) La desviacion media c) La desviacion estandar

13. Calcule la media, mediana y moda para cada uno de los siguientes:

a) 12 15 23 7 12 40 22 16

14. La tabla siguiente contiene los salarios en cientos de pesos, de 25 trabajadores.

Salario anual 55 60 70 80 300

Frecuencia 7 5 6 4 3

a)¿Cual es la media?, b)¿Cual es la moda?, c)¿Cual es la mediana?, d)¿Que

medida de tendencia central usarıa para determinar el valor central?. Explique.

15. Se inspeccionaron 15 radios antes de enviarlos para su venta. El numero de

defectos por radio es: 1, 0, 3, 4, 2, 1, 0, 3, 1, 2, 0, 1, 1, 0, 1. Obtenga: x, Me y Mo

para el numero de defectos.

16. La generacion de energıa resulta costosa para el gobierno federal. Con el fin de

ahorrar por ese concepto, se han propuesto diferentes estrategias, entre ellas

destacan los mensages a la poblacion para que economicen energıa apagando

los focos que no esten utilizando o cambiando los focos convencionales por aho-

rradores. Entre las medidas adoptadas por los gobiernos esta el uso del horario

de verano. Para contar con una idea mas clara sobre el consumo de energıa en

los hogares, se requiere de la informacion correspondiente. Para obtenerla, se

pidio a un grupo de 40 alumnos que cada uno de ellos llevara a la clase su ultimo

Page 62: Principal g

62 Estadıstica descriptiva

recibo de luz. En la facturacion aparece el consumo en KWh. A continuacion

se muestran los 40 consumos:

299 308 335 330 317 330 327 346 315 320 301 312 320 334

319 314 309 326 314 311 322 325 300 322 312 307 311

322 298 308 312 336 314 312 328 305 315 301 327 324

a) Hacer una tabla de distribucion de frecuencias usando 8 clases.

b) Trazar un histograma de Fr, un polıgono de frecuencias y de acuerdo a

estos dos ultimos, diga en cuantos hogares se consumen menos de 310

KWh y a que porcentaje corresponde. Senale estos datos en las graficas

correspondientes.

17. Considere la tabla de frecuencia agrupada siguiente:

Clases F

4.5-9.4 2

9.5-14.4 3

14.5-19.4 4

19.5-24.4 1

24.5-29.4 8

a) Encuentre la amplitud C de cada clase.

b) Las 5 marcas de clase.

c) Localice las fronteras reales para la primera clase.

d) ¿Que porcentaje hay de datos mayores que 19.45?.

e) ¿Y de los datos menores de 24.5?.

f) ¿Que tanto por ciento cae en la clase 14.5− 19.4?.

Page 63: Principal g

2.8 Ejercicios 63

18. Se realizo un experimento para determinar el efecto de un cierto

farmaco en los niveles de colesterol en la sangre, enmg

100 ml, en hom-

bres de 30 anos. Se obtuvieron las siguientes medidas:

245 185 230 225 265 210 235 145 195 215

245 165 195 170 205 225 190 220 210 195

160 240 285 175 260 225 120 185 140

a) Hacer una distribucion de frecuencias con 10 clases

b) Trazar un histograma de Fr.

19. Los datos que a continuacion se exhiben representan las razones de

costo beneficio para 25 distintos tipos de acciones de mercado de

valores.

20.5 15.4 16.9 13.4 8.8 19.5 12.7 7.8 14.3 22.1 15.6 5.4 23.3

19.2 20.8 24.1 17.0 11.8 9.2 12.6 9.9 28.6 18.4 16.8 15.9

a) Construya un histograma de frecuencias relativas para describir estos datos.

b) ¿Que proporcion de las acciones tienen tasas de costo-beneficio de 17.0 o

mayores?.

Page 64: Principal g

Capıtulo 3

Muestreo

3.1. Introduccion

En multitud de ambitos de la vida real es evidente que la mejor forma de aprender

algo es a partir de la experiencia. Eso quiere decir que solemos utilizar aquello que

vemos para aprender pautas y conductas que luego generalizamos. En Estadıstica

pasa algo muy similar: necesitamos basarnos en muestras de una variable para poder

aprender de ellas y generalizar, inferir, aspectos referentes a las muestras a toda la

poblacion. Sin embargo, como en la vida real, en Estadıstica tambien debemos ser muy

cuidadosos con los datos sobre los que basamos nuestro aprendizaje. ¿Que pasarıa si

basamos nuestro aprendizaje en experiencias incorrectas o poco significativas? Para

que esto no ocurra debemos basarnos en muestras donde todos los individuos de la

poblacion puedan verse representados. Por otra parte, es evidente que cuanto mayores

sean las muestras mas fiables deberıan ser nuestras inferencias.

Ahora bien, el principal objetivo de la estadıstica es hacer inferencias acerca de una

poblacion con base en la informacion contenida en una parte o muestra de ello. El ob-

jetivo principal de un diseno de muestreo es proporcionar indicaciones para la seleccion

de una muestra que sea representativa de la poblacion bajo estudio, proporcionando

ası una cantidad especificada de informacion a un costo mınimo.

Los terminos usados frecuentemente en inferencia son:

Page 65: Principal g

3.1 Introduccion 65

1) Parametros de una poblacion: Un parametro es una medida usada para describir

algunas caracterısticas de una poblacion de estudio o variable especıfica de una

poblacion de estudio. Por ejemplo,

El ingreso promedio de las familias que habitan en Tabasco.

El porcentaje de mujeres que hay en una ciudad.

El numero de familias con vehıculos.

El porcentaje de personas diabeticas.

2) Estadısticos: Son las medidas usadas para describir algunas caracterısticas de la

muestra tal como la media, mediana o desviacion estandar de una muestra.

3) Poblacion de estudio: Es el conjunto universal de elementos que tienen en comun

la variable de interes (parametro) para el estudio. Dependiendo del parametro

que se quiere investigar se determina la poblacion de estudio. Si la poblacion

de estudio es uniforme en las caracterısticas que seran medidas, entonces casi

cualquier muestra produce resultados aceptables.

Por ejemplo, una agencia para la proteccion del medio ambiente basa su diag-

nostico de la calidad del agua de una ciudad en el analisis de algunos litros de

agua. Esto es posible debido a que se supone que una gota de agua contiene

aproximadamente la misma cantidad de impurezas que otra.

Las poblaciones de estudio se clasifican en homogenea y heterogenea.

PEHo: Los datos numericos de los elementos de la poblacion no estan muy

dispersos, es decir, los datos son parecidos.

PEHe: Es el conjunto universal de elementos cuyos datos con respecto a una

variable auxiliar numerica estan muy dispersos. Por ejemplo:

La poblacion de predios agrıcolas.

El ingreso economico de las familias de la ciudad.

Page 66: Principal g

66 Muestreo

El numero de empleados de un centro de trabajo.

Hay dos formas de generar informacion estadıstica

1) Censo: Es un inventario (o registro) de todos y cada uno de las unidades (elemen-

tos) que constituyen una poblacion.

2) Muestreo: Es un metodo probabilıstico que consiste en investigar una porcion de

la poblacion de estudio.

Se podrıa pensar que la unica forma de garantizar que un conjunto de datos represente

a la poblacion es a traves del censo pues se registra a cada elemento de la poblacion.

Entonces ¿porque llevar a cabo investigaciones muestrales en lugar de censos comple-

tos?.

3.2. Muestra y censo

3.2.1. Ventajas y desventajas del censo

Ventajas

Se obtiene informacion completa de todos los parametros posibles que se deseen

conocer, es decir, los parametros son ilimitados.

Muy util cuando se tiene poblaciones pequenas

Si existe mucha variabilidad entre los elementos de la poblacion, puede ser

necesario considerar una muestra muy grande para obtener una que sea repre-

sentativa. Si la poblacion no es mas grande que la muestra, entonces es mejor

un censo.

Si se requiere exactitud completa.

Ejemplo 3.2.1. Un gerente bancario no tomara una muestra al azar del dinero

en las cajas para saber de cuanto efectivo dispone el banco, sino que contarıa

Page 67: Principal g

3.2 Muestra y censo 67

todo el dinero depositado en ellas. Esto no hace que no se cometan errores

y fallas aritmeticas al sumar las cantidades, pero evita los problemas que se

presentarıan si se tomara alguna caja como representativas de todas las demas.

Desventajas

Es muy costoso.

Los resultados finales se tienen a largo plazo. Por esta razon la informacion

estadıstica ya no es oportuna para la toma de desiciones adecuada.

No se puede contar con un equipo de trabajo altamente capacitado porque en

el participan miles de personas.

No se puede conocer la dimension del error que se comete en los registros de los

datos.

Es imposible hacer una supervision a un alto porcentaje de las unidades o

elementos censados.

La poblacion es infinita. En este caso es imposible efectuar un censo ya que

es un proceso que no termina y serıa evidentemente imposible examinar cada

elemento de la poblacion.

3.2.2. Ventajas y desventajas del muestreo

Ventajas

Resultados a corto plazo lo cual es oportuno para la toma de desiciones.

Ejemplo 3.2.2. En el tiempo que se necesita para examinar cada caja de un

cargamento de fresas frescas, la fruta se podrıa deteriorar hasta el punto que no

pudiera venderse.

Ejemplo 3.2.3. Encuestar personas de una gran comunidad para descubrir el

porcentaje de individuos que contrajeron cierta enfermedad contagiosa puede

Page 68: Principal g

68 Muestreo

tardarse tanto que, cuando se obtengan los resultados y se tomen las medidas de

sanidad convenientes, el padecimiento puede haberse extendido en tal grado que

serıa necesario tomar otras disposiciones. De hecho, los encuestadores pueden

ser un factor que contribuya a la propagacion de la enfermedad. Ası, el estudio

puede indicar que localmente se dispone de suficiente vacuna para hacer frente

a la enfermedad pero, para ese momento, esta se encontrara fuera de control y

requerira dosis masivas de la vacuna.

Investigacion practica y a bajo costo

Como el numero de los participantes es pequeno se puede contar con un equipo

altamente capacitado.

Se puede controlar el error que se comete en el registro de datos.

Alto porcentaje de investigacion.

Si el tamano de la muestra es mas pequeno que la poblacion, entonces se pueden

extraer dos muestras o mas.

Pueden intervenir ensayos destructivos.

Ejemplo 3.2.4. Cuando los datos se obtienen de la destruccion de los elementos

de la muestra, el muestreo es mas eficiente que un censo.

En control de calidad por ejemplo, la prueba de bombillas para flash es de tipo

destructivo. En este caso es indispensable el muestreo porque un censo destruirıa

todos los elementos de la poblacion y no habrıa artıculos para la venta.

Exactitud cuando la poblacion es grande. El muestreo comprende menos obser-

vaciones, y por lo tanto, menos recopiladores de datos, lo que puede dar lugar

a mayor uniformidad en los metodos de recopilacion.

Desventajas

Solo se puede conocer un numero limitado de parametros.

Page 69: Principal g

3.2 Muestra y censo 69

En ocasiones no se cuenta con una poblacion completa de los elementos de

estudio.

Si se requiere de exactitud completa no es muy util.

Para que las conclusiones de la teorıa del muestreo sean validas es necesario que las

muestras sean representativas y que se satisfaga:

El tamano de la muestra sea suficientemente grande.

La muestra debe ser seleccionada aleatoriamente. Es decir, cada miembro de la

poblacion debe tener la misma posibilidad de ser elegido.

Una muestra aleatoria se selecciona de forma que toda combinacion de n mediciones

de la poblacion tenga la misma posibilidad de ser seleccionada.

Una tecnica de obtencion de una muestra aleatoria es la asignacion de numeros a tro-

zos de papel, colocarlos en una urna y despues sacar numeros de dicha urna teniendo

cuidado de mezclar bien antes de cada extraccion.

Tipo de seleccion de los elementos de una muestra

1) Con reemplazo: Consiste en que una vez que se ha seleccionado de manera aleatoria

un elemento, esta se regresa a la poblacion. Se observa que un elemento en comun

puede ser seleccionado mas de una vez para la muestra y es posible que un solo

elemento contribuya a la muestra.

Ejemplo 3.2.5. Un numero en una urna, existe la opcion de reponer o no el

numero en la urna antes de la segunda extraccion. En esta caso el numero

puede salir una y otra vez.

Poblacion de estudio de tamano N .

1ra 2da 3ra 4ta · · · (n− 1) n1

N

1

N

1

N

1

N· · · 1

N

1

N

Page 70: Principal g

70 Muestreo

Entonces, la posibilidad de seleccionar aleatoriamente n elementos con reem-

plazo de una poblacion de estudio de tamano N es

(1

N

)n

=1

Nn.

2) Sin reemplazo: Los elementos que se seleccionan sin reemplazo de una poblacion

de estudio consiste en que una vez que se mide un elemento esta ya no se regresa

al conjunto.

Ejemplo 3.2.6. En el caso de la urna, el numero solo sale una vez.

1ra 2da 3ra 4ta · · · (n− 1)1

N

1

N − 1

1

N − 2

1

N − 3· · · 1

N − (n− 1)

Las poblaciones son finitas o infinitas. Si el muestreo es sin reemplazo entonces es

de poblacion finita, pues el conjunto disminuye y la probabilidad de seleccion del

siguiente elemento aumenta. Si es con reemplazo teoricamente puede considerarse

como muestreo de poblacion infinita ya que es posible extraer cualquier numero de

muestras sin extinguir la poblacion.

Ejemplos de poblacion infinita son: la produccion futura de una maquina, tiradas

de una moneda y dados no cargados. Ejemplos de procesos aleatorios son: llegadas

de autos a una caseta de cobro, llamadas telefonicas que se reciben en un enorme

conmutador, los clientes en las cajas de los supermercados.

Otra forma de seleccionar una muestra aleatoria es mediante una tabla de numeros

aleatorios.

3.3. Tabla de numeros aleatorios

En esta seccion se describira la forma de llevar a cabo una encuesta por muestreo con

base en una muestra aleatoria simple.

Definicion 3.3.1. Al seleccionar una muestra de n mediciones de una poblacion

finita de N mediciones, si el muestreo se lleva a cabo de forma que todas las muestras

Page 71: Principal g

3.3 Tabla de numeros aleatorios 71

posibles de tamano n tengan la misma probabilidad de ser seleccionadas, el muestreo

se llama aleatorio y el resultado es una muestra aleatoria simple.

En la practica es muy difıcil lograr un muestreo aleatorio perfecto. Si la poblacion no

es muy grande, cada una de las N mediciones se puede anotar en un pedazo de papel

que se coloca en una urna. Posteriormente se extrae de la urna una muestra aleatoria

de n mediciones.

La mejor manera de estar seguros de efectuar un muestreo aleatorio es usar una

tabla de numeros aleatorios. Las tablas de numeros aleatorios contienen los 10 dıgi-

tos 0, 1, 2, . . . , 7, 8, 9. Tales dıgitos se pueden leer individualmente o en grupos y en

cualquier orden, en columnas hacia abajo, columnas hacia arriba, en fila, diagonal-

mente, etc., y es posible considerarlos como aleatorios. Las tablas se caracterizan por

dos cosas que las hacen particularmente utiles para el muestreo al azar. Una carac-

terıstica es que los dıgitos estan ordenados de tal manera que la probabilidad de que

aparezca cualquiera en un punto dado de una secuencia es igual a la probabilidad

de que ocurra cualquier otro. La otra es que las combinaciones de dıgitos tienen la

misma probabilidad de ocurrir que las otras combinaciones de un numero igual de

dıgitos.

En el siguiente ejemplo se ilustra el uso de una tabla de numeros aleatorios.

Ejemplo 3.3.1. Para las empresas es sumamente inportante tener una administracion

adecuada de los flujos de efectivo para presupuestar y controlar en forma eficiente

sus recursos presentes y futuros. Cuando los flujos de efectivos son altos, la empresa

puede adquirir inventarios y bienes de capital en forma inmediata, aprovechando las

rebajas de precio que ofrecen los proveedores. Cuando hay escasez de efectivo, no es

posible comprar al contado y es necesario pagar mas por bienes y servicios.

Una de las mejores maneras de medir la situacion de una companıa de ventas al

menudeo, en lo que se refiere a efectivo, es a traves de las cuentas por cobrar a corto

plazo que tiene la empresa. Al analizar la situacion de una tienda, una firma de con-

tadores decide seleccionar una muestra aleatoria simple de n = 15 cuentas mensuales

Page 72: Principal g

72 Muestreo

por cobrar de la N = 1000 cuentas de la tienda, para estimar la cantidad total venci-

da en todas las cuentas por cobrar. Se sabe que para obtener una muestra aleatoria

simple se requiere que todas las muestras posibles de n = 15 cuentas tengan la misma

probabilidad de ser seleccionadas. Usando la tabla 3.1, se determinara cuales son las

cuentas que seran incluidas en la muestra de tamano n = 15.

Solucion:

Se puede pensar que las N = 1000 cuentas por cobrar estan numeradas como sigue:

001, 002, . . . , 999, 000. Es decir, se tienen 1000 numeros de tres dıgitos, donde 001

representa la primera cuenta, 999 la cuenta numero 999 y 000 la cuenta numero mil.

En la tabla 3.1 se elige un punto de partida arbitrario. Si el punto de partida es el

primer numero de la quinta columna y se eliminan el ultimos dıgito de cada numero

de cuatro, se vera que el primer numero de tres dıgitos que se obtiene es el 700, el

segundo 110, en tercero el 40, etc. Si un numero aleatorio ocurre dos veces, se omite

la segunda ocurrencia y se selecciona otro numero aleatorio para reemplazarlo. Al

tomar una muestra aleatoria que consista en los primeros 15 numeros de tres dıgitos

no repetidos de la columna 5, se obtienen los siguientes numeros:

700 078 761

110 795 545

040 513 506

995 250 034

915 957 624

Si las cuentas por cobrar estan numeradas, simplemente se escogen aquellas cuyos

numeros corresponden a los de la lista anterior y se forma la muestra de n = 15 de

las N = 1000 cuentas por cobrar. Si las cuentas por cobrar no estan numeradas, se

toma una lista de ellas y se seleccionan aquellas cuyo orden coincide con los numeros

obtenidos anteriormente.

En el ejemplo 3.3.1, el tamano de la poblacion N = 1000 hizo posible el asociar en

forma unica cada elemento de la poblacion con un numero diferente de tres dıgitos.

Page 73: Principal g

3.3 Tabla de numeros aleatorios 73

¿Que se puede hacer si N = 964? Esta claro que se pueden asociar los numeros de

tres dıgitos 001, 002, . . . , 964 con los elementos de la poblacion. Los numeros de tres

dıgitos que restan, 965, 966, . . . , 999, 000. Deben ignorarse al seleccionar la muestra

de n numeros de tres dıgitos de la tabla de numeros al azar.

en ocasiones el experimentador usa su propio criterio para seleccionar una muestra

representativa o emplea procedimientos intuitivos para seleccionar la muestra en for-

ma “aleatoria”. Ambos procedimientos estan sujetos al sesgo del experimentador y

deben evitarse cuando se desea obtener una muestra aleatoria simple.

Page 74: Principal g

74 Muestreo

9869 8728 0368 4431 7002 5030 2227 0479 6343

6339 6518 5946 3213 1109 1313 3450 8522 0293

7643 4939 0996 4039 0400 4453 4430 3263 4107

3661 6244 3738 8889 9959 4514 1236 6241 2889

3802 6424 2819 2820 9158 1249 5365 9601 5421

7456 8278 4622 1342 0784 4285 1249 0238 8195

9015 9975 5045 7059 7958 9806 9754 5941 4796

9891 0292 2203 2661 5130 3766 4364 9713 2171

5943 4287 6682 0697 2509 6664 0303 1635 5072

0515 6671 9202 6750 9579 8805 9213 5242 9971

8222 6702 7366 2906 7615 8908 8480 0654 5960

5000 7560 0966 8264 5457 4426 4762 3986 0510

2590 8247 8506 5768 5069 2032 5654 7557 5502

0473 8236 0827 0574 0349 8170 1543 9000 7482

6937 2597 8681 2096 6247 1383 3437 2588 5284

5158 7530 5320 3511 7314 5708 2709 2387 6091

2310 0964 4722 7120 6271 5957 0280 4955 6849

1786 0971 5708 4059 9337 5967 3091 9742 1162

4308 6633 6767 9898 4654 8966 0897 8079 4353

6171 7594 6443 2396 4173 7014 8416 5544 6123

3868 6313 4085 4719 0566 7105 9903 7031 5643

9874 3122 7417 8464 7114 8828 8576 4743 9959

3173 8599 5281 6337 4298 8768 3089 8776 6610

7808 9715 0093 9837 0300 4042 5759 7071 5572

0131 2852 0015 2708 8486 0070 3609 9647 3977

4950 7115 2338 0984 0321 9763 8976 2102 7253

6071 5446 7233 4295 4168 0254 0279 1792 5917

Tabla 3.1: Tabla de numeros aleatorios.

Page 75: Principal g

3.4 Estimacion basada en una muestra aleatoria simple 75

3.4. Estimacion basada en una muestra aleatoria

simple

La seleccion de una muestra aleatoria simple, es el mas simple de los disenos de

encuestas, fue presentada en la seccion 3.3. Una vez recolectadas las observaciones

muestrales, el siguiente objetivo consiste en la estimacion de ciertos parametros pobla-

cionales de interes. Frecuentemente se tiene interes es estimar la media poblacional µ

o el total poblacional τ (letra griega tau). Por ejemplo, la firma de contabilidad del

ejemplo 3.3.1 podrıa estar interesada en el valor promedio de las cuentas por cobrar

y tambien en el valor total de las cuentas.

Las formulas de calculo para estimar la media poblacional µ y el total poblacional τ ,

basados en un muestreo aleatorio simple, se presentan mas adelante. Es importante

aclarar que una estimacion puntual, como µ y τ , no proporcionan informacion acerca

de la bondad de la estimacion. Por lo tanto, se dan las formulas de la varianza con el

proposito de establecer cotas para el error de estimacion de µ y τ .

Al usar muestreo aleatorio simple para estimar la media poblacional µ, se obtiene el

siguiente estimador:

Estimacion de la media poblacional para un muestreo aleatorio simple

Estimador

µ = y =n∑

i=1

yi

n(3.1)

Varianza estimada del estimador

σ2y =

(s2

n

)(N − n

N

)con s2 =

n∑i=1

(yi − y)2

n− 1(3.2)

Cotas para el error de estimacion

y ± 2σy (3.3)

Notese que la cantidad 2σy es una cota aproximada del error de estimacion y solo

implica que al menos el 75 %, y muy posiblemente el 95 %, de las estimaciones se

Page 76: Principal g

76 Muestreo

desviaran de la media en menos de 2σy. En el presente capıtulo se usara la cota de

dos desviaciones estandar para describir un intervalo de estimacion para µ y τ al usar

cada uno de los diferentes disenos de muestreo.

Al usar muestreo aleatorio simple para estimar el total poblacional τ , se obtiene el

siguiente estimador:

Estimacion del total poblacional para una muestra aleatoria simple

Estimador

τ = Ny (3.4)

Varianza estimada del estimador

σ2τ = N2σ2

y (3.5)

Cota para el error de estimacion

Ny ± 2στ (3.6)

Ejemplo 3.4.1. En la tabla 3.2 aparecen los saldos correspondientes a las cuentas de

una muestra de tamano n = 15 de la poblacion de cuentas por cobrar del ejemplo

3.3.1

$14.50 $23.40 $42.00

30.20 15.50 13.30

17.80 27.50 23.70

10.00 6.90 18.40

8.50 19.50 12.10

Tabla 3.2: Saldos de cuentas para el ejemplo 3.5.1

a) Estime el saldo promedio para las N = 1000 cuentas por cobrar de la tienda y

establezca una cota para el error de estimacion.

b) Estime el total τ de los saldos de todas las cuentas y establezca una cota para el

error de estimacion.

Page 77: Principal g

3.4 Estimacion basada en una muestra aleatoria simple 77

Solucion:

Para facilitar los calculos es conveniente escribir los datos como se muestran en la

siguiente tabla 3.3

yi y2i

$14.50 210.25

30.20 912.04

17.80 316.84

10.00 100.00

8.50 72.25

23.40 547.56

15.50 240.25

27.50 756.25

6.90 47.61

19.50 380.25

42.00 1764.00

13.30 176.89

23.70 561.69

18.40 338.56

12.10 146.4115∑i=1

yi = 283.3015∑i=1

y2i = 6570.85

Tabla 3.3: Saldos de cuentas para el ejemplo 3.5.1

a) La estimacion del saldo promedio µ es

y =

15∑i=1

yi

15=

283.30

15= $18.89

Page 78: Principal g

78 Muestreo

Para encontrar una cota para el error de estimacion de µ, es necesario calcular

s2 =

15∑i=1

(yi − y)2

14=

15∑i=1

y2i −

(15∑i=1

yi

)2

15

14

=1

14

[6570.85− (283.30)2

15

]=

1

14[6570.85− 5350.59] = 87.16

Por lo tanto, la varianza estimada de y es

σ2y =

(s2

n

)(N − n

N

)=

(87.16

15

)(1000− 15

1000

)= 5.72

Una estimacion del saldo promedio µ, con una cota para el error de estimacion,

es

y ± 2σy = $18.89± $4.78

b) Una estimacion del total de los saldos corresponde a

τ = Ny = 1, 000($18.89) = $18, 890

Dado que la varianza estimada de τ es σ2τ = N2σ2

y, una estimacion del total de

los saldos de las N = 1000 cuentas, con una cota para el error de estimacion,

corresponde a

τ ± 2στ = Ny ± 2Nσy = $18, 890± 2(1, 000)√

5.72

= $18, 890± $4, 783

En algunas investigaciones experimentales puede ser de interes estimar la propor-

cion de la poblacion que posee determinada caracterıstica. Un auditor podrıa estar

interesado en la proporcion de cuentas por cobrar atrasadas; un investigador de mer-

cados podrıa estar interesado en la proporcion del mercado que controla la empresa;

un ejecutivo corporativo puede estar interesado en la proporcion de accionistas que

esta a favor de una decision particular.

Page 79: Principal g

3.4 Estimacion basada en una muestra aleatoria simple 79

Estimacion de la proporcion poblacional para una muestra aleatoria simple

Estimador

p =y

n

Varianza estimada del estimador

σ2p =

(p q

n− 1

)(N − n

N

)con q = 1− p

Cotas para el error de estimacion

p± 2σp

En este caso y es el numero total de los elementos de la muestra que tienen determi-

nada caracterıstica por la cual se tiene interes.

Ejemplo 3.4.2. Es comun que las empresas manufactureras establezcan descuentos

durante periodos cortos de tiempo para convencer a sus clientes de que incrementen

y anticipen sus compras, mejorando ası la situacion de la empresa en lo que se refiere

a efectivo. Siguiendo la polıtica anterior un fabricante y distribuidor de alimentos

congelados pretende establecer un descuento del 20 % en el precio de sus productos

para aquellos compradores que dupliquen sus pedidos mensuales.

Dado que el almacenaje de los alimentos congelados es muy costoso, no se tiene

la seguridad de que los compradores esten interesados en la oferta de descuento.

Se tomo una muestra de n = 50 de los N = 430 clientes de la empresa y 15 de

los 50 clientes manifestaron que aceptarıan la oferta de descuento y duplicarıan sus

pedidos mensuales. Estime la proporcion p de los N = 430 clientes de la companıa

que aceptaron la oferta, y determine una cota para el error de estimacion.

Solucion:

Una estimacion de la proporcion p de los clientes de la empresa que aceptaron la

oferta de descuento es

p =y

n=

15

50= 0.30

Page 80: Principal g

80 Muestreo

Para establecer cota para el error de estimacion, es necesario calcular la varianza σ2p

σ2p =

(p q

n− 1

)(N − n

N

)=

[(0.30)(0.70)

49

](430− 50

430

)

=

(0.21

49

)(0.88) = 0.003771

Una estimacion de p, con una cota para el error de estimacion, corresponde a

p± 2σp = 0.30± 2√

0.003771 ≈ 0.30± 0.12

Es decir, se estima que la proporcion de los clientes de la empresa que aceptaran la

oferta de descuento es 0.30, con una cota para el error de estimacion de 0.12.

Ejercicios

1. En vista de la crisis energetica y del numero creciente de accidentes de carretera,

el Congreso de los Estados Unidos en 1974 aprobo una ley que establece un lımite

de velocidad de 55 mph en todas las carreteras del paıs. Desde entonces, se han

producido gran cantidad de discusiones sobre la aceptacion de esta medida por

parte del publico. Para estudiar este problema, la policıa de caminos del estado

de California decidio seleccionar aleatoriamente n = 25 vehıculos que viajaban

en un determinado tramo de una carretera interestatal y medir sus velocidades.

Se encontro que la velocidad promedio de los 25 vehıculos fue de 57.5 mph con

una desviacion estandar de 9.4 mph. Estime la velocidad promedio µ de los

vehıculos que viajan en esa carretera, y establezca una cota para el error de

estimacion.

2. Una agencia gubernamental ha propuesto que se esteblezca una reglamentacion

para permitir a las farmacias que hagan publicidad sobre los precios al menudeo

de las medicinas. Esta reglamentacion permitirıa la competencia de los medica-

mentos, permitiendo ası a los comunicadores obtener los mejores precios posi-

bles. Para establecer el grado de disparidad de los precios que diferentes far-

macias de determinada zona cobran por un medicamento de uso comun, se

Page 81: Principal g

3.5 Muestreo aleatorio estratificado 81

selecciono una muestra aleatoria de n = 20 farmacias de las N = 152 de la

zona. El precio de 100 tabletas del medicamento en las farmacias seleccionadas

aparece en la lista adjunta

$3.75 $4.10 $10.40 $7.50 $2.95

5.75 7.50 8.90 4.75 11.75

5.85 7.65 8.10 6.50 7.50

5.50 8.00 4.50 10.25 4.95

Estime el precio promedio µ que las 152 farmacias cobran por 100 tabletas del

medicamento, y establezca una cota para el error de estimacion.

3. Suponga que una organizacion de trabajadores textiles esta interesada en deter-

minar la proporcion de los N = 352 trabajadores de una fabrica textil que estan

satisfechos con las prestaciones que reciben en lo que se refiere a beneficios de

jubilacion y seguro. Usando una tabla de numeros aleatorios, un representante

de la organizacion selecciono n = 40 de los trabajadores y encontro que 23 de

ellos estan satisfechos con las prestaciones de seguro y jubilacion que la empresa

ofrece actualmente. Estime la proporcion p de los empleados de la empresa tex-

til que estan de acuerdo con las prestaciones que la empresa ofrece. Establezca

una cota para el error de estimacion.

3.5. Muestreo aleatorio estratificado

Un segundo tipo de diseno de muestreo, que frecuentemente proporciona una cantidad

especificada de informacion a menor costo que el muestreo aleatorio simple, es el

llamado muestreo aleatorio estratificado. Este diseno se recomienda cuando la

poblacion consiste en un conjunto de grupos heterogeneos (distintos).

Definicion 3.5.1. Una muestra aleatoria estratificada es una muestra aleatoria

que se obtiene separando los elementos de la poblacion en grupos disjuntos, llamados

estratos, y seleccionando una muestra aleatoria simple de cada estrato.

Page 82: Principal g

82 Muestreo

El muestreo aleatorio estratificado tiene tres ventajas importantes sobre el muestreo

aleatorio simple. Primera, frecuentemente el costo de recoleccion y el analisis de los

datos se reduce al estratificar en grupos cuyos elementos tienen caracterısticas simila-

res pero que difieren de un grupo a otro. Por ejemplo, en una encuesta de compradores

industriales es mas costoso obtener informacion de aquellos que estan en el extranjero

que de los nacionales. Se debe, por lo tanto, tomar muestras pequenas de los estratos

con altos costos de muestreo para satisfacer el objetivo de minimizar el costo total de

muestreo.

La segunda ventaja esta relacionada con la varianza del estimador de la media pobla-

cional. Usualmente esta varianza se reduce usando muestreo aleatorio estratificado,

debido a que la varianza dentro de los estratos es generalmente menor que la variabili-

dad de la poblacion. Por ejemplo, el consumo de energıa electrica es mas variable en el

caso de los consumidores industriales que en el de los consumidores residenciales. Por

lo tanto, si se desea estimar el consumo promedio de los usuarios de energıa electrica,

deben seleccionarse muestras mayores de los sectores industriales menos homogeneos

para obtener mejores estimadores de los parametros poblacionales.

La tercera ventaja es que se obtienen estimadores separados para los parametros de

cada estrato, sin necesidad de seleccionar otra muestra e incurrir en mayores gastos.

Por ejemplo, podrıa ser de mayor utilidad el conocer el consumo promedio de energıa

electrica de los usuarios industriales y de los usuarios residenciales de una ciudad,

que conocer unicamente el consumo promedio de todos los usuarios de esta ciudad.

El muestreo aleatorio estratificado permite analizar las diferencias entre estratos, de

manera que se pueden identificar mas facilmente aquellos grupos que requieren de

una mayor atencion.

En esta seccion se usara el procedimiento de afijacion proporcional, que parti-

ciona el tamano de la muestra en forma proporcional al tamano de los estratos. La

principal ventaja del uso de la afijacion proporcional es que se obtiene una muestra

“auto-ponderada ”, dado que la fraccion de muestreo es la misma en cada estrato.

Cuando es necesario obtener muchos estimadores se producen ahorros en los costos de

Page 83: Principal g

3.5 Muestreo aleatorio estratificado 83

muestreo. En los casos en los que el costo de muestreo y las varianzas difieren mucho

entre estratos, es preferible utilizar una afijacion optima que particione la muestra de

acuerdo con el costo, la variabilidad y el tamano de los estratos.

El primer paso en la seleccion de una muestra aleatoria estratificada consiste en la

especificacion clara y detallada de cada estrato, asociando a cada elemento de la

poblacion con uno y solo un estrato. En algunos casos esto no es tan sencillo. En una

encuesta de opinion, en la que la poblacion se divide en urbana y rural, ¿como deben

clasificarse las personas que viven en una unidad de 1000 habitantes?. En el ejemplo

sobre el consumo de energıa, ¿como debe clasificarse la residencia de un contador

cuya oficina esta en su propia casa?. La resolucion que se tome no afecta los resul-

tados siempre y cuando se tenga una polıtica consistente al respecto. Por ejemplo,

podrıa establecerse que las poblaciones de menos de 2500 habitantes se consideran

siempre como rurales, y las de mas de 2500 como urbanas; las unidades comerciales-

residenciales pueden clasificarse segun la actividad para la cual se ocupa una mayor

cantidad de espacio.

Una vez especificados los estratos, se puede usar el metodo de la seccion 3.3 para

seleccionar una muestra aleatoria en cada estrato. El tamano total de la muestra n

dependera del presupuesto disponible para el muestreo y de la presicion y exactitud

que se requieran del estimador. Usando afijacion proporcional, el tamano de muestra

n se particiona en un tamano de muestra para cada uno de los L estratos de forma que

n = n1 + n2 + · · ·+ nL, con cada ni dado por la formula que aparece a continuacion.

Afijacion de la muestra para los estratos

ni = n

(Ni

N

)i = 1, 2, . . . , L

donde Ni es el numero de elementos del estrato i y

N =L∑

i=1

Ni

Page 84: Principal g

84 Muestreo

es el tamano de la poblacion.

De la informacion obtenida de los elementos muestrales, se puede calcular la media

estimada yi y la varianza s2i para las observaciones de cada estrato, usando las formulas

que aparecen a continacion.

Estimacion de la media y la varianza de cada estrato

yi =

ni∑j=1

yij

ni

s2i =

ni∑j=1

(yij − yi)2

ni − 1i = 1, 2, . . . , L

donde yij es la j-esima observacion del estrato i.

La varianza s2i es un estimador de la correspondiente varianza del estrato σ2

i .

A continuacion se define el estimador yest de la media poblacional µ, basado en un

muestreo aleatorio estratificado.

Estimacion de la media poblacional para una muestra aleatoria estratifi-

cada

Estimador

yest =1

N

L∑i=1

Niyi

Varianza estimada del estimador

σ2yest

=1

N2

L∑i=1

N2i

(Ni − ni

Ni

)(s2

i

ni

)

Cotas para el error de estimacion

yest ± 2σyest

Page 85: Principal g

3.5 Muestreo aleatorio estratificado 85

Ejemplo 3.5.1. En el periodo de 1973 a 1975 hubo una rapida disminucion en el

numero de nuevas construcciones de viviendas en los Estados Unidos. La causa prin-

cipal de esta disminucion fue la escasez de fondos, en los bancos y otras instituciones

de ahorro, para prestamos hipotecarios. Para aumentar la disponibilidad de fondos

para prestamos hipotecarios, una gran companıa manufacturera instituyo polıticas

para convencer a sus empleados que inviertan regularmente parte de sus ingresos en

las instituciones locales de ahorro. Posteriormente, la companıa decidio llevar a cabo

un estudio de los habitos de ahorro de sus empleados para juzgar la efectividad de la

campana de ahorro de la empresa. Se desea estimar la cantidad promedio invertida

en ahorro por los empleados durante el ultimo mes. Proponga un diseno de encuesta

para este problema.

Solucion:

Los empleados de la empresa pueden clasificarse en tres grupos: oficinistas y obreros,

supervisores y gerentes, y ejecutivos de alto nivel. Una muestra aleatoria estratifica-

da, con L = 3 estratos, parece ser el diseno mas apropiado en este caso. Se espera

que en cada uno de los estratos, los habitos de consumo e inversion de los empleados

sean razonablemente homogeneos. En cada uno de los estratos se debe seleccionar

una muestra aleatoria simple para preguntar a los empleados acerca de la cantidad

invertida en ahorros durante el ultimo mes.

La companıa manufacturera emplea un total de 5000 personas, de las cuales 3500 son

oficinistas y obreros, 1000 son supervisores o gerentes, y 500 son ejecutivos. El depar-

tamento de investigacion tiene suficiente tiempo y dinero para entrevistar unicamente

n = 50 empleados. Usando una afijacion proporcional, se particiona la muestra como

sigue:

n1 = n

(N1

N

)= 50

(3500

5000

)= 35

n2 = n

(N2

N

)= 50

(1000

5000

)= 10 y n3 = n

(N3

N

)= 50

(500

5000

)= 5

El marco muestral esta constituido por una lista alfabetica de los empleados de ca-

da categorıa, disponible en la oficina de nominas. Empezando arbitrariamente en

Page 86: Principal g

86 Muestreo

la columna 4 de la tabla de numeros aleatorios 3.1, se seleccionan los primeros 35

numeros no repetidos de cuatro dıgitos entre 0000 y 3499 para identificar los oficinis-

tas y obreros que seran incluidos en la muestra. Por lo tanto, el primer elemento de la

muestra debe ser el oficinista u obrero que ocupa el lugar 3213 en el orden alfabetico,

el siguiente sera el que ocupa el lugar 2820, etc. En forma similar, se usan numeros

de tres dıgitos entre 000 y 999 para seleccionar la muestra de n2 = 10 capataces y

gerentes y numeros de tres dıgitos entre 001 y 500 para seleccionar n3 = 5 ejecutivos.

Una vez seleccionados los elementos muestrales (empleados), se procede con la entre-

vista. De las respuestas de los empleados, se calcula la media yi y la varianza s2i de

las observaciones de cada estrato. Los valores obtenidos aparecen en la tabla 3.4

Estrato 1 Estrato 2 Estrato 3

n1 = 35 n2 = 10 n3 = 5

y1 = $10.16 y2 = $25.50 y3 = $21.80

s21 = 16.81 s2

2 = 22.09 s23 = 125.44

N1 = 3500 N2 = 1000 N3 = 500

Tabla 3.4:

A partir de los datos de la tabla 3.4 se estima la inversion promedio en ahorros yest

como

yest =1

N

L∑i=1

Niyi =1

5000[(3500)(10.16) + (1000)(25.50) + (500)(21.80)]

=1

5000(71, 960) = $14.39

Por lo tanto, la cantidad promedio estimada que los empleados invirtieron en ahorros

es $14.39.

Page 87: Principal g

3.5 Muestreo aleatorio estratificado 87

La varianza estimada es

σ2yest

=1

N2

3∑i=1

N2i

(Ni − ni

Ni

)(s2

i

ni

)

=1

(5000)2

[(3500)2(0.99)(16.81)

35+

(1000)2(0.99)(22.09)

10+

(500)2(0.99)(125.44)

5

]

= 0.5688

La estimacion de los ahorros promedio, con una cota para el error de estimacion,

esta dada por

yest ± 2σyest = $14.39± 2√

0.5688 = $14.39± 2(0.75) = $14.39± $1.50

Si el objetivo de la encuesta es usar el muestreo aleatorio estratificado para estimar

el total poblacional τ , entonces el estimador es el siguiente.

Estimador del total poblacional para una muestra aleatoria estratificada

Estimador

τ = Nyest

Varianza estimada del estimador

σ2τ = N2σ2

yest

Cotas para el error de estimacion

τ ± 2στ

Ejemplo 3.5.2. En el ejercicio 3.5.1, estime el total invertido en ahorros, el ultimo

mes, por los empleados de la companıa manufacturera. Establezca una cota para el

error de estimacion.

Solucion:

De los calculos anteriores yest = $14.39. Por lo tanto, un estimador del total de ahorros

es

τ = Nyest = (5000)($14.39) = $71, 950

Page 88: Principal g

88 Muestreo

Para encontrar cotas para el error de estimacion de τ , se debe calcular la varianza

estimada σ2τ

σ2τ = N2σ2

yest= (5000)2(0.5688) = 14, 220, 000

La estimacion del total de ahorros, con una cota para el error de estimacion, esta dada

por

τ ± 2στ = $71, 950± 2√

14, 220, 000 = $71, 950± 2(3, 771)

= $71, 950± $7, 542

Po lo tanto, hay una certeza del 95 % de que la inversion total en ahorros de los

empleados esta contenida en el intervalo de $64, 410 a $79, 490.

Supongase que la empresa manufacturera esta interesada en estimar la proporcion

de empleados que invirtieron parte de los ingresos del ultimo mes en una cuenta de

ahorros. Usando los mismos estratos definidos anteriormente, el investigador puede

seleccionar una muestra aleatoria de cada estrato y encontrar la proporcion pi de

empleados en el estrato i que invirtieron parte de sus ingresos del ultimo mes en

cuentas de ahorros. Las proporciones muestrales de los estratos pueden combinarse

para producir un estimador de la proporcion poblacional.

Estimacion de la proporcion poblacional para una muestra aleatoria es-

tratificada

Estimador

pest =1

N

L∑i=1

Nipi

Varianza estimada del estimador

σ2pest

=1

N2

L∑i=1

N2i

(Ni − ni

Ni

)(piqi

ni − 1

)con qi = 1− pi

Cotas para el error de estimacion

pest ± 2σpest

Page 89: Principal g

3.5 Muestreo aleatorio estratificado 89

Ejemplo 3.5.3. De los n = 50 empleados entrevistados en el estudio sobre inversion

en ahorros, el numero de los que indicaron que habıan participado aparecen en la

siguiente tabla. Estime la proporcion de empleados que participaron en el programa

de ahorro, y establezca una cota para el error de estimacion.

Estrato Tamano de muestra Numero de participantes pi

1 n1 = 35 21 2135

= 0.60

2 n2 = 10 7 710

= 0.70

3 n3 = 5 4 45

= 0.80

Solucion:

La estimacion deseada esta dada por pest, de donde

pest =1

5000[(3500)(0.60) + (1000)(0.70) + (500)(0.80)] = 0.64

Para obtener la cota para el error de estimacion, es necesario calcular la varianza

estimada

σ2pest

=1

(5000)2

[(3500)2

(3500− 35

3500

)((0.6)(0.4)

34

)]

+1

(1000)2

[(1000)2

(1000− 10

1000

) ((0.7)(0.3)

9

)]

+1

(500)2

[(500)2

(500− 5

500

)((0.8)(0.2)

4

)]= 0.004744

La estimacion de la proporcion de empleados que participaron en el programa de

ahorros de la companıa manufacturera, con una cota para el error de estimacion,

esta dada por

pest ± 2σpest = 0.64± 2√

0.004744 = 0.64± 2(0.069) = 0.64± 0.14

Ejercicios

1. Las companıas manufactureras gastan enormes cantidades de dinero en el de-

sarrollo, promocion y mercadotecnia de nuevos productos. Sin embargo, la tasa

de exitos de los nuevos productos es mınima. La experiencia indica que menos

Page 90: Principal g

90 Muestreo

de uno de cada diez nuevos productos satisface los criterios de exito de las em-

presas. Uno de los procedimientos mas utiles para medir la aceptacion de un

nuevo producto consiste en su introduccion al mercado en una zona de ventas

representativa. Como un ejemplo, se considera el caso de una companıa fabri-

cante de implementos agrıcolas que esta interesada en introducir al mercado

un nuevo equipo para riego en tres zonas agrıcolas diferentes. Para probar la

aceptacion de los equipos de riego, se selecciono una muestra de 30 tiendas dis-

tribuidoras, localizadas en las tres zonas agrıcolas y se observo el numero de

equipos vendidos durante un periodo de 12 meses. Las 30 tiendas fueron selec-

cionadas usando un muestreo aleatorio estratificado con afijacion proporcional.

Los resultados aparecen en la siguiente tabla:

Zona 1 Zona 2 Zona 3

ni 9 6 15

yi 26 23 39

s2i 31.2 19.3 38.5

a) Estime el numero promedio µ de ventas para las 250 tiendas de las tres zonas

agrıcolas, y establezca una cota para el error de estimacion.

b) Estime el total de ventas que habrıa en las tres zonas agrıcolas, si el nuevo

equipo estuviera a la venta en las 250 tiendas. Establezca una cota para el

error de estimacion.

2. La insatisfaccion de los empleados en su trabajo puede causar un aumento de

costos a la empresa, debido a la baja calidad de la mano de obra y el aumento en

el ausentismo. En un estudio sobre el ausentismo, un gerente de personal estaba

interesado en determinar el numero de dıas laborales perdidos por ausencias de

los trabajadores de la empresa. Por razones de tipo administrativo, se uso un

muestreo aleatorio estratificado con afijacion proporcional para seleccionar una

muestra de n = 27 de los 2700 trabajadores de la empresa. Los estratos estaban

representados por obreros, tecnicos, y administradores empleados en la empresa.

Page 91: Principal g

3.5 Muestreo aleatorio estratificado 91

Los datos obtenidos del muestreo de 15 obreros, 10 tecnicos y 2 administradores

aparecen en la siguiente tabla:

Obreros Tecnicos Administradores

8 24 0 4 5 1

0 16 32 0 24 8

6 0 16 8 12

7 4 4 3 2

9 5 8 1 8

a) Estime el numero promedio µ de dıas perdidos por ausencias de los 2700

empleados de la empresa. Establezca una cota para el error de estimacion.

b) Estime el numero total de dıas perdidos por los empleados de la empresa.

Establezca una cota para el error de estimacion.

3. Generalmente, las cadenas de bancos procesan sus cuentas en una oficina cen-

tral regional, en lugar de hacerlo independientemente en cada sucursal. De

esta manera se logra un control mas eficiente de las actividades administra-

tivas de las sucursales. El gerente de credito de una cadena esta interesado

en conocer el volumen de cuentas atrasadas que tiene la organizacion. Para

reducir el costo de muestreo, se uso un muestreo estratificado en el que los es-

tratos estan constituidos por cada uno de los cuatro bancos. De los registros

que hay en su oficina, el gerente de credito decidio usar afijacion proporcional

para seleccionar la muestra aleatoria estratificada de n = 50 cuentas de un

total de N = 200. Los resultados obtenidos se muestran en la siguiente tabla:

Bancos

1 2 3 4

Numero total de cuentas por cobrar N1 = 56 N2 = 68 N3 = 40 N4 = 36

Tamano de muestra n1 = 14 n2 = 17 n3 = 10 n4 = 9

Numero de cuestas atrasadas y1 = 5 y2 = 7 y3 = 5 y4 = 1

Page 92: Principal g

92 Muestreo

a) Estime la proporcion p de cuentas atrasadas y establezca una cota para el

error de estimacion.

b) ¿Hay alguna razon para pensar que el gerente del banco 3 es demasiado

descuidado al autorizar prestamos a sus clientes?. Estime la proporcion p3

de cuentas atrasadas del banco 3 y establezca una cota para el error de

estimacion.

3.6. Muestreo por conglomerados

Frecuentemente es mas facil obtener muestras de conglomerados de elementos que

muestras de los elementos mismos.

Definicion 3.6.1. Una muestra por conglomerados se obtiene seleccionando

aleatoriamente un conjunto de m colecciones de elementos muestrales, llamados con-

glomerados, de la poblacion y posteriormente llevando a cabo un censo completo en

cada uno de los conglomerados.

El muestreo por conglomerados proporciona una cantidad especificada de informacion

a un costo mınimo cuando:

1. No existe una lista de todos los elementos de la poblacion o serıa muy costoso

obtenerla, o

2. la poblacion es grande y esta dispersa en una region muy extensa.

Como ilustracion, supongase que un economista desea estimar la cantidad promedio

empleada en comida por vivienda en una ciudad. Para usar muestreo aleatorio simple

o muestreo aleatorio estratificado, el economista debe tener una lista de todas las

viviendas para poder seleccionar la muestra. Sin embargo, obtener una lista de todas

las viviendas de una ciudad puede ser muy costoso y en algunos casos imposible. Aun

en el caso de tener la lista completa, los costos pueden ser sumamente altos porque,

al usar muestreo aleatorio simple o estratificado, las viviendas escogidas pueden estar

Page 93: Principal g

3.6 Muestreo por conglomerados 93

muy alejadas unas de otras. Como resultado de lo anterior, el costo de la encuesta

aumenta debido al tiempo de traslado de los entrevistadores y a otros gastos.

En lugar de seleccionar una muestra distribuida en toda la ciudad, el economista

podrıa usar el muestreo por conglomerados dividiendo la ciudad en conglomerados y

obteniendo despues una muestra aleatoria de estos. Esto debe poder efectuarse mas

facilmente pues es posible que exista una lista de los diferentes conglomerados. Debe

encuestarse cada una de las viviendas que esten en cada uno de los conglomerados es-

cogidos. El costo total de la encuesta disminuye dado que se ha eliminado la necesidad

de elaborar una lista de todas las viviendas y, dado que las viviendas que pertenecen

a un conglomerado pueden estar geograficamente cercanas, se reducen los gastos de

los entrevistadores.

El uso del muestreo por conglomerados produce normalmente una disminucion de

los costos, pero algunas veces es necesario pagar un precio. En ocasiones el error de

muestreo aumenta debido a que los elementos de un conglomerado tienden a tener

caracterısticas comunes. Por ejemplo, en encuestas de poblaciones humanas, los con-

glomerados son frecuentemente vecindarios, que son semejantes en lo que se refiere a

edad, ingreso, antecedentes etnicos y clase ocupacional. Por lo tanto, al seleccionar

aleatoriamente los conglomerados para la encuesta, se corre el riesgo de que algunas

clases socioeconomicas no esten representadas si no se incluyen sus vecindarios. Por

otra parte, otras clases pueden estar representadas en exceso.

Se puede reducir el error de muestreo seleccionando un mayor numero de conglome-

rados pequenos en lugar de unos cuantos conglomerados grandes. Entre mas pequeno

es el tamano de los conglomerados, menor es el riesgo de excluir ciertas clases de

elementos de la muestra. Por lo tanto, seleccionando un mayor numero de conglome-

rados de menor tamano se obtiene mayor informacion acerca de la poblacion.

Una vez especificados los conglomerados, es necesario contar con una lista de todos

ellos. Para seleccionar una muestra aleatoria de m conglomerados de los M de la

poblacion, se usa el muestreo aleatorio simple.

Al usar muestreo por conglomerados, la media poblacional µ se estima utilizando las

Page 94: Principal g

94 Muestreo

formulas que a continuacion se describiran.

Estimacion de la media poblacional en un muestreo por conglomerados

Estimador

µ = yc =

m∑i=1

ti

m∑i=1

ni

donde ni es el numero de elementos del i-esimo conglomerado y ti es el total de las

mediciones del conglomerado i.

Varianza estimada del estimador

σ2yc

=

(M −m

Mmn2

)

m∑i=1

(ti − ycni)2

m− 1

donde

n =1

m

m∑i=1

ni y t =1

m

m∑i=1

ti

Cotas para el error de estimacion

yc ± 2σyc

M es el numero de conglomerados en la poblacion y m es el numero de conglomerados

en la muestra.

Estimacion del total poblacional en un muestreo por conglomerados

Estimador

τ =M

m

m∑i=1

ti

Page 95: Principal g

3.6 Muestreo por conglomerados 95

Varianza estimada del estimador

σ2τ = M2

(M −m

Mm

)

m∑i=1

(ti − t)2

m− 1

Cotas para el error de estimacion

τ ± 2στ

Como se dijo anteriormente, ni es el numero de elementos de i-esimo conglomerado,

mientras que ti es el total de las mediciones que estan en el conglomerado i. Por lo

tanto

ti =

ni∑j=1

yij

donde yij es la j-esima observacion del conglomerado i. Los terminos n y t representan,

respectivamente, el tamano promedio y el total promedio de los conglomerados.

Ejemplo 3.6.1. El objetivo de la publicidad es aumentar las ventas o crear interes en

los productos de determinada companıa. Por lo tanto, en publicidad es esencial que los

anuncios aparezcan en los medios adecuados para que lleguen al publico consumidor.

Un agente de publicidad de una empresa que vende artıculos para el hogar, desea

estimar la cantidad mensual que gastan en revistas y periodicos las amas de casa de

una ciudad, para determinar si estas son suficientes para garantizar el uso de estos

medios en la publicidad. Dado que no existe una lista de amas de casa, y para controlar

los costos directos de las entrevistas, se usara el muestreo por conglomerados. De los

50 distritos electorales se selecciona una muestra aleatoria de 10. Los entrevistadores

encuestan a cada una de las amas de casa de los 10 distritos, y se registraran la

cantidad total que gastaron en revistas y perıodicos durante el ultimo mes.

Page 96: Principal g

96 Muestreo

Distrito Num. de amas Gastos tot. Distrito Num. de amas Gastos tot.

i de casa ni ti i de casa ni ti

1 62 $380 6 69 $403

2 55 517 7 58 555

3 49 480 8 74 486

4 71 613 9 57 450

5 70 540 10 54 395

Sumas10∑i=1

ni = 63010∑i=1

ti = $4819

a) Estime la cantidad promedio mensual que las amas de casa gastan en revistas y

periodicos, y establezca una cota para el error de estimacion.

b) Estime la cantidad total mensual que las amas de casa gastan en revistas y perio-

dicos, y establezca una cota para el error de estimacion.

Solucion:

a) La media poblacional µ se estima por

yc =

10∑i=1

ti

10∑i=1

ni

=$4819

630= $7.65

Para calcular σ2yc

se evalua primero el termino correspondiente a la suma de

cuadradosm∑

i=1

(ti − ycni)2

Se puede probar que

m∑i=1

(ti − ycni)2 =

m∑i=1

t2i − 2yc

m∑i=1

tini + y2c

m∑i=1

n2i

Page 97: Principal g

3.6 Muestreo por conglomerados 97

Tomando cada termino por separado, se tiene

10∑i=1

t2i = (380)2 + (517)2 + · · ·+ (395)2 = 2, 374, 613

10∑i=1

tini = (380)(62) + (517)(55) + · · ·+ (395)(65) = 304, 124

10∑i=1

n2i = (62)2 + (55)2 + · · ·+ (65)2 = 40, 286

Sustituyendo estos valores en la ecuacion de la suma de cuadrados, se tiene que

m∑i=1

(ti − ycni)2 = 2, 374, 613− 2(7.65)(304, 124) + (7.65)2(40, 286) = 79, 153.235

El tamano promedio del conglomerado es

n =1

m

m∑i=1

ni =1

10(630) = 63

Dado que el numero total de conglomerados en la poblacion es M = 50,

σ2yc

=

(M −m

Mmn2

)

m∑i=1

(ti − ycni)2

m− 1

=

(50− 10

(50)(10)(63)2

)(79, 153.235

9

)= 0.1773

Por lo tanto, una estimacion de µ, con una cota para el error de estimacion es

yc ± σyc = $7.65± 2√

0.1773 = $7.65± $0.84

b) Una estimacion de los gastos totales mensuales en revistas y periodicos es

τ =M

m

m∑i=1

ti =50

10($4, 819) = $24, 095

Page 98: Principal g

98 Muestreo

que no depende del tamano de la poblacion N .

Para establecer una cota superior para el error de estimacion, es necesario cal-

cular la expresion

m∑i=1

(ti − t)2 =m∑

i=1

t2i −1

m

(m∑

i=1

ti

)2

= 2, 374, 613− 1

10(4, 819)2 = 52, 336.90

La varianza estimada es

σ2τ =M2

(M −m

Mm

)

m∑i=1

(ti − t)2

m− 1

=(50)2

(50− 10

(50)(10)

)(52, 336.90

9

)= 1, 163, 042.222

La estimacion de los gastos totales en revistas y periodicos de las amas de casa,

de la ciudad, con una cota para el error de estimacion es

τ ± 2στ = $24, 095± 2√

1, 163, 042.222

= $24, 095± $2, 157

Frecuentemente, un experimentador desea usar el muestreo por conglomerados para

estimar una proporcion poblacional p. Por ejemplo, en una encuesta pre-electoral

puede ser deseable estimar la proporcion de habitantes de una comunidad que estan

a favor de determinadas medidas; o podrıa ser importante estimar la proporcion de

automoviles en una ciudad que satisfacen los requisitos en lo referente al control de

contaminacion, o la proporcion de miembros de una organizacion laboral que estan de

acuerdo con un nuevo ajuste salarial. Para estimar p cuando se usa el muestreo por

conglomerados, es necesario encontrar ai, el numero de elementos de conglomerado i

que tienen la caracterıstica de interes, para cada conglomerado i = 1, 2, . . . , m. Las

siguientes formulas proporcionan un estimador de la proporcion de la poblacion que

tiene la caracterıstica de interes ai.

Page 99: Principal g

3.6 Muestreo por conglomerados 99

Estimacion de la proporcion poblacional en un muestreo por conglomera-

dos

Estimador

pc =

m∑i=1

ai

m∑i=1

ni

Varianza estimada del estimador

σ2pc

=

(M −m

Mmn2

)

m∑i=1

(ai − pcni)2

m− 1

Cotas para el error de estimacion

pc ± 2σpc

Ejercicios

1. El inspector de una cadena de ferreterias desea estimar la proporcion de bom-

billas defectuosas enviadas a su almacen por determinado fabricante. Las bom-

billas se envıan en paquetes de 12 cajas, cada una delas cuales contiene 6 bom-

billas. Suponga que el inspector opta por usar las cajas de bombillas como

conglomerados y selecciona aleatoriamente m = 20 cajas de entre los 100 pa-

quetes recibidos en un envıo. Los numeros de bombillas defectuosas encontradas

en cada una de las 20 cajas son los siguientes:

0 2 0 0 1 1 0 1 2 1 0 0 0 1 0 0 3 0 2 1

Estime la proporcion p de bombillas defectuosas en el envıo, y establezca una

cota para el error de estimacion.

Page 100: Principal g

100 Muestreo

2. En un artıculo que aparecio recientemente en la prensa se afirma que la tasa de

incremento de las contribuciones para obras de beneficiencia es mucho menor

que la tasa de inflacion, durante los periodos de recesion. Un director regional de

la Sociedad Contra el Cancer esta interesado en estimar la contribucion prome-

dio por familia y la contribucion total de todas las familias de su ciudad. Un

grupo de voluntarios selecciono una muestra de 12 de los 47 distritos electorales

de la ciudad y obtuvo los datos que aparecen en la tabla.

Distrito ] de viviendas Donacion total Distrito ] de viviendas Donacion total

1 36 $117 7 29 $165

2 42 105 8 52 105

3 40 210 9 44 121

4 47 142 10 40 103

5 39 235 11 45 136

6 50 96 12 36 190

a) Estime la contribucion promedio por familia en la ciudad, y establezca una

cota para el error de estimacion.

b) Estime la contribucion total de todas las familias de la ciudad, y establezca

una cota para el error de estimacion.

3.7. Ejercicios

1. Define que es una muestra aleatoria.

2. Escribe las definiciones de cada uno de los siguientes tipos de muestreo.

a) MAS b) MAE c) MAC

3. Diga cuales de los siguientes ejemplos constituyen aplicaciones del muestreo

aleatorio, y cuales de un muestreo no aleatorio. Explique porque

Page 101: Principal g

3.7 Ejercicios 101

a) Las manzanas incluidas en una bolsa de 5 kilos adquiridas en un supermer-

cado local.

b) Una bolsa de 5 kilos de manzanas seleccionadas por una ama de casa de un

deposito de manzanas de un supermercado local.

c) Preguntas que una tienda de departamentos hace a cada decimo cliente que

tiene cuenta de credito, acerca de nuevos horarios.

d) Tarjetas de garantıa, que proporcionan informacion demografica y personal,

recibidas por un fabricante, de personas que compraron recientemente alguno

de los artıculos de cocina que fabrican.

4. Discuta las ventajas de efectuar un muestreo en lugar de un censo en cada uno

de los siguientes casos:

a) Un representante de mercadotecnia de una fabrica de alimentos esta intere-

sado en determinar el total de ventas del primer ano, de un nuevo producto que

fabrica la companıa.

b) Un ejecutivo de una companıa petrolera esta interesado en determinar el

precio promedio por galon de gasolina sin plomo, que las estaciones de servicio

cobran en determinado estado. De una lista de estaciones de servicio, el ejecuti-

vo selecciona aleatoriamente 20 de un total de 249, y obtiene su precio de venta

por telefono.

c) Un candidato a la gubernatura de un estado desea conocer la proporcion de

votantes que esta a su favor, un semana antes de la eleccion.

d) Un diario local ha adoptado una polıtica editorial mas liberal. Para captar la

reaccion de los lectores al cambio, un agente del diario selecciona aleatoriamente

10 suscriptores locales de una lista de suscripciones, los contacta por telefono,

y les pide su opinion sobre el cambio de polıtica editorial.

5. Explique porque es preferible el uso del muestreo a un censo de poblacion.

6. Menciona 3 ventajas y 3 desventajas de un muestreo.

7. Menciona 3 ventajas y 3 desventajas de un censo.

Page 102: Principal g

102 Muestreo

8. Describe brevemente la diferencia entre muestreo con reemplazo y muestreo sin

reemplazo.

9. Describe explıcitamente que es una tabla de numeros aleatorios.

10. Para cada una de las siguientes encuestas por muestreo, proponga las unidades

muestrales y el marco muestral apropiados (Un marco muestral es una lista

de unidades muestrales. Las unidades muestrales son colecciones disjuntas de

elementos (objeto del cual se toma una medicion) de la poblacion).

a) Un economista desea efectuar una encuesta para estimar la cantidad promedio

mensual por familia empleada en la compra de comestibles en determinada

ciudad.

b) El asistente administrativo del gobernador de un estado desea estimar la

proporcion de votantes en el estado que estara a favor de la aprobacion de una

ley.

c) Una cadena de supermercados desea conocer la opinion de sus empleados

acerca del plan de seguro medico patrocinado por la companıa.

d) Un ejecutivo de mercadotecnia de una companıa desea hacer una encuesta

entre los compradores para determinar su actitud hacia una nueva lınea de

productos.

11. Explique porque cada uno de los siguientes ejemplos no se puede considerar

como muestra aleatoria:

a) Para conocer la opinion de la comunidad sobre los planes de estudio de una

escuela, se le da al alumno un breve cuestionario para que lo llenen sus padres.

b) Para determinar el sentimiento publico respecto al ultimo decreto presiden-

cial, un reportero entrevista a mediodıa a 25 personas en la esquina de una

centrica calle.

c) Se seleccionan al azar 10 nombres de la lista de representantes de la Camara

de Diputados en un intento por predecir la opinion de varios Estados con res-

pecto al aumento de la deuda publica por tercera vez en una semana.

Page 103: Principal g

3.7 Ejercicios 103

12. Proponga una ejemplo donde sea preferible un muestreo a un censo.

13. Una tienda de descuento de una ciudad de 745 familias ha adoptado un nuevo

tema publicitario disenado para mejorar la imagen de la tienda en lo que se re-

fiere a la calidad de sus productos. De un directorio residencial se selecciono una

muestra aleatoria simple de n = 50 familias. Un mes despues de iniciada la cam-

pana publicitaria, se entrevisto a los jefes de familia y 13 de ellos afirmaron que

la calidad de la mercancia de la tienda de descuento es aparentemente de infe-

rior calidad a la de las tiendas competidoras. Estime la proporcion de familias

que piensan que la calidad de la mercancia de la tienda de descuento es inferior

a la de las demas tiendas. Establezca una cota para el error de estimacion.

14. Un ejecutivo de seguros, preocupado porque la alta tasa de inflacion puede

dejar a sus clientes con una cobertura insuficiente en los seguros de incendio

de sus viviendas, ha propuesto una clausula que establece el incremento de la

cobertura (y de las primas anuales) de acuerdo con la tasa de inflacion anual.

Para conocer la opinion de los clientes sobre la polıtica propuesta, el ejecutivo de

seguros decidio seleccionar una muestra aleatoria estratificada de los clientes de

su companıa en los tres municipios de su jurisdiccion. Los resultados aparececen

en la tabla. Estime la proporcion p de clientes de los tres municipios que estan a

favor de la polıtica propuesta, y establezca una cota para el error de estimacion.

Municipio

A B C

Total de clientes 231 407 187

Clientes encuestados 21 37 17

Numero de los que aprueban la nueva polıtica 8 20 9

15. El gerente de ventas de una fabrica de maquinas de escribir desea saber si existe

la demanda suficiente en determinada ciudad, que justifique agregar un nuevo

Page 104: Principal g

104 Muestreo

tipo de maquina de escribir portatil a sus existencias. Actualmente la fabrica

surte de mercancıa a cuatro cadenas de tiendas que consisten de 25, 20, 30 y 25

tiendas. Por motivos de tipo administrativo se decidio usar el muestreo aleatorio

estratificado, con las cadenas de tiendas como estratos.

E1 16 12 10 13 9

E2 10 17 12 6

E3 5 18 13 15 20 12

E4 17 11 12 15 18

El gerente de ventas dispone de tiempo y dinero suficientes para obtener datos

de ventas en 20 tiendas solamente. Usando afijacion proporcional, selecciono en

forma aleatoria 5 tiendas de la primera cadena, 4 de la segunda, 6 de la tercera,

y 5 de la cuarta. Las ventas efectuadas al cabo de un mes aparecen en la tabla.

Estime las ventas mensuales promedio por tienda, y establezca una cota para

el error de estimacion.

16. a)Un fabricante de sierras de cadena ha recibido quejas de los compradores en

relacion con los costos de reparacion excesivos. Para estudiar el problema, el

fabricante desea estimar el costo de reparacion promedio por sierra y por mes,

para las sierras que se han vendido a las campanıas madereras. No es posible

obtener los costos de reparacion para cada sierra, pero se pueden determinar

los costos totales de reparacion y el numero de sierras que tienen las diferentes

companıas. El fabricante decidio usar un muestreo por conglomerados, usando

las companıas como conglomerados. De las M = 87 companıas madereras que

compran sierras de este fabricante, se selecciono una muestra aleatoria simple

de m = 12. Los datos de la tabla representan los costos de reparacion durante

el ultimo mes para cada companıa.

Page 105: Principal g

3.7 Ejercicios 105

Cia. ] de sierras C. de Reparacion Cia. ]. de sierras C. de reparacion

1 4 $55 7 11 $103

2 7 83 8 1 15

3 5 47 9 8 110

4 11 210 10 11 164

5 15 235 11 7 80

6 6 88 12 10 146

b)Para el ejercicio anterior, tambien estime la cantidad total que las companıas

madereras gastaron en reparaciones de las sierras de cadena durante el ultimo

mes, y establezca una cota de error de estimacion.

c)Al consultar los registros de ventas, el fabricante mencionado encontro que ha

vendido 703 sierras de cada cadena a las 87 companıas madereras. Usando esta

informacion adicional, estime la cantidad total que las 87 companıas madereras

gastaron en reparaciones, y establezca una cota para el error de estimacion.

(Sugerencia: Si yc es la media obtenida en el muestreo por conglomerados y

N el numero de elementos de la poblacion, entonces τ = Nyc y σ2τ = N2σ2

yc).

Compare estos resultados con los obtenidos en el inciso b).

17. El punto de partida, para lograr un mejor entendimiento del comportamiento de

los consumidores, es la demografıa del consumidor; las medidas descriptivas que

caracterizan al publico comprador. De los registros de la companıa, la gerente de

una empresa distribuidora de automoviles obtuvo una muestra aleatoria simple

de 25 expedientes de los 582 correspondientes a clientes que compraron un

automovil de tipo economico durante el ultimo ano. La media y la varianza

de las edades de los 25 clientes fueron y = 27.5 y s2 = 16.81. Estime la edad

promedio de los compradores del automovil economico, y establezca una cota

para el error de estimacion.

Page 106: Principal g

Capıtulo 4

Regresion lineal y multilineal

4.1. Introduccion

En este capıtulo se describe el modelo de regresion lineal simple, que asume que en-

tre dos variables dadas existe una relacion de tipo lineal contaminada por un error

aleatorio. Aprenderemos a estimar dicho modelo y, a partir de estas estimaciones y

bajo determinadas hipotesis, podremos extraer predicciones del modelo e inferir la

fortaleza de dicha relacion lineal.

En la practica es comun encontrar relacion entre dos o mas variables. Por ejemplo,

1. El peso de un hombre adulto depende de su estatura

2. Las circunferencias de los circulos dependen de su radio

3. La presion de una masa de gas depende de su temperatura y volumen

4. La distancia media de frenado de un automovil depende de la velocidad a la que

este viaja

5. La efectividad media de un antibiotico depende del tiempo que este lleve almace-

nado.

Page 107: Principal g

4.1 Introduccion 107

Uno de los aspectos mas relevantes que aborda la Estadıstica se refiere al analisis

de las relaciones que se dan entre dos variables aleatorias. El analisis de estas rela-

ciones esta muy frecuentemente ligado al analisis de una variable, llamada variable

dependiente Y , y del efecto que sobre ella tiene otra (u otras) variable(s), llamada(s)

variable(s) independiente(s) X, y permite responder a dos cuestiones basicas:

¿Es significativa la influencia que tiene la variable independiente sobre la vari-

able dependiente?

Si, en efecto, esa relacion es significativa, ¿como es? y ¿podemos aprovechar

esa relacion para predecir valores de la variable dependiente a partir de valores

observados de la variable independiente?.

La regresion lineal simple comprende el intento de desarrollar una lınea recta o

ecuacion matematica que describe la relacion entre dos variables, con la finalidad

de estimar los valores de una variable con base en los valores conocidos de la otra.

Para determinar dicha ecuacion primero hay que recolectar datos que muestren los

valores de las variables en consideracion.

Ejemplo 4.1.1. Supongase que se han reunido datos locales de vendedores de au-

tomoviles con respecto al kilometraje y precios de los modelos 1975 de cierta marca,

y que tienen determinado equipo (aire acondicionado, direccion hidraulica, etc.).Los

datos muestrales que pueden provenir de una muestra aleatoria de vendedores de la

region serıan los mostrados en la tabla

Observacion Recorrido Precio de Observacion Recorrido Precio de

i (en miles) xi venta yi i (en miles) xi venta yi

1 40 $1000 6 60 1000

2 30 1500 7 65 500

3 30 1200 8 10 3000

4 25 1800 9 15 2500

5 50 800 10 20 2000

Page 108: Principal g

108 Regresion lineal y multilineal

Si dibujamos los datos de xi e yi en unos ejes cartesianos ya intuimos que, en efecto,

hay una relacion latente entre las variables, que parece ser de tipo lineal. A esta

representacion en los ejes cartesianos se le denomina diagrama de dispersion.

Un modelo de regresion lineal simple para una variable, Y (variable dependiente),

dada otra variable, X (variable independiente), es un modelo matematico que permite

obtener una formula capaz de relacionar Y con X basada solo en relaciones lineales,

del tipo

Y = β0 + β1X + ε.

donde

Y representa a la variable dependiente, es decir, a aquella variable que deseamos

estudiar en relacion con otras.

X representa a la variable independiente, es decir, aquella que creemos que

puede afectar en alguna medida a la variable dependiente. La estamos denotan-

do en mayuscula, indicando que podrıa ser una variable aleatoria, pero habi-

tualmente se considera que es una constante que el investigador puede fijar a

su antojo en distintos valores.

ε representa el error aleatorio, es decir, aquella cantidad (aleatoria) que provoca

que la relacion entre la variable dependiente y la variable independiente no sea

perfecta, sino que este sujeta a incertidumbre.

Hay que tener en cuenta que el valor de ε sera siempre desconocido hasta que se

observen los valores de X e Y , de manera que el modelo de prediccion sera realmente

Y = β0+β1X. Lo que en primer lugar resultarıa deseable de un modelo de regresion es

que estos errores aleatorios ocurran en la misma medida por exceso que por defecto,

sea cual sea el valor de X, de manera que E[ε/X = x] = E[ε] = 0 y, por tanto,

E[Y/X = x] = β0 + β1x + E[ε/X = x] = β0 + β1x. Es decir, las medias de los valores

de Y para un valor de X dado son una recta. La interpretacion de los coeficientes del

modelo es:

Page 109: Principal g

4.1 Introduccion 109

β0 es la ordenada al origen del modelo, es decir, el punto donde la recta inter-

cepta o corta al eje y.

β1 representa la pendiente de la lınea y, por tanto, puede interpretarse como el

incremento de la variable dependiente por cada incremento en una unidad de

la variable independiente.

Nota 7. Es evidente que la utilidad de un modelo de regresion lineal tiene sentido

siempre que la relacion hipotetica entre X e Y sea de tipo lineal, pero ¿que ocurre si

en vez de ser de este tipo es de otro tipo (exponencial, logarıtmico, hiperbolico...)?.

En primer lugar, es absolutamente conveniente dibujar el diagrama de dispersion

antes de comenzar a tratar de obtener un modelo de regresion lineal, ya que si la

forma de este diagrama sugiere un perfil distinto al de una recta quiza deberıamos

plantearnos otro tipo de modelo. Y, por otra parte, si se observa que el diagrama de

dispersion es de otro tipo conocido, puede optarse por realizar un cambio de variable

para considerar un modelo lineal. Existen tecnicas muy sencillas para esta cuestion,

pero no las veremos todas aquı.

Algunas curvas de aproximacion y sus ecuaciones

Varios tipos de curvas de aproximacion y sus ecuaciones se presentan ahora.

Sean x y y variables independiente y dependiente respectivamente, a0, a1, . . . , an y

b, p, q, g y h constantes.

y = a0 + a1x Lınea recta

y = a0 + a1x + a2x2 Parabola o curva cuadratica

y = a0 + a1x + a2x2 + a3x

3 Curva cubica

y = a0 + a1x + a2x2 + a3x

3 + a4x4 Curva cuartica

y = a0 + a1x + . . . + anxn Curva de grado n

Las ecuaciones anteriores se denominan polinomios de: primero, segundo, tercer, cuar-

to y n-esimo grados respectivamente.

Page 110: Principal g

110 Regresion lineal y multilineal

Otras ecuaciones usadas con frecuencia en la practica son:

y =1

a0 + a1xo

1

y= a0 + a1x Hiperbola

y = abx o log y = log a + x log b = a0 + a1x Curva exponencial

y = axb o log y = log a + b log x Curva geometrica

y = abx + g Curva exponencial modificada

y =1

abx + go

1

y= abx + g Curva logıstica.

Para decidir cual es la que debe usarse, antes se debe hacer un diagrama de dispersion.

El tipo mas simple de curva de aproximacion es una lınea recta, pero no en todos lo

casos se puede obtener una aproximacion mediante una ecuacion lineal. Para ver si

un modelo lineal sera adecuado entonces el procedimiento es:

1. Graficar los datos

2. Determinar por examen si parece existir una relacion lineal

Cuando las graficas no siguen un alineamiento entonces hay que buscar en un modelo

no lineal. El modelo lineal y = β0 + β1x se dice ser un modelo determinista porque

no permite error en la prediccion de y como funcion de x (no interviene el azar o

la incertidumbre). En fısica, quımica, economıa, etc., describen fenomenos (explican

y predicen) en los cuales el error de prediccion es despreciable en la practica. Por

ejemplo 0.1 cm de error en la construccion de una viga de un puente es pequeno, pero

0.1 cm en una pieza de relojeria es absurdamente grande.

4.2. Estimacion de los coeficientes del modelo por

mınimos cuadrados

Si queremos obtener el modelo de regresion lineal que mejor se ajuste a los datos

de la muestra, deberemos estimar los coeficientes β0 y β1 del modelo. Para obtener

estimadores de estos coeficientes vamos a considerar un nuevo metodo de estimacion,

Page 111: Principal g

4.2 Estimacion de los coeficientes del modelo por mınimos cuadrados 111

conocido como metodo de mınimos cuadrados. Hay que decir que bajo determinados

supuestos que veremos en breve, los estimadores de mınimos cuadrados coinciden con

los estimadores maximo-verosimiles de β0 y β1.

El razonamiento que motiva el metodo de mınimos cuadrados es el siguiente: si tene-

mos una muestra de valores de las variables independiente y dependiente, (x1, y1), . . . ,

(xn, yn), buscaremos valores estimados de β0 y β1, que notaremos por β0 y β1, de ma-

nera que en el modelo ajustado, y = β0 + β1x minimice la suma de los cuadrados de

los errores observados. Es decir, usando mınimos cuadrados para ajustar una recta

al conjunto de datos queremos que las desviaciones entre los valores observados y los

puntos correspondientes sean “pequenos ”.

Entonces si yi = β0 + β1xi es el valor de y (cuando x = xi) entonces la desviacion del

valor observado y, a partir de la recta y es yi − yi (desviacion del i-esimo punto).

Ahora debemos escoger como la recta de mejor ajuste, a la que minimice la suma de

los cuadrados de las desviaciones entre los valores observados y los pronosticados.

SSE =n∑

i=1

(yi − yi)2 =

n∑i=1

(yi − [β0 + β1xi]

)2

(Suma de los cuadrados de los errores)

Es decir, buscamos (β0, β1) = arg [minβ0,β1SSE].

Se llama recta de regresion por mınimos cuadrados (o simplemente recta de regresion)

de Y dada X a la lınea que tiene la SSE mas pequena de entre todos los modelos

lineales. La solucion de ese problema de mınimo se obtiene por el mecanismo habitual:

se deriva SSE respecto de β0 y β1, se iguala a cero y se despejan estos. Entonces

Page 112: Principal g

112 Regresion lineal y multilineal

∂SSE

∂β0

=∂

∂β0

[n∑

i=1

(yi − [β0 + β1xi]

)2]

=∑ [

2(yi − (β0 + β1xi))(−1)]

= −∑

2(yi − β0 − β1xi)

= −2(∑

yi −∑

β0 − β1

∑xi

)

= −2(∑

yi − nβ0 − β1

∑xi

)= 0

=⇒ −2∑

yi + 2nβ0 + 2β1

∑xi = 0

=⇒ β0 =

∑yi − β1

∑xi

n

∴ β0 = y − β1x

∂SSE

∂β1

=∂

∂β1

[n∑

i=1

(yi − [β0 + β1xi]

)2]

=∑[

2(yi − (β0 + β1xi))(−xi)]

= −∑

2(xiyi − β0xi − β1x2i )

= −2(∑

xiyi − β0

∑xi − β1

∑x2

i

)= 0

= −∑

xiyi + β0

∑xi + β1

∑x2

i = 0

=⇒ β1 =

∑xiyi − β0

∑xi∑

x2i

Page 113: Principal g

4.2 Estimacion de los coeficientes del modelo por mınimos cuadrados 113

Sustituyendo β0 = y − β1x en la ecuacion anterior se obtiene

β1 =

∑xiyi − (y − β1x)

∑xi∑

x2i

=

∑xiyi −

(∑ yi

n− β1

∑ xi

n

) ∑xi

∑x2

i

=

∑xiyi − 1

n

∑yi

∑xi + β1

n(∑

xi)2

∑x2

i

=⇒∑

x2i β1 − β1

n

(∑xi

)2

=∑

xiyi − 1

n

∑yi

∑xi

=⇒ β1 =

∑xiyi − 1

n

∑yi

∑xi

∑x2

i −1

n(∑

xi)2

=

n∑i=1

(xi − x)(yi − y)

n∑i=1

(xi − x)2

Por lo tanto los estimadores de mınimos cuadrados de β0 y β1 son:

β1 =SSxy

SSxx

donde SSxy =n∑

i=1

(xi − x)(yi − y) y SSxx =n∑

i=1

(xi − x)2

β0 = y − β1

Ejemplo 4.2.1. En la siguiente tabla se muestran los gastos publicitarios y volumenes

de ventas de una companıa durante 10 meses elegidos al azar.

yi xi yi xi

101 1.2 82 0.8

92 0.8 93 1.0

110 1.0 75 0.6

120 1.3 91 0.9

90 0.7 105 1.1

Page 114: Principal g

114 Regresion lineal y multilineal

a) ¿Cual es la lınea recta de mejor ajuste que relaciona los gastos en publicidad con

volumen de ventas?

b) Si se tienen $10, 000 para publicidad este mes ¿Cual es el volumen de ventas

pronosticado?

Solucion:

Para los datos del ejemplo, vamos a calcular e interpretar la recta de regresion.

SSxy = 23.34, SSxx = 0.444, y = 95.9 y x = 0.94

luego

β1 =SSxy

SSxx

=23.34

0.444= 52.57

β0 = y − β1x = 95.9− (52.57)(0.94) = 46.49

ası que la recta de regresion ajustada es

y = 46.49 + 52.57x

Se puede predecir un y para un x dado. Por ejemplo, si se usan x = $10, 000 para

publicidad este mes, el volumen de ventas pronosticados para este mes es

y = 46.49 + 52.57(1.0) = 99.06

o bien $990600.

Ahora, debemos encontrar las cotas para el error de estimacion. Para eso estimamos

σ2, la varianza de y dado un valor de x. Entonces

σ2 = s2 =SCE

n− 2

donde SCE =n∑

i=1

(yi− yi)2 y n−2 son los grados de libertad (numero de parametros

estimados en el modelo).

Page 115: Principal g

4.3 Supuestos adicionales para los estimadores de mınimos cuadrados 115

Una forma mas facil para calcular SCE es:

SCE = SCyy − β1SCxy donde

SCyy =n∑

i=1

y2i −

1

n

(n∑

i=1

yi

)2

SCxy =n∑

i=1

xiyi − 1

n

n∑i=1

xi

n∑i=1

yi

Ejercicio 4.2.1. Calcule σ2 para el ejemplo anterior 4.2.1.

4.3. Supuestos adicionales para los estimadores de

mınimos cuadrados

Hasta ahora lo unico que le hemos exigido a la recta de regresion es:

1. Que las medias de Y para cada valor de X se ajusten mas o menos a una lınea

recta, algo facilmente comprobable con un diagrama de puntos. Si el aspecto

de este diagrama no recuerda a una lınea recta sino a otro tipo de funcion,

logicamente no haremos regresion lineal.

2. Que los errores tengan media cero, independientemente del valor de X, lo que,

por otra parte, no es una hipotesis sino mas bien un requerimiento logico al

modelo.

Lo que ahora vamos a hacer es anadir algunos supuestos al modelo de manera que

cuando estos se cumplan, las propiedades de los estimadores de los coeficientes del

modelo sean muy buenas. Esto nos va a permitir hacer inferencia sobre estos coeficien-

tes y sobre las estimaciones que pueden darse de los valores de la variable dependiente.

Page 116: Principal g

116 Regresion lineal y multilineal

4.4. Inferencias relativas a la pendiente β1 de una

recta

La primera inferencia que debe hacerse cuando se estudia la relacion entre x e y

concierne a la existencia misma de dicha relacion. Entonces surgen dos preguntas:

1) ¿Muestran los datos suficiente evidencia como que para pensar que el conocimiento

de x contribuye para predecir y en alguna region de observacion?

2) ¿Podemos pensar que aun no habiendo relacion entre x y y los puntos observados

forman un diagrama como el de la figura?

Las cuestiones anteriores se refieren al valor de β1, el cambio medio que se experimenta

en y por unidad de cambio en x (la pendiente).

Si x no proporciona informacion para predecir y, entonces β1 = 0. Que β1 = 0 significa

que y siempre es el mismo para cualquier valor de x.

Ejemplo 4.4.1. Suponga que un ingeniero ajusto el modelo y = β0 + β1x + ε, donde:

y =resistencia del concreto despues de 28 dıas

x =proporcion agua/cemento que se uso para producir el concreto

Si la resistencia del concreto y, no cambia con la proporcion agua/cemento x, entonces

β1 = 0 (la pendiente es cero). Por lo tanto, el ingeniero intentara realizar una prueba

H0 : β1 = 0 contra Ha : β1 6= 0 para verificar si la variable independiente influye sobre

la variable dependiente. O bien, estimar la razon media de cambio β1 en E[y] para

un cambio de una unidad en la proporcion de agua/cemento, x.

Al hacer inferencia lo que se quiere probar es la hipotesis de que:

H0 : βi = 0 contra Ha : βi 6= 0

βi es un estimador insesgado de βi con una distribucion normal que tiene el valor

esperado E[βi].

Page 117: Principal g

4.4 Inferencias relativas a la pendiente β1 de una recta 117

Para cada uno de los parametros β0 y β1 se tiene:

E[β0] = β0 y σ2β0

= σ2C00

E[β1] = β1 y σ2β1

= σ2C11

donde : C00 =

n∑i=1

x2i

nSCxx

y C11 =1

SCxx

Podemos construir una prueba de hipotesis H0 : βi = βi0 (βi0 es un valor especıfico

para βi). Usando el estadıstico de prueba:

Z =βi − βi0

σ√

Cii

Distribucion normal estandar

La region de rechazo para una prueba de dos colas 1 esta dado por:

| z | ≥ zα/2

Como σ2 es desconocido, entonces se puede obtener un estimador de el

Sβi= S

√Cii

Entonces

t =βi − βi0

S√

Cii

,

estadıstico que se distribuye con una t de Student con n − 2 grados de libertad

(varianza desconocida y n pequena).

Prueba de hipotesis para βi

H0 :βi = βi0

Ha :

βi > βi0 region de rechazo de cola superior,

βi < βi0 region de rechazo de cola inferior,

βi 6= βi0 region de rechazo de dos colas.

1Prueba estadıstica en la cual la region de rechazo esta separada por la region de aceptacion yse localiza en ambos extremos de la distribucion de la estadıstica de prueba

Page 118: Principal g

118 Regresion lineal y multilineal

Estadıstico de prueba:

t =βi − βi0

S√

Cii

Region de rechazo:

t > tα alternativa de cola superior

t > −tα alternativa de cola inferior

| t | > tα/2 alternativa de dos colas

donde:

C00 =

∑x2

i

nSCxx

y C11 =1

SCxx

Nota 8. tα se basa en n− 2 grados de libertad 2.

Ejemplo 4.4.2. Use los datos del ejemplo 4.2.1 para determinar si existe evidencia que

indique que β1 difiere de cero al usar una relacion lineal entre el gasto publicitario x

y el volumen mensual medio, y, de ventas.

Solucion:

Se quiere probar

H0 : β1 = 0 contra Ha : β1 6= 0

Entonces t =β1 − 0

S√

C11

. Usando α = 0.05 se rechaza H0 si t > 2.306 o t < −2.306

con n − 2 = 8 grados de libertad. Entonces t =52.87

6.84√

2.25= 5.15. Como 5.15 >

2.306, entonces se rechaza H0. Hay evidencia que indica que los gastos publicitarios

proporcionan informacion para la prediccion de los volumenes mensuales de ventas.

Ahora si x aumenta una unidad ¿Cual sera el cambio estimado para y?,¿que confianza

se puede tener en dicha estimacion?.

Debemos investigar la amplitud de un intervalo de confianza para β1 y verificar si

es lo bastante pequeno para detectar una desviacion de cero que sea de significancia

practica.

2Numero de observaciones linealmente independientes de un conjunto de n observaciones

Page 119: Principal g

4.4 Inferencias relativas a la pendiente β1 de una recta 119

Intervalo de confianza de (1− α)100 % para βi

βi ± tα/2S√

Cii

Ejemplo 4.4.3. Encuentre el intervalo de confianza del 95 % para β1 usando los datos

del ejercicio 4.2.1.

Solucion:

1− α =95 % =⇒ 1− α = 0.95

despejando α = 1− 0.95 =⇒ α/2 = 0.025

asi, 52.57 ± 23.67

Por lo tanto, si se aumenta en una unidad x, por ejemplo, $10, 000 en gasto publici-

tario, se estima que los volumenes de ventas mensuales correspondientes sera 28.90 y

76.24.

Ejercicio 4.4.1. Ajuste una recta a los 5 datos siguientes. Obtenga las estimaciones de

β0 y β1. Trace una grafica de los puntos y represente la recta ajustada para verificar

los calculos. ¿Presentan los datos suficiente evidencia para indicar que la pendiente

β1 difiere de cero? (Haga la prueba con un nivel de significancia de 5 %). Encuentre

un intervalo de confianza de 95 % para β1.

y x

3 -2

2 -1

1 0

1 1

0.5 2

Page 120: Principal g

120 Regresion lineal y multilineal

Estimacion de E[y/x].

Ejemplo 4.4.4. El encargado se seguridad industrial en una empresa puede estar

interesado en estimar el numero medio de algun tipo de accidentes dado el

numero de horas que cada empleado ha estado sujeto a entrenamiento especial

para seguridad.

Si en una empresa, la ganacia y, se encuentra linealmente relacionada a los

gastos publicitarios x, el gerente de ventas querra estimar la ganancia media

para un cierto nivel de publicidad x. entonces si la companıa invierte $10, 000 en

publicidad, ¿Cuanto debe esperar que sea E[y/x]?. Entonces, debemos encontrar

un intervalo de confianza para E[y/x].

Prueba de hipotesis relativa al valor esperado

Hipotesis nula H0 :E[y/x = xp] = E0

Hipotesis alternativa Ha :La da el experimentador y depende de los valores de E[y/x]

que desea detectar

Estadıstico de prueba:

t =y − E0

S

√1

n+

(xp − x)2

SCxx

Region de rechazo:

t > tα alternativa de cola superior

t > −tα alternativa de cola inferior

| t | > tα/2 alternativa de dos colas

Page 121: Principal g

4.4 Inferencias relativas a la pendiente β1 de una recta 121

Intervalo de confianza del (1− α)100 % para E[y/x]

y ± tα/2S

√1

n+

(xp − x)2

SCxx

(4.1)

Prediccion de y dado un valor particular de x

y ± tα/2,n−2S

√1 +

1

n+

(xp − x)2

SCxx

(4.2)

Ejemplo 4.4.5. Considere los datos del ejercicio 4.2.1 para

a) Encontrar un intervalo de confianza del 99 % para el volumen mensual esperado

de ventas cuando los gastos en publicidad son xp = 1.0 ($10, 000)

b) Calcular S2

c) Probar la hipotesis nula contra la alternativa usando un nivel se significancia de

α = 0.01

Solucion:

xp = 1.0, entonces y = β0 + β1x = 46.49 + (52.57)(1.0) = 99.06, entonces, multipli-

camos por $10, 000 y se obtiene $990, 600.

El intervalo de confianza de 95 % para el volumen mensual medio asociado al gasto

de publicidad es

y ± t0.025S

√1

n+

(xp − x)2

SCxx

99.06 ± (2.306)(6.84)

√1

10+

(1.0− 0.94)2

0.444

99.06 ± 5.19, es decir, (93.87,104.25)

Como cada unidad representa $10, 000 en unidades monetarias, se estima que las

ventas mensuales esperadas sobre la poblacion de los meses en los que la companıa

gasta $10, 000 estan entre $938, 700 y $1042, 500.

Page 122: Principal g

122 Regresion lineal y multilineal

Ejemplo 4.4.6. Un equipo de investigadores de un hospital psiquiatrico realizo un

experimento para estudiar la relacion que existe en pacientes esquizofrenicos, entre

el tiempo de reaccion a un estımulo particular y el nivel de la dosis de una dro-

ga. Especıficamente los investigadores deseaban hacer el experimento con dosis de

0.5, 1.0, 1.5, 2.0, 2.5 y 3.0 mg. Seleccionaron una muestra aleatoria de 18 pacientes

en una poblacion hospitalaria de esquizofrenicos y asignaron al azar a cada paciente

una de las dosis. Ası pues cada dosis fue administrada a un total de tres pacientes.

Tiempo de Tiempo de

Paciente Dosificacion x reaccion y Paciente Dosificacion x reaccion y

(mg) (mseg) (mg) (mseg)

1 0.5 12 10 2.0 40

2 0.5 22 11 2.0 44

3 0.5 30 12 2.0 50

4 1.0 18 13 2.5 44

5 1.0 32 14 2.5 60

6 1.0 36 15 2.5 64

7 1.5 30 16 3.0 64

8 1.5 34 17 3.0 68

9 1.5 46 18 3.0 76

Solucion:

El modelo de prediccion obtenido hal hacer los calculos es:

y = β0 + β1x = 9.77 + 18.85x

Observacion 2. La suma de los valores ajustados es igual a la suma de los valores

observados,∑

yi =∑

yi.

Ahora bien, usaremos la prueba de hipotesis para probar si uno de los coeficientes de

regresion toma valor particular o si puede ser excluido del modelo.

Si el que se quiere escluir es β1 entonces la prueba es:

H0 : β1 = 0 vs Ha : β1 6= 0

Page 123: Principal g

4.4 Inferencias relativas a la pendiente β1 de una recta 123

Ası, el estadıstico es

t =18.85− 0

(7.51)(0.28)= 8.96

de acuerdo a la tabla de la t de Student, la hipotesis H0 se rechaza con un nivel de

significancia de 0.05 ya que

t0.05/2,16 = t0.025,16 = 2.120

y como

| t | > tα/2,n−2 es decir, 8.96 > 2.120

entonces rechazamos H0. Esto indica que la variable independiente es significativa o

ayuda a predecir el comportamiento de y. Por cada incremento de una unidad en la

variable independiente x, habra un incremento de β1 unidades en la variable depen-

diente y.

Para saber la cantidad en que varıa en promedio la variable dependiente cuando la

variable independiente varıa una unidad, calculamos el intervalo de confianza para

β1.

En nuestro ejemplo β1 nos dara la informacion acerca de la cantidad en que varıa

en promedio, el tiempo de reaccion cuando se produce un aumento en una unidad la

dosis de la droga. Entonces

β1 ± tα/2,n−2S√

C11

18.86 ± (2.120)(7.51)(0.28)

18.86 ± 4.46

14.4 ≤β1 ≤ 23.42

Ası, tenemos en 95 % de confianza al afirmar que la cantidad promedio de aumento

en el tiempo de reaccion para cada aumento de 1 mg varıa entre 14.4 y 23.42 mseg.

Teniendo un sujeto nuevo cuyo valor x es un puntaje determinado xp ¿que valor

asumira y?.

Page 124: Principal g

124 Regresion lineal y multilineal

Prediccion de y dado un valor de x en particular

Supongamos que a un esquizofrenico recientemente admitido en el hospital se le ad-

ministran 2 mg de la droga ¿cual sera el tiempo de reaccion de esta persona?.

Estimando puntualmente en un valor x = xp = 2 se tiene

y = 9.77 + 18.86(2) = 47.49

Cuando σ2 es desconocida podemos obtener el intervalo de prediccion del (1−α)100 %

mediante la ecuacion (4.2). Entonces:

47.49 ± (2.120)(7.51)

√1 +

1

18+

(2− 1.75)2

13.13

47.49 ± 16.39

31.1 ≤y ≤ 63.88

Ası, podemos afirmar con un 95 % de confianza que el tiempo de reaccion de una

persona esquizofrenica que recibe 2 mg de la dosis esta entre 31 y 64 mseg.

En lo anterior estamos prediciendo el tiempo de reaccion de la persona antes de ad-

ministrarle la droga. Para descubrir con certeza el tiempo de reaccion de una persona,

en relacion a una determinada dosis de droga, tenemos que darle al paciente la droga

y luego medir su tiempo de reaccion.

Ahora bien, dada una poblacion de sujetos y dado un puntaje determinado de x di-

gamos xp ¿Cual es el valor promedio de la variable dependiente y mas probable para

esta poblacion?.

Supongamos entonces que tenemos una poblacion de personas esquizofrenicas y a to-

das se les han administrado 2mg de la dosis ¿Cual sera el tiempo de reaccion promedio

de esta poblacion?.

Un intervalo de confianza para el (1 − α)100 % es el dado por la ecuacion (4.1).

Page 125: Principal g

4.4 Inferencias relativas a la pendiente β1 de una recta 125

Entonces, como y = 47.49 para x = 2 mg se tiene que

47.49 ± (2.120)(7.51)

√1

18+

(2− 1.75)2

13.13

47.49 ± 3.9101

43.58 ≤y ≤ 51.40

Por lo tanto, podemos afirmar con un 95 % de confianza que el tiempo de reaccion

promedio de una poblacion de esquizofrenicos que recibio la dosis de 2mg estara entre

44 y 51 mg.

Si el experimento se repite muchas veces, aproximadamente el 95 % de los intervalos

de confianza calculados en la forma anterior incluiran a E[y/x] y el otro 5 % no.

Ejemplo 4.4.7. En su tesis para obtener el doctorado, H. Behbahani estudio el efecto

de la variacion agua/cemento en la resistencia del concreto despues de 28 dıas. Para

el concreto que contiene 200 libras por yarda cubica de cemento obtuvo los datos que

se presentan en la tabla 4.1. Sea y la resistencia y x la razon de agua/cemento.

Razon agua/cemento Resistencia (100 pies/libra)

1.21 1.302

1.29 1.231

1.37 1.061

1.46 1.040

1.62 0.803

1.79 0.711

Tabla 4.1: Datos.

a) Ajuste el modelo.

b) Pruebe H0 : β1 = 0 vs Ha : β1 < 0 con α = 0.05 (si rechazamos H0 entonces

concluimos β1 < 0, y que la resistencia tiende a disminuir con un incremento

en la razon agua/cemento).

Page 126: Principal g

126 Regresion lineal y multilineal

c) Encuentre un intervalo de confianza de 90 % de la resistencia esperada del concreto

cuando la razon agua/cemento es de 1.5. ¿Que pasara con el intervalo de con-

fianza si tratamos de estimar la resistencia media para razones de agua/cemento

de 0.3 o 2.7?.

Solucion:

a)

β1 =SCxy

SCxx

=−0.247

0.234= −1.056

β0 =2.563

=⇒ y =2.563− 1.056x

b)

H0 :β1 = 0 vs Ha : β1 < 0 con α = 0.05

t =−1.056− 0

0.045

√1

0.234

= −11.355 (En este caso debemos probar si t < −tα)

tα,n−2 =t0.05,4 = 2.132

=⇒ −11.355 < −2.132.

Se rechaza H0, hay evidencia para indicar que la resistencia disminuye con un incre-

mento en la razon agua/cemento en la region donde se hizo el experimento.

En la practica, la razon agua/cemento debe ser lo suficientemente para humedecer el

cemento, la arena y los otros elementos que forman el concreto; pero si la razon es

muy grande no servira.

c)

y = 2.563− 1.056(1.5) = 0.979

0.979± (2.132)(0.045)

√1

6+

(1.5− 1.457)2

0.234

=⇒(0.938, 1.020)

Page 127: Principal g

4.5 Correlacion lineal 127

La resistencia media de la razon agua/cemento de 1.5 esta entre 0.938 y 1.020.

x∗ = 0.3 y x∗ = 2.7 son valores lejanos a los experimentados, quizas producirıan

concreto completamente inservible.

4.5. Correlacion lineal

En la seccion anterior se establecio que la regresion lineal estudia la natutaleza de la

relacion entre dos (o mas variables si no es lineal). En esta seccion vamos a definir

el llamado coeficiente de correlacion lineal, que ofrece una medida cuantitativa de

la fortaleza de la relacion lineal entre x e y en la muestra, pero que a diferencia de

β1, es adimensional, ya que sus valores siempre estan entre -1 y 1, sean cuales sean

las unidades de medida de las variables. En otras palabras, la correlacion mide la

fuerza de la relacion entre variables. Si estan relacionadas las variables dependiente e

independiente, entonces hay que averiguar que tan fuerte es la relacion.

Dada una muestra de valores de dos variables (x1, y1), . . . , (xn, yn), el coeficiente de

correlacion lineal muestral r se define como

r =SCxy√

SCxxSCyy

Como digimos antes, la interpretacion del valor de r es la siguiente:

r cercano o igual a 0 implica poca o ninguna relacion lineal entre x e y.

Cuanto mas se acerque a 1 o −1, mas fuerte sera la relacion lineal entre x e y.

Si r = ±1, todos los puntos caeran exactamente en la recta de regresion.

Un valor positivo de r implica que y tiende a aumentar cuando x aumenta, y

esa tendencia es mas acusada cuanto mas cercano esta r de 1.

Un valor negativo de r implica que y disminuye cuando x aumenta, y esa ten-

dencia es mas acusada cuanto mas cercano esta r de −1.

Si r = 0, no hay relacion.

Page 128: Principal g

128 Regresion lineal y multilineal

¿Como determinar que tan bueno es el modelo ajustado?

El coeficiente de determinacion lineal r2 proporciona una medida de la bondad de

ajuste del modelo de regresion

r2 = 1− SCE

SCyy

0 ≤ r2 ≤ 1

Si el modelo es correcto, entonces SCE = 0 y r2 = 1. Si r2 esta cerca de cero (Cuando

SCE puede ir a SCyy), el ajuste no es el adecuado.

Notese que la notacion es r al cuadrado, ya que, en efecto, en una regresion lineal

simple coincide con el coeficiente de correlacion lineal al cuadrado. Por lo tanto, la

interpretacion de r2 es la medida en que x contribuye a la prediccion de y en una

escala de 0 a 1, donde el 0 indica que el error es el total de la variacion de los valores

de y y el 1 es la precision total, el error 0. La medida suele darse en porcentaje.

Intervalo de confianza para r

Se quiere probar la hipotesis de que el coeficiente de correlacion es cero, es decir,

H0 : r = 0 vs Ha : r 6= 0

lo anterior es equivalente a probar

H0 : β1 = 0 vs Ha : β1 6= 0

con su estadıstico t =β1 − 0

S√

C11

.

Dejando el estadıstico anterior en terminos de r se obtiene

t =r√

n− 2√1− r2

Para probar la hipotesis nula H0 = r = r0 r0 6= 0 contra Ha = r 6= r0 se utiliza el

estadıstico1

2ln

(1 + r

1− r

)

Page 129: Principal g

4.5 Correlacion lineal 129

que sigue una distribucion normal con media 12ln

(1 + r

1− r

)y varianza

1

n− 3. En-

tonces, usaremos

z =

12ln

(1 + r

1− r

)− 1

2ln

(1 + r0

1− r0

)

√1

n− 3

lo anterior es equivalente a

z =

√n− 3

2ln

[(1 + r)(1− r0)

(1− r)(1 + r0)

]

H0 se rechaza si | z | > zα/2, donde α es el nivel de significancia.

Ha :

r > r0 region de rechazo:z > zα,

r < r0 region de rechazo:z < −zα,

r 6= r0 region de rechazo:| z | > zα/2,

Ejercicio 4.5.1. Los siguientes datos representan las calificaciones de quımica para

una muestra aleatoria de 12 estudiantes de primer ano de determinada institucion de

ensenanza superior, junto con sus calificaciones en un examen de inteligencia aplicado

cuando aun cursaban el ultimo ano de secundaria.

Calif. Examen Calif. Quımica Calif. Examen Calif. Quımica

65 85 65 94

50 74 70 98

55 76 55 81

65 90 70 91

55 85 50 76

70 87 55 74

a) Calcule e interprete el coeficiente de correlacion muestral,

b) Pruebe la hipotesis de que r = 0.5 contra r > 0.5.

Page 130: Principal g

130 Regresion lineal y multilineal

Solucion:

a) r = β1

√SCxx

SCyy, entonces

SCxx =∑

x2i −

1

n

(∑xi

)2

= 44475− 1

12(725)2 = 672.92

SCyy =∑

y2i −

1

n

(∑yi

)2

= 85905− 1

12(1011)2 = 728.25

β1 =SCxy

SCxx

=⇒ SCxy =∑

xiyi − 1

n

∑xi

∑yi = 61685− 1

12(725)(1011) = 603.75

=⇒ β1 =603.75

672.92= 0.897 o 0.9

Ası, el coeficiente de correlacion es

r = 0.897

√672.92

728.25= 0.862.

Note que, el coeficiente esta cerca de 1, entonces hay una fuerte asociacion entre x e

y, como se podra esperar.

b)

H0 : r = 0.5 vs Ha : r > 0.5

z =

√n− 3

2ln

[(1 + 0.862)(1− 0.5)

(1− 0.862)(1 + 0.5)

]

=3

2ln

[0.931

0.207

]= 2.255

Ahora veamos si se cumple que z > zα, para esto usamos α = 0.05. Entonces, z0.05 =

1.645 (buscamos α = 0.05 en la tabla de la distribucion normal y cae en1.64 + 1.65

2=

1.645).

Ası, 2.255 > 1.645, por lo cual se rechaza la hipotesis nula H0.

Ejercicio 4.5.2. En un estudio acerca de la cantidad de precipitacion pluvial y la

cantidad de contaminacion de aire eliminada, se obtuvieron los siguientes datos:

Page 131: Principal g

4.6 Ejercicios 131

Lluvia diaria (0.01 cm) x Partıculas eliminadas (mg por metro cubico) y

4.3 126

4.5 121

5.9 116

5.6 118

6.1 114

5.2 118

3.8 132

2.1 141

7.5 108

a) Calcule r,

b) Prueba H0 : r = −0.5 vs Ha : r < −0.5 con un nivel de significancia de 0.025,

c) Determine el porcentaje de variacion en que la cantidad de partıculas eliminadas

que se deben a los cambios en la cantidad diaria de precipitacion pluvial.

Solucion:

4.6. Ejercicios

1. Los auditores a menudo necesitan comparar el valor revisado (o actual de un

artıculo) del catalogo de inventario con el valor en los libros (o nominal). Si una

companıa tiene su inventario y sus libros al dıa, debe existir una relacion lineal

muy estrecha entre los valores revisados y los nominales. Una muestra de 10

artıculos del catalogo de cierta companıa dio los datos que contiene la tabla 4.2

acerca de los valores revisados y los nominales. Ajuste el modelo y = β0+β1x+ε

a esos datos. ¿Cual es su estimacion para el cambio que se espera en el valor

revisado para un cambio de una unidad en el valor nominal? Si el valor nominal

es x = 100, ¿que utilizarıa para estimar el valor revisado?

Page 132: Principal g

132 Regresion lineal y multilineal

Artıculo Valor revisado (yi) Valor nominal (xi)

1 9 10

2 14 12

3 7 9

4 29 27

5 45 47

6 109 112

7 40 36

8 238 241

9 60 59

10 170 167

Tabla 4.2: Datos.

2. En la tabla 4.3 se muestra la clasificacion combinada del numero de millas y

el volumen del motor establecidos por la EPA en estados de la Union Ameri-

cana en 1980 (todos menos California) de nueve automoviles subcompactos con

transmision estandar, de cuatro cilindros, que utilizan gasolina. El tamano del

motor se da en pulgadas cubicas totales del cilindraje.

Automovil Cilindraje (x) mpg combinado (y)

VW Rabitt 97 24

Datsun 210 85 29

Chevrolet Chevette 98 26

Dodge Omni 105 24

Mazda 626 120 24

Oldsmobile Starfire 151 22

Mercury Capri 140 23

Toyota Celica 134 23

Datsun 810 146 21

Page 133: Principal g

4.6 Ejercicios 133

a) Localice los datos en una grafica.

b) Encuentra la recta de mınimos cuadrados para los datos.

c) Trace una grafica de la recta de mınimos cuadrados para ver cuanto se ajusta

a los datos.

d) Utilice la recta de mınimos cuadrados para estimar el promedio de millas por

galon (mpg) para un automovil subcompacto con un volumen de motor de 125

pulgadas cubicas.

3. En un estudio de distintos fondos para inversion se desarrollo un procedimien-

to consistente en construir la llamada “recta caracterıstica”para cada posible

fondo. Dicha recta no es otra cosa mas que la recta de regresion de la re-

dituabilidad del fondo considerado sobre la redituabilidad promedio del mer-

cado bursatil. Si para un fondo de inversion la pendiente de su recta carac-

terıstica es significativamente distinta de cero, se dice que ese fondo es muy

sensible a las fluctuaciones de la bolsa de valores y por ende es una inver-

sion riesgosa. Si el fondo tiene una recta caracterıstica con pendiente cercana

a cero se dice que es una inversion estable y de poco riesgo. La redituabili-

dad tanto del fondo “Penn Square Mutual”como la promedio en el mercado

bursatil se observo en el periodo 1964 a 1973 y se dan en la tabla siguiente.

Ano 1964 1965 1966 1967 1968 1969 1970 1971 1972 1973

P. Square 18.4 29.7 -12.3 10.8 23.6 -16.2 5.8 7.2 7.7 -8.8

p. en m. 12.9 9.1 -13.1 20.1 7.7 -11.4 .1 10.8 15.6 -17.4

a) Encuentre la “recta caracterıstica”del fondo “Penn Square Mutual”(esto es,

la recta de regresion de la redituabilidad del fondo sobre la redituabilidad prome-

dio).

b) Grafique los puntos y la recta de regresion para verificar sus calculos.

c) Describa el tipo de riesgo asociado a invertir en el “Penn Square Mutual”(esto

es, pruebe la hipotesis β1 = 0; use α = 0.05).

Tabla 4.3: Datos.

Page 134: Principal g

134 Regresion lineal y multilineal

d) Encuentre un intervalo confidencial del 95 % para la pendiente de la recta

caracterıstica del fondo “Penn Square Mutual”.

4. Un experimento de mercados se realizo para estudiar la relacion entre el tiempo

que requiere un comprador para decidirse en su compra y el numero de pre-

sentaciones distintas del producto exhibidas. Las marcas se eliminaron de los

productos para reducir el efecto de las preferencias a determinadas marcas. Los

compradores seleccionaron los artıculos basados exclusivamente en las descrip-

ciones y disenos de las presentaciones de cada producto. El tiempo utilizado

hasta llegar a una seleccion fue registrado para los 15 participantes en el estu-

dio.

Tiempo requerido (en seg.) 5,8,8,7,9 7,9,8,9,10 10,11,10,12,9

Numero de laternativas (presentaciones) 2 3 4

a) Encuentre la recta de mınimos cuadrados para esos datos.

b) Grafique los puntos y la recta para verificar sus calculos.

c) Calcule s2.

d)¿Presentan los datos suficiente evidencia evidencia que indique que el tiem-

po requerido para decidir esta linealmente relacionado al numero de presenta-

ciones? (Pruebe al nivel α = 0.05).

5. La siguiente tabla contiene la lista del numero de casos de tuberculosis (por

cada 100000 habitantes) en el estado de Florida durante la decada que va de

1967 a 1976. ¿Hay suficiente evidencia para afirmar que la tasa de tuberculosis

decrece en tal periodo? Utilice α = 0.05. (Se pueden codificar los anos de la

manera que se considere conveniente.)

6. Las medianas de los precios de ventas de casas nuevas para una sola familia

durante un periodo de 8 anos se indican en la tabla siguiente. Sea y la mediana

de los precios de venta y x el ano (representado con numeros enteros, 1,2,...,8),

Page 135: Principal g

4.6 Ejercicios 135

ajuste el modelo y = β0 + β1x + ε. ¿Que se puede concluir con los resultados?.

Ano Mediana del precio de venta (x 1000)

1972 (1) $27.6

1973 (2) 32.6

1974 (3) 35.9

1975 (4) 39.3

1976 (5) 44.2

1977 (6) 48.8

1978 (7) 55.7

1979 (8) 62.9

Conteste lo siguiente:

a) ¿Hay suficiente evidencia que permita afirmar que la mediana de los precios

de venta de casas nuevas para una sola familia se ha incrementado durante el

periodo de 1972 a 1979, con un nivel de significancia de 0.01?

b) Estime el incremento anual esperado en la mediana de los precios de venta

al construir un intervalo de confianza de 99 %.

7. Se llevo a cabo un estudio de la cantidad de azucar refinada mediante un cierto

proceso a varias temperaturas diferentes. Los datos se codificaron y registraron

Page 136: Principal g

136 Regresion lineal y multilineal

en el siguiente cuadro:

Temperatura Azucar refinada

1.0 8.1

1.1 7.8

1.2 8.5

1.3 9.8

1.4 9.5

1.5 8.9

1.6 8.6

1.7 10.2

1.8 9.3

1.9 9.2

2.0 10.5

a) Determine el modelo de regresion lineal simple.

b) Calcule la cantidad promedio de azucar refinada que se produce cuando la

temperatura codificada es 1.75.

c) Determine un intervalo de confianza del 95 % para el parametro β1.

d) Prueba H0 : β1 = 0 vs Ha : β1 6= 0.

e) Encuentre un intervalo de prediccion del 95 % para un valor particular de

azucar refinada cuando la temperatura es 1.75.

8. Los siguientes datos presentan el numero promedio de bacterias que sobreviven

Page 137: Principal g

4.6 Ejercicios 137

en un producto alimenticio enlatado y los minutos de exposicion a una tempe-

ratura de 300◦F .

Numero de bacterias Minutos de exposicion

175 1

108 2

95 3

82 4

71 5

50 6

49 7

31 8

28 9

17 10

16 11

11 12

a) Dibuje el diagrama de dispersion de los datos.

b) Identifique el modelo apropiado para estos datos (es lineal o exponencial) y

estime los parametros de dicho modelo.

9. La empresa Bradford Electric Illuminating Co., estudia las relaciones entre los

consumos de energıa (en miles de kilowatts-hora, kwh) y el numero de habita-

ciones en una residencia privada unifamiliar. Una muestra aleatoria de 10 casas

produjo lo siguiente:

Page 138: Principal g

138 Regresion lineal y multilineal

Num.de habitaciones Consumo

12 9

9 7

14 10

6 5

10 8

8 6

10 8

10 10

5 4

7 7

a) Dibuje el diagrama de dispersion. Explique,

b) Ajuste un modelo de regresion lineal simple a estos datos,

c) Estime el consumo promedio para una casa con 11 habitaciones,

d) Pruebe la significancia del modelo con α = 0.05,

c) Determine un intervalo de confianza del 95 % para el consumo promedio

cuando una casa tiene 11 habitaciones.

4.7. Regresion lineal multiple

Un modelo de regresion que involucre mas de una variable independiente se llama

modelo de regresion multiple.

El modelo de regresion lineal multiple con k variables esta dado por:

y = β0 + β1x1 + β2x2 + . . . + βkxk + ε (4.3)

Los βi i = 0, . . . , k se llaman coeficientes de regresion.

Ajuste del modelo de regresion lineal mediante matrices.

Page 139: Principal g

4.7 Regresion lineal multiple 139

Supongamos que tenemos el modelo de regresion lineal (4.3) y hacemos n observa-

ciones y1, y2, . . . , yn. Entonces, cada observacion yi se escribe como

yi = β0 + β1xi1 + β2xi2 + . . . + βkxik + εi

xij es la j-esima variable independiente para la i-esima observacion (i = 1, . . . , n).

Ahora, definimos las matrices

Y =

y1

y2

...

yn

y X =

x0 x11 x12 · · · x1k

x0 x21 x23 · · · x2k

x0 x31 x33 · · · x3k

......

.... . .

...

x0 xn1 xn2 · · · xnk

con x0 = 1

β =

β0

β1

...

βk

y ε =

ε1

ε2

...

εk

Las n ecuaciones que representan a las n observaciones yi se pueden escribir como:

Y = Xβ + ε

Ahora, las ecuaciones de mınimos cuadrados ordinarios estan dadas por

X tXβ = X tY

donde

β =

β0

β1

...

βk

Entonces β = (X tX)−1X tY .

Por lo tanto, el modelo ajustado es

y = Xβ = X(X tX)−1X tY

Page 140: Principal g

140 Regresion lineal y multilineal

Ejercicio 4.7.1. Dados los siguientes datos

x 0 1 2 3 4 5 6

y 1 4 5 3 2 3 4

a) Ajuste el modelo cuadratico

E(y/x) = β0 + β1x + β2x2

b) Estime y cuando x = 2

Solucion:

a) Sea x1 = x y x2 = x2, entonces y = β0 + β1x1 + β2x2. Ahora,

X =

1 0 0

1 1 1

1 2 4

1 3 9

1 4 16

1 5 25

1 6 36

y X t =

1 1 1 1 1 1 1

0 1 2 3 4 5 6

0 1 4 9 16 25 36

entonces

X tX =

1 1 1 1 1 1 1

0 1 2 3 4 5 6

0 1 4 9 16 25 36

1 0 0

1 1 1

1 2 4

1 3 9

1 4 16

1 5 25

1 6 36

=

7 21 91

21 91 441

91 441 2275

Page 141: Principal g

4.7 Regresion lineal multiple 141

Calculando la inversa de X tX

(X tX)−1 =

7 21 91 | 1 0 0

21 91 441 | 0 1 0

91 441 2275 | 0 0 1

Pant = 1

Pact = 7∼

7 21 91 | 1 0 0

0 196 1176 | −21 7 0

0 1176 7644 | −91 0 7

Pant = 7

Pact = 196∼

196 0 −980 | 91 −21 0

0 196 1176 | −21 7 0

0 0 16464 | 980 −1176 196

Pant = 196

Pact = 16464∼

16464 0 0 | 12544 −7644 980

0 16464 0 | −7644 7644 −1176

0 0 16464 | 980 −1176 196

dividiendo todo el arreglo anterior entre el ultimo Pact

1 0 0 | 16/21 −13/28 5/84

0 1 0 | −13/28 13/28 −1/14

0 0 1 | 5/84 −1/14 1/84

Por lo tanto,

(X tX)−1 =

16/21 −13/28 5/84

−13/28 13/28 −1/14

5/84 −1/14 1/84

Page 142: Principal g

142 Regresion lineal y multilineal

Ahora bien,

β = (X tX)−1X tY =

16/21 −13/28 5/84

−13/28 13/28 −1/14

5/84 −1/14 1/84

1 1 1 1 1 1 1

0 1 2 3 4 5 6

0 1 4 9 16 25 36

1

4

5

3

2

3

4

=

2.4062

0.7143

−0.09524

Por lo tanto, β0 = 2.4062, β1 = 0.7143 y β3 = −0.09524. Entonces, el modelo de

prediccion es

y = 2.4062 + 0.7143x− 0.09524x2.

b) E(y/x = 2) = 2.4062 + 0.7143(2)− 0.09524(2)2 = 3.4538.

Ejercicio 4.7.2. Se llevo a cabo un experimento para determinar la distancia de fre-

nado a diferentes velocidades de un modelo nuevo de automovil. Se registraron los

siguientes datos:

Velocidad 35 50 65 80 95 110

Distancia de frenado 16 26 41 62 88 119

a) Ajuste una curva de regresion multiple de la forma E(y/x) = β0 + β1x + β2x2

b) Estime la distancia de frenado cuando el vehıculo viaja a la velocidad de 70 kmh

Solucion:

Page 143: Principal g

Capıtulo 5

Habilidades basicas

I.- Complete los siguientes:

1. Comprende las tecnicas que se emplean para resumir y describir datos numeri-

cos, de tipo grafico, o que requieren analisis computacional.

2. En base a que, en una muestra sometida a observacion sirven para tomar deci-

siones.

3. Si cuento como observaciones el numero de alumnos del grupo, se refiere a

variable:

4. Si tomo el promedio de peso de los integrantes del grupo, hablo de una variable:

5. Los metodos de muestreo aleatorio son:

6. ¿Cuando aplico muestreo de juicio?

7. ¿Cuando aplico muestreo por conveniencia?

8. ¿Cuando aplico muestreo por subgrupos racionales?

9. ¿Cuando aplico muestreo sistematico?

Page 144: Principal g

144 Habilidades basicas

10. ¿Cuando aplico muestreo estratificado?

II.- Instrucciones: Realiza los siguientes ejercicios

11. Con los siguientes datos Datos:

1, 4, 5, 6, 6, 8, 9, 10, 10, 10, 11, 12, 13, 14, 15, 16, 24, 28, 29, 49, 58, 67, 77, 94

a) Construye una tabla de distribucion de frecuencias.

b) Encuentra las medidas de tendencia central y de dispersion.

c) Realiza las graficas de: histograma (o grafica de barras segun convenga),

pastel, polıgono de frecuencias.

12. Con los siguientes datos

10, 20, 30, 30, 20, 20, 2040, 60, 60, 60, 60, 70, 90, 80, 100

a) Construye una tabla de distribucion de frecuencias.

b) Encuentra las medidas de tendencia central y de dispersion.

c) Realiza las graficas de: histograma (o grafica de barras segun convenga),

pastel, polıgono de frecuencias.

13. Con los siguientes datos

50, 44, 47, 47, 47, 32, 33, 34, 45, 28, 10, 12, 14, 15, 27, 50, 33, 22, 22, 11

a) Construye una tabla de distribucion de frecuencias.

b) Encuentra las medidas de tendencia central y de dispersion.

c) Realiza las graficas de: histograma (o grafica de barras segun convenga),

pastel, polıgono de frecuencias.

III.- Instrucciones: Conteste el siguiente cuestionario de acuerdo a los

conocimientos adquiridos en estadistica descriptiva

Page 145: Principal g

145

14. Se ocupa una vez hecha la recopilacion de los datos, ordenarlos y clasificarlos

para extraer conclusiones:

15. Estudia las tecnicas de ordenacion, clasificacion, recuento y presentacion de

datos en tablas y graficas, y de obtener valores que resuman la informacion:

16. Es el conjunto de elementos que poseen una determinada caracterıstica que

deseamos medir o estudiar:

17. Es la seleccion de un subconjunto de la poblacion:

18. Al n0 de elementos de una muestra se le denomina:

19. Es la caracterıstica que se va a estudiar en la poblacion:

20. Son aquellas que se pueden cuantificar, como la edad, peso, n0 de hijos, etc.

Ademas es una de las divisiones de caracter:

21. Es el conjunto de valores que toma un caracter estadıstico:

22. Son las representaciones que se hacen cuando la variable es continua:

23. Es la representacion que se usa cuando la variable es cualitativa, por ejemplo

color del coche, aunque tambien se puede usar en variable discreta:

IV.- Instrucciones: Conteste el siguiente cuestionario de acuerdo a los

conocimientos adquiridos en Regresion.

24. ¿Que es una lınea de regresion?

25. ¿Como se utilizan las lıneas de regresion?

26. Compare los terminos “variable dependiente”y “variable independiente”.

27. ¿Que mide r2?

Page 146: Principal g

146 Habilidades basicas

28. ¿Que ventaja tiene la regresion multiple con respecto a la regresion lineal?¿Que desven-

tajas?

29. ¿Como determinarıa cual de las dos tecnicas: la de regresion lineal o la multiple

serıa la mas apropiada para una situacion determinada?

30. Compare la finalidad del analisis de regresion con la del analisis de correlacion.

31. ¿Porque es importante trazar un diagrama de dispersion para tecnicas de regre-

sion o correlacion de dos variables?

32. ¿Que significa un signo − antes de r?¿Antes de β1?

33. En la mayorıa de las aplicaciones en negocios, ¿que tecnica es mas util la de

correlacion o la de regresion?¿Por que?

V.- Usando las tecnicas de Regresion Lineal, resuelve los siguientes:

34. Dada la siguiente distribucion:

X 2 2 2 4 7 7 10 10

Y 3 4 5 5 4 5 3 5

Determina la recta de regresion de Y sobre X.

35. En el servicio central de turismo del paıs se ha observado que el numero de plazas

hoteleras ocupadas es diferente segun sea el precio de la habitacion. Sobre el

total de plazas ocupadas en un ano se tiene:

Precio (US$/noche) 250 650 1000 1400 2100 2500 2700 3300 4000

N0 hab. ocup. 4725 2610 1872 943 750 700 700 580 500

a) Representa los datos graficamente, para comprobar que existe cierta depen-

dencia lineal entre las variables.

Page 147: Principal g

147

b) Halla la ecuacion de la recta de regresion del numero de habitaciones sobre

el precio. Halla la ecuacion de la recta de regresion del precio sobre el

numero de habitaciones.

c) ¿Cuantas habitaciones se llenarıan a 1500 US$?

36. El volumen de ahorro y la renta del sector familiar en billones de pesos, para el

periodo 77− 86 fueron:

Ano 77 78 79 80 81 82 83 84 85 86

Ahorro 1.9 1.8 2.0 2.1 1.9 2.0 2.2 2.3 2.7 3.0

Renta 20.5 20.8 21.2 21.7 22.1 22.3 22.2 22.6 23.1 23.5

a) Recta de regresion considerando el ahorro como variable independiente.

b) Recta de regresion considerando la renta como variable independiente

c) Para el ano 87 se supone una renta de 24.1 billones de pesos. ¿Cual sera el

ahorro esperado para el ano 87?

37. Los datos de la tabla adjunta muestran el tiempo en horas de impresion de tra-

bajos que se han imprimido en una impresora laser de la marca HP . Se esta in-

teresado en estudiar la relacion existente entre la variable de interes “tiempo

de impresion de un trabajo ”y la variable explicativa “numero de paginas del

trabajo ”.

Tiempo 1 2 3 4 5 6 7 8

N0 Paginas 600 900 1400 1800 2500 3200 3400 4500

a) Encuentre la recta de regresion considerando el tiempo como variable inde-

pendiente.

b) Encuentre la recta de regresion considerando el numero de paginas como

variable independiente

c) Estime cuantas paginas se imprimirıan en 12 horas.

Page 148: Principal g

148 Habilidades basicas

VI.- Usando las tecnicas de Regresion Multiple, resuelve los sigu-

ientes:

[?]

Page 149: Principal g

Bibliografıa