estadística descriptiva - instituto nacional de estadística y ...stica descriptiva.pdf · •...

51
Estadística Descriptiva

Upload: vuphuc

Post on 08-Oct-2018

221 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Estadística Descriptiva - Instituto Nacional de Estadística y ...stica Descriptiva.pdf · • Medidas de localización y dispersión • Medidas de sesgo • Otras medidas 4. Descripción

Estadística Descriptiva

Page 2: Estadística Descriptiva - Instituto Nacional de Estadística y ...stica Descriptiva.pdf · • Medidas de localización y dispersión • Medidas de sesgo • Otras medidas 4. Descripción

2

Estadística Descriptiva

Page 3: Estadística Descriptiva - Instituto Nacional de Estadística y ...stica Descriptiva.pdf · • Medidas de localización y dispersión • Medidas de sesgo • Otras medidas 4. Descripción

3

Estadística Descriptiva

PRESENTACIÓN En el marco del Programa Integral de Capacitación, Formación e Investigación (PICFI), se desarrolló en el INEGI el proyecto de capacitación en Estadística apoyada con instructores internos, con el propósito de brindar los elementos teórico—prácticos necesarios para el uso y aprovechamiento de las diversas herramientas y metodología estadísticas, que coadyuven a un mayor rendimiento y una mejor calidad en las labores cotidianas de los trabajadores. Para que este fin pueda ser alcanzado, es necesario que haya una producción de material didáctico de apoyo a los eventos de capacitación; la cual es por un lado creativa y por otro reproductiva. La producción creativa implica todo un proceso que abarca desde la definición de objetivos de aprendizaje hasta la edición final del documento que constituirá el manual para el curso. En tanto que la reproductiva se refiere a la multiplicación del manual original para cada uno de los participantes. Evidentemente, el principal esfuerzo se centra en la elaboración de nuevos manuales de instrucción, ya que así estamos en posibilidades de brindar la capacitación y formación necesaria, a fin de que el personal que conforma el instituto, pueda afrontar los retos de productividad que se plantean en el corto y mediano plazo. Con cada nuevo material, se fortalece el programa institucional y se fomenta una nueva cultura: la cultura de una nueva formación profesional, cuyo eje principal descansa en la participación activa y responsable del individuo en su propio proceso de enseñanza—aprendizaje. En este entorno, presentamos al lector el manual de Estadística descriptiva como parte de este esfuerzo por alcanzar la misión del PICFI, esperando contribuir positivamente en las tareas sustantivas que desarrolla el INEGI.

Page 4: Estadística Descriptiva - Instituto Nacional de Estadística y ...stica Descriptiva.pdf · • Medidas de localización y dispersión • Medidas de sesgo • Otras medidas 4. Descripción

4

Estadística Descriptiva

ESTADÍSTICA DESCRIPTIVA

Objetivo: manejar las herramientas básicas (graficas y numéricas) de estadística descriptiva, entender sus limitaciones e identificar la temática general que tocan distintas disciplinas de la estadística como lo son: muestreo, inferencia y regresión. Dirigido a: todo el personal que requiera actualizarse en las distintas disciplinas relacionadas con su actividad. Requisitos: acreditar satisfactoriamente álgebra básica. Contenido: 1. Introducción

• Objetivos de la estadística • Concepto de población y muestra • Tipos básicos de datos

2. Descripción de datos por tablas y graficas • Diagrama de barras • Diagrama de puntos • Tablas de frecuencia • Histogramas

3. Medidas numéricas • Medidas de localización y dispersión • Medidas de sesgo • Otras medidas

4. Descripción de datos divariados • Diagramas de dispersión • Tablas de contingencia • Coeficiente de correlación

Duración: 20 horas

Page 5: Estadística Descriptiva - Instituto Nacional de Estadística y ...stica Descriptiva.pdf · • Medidas de localización y dispersión • Medidas de sesgo • Otras medidas 4. Descripción

5

Estadística Descriptiva

Bibliografía: • Título: Estadística para Administración y Economía Autor: Mendenhall Reinmuth Editorial: Grupo Editorial Iberoamérica

• Título: Probabilidad y Estadística Aplicaciones y Métodos Autor: G.C. Canavos Editorial: Mc. Graw Hill, 1987

• Título: Statistics Third Edition Autor: David S. Moore Editorial: W.H. Freeman and Company

Page 6: Estadística Descriptiva - Instituto Nacional de Estadística y ...stica Descriptiva.pdf · • Medidas de localización y dispersión • Medidas de sesgo • Otras medidas 4. Descripción

6

Estadística Descriptiva

1. INTRODUCCIÓN Para mucha gente, estadística significa descripciones numéricas. Esto puede verificarse fácilmente al escuchar, un domingo cualquiera, a un comentarista de televisión narrar un juego de fútbol. Sin embargo, en términos más precisos, la estadística es el estudio de los fenómenos aleatorios. En este sentido la ciencia de la estadística tiene, virtualmente, un alcance ilimitado de aplicaciones en un espectro tan amplio de disciplinas que van desde las ciencias y la ingeniería hasta las leyes y la medicina. El aspecto más importante de la estadística es la obtención de conclusiones basadas en los datos experimentales. Este proceso se conoce como inferencia estadística. Si una conclusión dada pertenece a un indicador económico importante o a una posible concentración peligrosa de cierto contaminante, o bien, si se pretende establecer una relación entre la incidencia de cáncer pulmonar y el fumar, es muy común que la conclusión esté basada en la inferencia estadística. OBJETIVOS DE LA ESTADÍSTICA El objetivo de la estadística y lo que son las partes de un problema estadístico se dan a continuación. El objetivo de la estadística es el de hacer inferencias (predecir, decidir) sobre algunas características de una población1 con base en la información contenida en una muestra2. ¿Cómo lograr este objetivo? Se verá que todo problema estadístico consta de cinco partes. La solución de cada una de estas partes permite el logro del objetivo. La primera y más importante de las partes de un problema es una especificación clara de la pregunta a contestar y de la población sobre la cual dicha pregunta se hace.

1 Definición: Una población es el conjunto de todas las mediciones de interés al muestrista. 1 Definición: Una muestra es una colección de mediciones seleccionadas de la población de interés.

Page 7: Estadística Descriptiva - Instituto Nacional de Estadística y ...stica Descriptiva.pdf · • Medidas de localización y dispersión • Medidas de sesgo • Otras medidas 4. Descripción

7

Estadística Descriptiva

La segunda parte concierne al problema estadístico referente a la obtención de la muestra. Esta parte se conoce como diseño del experimento o procedimiento de muestreo y es importante porque la información cuesta tiempo y dinero. No es poco común que un estudio para una empresa cueste 50 000 o 500 000 dólares y en muchos casos, el costo de ciertos experimentos puede ser de millones. ¿Qué es lo que estos estudios proveen? Los resultados son números; en una palabra, información. El incluir demasiadas observaciones en la muestra es costoso y en muchos casos inútil, y por el otro lado el incluir muy pocas puede ser insatisfactorio. Además, la forma en que la muestra sea seleccionada afecta la cantidad de información contenida en cada observación. Un buen diseño de muestreo puede reducir, en ocasiones, el costo del «levantamiento» de la muestra a un décimo o un centésimo del costo utilizando otro diseño. La tercera parte de un problema estadístico consiste en el análisis de la información muestral. Independientemente de la cantidad de información contenida en la muestra, se tiene que utilizar aquí el método estadístico apropiado para extraer la información de los datos. La cuarta parte de un problema estadístico corresponde a inferir acerca de la población haciendo uso de la información muestral. Como se verá, se pueden utilizar muchos procedimientos para hacer una estimación, decidir sobre alguna característica de la población o predecir el valor de algún miembro de la misma. Por ejemplo, puede haber 10 métodos distintos para predecir las ventas de una empresa, de las cuales uno puede ser más preciso. Por lo tanto, se quiere en esta parte utilizar el mejor procedimiento de inferencia para estimar, decidir o predecir con base en la información muestral. La última parte de un problema estadístico se identifica con lo que posiblemente es la mayor contribución de la estadística al análisis de toma de decisiones. En esta parte se contesta a la pregunta «¿Qué tan buena es la inferencia?» Con propósitos de ilustración, suponga que se conduce un estudio estadístico y como resultado se estima que el producto de la compañía obtendrá un 34% adicional de mercado para el próximo año. No satisfechos con la información cabe preguntarse «¿Qué tan precisa es la estimación?» ¿De qué valor puede ser

Page 8: Estadística Descriptiva - Instituto Nacional de Estadística y ...stica Descriptiva.pdf · • Medidas de localización y dispersión • Medidas de sesgo • Otras medidas 4. Descripción

8

Estadística Descriptiva

una estimación sin una medida de confiabilidad? ¿Será la estimación precisa dentro de un 1%, 5% ó 20%? ¿Será lo suficientemente confiable como para basar en ella planes de producción? Como se verá más adelante, los procedimientos de estimación, toma de decisiones y predicción permiten calcular una medida de la bondad de cada inferencia. En consecuencia, en una situación práctica, toda inferencia debe ir acompañada por una medida que diga «que tanta fe» se le puede tener.

El enfoque precedente para la inferencia estadística descansa únicamente en la evidencia muestral. Este es denominado teoría del muestreo o enfoque clásico de la inferencia estadística y para la mayor parte de ésta, será el que se tome en este curso. CONCEPTO DE POBLACIÓN Y MUESTRA Para comprender la naturaleza de la inferencia estadística, es necesario entender las nociones de población y muestra. La población es la colección de toda la posible información que caracteriza a un fenómeno. En estadística, población es un concepto mucho más general del que tiene la acepción común de esta palabra. En este sentido, una población es cualquier colección ya sea de un número finito de mediciones o una colección grande, virtualmente infinita, de datos acerca de algo de interés. Por otro lado, la muestra es un subconjunto representativo seleccionado de una población. La palabra representativo es la clave de esta idea. Una buena muestra es aquella que refleja las características esenciales de la población de la cual se obtuvo. En estadística, el objetivo de las técnicas de muestreo conduce a una muestra aleatoria. Las observaciones de la muestra aleatoria se usan para calcular

Partes de un problema estadístico 1. Una definición clara de la población de interés. 2. El diseño del experimento o procedimiento de muestreo. 3. Recopilación y análisis de los datos. 4. Identificación del procedimiento para hacer inferencias sobre la población con base en la información muestral. 5. Obtención de una medida de la bondad (confiabilidad) de la inferencia.

Page 9: Estadística Descriptiva - Instituto Nacional de Estadística y ...stica Descriptiva.pdf · • Medidas de localización y dispersión • Medidas de sesgo • Otras medidas 4. Descripción

9

Estadística Descriptiva

ciertas características de la muestra denominadas estadísticas. Las estadísticas se usan como base para hacer inferencias acerca de ciertas características de la población, que reciben el nombre de parámetros. Así, muchas veces se analiza la información que contiene una muestra aleatoria con el propósito principal de hacer inferencias sobre la naturaleza de la población de la cual se obtuvo la muestra. En estadística la inferencia es inductiva porque se proyecta de lo específico (muestra) hacia lo general (población). En un procedimiento de esta naturaleza siempre existe la posibilidad de error. Nunca podrá tenerse el 100% de seguridad sobre una proposición que se basa en la inferencia estadística. Sin embargo, lo que hace que la estadística sea una ciencia (separándola del arte de adivinar la fortuna) es que unida a cualquier proposición, existe una medida de la confiabilidad de ésta. En estadística la confiabilidad se mide en términos de probabilidad. En otras palabras, para cada inferencia estadística se identifica la probabilidad de que la inferencia sea correcta.

Page 10: Estadística Descriptiva - Instituto Nacional de Estadística y ...stica Descriptiva.pdf · • Medidas de localización y dispersión • Medidas de sesgo • Otras medidas 4. Descripción

10

Estadística Descriptiva

TIPOS BÁSICOS DE DATOS En el estudio de la estadística interesa, básicamente, la presentación e interpretación de resultados aleatorios que se dan en un estudio planeado o en una investigación científica. De aquí que los estadísticos frecuentemente manejen ya sea datos experimentales, que representan conteos o mediciones, o tal vez datos categóricos que puedan clasificarse de acuerdo con algún criterio. Cualquier registro de información, sea éste numérico o categórico, se denominará observación. EJERCICIOS En cualquier experimento que incluya análisis de datos, es importante tener una imagen clara de la composición tanto de la muestra como de la población. A menudo los conceptos se confunden o se definen vagamente por lo que los resultados experimentales resultan de difícil interpretación. En ocasiones los errores llevan a conclusiones absurdas o simplemente sin sentido. Para aclarar las nociones de muestra y población se consideran tres actividades a realizar ya sea individualmente o por grupos de estudiantes.

1. Visite la biblioteca de su centro de trabajo y seleccione una revista de investigación apropiada para su ámbito. Después de seleccionar una revista, escoja un artículo en el que se hable de una encuesta por muestreo, sin necesidad de que aparezcan en él los datos. Establezca el objetivo de la encuesta e identifique el procedimiento utilizado en el levantamiento de los datos.

Defina e identifique las unidades experimentales, la muestra y la población. Recuerde el objetivo de la estadística y explique cómo la inferencia sobre la población pudo ayudar a contestar las preguntas postuladas en la investigación.

Page 11: Estadística Descriptiva - Instituto Nacional de Estadística y ...stica Descriptiva.pdf · • Medidas de localización y dispersión • Medidas de sesgo • Otras medidas 4. Descripción

11

Estadística Descriptiva

2. Las encuestas de opinión aparecen con frecuencia en la prensa. Encuentre una de esas encuestas y discuta el objetivo de ella y el procedimiento empleado para obtener los datos muéstrales, la muestra y la población. Explique cómo los resultados encontrados pueden representar una inferencia sobre la población.

En la vecindad de períodos de elecciones presidenciales, continuamente se realizan encuestas para sondear la predilección del público por los distintos candidatos. ¿Qué problemas especiales enfrentan los encuestadores en la selección de sus unidades experimentales, problemas que no enfrentan en otro tipo de encuestas de opinión? ¿Debe preocuparse el encuestador por sólo aquellas personas que pueden votar? Si es así, ¿Cómo puede identificar a las personas con derecho a voto?

3. Seleccione una intersección de calles con tráfico intenso

y diseñe un experimento para medir el tráfico diario. Defina la población e incluya en su estudio los vehículos que desee. Defina las unidades experimentales y la muestra y encuentre un procedimiento para la selección de los datos muéstrales. ¿Qué problemas encuentra para diseñar el experimento, definir las unidades, muestra y población? ¿De qué forma el objetivo de su estudio le ayuda para ir aclarando las nociones de unidades, muestra y población?

Page 12: Estadística Descriptiva - Instituto Nacional de Estadística y ...stica Descriptiva.pdf · • Medidas de localización y dispersión • Medidas de sesgo • Otras medidas 4. Descripción

12

Estadística Descriptiva

2. DESCRIPCIÓN DE DATOS POR TABLAS Y GRÁFICAS Recuerde que el objetivo de la estadística moderna es hacer inferencias acerca de un conjunto de datos, usualmente grande, llamado población, con base en la información contenida en una muestra. Para formular las inferencias es necesario poder describir un conjunto de datos ya sea éste la población o una muestra. Un buen número de textos tratan de los métodos de la estadística descriptiva, es decir, los métodos usados para describir conjuntos de datos numéricos. Estos métodos pueden ser clasificados en dos tipos: métodos gráficos y métodos numéricos. Aquí la discusión se restringe a unos cuantos métodos, tanto gráficos como numéricos, que son útiles no solamente para propósitos descriptivos sino también para hacer inferencias. DIAGRAMA DE BARRAS Cuando se tienen datos que fueron colectados en distintos períodos de tiempo o distintas áreas geográficas es conveniente usar tablas o diagramas de diversos tipos para su presentación. Se cuenta con auxiliares como los diagramas de barras, las gráficas de líneas o los diagramas circulares que sirven como un resumen visual de los datos. Hay muchos otros métodos gráficos que usa el estadístico en los negocios y en la economía pero la discusión se limita a los ya mencionados.

Tabla 1. Análisis de los empleados en un despacho de asesoría

1974 1975 1976 1977

Total de Empleados 100 115 110 150

Profesionales 40 44 42 58

Hombres 37 40 39 48

Mujeres 3 4 3 10

No Profesionales 60 71 68 92

Hombres 50 58 56 69

Mujeres 10 13 12 23

Page 13: Estadística Descriptiva - Instituto Nacional de Estadística y ...stica Descriptiva.pdf · • Medidas de localización y dispersión • Medidas de sesgo • Otras medidas 4. Descripción

13

Estadística Descriptiva

La tabla 1 muestra, como ejemplo de una tabla estadística, el desglose por nivel académico y sexo de los empleados en un despacho de asesores para los años de 1974 a 1977. Las clasificaciones por cada uno de los cuatro años son las mismas, lo cual permite hacer comparaciones entre los distintos años. Las entradas de la tabla dan el número total de empleados, desglosado en profesionales y no profesionales por cada año. Note que la suma de profesionales y no profesionales da el número total de empleados para un año dado. La tabla también desglosa a profesionales y no profesionales en número de hombres y mujeres. Algunas veces se usan porcentajes como entradas de las tablas estadísticas. Cuando sea éste el caso, las tablas deben ser examinadas cuidadosamente puesto que las comparaciones entre entradas correspondientes a distintas muestras pueden verse distorsionadas si el número de observaciones varía de muestra a muestra. Por ejemplo, dos entradas en un mismo renglón de la tabla pueden tener 50% ambas, pero la primera entrada puede representar 100 de 200 y la segunda puede representar 1 de 2. El 50% de la primera entrada basado en un total de 200 observaciones es, en este caso, más representativo que el segundo, basado en un total de 2. Por lo tanto, ambos porcentajes deben compararse con cuidado. En la gráfica 1 se ejemplifica como se puede usar un diagrama de barras para exhibir gráficamente algunos de los datos de los empleados en la tabla 1. Por lo general los diagramas de barras no se subdividen tan finamente como las tablas puesto que particiones adicionales hacen confusa la apariencia de la gráfica, lo que desvirtúa el objetivo de producir una gráfica que sea de lectura sencilla y permita un análisis rápido de datos. Es posible construir distintos diagramas de barras que exhiban la misma información. En el ejemplo de la gráfica 1 es posible usar 3 barras para cada año, una barra exhibiendo el número de hombres, otra el número de mujeres y la tercera el número total de empleados. El tipo de diagrama usado no es importante, en tanto describa la información en forma clara y fácil de interpretar.

Page 14: Estadística Descriptiva - Instituto Nacional de Estadística y ...stica Descriptiva.pdf · • Medidas de localización y dispersión • Medidas de sesgo • Otras medidas 4. Descripción

14

Estadística Descriptiva

0

50

100

150

200

1974 1975 1976 1977

Años

Núm

ero

de E

mpl

eado

s

hombresmujeres

Gráfica 1. Diagrama de barras

Los diagramas de barras sirven principalmente para representar el total de una cierta cantidad para cada año o para cada categoría presentada. DIAGRAMA DE PUNTOS Basta ilustrar con un ejemplo, considérense las observaciones muéstrales 5, 7, 1, 2, 4. Estas observaciones se muestran en el diagrama de puntos que se presenta en la gráfica 2.

0 1 2 3 4 5 6 7 8

Gráfica 2. Diagrama de puntos

Page 15: Estadística Descriptiva - Instituto Nacional de Estadística y ...stica Descriptiva.pdf · • Medidas de localización y dispersión • Medidas de sesgo • Otras medidas 4. Descripción

15

Estadística Descriptiva

TABLA DE FRECUENCIAS Una descripción informativa de cualquier conjunto de datos está dada por la frecuencia de repetición u arreglo distribucional de las observaciones en el conjunto. Para apreciar lo necesario de un resumen de datos, considere el ejemplo del Servicio de Hacienda Interno (SHI) que se encarga de recibir y procesar millones de declaraciones de ingresos durante todo el año. Es dudoso que el SHI pueda descubrir los patrones ocultos de ingresos e impuestos examinando simplemente la información contenida en las declaraciones. Similarmente, el Departamento del Censo no podría avanzar mucho al analizar los datos del censo, si éstos no pudiesen visualizarse. Para identificar los patrones en un conjunto de datos es necesario agrupar las observaciones en un número relativamente pequeño de clases que no se superpongan entre sí, de tal manera que no exista ninguna ambigüedad con respecto a la clase a que pertenece una observación en particular. El número de observaciones en una clase recibe el nombre de frecuencia de clase, mientras que el cociente de una frecuencia de clase con respecto al número combinado de observaciones en todas las clases se conoce como la frecuencia relativa de esa clase. Las fronteras de la clase se denominan límites, y el promedio aritmético entre los límites superior e inferior recibe el nombre de punto medio de la clase.

Número de unidades vendidas (clase)

Frecuencia de la clase Frecuencia relativa

89 - 89 7 7/100 = 0.07 90 - 99 20 20/100 = 0.20 100 - 109 5 5/100 = 0.05 110 - 119 11 11/100 = 0.11 120 - 129 11 11/100 = 0.11 130 - 139 12 12/100 = 0.12 140 - 149 6 6/100 = 0.06 150 - 159 23 23/100 = 0.23 160 - 169 5 5/100 = 0.05 Total 100 1.00

Tabla 2. Frecuencias para el número de unidades vendidas de cierto producto

Page 16: Estadística Descriptiva - Instituto Nacional de Estadística y ...stica Descriptiva.pdf · • Medidas de localización y dispersión • Medidas de sesgo • Otras medidas 4. Descripción

16

Estadística Descriptiva

HISTOGRAMAS Al graficarse las frecuencias relativas de las clases contra sus respectivos intervalos en forma de rectángulos, se produce lo que comúnmente se conoce como histograma de frecuencia relativa o distribución de frecuencia relativa. Esta última es la que puede hacer evidentes los patrones existentes en un conjunto de datos. Como ilustración, los datos de la tabla 2 representan las frecuencias de unidades vendidas por día de un determinado producto por una compañía. El histograma de frecuencia relativa se construye graficando en el eje vertical la frecuencia relativa y en el eje horizontal las fronteras inferiores de cada clase, como se ilustra en la gráfica 3.

00,

050,

10,

150,

20,

25

Número de unidades vendidas

Frec

uenc

ia re

lativ

a EsteOesteNorteColumnas 4Columnas 5Columnas 6Columnas 7Columnas 8Columnas 9

Gráfica 3. Histograma de frecuencia relativa para el no. de unidades vendidas. El número de clases que se emplea para clasificar los datos en un conjunto depende del total de observaciones de éste. Si el número de observaciones es relativamente pequeño, el número de clase a emplear será cercano a cinco, pero generalmente nunca menor que este valor. Si existe una cantidad sustancial de datos, el número de clases debe encontrarse entre ocho y doce y generalmente no existirán más de 15 clases. Un número muy pequeño de clases puede ocultar la distribución real del conjunto de datos, mientras que un número muy grande puede dejar sin observaciones a algunas de las clases, limitando de esta forma su uso. A manera de ilustración, si se reducen las nueve clases a sólo tres, en el ejemplo anterior, como se indica en la tabla 3, el histograma de frecuencia relativa resultante (gráfica 4) es muy diferente al mostrado en la gráfica 3.

Page 17: Estadística Descriptiva - Instituto Nacional de Estadística y ...stica Descriptiva.pdf · • Medidas de localización y dispersión • Medidas de sesgo • Otras medidas 4. Descripción

17

Estadística Descriptiva

Número de unidades vendidas (clase)

Frecuencia de la clase

Frecuencia relativa

80 - 109 32 32/100 = 0.32 110 - 139 34 34/100 = 0.34 140 - 169 34 34/100 = 0.34 Total 100 1.00

Tabla 3. Frecuencia para el número de unidades vendidas de cierto producto

0,1

0,2

0,3

0,4

Número de unidades vendidas

Frec

uenc

ia re

lativ

a

Gráfica 4. Histograma modificado para el número de unidades vendidas.

Una buena práctica es la creación de clases que tengan una longitud igual. Esto puede lograrse tomando la diferencia entre los dos valores extremos del conjunto de datos y dividiéndola entre el número de clases; el resultado será aproximadamente la longitud del intervalo para cada clase. Sin embargo, existen casos donde esta regla no puede o no debe aplicarse. Por ejemplo, si se tuviera a la mano la lista de impuestos del SHI pagados por la población en un año, estas cantidades pueden encontrarse en un intervalo de $0 a $1 000 000. Aún a pesar de que se eligiesen 20 clases para la distribución de frecuencia relativa, con intervalos de igual longitud, cada clase tendría una cobertura de $50 000. Lo anterior daría origen a una situación en la que casi todas las observaciones caerían en la primera clase. Para casos como éste es preferible seleccionar una escala más pequeña en el extremo inicial que la utilizada para el extremo superior. Esta elección aclarará el patrón de la distribución.

Page 18: Estadística Descriptiva - Instituto Nacional de Estadística y ...stica Descriptiva.pdf · • Medidas de localización y dispersión • Medidas de sesgo • Otras medidas 4. Descripción

18

Estadística Descriptiva

EJERCICIOS. 1. De acuerdo con la revista Informes al consumidor en su

número de febrero de 1980, las cuotas anuales de 40 compañías para un seguro de $25 000 para hombre de 35 años de edad son las siguientes:

$ 82 85 86 87 87 89 89 90 91 91 92 93 94 95 95 95 95 95 97 98 99 99 100 100 101 101 103 103 103 104 105 105 106 107 107 107 109 110 110 111

Establecer un esquema de agrupamiento para este conjunto de datos y determinar las frecuencias relativas. El Departamento de Agricultura de Estados Unidos informó que, en 1976, los ingresos netos por cosecha para los 50 estados de la nación, fueron los siguientes:

$ 5 952 63 855 39 362 9 692 27 611 13 647 10 630 6 644 4 438 19 106 8 681 5 332 2 304 6 859 8 141 11 771 9 378 5 992 7 000 12 543 4 963 4 543 11 177 12 292 6 695 10 207 7 627 8 992 23 811 7 657 8 043 8 972 6 480 6 824 9 554 4 626 4 845 10 452 9 922 7 683 5 119 8 621 2 290 4 973 3 904 2 892 5 405 2 789 30 241

Establecer un esquema de agrupamiento para este conjunto de datos y determinar las frecuencias relativas.

2. Los datos en la tabla representan los gastos de

consumo personal por tipo de bienes en los Estados Unidos, para algunos años entre 1929 y 1969 (en miles de millones de dólares):

Page 19: Estadística Descriptiva - Instituto Nacional de Estadística y ...stica Descriptiva.pdf · • Medidas de localización y dispersión • Medidas de sesgo • Otras medidas 4. Descripción

19

Estadística Descriptiva

AÑO TIPO DE BIENES 1929 1949 1959 1969 bienes perdurables 9.2 24.6 44.3 90.0 bienes perecederos 37.7 94.6 146.6 245.8 Servicios 30.3 54.6 120.3 241.6

a. Elabore una gráfica de barras que represente estos datos. b. Use la gráfica para discutir los cambios en el tiempo de los gastos en los 3 tipos de bienes en el período de 1929 a1969.

Page 20: Estadística Descriptiva - Instituto Nacional de Estadística y ...stica Descriptiva.pdf · • Medidas de localización y dispersión • Medidas de sesgo • Otras medidas 4. Descripción

20

Estadística Descriptiva

3. MEDIDAS NUMÉRICAS En la sección anterior se plantearon las técnicas gráficas para descubrir los patrones de distribución ocultos en un conjunto de datos. En esta sección se definen algunas medidas numéricas que se emplean comúnmente para describir conjuntos de datos. Si el conjunto es una muestra aleatoria de una población y la última meta es hacer inferencia estadística, estas medidas serán utilizadas como bases para las inferencias. Medidas de localización Existen dos medidas de interés para cualquier conjunto de datos: la localización de su centro y su variabilidad. La tendencia central de un conjunto de datos es la disposición de éstos para agruparse ya sea alrededor del centro o de ciertos valores numéricos. La variabilidad de un conjunto de datos es la dispersión de las observaciones en el conjunto. Existen principalmente tres medidas de tendencia central: la media, la mediana y la moda. DEFINICIÓN 3.1 La media de las observaciones x1, x2, xn, es el promedio aritmético de éstas y se denota por X X ni

i

n

==∑

1 La media es una medida apropiada de tendencia central para muchos conjuntos de datos. Sin embargo, dado que cualquier observación en el conjunto se emplea para su cálculo, el valor de la media puede afectarse de manera desproporcionada por la existencia de algunos valores extremos (aislados). Definición 3.2 La mediana de un conjunto de observaciones es el valor para el cual, cuando todas las observaciones se ordenan de manera creciente (ascendente), la mitad de éstas es menor que este valor y la otra mitad mayor. Si el número de observaciones en el conjunto es impar, la mediana es el valor de la observación que se encuentra a la mitad del conjunto ordenado. Si el número es par se considera

Page 21: Estadística Descriptiva - Instituto Nacional de Estadística y ...stica Descriptiva.pdf · • Medidas de localización y dispersión • Medidas de sesgo • Otras medidas 4. Descripción

21

Estadística Descriptiva

la mediana como el promedio aritmético de los valores de las dos observaciones que se encuentren a la mitad del conjunto ordenado. Alternativamente, la mediana puede determinarse a partir de la distribución acumulativa, es decir, la mediana es el percentil cincuenta. Puesto que la mediana es un valor que se basa en la secuencia ordenada de las observaciones en un conjunto de datos, es necesario saber que la existencia de algunos valores extremos no afectará su valor. Por lo tanto, si un conjunto contiene unos cuantos valores extremos y un agregado muy alto de observaciones, la mediana puede ser una medida de tendencia central mucho más deseable que la media. Generalmente los conjuntos de datos que describen información acerca de ingresos caen en esta categoría. Definición 3.3 La moda de un conjunto de observaciones es el valor de la observación que ocurre con mayor frecuencia en el conjunto. La moda muestra hacia qué valor tienden los datos a agruparse. En conjuntos relativamente pequeños, puede que no exista un par de observaciones cuyo valor sea el mismo. En esta situación no es clara la definición de moda. También puede suceder que la frecuencia más alta se encuentre compartida por dos o más observaciones. En estos casos, la moda tiene la utilidad limitada como medida de tendencia central. Si se ha determinado una distribución de frecuencia relativa, la clase con la frecuencia más alta recibirá el nombre de clase modal, con lo que se define a la moda como el punto medio de esa clase. En este caso la clase modal sirve como punto de concentración en el conjunto de datos. La inferencia estadística resulta en general más simple cuando se usa la media. Puesto que es la inferencia el tema principal y debido a que la media es más usada para este propósito, de aquí en adelante concentraremos la atención en la media como medida de tendencia central.

Page 22: Estadística Descriptiva - Instituto Nacional de Estadística y ...stica Descriptiva.pdf · • Medidas de localización y dispersión • Medidas de sesgo • Otras medidas 4. Descripción

22

Estadística Descriptiva

Ejercicios

1. Los siguientes datos representan el número de interrupciones por día de trabajo debidas a fallas mecánicas en una planta procesadora de alimentos: 2, 3, 0, 5, 4, 3, 1, 3, 5, 2 Calcule la media, la mediana y encuentre el número modal de interrupciones diarias. (Respuesta: Media = 2.8, mediana = 3, moda = 3)

2. Diga usted que medidas de tendencia central serían más útiles en cada uno de los siguientes casos. a. El gerente de producción de una fábrica de envases de vidrio quiere saber cuál es el tamaño de envase que debe fabricar en mayor cantidad. El tiene a la mano un buen número de datos de los tamaños de envase ordenados por los clientes. b. El gerente de ventas de una compañía que produce mobiliario de lujo desea seleccionar regiones para establecer salas de exhibición. ¿En qué medida del ingreso familiar por región estará más interesado, en la media o en la mediana? c. Un analista de la bolsa de valores está interesado en describir el cambio diario en el precio en el mercado de una acción de cierta compañía. Rara vez el precio cambia más de un punto, pero hay ocasiones en que el precio cambia hasta cuatro puntos. ¿Qué medida debe usar el analista para describir el cambio de precio de la acción en cuestión, la media, la mediana o la moda de los cambios de precio en el mercado? (Respuesta: a. Moda b. Mediana c. Media)

Medidas de dispersión Una medida de tendencia central proporciona información acerca de un conjunto de datos pero no proporciona ninguna idea de la variabilidad de las observaciones en dicho conjunto. Por ejemplo, considere los dos siguientes conjuntos de datos, cada uno de los cuales consiste de cuatro observaciones: 0, 25, 75, 100; 48, 49, 51, 52. En ambos casos, media = mediana = 50. Estos dos conjuntos son muy diferentes entre sí, sin embargo las observaciones en el primero se encuentran mucho más dispersas que en el segundo. Una de las medidas más útiles de dispersión o variación es la varianza.

Page 23: Estadística Descriptiva - Instituto Nacional de Estadística y ...stica Descriptiva.pdf · • Medidas de localización y dispersión • Medidas de sesgo • Otras medidas 4. Descripción

23

Estadística Descriptiva

Definición 3.4 La varianza de las observaciones x1, x2, xn es, en esencia, el promedio del cuadrado de las distancias entre cada observación y la media del conjunto de observaciones. La varianza se denota por

( ) ( )s x x ni

i

n

= − −=∑ 2

1

1

La varianza es una medida razonablemente buena de la variabilidad debido a que si muchas de las diferencias son grandes (o pequeñas) entonces el valor de la varianza s2 será grande (o pequeño). El valor de la varianza puede sufrir un cambio muy desproporcionado, aún más que la media, por la existencia de algunos valores extremos en el conjunto. Definición 3.5 La raíz cuadrada positiva de la varianza recibe el nombre de desviación estándar y se denota por

( ) ( )s x x nii

n

= − −⎧⎨⎩

⎫⎬⎭=

∑ 2

1

1

La varianza y la desviación estándar no son medidas de variabilidad distintas, debido a que la última no puede determinarse a menos que se conozca la primera. A menudo se prefiere la desviación estándar en relación con la varianza, porque se expresa en las mismas unidades físicas de las observaciones.

Page 24: Estadística Descriptiva - Instituto Nacional de Estadística y ...stica Descriptiva.pdf · • Medidas de localización y dispersión • Medidas de sesgo • Otras medidas 4. Descripción

24

Estadística Descriptiva

Medidas de sesgo Para ilustrar una distribución de muestreo, permítannos hacer un experimento. Tengo una caja que contiene un número grande de bolas, idénticas excepto por el color. Estas bolas son la población. La proporción de bolas negras en la caja es p = 0.20 y este número es un parámetro describiendo esta población de bolas. Suponemos que disponemos de una pala con 25 celdas y que cuando la introducimos en la caja, extraemos una muestra de 25 bolas. Si las bolas en la caja están bien mezcladas, esta es una muestra aleatoria simple de tamaño 25. Nos preguntamos sobre una muestra simple aleatoria de tamaño 25 de una población que contiene 20% de bolas negras, lo siguiente: ¿Cuántas bolas negras esperamos que aparezcan en la muestra? —Si toma varias muestras simples aleatorias, ¿Espera encontrar una muestra con 25 bolas negras? ¿Una sin bolas negras? ¿Una con 15 bolas negras? Razonablemente esperaría que alrededor del 20% de las bolas fuesen negras, esto es, aproximadamente 5 bolas negras de entre las 25 bolas en la muestra. Pero no siempre obtendremos exactamente 5 bolas negras. Si obtenemos, por decir, 4 bolas negras, entonces la estadística p^ = 4 / 25 = 0.16. Es, sin embargo, una buena aproximación del parámetro p = 0.20. Pero si sacamos una muestra con 15 bolas negras, entonces p^ = 15 / 25 = 0.60. Es una estimación mala de p. ¿Qué tan frecuentemente obtendremos tan pobres estimaciones de una muestra simple aleatoria? Realizamos este experimento 200 veces y registramos el número de bolas negras en cada muestra. (Fuimos cuidadosos de regresar la muestra a la población y agitar la población después de cada repetición). Los resultados se muestran en la tabla y gráfica siguientes. Ninguna de las 200 muestras tuvo más de 9 bolas negras.

Page 25: Estadística Descriptiva - Instituto Nacional de Estadística y ...stica Descriptiva.pdf · • Medidas de localización y dispersión • Medidas de sesgo • Otras medidas 4. Descripción

25

Estadística Descriptiva

Número de bolas negras en la muestra

0 1 2 3 4 5 6 7 8 9

Proporción muestral p^ 0 0.04 0.08 0.12 0.16 0.20 0.24 0.28 0.32 0.36 Número de muestras con este resultado

3 8 12 34 40 47 24 20 9 3

Proporción de muestras con este resultado

0.015 0.040 0.060 0.170 0.200 0.235 0.120 0.100 0.045 0.015

Tabla 4. Resultados de 200 muestras aleatorias simples de tamaño 25 cuando p = 0.20

0

5

10

15

20

25

30

35

40

45

50

Bolas negras en la muestra

Núm

ero

de m

uest

ras

0123456789

Gráfica 5. Resultados de 200 muestras simples aleatorias de tamaño 25 cuando p = 0.20

La proporción muestral p^ desde luego que varía de muestra a muestra: recorrió de 0 (ninguna bola negra) hasta 0.36 (9 bolas negras) cuando las 200 muestras fueron examinadas. Pero estimaciones tan malas como p^ = 0 o p^ = 0.36 (recuerde que el verdadero p es 0.20 para esta población) no ocurren frecuentemente. De las 200 muestras, 56% tuvieron 4, 5 o 6 bolas negras (p^ de 0.16, 0.20 o 0.24) y 83% tuvieron 3, 4, 5, 6 o 7 bolas negras (p^ entre 0.12 y 0.38). Errores en el muestreo En nuestro experimento, conocemos p. Si p fuera desconocido, los mismos hechos deberían mantenerse. No podemos garantizar que la estadística muestral p^ esté cercano al desconocido p (por la variación del muestreo), pero podemos estar seguros que así es (porque la mayoría de las veces las muestras aleatorias simples dan valores de p^ cercanos a p). Así, los resultados de una muestra aleatoria simple no solo son

Page 26: Estadística Descriptiva - Instituto Nacional de Estadística y ...stica Descriptiva.pdf · • Medidas de localización y dispersión • Medidas de sesgo • Otras medidas 4. Descripción

26

Estadística Descriptiva

imparciales sino que tienden a ser reiterativos de muestra a muestra. Finalmente, debemos abundar que el hecho de la falta de repeticiones en un método muestral (la muestra resulta extraviarse en el corral) es un problema tan serio como el favoritismo. Puesto que una muestra es seleccionada con el propósito de obtener información de una población, por «error en una muestra» obtenemos una incorrecta estimación del parámetro de una población para una estadística muestral. Dos tipos básicos de errores son asociados con cualquier método de recolección muestral de datos. El sesgo consiste en divergencias repetidas de la estadística muestral (en la misma dirección) del parámetro poblacional. La escasez de precisión significa que en repetidas muestras los valores de la estadística muestral están diseminados o esparcidos; los resultados del muestreo no se pueden repetir. Un malentendido frecuente es confundir, en un método muestral, el sesgo con una fuerte tendencia de la población misma, especialmente si esa tendencia es una reflexión de prejuicio o sesgo en el sentido ordinario de esa palabra. Si, por ejemplo, 93% de una población de directores corporativos de personal se opone en una acción firme al Programa de Empleo del Gobierno Federal, esto no es sesgo en el sentido estadístico. Es solamente un hecho sobre esta población. La distribución muestral de una estadística describe a ambos, su sesgo y su precisión. Por ejemplo, la precisión de p^ como un estimador de p puede ser expresado tal como «56% de las muestras simples aleatorias de tamaño 25 tienen un valor de p^ con ±0.04 del valor real de p». La forma de la distribución de valores mostrada en la tabla 4 es típica de una muestra simple aleatoria. Estas distribuciones pueden ser estudiadas matemáticamente evitándonos el trabajo de experimentación. Podrías adivinar tales estudios (y experimentos también) que muestran que el incremento del tamaño de la muestra aumenta la precisión de la estadística muestral. Si en nuestro experimento hemos usado muestras de tamaño 100, el 74% de esas muestras debería tener proporciones muéstrales p^ con ±0.04 de p. Si, como Newsday, tomamos muestras de tamaño 1 373, poco menos que 2 en 10 000 fallaran al tener p^ con ±0.04 de la realidad sobre la población. Sólo agregaremos un dato más para darle el tiro de gracia al

Page 27: Estadística Descriptiva - Instituto Nacional de Estadística y ...stica Descriptiva.pdf · • Medidas de localización y dispersión • Medidas de sesgo • Otras medidas 4. Descripción

27

Estadística Descriptiva

escepticismo del reportero periodístico sobre muestras 1 en 40 000: La precisión de una estadística muestral no depende en que si el tamaño de la población es mucho más grande que el tamaño de la muestra. En otras palabras, el patrón de resultados de repetidamente sumergir la pala en una enorme caja conteniendo bolas no depende en si la caja contiene 1 000 bolas (como en el experimento) o 1 000 000 de bolas. La precisión depende en cuantas bolas extrae la pala de la caja (el tamaño de la muestra) y, en menor grado, en la proporción p de bolas negras en la población. Estas son noticias nuevas para Newsday. Su muestra de tamaño 1 373 tiene gran precisión porque el tamaño de la muestra es grande. Que sólo 1 en 40 000 de la población fueron seleccionados es irrelevante. Los conocimientos hasta aquí adquiridos son el fundamento para un acuerdo sobre los usos del muestreo. En resumen, estos hechos son como sigue:

1. No obstante la dispersión muestral de las estadísticas de una muestra simple aleatoria, los valores de esas estadísticas tiene una distribución conocida (esto es, un patrón conocido) cuando se repiten las muestras.

2. La precisión de una estadística de una muestra simple aleatoria depende del tamaño de la muestra y puede ser tan alta como se desee con sólo tomar una muestra bastante grande.

Ejercicios Establezca si los valores dados son parámetro o estadística. 1. El Buró de Estadísticas Laborales anuncia que el mes

próximo pasado entrevistó a todos los miembros de la fuerza laboral en una muestra de 55 800 familias, de los cuales 6.5% estaban desempleados.

2. Un lote de balines tiene un diámetro promedio de 2.503 centímetros. Esto es con las especificaciones para aceptación del lote por parte del comprador. Pero el procedimiento muestral de aceptación inspecciona 100 balines del lote con un diámetro promedio de 2.515 centímetros. Esto está fuera de los límites especificados,

Page 28: Estadística Descriptiva - Instituto Nacional de Estadística y ...stica Descriptiva.pdf · • Medidas de localización y dispersión • Medidas de sesgo • Otras medidas 4. Descripción

28

Estadística Descriptiva

así que el lote es equivocadamente rechazado. 3. Una compañía que vende teléfonos en Los Ángeles usa

un dispositivo que marca aleatoriamente números telefónicos residenciales en dicha ciudad. De los primeros 100 números marcados, 47 son números no registrados. Esto no es sorpresa, porque 52% del total de teléfonos residenciales son no registrados.

4. El registro de votantes muestra que 68% del total de

votantes en Marion County, Indiana están registrados como Republicanos. Para comprobarlo, se utiliza un dispositivo digital aleatorio de marcación, se usa el dispositivo para llamar a 150 teléfonos residenciales seleccionados aleatoriamente. De los votantes registrados contactados, 73% se registraron Republicanos.

5. Justo antes de una elección presidencial, una firma de

encuestas de opinión pública aumenta el tamaño de su muestra semanal de la usual de 1 500 personas a 4 000 personas. ¿Optar por una muestra aleatoria más grande, hace el sesgo de los resultados de la encuesta menores? ¿Se mejora la precisión de la muestra?

Page 29: Estadística Descriptiva - Instituto Nacional de Estadística y ...stica Descriptiva.pdf · • Medidas de localización y dispersión • Medidas de sesgo • Otras medidas 4. Descripción

29

Estadística Descriptiva

4 DESCRIPCIÓN DE DATOS BIVARIADOS Diagramas de dispersión Para efectos de ilustración se introduce el tema considerando el problema de predecir las ventas mensuales y de una compañía en la cual sus productos no experimentan una variación estacionaria en sus ventas. Como la variable predictora x se utiliza la cantidad gastada en publicidad por la compañía en el mes bajo estudio. Es de interés ver si en efecto hay una relación entre lo gastado en publicidad y lo vendido y además, si se puede predecir lo que se venderá, y, como una función de lo que se esté dispuesto a gastar en publicidad, x. La evidencia que se presenta en la tabla 5 es una lista de gastos publicitarios y volúmenes de ventas de 10 meses que fueron seleccionados al azar de los archivos. Se supondrá que los gastos publicitarios y ventas de estos 10 meses constituyen una muestra de mediciones de las operaciones pasadas y presentes de la compañía.

MES GASTOS PUBLICITARIOS x (X $10 000) VOLUMEN DE VENTAS y (X $10 000)

1 1.2 101

2 0.8 92

3 1.0 110

4 1.3 120

5 0.7 90

Page 30: Estadística Descriptiva - Instituto Nacional de Estadística y ...stica Descriptiva.pdf · • Medidas de localización y dispersión • Medidas de sesgo • Otras medidas 4. Descripción

30

Estadística Descriptiva

6 0.8 82 7 1.0 93 8 0.6 75 9 0.9 91 10 1.1 105

Tabla 5. Gastos publicitarios y volúmenes de venta de una compañía durante 10 meses elegidos al azar

Lo primero que se hace para analizar los datos de la tabla 5 es el graficar los datos como puntos en una gráfica, representando el volumen mensual de ventas y en el eje vertical y los gastos publicitarios correspondientes x en el eje horizontal.

70

80

90

100

110

120

130

0,5 0,6 0,7 0,8 0,9 1 1,1 1,2 1,3

Gasto Publicitario

Volu

men

de

Vent

as

Gráfica 6. Diagrama de dispersión de los datos de la tabla 5

La gráfica 6 es referida como diagrama de dispersión. Se observa en ella que aparentemente y crece cuando x crece. (¿Podría haber ocurrido un tal diagrama por casualidad si x y y no estuvieren relacionadas?) Un método para obtener una ecuación de predicción que relacione a y con x consiste en poner una regla de dibujo sobre la gráfica y moverla hasta que dé la apariencia de que pasa a través de los puntos. La línea recta que resulta se considera el «mejor ajuste» a los datos. Se puede utilizar de ahí en adelante, la gráfica de la recta para predecir el volumen de ventas y en función de los gastos publicitarios x que se presupuesten para ese mes. Estimación por mínimos cuadrados para el modelo lineal simple. En la estimación por mínimos cuadrados para el modelo lineal simple sólo se tiene una variable de predicción, y se supone

Page 31: Estadística Descriptiva - Instituto Nacional de Estadística y ...stica Descriptiva.pdf · • Medidas de localización y dispersión • Medidas de sesgo • Otras medidas 4. Descripción

31

Estadística Descriptiva

una ecuación de regresión lineal. Por ejemplo, los estudiantes universitarios que aprenden más rápido tienen mejores calificaciones promedio (CP) y por lo tanto, mejores oportunidades de obtener buenos empleos después de graduarse. Supóngase que los datos que se encuentran en la tabla A representan las calificaciones promedio de 15 egresados y sus correspondientes salarios iniciales.

CP Salario inicial CP Salario inicial CP Salario inicial 2.95 18.5 2.85 15.0 2.75 15.5 3.20 20.0 3.10 18.0 3.10 17.2 3.40 21.1 2.85 18.8 3.15 19.0 3.60 22.4 3.05 15.7 2.95 17.2 3.20 21.2 2.70 14.4 2.75 16.8

Tabla A. Datos de la muestra para un modelo lineal simple (miles de dólares)

Para este ejemplo, la variable respuesta es el salario inicial y la variable de predicción potencial es la calificación promedio. Estas últimas se seleccionaron de tal manera que reflejen un amplio intervalo. Se desea determinar una ecuación de regresión para el salario inicial promedio como una función de la calificación promedio. Dado que se ha propuesto sólo una variable de predicción, graficar los datos puede ser útil en la selección inicial de un modelo de regresión. La gráfica de los salarios iniciales contra las calificaciones promedio se muestra en la gráfica A. A pesar que esta gráfica muestra una gran dispersión3, se observa una tendencia lineal. De acuerdo con lo anterior se supondrá un modelo de la forma Yi = ß0 + ß1xi + εi i = 1, 2, 3, . . . , n,

Donde Y, es la i-ésima observación de la variable respuesta, la cual corresponde al i-ésimo valor xi de la variable de predicción, εi es el error aleatorio no observable asociado con Y, y ß0 y ß1 son los parámetros desconocidos que representan la intersección y la pendiente, respectivamente. La expresión se conoce como modelo lineal simple, debido a que es lineal en los parámetros y se tiene sólo una variable de predicción. Cada observación Y, es una variable aleatoria que es la suma de dos componentes; el término no aleatorio ß0 + ß1xi, y la componente aleatoria εi. Si εi fuera un valor igual a cero, la observación Y, se encontraría precisamente sobre la línea de regresión ß0 + ß1xi. Por lo tanto, εi es la distancia vertical de la observación a la línea de regresión. Dado que se supone 3 Por esta razón, este tipo de gráfica se conoce como gráfica de dispersión.

Page 32: Estadística Descriptiva - Instituto Nacional de Estadística y ...stica Descriptiva.pdf · • Medidas de localización y dispersión • Medidas de sesgo • Otras medidas 4. Descripción

32

Estadística Descriptiva

E(εi) = 0, Var(εi) = σ2 i = 1, 2, . . . , n, y Cov(εi, εj) = 0 i ≠ j; entonces E(Yi) = E(ß0 + ß1x + εi) = ß0 + ß1x, Cov(Yi, Yj) = σ2 i ≠ j, y Var(Yi) = Var(ß0 + ß1xi + εi) = Var(εi) = σ2. El último resultado surge del hecho de que la varianza de una variable aleatoria no varía con respecto a la localización; en este caso, el corrimiento en localización está proporcionado por el término no aleatorio ß0 + ß1xi. Por lo tanto, en términos reales. lo que se supone es que para cada calificación promedio x existe una distribución de probabilidad para los salarios iniciales cuya media es una función lineal de x y cuya varianza es la misma para toda x. El modelo proporcionado por debe considerarse sólo como una selección inicial para la forma funcional de la curva de regresión. Con base en análisis más apropiados, puede ser necesario hacer ajustes y éstos a su vez pueden dar como resultado una ecuación final de predicción diferente de la del modelo inicial. Para obtener los estimadores de mínimos cuadrados de ß0 y ß1, se generalizará un conjunto de datos consistente en n pares (x1, y1), (x2, y2), . . . , (xn, yn), donde los valores de y son las observaciones de la variable aleatoria respuesta. El método de mínimos cuadrados considera la desviación de la observación Yi de su valor medio y determina los valores de ß0 y ß1 que minimizan la suma de los cuadrados de estas desviaciones. La i-ésima desviación o error es εi = Yi - (ß0 + ß1xi),

y la suma de los cuadrados de los errores es n n Σ εi

2 = Σ (Yi - ß0 - ß1xi)2

i =1 i =1

Page 33: Estadística Descriptiva - Instituto Nacional de Estadística y ...stica Descriptiva.pdf · • Medidas de localización y dispersión • Medidas de sesgo • Otras medidas 4. Descripción

33

Estadística Descriptiva

Los estimadores de mínimos cuadrados de ß0 y ß1 se obtienen mediante la diferenciación de con respecto a ß0 y ß1 y después al igualar cada derivada parcial con cero, es decir ∂Σ εi

2 = -2 Σ(Yi - B0 - B1xi) = 0, ∂ß0 y ∂Σ εi

2 = -2 Σxi(Yi - B0 - B1xi) = 0, ∂ß1 Donde B0 y B1 son los estimadores de mínimos cuadrados de β0 y β1, respectivamente. Al simplificar y distribuir las sumas en estas ecuaciones, se tiene Σ Yi = nB0 + B1 Σ xi y Σ xiYi = B0 Σ xi + B1 Σ xi

2.

Las dos ecuaciones dadas por se conocen como ecuaciones normales. Dadas las realizaciones y1, y2, . . . , yn, las ecuaciones pueden resolverse para los estimados de mínimos cuadrados b0 y b1. Si se dividen ambos miembros de la primera ecuación entre n, se obtiene (Σ yi)/n = b0 + b1 (Σ xi)/n ; entonces el estimador de mínimos cuadrados de β0 es _ _ b0 = (Σ yi)/n - b1(Σ xi)/n = y - b1x.

Al sustituir b0 en la segunda ecuación de se obtiene Σ xiYi = [(Σ yi)/n - b1(Σ xi)/n] Σ xi + B1 Σ xi

2, la que, después de resolver para b1, se reduce a _ _ _ b1 = [Σ (xi - x)(yi - y)]/[Σ (xi - x)2]

Los valores dados por y son aquellos que minimizan la suma de los cuadrados de los errores. Dados los estimadores de mínimos cuadrados de B0 y B1 para la intersección y la pendiente, respectivamente, la recta de regresión estimada para el modelo es Y^i = B0 + B1xi

donde Y^i es el estimador para la media de la observación Yi, la cual corresponde al valor xi de la variable de predicción.

Page 34: Estadística Descriptiva - Instituto Nacional de Estadística y ...stica Descriptiva.pdf · • Medidas de localización y dispersión • Medidas de sesgo • Otras medidas 4. Descripción

34

Estadística Descriptiva

Nótese que si se sustituye por B0 en se obtiene una forma alternativa para la recta de regresión estimada, la cual se encuentra dada por _ _ _ Y^i = (y - b1x) + B1xi = Y + B1(xi - x).

Con base en , la diferencia entre la realización yi y el valor estimado y^i es un estimador del correspondiente error. Este estimador se conoce como el i-ésimo residual y se denota por ei = yi - y^i .

De nuevo, nótese que los residuos no son estimados en el sentido clásico de la estimación de parámetros (fijos), sino que son estimadores de los valores de las variables aleatorias no observables εi, los cuales se obtienen de la recta de regresión estimada. Los residuos e1, e2, . . . , en son muy importantes debido a que proporcionan una abundante información sobre lo que puede faltar del modelo de regresión estimado. En este momento se ilustrarán los pesos de cálculo para obtener la recta de regresión estimada para el modelo lineal simple empleando para ello los datos de los salarios. El propósito de esto radica en familiarizar al estudiante únicamente con el procedimiento de cálculo. En la tabla B, se incluyen los cálculos básicos necesarios para obtener los estimadores de mínimos cuadrados de la intersección y la pendiente.

Page 35: Estadística Descriptiva - Instituto Nacional de Estadística y ...stica Descriptiva.pdf · • Medidas de localización y dispersión • Medidas de sesgo • Otras medidas 4. Descripción

35

Estadística Descriptiva

CP Salario xi yi xiyi xi

2 2.95 18.5 54.575 8.7025 3.20 20.0 64.000 10.2400 3.40 21.1 71.740 11.5600 3.60 22.4 80.640 12.9600 3.20 21.2 67.840 10.2400 2.85 15.0 42.750 8.1225 3.10 18.0 55.800 9.6100 2.85 18.8 53.580 8.1225 3.05 15.7 47.885 9.3025 2.70 14.4 38.880 7.2900 2.75 15.5 42.625 7.5625 3.10 17.2 53.320 9.6100 3.15 19.0 59.850 9.9225 2.95 17.2 50.740 8.7025 2.75 16.8 46.200 7.5625 Totales 45.6 270.8 830.425 139.5100

Tabla B. Cálculos básicos para obtener los estimadores de mínimos cuadrados b0 y b1 (con base en los datos de salarios dados en la tabla A)

Mediante el empleo de y el estimador de mínimos cuadrados para la pendiente es b1 = [830.425 - (45.6)(270.8)/15]/[139.51 - (45.6)2/15] = 8.12, y el correspondiente estimado de mínimos cuadrados para la intersección es b0 = 270.8/15 - (8.12)(45.6/15) = - 6.63. De acuerdo con lo anterior, la ecuación estimada de regresión es ^yi = - 6.63 + 8.12 xi.

Al intentar interpretar esta ecuación se tiene que los valores ^yi son los estimadores para las medias de las distribuciones de probabilidad de los salarios iniciales correspondientes a las calificaciones promedio xi. Tener una intersección negativa resulta fastidioso, ya que, por ejemplo, si x = 0.5, ^y = - 2.57, lo cual es absurdo. Pero las calificaciones promedio en este conjunto de datos varían de 2.70 a 3.60, por lo tanto, cualquiera que sea la validez que tiene la ecuación estimada de regresión al predecir los salarios iniciales promedio se mantiene, para todos aquellos valores de x que se encuentren entre 2.70 y 3.60. En la práctica, muchas veces se desea predecir la respuesta más allá del intervalo de valores de x para los cuales se obtuvo la ecuación estimada de regresión. Si un valor de x se encuentra muy cercano a este intervalo, la predicción tendrá

Page 36: Estadística Descriptiva - Instituto Nacional de Estadística y ...stica Descriptiva.pdf · • Medidas de localización y dispersión • Medidas de sesgo • Otras medidas 4. Descripción

36

Estadística Descriptiva

cierta validez. De esta forma, ésta debe verse con mucho cuidado, ya que la ecuación de regresión estimada puede no ser apropiada para un intervalo de valores más amplio de la variable de predicción. La interpretación del valor estimado de la pendiente es directa. El incremento estimado en el salario inicial promedio para cada aumento igual a una unidad de la calificación promedio es de 8 120 dólares. EJERCICIOS 1. Suponga que le son dados cinco puntos cuyas coordenadas son las de la tabla.

x -3 -1 1 1 2 y 6 4 3 1 1

a. Encuentre la recta de mínimos cuadrados para los datos. b. Como una verificación de sus cálculos en el inciso a, grafique los puntos y la recta de mínimos cuadrados.

2. Por presupuesto flexible, se entiende la relación entre ingresos y costos. Suponga que un ejecutivo de una empresa quiere establecer un presupuesto flexible para estimar sus costos para un cierto rango de producción. Los costos y predicciones pasadas se encuentran en la tabla.

Producción (X $10 000)

3 4 5 6 7 8 9

Costos fijos (X $1 000)

12 10.5 13 12 13 13.3 16.5

a. Encuentre la recta de mínimos cuadrados que le permita estimar costos a partir de la producción. b. Como verificación de sus cálculos, grafique los 7 puntos y la recta de mínimos cuadrados.

Page 37: Estadística Descriptiva - Instituto Nacional de Estadística y ...stica Descriptiva.pdf · • Medidas de localización y dispersión • Medidas de sesgo • Otras medidas 4. Descripción

37

Estadística Descriptiva

TABLAS DE CONTINGENCIA Muchas veces surge la necesidad de determinar si existe alguna relación entre dos rasgos diferentes en los que una población ha sido clasificada y en donde cada rasgo se encuentra subdividido en cierto número de categorías. Por ejemplo, ¿Existe una relación entre el fumar cigarrillos y la predisposición a desarrollar cáncer pulmonar?, o también ¿Existe una relación entre la filiación política y la opinión con respecto a incrementar el presupuesto armamentista? En ambos ejemplos, se ha clasificado a la población en dos características y en donde se supone que cada una de éstas tiene por lo menos dos categorías exhaustivas y mutuamente excluyentes. En el primer ejemplo las dos características son, si se es fumador, y si se desarrolla cáncer pulmonar. Las características para estas dos características podrían ser si se es fumador crónico, moderado o no fumador, para la primera, y el si se desarrolla o no cáncer pulmonar para la segunda. Cuando una muestra aleatoria que se obtiene de una población se clasifica de esta manera, el resultado recibe el nombre de tabla de contingencia con dos criterios de clasificación. Esta tabla se forma por las frecuencias relativas que se observaron para las dos clasificaciones y sus correspondientes categorías. El análisis de una tabla de este tipo supone que las dos clasificaciones son independientes. Esto es, bajo la hipótesis nula de independencia se desea saber si existe una diferencia suficiente entre las frecuencias que se observan y las correspondientes frecuencias que se esperan, tal que la hipótesis nula se rechace. Ejemplo 1. Una compañía evalúa una propuesta para fusionarse con una corporación. El consejo de directores desea muestrear la opinión de los accionistas para determinar si ésta es independiente del número de acciones que cada uno posee. Una muestra aleatoria de 250 accionistas proporciona la información que se muestra en la tabla 7. Con base en esta información, ¿existe alguna razón para dudar de que la opinión con respecto a la propuesta es independiente del número de acciones que posee el accionista? Úsese α = 0.10. La hipótesis nula se establece de la siguiente forma

Page 38: Estadística Descriptiva - Instituto Nacional de Estadística y ...stica Descriptiva.pdf · • Medidas de localización y dispersión • Medidas de sesgo • Otras medidas 4. Descripción

38

Estadística Descriptiva

H0 : pij = pi· p·j, i = 1, 2, 3; j = 1, 2, 3. Número de Opinión acciones A favor En contra Indecisos Totales Menos de 200 38 29 9 76 200 — 1 000 30 42 7 79 Más de 1 000 32 59 4 95 Totales 100 130 20 250

Tabla 7. datos muéstrales para el ejemplo de los accionistas

En ésta, pij es la probabilidad de que un accionista seleccionado al azar se encuentre en la categoría (i, j); pi· es la probabilidad marginal de que el número de acciones que posee un accionista seleccionado al azar se encuentre el la categoría i; y p·j es la probabilidad marginal de que un accionista seleccionado al azar tenga una opinión j. Por la expresión r c ∑ ∑ ⎨[Nij - (ni·n·j)/n]2 / [(ni·n·j)/n]⎬

i =1 j =1

(que para valores grandes de n es, en forma aproximada, una variable aleatoria ji—cuadrada con (r - 1)(c - 1) grados de libertad) la frecuencia esperada de la celda (i, j) es el producto del total del i-ésimo renglón por el total de la j-ésima columna dividido por el tamaño de la muestra n = 250. Por ejemplo, el número esperado de accionistas que están a favor de la propuesta y que poseen más de 1 000 acciones, es (95)(100)/250 = 38. Al continuar este proceso, se determinan las frecuencias esperadas para cada combinación. En cada celda de la tabla 8, la primera línea representa la frecuencia observada, la segunda la frecuencia esperada y la tercera la contribución de cada celda al valor de la estadística, de acuerdo con la expresión . De esta manera, el valor de la estadística es χ2 = (38 - 30.4)2/30.4 + (29 - 39.52)2/39.52 + . . . + (4 - 7.6)2/7.6 = 10.80 Dado que r = c = 3, el número de grados de libertad es 4. Para α = 0.1, el valor crítico es χ2

0.9, 4 = 7.78. De esta forma, el valor que se observa de la estadística de prueba se encuentra dentro de la región crítica, y la hipótesis nula debe rechazarse

Page 39: Estadística Descriptiva - Instituto Nacional de Estadística y ...stica Descriptiva.pdf · • Medidas de localización y dispersión • Medidas de sesgo • Otras medidas 4. Descripción

39

Estadística Descriptiva

De acuerdo con lo anterior, existe una razón para creer que la opinión con respecto a la propuesta y el número de acciones que cada accionista posee, no son independientes.

Número de acciones A favor En contra Indecisos Totales 38 29 9 76 Menos de 200 30.40 39.52 6.08 76 1.90 2.80 1.40 6.10 30 42 7 79 200 — 1 000 31.60 41.08 6.32 79 0.08 0.02 0.07 0.17 32 59 4 95 Más de 1 000 38 49.40 7.60 95 0.95 1.87 1.71 4.53 100 130 20 250 Totales 100 130 20 250 2.93 4.69 3.18 10.80

Tabla 8. Frecuencias esperadas y observadas para el ejemplo 1

Ejemplo 2. En una fábrica de muebles se desean clasificar defectos encontrados en los muebles según el tipo de defecto y según el turno de trabajo en el cual se fabricó el mueble. Es claro que lo que se busca es estudiar la posible dependencia entre las dos clasificaciones. ¿Varían las proporciones de defectuosos según tipo de defecto de turno a turno? Un total de n = 309 defectos fueron registrados y clasificados según el tipo A, B, C ó D y al mismo tiempo, el mueble al cual se le encontraba el defecto, era identificado según el turno en el que había sido producido, el primero, segundo o tercer turno. Estas observaciones se presentan en la tabla 9 (conocida como una tabla de contingencia). Denótese por pA a la probabilidad incondicional de observar un defecto del tipo A. Similarmente, denote por pB, pC y pD a las probabilidades de observar los otros tipos de defectos. Las probabilidades anteriores, que referiremos como probabilidades de columnas de la tabla 9 satisfacen pA + pB + pC + pD = 1 De manera análoga sean pi (i = 1, 2 ó 3) las probabilidades de filas de que un defecto se haya producido en el turno i, i = 1, 2 ó 3, en donde p1 + p2 + p3 = 1 Si las dos clasificaciones son independientes entre sí, la probabilidad de una celda será igual al producto de su respectiva probabilidad de fila y su respectiva probabilidad de

Page 40: Estadística Descriptiva - Instituto Nacional de Estadística y ...stica Descriptiva.pdf · • Medidas de localización y dispersión • Medidas de sesgo • Otras medidas 4. Descripción

40

Estadística Descriptiva

columna, de acuerdo a la ley multiplicativa de la probabilidad. Por ejemplo, la probabilidad que un defecto en particular ocurra en el primer turno y que sea del tipo A es p1pA. Observe que los valores de las probabilidades de las celdas no están totalmente especificados en este problema. La hipótesis nula especifica solamente que cada probabilidad de celda debe ser igual al producto de la probabilidad de su fila por la probabilidad de su columna, y por ello implica la independencia de las dos clasificaciones. La hipótesis alternativa es que la igualdad mencionada no es cierta para al menos una de las celdas.

Tipo de defecto Turno A B C D Totales 1 15 21 45 13 94 2 26 31 34 5 96 3 33 17 49 20 119 Totales 74 69 128 38 309

Tabla 9. Tabla de contingencia en la que se clasifican defectos de muebles según tipo de defecto y turno de operación

En el análisis de los datos obtenidos de la tabla de contingencia se tienen que estimar las probabilidades de filas y las probabilidades de columnas para poder estimar las frecuencias esperadas de las celdas. Se puede mostrar que el estimador de la probabilidad de una columna es igual al total observado en esa columna dividido por n, que en este caso es n = 309. Si se denota el total para la columna j por n·j, se tiene p^A = n·1/n = 74/309 p^C = n·3/n = 128/309 p^B = n·2/n = 69/309 p^D = n·4/n = 38/309 De manera similar, las probabilidades de renglones p1, p2 y p3 se pueden estimar usando los totales de renglones n1·, n2·, n3·. p^1 = n1·/n = 94/309 p^2 = n2·/n = 96/309 p^3 = n3·/n = 119/309

Page 41: Estadística Descriptiva - Instituto Nacional de Estadística y ...stica Descriptiva.pdf · • Medidas de localización y dispersión • Medidas de sesgo • Otras medidas 4. Descripción

41

Estadística Descriptiva

Si se denota la frecuencia observada para la celda situada en el renglón i y la columna j por nij, entonces el valor que se ha estimado para el valor esperado de nij es Ê(nij) = ni· n·j / n Observase que el estimador de la frecuencia esperada para la celda i, j de una tabla de contingencia es igual al producto de sus totales respectivos de fila y columna divididos por la frecuencia total. Las estimaciones de las frecuencias esperadas de cada celda del ejemplo 2 aparecen en la segunda línea de las celdas de la tabla 10. Se pueden ahora usar las frecuencias esperadas y las observadas de la tabla 10

Tipo de defecto Turno A B C D Totales 15 21 45 13 94 1 22.51 20.99 38.94 11.56 94 2.51 0.00 0.94 0.18 3.63 26 31 34 5 96 2 22.99 21.44 39.77 11.81 96 0.40 4.26 0.84 3.92 9.42 33 17 49 20 119

Tabla 10. Frecuencias esperadas y observadas para el ejemplo 2

para calcular el valor de la estadística χ2, de acuerdo con la expresión . De esta manera, el valor de la estadística es χ2 = (15 - 22.51)2/22.51 + (26 - 22.99)2/22.99 + . . . + (20 - 14.63)2/14.63 = 19.18 El único problema que queda para resolver es el de la determinación de los grados de libertad apropiados. Se dan como una receta y se presenta alguna justificación. Los grados

3 28.50 26.57 49.29 14.63 119 0.71 3.44 0.00 1.97 6.12 74 69 128 38 309 Totales 74 69 128 38 309 3.62 7.70 1.78 6.07 19.17

Page 42: Estadística Descriptiva - Instituto Nacional de Estadística y ...stica Descriptiva.pdf · • Medidas de localización y dispersión • Medidas de sesgo • Otras medidas 4. Descripción

42

Estadística Descriptiva

de libertad asociados a una tabla de contingencia de r filas y c columnas son siempre (r - 1)(c - 1). Para el ejemplo de los muebles, se compara χ2 con el valor crítico de una χ2 con (r - 1)(c - 1) = (3 - 1)(4 - 1) = 6 grados de libertad. Los grados de libertad asociados con la estadística χ2 son el número de celdas (en este caso k = rc) menos un grado de libertad por cada restricción lineal independiente que deban satisfacer las frecuencias de las celdas. El número de celdas para los datos de la tabla 10 es k = 12. De este número hay que restar un grado de libertad ya que la suma de todas las frecuencias de las celdas debe ser n; esto es, n11 + n12 + . . . + n34 = 309 Además de lo anterior, se utilizaron las frecuencias de las celdas para estimar 3 de las 4 probabilidades de columna. Observe que el estimador para la probabilidad de la cuarta columna se obtiene de los otros tres estimadores ya que si se conoce p^A, p^B y p^C, p^D se deduce de ellos pues p^A + p^B + p^C + p^D = 1 o sea que se pierden (c - 1) = 3 grados de libertad por haber estimado las probabilidades de columna. Finalmente, se utilizaron las frecuencias de las celdas para estimar (r - 1) = 2 probabilidades de fila y por ello se pierden (r - 1) = 2 grados de libertad adicionales. El total de grados de libertad que quedan es g. l. = 12 - 1 - 3 - 2 = 6 En general, se observa que el número de grados de libertad asociados a cualquier tabla de contingencia r × c es g.l. = rc - 1 - (c - 1) - (r - 1) = (r - 1)(c - 1) De lo anterior que, si se usa α = 0.05, se rechaza la hipótesis nula de que las dos clasificaciones son independientes si el valor calculado de χ2 excede a 12, 592 . Como el valor calculado χ2 = 19.18, excede al valor crítico de χ2, se rechaza la hipótesis nula. Los datos presentan suficiente evidencia de que la proporción de defectos de los distintos tipos varía según turno. Un estudio sobre las distintas operaciones en la producción posiblemente revelaría la causa.

Page 43: Estadística Descriptiva - Instituto Nacional de Estadística y ...stica Descriptiva.pdf · • Medidas de localización y dispersión • Medidas de sesgo • Otras medidas 4. Descripción

43

Estadística Descriptiva

Ejemplo 3. El incluir en las etiquetas de los productos alimenticios el precio unitario del producto tiene por objeto el facilitar a los compradores la elección. Sin embargo, Isakson y Maurizi4 en estudios sobre el comportamiento de los consumidores en los Estados Unidos, han encontrado que aquellos de nivel socioeconómico bajo no están usando la ventaja que representa el tener exhibido en la etiqueta el precio unitario. En un estudio posterior, y a manera de corroboración de los resultados reportados, un economista observó el proceso de selección de n = 1 000 compradores en tres supermercados. Los supermercados se encontraban ubicados en tres áreas distintas de una ciudad, y correspondían a clases socioeconómicas de nivel bajo, medio y alto respectivamente. Se habían puesto paquetes de productos de la misma marca pero con precios unitarios distintos. Los datos sobre los n = 1 000 compradores, clasificados de acuerdo a su clase socioeconómica y al hecho de haber comprado con base en los precios unitarios o no, se muestran en la tabla 11.

Clase socioeconómica Baja Media Alta Totales Usó precios unitarios

249 494 201 944

No usó precios unitarios

26 26 4 56

Totales 275 520 205 1 000 Tabla 11. Datos para el ejemplo 3.

¿Muestran estos datos evidencia que respalde los reportes de Isakson y Maurizi? El problema es ver si los datos proporcionan evidencia suficiente que indique una dependencia entre la clasificación de los compradores por clase socioeconómica y la clasificación dada por el uso que hacen de la información contenida en los precios unitarios. Se analiza la información con una tabla de contingencia.

4 H.R. Isakson y A.R. Maurizi, «The Consumer Economics of Unit Pricing,» Journal of Marketing (1973).

Page 44: Estadística Descriptiva - Instituto Nacional de Estadística y ...stica Descriptiva.pdf · • Medidas de localización y dispersión • Medidas de sesgo • Otras medidas 4. Descripción

44

Estadística Descriptiva

Las frecuencias esperadas de cada celda se estiman calculando los totales de fila y columna. Ê(nij) = ni· n·j / n Se tiene Ê(n11) = n1· n·1 / n = (944)(275)/1000 = 259.6 Ê(n12) = n1· n·2 / n = (944)(520)/1000 = 490.9 Ê(n13) = n1· n·3 / n = (944)(205)/1000 = 193.5 Ê(n21) = n2· n·1 / n = (56)(275)/1000 = 15.4 Ê(n22) = n2· n·2 / n = (56)(520)/1000 = 29.1 Ê(n23) = n2· n·3 / n = (56)(205)/1000 = 11.5 y así sucesivamente. Estos valores aparecen en la tabla 12

Clase socioeconómica Baja Media Alta Totales 249 494 201 944 Usó precios unitarios

259.6 490.9 193.5 944

0.43 0.02 0.30 0.75 26 26 4 56 No usó precios unitarios

15.4 29.1 11.5 56

7.30 0.33 4.89 12.52 275 520 205 1000 Totales 275 520 205 1000 7.73 0.35 5.19 13.27 Tabla 12. Frecuencias esperadas y observadas para el ejemplo 3

El valor de la estadística de prueba χ2 se calcula y se compara con el valor crítico de la χ2 con (r - 1)(c - 1) = (1)(2) = 2 grados de libertad. Para α = 0.05, se rechaza la hipótesis nula si χ2 > 5.991. Sustituyendo los valores en la fórmula para χ2 se obtiene χ2 = (249 - 259.6)2/259.6 + (494 - 490.9)2/490.9 + . . . + (4 - 11.5)2/11.5 = 13.26 Observe que χ2 cae en la región de rechazo por lo que se rechaza la hipótesis de independencia entre ambas clasificaciones. Una comparación posterior entre los porcentajes de los compradores de cada clase socioeconómica que hacen uso de los precios unitarios sugiere que en efecto, los de las clases más bajas son los que no están haciendo uso de la ventaja que proporcionan los precios unitarios, respaldando así los reportes de Isakson y Maurizi.

Page 45: Estadística Descriptiva - Instituto Nacional de Estadística y ...stica Descriptiva.pdf · • Medidas de localización y dispersión • Medidas de sesgo • Otras medidas 4. Descripción

45

Estadística Descriptiva

Ejercicios.

1. ¿Cree usted que existan compañías cuyas acciones no estén siendo consideradas sistemáticamente en algunos fondos de inversión debido a razones de tipo político, social o moral? Algunos investigadores observan que la reacción a la anterior pregunta varía enormemente según los agentes de distintos fondos en los cuales se hace la pregunta.5 Para estudiar el problema se entrevistaron agentes de los cuatro principales fondos de inversión y se les pregunto si estaban o no de acuerdo con seleccionar las acciones que forman el fondo, atendiendo a razones de tipo político, social o moral. El número de agentes para cada una de las 8 posibles categorías se muestra en la tabla.

¿Presentan estos datos evidencia suficiente de que la proporción de agentes en favor de incorporar razones de tipo no económico en la selección, varía de fondo a fondo? Use α = 0.10.

2. Con base en los registros de una tienda de modas, el 50% de los vestidos adquiridos por ésta para la temporada se venderán a precio de menudeo, el 25% a un 20% menos del precio de menudeo, 15% se venderán después de una reducción en su precio del 40% y los restantes con una disminución en su precio del 60%. Para esta temporada, se adquirieron 300 vestidos y su venta fue en la siguiente forma:

Precio de venta 20% de 40% de 60% de 140 90 30 40

5 B.G. Malkiel y R.E. Quandt, «Moral Issues in Investment Policy,» Harvard Business Review, marzo-abril de 1971.

Fondo de inversión A B C D De acuerdo en razones extra-económicas

7 6 11 13

No de acuerdo en razones extra-económicas

23 31 30 41

Totales 30 37 41 54

Page 46: Estadística Descriptiva - Instituto Nacional de Estadística y ...stica Descriptiva.pdf · • Medidas de localización y dispersión • Medidas de sesgo • Otras medidas 4. Descripción

46

Estadística Descriptiva

¿Existe alguna razón para creer que la disminución en ventas fue diferente en esta temporada con respecto a las anteriores? Úsese α = 0.05. ¿Cuál es el valor de p?

3. Muchas compañías aseguradoras están revisando su política de cobrar primas reducidas para los seguros de automóviles pequeños ya que la proporción de accidentes fatales a bordo de un automóvil pequeño es mayor que a bordo de un automóvil grande. Para investigar este problema, se hizo un análisis de datos de accidentes para determinar la distribución de los accidentes en los que al menos un pasajero resultó gravemente herido o falleció. Los datos de 346 accidentes se muestran en la tabla.

Tamaño de automóvil Pequeño Compacto Grande Accidentes con heridos fatales o graves 67 26 16 Accidentes sin heridos fatales o graves 128 63 46 ¿Indican estos datos que la frecuencia de accidentes con heridos fatales o graves depende del tamaño del automóvil? Use α = 0.05.

4. En un hospital, el número de nacimientos observados para cada mes de cierto año, fueron los siguientes:

Ene Feb Mar Abr May Jun Jul Ago Sep Oct Nov Dic 95 105 95 105 90 95 105 110 105 100 95 100 Si α = 0.01, ¿existe alguna razón para creer que el número de nacimientos no se encuentra distribuido en forma uniforme durante todos los meses del año? ¿Cuál es el valor de p? COEFICIENTE DE CORRELACIÓN Con frecuencia se requiere de un indicador o medida de la fuerza con la que dos variables y y x se encuentran linealmente relacionadas, de modo que el indicador no dependa de las escalas en las que cada una de las variables y y x se hayan medido. Un tal indicador o medida se conoce como medida de la correlación lineal entre y y x.

Page 47: Estadística Descriptiva - Instituto Nacional de Estadística y ...stica Descriptiva.pdf · • Medidas de localización y dispersión • Medidas de sesgo • Otras medidas 4. Descripción

47

Estadística Descriptiva

La medida de correlación lineal comúnmente usada en la estadística es el llamado coeficiente de correlación de Pearson entre y y x. Esta cantidad, denotada por el símbolo r, se calcula como se indica en el cuadro.

Coeficiente de correlación de Pearson r = SCxy / √(SCx SCy)

En donde n _ n n SCx = ∑ (xi - x)² = ∑ xi² - (∑ xi )² / n i=1 i=1 i=1 y n _ _ n n n SCxy = ∑ (xi - x)(yi - y) = ∑xiyi - (∑xi)(∑yi) / n i=1 i=1 i=1 i=1

Ejemplo 1 . Calcule el coeficiente de correlación para los datos de gastos publicitarios y volúmenes de venta de la tabla 5. Solución. El coeficiente de correlación para los datos de la tabla 5 se obtiene utilizando la fórmula de r y las cantidades SCxy = 23.34 SCx = 0.444 SCy = 1600.9 que ya habían sido calculadas. De ahí, r = SCxy / √(SCxSCy) = 23.34 / √[(0.444)(1600.9)] ≈ 0.88 Un estudio sobre el coeficiente de correlación r proporciona resultados interesantes y entre ellos, la razón por la cual se escoge como medida de correlación lineal. Primero se observa que los denominadores son siempre positivos por ser esencialmente sumas de cuadrados. También, se observa que el numerador es el mismo. Así que r = 0 implica la ausencia de correlación lineal entre y y x. Un valor de r positivo implica que la pendiente de la recta es positiva (la recta crece a la derecha); un valor de r negativo indica que la recta decrece a la derecha (pendiente negativa).

Page 48: Estadística Descriptiva - Instituto Nacional de Estadística y ...stica Descriptiva.pdf · • Medidas de localización y dispersión • Medidas de sesgo • Otras medidas 4. Descripción

48

Estadística Descriptiva

EJERCICIOS

1. ¿Existe relación entre el consumo de energía de un país y su producto interno bruto (PIB)? Uno estaría dispuesto a suponer que un país con mayor ingreso per cápita requeriría de mayor consumo de energía. Para examinar este problema se seleccionaron al azar 12 países y se han obtenido para ellos el consumo per cápita (en libras) y el producto interno bruto per cápita (en dólares). Los resultados se presentan en la tabla.

Page 49: Estadística Descriptiva - Instituto Nacional de Estadística y ...stica Descriptiva.pdf · • Medidas de localización y dispersión • Medidas de sesgo • Otras medidas 4. Descripción

49

Estadística Descriptiva

Valores críticos de la ji-cuadrada

g. de libertad χ2 0.995 χ2 0.990 χ2 0.975 χ2 0.950 χ2 0.900 1 0.0000393 0.0001571 0.0009821 0.0039321 0.0157908 2 0.0100251 0.0201007 0.0506356 0.1025870 0.2107200 3 0.0717212 0.1148320 0.2157950 0.3518460 0.5843750 4 0.2069900 0.2971100 0.4844190 0.7107210 1.0636230 5 0.411740 0.554300 0.831211 1.145476 1.610310 6 0.675727 0.872085 1.237347 1.635390 2.204130 7 0.989265 1.239043 1.689870 2.167350 2.833110 8 1.344419 1.646482 2.179730 2.732640 3.489540 9 1.734926 2.087912 2.700390 3.325110 4.16816 10 2.15585 2.55821 3.24697 3.94030 4.86518 11 2.60321 3.05347 3.81575 4.57481 5.57779 12 3.07382 3.57056 4.40379 5.22603 6.30380 13 3.56503 4.10691 5.00874 5.89186 7.04150 14 4.07468 4.66043 5.62872 6.57063 7.78953 15 4.60094 5.22935 6.26214 7.26094 8.54675 16 5.14224 5.81221 6.90766 7.96164 9.31223 17 5.69724 6.40776 7.56418 8.67176 10.0852 18 6.26481 7.01491 8.23075 9.39046 10.8649 19 6.84398 7.63273 8.90655 10.1170 11.6509 20 7.43386 8.26040 9.59083 10.8508 12.4426 21 8.03366 8.89720 10.28293 11.5913 13.2396 22 8.64272 9.54249 10.9823 12.3380 14.0415 23 9.26042 10.19567 11.6885 13.0905 14.8479 24 9.88623 10.8564 12.4011 13.8484 15.6587 25 10.5197 11.5240 13.1197 14.6114 16.4734 26 11.1603 12.1981 13.8439 15.3791 17.2919 27 11.8076 12.8786 14.5733 16.1513 18.1138 28 12.4613 13.5648 15.3079 16.9279 18.9392 29 13.1211 14.2565 16.0471 17.7083 19.7677 30 13.7867 14.9535 16.7908 18.4926 20.5992 40 20.7065 22.1643 24.4331 26.5093 29.0505 50 27.9907 29.7067 32.3574 34.7642 37.6886 60 35.5346 37.4848 40.4817 43.1879 46.4589 70 43.2752 45.4418 48.7576 51.7393 55.3290 80 51.1720 53.5400 57.1532 60.3915 64.2778 90 59.1963 61.7541 65.6466 69.1260 73.2912 100 67.3276 70.0648 74.2219 77.9295 82.3581

Page 50: Estadística Descriptiva - Instituto Nacional de Estadística y ...stica Descriptiva.pdf · • Medidas de localización y dispersión • Medidas de sesgo • Otras medidas 4. Descripción

50

Estadística Descriptiva

Concluye Tomada de «Tables of the Percentage Points of the 2-Distribution,» Biometrika, Vol. 32

χ2 0.100 χ2 0.050 χ2 0.025 χ2 0.010 χ2 0.005 g. de libertad 2.70554 3.84146 5.02389 6.63490 7.87944 1 4.60517 5.99147 7.37776 9.21034 10.5966 2 6.25139 7.814473 9.34840 11.3449 12.8381 3 7.77944 9.48773 11.1433 13.2767 14.8602 4 9.23635 11.0705 12.8325 15.0863 16.7496 5 10.6446 12.5916 14.4494 16.8119 18.5476 6 12.0170 14.0671 16.0128 18.4753 20.2777 7 13.3616 15.5073 17.5346 20.0902 21.9550 8 14.6837 16.9190 19.0228 21.6660 23.5893 9 15.9871 18.3070 20.4831 23.2093 25.1882 10 17.2750 19.6751 21.9200 24.7250 26.7569 11 18.5494 21.0261 23.3367 26.2170 28.2995 12 19.8119 22.3621 24.7356 27.6883 29.8194 13 21.0642 23.6848 26.1190 29.1413 31.3193 14 22.3072 24.9958 27.4884 30.5779 32.8013 15 23.5418 26.2962 28.8454 31.9999 34.2672 16 24.7690 27.5871 30.1910 33.4087 35.7185 17 25.9894 28.8693 31.5264 34.8053 37.1564 18 27.2036 30.1435 32.8523 36.1908 38.5822 19 28.4120 31.4104 34.1696 37.5662 39.9968 20 29.6151 32.6705 35.4789 38.9321 41.4010 21 30.8133 33.9244 36.7807 40.2894 42.7956 22 32.0069 35.1725 38.0757 41.6384 44.1813 23 33.1963 36.4151 39.3641 42.9798 45.5585 24 34.3816 37.6525 40.6465 44.3141 46.9278 25 35.5631 38.8852 41.9232 45.6417 48.2899 26 36.7412 40.1133 43.1944 46.9630 49.6449 27 37.9159 41.3372 44.4607 48.2782 50.9933 28 39.0875 42.5569 45.7222 49.5879 52.3356 29 40.2560 43.7729 46.9792 50.8922 53.6720 30 51.8050 55.7585 59.3417 63.6907 66.7659 40 63.1671 67.5048 71.4202 76.1539 79.4900 50 74.3970 79.0819 83.2976 88.3794 91.9517 60 85.5271 90.5312 95.0231 100.425 104.215 70 96.5782 101.879 106.629 112.329 116.321 80 107.565 113.145 118.136 124.116 128.299 90 118.498 124.342 129.561 135.807 140.169 100

Page 51: Estadística Descriptiva - Instituto Nacional de Estadística y ...stica Descriptiva.pdf · • Medidas de localización y dispersión • Medidas de sesgo • Otras medidas 4. Descripción

51

Estadística Descriptiva

Áreas de la curva normal6 z .00 .01 .02 .03 .04 .05 .06 .07 .08 .09 0.0 .0000 .0040 .0080 .0120 .0160 .0199 .0239 .0279 .0319 .0359 0.1 .0398 .0438 .0478 .0517 .0557 .0596 .0636 .0675 .0714 .0753 0.2 .0793 .0832 .0871 .0910 .0948 .0987 .1026 .1064 .1103 .1141 0.3 .1179 .1217 .1255 .1293 .1331 .1368 .1406 .1443 .1480 .1517 0.4 .1554 .1591 .1628 .1664 .1700 .1736 .1772 .1808 .1844 .1879 0.5 .1915 .1950 .1985 .2019 .2054 .2088 .2123 .2157 .2190 .2224 0.6 .2257 .2291 .2324 .2357 .2389 .2422 .2454 .2486 .2517 .2549 0.7 .2580 .2611 .2642 .2673 .2704 .2734 .2764 .2794 .2823 .2852 0.8 .2881 .2910 .2939 .2967 .2995 .3023 .3051 .3078 .3106 .3133 0.9 .3159 .3186 .3212 .3238 .3264 .3289 .3315 .3340 .3365 .3389 1.0 .3413 .3438 .3461 .3485 .3508 .3531 .3554 .3577 .3599 .3621 1.1 .3643 .3665 .3686 .3708 .3729 .3749 .3770 .3790 .3810 .3930 1.2 .3849 .3869 .3888 .3907 .3925 .3944 .3962 .3980 .3997 .4015 1.3 .4032 .4049 .4066 .4082 .4099 .4115 .4131 .4147 .4162 .4177 1.4 .4192 .4207 .4222 .4236 .4251 .4265 .4279 .4292 .4306 .4319 1.5 .4332 .4345 .4357 .4370 .4382 .4394 .4406 .4418 .4429 .4441 1.6 .4452 .4463 .4474 .4484 .4495 .4505 .4515 .4525 .4535 .4545 1.7 .4554 .4564 .4573 .4582 .4591 .4599 .4608 .4616 .4625 .4633 1.8 .4641 .4649 .4656 .4664 .4671 .4678 .4686 .4693 .4699 .4706 1.9 .4713 .4719 .4726 .4732 .4738 .4744 .4750 .4756 .4761 .4767 2.0 .4772 .4778 .4783 .4788 .4793 .4798 .4803 .4808 .4812 .4817 2.1 .4821 .4826 .4830 .4834 .4838 .4842 .4846 .4850 .4854 .4857 2.2 .4861 .4864 .4868 .4871 .4875 .4878 .4881 .4884 .4887 .4890 2.3 .4893 .4896 .4898 .4901 .4904 .4906 .4909 .4911 .4913 .4916 2.4 .4918 .4920 .4922 .4925 .4927 .4929 .4931 .4932 .4934 .4936 2.5 .4938 .4940 .4941 .4943 .4945 .4946 .4948 .4949 .4951 .4952 2.6 .4953 .4955 .4956 .4957 .4959 .4960 .4961 .4962 .4963 .4964 2.7 .4965 .4966 .4967 .4968 .4969 .4970 .4971 .4972 .4973 .4974 2.8 .4974 .4975 .4976 .4977 .4977 .4978 .4979 .4979 .4980 .4981 2.9 .4981 .4982 .4982 .4983 .4984 .4984 .4985 .4985 .4986 .4986 3.0 .4987 .4987 .4987 .4988 .4988 .4989 .4989 .4989 .4990 .4990

6 Versión extractada de la tabla 1 de Statistical Tables and Formulas, por A. Hald (New York: John Wiley & Sons, Inc., 1952).