métodos estadísticos exploratorios y confirmatorios para ...€¦ · el libro es un excelente...

302
See discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/312469322 Métodos Estadísticos Exploratorios y Confirmatorios para Análisis de Datos. Un Enfoque Biométrico Book · September 2013 CITATIONS 0 READS 512 1 author: Some of the authors of this publication are also working on these related projects: Study of aquatic species hard structures and population ecology for their assessment and management as natural resources View project Isaias Hazarmabeth Salgado-Ugarte Universidad Nacional Autónoma de México 73 PUBLICATIONS 628 CITATIONS SEE PROFILE All content following this page was uploaded by Isaias Hazarmabeth Salgado-Ugarte on 17 January 2017. The user has requested enhancement of the downloaded file.

Upload: others

Post on 19-Jan-2021

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Seediscussions,stats,andauthorprofilesforthispublicationat:https://www.researchgate.net/publication/312469322

MétodosEstadísticosExploratoriosyConfirmatoriosparaAnálisisdeDatos.UnEnfoqueBiométrico

Book·September2013

CITATIONS

0

READS

512

1author:

Someoftheauthorsofthispublicationarealsoworkingontheserelatedprojects:

Studyofaquaticspecieshardstructuresandpopulationecologyfortheirassessmentand

managementasnaturalresourcesViewproject

IsaiasHazarmabethSalgado-Ugarte

UniversidadNacionalAutónomadeMéxico

73PUBLICATIONS628CITATIONS

SEEPROFILE

AllcontentfollowingthispagewasuploadedbyIsaiasHazarmabethSalgado-Ugarteon17January2017.

Theuserhasrequestedenhancementofthedownloadedfile.

Page 2: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son
Page 3: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Métodos estadísticos exploratorios y confirmatorios

para análisis de datos. Un enfoque biométrico

Page 4: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO

FACULTAD DE ESTUDIOS SUPERIORES ZARAGOZA

Page 5: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Métodos estadísticos exploratorios y confirmatorios para análisis de datos. Un enfoque biométrico Prohibida la reproducción total o parcial de esta obra, por cualquier medio, sin autorización escrita del editor DERECHOS RESERVADOS (COPYRIGHT) © 2013 respecto a la primera edición ISBN: 978-607-02-3590-0 IMPRESO EN MÉXICO PRINTED IN MEXICO Esta obra se terminó de imprimir en septiembre de 2013 Se tiraron 400 ejemplares

Page 6: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Métodos estadísticos exploratorios y

confirmatorios para análisis de datos. Un enfoque biométrico

Isaías Hazarmabeth Salgado Ugarte

FACULTAD DE ESTUDIOS SUPERIORES ZARAGOZA

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO

Esta obra se realizó con apoyo de la UNAM a través de la DGAPA, PAPIME PE205407 y la FES Zaragoza

Page 7: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

P R Ó L O G O El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son temas que dan origen a procedimientos estadísticos de exploración de conjuntos de datos que permiten evaluar características de los mismos que son difíciles de observar a simple vista, y que son útiles en el proceso mismo de la descripción del conjunto de datos, así como en su uso posterior para la inferencia estadística. También trata algunos procedimientos más tradicionales para la inferencia, pero agregando el enfoque robusto o resistente. Es decir que algunos pocos datos atípicos no influyan demasiado en la evaluación global. Esto es importante dado que pueden haber ocurrido errores en esos datos atípicos o bien que puedan representar incidencias muy poco frecuentes de factores que influyen en las mediciones y no reflejan al mayor número de casos que ocurren en la muestra; incluso pueden hacer que la muestra no sea representativa de la población que se estudia. Se obtiene así un conjunto de técnicas que pretenden captar las características esenciales o relevantes de la muestra y en consecuencia de la población de donde se obtuvieron. Esta es la orientación principal y muy valiosa de este libro.

En métodos descriptivos se presentan con detalle los Diagramas de Tallo y Hoja, como una excelente alternativa a los tradicionales histogramas. Ligado a esto se trata una descripción numérica resistente o robusta que es no tradicional, del nivel y la dispersión de los datos. Se presentan buenas aplicaciones e interpretación de los diagramas de cajas. Hay un tratamiento excelente para el análisis de la distribución de las observaciones por medio de los estimadores de densidad por “kernel”. El tratamiento de las llamadas transformaciones o re-expresión de variables es muy ilustrativo, contemplado, bajo la idea de robustez o resistencia a los diversos supuestos de métodos tradicionales. Se incluye un excelente tratamiento del ajuste de líneas resistentes, como regresión robusta. Se extiende el tratamiento a curvas suavizadas, lo que le da una gran generalidad para la búsqueda de relaciones funcionales entre variables. También se presentan las tablas codificadas. El tema de pulimiento de medianas, se puede considerar un análisis robusto o resistente de datos con doble clasificación. En dos capítulos se trata el análisis simultáneo de varias variables o análisis multivariado, aun que esto requiere el manejo de algunos conceptos del algebra matricial, su presentación es muy fluida y fácilmente interpretable. Se concluye el libro con sendas introducciones de dos poderosos paquetes para el análisis estadístico, Stata y MINITAB. Definitivamente este libro es una valiosa contribución al análisis estadístico de información, con ejemplos del área biométrica, pero aplicable también a todas las áreas de actividad e investigación existentes.

Dr. Ignacio Méndez Ramírez, IIMAS, UNAM, diciembre de 2010

Page 8: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

P R E F A C I O En el año de 1992 se publicó mi primera contribución a la difusión para la aplicación de métodos estadísticos exploratorios a los datos provenientes de la investigación biológica. Desde ese tiempo y con el desarrollo de procedimientos adicionales a los abarcados en la obra original se hizo necesaria la integración de un volumen actualizado. Esto, además del eventual agotamiento de la primera edición, fue el motivo principal para la escritura de la presente obra en la que se presentan los métodos exploratorios principales a los que se han adicionado procedimientos que no fueron contemplados en la obra original, como lo son los estimadores de densidad por kernel. Asimismo, se han agregado dos capítulos: uno acerca de procedimientos confirmatorios básicos y otro que hace una introducción a la Estadística Multivariada.

La presente obra está organizada en 14 capítulos y dos apéndices que abarcan métodos para una, dos y más de dos variables cuantitativas y cualitativas así como instrucciones para uso de programas de cómputo, comerciales y propios. En los primeros capítulos se abarcan los Diagramas de Tallo y Hoja, método híbrido entre un histograma y un cuadro de frecuencias, los Resúmenes Resistentes de Nivel y Dispersión como alternativa a los cuadros estadísticos tradicionales (media y desviación estándar) los cuales destacan la existencia de casos extraordinarios y minimizan su influencia cuando ocurren. La versión gráfica de valores derivados de los anteriores resúmenes definen a los Diagramas de Caja y Bigotes, los cuales son muy útiles para la visualización de propiedades tales como nivel, distribución (aunque de manera muy básica) y dispersión. Con ellos es posible identificar valores extraordinarios así como asimetrías y heteroscedasticidad entre varios conjuntos de números, características importantes en la especificación adecuada de los procedimientos confirmatorios a utilizar para la inferencia estadística. Se incluye por primera vez la presentación de métodos para analizar la distribución de los datos por medio de estimadores de densidad por kernel, los cuales representan una notable mejoría respecto a los tradicionales histogramas. La parte univariada concluye con el capítulo sobre el cambio de escala (transformación o re-expresión) en la que se expresan los valores numéricos. Este cambio mejora el comportamiento numérico promoviendo simetría en la distribución u homogeneizando la variabilidad de los grupos de datos cuantitativos.

La segunda parte se refiere al proceso de dos variables cuantitativas ya sea mediante un método de ajuste lineal resistente basado en medianas y cuando se tienen datos numéricos registrados a lo largo de un continuo espacial o temporal, la suavización no lineal resistente, procedimiento de disminución de ruido basado también en medianas.

Los datos provenientes de la combinación de una variable cuantitativa con dos cualitativas pueden ser procesados mediante los métodos presentados en los dos siguientes capítulos por medio de la codificación de tablas y el pulido de

Page 9: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

mediana, este último, un equivalente resistente al análisis de varianza de dos vías de clasificación.

El análisis de más de dos variables cuantitativas nos lleva a métodos multivariados, de los cuales, un ejemplo exploratorio se incluye en el uso de los Diagramas de Escalera o las matrices de gráficos bivariados de dispersión.

Los dos capítulos siguientes contienen información sobre dos temas que no fueron incluidos en la edición que sirvió de base para la presente obra: primeramente se incluyen los clásicos procedimientos y conceptos esenciales para la definición de la inferencia estadística tales como los intervalos de confianza y las pruebas de hipótesis, acerca de uno y dos parámetros. Además se incluye la introducción a la comparación de más de dos grupos por medio del análisis de varianza en diseño completamente aleatorio tanto de un factor como de dos factores (fijos) con interacción. Algo que quisiera destacar es el ejemplo de pruebas a posteriori para un análisis de varianza de dos factores, pruebas que, a pesar de su sencillez, por lo general no se presentan en las obras básicas de estadística. En segundo lugar se ha incluido una introducción a los métodos multivariados con los casos más sencillos de la extensión de los métodos univariados a los multivariables para uno y dos parámetros (vector de medias) incluyendo una prueba para verificar la homoscedasticidad en el ámbito de múltiples variables.

Como en la versión anterior se han incluido dos capítulos con la manera básica para el manejo de dos paquetes comerciales computarizados de análisis estadístico: Stata y MINITAB.

Finalmente se anexan dos apéndices: el primero con algunos de los comandos de Stata empleados para realizar las gráficas y tablas de varios capítulos de esta obra y el segundo con un tutorial básico para el software original escrito como parte de esta obra, el AED2010.

Deseo que la presente obra sea una contribución que promueva el uso correcto de los métodos estadísticos para el entendimiento de los fenómenos biológicos y me responsabilizo por imprecisiones que pudiera contener. Mucho agradeceré se me notifique para su corrección en posteriores versiones.

Isaías Hazarmabeth Salgado Ugarte, FES Zaragoza, UNAM, diciembre de 2010

Page 10: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

C O N T E N I D O Pag. Introducción................................................................................. 001 Capítulo 1 Diagramas de Tallo y Hoja.......................................... 007 1.1 El desplegado básico.......................................................... 008 1.2 Número de líneas................................................................ 011 1.3 Algunas variaciones............................................................ 012 1.4 Resistencia......................................................................... 017 1.5 Consideraciones adicionales............................................... 017 Capítulo 2 Resumenes numéricos de nivel y dispersión............... 019 2.1 Ordenación, jerarquización, nivel y localización.................. 019 2.2 Valores de letras adicionales............................................... 021 2.3 Otras medidas resistentes de nivel................. ..................... 022 2.4 Medidas resistentes de dispersión....................................... 024 Capítulo 3 Diagramas de caja...................................................... 029 3.1 Diagramas de caja para un lote de datos............................ 030 3.2 Comparación de lotes de datos........................................... 034 3.3 El gráfico de dispersión-nivel y la transformación............... 037 3.4 Limitaciones de los diagramas de caja................................ 042 Capítulo 4 Distribución de lotes de números............................... 047 4.1 Diagramas univariados de dispersión y de puntos.............. 048 4.2 Histogramas....................................................................... 049 4.3 Número o amplitud de intervalos........................................ 050 4.4 Estimadores de densidad por kernel................................... 052 4.5 Reglas prácticas para determinar amplitud de banda.......... 054 4.6 Ejemplos............................................................................ 056 Canguros............................................................................ 056 Duración de erupciones de géyser “Old Faithful”.................. 057 Longitud de bagres.............................................................. 059 4.7 Estimadores de densidad por kernel con amplitud de banda variable..................................................................... 061 4.8 Diagramas de violín......... ................................................... 062 Capítulo 5 Re-expresión de los datos........................................... 065 5.1 Transformación potencial................................................... 066 5.2 Razones para transformar.................................................. 068 Re-expresión para facilitar la interpretación.......................... 068 5.3 Transformación para promover simetría............................. 069 5.4 Re-expresión para otras estructuras en los datos................ 074 Re-expresión para estabilizar la dispersión............................ 075 Re-expresión para promover linearidad.................................. 075 Re-expresión para simplificar la estructura........................... 082 5.5 Transformaciones emparejadas.......................................... 082 5.6 Comentarios adicionales..................................................... 085 Capítulo 6 Línea resistente.......................................................... 087 6.1 Pendiente e intercepto........................................................ 087 6.2 Puntos resumen................................................................. 088 6.3 Estimación de la pendiente y el intercepto.......................... 090

Page 11: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

6.4 Residuos............................................................................ 091 6.5 Pulido del ajuste (iteración)................................................. 092 6.6 Ejemplo: Radio del otolito contra longitud total................... 093 6.7 Casos extraordinarios (Outliers).......................................... 097 6.8 Línea resistente, regresión por mínimos cuadrados y regresión robusta................................................................... 099 6.9 Comentarios adicionales..................................................... 101 Capítulo 7 Suavización no lineal resistente.................................. 103 7.1 Introducción....................................................................... 103 Métodos tradicionales de suavización.................................... 104 Medianas corredizas.............................................................. 105 7.2 Definiciones básicas........................................................... 107 7.3 Ejemplo 1: Número de manchas solares.............................. 108 7.4 Suavizadores elementales................................................... 109 7.5 Definiciones adicionales y notación..................................... 112 7.6 Suavización de valores terminales....................................... 114 7.7 Suavizadores compuestos................................................... 115 7.8 Ejemplo 2: Capturas de peces en el tiempo......................... 123 7.9 Diagnóstico de la no-estacionaridad.................................... 126 Capítulo 8 Tablas codificadas....................................................... 131 8.1 Desplegado de tablas.......................................................... 133 8.2 Recomendaciones para el uso de tablas codificadas............ 134 8.3 Tablas codificadas y diagramas de cajas............................. 137 8.4 Detalles y alternativas........................................................ 138 Capítulo 9 Pulido de mediana...................................................... 141 9.1 Tablas de dos vías con tres variables.................................. 141 9.2 Modelo aditivo para tablas de dos vías (tres variables)...................................................................... 143 9.3 Pulido de mediana......................................... ..................... 144 9.4 Residuos y aditividad.......................................................... 148 Capítulo 10 Un método exploratorio multidimensional................. 157 Capítulo 11 Algunos procedimientos confirmatorios.................... 165 11.1 Intervalos de confianza y pruebas de hipótesis.................... 166 11.2 Tipos de error estadístico.................................................... 169 11.3 Estimación y pruebas acerca de una media poblacional..... 170 11.4 Estimación y comparación de dos parámetros (varianzas y medias)............................................... 172 11.5 Análisis de varianza de un factor (diseño completamente al azar)................................................... 180 11.6 Análisis de varianza de dos factores con interacción........... 184 Capítulo 12 Breve introducción a los métodos multivariados .... 191 12.1 Extensiones multivariadas de estadística elemental.......... 194 12.2 Ejemplo: contenido de Si, Al, Fe y Mg en rocas Lunares............................................................................... 196 12.3 Comparación multivariada de dos muestras..................... 198 12.4 Comparación de dos matrices de covarianza..................... 201 Capítulo 13 Introducción a Stata................................................. 207 13.1 Entrada a Stata................................................................ 207 13.2 Introducción y edición de datos........................................ 208 13.3 Estadística descriptiva univariada.................................... 212

Page 12: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

13.4 Análisis gráfico de datos................................................... 214 13.5 Procedimientos exploratorios complementarios en Stata.............................................................................. 221 Capítulo 14 Introducción al MINITAB.......................................... 225 14.1 Introducción, edición y desplegado de datos..................... 227 14.2 Información adicional sobre MINITAB............................... 230 14.3 Graficación de datos......................................................... 234 14.4 Otros comandos básicos importantes................................ 237 14.5 Comandos para el análisis exploratorio de datos............... 239 a) Diagramas de puntos......................................................... 239 b) Diagramas de tallo y hoja.................................................. 241 c) Estadígrafos básicos.......................................................... 242 d) Resúmenes de letras.......................................................... 243 e) Diagramas de caja............................................................. 244 f) Línea resistente.................................................................. 247 g) Suavización no lineal resistente......................................... 248 h) Tablas codificadas............................................................. 249 i) Pulido de mediana.............................................................. 250 Bibliografía................................................................................. 253 Apéndices A1.- Comandos Stata................................................................ 261 A2.- GuíA para el programa AED2010 .................................... 291

Page 13: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Introducción En las investigaciones biológicas (como en las de otras disciplinas) se obtiene una gran cantidad de información. Por ejemplo, dentro de los aspectos importantes para una correcta evaluación y administración de los recursos pesqueros, se encuentra el estudio de las poblaciones de peces. En los trabajos de investigación que se llevan a cabo para tal fin se produce un gran número de datos cualitativos y cuantitativos. La Figura I.1 reproduce la página de una libreta con anotaciones sobre dimensiones corporales y otras características biológicas de una especie de pez. Es común que resulten folios y folios con tales datos. La pregunta que surge cuando se revisa el cuaderno de notas es:

¿CUÁL ES EL MENSAJE DE TODOS ESTOS NÚMEROS Y LETRAS?

El desarrollo reciente de una serie de métodos incluidos en la disciplina estadística denominada Análisis Exploratorio de Datos (AED) ha permitido abordar con un enfoque diferente la información producto de la investigación científica que hace posible el contestar a la pregunta anterior. Estos métodos, en principio se deben al esfuerzo de John W. Tukey, quien en su obra "Exploratory Data Analysis" y en otras numerosas contribuciones ha expuesto una filosofía práctica de análisis que minimiza suposiciones a priori y permite que los datos mismos sirvan de guía en la elección de los modelos apropiados. Su labor ha sido continuada y desarrollada por discípulos y colaboradores cuyas obras definen actualmente a esta innovadora rama de la Estadística (Hartwig y Dearing, 1979; Velleman y Hoaglin, 1981; Hoaglin et al., 1983 y 1985; Chambers, et al., 1983; Curts, 1986; Curts et al.,1987; Siegel, 1988; Marsh, 1988). Una contribución más reciente es la obra de Quinn y Keough (2002) quienes dedican un capítulo completo a la exploración gráfica de los datos en el cual destacan la detección de errores en la captura, la detección de patrones, el reconocimiento del cumplimiento o no de las suposiciones de métodos estadísticos confirmatorios (principalmente gaussianidad y homoscedasticidad) y el reconocimiento de valores extraordinarios. El AED proporciona al analista de datos una serie de técnicas flexibles para explorar los valores numéricos y centrar la atención en sus características prominentes por medio de novedosos resúmenes numéricos y gráficos antes de compararlos con algún modelo probabilístico.

Una vez que se dispone de los datos, la exploración de los mismos debe ser la primera etapa en su proceso; los métodos del AED permiten reconocer su estructura. Existe un buen número de formas interesantes de arreglar y analizar a los datos para producir desplegados gráficos en los cuales es posible observar las tendencias y los valores inesperados. Otra forma de explorar la información es a través del examen de resúmenes numéricos, lo cual es necesario cuando se requiere estudiar una gran cantidad de valores y es difícil revisar en detalle a cada uno (Siegel, 1988). Un buen analista siempre examina con detalle a los

Page 14: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Introducción 2

datos antes de reportar resúmenes estadísticos y conclusiones derivadas de pruebas de hipótesis.

De acuerdo a Siegel (1988) puede afirmarse que el objetivo del AED es la separación e identificación de todos los componentes interesantes e importantes de los datos de la parte aleatoria, que se origina, por ejemplo, de los errores de medición.

Los métodos estadísticos tradicionales (confirmatorios) a menudo requieren del cumplimiento de suposiciones rigurosas para su aplicación. Sin embargo, la experiencia al trabajar con los datos reales y estudios adicionales muestran que las observaciones pocas veces se ajustan a tales supuestos. El comportamiento de los métodos clásicos es inadecuado en estas circunstancias, por lo que los procedimientos resistentes y robustos de reciente desarrollo amplían la efectividad del análisis estadístico (Hoaglin, et al., 1983).

Los métodos robustos y resistentes son aplicables en una amplia gama de situaciones. A diferencia de los métodos no-paramétricos (de distribución libre) que tratan a todas las distribuciones por igual, los procedimientos robustos y resistentes discriminan entre aquellas que son más o menos plausibles. Por esto, un ciclo del empleo alternante de técnicas exploratorias y confirmatorias, ya sea en cuerpos pequeños sucesivos de datos o en uno sólo, es muy recomendable (Hoaglin, et al., 1983).

En el análisis exploratorio de datos aparecen cuatro temas: Resistencia, Residuos, Re-expresión y Revelación (Hoaglin, et al., 1983). Debido a sus iniciales, estos cuatro temas son las cuatro Rs del AED y representan los enfoques propios que distinguen al Análisis Exploratorio de Datos (AED) del Análisis Confirmatorio de Datos (ACD) y de la estadística inferencial tradicional (Deleon y Anagnoson, 1991).

La Resistencia, se refiere a la insensibilidad hacia comportamientos

anómalos localizados de los datos. En la recopilación y procesamiento de la información es posible la ocurrencia de equivocaciones, aún cuando se efectúa un manejo cuidadoso. Por esto es necesario saber que uno o dos errores en un conjunto de cientos de observaciones no afectarán significativamente las conclusiones que de ellos se infieran (Siegel, 1988). Los métodos resistentes producen resultados que cambian muy poco cuando una parte pequeña de los datos es reemplazada por números nuevos que pueden ser muy diferentes de los originales. Un valor extraño que destaca porque es muy distinto de los demás se conoce como caso extraordinario. Es posible que una equivocación resulte en un caso extraordinario, sin embargo, no todos los casos extraordinarios son equivocaciones. Estos pueden pertenecer a valores pertenecientes a una categoría aparte y por esto no se comportan como el resto de los datos (Siegel, 1988).

Page 15: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Introducción 3

Figura I.1. Hoja de trabajo con los mediciones biométricas y biológicas del pez “suzuki” (Lateolabrax japonicus) de la captura comercial efectuada en la Bahía de Tokio.

Page 16: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Introducción 4

Los métodos resistentes hacen más fácil la identificación de los casos extraordinarios, los cuales merecen un tratamiento por separado. Tales métodos centran su atención sobre el cuerpo principal de los datos y ponen muy poca en valores marcadamente diferentes a los demás. La mediana es un estadístico resistente mientras que la media muestral no lo es (Hoaglin, et al., 1983; Siegel, 1988). La resistencia es una de las mayores ventajas de las técnicas de AED en comparación con el ACD (Deleon y Anagnoson, 1991). Los casos extraordinarios producen distorsiones significativas en los métodos confirmatorios tradicionales.

Los Residuos son los valores resultado de la substracción de un modelo ajustado a los datos de acuerdo a la ecuación esquemática:

residuos = datos – ajuste

En el ámbito exploratorio ningún análisis de un conjunto de datos está completo sin haber examinado cuidadosamente a los residuos. Debido a que los procedimientos resistentes separan claramente el comportamiento de la mayoría del comportamiento poco usual, los residuos resistentes contienen, además de las fluctuaciones aleatorias, cualquier desviación drástica de un patrón consistente. Los estimadores resistentes por tanto hacen fácil la detección de valores extraños y la evaluación correcta de su magnitud. En contraste, los residuos producidos por estimadores no-resistentes enmascaran a los casos extraordinarios (Deleon y Anagnoson, 1991). Residuos con valores extraordinarios conducen a la verificación de los detalles de la toma y manejo de de las observaciones. Como en la práctica tradicional, los residuos —analizados y desplegados apropiadamente— pueden advertir aspectos sistemáticos importantes del comportamiento de los datos que requieren una especial atención tales como curvatura, no-aditividad y variabilidad inconstante (Hoaglin, et al., 1983).

La Re-expresión se refiere a la transformación de las variables a una escala diferente de medición (logarítmica, raíz cuadrada, etc.) que simplifica el análisis de los datos. Durante la exploración de los datos se puede descubrir si la escala original es satisfactoria o no. En este caso, la re-expresión promueve la manifestación de características deseables en los datos, tales como simetría, variabilidad constante, linearidad en la relación o aditividad de efectos, dependiendo de la estructura de los datos.

Algunos investigadores pueden sentirse incómodos al abandonar la escala de medición original. Después de todo, no compramos filetes de pescado con logaritmos de pesos, sino con pesos verdaderos. Sin embargo esta renuencia no resiste al examen. En numerosas ocasiones la escala re-expresada tiene sentido práctico. De esta forma el recíproco de gramos de ganancia de peso por día representa la cantidad necesaria de días para incrementar el peso en un gramo. Aún cuando la transformación no tenga un sentido intuitivo es a menudo

Page 17: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Introducción 5

necesaria desde un punto de vista estadístico si se desea modelar la estructura que existe en los datos (Deleon y Anagnoson, 1991).

Otros piensan incluso que "transformación" es una bonita palabra utilizada como sinónimo de "engaño". Aquí conviene citar la siguiente afirmación de Siegel (1988): la re-expresión es una herramienta sin sentido intrínseco de "bondad" o "maldad", sin embargo como cualquier herramienta puede ser utilizada para bien o para mal. Ciertamente no es ético engañar, por lo que las transformaciones no deben utilizarse para este fin.

Es verdad que los físicos algunas veces tienen una sólida base teórica para decidir trabajar con voltios o voltios cuadrados. Sin embargo, cuando no existe esta base teórica que oriente sobre la elección, la escala original de medición no tiene preferencia. Por lo tanto la respuesta del hígado de un animal a un tratamiento puede no estar más naturalmente reflejado en p (el peso), que en el logaritmo de p o en la raíz cuadrada de p, al menos mientras se avanza en la comprensión cuantitativa de los fenómenos asociados (Hoaglin et al., 1983).

La Revelación permite la observación directa del comportamiento de los datos, del ajuste, de las medidas de diagnóstico y de los residuos por medio de diagramas o desplegados gráficos haciendo posible el reconocimiento de características inesperadas y regularidades conocidas o esperadas. El empleo de desplegados visuales, que incluyen numerosas técnicas gráficas nuevas es una de las mayores contribuciones del análisis exploratorio (Hoaglin et al., 1983) que ha inspirado el desarrollo de paquetes gráficos computarizados para el análisis estadístico de datos (Deleon y Anagnoson, 1991).

Por otro lado las técnicas resistentes y robustas involucran la iteración en mayor grado que los procedimientos tradicionales. Por lo tanto en lugar del cálculo de la solución en un sólo paso, a menudo se considera un valor inicial que se va puliendo sucesivamente, acercándonos paulatinamente a la respuesta final. Esta iteración puede considerarse como parte del precio de la resistencia o robustez; los métodos que proporcionan un ajuste o estimación sin iteración pueden no ser resistentes ni robustos. Afortunadamente los procedimientos iterativos por lo general son sencillos y rara vez requieren de numerosos pasos (Hoaglin, et al. 1983) y aunque la iteración involucre numerosos pasos, la disponibilidad de computadores personales y paquetes comerciales que incluyen los procedimientos exploratorios permiten superar la barrera que representa la realización de cálculos repetitivos y con esto aumentar la eficiencia del análisis al concentrar la atención en los resultados.

Page 18: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Capítulo 1. Diagramas de tallo y hoja El conjunto de datos más simple esta dado por un sólo grupo de números, el cual se caracteriza como una lista de valores medidos en las mismas unidades (Siegel, 1988). La sola observación de estos números no basta para reconocer sus características fundamentales, entre las que podemos citar:

- El nivel - La dispersión - La distribución de los valores - Los casos extraordinarios

El nivel expresa donde se concentran las observaciones dentro del intervalo de la escala numérica en que los datos existen. La dispersión se refiere a semejanza de los valores entre sí o respecto a un valor de referencia (como la media). Indica el grado de variación en los valores de los datos. Como su nombre lo indica, la distribución se refiere al modo de reparto de los valores en el intervalo donde ocurren. El diagrama de tallo y hoja permite organizar gráfica y numéricamente a los valores para conseguir una inspección visual detallada de su distribución (Emerson y Hoaglin, 1983a; Marsh, 1988); la forma de dicha distribución puede ser aplanada (platicúrtica) o aguzada (leptocúrtica), con huecos o varias concentraciones (multimodal), simétrica o sesgada (positiva o negativamente). Los casos extraordinarios hacen referencia a las observaciones que son notablemente diferentes de la mayoría. El diagrama de tallo y hoja permite distinguir observaciones muy diferentes del resto de los datos (es decir, los casos extraordinarios). El desplegado de tallo y hoja representa una técnica exploratoria sencilla pero versátil que ha probado ser útil en la comparación de lotes de datos y en el examen de residuos. Siegel (1988), considera al diagrama de tallo y hoja como una variante del histograma. Sin embargo, el utilizar los dígitos de los datos en vez de considerar un intervalo de valores que los abarque puede ser más ventajoso al permitir recuperar de manera precisa cada dato individual. Mediante este diagrama resulta fácil ordenar a los valores y encontrar resúmenes numéricos basados en el lote ordenado como la mediana y los cuartos. Además, debido a la sencillez de su construcción, es posible realizarlo "a mano" con papel y lápiz. Una ventaja adicional al poder visualizar a los valores dentro de cada intervalo es la identificación de patrones: se puede reconocer, por ejemplo, que el investigador anotó las observaciones como múltiplos de algún número.

Page 19: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Capítulo 1. Diagramas de tallo y hoja

8

1.1 El desplegado básico El diagrama de tallo y hoja (Tukey, 1970, 1972), representa una técnica flexible y efectiva al comienzo del examen de un lote o muestra de datos. Su nombre deriva del hecho de que se fundamenta en la partición de los dígitos en dos componentes: tallos y hojas. El desplegado se construye colocando una hoja para cada valor de los datos en el nivel apropiado de los tallos de esta planta esquemática (Marsh, 1988). Los dígitos más significativos de los valores de los datos hacen la mayor parte del trabajo en el ordenamiento del lote y su desplegado. Para explicar el diagrama y la manera de su construcción se empezará con un ejemplo. En la Tabla 1.1 se incluyen algunos datos de la anchura mandibular (mm) del canguro Macropus fuliginosus reportados en Andrews y Herzberg (1985). Se considerarán los datos de amplitud mandibular de las hembras. Los datos corresponden a diversas medidas craneales que se tomaron con el fin de identificar la especie de tres canguros de los 19 capturados en la Isla Canguro que sobrevivieron el largo viaje en un barco de investigación francés y llegaron a Francia en 1803. El primer paso para la construcción de este diagrama es la elección de un par conveniente de dígitos adyacentes a partir de los cuales se dividen los valores considerando el intervalo total, es decir determinar los tallos y las hojas. Para realizar una elección adecuada pueden ensayarse varias divisiones. Para las hembras, considerando el valor menor de 108 y el mayor de 174 se podría partir a los números entre las centenas y las decenas. Sin embargo, si se realiza lo anterior tan sólo se obtendría un tallo (1) en los cuales tendrían que acomodarse todas las hojas, por lo que el diagrama resultante estaría demasiado "apretado". Es posible entonces, probar dividir entre decenas y unidades para obtener tallos que en este caso van de 10 hasta 17, lo cual representa un total de 8 tallos en los cuales se distribuirán los valores de las hojas. Esta elección parece más conveniente por lo que se procede a la partición de cada valor entre las decenas y unidades. Para el valor más alto se tendrá:

valor del dato partición tallo y hoja

174 17 | 4 17 y 4 De esta forma las centenas y decenas serán los dígitos guía ("tallos") y las unidades representarán las "hojas". Los tallos se separan de las hojas por medio de una línea a todo lo largo del intervalo de valores (en nuestro ejemplo los tallos van de 10 a 17) y cada valor de las hojas (unidades) se escribe en el renglón del tallo (centenas y decenas) que corresponda (Tabla 1.2).

Page 20: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Métodos estadísticos exploratorios y confirmatorios para análisis de datos. Un enfoque biométrico

9

Tabla 1.1. Datos de

anchura mandibular (mm) de Macropus fuliginosus.

Número Hembras Machos 1 130 133 2 133 147 3 131 151 4 132 146 5 130 160 6 135 144 7 127 151 8 108 156 9 129 146 10 139 154 11 143 166 12 174 147 13 140 159 14 141 149 15 148 159 16 134 157 17 142 166 18 150 159 19 157 167 20 150 158 21 148 169 22 141 158 23 158 161 24 153 154 25 153 156

El diagrama terminado incluye una indicación de la escala utilizada así como una columna de profundidades a la izquierda de los tallos. La profundidad de un dato es un concepto asociado a la ordenación de los mismos. Los valores originales se ordenan en forma creciente y a estos se les puede asignar un valor de orden (rango). Este valor de orden puede ir de menor a mayor o de mayor a menor. Así el dato que hemos utilizado de 174 mm (el mayor de la lista) tiene dos valores de orden: 25 (el último en orden creciente) y 1 (el primero en orden decreciente). La profundidad se define como el valor del menor de dichos valores de orden (creciente y decreciente). Por lo tanto la profundidad del dato 174 es 1. El número de profundidad escrito a la izquierda de cada tallo representa la profundidad máxima asociada con los valores de esa línea (Emerson y Hoaglin, 1983a).

Page 21: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Capítulo 1. Diagramas de tallo y hoja

10

Tabla 1.2 Diagrama de tallo y hoja para los datos de anchura mandibular (mm) del canguro Macropus fuliginosus (hembras) N = 25 Unidad de hoja = 1.0 10|8 representa 108 Profundidad 1 10|8 1 11| 3 12|79 11 13|00123459 (7) 14|0112388 7 15|003378 1 16| 1 17|4

La "línea central" incluye a la mediana y el valor entre paréntesis que se

escribe en la columna de las profundidades es el número de datos (hojas) incluidos en ese tallo. Cuando el tamaño del lote es par y la mediana se encuentra entre líneas no hay necesidad de incluir este valor.

Si los valores originales de los datos no han sido ordenados, el diagrama inicial no tendrá sus hojas en orden creciente. Como una opción, en el desplegado final se pueden entonces ordenar las hojas. Esto sucede automáticamente cuando el desplegado es producido por una computadora (Velleman y Hoaglin, 1981).

En su apariencia global el desplegado semeja un histograma con una amplitud de intervalo de 10 mm; las hojas agregan detalles numéricos, y en este caso preservan toda la información de los datos.

En diagrama de la Tabla 1.2 se aprecia que la mayor parte de las anchuras mandibulares en la muestra tienen entre 130 y 140 mm de longitud; una distribución aproximadamente simétrica con una sola moda de longitudes (distribución unimodal). Los valores extremos (altos y bajos) están separados del resto por líneas sin representantes lo que sugiere la existencia de posibles casos extraordinarios.

Page 22: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Métodos estadísticos exploratorios y confirmatorios para análisis de datos. Un enfoque biométrico

11

1.2 Número de líneas El número de líneas en un DTH es equivalente al número de intervalos en un histograma. Si se eligen unos pocos tallos, el resultado es demasiado simple. Si se eligen muchos, el resultado es muy variable. Una elección efectiva del número de líneas en un diagrama de tallo y hoja requiere la consideración del número de datos en el lote y del intervalo que cubren. Para estimar el número máximo de líneas se considerará la siguiente expresión:

L = [10 * log10 n] (1.1) donde n es el número de datos y los paréntesis cuadrados indican el valor entero de su contenido. Esta regla proporciona valores de L que producen desplegados efectivos dentro del intervalo 20 < n < 300. Velleman (1976) recomienda para valores de n < 50 la expresión siguiente:

L = n1/2 (1.2) Por lo general no es muy cómodo obtener el diagrama de tallo y hoja de lotes de datos con más de 300 valores, sin embargo, la regla de la expresión (1.1) sigue dando valores razonables en estos casos, y tiene por tanto un mejor balance (Geiger, 1991).

Al usar el valor de L como el límite aproximado del número de líneas en el diagrama, se debe determinar el intervalo de valores que corresponden a cada línea. La manera más simple de hacer esto hace uso de una potencia de 10 como la amplitud del intervalo. Para esto se divide R (el recorrido del lote) entre L y se redondea el cociente hasta la potencia de 10 más cercana. Aplicando lo anterior para el ejemplo analizado arriba tenemos que n = 25 y R = 174 - 108 = 66. Substituyendo en (1.1):

L = [10 * log10 25] = 13.97 ≈ 14; este resultado sugiere un ancho de intervalo de 66/14 = 4.71 ≈ 5. El número de 14 tallos es cerca del doble del número elegido arriba (8). Si se amplía el número de líneas se obtendría un poco más de detalle en la repartición de valores. La forma de realizar esto se verá en la siguiente sección.

Page 23: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Capítulo 1. Diagramas de tallo y hoja

12

1.3 Algunas variaciones El número de tallos puede incrementarse para proporcionar más detalle o reducirse para reducir variaciones aleatorias. Para el caso anterior, podemos duplicar el número de tallos si cada línea que recibe hojas de 0 a 9 se divide en dos. La primera incluyendo a las hojas de 0 a 4, señalada con un * (asterisco) y la segunda de 5 a 9, indicada por un • (punto). Tabla 1.3 Diagrama de tallo y hoja para los datos de anchura mandibular (mm) del canguro Macropus fuliginosus (hembras), variación asterisco – punto. N = 25 Unidad de hoja = 1.0 10• |8 representa 108 Profundidad 1 10• |8 1 11* | 1 11• | 1 12* | 3 12• |79 9 13* |001234 11 13• |59 (5) 14* |01123 9 14• |88 7 15* |0033 3 15• |78 1 16* | 1 16• | 1 17* |4 Este desplegado (Tabla 1.3) utiliza 14 líneas con una amplitud de intervalo de 5, valor que es la mitad de la primera potencia de 10.

No es la única manera de aumentar el número de tallos. Pudiera utilizarse la notación *tfs• para obtener diagramas que incluyen 5 líneas por tallo:

Page 24: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Métodos estadísticos exploratorios y confirmatorios para análisis de datos. Un enfoque biométrico

13

Tabla 1.4 Diagrama de tallo y hoja para los datos de anchura mandibular (mm) del canguro Macropus fuliginosus (hembras), variación de 5 líneas por tallo N = 25 Unidad de hojas = 1.0 10• |8 representa 108 Profundidad 1 10• |8 1 11* | 1 11t | 1 11f | 1 11s | 1 11• | 1 12* | 1 12t | 1 12f | 2 12s |7 3 12• |9 6 13* |001 8 13t |23 10 13f |45 10 13s | 11 13• |9 (3) 14* |011 11 14t |23 9 14f | 9 14s | 9 14• |88 7 15* |00 5 15t |33 3 15f | 3 15s |7 2 15• |8 1 16* | 1 16t | 1 16f | 1 16s | 1 16• | 1 17* | 1 17t | 1 17f |4

Page 25: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Capítulo 1. Diagramas de tallo y hoja

14

con las hojas 0 y 1 en la línea *, 2 y 3 en la línea t (de las iniciales de estos números en inglés, "two" y "three"), 4 y 5 en la línea f ("four" y "five"), 6 y 7 en la línea s ("six" y "seven") y finalmente 8 y 9 en la línea •. En esta variante la amplitud del intervalo es la quinta parte de 10 o 2 veces la potencia de 10 a la potencia de cero (Chambers, et al., 1983). Cabe destacar que el aumentar el número de líneas hace evidentes los efectos de la aleatoriedad de las observaciones (Siegel, 1988). Resulta obvio que este número de líneas (34) es muy grande ya que el número de datos es menor (25). En este caso podemos afirmar que estamos destacando las variaciones aleatorias más que la distribución de los datos (Tabla 1.4). La máxima expansión del diagrama de tallo y hoja (en el sistema decimal) sería el utilizar una línea por cada dígito de las hojas (del 0 al 9).

Se han desarrollado otras variaciones para la comparación simultánea de dos o más lotes de datos como los diagramas de tallo y hoja "en espejo" ("back to back" en inglés), que permiten la comparación de dos grupos (Curts, 1986), o los diagramas en paralelo para la comparación de dos o más lotes (Emerson y Wong, 1985).

Tabla 1.4 Diagramas de tallo y hoja en espejo por sexos para los datos de anchura mandibular del canguro Macropus fuliginosus N = 50 Unidad de hoja = 1.0 10|8 representa 108 Profundidad Machos Hembras Profundidad 0 |10| 8 1 0 |11| 1 0 |12| 79 3 1 3 |13| 00123459 11 7 988774 |14| 0112388 (7) (12) 999887664411 |15| 003378 7 6 976610 |16| 1

0 |17| 4 1

En las tablas 1.4 y 1.5 se aplican estas variantes a los datos de anchura

mandibular de canguros. Se comparan los valores de machos y hembras. Puede notarse que el nivel (lugar de concentración) de los valores de los machos es

Page 26: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Métodos estadísticos exploratorios y confirmatorios para análisis de datos. Un enfoque biométrico

15

mayor que el de las hembras (en general los machos tienen mandíbulas más anchas que las hembras), si bien, existió en la muestra una hembra con ancho mandibular muy grande (174) como para ser el valor mayor de todos los individuos.

Desde hace muchos años, en las líneas de metro y ferrocarril de Japón, el

horario de salida de los trenes para cada dirección (hacia el centro ó desde el centro) ha utilizado equivalentes del diagrama de tallo y hoja en espejo. En ellos, el tallo central representa la hora y las hojas son los minutos. En la Figura 1.1 se incluye un ejemplo. Este cuadro indica la hora de salida de trenes en la estación Nezu de la línea Chiyoda de Tokio hacia el centro y hasta terminal Yoyogiuehara-Honatsugi y desde el centro hasta terminal Ayase-Abiko-Toride. Puede apreciarse claramente la naturaleza bimodal del número de salidas de trenes con modas principales en horas pico de la mañana (de 7 a 9 horas) y otras menos pronunciadas a las horas de regreso en la tarde (de 16 a 20 horas).

Figura 1.1 Horario de salida de los trenes hacia el centro (izquierda) y desde el centro (derecha) de la estación “Nezu” (cerca de la Universidad de Tokio) línea Chiyoda.

Page 27: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Capítulo 1. Diagramas de tallo y hoja

16

Tabla 1.5 Diagramas de tallo y hoja en paralelo por sexos para los datos de anchura mandibular del canguro Macropus fuliginosus N = 50 Unidad de hoja = 1.0 10|8 representa 108

Machos Hembras 0 10| 1 10|8 0 11| 1 11| 0 12| 3 12|79 1 13|3 11 13|00123459 7 14|466779 (7) 14|0112388 (12) 15|114466788999 7 15|003378 6 16|016679 1 16| 0 17| 1 17|4

El diagrama de tallo y hoja puede escribirse en forma horizontal. Así, para

los datos de longitud craneal se tendría la siguiente versión horizontal: 9 5 8 4 8 8 3 3 7 2 2 3 1 1 3 0 1 0 8 7 0 0 0 4 10 11 12 13 14 15 16 17

De acuerdo a Siegel (1988), la ventaja de esta variante es que los valores se disponen como en el tradicional histograma, mientras que la versión original requiere de alguna rotación, ya sea de la hoja de papel o bien en la mente (una especie de gimnasia geométrica) para lograr la semejanza.

Page 28: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Métodos estadísticos exploratorios y confirmatorios para análisis de datos. Un enfoque biométrico

17

1.4 Resistencia Los procedimientos exploratorios involucran la resistencia. Los valores extraordinarios se localizan al inicio ó final de la secuencia ordenada de los datos. Por tanto, parece razonable no basarse en estas observaciones de un grupo de números para establecer la escala (valor de los tallos y el número de líneas) del diagrama de tallo y hoja. Esta escala deberá estar definida por la mayoría de los datos, ignorando a los valores extraordinarios. Existen reglas definidas para distinguir a los "casos aberrantes" que se definirán en el capítulo sobre resúmenes numéricos de nivel y dispersión. En el diagrama de tallo y hoja estos valores atípicos se listan en líneas rotuladas como "bajo" y "alto" aparte del conjunto de tallos. Los dígitos se escriben sin partición y separados por comas (Emerson y Hoaglin, 1983a). 1.5 Consideraciones adicionales Entre algunas recomendaciones para el empleo de los diagramas de tallo y hoja puede mencionarse que frecuentemente es necesario cambiar las unidades de medida multiplicando por alguna potencia de 10 y el truncar los datos (esto es ignorar algunos dígitos hacia la derecha) para tener valores adecuados. Algunas veces resulta útil transformar los datos, por ejemplo aplicando logaritmos. Además las reglas para la construcción del diagrama pueden modificarse si se encuentra que alguna variación produce un mejor desplegado para cierto lote particular de datos. De esta forma, cada hoja puede contener dos dígitos separados por una coma en lugar de uno (por lo tanto una fila cuyos valores son 5|21,36,97 representa los valores 521, 536 y 597.

El diagrama de tallo y hoja es particularmente útil cuando es importante considerar tanto los valores numéricos como la información gráfica acerca de la distribución de los datos, por ejemplo en reportes y artículos en los cuales los datos se presentan y analizan (Chambers, et al., 1983). En el estudio de datos biológicos los diagramas de tallo y hoja pueden utilizarse para el análisis preliminar de cualquier tipo de medida biométrica. Se han recomendado para la anotación de los valores de longitud de las muestras provenientes de la captura comercial de especies pesqueras por ser un método que permite el conservar cada dato individual con un número menor de dígitos y porque hace posible un análisis inicial de los datos (Hoenig, et al., 1987).

Page 29: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Capítulo 1. Diagramas de tallo y hoja

18

En algunos casos este diagrama puede tener un mejor desempeño que el tradicional histograma en el análisis de la frecuencia de tallas. Una aplicación a la comparación de las dimensiones de otolitos se encuentra en Salgado-Ugarte (1990 y 1991).

Page 30: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Capítulo 2. Resúmenes resistentes de nivel y dispersión Los resúmenes estadísticos clásicos para un lote de datos constituido por n observaciones incluyen una medida de nivel y otra de dispersión. Estos valores son la media aritmética (o promedio) y la varianza respectivamente. La media y la varianza no son las únicas medidas de nivel y dispersión. En ocasiones (por ejemplo cuando existen casos extraordinarios), en la fase exploratoria de los datos resulta conveniente el considerar otros resúmenes numéricos que se basen en el conteo y orden de las observaciones. Estos resúmenes, entre otras ventajas, son resistentes a diferencia de la media y varianza, las cuales son afectadas por un sólo valor extraordinario. Los "resúmenes de letras" están basados en valores provenientes del lote de datos una vez que se han ordenado. Estos valores son rotulados con letras como la M (para la mediana) y la F (del inglés "Fourths" para los "cuartos", el nombre resistente de los cuartiles). Los valores asociados a estas letras pueden utilizarse para definir medidas de localización resistentes y la dispersión del lote. También son útiles en la búsqueda de casos extraordinarios. Asimismo, representan de manera económica a un lote de datos de tal forma que la mayor parte de las observaciones puede ser recuperada aproximadamente (Hoaglin, 1983). 2.1 Ordenación, jerarquización, nivel y localización El primer paso en la construcción de un resumen de letras es la ordenación ascendente del lote de datos y la asignación de un valor de orden para cada observación. A esta asignación de rangos se le conoce como “jerarquización”. Es importante aclarar aquí que la palabra en español “rango” equivale a la palabra inglesa “rank” y se usará en este sentido y no como sinónimo de “intervalo” que corresponde a la palabra inglesa “range”. Los rangos (posición jerárquica en la secuencia ordenada) se pueden asignar empezando por los valores menores y terminando en los mayores ó viceversa. Con estos valores de orden se determina la profundidad la cual es el rango menor de los dos que posee cada observación. Utilizando esta noción de profundidad es posible extraer varios valores resumen exploratorios de nivel (localización) de un conjunto de números. El más familiar de estos resúmenes es la mediana, la cual proporciona el centro de la muestra en términos de conteo. Si el número de datos (n) es impar la mediana es el valor con la profundidad máxima; si n es par la mediana es el promedio de los dos valores centrales (con los valores de profundidad más altos).

Page 31: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Capítulo 2. Resúmenes resistentes de nivel y dispersión

20

Para calcular la profundidad de la mediana se utiliza la siguiente expresión:

Prof. de la mediana = (n + 1)/2 (2.1)

Como ejemplo se utilizarán los datos tomados de Salgado-Ugarte (1995) que representan la longitud patrón en mm (medida desde la punta de la boca hasta la extremo posterior del lóbulo carnoso del cuerpo) de 11 especímenes de Lateolabrax japonicus (pez conocido comúnmente como “suzuki”) provenientes de la captura comercial de la Bahía de Tokio (septiembre de 1993): 500, 440, 560, 435, 490, 540, 490, 460, 480, 475 y 485 Las observaciones ordenadas son: R.A. 1 2 3 4 5 6 7 8 9 10 11 R.D. 11 10 9 8 7 6 5 4 3 2 1 Prof.: 1 2 3 4 5 6 5 4 3 2 1 435, 440, 460, 475, 480, 485, 490, 490, 500, 540, 560 (R.A. = Rango ascendente; R.D. = Rango descendente; Prof. = Profundidad) Puesto que n = 11, entonces la profundidad de la mediana es igual a: (11 + 1)/2 = 6. El sexto valor en la secuencia ordenada es la mediana (485). La profundidad permite la determinación de otros valores resumen de localización (nivel) como son los datos que marcan una cierta fracción (1/4 o 3/4 entre otras posibles) de datos anteriores o posteriores. En el campo exploratorio un par de estos valores resumen son los cuartos, cuya profundidad se define de la siguiente manera:

Prof. de los cuartos = ([prof. de la mediana] + 1)/2 (2.2) donde los paréntesis cuadrados ó corchetes “[]” indican la operación de encontrar el valor entero de su contenido. Para el lote de longitudes la profundidad de los cuartos (un valor para cada una de las mitades delimitadas por la mediana) es ([6] + 1)/2 = 3.5; el número fraccionario indica que el valor de cada cuarto debe obtenerse por medio del promedio de los datos ordenados con la profundidad 3 y 4. En este caso el cuarto inferior (FL) es igual a (460 + 475)/2 = 467.5 y el cuarto superior (FU) viene a ser (490 + 500)/2 = 495. Los cuartos indican que 1/4 de los datos es menor a 467.5 o mayor a 495, y que 1/2 de todas las observaciones se encuentra entre estos valores (mitad central de los datos).

Los valores con profundidad igual a 1 representan los extremos y son los valores con el valor menor y mayor del lote de datos. En el ejemplo considerado los extremos son 435 y 560.

Page 32: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Métodos estadísticos exploratorios y confirmatorios para análisis de datos. Un enfoque biométrico

21

Con la mediana, los cuartos y extremos es posible construir el resumen de

letras de cinco números (la forma más simple) de la siguiente manera: n = 11

Prof. Longitud total ______________________

Mediana (M) 6 | 485 | Cuartos (F) 3.5 | 467.5 495 | Extremos 1 | 435 560 |

De esta forma, para las 11 longitudes, podemos decir que típicamente los peces en la muestra miden 485 mm y que aunque pueden medir desde 435 hasta 560 mm de longitud patrón, la mitad de los peces tuvieron una longitud comprendida entre 467.5 y 495. 2.2 Valores de letras adicionales En lotes muy grandes a menudo vale la pena resumir con más detalle y determinar valores de localización adicionales. El resumen de cinco números puede ampliarse fácilmente para contener dos valores resumen adicionales: los octavos, determinados por:

prof. de los octavos = ([prof. de los cuartos] + 1)/2 (2.3) y con esta operación se tiene un resumen de 7 números. Sí el número de datos es lo suficientemente grande es posible ir de los octavos a los dieciseisavos y de éstos a los treintaidosavos etc. calculando la profundidad correspondiente de acuerdo con la expresión generalizada:

([prof. previa] + 1)/2 (2.4) continuando hasta que la nueva profundidad alcance el valor de 1 (o sea al llegar a los extremos).

Por ser conveniente para su notación y desplegado se utilizan etiquetas de una sola letra para los valores resumen extraídos del lote. Se utiliza (como ya se ha señalado) a la M para la mediana y la F para los cuartos (del inglés "Fourth", que significa cuarto). Los extremos no tienen otra etiqueta que el valor de profundidad igual a 1. Se usa la E para los octavos (del inglés "Eighth") y para los

Page 33: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Capítulo 2. Resúmenes resistentes de nivel y dispersión

22

demás valores se utiliza el orden alfabético inverso desde, D, C, B, A y se continúa con la Z, Y, X, W, etc.

Una secuencia de letras hasta la W luciría de la manera abajo indicada: Mediana M Cuartos (Fourths) F Octavos (Eights) E 1/16 D 1/32 C 1/64 B 1/128 A 1/256 Z 1/512 Y 1/1024 X 1/2048 W

Como un procedimiento estándar de uso general, el resumen de cinco números proporciona la cantidad adecuada de detalle. Para conocer más acerca de la forma de la distribución de lotes grandes de datos es necesario la determinación de valores de letras adicionales especialmente hacia los extremos del lote (Hoaglin, 1983). El paquete estadístico Stata contiene una rutina muy completa para la construcción de resúmenes resistentes de nivel y dispersión (StataCorp, 2003, 2009). Una versión un poco más sencilla la proporciona Minitab (Minitab Inc. 1996). 2.3 Otras medidas resistentes de nivel Se ha mencionado que los resúmenes de letras presentan medidas resistentes de localización. Para casi todos los propósitos exploratorios se puede utilizar a la mediana para resumir al nivel (centro o valor típico de un lote). Otro valor resumen de nivel que utiliza más estadísticos de orden pero solo requiere aritmética sencilla es la trimedia, la cual se define por la siguiente expresión (Hoaglin, 1983):

trimedia = 1/4(cuarto inferior) + 1/2(mediana) + 1/4(cuarto superior)

Si se toman por ejemplo los valores considerados de longitud total de peces se tiene:

trimedia = 1/4(467.5) + 1/2(485) +1/4(495) = 483.125

Page 34: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Métodos estadísticos exploratorios y confirmatorios para análisis de datos. Un enfoque biométrico

23

valor que resulta un poco menor que la media (486.82) y la mediana (485).

A pesar de que la media no es resistente, tiene otras propiedades que la hacen importante como medida resumen de un grupo de números. La media aritmética es un estimador suficiente, es decir, está determinada por todos y cada uno de los valores de los datos. Si la información se obtuvo después de un difícil y costoso método de muestreo, resulta deseable que cada valor intervenga en la definición del nivel. La mediana, por otro lado, no es tan sensible como la media debido a que su valor está determinado por la posición de los datos ordenados y no por los valores individuales. Por esto es resistente a los casos extraordinarios.

Es natural que los estadísticos se muestren insatisfechos con una situación en la cual sólo hay dos alternativas: sacrificar la resistencia en aras de la suficiencia (escoger a la media) o el obtener resistencia pero perder información individual (elegir a la mediana). Por esta razón se han desarrollado métodos alternos que son un compromiso entre estos dos extremos. Un ejemplo de un resumen tal es la media recortada, la cual elimina observaciones (como recortar puntas de ramas de árbol) situadas en ambos extremos de la distribución (donde los casos extraordinarios suelen encontrarse) y posteriormente promediar los datos restantes. Si no existe una cantidad grande de casos atípicos, esta operación los eliminará y la media resultante no será alterada por ellos. Este promedio entonces es sensible a casi todas las observaciones. Si no existen casos extraordinarios, la operación de recorte afectará de manera semejante a los dos extremos de la distribución, por lo que la media recortada no diferirá significativamente de la media ordinaria (Siegel, 1988).

Una elección adecuada respecto al número de datos que se eliminan en ambos extremos es la de aplicar una media recortada del 10 %, la cual ignora aproximadamente un 10 % de los datos en cada extremo de la secuencia ordenada de datos. Por lo tanto, en total, se remueve un 20 % de los datos y se calcula la media aritmética con el 80 % restante (Siegel, 1988).

Al calcular la media recortada del 10 % con los datos utilizados como ejemplo tenemos que n = 11, por lo que el 10% es igual a 1.1, número que no se redondea sino se trunca a 1. Por tanto el valor menor (435) y el mayor (560) se ignoran, calculando el promedio de los 9 restantes:

(440 + 460 + 475 + 480 + 485 + 490 + 490 + 500 + 540)/9 = 484.44

La media recortada por tanto es menor que la media ordinaria (486.82) y la mediana (485) pero un poco mayor que la trimedia (483.13), lo cual manifiesta que el dato mayor recortado (valor alejado en 40 unidades del más cercano) tiene influencia sobre la media ordinaria haciéndola más grande.

Page 35: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Capítulo 2. Resúmenes resistentes de nivel y dispersión

24

2.4 Medidas resistentes de dispersión Para resumir la dispersión se busca un valor que nos indique que tan concentrados están los datos. Una medida resistente simple es la dispersión de los cuartos, que se define como: dispersión de los cuartos = (cuarto superior) - (cuarto inferior) ó

F-dispersión = dF = FU - FL la cual representa la amplitud de la mitad central del lote. Por supuesto, el intervalo, amplitud o recorrido, o sea la diferencia entre los extremos, también refleja la dispersión de los datos, sin embargo, está influenciado fuertemente por los casos extraordinarios, por lo que no es resistente. La dispersión de los cuartos es una forma del recorrido intercuartílico debido a que los cuartiles vienen a ser casi lo mismo que los cuartos.

Con los valores del ejemplo de longitudes de peces, se tiene lo siguiente:

dF = 495 – 467.5 = 27.5

Para identificar a los casos extraordinarios, es imprescindible una medida que sea insensible a ellos. La dispersión de los cuartos representa una medida tal, mientras que el recorrido y la desviación estándar no lo son. De manera más general, se necesita una medida de dispersión que enfatice el comportamiento de la porción central de los datos y no el de los extremos. Esto es lo que la dispersión de cuartos realiza. Sin embargo, no es fácil identificar estos casos extraordinarios con los tamaños de muestra que se presentan más frecuentemente. Para obtener buenas identificaciones es necesario un tamaño de muestra mínimo de 500. Lo mejor que podemos hacer con muestras de tamaño pequeño o moderado es separar algunos valores para un examen más cuidadoso. Los valores que se encuentran fuera de los límites establecidos son posibles casos extraordinarios (Velleman y Hoaglin, 1981; Hoaglin, 1983).

Para establecer los límites para distinguir a estos posibles casos extraordinarios se utilizará una aproximación basada en la dispersión de los cuartos. Estos valores de referencia están determinados por múltiplos de la F-dispersión. De esta forma se tienen las cotas internas (especificadas por 1.5 * dF), y las externas (definidas por 3 * dF) que se miden a partir de los cuartos (superior e inferior). Esto es, las observaciones más allá de FU + 1.5 dF y de FL - 1.5 dF se

Page 36: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Métodos estadísticos exploratorios y confirmatorios para análisis de datos. Un enfoque biométrico

25

consideran como casos extraordinarios moderados; aquellas situadas mas allá de FU + 3 dF y de FL - 3 dF son casos extraordinarios acentuados. Ambos tipos de valores requieren de un escrutinio adicional. Sí se sustituyen los valores correspondientes de longitud patrón se tienen los siguientes valores de referencia:

cota interna superior = 495 + 1.5(27.5) = 536.25 cota interna inferior = 467.5 - 1.5(27.5) = 426.25

(todos los valores dentro del intervalo definido por los cuartos y hasta las cotas internas constituyen los valores adyacentes) y

cota externa superior = 495 + 3(27.5) = 577.5 cota externa inferior = 467.5 - 3(27.5) = 385.

Aunque claramente no existen casos extraordinarios acentuados (severos), los valores extremos superiores (los dos últimos de la lista ordenada, es decir 540 y 560) representan posibles casos extraordinarios moderados por ser mayores que el valor de la cota interna superior (536.25) y por tanto merecen un análisis adicional.

Por otro lado, sí se requiere considerar la dispersión en términos de la desviación estándar o de la varianza, es posible obtener una medida resistente análoga a partir de la F-dispersión. Para esto se determina que desviación estándar deberá tener una distribución gaussiana para dar como resultado la misma F-dispersión que el lote considerado. Los cuartos de una distribución Gaussiana estándar (con μ = 0 y σ = 1) son μ - 0.6745σ y μ + 0.6745σ, así que su F-dispersión es:

dF = FU - FL

dF = (μ + 0.6745σ) - (μ - 0.6745σ) debido a que μ = 0 se tiene que:

dF = 0.6745σ + 0.6745σ finalmente:

dF = 1.349σ por lo que el equivalente resistente de σ deberá ser:

σ = dF/1.349 donde dF es la dispersión de los cuartos o F-dispersión.

Page 37: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Capítulo 2. Resúmenes resistentes de nivel y dispersión

26

Este cociente, aunque equivalente a la desviación estándar es diferente y se

le conoce como F-pseudosigma (ó pseudosigma de cuartos), y su cuadrado (análogo a σ2) es la F-pseudovarianza. Es posible calcular estos equivalentes de varianza y desviación estándar para cada par de valores de letras, por lo que se pudiera tener la E-pseudosigma (pseudosigma de octavos), la D-pseudosigma (pseudosigma de dieciseisavos) etc.

Cuando los datos siguen una distribución Gaussiana (normal), el valor de F-pseudosigma proporciona una estimación de σ y su valor será cercano al de s (desviación estándar de la muestra). Si las dos estimaciones difieren considerablemente deberá preferirse el uso de F-pseudosigma y buscar las observaciones que incrementan el valor de la desviación estándar (Hoaglin, 1983; Iglewicz, 1983).

Para los valores de longitud patrón del “suzuki” se tiene:

F-pseudosigma = F-dispersión/1.349 = 27.5/1.349 = 23.52 A modo de comparación la desviación estándar es 37.63. Debido fundamentalmente a los casos extraordinarios evidenciados por la cota interna superior, el valor de F-pseudosigma es considerablemente menor que el de s, por lo que estos resultados recomiendan un examen más cuidadoso de dichos valores y el uso de las estimaciones resistentes para la representación adecuada de este lote de datos.

Para ver más claramente el efecto de los casos extraordinarios supongamos que el valor más alto fuera 600. Los valores de la mediana y de F-pseudosigma permanecen inalterados, sin embargo, los de la media (346.94) y el de la desviación estándar (102.42) son considerablemente mayores que los originales por lo que en este caso se recomendaría el uso de los valores resistentes y el examen cuidadoso de los datos para encontrar el valor que originó esta diferencia. Una aplicación de estas medidas resistentes la sugiere Salgado-Ugarte (1990 y 1991) para la representación de los tamaños de los radios y anillos de los otolitos del pez plano Kareius bicoloratus de la Bahía de Tokio.

En la tabla 2.1 se incluye la comparación entre medias y desviaciones estándar con medianas y pseudosigmas de distintas medidas de longitud de otolitos de hembras y machos de esta especie. En los radios de las hembras, excepto en un caso, así como en algunos casos de los radios del primer anillo, los valores de la desviación estándar fueron mayores que los de F-pseudosigma.

Page 38: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Métodos estadísticos exploratorios y confirmatorios para análisis de datos. Un enfoque biométrico

27

A pesar de que las medias y medianas no son muy diferentes, en estas circunstancias es preferible elegir las medidas resistentes como representantes de los tamaños y buscar la causa del incremento del valor de la desviación estándar. Tabla 2.1 Comparación entre media aritmética y desviación estándar con mediana y pseudosigma para medidas de otolitos del pez plano Kareius bicoloratus de la Bahía de Tokio Medida Media

aritmética Desviación estándar

Mediana Pseudosigma de cuartos

N

a) Radio del otolito Machos RAOI 2.38 0.26 2.37 0.30 100 RPOI 2.25 0.21 2.22 0.18 100 RAOD 3.01 0.29 2.96 0.31 101 RPOD 1.59 0.17 1.62 0.17 101 b) Hembras RAOI 2.90 0.42 2.99 0.42 85 RPOI 2.73 0.43 2.79 0.41 86 RAOD 3.63 0.52 3.67 0.50 86 RPOD 1.94 0.31 1.95 0.25 86 b) Radio del primer anillo Machos RAOI1 1.92 0.22 1.90 0.23 96 RPOI1 1.72 0.15 1.73 0.16 95 RAOD1 2.37 0.21 2.37 0.22 95 RPOD1 1.31 0.14 1.32 0.12 85 Hembras RAOI1 1.89 0.21 1.88 0.22 86 RPOI1 1.72 0.22 1.70 0.14 85 RAOD1 2.33 0.26 2.31 0.22 86 RPOD1 1.32 0.21 1.28 0.14 82 c) Radio del segundo anillo Machos RAOI2 2.36 0.22 2.28 0.15 3 RPOI2 2.21 0.18 2.32 0.11 3 RAOD2 3.09 0.24 3.13 0.17 3 RPOD2 Hembras RAOI2 3.10 0.33 3.24 0.21 5 RPOI2 3.04 0.33 3.13 0.37 6 RAOD2 3.98 0.50 3.97 0.74 6 RPOD2 1.98 0.36 1.98 0.43 4

Page 39: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Capítulo 2. Resúmenes resistentes de nivel y dispersión

28

Lo anterior es particularmente importante ya que con estos datos se

efectúan relaciones entre tamaños de otolitos y del pez (retrocálculo). Si existen valores no representativos (medias afectadas por casos extraordinarios, dichas relaciones no serán correctas. Como comentario final puede agregarse que la mediana, además de ser resistente y debido a que se basa en los rangos de las observaciones, puede calcularse aún en el caso de que no se tengan todas las observaciones. Para ejemplificar lo anterior Fowler et al. (1998) presentan un estudio sobre comportamiento migratorio de aves en el cual se transportaron 15 pichones a 1,200 km de su palomar en Inglaterra a un lugar en Francia donde se liberaron juntos. En el palomar se adaptó un artefacto que registraba automáticamente la hora de retorno al entrar cada pichón al mismo. Al día siguiente, todos los 15 pichones habían regresado. Desafortunadamente, el mecanismo se trabó después de la llegada del décimo pichón. Los tiempos de retorno que fue posible registrar para diez pichones se presentan en la tabla 2.2 Tabla 2.2. Tiempo de retorno de pichones a su palomar (tal como fueron registrados por el dispositivo antes de averiarse) 1.-16 h 45 min 6.- 19 h 25 min 2.-17 h 30 min 7.- 21 h 10 min 3.-18 h 05 min 8.- 21 h 55 min 4.-18 h 15 min 9.- 22 h 10 min 5.-19 h 20 min 10.-23 h 25 min Con esta información incompleta no es posible calcular la media aritmética. Sin embargo, como sabemos que los 5 valores faltantes son todos mayores a las 23 h con 25 min, si es posible calcular la mediana. Al aplicar el concepto de profundidad tenemos que la de la mediana es (15 + 1)/2 = 8, es decir, la observación que ocupa la octava posición en la secuencia ordenada es el tiempo de retorno que separa a la mitad inferior de la mitad superior. Por lo tanto, para este ejemplo, podemos estimar al nivel con un valor mediano de 21 h 55 min.

Page 40: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

29

Capítulo 3. Diagramas de caja y bigotes Se afirma que los diagramas de caja (también conocidos como diagramas de caja y bigotes) constituyen la herramienta gráfica analítica más útil para el estudio de lotes de números (Deleon y Anagnoson, 1991). Los diagramas de caja están basados en el resumen de cinco números descrito en el capítulo anterior y en la dispersión de los cuartos del lote de datos. Estos desplegados muestran características tales como:

- Nivel y localización - Dispersión - Forma de la distribución (asimetría, longitud de las colas de distribución) - Valores extraordinarios

Por lo tanto los diagramas de caja proporcionan una impresión visual de

varios aspectos importantes de la distribución empírica de un lote de datos.

Estos desplegados compactos son especialmente útiles en la comparación de varios grupos de números. Al dibujar diagramas de caja para cada lote y si se arreglan en paralelo es posible compararlos respecto a su nivel y localización, a su dispersión, así como también a su sesgo y a la densidad de sus colas de distribución. En ocasiones esta comparación permite encontrar que los datos de diferentes grupos no encajan bien en la misma escala. Es posible que los lotes situados lejos del origen puedan tener una dispersión mucho mayor que aquellos situados cerca. Por esto, si los lotes se grafican en una escala común, los detalles de estos últimos serán difíciles de observar.

Una transformación apropiada puede aliviar esta dificultad haciendo que la variabilidad de los lotes sea comparable. Para reconocer este problema y obtener una indicación de la transformación adecuada se utiliza un gráfico de dispersión-nivel el cual sugiere la transformación potencial que tiende a igualar la dispersión a través de los diferentes niveles o localizaciones de los lotes (Emerson y Strenio, 1983).

Page 41: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Capítulo 3. Diagramas de caja y bigotes

30

3.1 Diagramas de caja para un lote de datos Para entender cómo se construye un diagrama de caja se utilizarán las medidas de la longitud nasal en cráneos del canguro Macropus fuliginosus (Andrews y Herzberg, 1985) listados en la Tabla 3.1.

Tabla 3.1. Longitud nasal (mm) en cráneos del canguro Macropus fuliginosus Número Machos Hembras

1 573 503 2 566 549 3 525 494 4 551 522 5 698 497 6 638 554 7 658 532 8 630 434 9 628 578

10 638 574 11 624 571 12 590 571 13 628 570 14 656 602 15 719 571 16 687 553 17 700 568 18 746 636 19 715 603 20 685 699 21 734 552 22 708 667 23 691 653 24 699 625 25 737 646

En la construcción del diagrama de caja de un sólo lote se utilizarán los datos de las hembras.

Page 42: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Métodos estadísticos exploratorios y confirmatorios para análisis de datos. Un enfoque biométrico

31

El diagrama de tallo y hoja para estos datos se presenta a continuación:

Tabla 3.2 Diagrama de tallo y hoja para longitud nasal (mm) en cráneos de hembras de Macropus fuliginosus N = 25 Unidad de hoja = 1 4t |34 representa 434 Profundidad 1 4t | 34 1 4f | 1 4s | 3 4• | 94,97 4 5* | 03 6 5t | 22,32 10 5f | 49,52,53,54 (7) 5s | 68,70,71,71,71,74,78 8 5• | 8 6* | 02,03 6 6t | 25,36 4 6f | 46,53 2 6s | 67 1 6• | 99 Puede apreciarse que los datos se concentran aproximadamente a la mitad del diagrama y hacia los extremos se hacen escasos. Otros detalles que pueden notarse son que el primer dato está separado del resto por una serie de tallos vacíos además de un tallo sin hojas en la porción central del diagrama (Cuadro 3.2).

Para la construcción del diagrama de caja y bigotes primeramente se determina el resumen de 5 números (Tabla 3.3), la dispersión de cuartos y las cotas internas y externas (inferior y superior) para identificar los casos extraordinarios:

Por lo tanto la dispersión de los cuartos es igual a 603 – 549 = 54. Las cotas internas son: cota interna inferior = 549 - 1.5 * 54 = 468 cota interna superior = 603 + 1.5 * 54 = 684 cota externa inferior = 549 - 3 * 54 = 387 cota externa superior = 603 + 3 * 54 = 765

Page 43: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Capítulo 3. Diagramas de caja y bigotes

32

Tabla 3.3 Resumen de cinco números para longitud nasal en cráneos de hembras de Macropus fuliginosus n = 25

Prof. Longitud nasal ______________________

Mediana (M) 13 | 571 | Cuartos (F) 7 | 549 603 | Extremos 1 | 434 699 |

Valores inferiores o mayores a estos límites se consideran como posibles casos extraordinarios (moderados y severos) por lo que los valores 434 y 699 se pueden considerar como casos extraordinarios moderados.

Para construir el diagrama de caja se dibuja, en un eje con la escala adecuada, un rectángulo (la caja) cuya longitud en el eje estará determinada por los cuartos inferior y superior; la mediana se indica como una línea que atraviesa la caja. Posteriormente se dibuja una línea que parte del centro de cada extremo (inferior y superior) de la caja hasta cada uno de los valores adyacentes (el valor del dato que sea menor o igual a las cotas inferior y superior). Esta línea viene a semejar un "bigote" de la caja, y en este punto cabe anotar que el nombre que Tukey dio originalmente a este desplegado fue el de "diagrama de caja y bigotes" ("Box and whiskers display"). Los valores extraordinarios se indican como asteriscos, cruces o puntos separados en el lugar correspondiente de la escala, distinguiendo los casos extraordinarios severos (situados más allá de las cotas externas) mediante símbolos diferentes a los usados para indicar los casos extraordinarios moderados. Los diagramas pueden dibujarse horizontal o verticalmente según convenga.

De esta forma la localización queda marcada por la línea que atraviesa a la caja (mediana) y la longitud de la caja muestra la dispersión (de los cuartos). Mediante la posición relativa de la mediana respecto a los cuartos inferior y superior y la longitud de los bigotes es posible observar la simetría o sesgo de la distribución; los bigotes que se extienden desde la caja y los puntos extraordinarios revelan la longitud de las colas de distribución.

Al observar el diagrama obtenido con los datos considerados (Figura 3.1) puede notarse una distribución aproximadamente simétrica (la mediana se encuentra a la mitad de la caja y los bigotes tienen aproximadamente la misma longitud). Pueden notarse además que los valores mayor y menor constituyen casos extraordinarios moderados.

Page 44: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Métodos estadísticos exploratorios y confirmatorios para análisis de datos. Un enfoque biométrico

33

450

500

550

600

650

700

Figura 3.1 Diagrama de caja y bigotes para longitud nasal (mm) en cráneos de hembras de Macropus fuliginosus

Debido a que la construcción del diagrama de caja se fundamenta en medidas resistentes (mediana y dispersión de los cuartos), este desplegado también es resistente. Las colas del diagrama de caja están determinadas por los datos dentro de las cotas por lo que no son afectados por cambios en los valores de algún caso extraordinario y son influenciados modestamente por alteraciones de valores originalmente contenidos dentro de los límites del intervalo que definen. Debido a que las cotas se determinan a partir de los cuartos pueden resistir alteraciones en hasta en una cuarta parte de los datos.

Aunque un gráfico análogo puede hacerse utilizando la media y la desviación estándar el diagrama resultante carece de resistencia y es afectado por la existencia de un sólo caso extraordinario (Emerson y Strenio, 1983).

Page 45: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Capítulo 3. Diagramas de caja y bigotes

34

3.2 Comparación de lotes de datos Un desplegado de diagramas de caja paralelos puede facilitar la comparación de varios lotes de datos. De este desplegado podemos distinguir semejanzas y diferencias entre los lotes respecto a las características discutidas (nivel y localización, dispersión, sesgo, longitud de colas y casos extraordinarios).

400

500

600

700

800

Machos Hembras

Long

itud

na

sal (

mm

)

Figura 3.2 Longitud nasal por sexo de Macropus fuliginosus

Como ejemplo se hará la comparación de la longitud nasal de machos y hembras de canguros (Tabla 3.1). Los diagramas de caja se muestran en la Figura 3.2 pudiéndose observar que los machos tienen una localización (nivel) mayor al de las hembras y un ligero sesgo negativo; las hembras presentan dos casos extraordinarios moderados.

En este punto surge una pregunta importante: ¿será significativa la diferencia en la localización de las distribuciones (localización estimada por las medianas) o será el resultado de variaciones aleatorias de los datos? Cuando esta interrogante es importante (como lo es en la comparación de los radios de los otolitos) los diagramas de caja pueden dibujarse con "muescas" laterales que facilitan nuestra evaluación de las localizaciones. Las "muescas" se colocan

Page 46: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Métodos estadísticos exploratorios y confirmatorios para análisis de datos. Un enfoque biométrico

35

simétricamente alrededor de la mediana y se definen de acuerdo a la siguiente expresión (Chambers, et al., 1983):

n

dMediana F58.1

Los lotes cuyos intervalos indicados por las muescas no se traslapan son

significativamente diferentes con un nivel de significancia aproximado del 5 % (este es un nivel individual del 5 %, esto es, no se hace ajuste respecto al número de comparaciones realizadas). El factor 1.58 combina contribuciones provenientes de tres fuentes distintas: F-pseudosigma, la variabilidad de la mediana de la muestra y el factor utilizado en el establecimiento de los límites de confianza de acuerdo a la siguiente expresión:

n

d

n

d FF 58.17.1

2349.1

(Velleman y Hoaglin, 1981).

Long

itud

nasa

l (m

m)

Machos Hembras430

530

630

730

830

Figura 3.3 Diagramas de caja con muescas para longitud nasal de machos y hembras en canguros Macropus fuliginosus

Page 47: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Capítulo 3. Diagramas de caja y bigotes

36

Las muescas en los diagramas de caja son guías muy útiles en la comparación del nivel de medianas aún cuando los requerimientos para la realización de pruebas de hipótesis no se cumplen estrictamente (lo cual ocurre generalmente con los datos reales). Los diagramas de caja con muesca para los datos analizados (Figura 3.3) no muestran sobrelapamiento por lo que se sugiere una diferencia significativa en la longitud nasal del cráneo de machos y hembras. Esto indica un dimorfismo sexual en el que la nariz de los machos es mayor que la de las hembras en esta especie de canguros.

Am

plitu

d de

la c

rest

a (m

m)

M. giganteus M. melanopus M. fuliginosus

1 2 1 2 1 20

40

80

120

160

200

240

Figura 3.4 Diagramas de caja múltiples con muesca para la amplitud de la cresta craneal por sexo (1 = machos; 2 = hembras) y por especie de canguros.

En los casos donde existen tres o más diagramas de caja es posible utilizar las muescas para realizar comparaciones entre cada par de conjunto de datos. En la Figura 3.4 se incluye una comparación múltiple de machos y hembras de tres especies de canguros del género Macropus (M. giganteus, M. melanopus y M. fuliginosus) Puede notarse que en las primeras dos especies aunque las hembras son ligeramente mayores que los machos existe un sobrelapamiento de las muescas, por lo que las diferencias en nivel no serían significativas. Para la tercera especie, puede apreciarse claramente un dimorfismo sexual en donde la amplitud de la cresta de las hembras es significativamente mayor que la de los machos. Por otra parte existe una tendencia al aumento de anchura que puede evaluarse cuantitativamente por el sobrelapamiento de muescas: M. giganteus no

Page 48: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Métodos estadísticos exploratorios y confirmatorios para análisis de datos. Un enfoque biométrico

37

diferente de M. melanopus y ambas diferentes de M. fuliginosus en machos; M. fuliginosus más ancha y diferente de las otras dos especies en las hembras. 3.3 El gráfico dispersión-nivel y la transformación Cuando una comparación de lotes muestra una relación sistemática entre la dispersión y el nivel es necesario encontrar una re-expresión o transformación de los datos originales que reduzca o elimine esta dependencia. Si tal transformación se encuentra, los datos re-expresados se podrán explorar visualmente o será posible aplicar las técnicas comunes de comparación de lotes. Como ejemplo, el análisis de varianza con una vía de clasificación se realiza simple y efectivamente cuando existe la misma varianza entre grupos (Emerson y Strenio, 1983). En la re-expresión de datos resulta conveniente utilizar la transformación potencial con potencia (o exponente) p definida como aquella que reemplaza x por xp . Para p = 0 se utiliza log x en lugar de x0 (por razones obvias).

Para encontrar la transformación potencial adecuada (si es posible encontrar alguna para los datos considerados) se construye el gráfico de dispersión-nivel. Como su nombre lo indica, en este diagrama se grafica una medida de la dispersión contra una medida del nivel. Si existe una relación sencilla, el ajuste de los puntos a un modelo simple permite eliminar la relación entre la dispersión y el nivel.

Si suponemos que la dispersión de los cuartos (dF) es proporcional a una potencia de la mediana (medida del nivel) podemos escribir (Emerson y Strenio, 1983):

dF = c M b (1) Este es un modelo potencial que puede simplificarse a uno lineal usando logaritmos:

log dF = log c + b log M, si se define a k = log c, entonces:

log dF = k + b log M (2) Por lo tanto los logaritmos de la F-dispersión y el logaritmo de las medianas se relacionan linealmente. El gráfico de dispersión - nivel surge de esta expresión.

Page 49: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Capítulo 3. Diagramas de caja y bigotes

38

Para ilustrar su aplicación se considerarán los datos de población de las 10 ciudades más pobladas de los 11 países más poblados del continente americano, según cifras de 1991 (Apéndice 1).

05,

000

10,0

0015

,000

20,0

00

Ecu Chi Cuba Can Arg Perú Méx Ven Col E.U.A. Bra

Po

bla

ción

(X

1000

)

Figura 3.5 Diagramas de caja para población de las 10 ciudades más pobladas de 11 países del continente americano (circa 1991).

En la Figura 3.5 aparecen los diagramas de caja en paralelo para cada región. Las regiones se han ordenado de acuerdo al valor de las medianas por país. En este gráfico resulta difícil apreciar los detalles de distribución de países como Ecuador, Chile, Cuba, Canadá, Argentina y Perú (aquellos con menor población), además de que ocurre una tendencia al aumento de la dispersión (longitud de las cajas) al incrementarse el valor de la mediana.

En la Tabla 3.4 se presentan los valores logarítmicos (base 10) de las medianas y F-dispersiones de la población de las 10 ciudades más pobladas de cada país. En la Figura 3.6 se han graficado estos valores. Los puntos en este gráfico de dispersión-nivel muestran una tendencia al incremento de los logaritmos de la dispersión de cuartos al aumentar el logaritmo de la Mediana; además, en primera instancia esta relación parece lineal.

Page 50: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Métodos estadísticos exploratorios y confirmatorios para análisis de datos. Un enfoque biométrico

39

Tabla 3.4. Logaritmos de valores medianos y dispersión de cuartos para la población de las 10 ciudades más pobladas de 11 países de América País Mediana F-disp. Log10(Med) Log10(F-disp) Brasil 1575060 1780520 6.20 6.25 E.U.A. 1372000 1926180 6.14 6.28 Colombia 537500 1240450 5.73 6.09 Venezuela 391541 685424 5.59 5.84 México 381500 1398000 5.58 6.15 Perú 346000 312100 5.54 5.49 Argentina 288860 341903 5.46 5.53 Canadá 275769 463403 5.44 5.67 Cuba 190491 159174 5.28 5.20 Chile 188533 145814 5.28 5.16 Ecuador 141159 143635 5.15 5.16

De acuerdo a lo arriba especificado es necesario determinar el valor de la pendiente (b) de esta relación aproximadamente lineal y de acuerdo a ecuación (2). La transformación z = x 1 - b de los datos proporciona valores re-expresados z cuyas dispersiones no dependen, al menos aproximadamente, del nivel.

5.2

5.4

5.6

5.8

66.

2Lo

g10

de la

F-d

isp

ersi

ón

5.2 5.4 5.6 5.8 6 6.2Log10 de la Mediana

Figura 3.6 Gráfico de Dispersión-Nivel para datos de población de las 10 ciudades más pobladas de 11 países del continente americano

Page 51: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Capítulo 3. Diagramas de caja y bigotes

40

Se recomienda utilizar un método de ajuste lineal resistente, tal como el

método de los tres grupos de Tukey debido a la posibilidad de existencia de casos extraordinarios. Sin embargo, si la tendencia es aproximadamente lineal y sin valores desviados de manera notable puede utilizarse el tradicional método de los “mínimos cuadrados”. Para este caso, el ajuste proporciona un valor de 1.17, es decir casi 1. Por tanto parece razonable escoger el valor de pendiente de 1 y de esta forma p = 1 - 1 = 0, valor que indica a la transformación logarítmica.

Resulta conveniente en este punto hacer algunas consideraciones respecto a la elección de la transformación. Idealmente una transformación no solo iguala las dispersiones, sino que tiene una explicación consistente. Por ejemplo, en demografía un modelo ampliamente utilizado supone que las poblaciones tienden a crecer exponencialmente. Si esto es así, el logaritmo de la población crecerá aproximadamente de manera lineal. La transformación lineal es de interpretación más sencilla, se pueden detectar desviaciones fácilmente y es posible interpolar valores, por lo que en este caso los logaritmos representan una transformación conveniente para el análisis poblacional (lo que parece aplicarse al ejemplo de la población de ciudades de los países considerados).

Si no existe una base consistente para la adopción de una transformación particular, deberá tenerse una idea muy clara de lo que la re-expresión implica si se escoge una potencia que sea un múltiplo entero de 1/2 (definitivamente la transformación por raíz cúbica, p = 1/3, algunas veces tiene un significado físico).

En la Tabla 3.5 se incluyen algunas de las transformaciones potenciales más frecuentemente utilizadas, junto con las pendientes que las indican. Este conjunto de re-expresiones son los miembros principales de la "Escala de Potencias" de Tukey:

El análisis de los datos ahora en escala logarítmica (Figura 3.7) permite observar que dicha transformación ha uniformizado las dispersiones (las cajas tienen longitudes similares y las desigualdades restantes no parecen estar relacionadas con el nivel). Esta nueva escala ha eliminado varios casos extraordinarios. Los nuevos diagramas de caja son de observación más fácil y las cajas por país muestran casi los mismos detalles.

Page 52: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Métodos estadísticos exploratorios y confirmatorios para análisis de datos. Un enfoque biométrico

41

Tabla 3.5 Escala de Potencias de Tukey Transformación Potencia Pendiente del gráfico

Dispersión-Nivel Cúbica 3 -2 Cuadrada 2 -1 Ninguna 1 0 Raíz cuadrada 0.5 0.5 Logaritmo 0 1 Recíproco de raíz cuadrada -0.5 1.5 Recíproco -1 2

45

67

8

Ecu Chi Cuba Can Arg Perú Méx Ven Col E.U.A. Bra

Log1

0 d

e p

obla

ció

n

Figura 3.7 Diagramas de caja para valores logarítmicos (base 10) de población de las 10 ciudades más pobladas de países del continente americano.

Page 53: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Capítulo 3. Diagramas de caja y bigotes

42

Existen varias razones para la transformación de los datos. Entre estas se incluyen principalmente las siguientes:

- Interpretar a los datos de una manera natural - Promover la simetría en un lote - Estabilizar la dispersión de varios lotes - Promover una relación lineal entre dos variables - Simplificar la estructura de una tabla de dos o más vías de tal forma que

pueda utilizarse un modelo aditivo simple para entender las características de los datos.

Para una discusión detallada de cada caso consultar Emerson y Stoto (1983) In: Hoaglin et al., (1983). Detalles adicionales de este gráfico se incluyen en Salgado-Ugarte (1992). 3.4 Limitaciones de los Diagramas de Caja A pesar de su utilidad como herramientas para visualizar características importantes de la distribución de los datos, los diagramas de caja tienen limitaciones. Para poner en claro esta afirmación consideremos los datos hipotéticos incluidos en la Tabla 3.6 modificados de Deleon y Anagnoson (1991).

Los diagramas de la Figura 3.8 para cada una de las variables son idénticos. Sin embargo, al obtener los diagramas de tallo y hoja (Tabla 3.7) es posible observar que las tres variables tienen distribuciones diferentes: X posee una distribución rectangular (uniforme), Y manifiesta una clara tendencia bimodal y Z muestra una distribución concentrada en el centro (quizás con mayor número de observaciones pudiera tender a ser gaussiana).

Por otra parte los diagramas de caja no representan adecuadamente lotes de datos con múltiples concentraciones y huecos (multimodales). La Figura 3.9 ilustra este problema: a primera vista puede interpretarse la existencia de un lote de datos con una pequeña longitud de colas y una ligera asimetría positiva.

Page 54: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Métodos estadísticos exploratorios y confirmatorios para análisis de datos. Un enfoque biométrico

43

Tabla 3.6. Datos que muestran las limitaciones de los Diagramas de Caja (modificados de Deleon y Anagnoson, 1991) X Y Z

0.0 0.0 0.0 0.5 2.5 0.5 1.0 2.5 1.0 1.5 2.5 1.5 2.2 2.5 2.0 2.5 2.5 2.5 3.1 2.5 3.0 3.5 2.5 3.5 4.0 2.5 4.0 4.5 2.5 4.5 5.0 5.0 5.0 5.5 7.5 5.0 6.5 7.5 5.0 6.9 7.5 6.0 7.2 7.5 6.5 7.5 7.5 7.5 8.5 7.5 7.8 9.0 7.5 8.0 9.5 7.5 8.5

10.0 7.5 9.0 10.0 10.0 10.0

Sin embargo, el diagrama de tallo y hoja para estos datos (Tabla 3.8) hace patente su distribución bimodal. Este tipo de distribuciones hace complicado medir su nivel. Por ejemplo, la media del conjunto anterior de números es 4.77, valor que ocurre precisamente en donde se encuentra el hueco que separa los dos subgrupos de datos. La mediana (2.8) tampoco es una estimación adecuada.

Page 55: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Capítulo 3. Diagramas de caja y bigotes

44

02

46

810

Val

or d

e v

aria

ble

X Y Z

Figura 3.8 Diagramas de caja para datos hipotéticos X, Y, Z. Tabla 3.7 Diagramas de tallo y hoja en paralelo para datos modificados de Deleon y Anagnoson (1991) N = 21 Unidad de hoja = 0.1 0 |0 representa 0.0 Prof. Variable X Prof. Variable Y Prof Variable Z 2 0 | 05 1 0 | 0 2 0 | 05 4 1 | 05 1 1 | 4 1 | 05 6 2 | 25 10 2 | 555555555 6 2 | 05 8 3 | 15 10 3 | 8 3 | 05 10 4 | 05 10 4 | 10 4 | 05 (2) 5 | 05 (1) 5 |0 (3) 5 | 000 9 6 | 59 10 6 | 8 6 | 05 7 7 | 25 10 7 |555555555 6 7 | 58 5 8 | 5 1 8 | 4 8 | 05 4 9 | 05 1 9 | 2 9 | 0 2 10 | 00 1 10 |0 1 10 | 0

Page 56: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Métodos estadísticos exploratorios y confirmatorios para análisis de datos. Un enfoque biométrico

45

02

46

810

Figura 3.9 Diagrama de caja y bigotes para datos bimodales

De hecho, no existe un sólo valor alrededor del cual los valores se

concentran, sino dos. En este caso, el diagrama de tallo y hoja es más instructivo que el diagrama de caja. Cabe mencionar que se han propuesto variaciones más elaboradas. Por ejemplo Hyndman (1996) describe un diagrama que muestra regiones de alta densidad y permite distinguir claramente la bimodalidad (Quinn y Keough, 2002).

Los anteriores ejemplos enfatizan la importancia de utilizar varias herramientas exploratorias para asegurar el no pasar por alto alguna de las características importantes de los datos (Hartwig y Dearing, 1979; Deleon y Anagnoson, 1991; Salgado-Ugarte, 1992).

Page 57: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Capítulo 3. Diagramas de caja y bigotes

46

Tabla 3.8 Diagrama de tallo y hoja para datos bimodales (Hartwig y Dearing, 1979) N = 94 Unidad de hoja = 0.1 0 |1 representa 0.1 Profundidad 31 0 | 1222222233334444555567778888899 41 1 | 0122233446 (7) 2 | 2223679 46 3 | 46 4 | 46 5 | 5 45 6 | 16 43 7 | 046 40 8 | 01114555677889 26 9 | 00011122223334566677788899

Page 58: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Métodos estadísticos exploratorios y confirmatorios para análisis de datos. Un enfoque biométrico

47

Capítulo 4. Distribución de lotes de números La distribución, referente a la forma en cómo se reparten los números en el intervalo donde existen, de un lote de números puede investigarse de varias formas. En una escala de aumento de complejidad podemos incluir a los diagramas univariados de dispersión, los diagramas de puntos, los diagramas de tallo y hoja, los diagramas de caja y a los histogramas y sus variantes mejoradas. La representación gráfica de la frecuencia de datos agrupados (histograma ó polígono de frecuencia) permite entender la distribución de una manera muy sencilla. En estos diagramas podemos reconocer características de repartición tales como simetría, sesgo (positivo o negativo) y multimodalidad.

En esta sección se presentarán los procedimientos no incluidos en las anteriores haciendo énfasis en los histogramas suavizados, una variante mejorada de estos desplegados que evita algunos de los inconvenientes de los métodos tradicionales.

Figura 4.1 Diagrama univariado de dispersión para la anchura mandibular en cráneos de hembras de Macropus fuliginosus

01

2

100 120 140 160 180Anchura mandibular (mm)

Page 59: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Métodos estadísticos exploratorios y confirmatorios para análisis de datos. Un enfoque biométrico

48

Diagramas univariados de dispersión y de puntos

La representación gráfica más sencilla de un lote de números es el “diagrama univariado de dispersión” el cual no es más que representar mediante algún símbolo, a cada uno de los datos sobre un eje graduado con la escala de medición de las observaciones (Figura 4.1). Este diagrama permite reconocer de manera muy general el lugar (ó lugares) en la escala donde los números se concentran (nivel), que tan alejados están entre sí (dispersión), cómo están repartidos (distribución) y si existen datos marcadamente alejados de los demás (casos extraordinarios). El inconveniente principal es que no se pueden diferenciar valores muy próximos o repetidos, por lo que un punto individual en el gráfico pudiera estar representando varios valores. La solución a este problema es el diagrama de puntos, el cual en lugar de sobreponer los valores los acumula uno a uno (Figura 4.2). En este desplegado podemos apreciar cada uno de los 25 datos y saber además que hay valores repetidos dos y tres veces. Cabe señalar que en la versión presentada aquí (del programa estadístico Stata, versión 8.0), la escala numérica se dispone verticalmente y la frecuencia es horizontal.

Figura 4.2 Diagrama de puntos para la anchura mandibular en cráneos de hembras de Macropus fuliginosus

100

120

140

160

180

hem

bra

s

1 2 3 4Frecuencia

Page 60: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Métodos estadísticos exploratorios y confirmatorios para análisis de datos. Un enfoque biométrico

49

Histogramas El histograma es la versión gráfica de un cuadro de frecuencias. Existen evidencias de que Galileo Galilei utilizaba estos cuadros para resumir los resultados numéricos de sus experimentos (Hald, 1990; Scott, 1992). En la literatura estadística el término apareció con Pearson en 1894 (Beniger y Robin, 1978; Tarter y Kronmal, 1976). Desde esa época, este método estadístico ha sido ampliamente utilizado. El histograma es un simplificador de datos que utiliza intervalos dentro de su Recorrido (valor máximo – valor mínimo) y el número de observaciones (frecuencia) que contienen. Un histograma queda caracterizado por dos valores: el origen y el número (o amplitud) de intervalos. A continuación se presentan dos histogramas con el mismo origen (105) pero con diferente número de intervalos:

Figura 4.3 Histogramas para la anchura mandibular en cráneos de hembras de Macropus fuliginosus; origen = 105; a} cinco intervalos; b} 15 intervalos Para los mismos datos, el histograma de la izquierda presenta lo que pudiera ser una distribución gaussiana (normal), mientras que el de la derecha da una impresión más ruidosa (varios máximos de frecuencia, es decir, varias modas).

02

46

810

Fre

cuen

cia

100 120 140 160 180Anchura mandibular (mm)

a}

01

23

45

Fre

cuen

cia

100 120 140 160 180Anchura mandibular (mm)

b}

Page 61: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Métodos estadísticos exploratorios y confirmatorios para análisis de datos. Un enfoque biométrico

50

El siguiente par de histogramas utiliza un mismo número de intervalos (diez) pero origen diferente de 100 y 105, respectivamente (Figura 4.4)

Figura 4.4 Histogramas para la anchura mandibular en cráneos de hembras de Macropus fuliginosus; diez intervalos y origen = a} 100 y b} 105 Se puede apreciar para los mismos datos que el de la izquierda tiene una sola moda principal, mientras que el derecho posee dos modas. De los cuatro histogramas presentados anteriormente ¿Cuál es el que representa adecuadamente la distribución de estos números? Número o amplitud de intervalos Para contestar esta interrogante es necesario tomar en cuenta sugerencias provenientes de la teoría estadística (Salgado-Ugarte, 2002). Considerando la idea general de obtener el histograma más parecido a una distribución teórica gaussiana se han propuesto varias estrategias. Una de las primeras es la de Sturges (1926) que sugiere que el número óptimo de intervalos para un histogramas de datos con distribución binomial (y por extensión gaussiana) está dado por:

k = 1 + log 2 n (1)

02

46

8F

recu

enci

a

100 120 140 160 180Anchura mandibular (mm)

a}

02

46

8F

recu

enci

a

100 120 140 160 180Anchura mandibular (mm)

b}

Page 62: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Métodos estadísticos exploratorios y confirmatorios para análisis de datos. Un enfoque biométrico

51

donde k es el número de intervalos y n el número de observaciones. Para los datos de anchura mandibular esta expresión resulta en: k = 1 + log10(25) / log10(2) = 1 + 1.39794/0.30103 = 1 + 4.6439 = 5.6439 Estas medidas craneales se esperan tengan una distribución gaussiana ya que provienen de hembras adultas de una especie y por tanto el número de intervalos obtenidos (redondeado a 6) puede ser adecuado). Bajo la misma idea general de obtener el histograma más cercano a una distribución teórica, Scott (1979) propuso una expresión para la amplitud óptima de intervalo de histogramas para datos gaussianos:

3.5    / (2) donde h es la amplitud de banda estimada y es una estimación de la desviación estándar de los datos. Para las medidas de anchura mandibular, cuya desviación estándar es de 13.2177, esta expresión produce: 3.5*13.2177*25^(-1/3) = 15.8213

Intervalos con anchura de 15 (se prefiere truncar la cifra) producen un histograma que representa adecuadamente a estos datos.

02

46

810

Fre

cuen

cia

100 120 140 160 180Anchura mandibular (mm)

a}

02

46

810

Fre

cuen

cia

100 120 140 160 180Anchura mandibular (mm)

b}

Page 63: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Métodos estadísticos exploratorios y confirmatorios para análisis de datos. Un enfoque biométrico

52

Figura 4.5 Histogramas (origen = 105) para la anchura mandibular en cráneos de hembras de Macropus fuliginosus; con número óptimo de intervalos de Sturges (6) a} y amplitud de intervalo óptima de Scott (15) b}. Las expresiones presentadas anteriormente funcionan bien si los datos provienen de una distribución gaussiana (normal). En el caso de distribuciones sesgadas o multimodales, los valores resultantes no son los óptimos y será necesario ajustarlos, ya sea aumentando el número de intervalos o disminuyendo la amplitud de intervalo. Mayores detalles se incluyen en Salgado-Ugarte (2002). Estimadores de densidad por kernel No hay duda de que el histograma es un procedimiento estadístico de gran utilidad. Sin embargo, con un punto de vista más enfocado en un análisis detallado de la distribución de datos, presentan cuatro problemas (Tarter y Kronmal, 1976: Silverman, 1986; Fox, 1990):

- dependen del origen

- dependen del número (o amplitud) de intervalos

- son discontinuos (cuadrados)

- utilizan intervalos de amplitud fija

Estos problemas han motivado el desarrollo de nuevos procedimientos. Para atacar la dependencia del origen se sugiere centrar la estimación de la frecuencia en la posición de cada dato, en lugar de hacerlo en la marca de clase del intervalo (Chambers, et al. 1983); adicionalmente, en lugar de utilizar cuadrados para representar a cada número, se sugiere el empleo de curvas que maximizan el valor en el centro y disminuyen gradualmente hacia los extremos (estilo gaussiano). Estas dos estrategias conducen hacia los “estimadores de densidad por kernel” (Rosenblatt, 1956). La densidad es otra escala de la frecuencia y el “kernel” se refiere a la curva que se utiliza para representar a cada dato. La expresión que define a estos estimadores es:

   ∑   (3)

En donde )(ˆ xf es la estimación de la densidad (frecuencia), n es el número de datos, h es la amplitud de banda (intervalo) y K(•) es el “kernel” o sea la función que define el peso de cada dato en la estimación de frecuencia (forma de la curva para cada observación). El cuadro 4.1 muestra las funciones ponderales más

Page 64: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Métodos estadísticos exploratorios y confirmatorios para análisis de datos. Un enfoque biométrico

53

comunes. Con excepción del kernel uniforme, todas estas funciones varían gradualmente con una altura máxima en el centro y valores mínimos hacia los extremos (figuras 4.6 y 4.7). Notar que el sostén de las funciones es de -1 a 1 con excepción del kernel uniforme que se calcula desde -∞ a +∞, aunque en la práctica los algoritmos se limiten a un intervalo menor (como de -4 a 4).

Cuadro 4.1 Expresiones kernel más comunes

Kernel K(z) Uniforme ½ I(|z| 1) Triangular (1 - |z|) I(|z| 1) Epanechnikov ¾(1 - z2) I(|z| 1) Cuártico (15/16)(1 - z2)2 I(|z|

1) Triponderado (35/32)(1 - z2)3 I(|z|

1) Coseno (/4)cos((/2)z) I(|z|

1) Gaussiano (1/2)exp((-1/2)z2

Figura 4.6 Funciones ponderales (kerneles) comunes

0.5

1

-1 -.5 0 .5 1

Uniforme Triangular

Epanechnikov

a}

0.5

1

-1 -.5 0 .5 1

Cuártico Triponderado

Coseno

b}

Page 65: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Métodos estadísticos exploratorios y confirmatorios para análisis de datos. Un enfoque biométrico

54

La elección de la función ponderal para estimar la distribución de frecuencia depende de razones prácticas, anteriormente de la disponibilidad de algoritmos para el cálculo ya que la eficiencia teórica de cada una de ellas es muy semejante. Actualmente es posible utilizar cualquiera de las funciones incluidas en el Cuadro 4.1. Utilizando estas funciones es posible además, convertir una estimación con un kernel en otra con función ponderal diferente mediante factores de conversión adecuados. Detalles de esto se encuentran en Salgado-Ugarte (2002).

Figura 4.7 Función ponderal (kernel) gaussiano. Con estos estimadores ya no es necesario pensar en el origen y el resultado es una curva suave que trata de recuperar la naturaleza continua de la variable original. El problema de la amplitud de banda (intervalo) persiste y así como en el caso de los histogramas, se han propuesto expresiones para determinarla. Reglas prácticas para determinar amplitud de banda Utilizando una distribución normal (gaussiana) como referencia, Silverman llegó a una expresión para amplitud óptima de banda:

0.1

.2.3

.4

-4 -2 0 2 4

Page 66: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Métodos estadísticos exploratorios y confirmatorios para análisis de datos. Un enfoque biométrico

55

1.06    / (4)

En donde h se refiere a la banda óptima, A es una estimación adaptativa de la dispersión (el valor menor de la desviación estándar ó la Pseudosigma) y n es el número de datos. Por otra parte, Terrell y Scott (1985) propusieron las amplitudes sobresuavizadas, las cuales representan un límite superior para el ancho de intervalo de histogramas y polígonos de frecuencia así como de banda para estimadores de densidad por kernel. Amplitudes iguales o mayores a los dados por sus expresiones llevan a representaciones de la distribución con simplificación exagerada (sobresuavizada). La utilidad de las distribuciones conservadoras con el valor mínimo sobresuavizado dan un respaldo estadístico para la estructura resultante sean unimodales, sesgadas o multimodales. Para un kernel gaussiano, la amplitud de banda sobresuavizada es (Terrell, 1990; Scott, 1992):

1.144 / (5) En donde

SOh es la amplitud de banda sobresuavizada, es la estimación de la

desviación estándar y n es el número de datos. Con los estimadores de densidad por kernel, la estrategia para analizar la distribución de un lote de números es: 1) Aplicar la amplitud de banda sobresuavizada y observar la estructura resultante. 2) Aplicar la amplitud de banda óptima. 3) Si en 1) se obtuvo una curva semejante a la gaussiana, se termina con el paso 2). Si en el paso 1) se obtuvo una estructura complicada (colas gruesas, sesgo, multimodalidad) se debe disminuir la amplitud. Qué tanto se debe decrecer el ancho de banda puede hacerse con reglas como la de Sheather-Jones (1991) o con procedimientos más sofisticados de cómputo intensivo como la validación cruzada (por mínimos cuadrados o sesgada) o la prueba bootstrap de Silverman para multimodalidad (Hárdle, 1991; Scott, 1992; Salgado-Ugarte, 2002; Salgado-Ugarte y Pérez-Hernández, 2003).

Una recomendación empírica para datos multimodales que se ha visto funciona bien es el utilizar la mitad del valor de amplitud óptima como referencia preliminar para representar la distribución.

Page 67: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Métodos estadísticos exploratorios y confirmatorios para análisis de datos. Un enfoque biométrico

56

Ejemplos

Para los datos de anchura mandibular de hembras de Macropus fuliginosus, las amplitudes sobresuavizada y óptima son: Amplitud sobresuavizada = hOS = 1.144(13.2177)25(-1/5) = 7.9431 Ampitud óptima de Silverman = 0.09(13.2177) 25(-1/5) = 6.2490 Los EDKs correspondientes se presentan en las figuras 4.8 y 4.9. Como era de esperar, el estimador sobresuavizado es muy parecido a una campana de Gauss salvo por alguna indicación de colas gruesas. El EDK óptimo hace patente la existencia de valores en los extremos (menor y mayor) algo separados de la tendencia gaussiana de los demás. Para conclusiones más sólidas sobre la distribución sería necesario aumentar el tamaño de la muestra. Con 25 datos, el resultado es bastante gaussiano como para respaldar la aplicación de métodos estadísticos confirmatorios tradicionales.

Figura 4.8 Estimador de densidad por kernel gaussiano con amplitud de banda sobresuavizada (7.94) para anchura mandibular de hembras del canguro Macropus fuliginosus.

0.0

1.0

2.0

3D

ens

ida

d

100 120 140 160 180Anchura mandibular (mm)

Page 68: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Métodos estadísticos exploratorios y confirmatorios para análisis de datos. Un enfoque biométrico

57

Figura 4.9 Estimador de densidad por kernel gaussiano con amplitud de banda óptima (6) para anchura mandibular de hembras del canguro Macropus fuliginosus. Duración de erupciones del géyser “Old Faithful” Como ejemplos adicionales se presentan los datos reportados por Weisberg (1985) acerca de la duración de períodos eruptivos del géiser “Old Faithful” del parque nacional de Yellowstone en Estados Unidos de América. Los EDKs (sobresuavizado y óptimo) se presentan en las figuras 4.10a y 4.10b. Resulta claro que la distribución de la duración de erupciones es bimodal, con una moda menor a los 1.87 minutos y otra mayor con duración de un poco más de 4 minutos.

0.0

1.0

2.0

3D

ens

ida

d

100 120 140 160 180Anchura mandibular (mm)

Page 69: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Métodos estadísticos exploratorios y confirmatorios para análisis de datos. Un enfoque biométrico

58

Figura 4.10 Estimadores de densidad por kernel gaussiano con amplitud de banda sobresuavizada (0.467) a} y óptima (0.36) para la duración de erupciones del géiser “Old Faithful” en Yellowstone, E.U.A.

Cuadro 4.2 Duración en minutos de 107 erupciones sucesivas del géiser “Old Faithful” del parque nacional de Yellowstone, E.U.A. (modificados de Weisberg, 1985)

4.37 3.92 3.83 3.77 4.33 4.00 4.33 3.87 3.68 1.88 3.75 2.93 1.80 1.83 4.00 3.10 4.60 2.50 4.58 4.42 4.53 4.03 4.03 1.80 4.50 1.90 1.90 2.03 3.50 1.77 4.73 4.10 3.58 4.63 4.18 4.08 4.08 1.77 3.70 3.73 2.93 4.43 2.25 1.75 4.57 3.80 3.73 3.50 4.07 4.70 3.20 1.85 3.43 1.82 1.97 4.13 1.73 1.85 3.52 4.00 4.63 4.28 3.95 4.93 4.62 4.00 2.27 3.50 1.83 4.10 1.73 1.97 3.70 4.40 4.00 4.13 2.72 4.62 4.50 3.72 4.05 3.67 1.83 4.58 3.43 3.92 4.25 4.25 1.67 4.65 1.90 4.25 4.35 3.58 3.33 4.60 4.20 4.50 1.68 2.33 3.80 2.00 1.67 3.93 1.95 4.83 4.12

0.1

.2.3

.4.5

Dens

idad

0 2 4 6 8Duración de erupción (min)

a}

0.1

.2.3

.4.5

Dens

idad

0 2 4 6 8Duración de erupción (min)

b}

Page 70: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Métodos estadísticos exploratorios y confirmatorios para análisis de datos. Un enfoque biométrico

59

Longitud de bagres Un ejemplo multimodal se presenta con los datos reportados en Salgado-Ugarte et al. (2000) de longitud patrón de hembras e indeterminados del bagre Cathorops melanopus (n = 641). Los EDKs sobresuavizado y óptimo se incluyen en la figura 4.11. Resulta muy clara la existencia de varios máximos de frecuencia, con tres modas por lo menos. Esta distribución multimodal indica que el valor “óptimo” es demasiado grande para representarla adecuadamente.

Figura 4.11 Estimadores de densidad por kernel gaussiano con amplitud de banda sobresuavizada (15.57) a} y óptima (11.7) para la longitud patrón de hembras e indeterminados del bagre Cathorops melanopus

Siguiendo la recomendación empírica de arriba, la amplitud de banda óptima se divide en dos (11.72 / 2 ≈ 6) y el estimador de densidad resultante se incluye en la figura 4.12. Es evidente que los datos contienen cuatro modas (76.8, 139.2, 175.2 y 216) de longitud patrón que sugieren grupos de peces con aproximadamente la misma edad (cohortes) que pueden utilizarse para estimar el crecimiento de la especie. La prueba de Silverman condujo a conclusiones semejantes (Cuadro 4.3). Esta prueba indica que los datos son compatibles con la hipótesis estadística de cuatro modas. Considerando los valores críticos de amplitud de banda (últimos

0.0

05.0

1.0

15.0

2D

ens

idad

0 50 100 150 200 250 300 350Longitud patrón (mm)

a}

0.0

05.0

1.0

15.0

2D

ens

idad

0 50 100 150 200 250 300 350Longitud patrón (mm)

b}

Page 71: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Métodos estadísticos exploratorios y confirmatorios para análisis de datos. Un enfoque biométrico

60

valores compatibles con un número dado de modas), se tiene que cuatro modas se presentan de 9.63 a 3.88. Si se considera un valor intermedio (9.63 + 3.88)/2 = 6.75, la prueba de Silverman recomienda una banda un poco mayor que la obtenida mediante la recomendación empírica. Una explicación detallada de la aplicación de esta prueba se presenta en Salgado-Ugarte (2002).

Cuadro 4.3 Resultados de la prueba de Silverman de multimodalidad para datos de longitud patrón de bagres (n = 641) Número de modas Banda crítica Probabilidad

1 23.36 0.0000 2 19.43 0.0000 3 9.64 0.1750 4 3.88 0.7330 5 3.23 0.7750 6 3.09 0.6000

Nota: Los valores de probabilidad se obtuvieron de B = 120 muestras repetidas con reemplazamiento (bootstrap) de tamaño 641. Los valores en negritas indican el número de modas estadísticamente significativo

Figura 4.12 Estimador de densidad por kernel gaussiano con amplitud de banda de 6 (mitad del valor óptimo) para la longitud patrón de hembras e indeterminados del bagre Cathorops melanopus

0.0

05.0

1.0

15.0

2.0

25D

ens

ida

d

0 50 100 150 200 250 300Longitud patrón (mm)

Page 72: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Métodos estadísticos exploratorios y confirmatorios para análisis de datos. Un enfoque biométrico

61

Estimadores de densidad por kernel con amplitud de banda variable Uno de los problemas del histograma que no es solucionado por los estimadores anteriores es que también utilizan un ancho de banda (intervalo fijo). Lo ideal sería que la banda fuera angosta en donde hay muchos datos (para proporcionar detalle) y se hiciera amplia cuando hay pocos (para eliminar ruido). Con los EDKs es posible programar un estimador que logre lo anterior. Un ejemplo de tal algoritmo es el basado en la propuesta de Fox (1990) incluido en Salgado-Ugarte, et al. (1993) posteriormente mejorado en Salgado-Ugarte y Pérez-Hernández (2003). Los pasos requeridos son: 1) Calcular una estimación preliminar de densidad utilizando un EDK de amplitud fija de banda )(ˆ xf K 2) En cada observación Xi, calcular un factor local de banda, wi, inversamente

proporcional a la densidad estimada: 2/1

)(ˆ

~

iK

g

Xf

fw

donde n

n

iiKg Xff

/1

1

)(ˆ~

es la media geométrica de )(ˆiXf , y por tanto, los pesos wi

tienen un producto y media geométrica igual a uno; 3) Utilizar los pesos para calcular el estimador de densidad por kernel de

amplitud de banda variable:

n

i i

i

i

A hw

XxK

wnhxf

1

11)(ˆ

4) Iterar los pasos 2 y 3, utilizando Af en lugar de Kf . En la práctica, la iteración produce poco cambio en la estimación de densidad (Fox, 1990). Debido a que este programa requiere el cálculo de pesos locales para cada observación individual con base en una estimación preliminar de densidad, el tiempo requerido para finalizar el cálculo es proporcional al número de observaciones. Si se tiene un lote con muchos números se requiere paciencia. De acuerdo a Simonoff (1995) estos estimadores están muy cerca de ser el mejor método para estudiar en detalle la distribución de frecuencia de variables continuas. Detalles y programas para calcular estos importantes estimadores se incluyen en Salgado-Ugarte et al. (1993), Salgado-Ugarte (2002) y Salgado-Ugarte y Pérez-Hernández (2003). La figura 4.13 presenta el estimador con kernel gaussiano y amplitud de banda variable (G = 6) para los datos de longitud de bagres. El resultado sigue siendo tetramodal (77.85, 139.35, 171.33 y 215.61) pero puede notarse que la separación entre primera y segunda moda es más acentuada y que la tercera se ha suavizado un poco por contener pocas observaciones.

Page 73: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Métodos estadísticos exploratorios y confirmatorios para análisis de datos. Un enfoque biométrico

62

Figura 4.13 Estimador de densidad por kernel gaussiano con amplitud de banda variable, con media geométrica de 6 (mitad del valor óptimo) para la longitud patrón de hembras e indeterminados del bagre Cathorops melanopus Diagramas de violín Por último, se presenta una combinación interesante de dos desplegados exploratorios de gran utilidad para comparar lotes de números. El diagrama de violín fue sugerido por Hintze y Nelson (1998) y consiste en el empleo conjunto de diagramas de caja y estimadores de densidad por kernel.

El diagrama de violín para los datos de anchura mandibular de canguros (Figura 4.14) permite comparar los valores de machos y hembras. Los EDKs están centrados y dispuestos alrededor del diagrama de caja y en el eje vertical están rotulados la mediana y los valores máximo y mínimo. En este ejemplo es claro el dimorfismo sexual en esta medida craneal, siendo los machos mayores que las hembras, las cuales manifiestan una mayor dispersión en relación a los machos.

0.0

05.0

1.0

15.0

2.0

25D

ens

ida

d

0 100 200 300Longitud patrón (mm)

Page 74: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Métodos estadísticos exploratorios y confirmatorios para análisis de datos. Un enfoque biométrico

63

Figura 4.14 Diagramas de violín para anchura mandibular de machos (sexo: 1) y hembras (sexo: 2) del canguro Macropus fuliginosus. De manera predeterminada se utilizan anchos de banda óptimos.

Anchura mandibular (mm)

-.043394 .043394

133

156

169

sexo: 1

-.046985 .046985

108

141

174

sexo: 2

Page 75: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

65  

Capítulo 5. Re-expresión de los datos Los elementos de nuestro interés se miden en escalas convencionales, frecuentemente utilizadas. En el sistema decimal, las dimensiones lineales se miden en metros, centímetros, milímetros; dimensiones superficiales o de volumen utilizan metros cuadrados ó cúbicos. Se puede decir que utilizamos el sistema decimal debido al número de dedos que tenemos los humanos en las extremidades superiores, pero bien podrían utilizarse (y tal es el hecho con las computadoras) sistemas con bases diferentes al diez: binario, hexadecimal, etc. Las escalas utilizadas a menudo son elegidas por la disponibilidad de los instrumentos disponibles y son unas de otras diferentes que pudieran considerarse (Queen y Keough, 2002).

La re-expresión se refiere a la transformación de las variables hacia una escala de medición diferente (Deleon y Anagnoson, 1991). En algunos lotes de datos es posible observar que las observaciones presentan:

- Una fuerte asimetría (sesgo) - Numerosos casos extraordinarios en un extremo - Lotes con diferentes niveles tienen dispersiones muy distintas. - Residuos grandes y sistemáticos al ajustar un modelo simple a los

datos.

Estas características pueden ser problemáticas para el entendimiento y procesamiento de los datos. La transformación puede aliviar estos problemas en los valores (Emerson y Stoto, 1983). De esta forma los grupos de números se pueden hacer mas simétricos, su forma puede ser mas parecida a la gaussiana, los casos extraordinarios debidos a la fuerte asimetría puede dejar de serlo (y otros previamente ocultos pueden manifestarse), la dispersión de varios lotes puede hacerse más homogénea y será posible ajustar modelos simples (lineales aditivos) a los datos (Marsh, 1988; Fowler, et al. 1998).

Dicha transformación implica cambiar la forma de distribución de los datos, comprimiendo la escala en algunas partes del intervalo representado y ampliándola en otras. Lo anterior no puede lograrse sumando o restando un número constante a cada valor en los datos, lo que cambia el nivel y localización, pero no la forma de la distribución. Tampoco se transforman los datos multiplicando o dividiéndolos por un valor constante; esta operación implica un cambio en la escala (los valores se duplican, triplican, se vuelven la

Page 76: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

66  

décima parte, etc.) pero la forma de la distribución no sufre alteración, aunque la dispersión de las observaciones se cambia de acuerdo al múltiplo utilizado (Siegel, 1988).

Si la adición/substracción o la multiplicación/división no permiten la re-expresión de los datos, entonces podemos pensar que una forma de lograr lo anterior es modificar sus exponentes, es decir debemos cambiar la potencia a la que están elevados los valores. 5.1 Transformación Potencial Emerson y Stoto (1983) definen a la transformación del lote con valores x1, x2, ... , xn , como una función T que reemplaza cada valor de x1 por un valor nuevo T(x1) de tal forma que los valores transformados son T(x1),..., T(xn). Como se vio en la parte referente al gráfico dispersión-nivel, resulta conveniente utilizar una familia importante de transformaciones denominada transformaciones potenciales, las cuales como su nombre lo indica, implican una modificación de la potencia a la que están elevados los datos originales. Existe un número infinito de potencias posibles a la cual pueden elevarse las observaciones, sin embargo, en la práctica se utilizan aquellas incluidas en la Escala de Potencias de Tukey, la cual contiene exponentes enteros o constituidos por fracciones simples (Tukey, 1977; Emerson y Stoto, 1983; Marsh, 1988). La definición de transformación arriba citada es muy amplia y puede incluir desde la substitución de todos las observaciones por un valor constante, la categorización de los valores, o la aplicación de funciones matemáticas complicadas además de las sugeridas por la escala de potencias. Sin embargo, en este capítulo se considerarán los últimos dos tipos, los cuales han manifestado tener las siguientes características:

1) Preservan el orden de los datos (aunque se modifica el espaciado entre los valores.

2) No alteran los resúmenes de letras de los lotes de datos, debido a que los valores de las letras están basados en el orden de las observaciones (la profundidad de los valores sigue siendo la misma).

3) Estas funciones de transformación son continuas.

4) Estas funciones también son suaves en cuanto a que tienen derivaciones de todos los órdenes (las funciones por tanto no tienen esquinas agudas).

5) Estas funciones son simples, por lo que la re-expresión de los datos puede lograrse fácilmente.

Page 77: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

67  

La escala de potencias de Tukey contiene las re-expresiones más sencillas y ampliamente utilizadas, por lo que conviene definirlas formalmente:

Las transformaciones potenciales tienen la forma:

                    0log          0 (5.1)

donde a, b, c, d y p son números reales. Se requiere que a > 0 para p > 0 y a < 0 para p < 0 si se quieren cumplir con las condiciones 1 a 5 arriba listadas. Los valores a, b, c y d son determinados por conveniencia, mientras que el de p se escoge para ayudar en el análisis de los datos (Emerson y Stoto, 1983).

Los valores de las constantes a, b, c y d pueden determinarse de acuerdo al contexto de trabajo. Existen tres situaciones que son comunes:

a) Cuando se desea re-expresar los datos de la manera más sencilla, obteniéndose la siguiente variación de las expresiones contenidas en la definición 4.1:

            0

log         0           0

(5.2)

b) Cuando se quiere comparar transformaciones entre sí y examinar sus

propiedades matemáticas y geométricas, utilizando para ello las expresiones:

                  0

ln                   0 (5.3)

donde ln x no es mas que el logaritmo natural (neperiano o de base e) de x.

c) Cuando se quiere re-expresar un lote de datos de tal forma que el conjunto de valores transformados se asemeje a los originales en cuanto a nivel, localización y dispersión. Para esto se escogen las constantes de las ecuaciones dadas en (5.1) por un proceso denominado emparejamiento.

La elección de las constantes de 5.1 se hace por conveniencia y para facilitar la interpretación y no por necesidad o para cambiar la esencia del comportamiento.

Page 78: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

68  

5.2 Razones para transformar Existen varios motivos para re-expresar los datos originales. Entre ellos pueden citarse (Emerson y Stoto, 1983; Marsh, 1988):

- Facilitar la interpretación en una forma natural - Promover simetría en un lote de datos - Hacer más gaussiana a la distribución - Remover casos extraordinarios en distribuciones fuertemente

asimétricas (y hacer evidentes otros previamente ocultos) - Promover la estabilidad (homogeneidad) en la dispersión de varios

lotes - Promover linealidad en la relación de dos variables - Simplificar la estructura en una tabla de dos o más vías de

clasificación de forma que pueda ajustarse un modelo aditivo simple Re-expresión para facilitar la interpretación Algunas veces, el cambio de la escala de medición es natural debido a que proporciona una forma alterna de reportar la información. Por ejemplo, debido a que la escala centígrada (Celsius) de temperatura se basa en un fenómeno natural ampliamente conocido (divide en cien partes o grados la distancia recorrida por el mercurio del termómetro entre la congelación y evaporación del agua) resulta mas conveniente que la escala utilizada en los países anglosajones (Fahrenheit). La transformación de grados Fahrenheit (F) a Celsius (C) involucra una función lineal:

 59    32 

En otras ocasiones, el analizar un conjunto de datos en una escala nueva puede mejorar su comprensión, aún cuando la escala re-expresada parezca menos natural que la original. Por ejemplo, considerar una población de peces en un reservorio reciente con las condiciones propicias para el desarrollo de los peces que permita un crecimiento proporcional al número de peces existente en cualquier momento; en tales circunstancias el tamaño poblacional es una función exponencial del tiempo. Si esto ocurre, los valores logarítmicos de la población, al graficarse contra el tiempo, describirán un

Page 79: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

69  

patrón aproximadamente lineal. Aunque resulta difícil entender el significado de los logaritmos de la población, resulta sencillo interpretar una tendencia rectilínea, resultando sencillo observar cuando el crecimiento es proporcional al tamaño poblacional y determinar desviaciones notorias del patrón, indagando sus causas. 5.3 Transformación para Promover Simetría La simetría en un lote de números es una propiedad deseable; las estimaciones del nivel se comportan mejor y resultan mejor entendibles cuando provienen de una distribución simétrica. Para verificar la existencia de simetría se utiliza una serie de valores centrales provenientes de los resúmenes de letras. Cada resumen central se determina por el promedio de los pares correspondientes de valores de letras. De esta manera podemos hablar del centro de cuartos, ó centro de octavos; se utiliza también el centro de intervalo para referirse al centro de extremos.

Estos resúmenes centrales (para todas las letras posibles del conjunto de datos) deberán ser iguales a la mediana en una distribución simétrica; si existe sesgo hacia la derecha, los valores centrales aumentarán gradualmente al avanzar hacia los valores extremos; si el sesgo es hacia la izquierda se notará un patrón decreciente en los valores centrales. Al utilizar a los resúmenes centrales se obtiene resistencia que revelará en algunos casos que la aparente asimetría es debida a la presencia de unos cuantos valores extraordinarios que afectarán sólo a los resúmenes centrales de los extremos de la secuencia de datos (Emerson y Stoto, 1983).

Para observar lo anterior se utilizarán los datos del peso total de los bagres (Arius melanopus) de la laguna de Tampamachoco, Ver., capturados de 1980 a 1981 (Salgado-Ugarte, 1985). Se analizó una muestra de 2439 individuos cuyo resumen de letras se proporciona en la Tabla 5.1.

Puede comprobarse que los valores centrales son el promedio de los resúmenes inferior y superior correspondientes. Por ejemplo el centro de cuartos (rotulados por la letra F) es igual a:

     12  6.80 92.4  49.600

Al sustituir los valores correspondientes se calcula el total de los valores

centrales. En esta Tabla (5.1), es claro apreciar que existe una tendencia al incremento de los valores centrales al acercarse a los extremos de la distribución (al disminuir la profundidad): el centro de W es aproximadamente

Page 80: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

70  

cuatro veces la mediana. Esta tendencia muestra indiscutiblemente que la distribución de los valores está sesgada a la derecha.

Para encontrar la re-expresión que produzca valores con una distribución simétrica se utiliza una técnica gráfica analítica análoga al gráfico dispersión-nivel (discutido en el capítulo referente a los diagramas de caja múltiples) denominado grafico de transformación para la simetría. Tabla 5.1 Resumen de letras para una muestra de pesos de bagres (Arius melanopus) de la laguna de Tampamachoco, Ver. (Peso total en gramos) N = 2439 Profundidad Inferior Central Superior M 1220.0 30.500 F 610.5 6.80 49.600 92.40 E 305.5 5.00 66.375 127.75 D 153.0 3.80 75.600 147.40 C 77.0 3.00 84.400 165.80 B 39.0 2.50 91.850 181.20 A 20.0 2.10 100.050 198.00 Z 10.5 1.80 108.500 215.20 Y 5.5 1.55 113.300 225.05 X 3.0 1.40 117.200 233.00 W 2.0 1.30 120.250 239.20 1.0 1.20 120.550 239.90

Este procedimiento está basado en las siguientes expresiones:

       

  (5.4)

en donde M es la mediana; xU y xL son los valores de letras superior (U del inglés "upper") e inferior (L del inglés "lower"). El resultado de la ecuación 4.4 se coloca en el eje horizontal. Asimismo la expresión:

      (5.5)

se colocará en el eje vertical. Sí el patrón de los puntos es aproximadamente lineal, la diferencia de uno menos la pendiente indicará la potencia de la transformación para la simetría.

Page 81: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

71  

Como suele suceder con otros gráficos de diagnóstico, esta potencia es la primera aproximación en la determinación de una re-expresión adecuada de los datos. Es común que se obtenga mejoría en la simetría, pero quizás pueda aplicarse otra transformación que conduzca hacia un mejor comportamiento. La expresión que define formalmente a la transformación es:

    (5.6)

Para potencias positivas, la constante k se hace igual a 1, y para las negativas, k será -1. Si la potencia es cero, entonces se aplica la transformación logarítmica. Podemos hacer notar que la expresión 5.5 mide la distancia entre la mediana y el valor central correspondiente para cada letra del resumen. De esta forma, si la distribución es perfectamente simétrica, entonces 5.5 dará como resultado ceros.

Las estimaciones de la potencia dadas en la columna (5) de la Tabla 5.2 se han obtenido resolviendo para cada letra la siguiente expresión:

p = 1 - (columna 3)/(columna 4) (5.7)

Los puntos de la Tabla 5.2 (columna 4 – columna 3) se han graficado en la Figura 5.1. Los diez puntos muestran un alejamiento sistemático de la linealidad. Los puntos correspondientes a los valores de letras internos indican una asimetría mayor que los puntos para las letras de los extremos (considerando los exponentes de re-expresión). Tabla 5.2 Cálculos del gráfico de transformación para simetría en los pesos de bagres (1) (2) (3) (4) (5) Valor de letra

2

 4

Estimación de potencia

F 6.800 92.400 19.10 36.01 0.469601 E 5.000 127.750 35.88 82.85 0.566993 D 3.800 147.400 45.10 117.86 0.617331 C 3.000 165.800 53.90 156.25 0.655037 B 2.500 181.200 61.35 192.58 0.681427 A 2.100 198.000 68.55 236.58 0.706019 Z 1.800 215.200 78.00 286.38 0.727630 Y 1.550 225.050 82.80 317.11 0.738894 X 1.400 233.000 86.70 343.06 0.747272 W 1.300 239.200 89.75 364.00 0.753435 Nota: la mediana M es 30.5; las columnas con datos numéricos se han redondeado a las cifras indicadas

Page 82: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

72  

Puede notarse que la estimación de la potencia de re-expresión varía

para cada letra del resumen. Para obtener una estimación que no esté afectada por unos cuantos puntos que se alejen del comportamiento de la mayoría podemos elegir la mediana de las potencias de la Tabla 5.2 (Columna 5). Por lo tanto la potencia de la transformación será:

(0.681427 + 0.706019)/2 = 0.693923 La línea recta de la Figura 5.1 tiene pendiente que es el complemento del anterior valor mediano de la potencia (1 – 0.693923 = 0.306077). Esto es equivalente al valor mediano de las pendientes de las rectas de cada uno de los puntos con el origen (Emerson y Stoto, 1983).

Para conservar la simplicidad en el cálculo e interpretación de la transformación, en la práctica no se utiliza una potencia cuyo valor sea exactamente el valor obtenido de los pasos anteriores. En lugar de esto la potencia resultante se redondea al número entero o fraccionario más cercano. Para los datos del ejemplo, se considera la potencia de 1/2 (0.5), que representa la re-expresión por raíz cuadrada; sí el resultado no resulta lo suficientemente simétrico entonces se puede probar el siguiente exponente en la escala de potencias.

En la Tabla 5.3 se han incluido los valores de letras correspondientes a la transformación por raíz cuadrada y logarítmica. Por medio de este cuadro es posible comparar la asimetría de los valores resultantes a través del examen de los valores centrales, buscando la existencia de tendencias. Tabla 5.3 Resúmenes de letras con valores centrales para los datos de peso total de bagres re-expresados en escala de raíz cuadrada y logaritmos Escala de raíz cuadrada Escala Logarítmica N = 2439 Letra Prof. M 1220.0 5.523 1.484 F 610.5 2.608 7.043 9.612 0.833 1.695 1.966 E 305.5 2.236 8.147 11.303 0.699 1.822 2.106 D 153.0 1.949 8.695 12.141 0.580 1.879 2.168 C 77.0 1.732 9.187 12.876 0.477 1.926 2.220 B 39.0 1.581 9.584 13.461 0.398 1.963 2.258 A 20.0 1.449 10.002 14.071 0.322 2.000 2.297 Z 10.5 1.342 10.416 14.670 0.255 2.035 2.333 Y 5.5 1.245 10.644 15.002 0.190 2.054 2.352 X 3.0 1.183 10.826 15.264 0.146 2.069 2.367 W 2.0 1.140 10.966 15.466 0.114 2.080 2.379 1.0 1.095 10.980 15.489 0.079 2.081 2.380

Page 83: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

73  

Figura 5.1 Gráfico de transformación para simetría para los datos del peso total de bagres (la pendiente de la recta es aprox. 0.3 con origen en cero). Tabla 5.4 Resumen de letras con valores centrales para los datos de peso total de bagres re-expresados en escala del inverso negativo de la raíz cuadrada Inverso negativo de raíz cuadrada N = 2439 Letra Profundidad M 1220.0 -0.181 F 610.5 -0.383 -0.142 -0.104 E 305.5 -0.447 -0.123 -0.088 D 153.0 -0.513 -0.115 -0.082 C 77.0 -0.577 -0.109 -0.078 B 39.0 -0.632 -0.104 -0.074 A 20.0 -0.690 -0.100 -0.071 Z 10.5 -0.745 -0.096 -0.068 Y 5.5 -0.803 -0.094 -0.067 X 3.0 -0.845 -0.092 -0.066 W 2.0 -0.877 -0.091 -0.065 1.0 -0.913 -0.091 -0.065

020

4060

8010

0C

olu

mna

3

0 100 200 300 400Columna 4

Page 84: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

74  

Como se anotó previamente, los datos originales tienen resúmenes centrales con una tendencia consistente al incremento con la disminución de la profundidad. Los valores de raíz cuadrada, siguen mostrando la misma tendencia aunque en menor grado. Dicha tendencia se observa aún en la re-expresión logarítmica, por lo que podríamos pensar en la transformación que le sigue en la escala de potencias, es decir el inverso negativo de la raíz cuadrada. El resumen de letras para esta nueva escala se muestra en la Tabla 5.4. En dicha tabla puede notarse que ahora existe una tendencia a la disminución en los valores centrales al disminuir la profundidad (lo que indica un sesgo hacia valores menores, tendencia opuesta a la presentada por los datos originales).

Lo anterior sugiere que dicha transformación es demasiado severa en la re-expresión de los datos. Además, si comparamos el grado de crecimiento ó disminución utilizando la razón entre el valor central mayor/valor central menor obtenemos los siguientes resultados: Escala Raíz cuadrada: 10.980/5.23 = 2.099 Logarítmica: 2.081/1.484 = 1.402 Inverso negativo de la raíz cuadrada: -0.181/-0.091 = 1.989

Una tendencia semejante se obtiene si en lugar de considerar a la mediana y a los extremos, se calcula el cociente entre medianas y los valores de la letra B, es decir a la parte central de los datos (realizando siempre el cociente del valor mayor/valor menor de cada par).

Por tanto, de las tres transformaciones la que muestra el menor cambio es la escala logarítmica, por lo que para fines exploratorios parece ser conveniente utilizar a dicha escala para promover la simetría en los datos. Una forma de hacer más simple la elección de la escala es utilizar las transformaciones emparejadas. 5.4 Re-expresión Para Otras Estructuras en los Datos La transformación de los datos es útil cuando se trabaja con datos que poseen estructuras diferentes. Entre estas cabe citar cuando se analizan varios lotes con diferentes niveles, pares de variables relacionadas (datos x-y) y tablas con dos vías de clasificación (de dos factores).

Page 85: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

75  

Re-expresión para estabilizar la dispersión Al realizar comparaciones de lotes de datos es común que se encuentren a diferentes niveles. Es posible también que (si se trabaja con cantidades o conteos) se presente una relación sistemática entre la dispersión y el nivel: al aumentar el nivel se incrementa la dispersión. Esto pudo observarse en la parte referente a los diagramas de caja múltiples, con el ejemplo del número de habitantes de las 10 ciudades más pobladas de once países del continente americano (Capítulo 3). Como se explicó en dicho capítulo, la transformación de los datos reduce o elimina la dependencia de la dispersión respecto al nivel, lo que trae como consecuencia que los datos:

- Podrán compararse y explorarse visualmente de manera más sencilla - Serán más apropiados para la aplicación de procedimientos

confirmatorios (el análisis de varianza de una vía de clasificación supone una varianza constante entre los grupos.

- Se volverán más simétricos y con menos casos extraordinarios

(Emerson y Hoaglin, 1983).

En el ejemplo de las capturas pudieron apreciarse en mayor o menor detalle estos efectos favorables para el análisis de la información. Asimismo, se revisó un procedimiento gráfico-analítico para la determinación de la transformación adecuada (el gráfico dispersión- nivel) que promueve la estabilización de la dispersión. Re-expresión para promover linealidad Los datos se presentan como mediciones de dos o más variables, las cuales pueden estar relacionadas. Cuando la tendencia entre las variables es lineal, resulta sencillo interpretar su relación, las desviaciones del ajuste se detectan fácilmente y es posible interpolar y extrapolar (dentro de límites razonables) valores. Sin embargo, en ocasiones, el gráfico de dispersión de variables x-y muestra un patrón curvilíneo. La re-expresión de una o ambas variables puede hacer lineal la relación originalmente curva.

El procedimiento que se revisará a continuación consiste en la determinación y comparación de pendientes de fracciones de los pares x-y, para la elección de la transformación adecuada. Este método está relacionado directamente con la línea resistente, procedimiento que se explica en el Capítulo 6. Por tanto, sólo se explicarán los pasos necesarios para probar la linealidad de la relación y la forma de elegir una re-expresión.

Page 86: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

76  

Para ilustrar lo anterior se utilizará un ejemplo de biometría de peces. Una forma preliminar de evaluar el crecimiento de los organismos es analizar la relación entre su peso y la longitud. Esta relación permite conocer si dicho crecimiento es isométrico (las partes del cuerpo crecen siempre en la misma proporción) o alométrico (que implica un crecimiento variable de las partes).

Los datos se han tomado del ya citado trabajo sobre el bagre estuarino Arius melanopus de la laguna de Tampamachoco en Veracruz (Salgado-Ugarte, 1985) considerando a las hembras y juveniles de un muestreo mensual (Tabla 5.5). Dicha tabla contiene los valores de Longitud Patrón (medida en mm desde la punta del hocico hasta el extremo del lóbulo carnoso de la cola) y el Peso Total (en gr). Dichos puntos se presentan en la Figura 5.2, en la cual se aprecia una tendencia curvilínea en la relación. Tabla 5.5 Datos de longitud patrón y peso total de bagres para promoción de linealidad (muestra de mayo). No. Sexo Longitud

patrón (mm)

Peso total (gr)

No. Sexo Longitud patrón (mm)

Peso total (gr)

1 2 145 43.1 25 2 175 68.4 2 2 127 24.8 26 2 167 76.1 3 2 158 55.8 27 2 117 23.6 4 2 193 107.4 28 2 186 86.8 5 2 153 46.9 29 2 105 18.2 6 2 166 70.7 30 2 112 20.1 7 2 98 13.5 31 2 135 39.5 8 2 220 161.1 32 2 239 196.4 9 2 167 83.2 33 3 105 17.6 10 2 240 181.5 34 3 104 13.8 11 2 174 105.7 35 3 100 14.2 12 2 214 147.4 36 3 111 17.9 13 2 147 41.8 37 3 107 16.7 14 2 187 101.0 38 3 103 12.5 15 2 227 183.7 39 3 155 46.9 16 2 240 167.6 40 3 118 20.3 17 2 204 130.6 41 3 98 12.4 18 2 185 106.1 42 3 119 23.3 19 2 222 137.4 43 3 101 14.1 20 2 236 141.6 44 3 108 16.2 21 2 210 137.8 45 3 108 17.0 22 2 227 148.7 46 3 124 25.1 23 2 106 18.4 47 3 123 25.524 2 100 15.1        

Nota: La clave para el sexo vale 2 para hembras y 3 para individuos inmaduros.

Page 87: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

77  

Para verificar la existencia de una tendencia lineal en los datos se

determinan las pendientes de mitad (o para brevedad pendientes-mitad). Como primer paso los pares se ordenan de acuerdo a x y posteriormente el total se divide en tres partes aproximadamente iguales y simétricas en cuanto al número de datos. Si al dividir el número de datos sobra un punto este se coloca en la mitad central; si sobran dos, se disponen en las tercias izquierda y derecha. Valores iguales de x se colocan en la misma tercia. Posteriormente se determinan las medianas de x y y para cada tercia, independientemente de su apareamiento. Estos puntos representan los puntos resumen y con ellos se realizan dos estimaciones de pendiente mediante la expresión analítica de pares de puntos: una correspondiente a la mitad izquierda (valores menores de x) y la otra para la mitad derecha (valores mayores). Debido a que dichas pendientes expresan la variación de cada mitad de los pares es que se conocen como pendientes-mitad (p-m). Enseguida se calcula el cociente de estas pendientes de cada mitad: p-m derecha / p-m izquierda. Si dicha razón no es igual a uno indica una variación no-lineal, y por tanto, es necesario buscar una transformación que linearice la tendencia. Si el cociente es mayor a 1 se requiere re-expresar la variable y hacia potencias menores en la escala de Tukey, ó, re-expresar a x utilizando potencias mayores. Aunque es posible modificar el exponente de y, el de x o de ambas variables, debido a que x es la variable explicativa de la relación, se recomienda primero transformar a y. Si la razón de pendientes-mitad es menor a 1, entonces se requerirá re-expresar la potencia de y hacia potencias mayores, o la de x hacia exponentes menores de la escala. Como en la mayor parte de los procedimientos exploratorios, este proceso es iterativo: se re-expresan las variables, se verifica el cociente de pendientes-mitad y se ajusta la transformación hasta obtener un patrón lineal aceptable.

Para la relación longitud-peso de los bagres, los resultados de la aplicación de este método se presentan en la Tabla 5.6. En primer lugar se presentan los valores originales (columnas 1 y 2 de la Tabla 5.6a) y los transformados (columnas 3 a 6 de dicha tabla). La razón de pendientes-mitad para los datos originales es de 2.175 (Tabla 5.6b), por lo que, de acuerdo a lo arriba citado, se hace necesaria una transformación hacia potencias menores de la escala. Primeramente se prueba la raíz cuadrada a los datos de y (columna 3), lo que produce una razón de 1.256, que si bien, es menor a la anterior, parece susceptible de mejorar. Por tanto, se aplican logaritmos a los valores de peso total (columna 4), y de esta forma se obtiene una razón igual a 0.732, valor que hace pensar que dicha transformación ha invertido la tendencia haciéndola curva en sentido opuesto. En este paso, y habiendo aplicado a y las potencias posibles de la escala, se prueba entonces transformar a x, modificando su exponente hacia valores menores.

Page 88: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

78  

Figura 5.2 Relación longitud-peso para bagres

Primeramente se prueba la raíz cuadrada de la longitud patrón (columna 5), que resulta en un cociente de pendientes-mitad igual a 0.879, que indica una reversión en la curvatura hacia la linealidad. Tomando como base este resultado se aplica entonces la transformación logarítmica de las longitudes (columna 6), lo que conduce a la mejor linearización de la tendencia (razón de pendientes-mitad = 1.055).

De esta manera, podemos aplicar la re-expresión logarítmica a los valores de longitud patrón y peso total para obtener una tendencia lineal adecuada (Figura 5.3). Esto es compatible con el conocimiento de que la relación longitud-peso en los peces suele apegarse a una expresión matemática potencial de la forma (Lagler, 1978):

  en donde y es el peso; x la longitud; a y b son constantes empíricas. La transformación logarítmica lineariza la anterior expresión:

log log log

050

100

150

200

Pe

so to

tal (

gr)

100 150 200 250Longitud patrón (mm)

Page 89: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

79  

Si se substituye log y por y', log a por a' y log x por x', se tiene entonces la expresión de una relación lineal:

      en donde, b representa el exponente de la expresión potencial, ó la pendiente de la ecuación rectilínea. Este valor es de importancia porque permite, por un lado, tener conocimiento del grado de isometría del crecimiento de los individuos: si b = 3 entonces se tiene un crecimiento isométrico; si b ≠ 3 entonces los peces manifiestan un crecimiento alométrico. Asimismo, utilizando el valor de la pendiente de las variables re-expresadas es posible comparar el crecimiento entre subpoblaciones por medio de pruebas confirmatorias de regresión (comparación de pendientes). Tabla 5.6a Valores re-expresados para linealización de los valores de Longitud patrón – Peso total de bagres (1) LP

(2) PT

(3) Raíz PT

(4) Log PT

(5) Raíz LP

(6) Log LP

98 12.4 3.5 1.093 9.899 1.991 98 12.5 3.5 1.096 9.899 1.991 100 13.5 3.7 1.130 10.000 2.000 100 13.8 3.7 1.139 10.000 2.000 101 14.1 3.8 1.149 10.050 2.004 103 14.2 3.8 1.152 10.149 2.013 104 15.1 3.9 1.178 10.198 2.017 105 16.2 4.0 1.209 10.247 2.021 105 16.7 4.1 1.222 10.247 2.021 106 17.0 4.1 1.230 10.296 2.025 107 17.6 4.2 1.245 10.344 2.029 108 17.9 4.2 1.252 10.392 2.033 108 18.2 4.3 1.260 10.392 2.033 111 18.4 4.3 1.264 10.536 2.045 112 20.1 4.5 1.303 10.583 2.049 117 23.6 4.9 1.372 10.817 2.068 118 20.3 4.5 1.307 10.863 2.072 119 23.3 4.8 1.367 10.909 2.076 123 24.8 5.0 1.394 11.091 2.090 124 25.1 5.0 1.399 11.136 2.093 127 25.5 5.0 1.406 11.269 2.104 135 39.5 6.3 1.596 11.619 2.130 145 41.8 6.5 1.621 12.042 2.161 147 43.1 6.6 1.634 12.124 2.167  

Page 90: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

80  

 

 

Tabla 5.6a Valores re-expresados para linealización de los valores de Longitud patrón – Peso total de bagres (Continuación) (1) LP

(2) PT

(3) Raíz PT

(4) Log PT

(5) Raíz LP

(6) Log LP

153 46.9 6.8 1.671 12.369 2.185 155 46.9 6.8 1.671 12.450 2.190 158 55.8 7.5 1.746 12.570 2.199 166 70.7 8.4 1.849 12.884 2.220 167 76.1 8.7 1.881 12.923 2.223 167 83.2 9.1 1.920 12.923 2.223 174 105.7 10.3 2.024 13.19 2.241 175 68.4 8.3 1.835 13.229 2.243 185 86.8 9.3 1.938 13.601 2.267 186 101.0 10.0 2.004 13.638 2.270 187 106.1 10.3 2.025 13.675 2.272 193 107.4 10.4 2.031 13.892 2.286 204 130.6 11.4 2.115 14.283 2.310 210 137.4 11.7 2.137 14.491 2.322 214 137.8 11.7 2.139 14.629 2.330 220 141.6 11.9 2.151 14.832 2.342 222 147.4 12.1 2.168 14.900 2.346 227 148.7 12.2 2.172 15.067 2.356 227 161.1 12.7 2.207 15.067 2.356 236 167.6 12.9 2.224 15.362 2.373 239 181.5 13.5 2.258 15.460 2.378 240 183.7 13.6 2.264 15.492 2.380 240 196.4 14.0 2.293 15.492 2.380

Podemos agregar que es posible notar que la dispersión de los puntos alrededor de la tendencia lineal se ha hecho más uniforme, lo que parece no ocurrir en el gráfico de los datos en las escalas originales (Figura 5.2).

Page 91: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

81  

Figura 5.3 Relación longitud-peso re-expresada Tabla 5.6b Puntos resumen, valores de pendientes-mitad (p-m) y razón de p-m para la regresión LP - PT de bagres Valores originales Puntos resumen

Raíz de PT Log de PT Raíz de LP Log de LP 105 16.45 4.056 1.216 10.246 2.021 147 43.10 6.565 1.634 12.124 2.167 217 139.70 11.819 2.145 14.730 2.336

Pendientes mitad

Relación mitad

LP-PT LP-RaízPT LP-LogPT RaízLP-LogPT

LogLP-LogPT

Izquierda 0.6345 0.0597 0.009961 0.2228 2.863 Derecha 1.3800 0.0750 0.007295 0.1959 3.019

Razón de pendientes-mitad

Relación LP-PT LP-RaízPT LP-LogPT RaízLP-LogPT

LogLP-LogPT

2.175 1.256 0.732 0.8793 1.054

11.

52

2.5

Loga

ritm

o de

l Pes

o to

tal

2 2.1 2.2 2.3 2.4Logaritmo de Longitud patrón

Page 92: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

82  

Re-expresión para Simplificar la Estructura La transformación de los valores de un grupo de números puede simplificar la estructura de los datos. De hecho, la linearización de la relación x-y es un ejemplo de simplificación en la estructura. Otro tipo de estructura ocurre cuando la información se presenta en forma tabular y con dos criterios de clasificación. Dicha estructura en las tablas de dos factores puede simplificarse aplicando re-expresión de los valores originales. En este tipo de datos, la variación de los valores en la tabla pueden ser entendidos en términos sencillos ajustando un modelo aditivo. Sin embargo, en ocasiones, los números en la tabla no se ajustan a este tipo de modelos; la transformación de los datos puede promover la aditividad cuando esto ocurre. En el capítulo referente al Pulido de Mediana se presentan procedimientos para detectar la desviación de la aditividad, determinar la potencia de re-expresión y el ajuste de un modelo aditivo a este tipo de datos. 5.5 Transformaciones emparejadas Los valores re-expresados por medio de las potencias de Tukey pueden a su vez transformarse linealmente sin que se complique su interpretación (Emerson y Stoto, 1983). Si se trabaja con T(x), entonces una transformación lineal de la forma:

z a bT x (5.8) se entiende sin dificultades.

Una gran parte de las técnicas para el análisis exploratorio de datos son "transparentes" a los cambios lineales en la escala. Como vimos en la parte introductoria, para alterar significativamente la escala de medición se requiere una modificación de los exponentes de los datos. De esta manera si se aplica la expresión 5.8, el resultado cambia de un valor r al valor: a + br; br ó no cambia (sigue siendo r). Si por ejemplo, los pesos y longitudes de peces se han reportado en libras y pulgadas, no habrá de dudarse en cambiarlos a gramos y centímetros. Lo anterior es válido para las estimaciones de nivel, localización, y pendientes, así como para el método del pulido de mediana (Capítulo 10). Por lo tanto, si se aplica alguno de estos métodos a datos re-expresados, es posible realizar una transformación lineal adicional.

Los beneficios de esta transformación adicional son varios: Primeramente se pretende que los valores re-expresados se asemejen, en su mayoría, a los datos originales (sólo los valores extremos cambian substancialmente). Debido a que la escala original suele ser mas familiar, es

Page 93: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

83  

posible que la transformación emparejada resulte más conveniente que cambiar nuestra forma de pensar (en otra escala de medición). En segundo lugar, el emparejamiento enfatiza los efectos debidos a la transformación. En tercer lugar, con las transformaciones emparejadas se facilita la comparación de diferentes re-expresiones (Emerson y Stoto, 1983).

Para realizar una transformación emparejada es necesario determinar el valor de los coeficientes de la expresión lineal (5.8). A continuación se presentan las ecuaciones para calcular estos coeficientes (para una discusión detallada de su derivación consultar a Emerson y Stoto, 1983):

b  T

(5.9)

y

        (5.10)

en donde x es un valor de nivel (tendencia central), como por ejemplo la mediana del lote de números. La expresión que define a T'(x0) depende del valor de la potencia de re-expresión. Para p ≠ 0 (es decir T(x) = xp ), se tiene:

  (5.11) y por tanto

    

    

(5.12)

si p = 0, o sea, la transformación logarítmica, entonces se aplican:

    ·   (5.13) y de esta forma:

(5.14) finalmente

    ·     ·

(5.15)

Page 94: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

84  

Aplicando lo anterior al ejemplo de los pesos de la muestra de bagres,

tendríamos para la transformación logarítmica que x0 = 30.5 o sea, el valor de la mediana (se pueden utilizar otros estimadores de nivel). Para la re-expresión logarítmica y substituyendo en 5.14 se tiene:

1 0.4343

de donde calculamos b

 1

 30.50.4343

70.2 

posteriormente, aplicando 5.10

     30.5 70.2  30.5   73.7 y de esta forma se tiene la siguiente transformación lineal:

70.2  73.7

Para evitar el uso de números fraccionarios podemos utilizar la versión simplificada:

70  70

Los resultados de la expresión anterior se muestran en la Tabla 5.7 en la cual además se presentan los valores emparejados para varias transformaciones. Puede observarse que ahora todos los valores son mas parecidos a los originales y que aunque no se elimina completamente la tendencia al incremento en los valores centrales con la re-expresión logarítmica, esta parece ser la mejor alternativa (como se había señalado anteriormente). Por otro lado los valores transformados por el inverso de la raíz cuadrada muestran que dicha transformación es demasiado severa, invirtiendo la tendencia en los valores centrales.

Se puede notar también que aunque los valores centrales varían poco, cada transformación comprime los valores superiores y amplía a los inferiores de tal forma que se obtienen números negativos.

Page 95: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

85  

4.6 Comentarios adicionales En el análisis de los datos se ha visto que la transformación para mejorar la distribución o comportamiento de las observaciones en cierto aspecto muy probablemente también producirá mejoras en otros. De esta forma, por ejemplo, los datos constituidos por conteos o cantidades por lo general mostrarán un incremento de la dispersión al crecer el nivel. Al transformar para estabilizar la dispersión se comprimirá necesariamente la escala para los valores mayores respecto a los menores. La transformación para promover simetría producirá efectos similares. Por tanto la re-expresión de los datos con estos fines también disminuirá su sesgo y estabilizará su dispersión. Cuadro 5.7 Resumen de letras con valores centrales para los datos de peso total de bagres re-expresados mediante transformaciones emparejadas Datos originales Logaritmo M 30.500 33.901 F 6.800 49.600 92.400 -11.724 48.684 67.597 E 5.000 66.375 127.750 -21.072 57.540 77.445 D 3.800 75.600 147.400 -29.415 61.497 81.795 C 3.000 84.400 165.800 -36.602 64.844 85.371 B 2.500 91.850 181.200 -42.144 67.416 88.071 A 2.100 100.050 198.000 -47.445 70.015 90.767 Z 1.800 108.500 215.200 -52.131 72.480 93.299 Y 1.550 113.300 225.050 -56.677 73.796 94.660 X 1.400 117.200 233.000 -59.771 74.825 95.715 W 1.300 120.250 239.200 -62.024 75.606 96.513 1.200 120.550 239.900 -64.457 75.682 96.602 Raíz cuadrada Inverso de raíz cuadrada M 30.749 149.754 F -1.316 47.470 75.737 216.549 136.857 124.330 E -5.403 59.618 94.329 237.580 130.505 119.197 D -8.557 65.643 103.549 259.286 127.954 117.181 C -10.947 71.056 111.640 280.526 125.921 115.628 B -12.607 75.422 118.072 298.710 124.433 114.515 A -14.059 80.027 124.784 317.727 122.992 113.452 Z -15.242 84.580 131.367 335.967 121.681 112.495 Y -16.305 87.087 135.018 355.062 121.003 111.998 X -16.985 89.085 137.908 368.901 120.482 111.619 W -17.458 90.624 140.127 379.429 120.093 111.337 -17.950 90.775 140.376 391.247 120.056 111.306

Page 96: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

86  

Por otra parte, la transformación, aunque aplicada correctamente trae

beneficios, desplaza las observaciones en su escala hacia intervalos numéricos que pueden ser menos familiares. Esto ocasiona que se pierda algo del entendimiento intuitivo y de la interpretación directa de los valores. Es más fácil pensar en términos de pesos, centímetros o litros que en logaritmos de pesos, raíz cuadrada de centímetros o uno sobre litros. Por tanto debe de tomarse en cuenta siempre si los beneficios que la re-expresión proporciona valen la pena. Para esto existen ciertas recomendaciones:

- Al analizar cantidades o conteos, la transformación será útil cuando la amplitud del conjunto de números es relativamente grande. A este respecto se puede utilizar la razón del valor mayor entre el menor:

dato mayor/dato menor Si el cociente es menor de dos, entonces no se justifica re-expresar las observaciones. Para los datos de peso total de bagres el cociente es igual a 200, por lo que la transformación es justificable.

- En datos bivariados o tablas de dos vías los residuos son la guía para aplicar o no transformación potencial; cuando son muy grandes o muestran un comportamiento sistemático la re-expresión será efectiva en la simplificación y explicación de la estructura de los datos.

- Como se ha visto con anterioridad, si los gráficos de dispersión nivel y el de simetría muestran un comportamiento lineal y tienen una pendiente diferente de cero será posible transformar los datos, pero, si dicha pendiente es esencialmente igual a cero, entonces la transformación no se aplicará. Si la tendencia de los puntos es curvilínea, la re-expresión potencial no solucionará los problemas asociados de comportamiento siendo recomendable la aplicación de una transformación más compleja.

- Finalmente, es factible aplicar diferentes transformaciones potenciales y observar sus efectos. Es posible de esta forma encontrar que alguna re-expresión se comporta mejor que los datos originales.

Page 97: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

87  

Capítulo 6. Línea Resistente En el estudio de datos biológicos (como en otras numerosas disciplinas científicas) es frecuente que el patrón a descubrir y analizar sea la dependencia de un valor de una variable y sobre el valor de otra variable x. En términos de la descripción más simple posible esta dependencia se representa como una línea recta, que puede representarse por la ecuación:

 

Para esclarecer dicho comportamiento lineal sólo es necesario determinar los valores de a y b. Una vez que se tienen a y b, cada par de números (x,y) que satisface la relación y = a + bx estará sobre una línea recta cuando se grafique. Para resumir cualquier dato particular x-y, se necesitan valores numéricos de a y b que hagan pasar cerca de los datos una línea recta. En este apartado se muestra una forma de encontrar tales valores (Velleman y Hoaglin, 1981). 6.1 Pendiente e Intercepto Como es bien sabido, la pendiente de una línea, b, representa la inclinación de esa línea; de manera más precisa, expresa el cambio en y asociado con el incremento en una unidad de x. El intercepto, a, es la altura (nivel) de la línea cuando x es igual a cero ──esto es, el valor de y cuando la línea cruza el eje de las y's.

La pendiente y el intercepto de cualquier línea recta pueden encontrarse a partir de dos puntos cualesquiera sobre dicha línea. Por ejemplo, de la Figura 6.1 es posible escoger un punto a la izquierda con un valor bajo de x ──rotulado (xI , yI ) ──y un punto a la derecha con un valor de x más alto ──(xD , yD ). La pendiente, b, esta definida como el cambio en y dividido por la variación correspondiente en x. Al escribir este cociente de manera precisa considerando los puntos anteriores se tiene:

    

   

 

   (6.1)

Una forma común para describir a la pendiente es citarla como "el cambio en y por la variación en x ". La declaración "las ventas han crecido en 5,500,000 pesos por año" especifica una pendiente (Velleman y Hoaglin, 1981).

Page 98: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

88  

Figura 6.1 Determinación gráfica de la pendiente e intercepto de una recta. Los subíndices indican Izquierda y Derecha respectivamente (modificada de Velleman y Hoaglin, 1981)

Cuando se conoce b, es posible encontrar el intercepto utilizando alguno de los puntos conocidos y especificando que la línea debe pasar por dicho punto. De esta manera y = a + bx , cuando se conoce el valor de b, despejando a se tiene:

    . De manera semejante se puede obtener:

    La Figura 6.1 muestra la geometría asociada a estos cálculos. 6.2 Puntos Resumen Es común que los datos reales no se alineen de manera perfecta. Al observar un gráfico de los puntos será posible notar que aunque una buena parte de los puntos estén cerca del comportamiento lineal, muy pocos coincidirán

     

 

                  

 

              Intercepto a = valor de y cuando x = 0 

                (xI , yI)                

 

                   Cambio de y 

                                                     

                                                                                                                      (xD, yD) 

x

Page 99: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

89  

exactamente. Por lo tanto se podrán dibujar varias líneas razonables que pasen por los datos. De este modo para dibujar a la línea y encontrar su ecuación no basta con escoger dos puntos cualesquiera de los datos y esperar obtener una línea adecuada. Para esto será necesario encontrar puntos que resuman adecuadamente a los valores para que la línea que definan se ajuste a la tendencia de los datos.

Para estimar la pendiente, es preciso seleccionar un valor típico de x cerca de cada porción terminal del intervalo de x, sin embargo, no demasiado cerca del inicio o final para evitar la inclusión de posibles casos extraordinarios. Una forma de realizar lo anterior consiste en la división (de acuerdo a la sugerencia de Tukey) de los datos en tres porciones: puntos a la izquierda con valores menores de x, puntos centrales de x y puntos a la derecha con los valores mayores (algunos analistas prefieren el empleo de cuatro porciones, Open University, 1983).

Para dividir los datos se ordenan los valores respecto a x. Si no hay valores de x repetidos el número de datos en cada tercia se obtiene dividiendo entre tres. El número de datos debe ser aproximadamente igual; si el total de datos no es divisible exactamente entre tres deberá buscarse que las tercias exteriores estén balanceadas, es decir, que contengan el mismo número de datos. La siguiente tabla ilustra las tres posibilidades que emergen de las reglas anteriores (Emerson y Hoaglin, 1983b): Grupo n = 3k n = 3k + 1 n = 3k = 2 ============================================================= Izquierdo k k k + 1 Central k k + 1 k Derecho k k k + 1 =============================================================

Si existen valores repetidos de x, estos se colocarán en la misma tercia. La Figura 6.2 ilustra la partición de datos hipotéticos.

En cada porción, primero se tratan los valores de x como un lote (ignorando los de y) y se determina su mediana. Posteriormente se consideran los valores correspondientes de y como un conjunto de números y también se calcula su mediana. De esta forma se obtiene un par de medianas (x, y) en cada una de las tres porciones. Los puntos especificados por estos tres pares de medianas no necesitan ser puntos de los datos originales, pero es posible que lo sean sobre todo si la tendencia lineal es marcada.

Las medianas de cada tercia de los datos resumen el comportamiento de cada lote en cada región, por lo que se denominan puntos resumen. Si se

Page 100: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

90  

nombran las tercias como izquierda (I), central (C), y derecha (D) de acuerdo al orden (de menor a mayor) de los valores de x, los tres puntos resumen se denotarán por

(xI , yI ) (xC , yC ) (xD , yD )

Figura 6.2 Versión gráfica de la determinación de los tres grupos con la indicación de los puntos resumen, Izquierdo, Central y Derecho (modificada de Velleman y Hoaglin, 1981)

La Figura 6.2 muestra los tres puntos resumen para un conjunto de valores de x e y. Al utilizar como medidas de resumen a las medianas se obtiene resistencia a los casos extraordinarios en x ó y que pudieran presentarse por lo que la línea que se obtenga será también resistente (Velleman y Hoaglin, 1981). 6.3 Estimación de la Pendiente y el Intercepto Con los puntos resumen es factible calcular los valores del intercepto (a) y la pendiente (b). Esta última se determina mediante la expresión (6.1)

05

1015

0 10 20 30

Page 101: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

91  

sustituyendo los valores correspondientes de x e y de la forma que se indica a continuación:

  

Para el intercepto se utiliza la estimación de b y los valores centrales:

    .

Sin embargo, es mejor calcular el valor correspondiente de a para cada uno de los puntos resumen y promediar las estimaciones:

           

y de lo anterior

13  

13      

6.4 Residuos Un aspecto de fundamental importancia en el análisis de datos y que se involucra en todos los procedimientos exploratorios es el cálculo y examen de los residuos. Los valores residuales provienen de la ecuación general del modelo estadístico, también conocida como ecuación DAR:

Datos = Ajuste + Residuos que contiene una parte explicada (Ajuste) y otra que no se comporta de acuerdo al modelo. Los modelos difieren en estructura y propósito, pero todos ellos intentan seguir de cerca a los datos. Despejando a los residuos llegamos a la expresión los define:

Residuos = Datos - Ajuste. En este caso la línea resistente es el modelo o ajuste y los residuos (r) se calculan para cada dato (xi , yi ):

    .

Page 102: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

92  

Los residuos pueden interpretarse de dos maneras: los pesimistas ven en ellos a la falla del ajuste para describir adecuadamente a los datos, refiriéndose a ellos como "errores" (aunque un ajuste perfecto sería causa de sospechas). Por otro lado, los optimistas distinguen en ellos detalles del comportamiento de los datos que los puntos por sí mismos no manifiestan claramente (Velleman y Hoaglin, 1981). Los dos enfoques son correctos. En general, los analistas e investigadores buscan modelos que produzcan residuos con las siguientes propiedades ideales, listadas en orden de importancia (Marsh, 1988):

- Una distribución suave, simétrica y gaussiana - Un nivel igual a cero - Una magnitud pequeña - Un comportamiento aleatorio

Si los residuos son sistemáticamente grandes pueden indicar que el

modelo es inadecuado. Si muestran algún patrón en su comportamiento (por lo menos que el centro de su distribución no sea el cero) sugieren que el modelo puede refinarse e incorporar dicho elemento en el ajuste. Si aparentemente tienen una distribución suave, simétrica y gaussiana será posible calcular márgenes de error para el modelo.

Una buena parte de los métodos estadísticos tradicionales confirmatorios ajustan el modelo a cada una de las observaciones. Si alguna de estas observaciones es un caso extraordinario este valor producirá un efecto inadecuado en el ajuste. Como es familiar, los procedimientos exploratorios tratan de evitar esta distorsión.

Como se señaló anteriormente el utilizar a las medianas en el ajuste de líneas proporciona resistencia a tales datos extraordinarios, y es por esto que la técnica de ajuste de líneas expuesta en el presente capítulo se denomina línea resistente (Tukey, 1977; Velleman y Hoaglin, 1981). 6.5 Pulido del Ajuste (Iteración) Como se mencionó en la Introducción la resistencia a los casos extraordinarios tiene un costo. Los valores iniciales del intercepto, a, y la pendiente, b, a menudo no son los más apropiados. Para verificar lo anterior se calculan los residuos, y se tratan como si fueran valores de y:

, ,   .

Posteriormente, se determinan como antes, los puntos resumen y se calcula la pendiente (b') entre los puntos extremos (izquierdo y derecho). Si su valor es cero (o muy cercano), los valores estimados son adecuados. Pero si la

Page 103: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

93  

pendiente residual tiene otra magnitud entonces será necesario ajustar a la pendiente original. Dicho ajuste consiste en sumar la pendiente residual (b') a la pendiente original (b). Este procedimiento iterativo se repite hasta que la pendiente residual se haga cero.

Por lo general las estimaciones de pendiente producen pendientes residuales con signos opuestos que convergen hacia el cero. Cuando las estimaciones de pendiente producen residuos con pendiente positiva y negativa de manera alternada se puede utilizar la siguiente expresión para abreviar las iteraciones (Velleman y Hoaglin, 1981):

  

.

En esta expresión b1 y b1 son las dos estimaciones de la pendiente, y b'1

y b'1 son las pendientes de los residuos cuando se prueban b1 y b2 . El ejemplo de la siguiente sección ilustra este proceso y muestra como, si es necesario, pueden efectuarse más correcciones. Tabla 6.1 Datos de radios de otolitos y longitud total para hembras de Kareius bicoloratus (mes de septiembre, 1989) Radio Posterior Otolito Izquierdo RPOI (mm)

Longitud total (mm)

2.41 230 2.54 236 2.64 297 2.84 248 2.86 260 3.04 282 3.05 254 3.14 284 3.26 300

6.6 Ejemplo: Radio del otolito contra longitud total En el estudio del crecimiento de los peces es importante la determinación de la relación entre el radio de los otolitos y la longitud corporal. Una vez conocida esta relación y con los radios de los anillos es posible conocer la talla de los peces a cada edad. Los datos que servirán como ejemplo fueron medidos en otolitos de Kareius bicoloratus de la muestra del mes de septiembre (Salgado-Ugarte, 1990); representan el radio posterior del otolito izquierdo y la longitud total (Tabla 6.1) y se grafican en la Figura 6.3.

Page 104: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

94  

En este ejemplo, n = 9 y n/3 = 3, por lo que se obtienen tercias homogéneas de tamaño 3. Al ordenar los puntos (x, y) del valor de x más bajo al más alto y separar las tercias, se obtienen las primeras dos columnas de la Tabla 6.2. Inmediatamente se encuentran los componentes x e y de los puntos resumen: Tercia Mediana de x Mediana de y I 2.54 236 C 2.86 260 D 3.14 284 (Al encontrar los valores resumen, conviene anotar que el valor ó valores que determinan la mediana de x y aquellos que determinan la mediana de y no necesitan provenir de los mismos puntos en los datos). El valor inicial de b es:

   284 2363.14 2.54

80

y el valor de a es:

13      

= 1/3 [(780) - 80 × (8.54)] = 32.2667.

De aquí que la línea ajustada inicial sea:

32.2667 80 , donde y = longitud total (lontot) y x = radio posterior del otolito izquierdo (RPOI). Ahora, en cada punto se resta el valor ajustado determinado a partir de esta línea del valor observado de y de acuerdo a yi - (a + bxi). La substracción da como resultado la columna llamada Primer residuo en la Tabla 6.2 y completa la primera iteración en el proceso del ajuste de una línea resistente a este conjunto de datos.

Page 105: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

95  

Figura 6.3 Relación radio del otolito – longitud total del cuerpo

Ahora es posible calcular la pendiente de estos residuos. Se encuentra la mediana de los primeros residuos en cada porción y, de ahí, los puntos resumen de corrección,

(2.54, 4.933) (2.86, -1.07) (3.14, 0.533)

y la pendiente de los residuos,

 . .

. .  7.3333.

La segunda estimación de la pendiente es entonces

b2 = 80 - 7.3333 = 72.6667.

Los residuos de la línea con esta pendiente y el intercepto original son los "segundos residuos". Su pendiente, b'2, se determina de la misma manera. Su valor es 1.5889. También podemos ajustar el intercepto, pero es mas fácil esperar hasta tener una estimación satisfactoria de la pendiente.

230

250

270

290

310

Long

itud

tota

l (m

m)

2.4 2.6 2.8 3 3.2 3.4Radio Posterior del Otolito Izquierdo (mm)

Page 106: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

96  

Se tienen hasta aquí dos estimaciones de la pendiente, 80 y 72.6667, las cuales produjeron pendientes residuales con signos opuestos: -7.3333 y 1.5889. Esto es todo lo que se necesita para aplicar la segunda fórmula de corrección. Una nueva estimación se calcula de la siguiente manera:

b3 = 72.6667 - 1.5889[(72.6667 - 80)/(1.5889 - ( -7.3333))] =73.9726. Enseguida se calculan los residuos de la línea con la pendiente b3 y encontramos su pendiente. En este ejemplo, b'3 es igual a cero, por lo que termina el proceso iterativo. La Tabla 6.3 resume estos pasos. Tabla 6.2 Algunas etapas de la determinación de la línea resistente de los datos de radios y longitudes de la Tabla 6.1 (x) RPOI

(y) Longitud total

Primer residuo

Tercer residuo

Residuo final

2.41 230 4.9333 19.4594 1.0959 2.54 236 0.5333 15.8429 -2.5205 2.64 297 53.5333 69.4457 51.0822

2.84 248 -11.4666 5.6511 -12.7123 2.86 260 -1.0667 16.1717 -2.1918 3.04 282 6.5333 24.8566 6.4932

3.05 254 -22.2666 -3.8831 -22.2465 3.14 284 0.5333 19.4594 1.0959 3.26 300 6.9333 26.5826 8.2192

Ahora es factible calcular el intercepto utilizando los puntos resumen de los terceros residuos:

a4 = 1/3(19.4594 + 16.1717 + 19.4594) = 18.3635. Por lo tanto, el ajuste final es

y = (32.2667 + 73.9726 x) + 18.3635 ó y = 50.6302 + 73.9726 x.

Esta línea indica que la longitud total del pez se relaciona con el aumento en los radios del otolito a razón de unas 74 unidades de longitud por cada milímetro de radio posterior. El intercepto de la línea final puede interpretarse como el tamaño del pez al originarse el otolito (afirmación que amerita verificación).

Cuando se trabaja a mano (con papel y lápiz), por lo general se realizan dos o tres estimaciones de pendiente. Si se utiliza una computadora, unos

Page 107: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

97  

cuantos pasos más proporcionarán la estimación de pendiente con pendiente residual igual a cero. Tabla 6.3 Iteración de la Línea Resistente hasta la "convergencia" para los datos de radios y longitud de la Tabla 6.1 Pendiente 1: 80.0000 Pendiente 2: 72.6667 Pendiente 3: 73.9726 Línea ajustada: y = 50.63013 + 73.9726 x

Existen ciertas indicaciones que hacen más fáciles los cálculos: Para usar la segunda fórmula de corrección se necesitan dos pendientes, una muy alta y otra demasiado baja. Si la pendiente de los segundos residuos no de signo opuesto a la de los primeros, se deben probar correcciones mayores a la primera pendiente hasta que los segundos residuos se inclinen de manera contraria.

Cuando se tienen dos estimaciones de pendiente y se resuelve para la siguiente estimación con la fórmula:

    /  , no importa cual pendiente se utilice como b1 o b2 . Sin embargo, comúnmente es mejor escoger como b2 a la estimación de pendiente con la pendiente residual menor.

Es posible abreviar los cálculos de dos maneras. Primero, no es necesario encontrar los residuos de la tercia-central hasta que se establezca una pendiente final. Segundo, es posible reemplazar b' por la diferencia entre las medianas derecha e izquierda de los residuos. Un poco de álgebra muestra que el divisor (xD – xI) en los cálculos de pendiente cancela la fórmula para bnueva, así que se puede evitar dividir por él.

Siempre se examinan los residuos desplegándolos en un diagrama de tallo y hoja así como graficándolos contra x. La Figura 6.4 muestra lo anterior para este ejemplo, y la Tabla 6.2 lista los residuos finales para su comparación con pasos anteriores. La característica más notable en el gráfico de residuos es el punto alto a la izquierda. Este punto desviado ya era evidente en la Figura 6.3, y los residuos indican ahora que no ha afectado a la línea resistente. La Figura 6.5 representa la recta resistente obtenida mediante este procedimiento. Puede observarse que se ajusta bien a la mayoría de los datos, pasando lejos del punto extraordinario.

Page 108: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

98  

Figura 6.4 Gráfico de residuos finales 6.7 Casos extraordinarios (Outliers) Cuando se analiza un conjunto de números, los procedimientos exploratorios permiten la identificación de casos extraordinarios. El procedimiento de los tres grupos (línea resistente) excluye a la mayoría de los datos atípicos, que pueden presentarse en x, en y o en ambas variables. Como en los métodos anteriores, los datos con residuos extraordinarios son los de mayor interés ya que no se comportan como los demás y por lo tanto, merecen un examen adicional.

Es posible también que los residuos de casos extraordinarios de x ó de y sean pequeños. Esto ocurre cuando a pesar de que son atípicos en el intervalo de x ó de y, como puntos se localizan cerca de la tendencia lineal. Estos puntos (casos influenciales) requieren también de un tratamiento especial.

Los puntos con residuos extraordinarios sugieren equivocaciones. Si se revisan y se descubre que fueron medidos y anotados correctamente se puede pensar en la omisión de los mismos. Sin embargo, el enfoque correcto quizás sea el de buscar información adicional que ayude a explicar su discordancia. A menudo esta información proporciona un conocimiento profundo de gran valor acerca del fenómeno en estudio (Velleman y Hoaglin, 1981).

-20

020

4060

Res

iduo

s fin

ales

2.4 2.6 2.8 3 3.2 3.4Radio Posterior del Otolito Izquierdo (mm)

Page 109: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

99  

En el ejemplo utilizado, el valor representa un dato correctamente medido, es decir representa un pez que por alguna razón no esclarecida (podría pensarse en factores genéticos y/ó alimenticios) presentó un valor relativamente elevado de longitud total para el radio de su otolito. 6.8 Línea Resistente, Regresión por Mínimos Cuadrados y Regresión Robusta La línea resistente es una de varias maneras para ajustar un modelo lineal a datos x-y. El método más común es el de regresión por mínimos cuadrados. Por supuesto, estos dos métodos generalmente no proporcionan las mismas estimaciones de pendiente e intercepto, aunque, si no existen casos extraordinarios, serán semejantes.

Cuando los datos contienen casos atípicos, ó cuando la distribución de los residuos (de cualquier línea ajustada) posee colas grandes, es muy probable que la línea resistente difiera marcadamente de la línea de mínimos cuadrados. La razón principal de esta diferencia es que la regresión por mínimos cuadrados no es resistente a los efectos de los casos aberrantes.

Figura 6.5 Recta resistente

Cuando la distribución de los residuos es casi gaussiana y los datos satisfacen algunas otras restricciones, la regresión por mínimos cuadrados

230

250

270

290

310

Long

itud

tota

l (m

m)

2.4 2.6 2.8 3 3.2 3.4Radio Posterior del Otolito Izquierdo (mm)

Observados Recta resistente

Page 110: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

100  

permite hacer inferencias estadísticas acerca de la línea. La línea resistente aún no está acompañada por ningún procedimiento de inferencia. Sin embargo, si los datos no cumplen con las condiciones para la regresión, es peligroso obtener inferencias de una línea de mínimos cuadrados. En tales casos, la técnica de la línea resistente proporciona una mejor descripción de los datos (Velleman y Hoaglin, 1981).

La mayor parte de los paquetes computarizados incluyen programas para la regresión por mínimos cuadrados. Cuando se analizan datos con uno de tales paquetes, a menudo es conveniente ajustar tanto una línea resistente como una regresión por mínimos cuadrados y comparar las líneas resultantes. Si son semejantes, puede preferirse la de mínimos cuadrados porque permite el cálculo de inferencias estadísticas. Si difieren, los residuos de la línea resistente pueden revelar la causa.

Cuando se trabaja con lápiz y papel, y si los pares de valores no son muchos, se puede utilizar la línea resistente ya que sus cálculos son sencillos. Cuando se utiliza una computadora, es conveniente ajustar primero una línea resistente. Esto nos permite: 1) verificar que la relación x-y es lineal (por medio de las pendientes-mitad), 2) encontrar una re-expresión que linealice la relación si es necesario y 3) verificar por medio de los residuos la existencia de casos aberrantes. Una vez que nos hemos asegurado que los datos se comportan bien en estos aspectos podemos ajustar una línea de regresión por mínimos cuadrados.

Una solución alternativa ante la existencia de casos extraordinarios es la regresión robusta. Existen varios procedimientos para estimar la recta robusta, basados en la ponderación de los puntos de acuerdo a sus residuos (medidos de acuerdo a una estimación inicial y ajustados iterativamente). Algunos paquetes estadísticos incluyen rutinas de regresión robusta (Number Cruncher Statistical System, Stat-packets y Stata por ejemplo).

Para visualizar las diferencias en la Figura 6.6 se incluyen la recta resistente (RRES), la recta de mínimos cuadrados (RMC) y la recta robusta (RROB) de acuerdo al procedimiento incluido en Stata (StataCorp, 2009). Puede notarse que la RMC es afectada por el caso extraordinario (la pendiente es menor y el intercepto mayor). Por otra parte, las rectas RRES y RROB son muy parecidas aunque no exactamente iguales. Cabe señalar que para la determinación de la recta robusta fueron necesarios 11 iteraciones, en comparación con los tres de la recta resistente. Estas dos últimas rectas no son afectadas por el caso extraordinario, por lo que se ajustan mejor a la tendencia rectilínea del resto de los puntos.

Page 111: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

101  

Figura 6.6 Comparación de rectas 6.9 Comentarios adicionales Debido a que la expresión de la relación longitud-radio se utiliza en el retrocálculo de la talla a cada edad, es muy importante que la ecuación sea representativa de la tendencia de los puntos. Esto es, que no se desvíe por la presencia de unos pocos valores alejados del comportamiento lineal de los demás. Debido a esto, cuando existen casos extraordinarios en los pares de puntos, es recomendable la utilización del procedimiento resistente y tener estimaciones que no han sido afectadas por unos cuantos casos aberrantes. Al emplear el procedimiento resistente se tiene la seguridad de que los valores estimados de pendiente e intercepto se adecúan a la tendencia de la mayoría de los puntos, y si los residuos no indican un patrón definido, conduce a retrocálculos mas precisos.

El procedimiento de los tres grupos aquí detallado se ha incluído en el paquete estadístico MINITAB. Programas en BASIC y FORTRAN se encuentran en el libro de Velleman y Hoaglin (1981). Otra manera de realizarse es por medio del uso de alguna hoja de cálculo (por ejemplo LOTUS 1-2-3 ó Excel). Lo anterior, en adición a que por lo general el número de iteraciones es reducido, hace accesible la aplicación de este procedimiento.

220

240

260

280

300

2.4 2.6 2.8 3 3.2 3.4rpoi

Observados Línea resistenteRecta mínimos cuadrados Recta robusta

Page 112: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

103  

Capítulo 7 Suavización no lineal resistente 7.1 Introducción Como se ha revisado a lo largo de los capítulos previos el objetivo principal de gran parte de las técnicas de análisis de datos, y prácticamente de todos los procedimientos del análisis exploratorio de datos es la búsqueda de patrones. A menudo el patrón subyacente es obscurecido por "ruido" en los valores considerados.

En el análisis estadístico la elección de una representación paramétrica simple se ha convertido en un requerimiento tácito. En los métodos tradicionales confirmatorios se hace necesario el conocimiento previo o la suposición de la distribución de los errores (residuos). El análisis exploratorio de datos en lugar de lo anteriormente citado pretende descubrir patrones sin hacer suposiciones acerca de la estructura de los datos, utilizando técnicas con propiedades que cambian gradualmente a lo largo de un intervalo amplio de distribuciones ruidosas (Velleman, 1982).

Los patrones citados no se limitan al comportamiento lineal. En la actividad científica se obtienen datos cuyo orden secuencial es importante. Muchas veces es de esperar que el patrón de estas secuencias sea suave, es decir, que cada punto sea semejante o esté definido por los valores adyacentes. No obstante que las series de tiempo son el ejemplo común, es posible considerar otras variables en la definición del ordenamiento. Como ejemplos pueden citarse los valores de temperatura o precipitación pluvial registrados diariamente en una estación meteorológica, la temperatura corporal diaria de ganado productor de leche, los valores de resistividad del terreno a lo largo de una perforación geológica o la abundancia relativa de animales respecto a su tamaño o peso (Figura 7.1).

Las secuencias de datos son una forma especial de pares ordenados (x, y) en los cuales los valores de x son importantes por el orden que especifican (sea respecto al tiempo, espacio, edad, tamaño, etc.). Por tanto es posible referirse a un dato como "anterior a" o "previo a" otro valor aún cuando la ordenación no sea temporal. De acuerdo con lo anterior se puede utilizar el subíndice "t" para definir el orden de y.

Cualquier suavizador de datos descompone la secuencia original en dos partes: una secuencia "estructurada", suave, de variación gradual y una secuencia "ruidosa", rugosa, muy variable. Es así que se puede utilizar la

Page 113: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

104  

siguiente variante de la expresión general del modelo estadístico (ecuación DAR):

Datos = suaves + rugosos (7.1)

Es posible que la secuencia suavizada refleje patrones a gran escala que pueden entenderse en términos sencillos. Estas secuencias de valores suaves no están restringidas por suposiciones paramétricas establecidas a priori, sino que a menudo manifiestan patrones generales de importancia teórica (por ejemplo las variaciones estacionales).

Figura 7.1 Ejemplos de datos de secuencias

El análisis de los valores rugosos es igualmente importante (ya que estos valores representan los residuos de la suavización) y permiten descubrir patrones adicionales a la estacionalidad. Los valores locales extraordinarios y los cambios en la variabilidad pueden ser de importancia teórica o práctica y merecen atención especial (Velleman, 1982). Métodos tradicionales de suavización Tradicionalmente para la suavización de secuencias se han utilizado a los promedios móviles, los cuales reemplazan los datos originales y por un

100

285

470

655

840

1025

Pre

cipi

taci

ón p

luvi

al (

mm

)

1878 1906 1934 1962 1990Tiempo (años)

a) Los Ángeles, California, E.U.A.

4060

8010

0T

empe

ratu

ra n

o.pu

lsos

/min

0 20 40 60 80Días transcurridos

b) Vaca productora de leche

1020

3040

50Lo

g de

Res

istiv

idad

0 35 70 105 140 175Profundidad (m)

c) Sección estratigráfica

050

100

150

Med

ia m

ensu

al

0 50 100 150 200Tiempo (meses)

d) Manchas solares

Page 114: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

105  

promedio ponderado de y con un número predeterminado de valores precedentes y subsecuentes. Una elección cuidadosa de los pesos en los promedios permite separar efectivamente patrones de baja frecuencia del ruido de alta frecuencia.

Sin embargo, no obstante que tales suavizadores son de fácil análisis matemático, manifiestan algunas inconveniencias cuando:

- Algunos patrones están constituidos por patrones de baja y alta frecuencia.

- No pueden seguirse cambios repentinos (saltos) característicos o parte de la estructura de la secuencia.

Un problema más serio, ilustrado en la Figura 7.2, es que una observación aislada extrema, dato pronunciado ó caso extraordinario (Figura 7.2a), contamina no sólo al valor suavizado en ese punto sino que también a cada valor suavizado en cuyo promedio participa (ver Figuras 7.2b y 7.2c). Debe recordarse que la media es una medida no resistente a diferencia de la mediana; la suavización por medianas ignora al caso extraordinario (Figura 7.2d). Lo anterior provoca que unos cuantos valores extraordinarios obscurezcan seriamente el patrón subyacente de una secuencia.

Otros inconvenientes son el desfasamiento de picos y valles de la secuencia original (Figura 7.3) y el aumento de valores considerados para el cálculo de los promedios que provoca que la curva suavizada se parezca cada vez menos a la secuencia original (Davis, 1973). Medianas corredizas Tukey (1971) propuso la utilización de medianas móviles para obtener resistencia a los datos aberrantes. En su obra posterior (Tukey, 1977) explica varios métodos de suavización basada en el uso de medianas y da ejemplos de su aplicación.

Sin embargo, estos procedimientos (aún los más sencillos) son de difícil trato matemático. Los trabajos de Mallows (1980) y Velleman (1980) han proporcionado lineamientos importantes para su entendimiento y aplicación. Asimismo, actualmente se cuenta con listados de programas de computadora que permiten el cálculo de algunos de estos suavizadores (Velleman y Hoaglin, 1981); algunos paquetes estadísticos estándar contienen varias de estas subrutinas (Minitab, Stata, Systat, Statgraphics, etc.).

Page 115: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

106  

Figura 7.2 Falta de resistencia de medias móviles

Figura 7.3 Suavización por medias móviles de 3 mostrando desfasamiento de picos y valles

3.8

5.9

810

.112

.2T

asa

de m

orta

lidad

1910 1914 1918 1922Tiempo (años)

a) Datos de mortalidad

3.8

5.9

810

.112

.2M

orta

lidad

sua

viza

da

1910 1914 1918 1922Tiempo (años)

b) Media móvil de 3

-2.3-

1.2-

.11

2.13

.24.

35.4

6.5

Re

sidu

os

1910 1914 1918 1922Tiempo (años)

c) Residuos de media móvil

3.8

5.9

810

.112

.2M

orta

lidad

sua

viza

da

1910 1914 1918 1922Tiempo (años)

b) Medianas corredizas de 3

12

34

56

7

1 2 3 4 5 6 7 8 9 10 11 12

Valores originales Medias móviles de 3

Page 116: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

107  

Recientemente Velleman (1982) define algunos de estos suavizadores

(llamados "suavizadores no lineales resistentes") que destacan por su buen comportamiento y aplica algunas técnicas exploratorias adicionales en la detección de la no-estacionaridad (ver apartado 7.9) y el tratamiento de secuencias estructuradas.

Estos suavizadores se han aplicado al análisis de numerosas secuencias de datos. Algunos ejemplos son: la construcción de regresión resistente (Beaton y Tukey, 1974); ajuste estacional (Cleveland, Dunn y Terpening, 1979) y el procesamiento de imágenes (Justusson, 1978).

El presente resumen está basado fundamentalmente en los trabajos de Tukey, (1977), Velleman (1980) Velleman y Hoaglin (1981), Velleman (1982) y Goodall (1990) para explicar los principios de los suavizadores no lineales resistentes mediante su aplicación a datos reales y se dan algunas pautas para la elección de los suavizadores más convenientes para develar la estructura de los datos. Otras contribuciones recientes que explican suavizadores elementales se encuentran en Siegel (1988), Marsh (1988) y Hamilton (1990).

En el Apéndice 1 se incluye una descripción y el listado de los programas de suavización no lineal resistente que difícilmente se encuentran en los paquetes estadísticos comerciales que fueron adaptados por el autor (incluyendo al suavizador 4253EH,doble recomendado por su buen desempeño en tareas generales de suavización). En el Apéndice 2 se dan las instrucciones para el uso de estos programas. 7.2 Definiciones básicas Se suele representar a la secuencia original de datos como:

{ yt } En donde el subíndice t indica observaciones con algún tipo de ordenamiento (temporal, espacial o de otra clase) y con espaciamiento (no estrictamente) uniforme.

El suavizador de datos, Sm, descompone aditivamente a la secuencia de datos { yt } en dos partes:

{ zt } o secuencia suavizada y

{ rt } o secuencia rugosa

Page 117: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

108  

Los suavizadores operan sobre un segmento corto de la secuencia y se

"mueven" ó "corren" a lo largo de la misma. El número de datos considerados en el segmento constituye la "amplitud" del suavizador y por lo general el tratamiento es idéntico para los puntos alrededor del centro de amplitud (todos los datos considerados tienen el mismo peso) 7.3 Ejemplo 1: Número de manchas solares Para entender el procedimiento de la suavización no lineal resistente se utilizarán los datos del número de manchas solares registrado en Zürich por la Unión Astronómica Internacional (Waldmeir, M. 1961 in Andrews y Herzberg, 1985).

El número de manchas solares presenta regularidades anuales y un ciclo de 11 años. Este comportamiento cíclico puede ser difícil de distinguir en los datos mensuales de la Figura 7.4 (círculos unidos con líneas).

Figura 7.4 Número de manchas solares por mes de diciembre de 1757 a agosto de 1764.

2040

6080

100

Núm

ero

de

man

chas

108 128 148 168 188Tiempo (meses)

Observados Suavizados

Page 118: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

109  

En la misma Figura se presentan los datos anteriores suavizados por el procedimiento 4253EH,doble mediante una línea continua más gruesa. Pueden distinguirse con claridad variaciones periódicas que pueden interpretarse con mayor facilidad.

El efecto del suavizador es realmente impresionante por lo que resulta

imprescindible conocer su modo de operación, para lo cual en las siguientes secciones se explicará dicho funcionamiento tomando a 31 datos de la secuencia de número de manchas solares en el intervalo arriba mencionado iniciando en febrero de 1762 (Tabla 7.1). 7.4 Suavizadores elementales El suavizador no lineal más simple es la mediana corrediza de amplitud 3, en la cual cada valor de y es reemplazado por la mediana de dicho valor, el precedente y el que le sigue. Por tanto si en el terceto existe un dato notablemente diferente éste será substituido por alguno de los otros dos (aquél cuyo valor sea el intermedio).

Los valores inicial y final de la secuencia no pueden suavizarse por este procedimiento ya que no están entre otros dos valores. Una solución preliminar a este inconveniente es la copia sin alteración de tales valores ó autotipificación (Velleman, 1980; 1982; Velleman y Hoaglin, 1981).

Las medianas corredizas de grupos de tres son incapaces de suavizar dos casos aberrantes. Por lo tanto para suprimir en la secuencia suavizada a estos valores se utiliza un mayor número de datos (amplitud mayor), por ejemplo medianas corredizas de grupos de 5 datos. De nuevo, los valores terminales de la secuencia no pueden suavizarse. No obstante, es posible truncar la amplitud de la mediana móvil obteniendo el segundo valor suavizado mediante una mediana corrediza de 3 valores, procedimiento nombrado como “regla de disminución de amplitud” (step-down rule) por Goodall (1990) y (por el momento) autotipificando el primer valor (Salgado-Ugarte y Curts-García, 1992; 1993). Las siguientes expresiones ilustran lo anterior:

z3 = med(y1 , y2 , y3 , y4 , y5 )

z2 = med(y1 , y2 , y3 )

z1 = y1

(y de manera similar para los valores penúltimo y último de la secuencia).

Page 119: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

110  

Tabla 7.1 Suavización del número mensual de manchas solares por medianas corredizas de tres y cinco Índice de tiempo No. de manchas Suavizado por

medianas corredizas de 3

Suavizado por medianas corredizas de 5

158 73 73 73 159 46 60 60 160 60 46 60 161 40 60 46 162 77 40 60 163 34 68 68 164 68 68 68 165 68 68 68 166 69 69 69 167 78 77 69 168 77 77 69 169 56 56 56 170 32 34 34 171 34 33 33 172 33 33 33 173 33 33 34 174 36 36 33 175 54 36 36 176 26 54 46 177 68 46 54 178 46 61 61 179 61 61 61 180 61 61 60 181 60 60 60 182 60 60 60 183 40 40 44 184 34 40 40 185 44 34 34 186 30 30 30 187 30 30 30 188 30 30 30

Page 120: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

111  

Figura 7.6 Suavizadores de amplitud impar

La conveniencia de estos suavizadores es su fácil cálculo, sin embargo, su desempeño no es del todo "bueno". Por ejemplo, las medianas corredizas de 5, aunque resultan en valores más suaves (respecto a las de 3), se parecen menos a los datos originales (Tabla 7.1; Figuras 7.6a y 7.6b).

Las medianas móviles de amplitud par son mas "gentiles" en la suavización (Tabla 7.2, Figura 7.7). Si se localiza en el centro de la amplitud (es decir en el espacio entre dos valores originales de t), esto es: Datos ... y5 y6 y7 y8 ... M.C.4. . .. y4.5 y5.5 y6.5 y7.5 y8.5 ... en donde M.C.4 indica medianas corredizas de amplitud 4.

Por lo tanto para recuperar la fase es necesario suavizar de nuevo con medianas corredizas de amplitud par, usualmente 2. Lo anterior algebraicamente puede representarse de la siguiente manera:

z = 1/2 (med {yt - 2, yt - 1, yt , yt + 1} + med {yt - 1, yt, yt + 1, yt + 2})

2040

6080

2040

6080

160 170 180 190

a) Medianas corredizas de amplitud 3

b) Medianas corredizas de amplitud 5

Va

lore

s su

aviz

ados

Tiempo (no. de mes)

Page 121: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

112  

Debido a que los valores primero y final sólo aparecen en una de las dos expresiones, estos tienen la mitad del peso que los demás.

Figura 7.7 Suavizadores de amplitud par 7.5 Definiciones adicionales y Notación Mientras mayor sea la amplitud, mayor será la resistencia del suavizador a los casos extraordinarios. Esto se aclara si se considera que, por ejemplo, las medianas corredizas de amplitud 2 son sensibles a cualquier dato extraordinario. Las amplitudes 3 y 4 resisten datos pronunciados aislados (no consecutivos). Las medianas corredizas de 3 serán afectadas por pares de casos extraordinarios en los grupos de 3. Las medianas móviles de amplitud 4 reducirán aproximadamente a la mitad el efecto de 2 valores pronunciados. Las medianas corredizas de amplitud 5 no serán afectadas por dos casos extraordinarios en los grupos de 5.

Se ha desarrollado (Tukey, 1977) una notación abreviada para referirse a estos suavizadores. El símbolo para una mediana corrediza es el dígito correspondiente a su amplitud. Así pues, en lugar de emplear la descripción "medianas corredizas de amplitud dos" se utiliza simplemente el número 2. La notación 53 significa la aplicación de una mediana corrediza de amplitud cinco seguida por una de amplitud de tres.

3040

5060

7030

4050

6070

160 170 180 190

a) Medianas corredizas de 4

b) Medianas corredizas de 4 y 2

Va

lore

s su

aviz

ados

Tiempo (no. de mes)

Page 122: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

113  

Tabla 7.2 Suavización del número mensual de manchas solares por 4 y luego por 2 Índice de tiempo No. de manchas Suavizado por 4 Suavizado por 42

158 73 73.0 73.00 159 46 59.5 56.25 160 60 53.0 53.00 161 40 53.0 51.50 162 77 50.0 52.00 163 34 54.0 61.00 164 68 68.0 68.00 165 68 68.0 68.25 166 69 68.5 70.75 167 78 73.0 73.00 168 77 73.0 69.75 169 56 66.5 55.75 170 32 45.0 39.25 171 34 33.5 33.25 172 33 33.0 33.25 173 33 33.5 34.00 174 36 34.5 34.50 175 54 34.5 39.75 176 26 45.0 47.50 177 68 50.0 51.75 178 46 53.5 57.25 179 61 61.0 60.75 180 61 60.5 60.50 181 60 60.5 60.25 182 60 60.0 55.00 183 40 50.0 46.00 184 34 42.0 39.50 185 44 37.0 34.50 186 30 32.0 31.00 187 30 30.0 30.00 188 30 30.0 30.00

30.0

En el siglo pasado, un meteorólogo austriaco, Julius von Hann, utilizaba para suavizar sus datos de temperaturas, presiones y otras variables atmosféricas un promedio móvil ponderado de amplitud tres y pesos de 1/4, 1/2 y 1/4 (Tukey, 1977; Hamilton, 1990). Tukey (1977) sugirió su empleo en

Page 123: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

114  

combinación con otros suavizadores notando que dicho promedio ponderado es equivalente a la suavización por 2 efectuada dos veces y lo bautizó como "Hanning" (H en notación abreviada).

Debido a que los promedios móviles son sensibles a los datos pronunciados es conveniente utilizarlos después de la aplicación de suavizadores basados en medianas corredizas. A pesar de su falta de resistencia, este promedio ponderado produce secuencias muy suaves (Velleman y Hoaglin, 1981) sin alterar en forma excesiva a los valores originales (Hamilton, 1990). 7.6 Suavización de valores terminales Hasta este punto los valores al inicio y al final de la secuencia, debido a que no pueden suavizarse, se han copiado sin alteración. Sin embargo, este proceder no es muy adecuado si el objetivo es la suavización de la secuencia completa. Para esto, Tukey (1977) propone el empleo de la mediana de tres valores: a) Aquél resultado de la extrapolación lineal dos valores más allá de los suavizados, es decir, para el dato inicial:

   2∆     / ∆

  3 2 donde z es el valor extrapolado dos intervalos de t más allá de z . De manera semejante para el valor final se tiene:

  3 2 b) El valor suavizado más próximo (z2 y zn - 1), y c) El dato original (y1 ó yn).

Esta "regla de los valores terminales" de la secuencia (anotada como E por la palabra inglesa "Endpoint" o valor terminal) algebraicamente viene a ser (Figura 6.8):

  ,   ,   )

      ,   ,       )

Page 124: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

115  

Para indicar la aplicación de esta regla Velleman y Hoaglin (1981) y Marsh (1988) sugieren el empleo de “E” después del dígito del suavizador precedente. Esta sugerencia se ha seguido en implementaciones posteriores (Salgado-Ugarte y Curts-García, 1992; 1993; Gould, 1992; StataCorp, 2009).

Figura 7.8 Regla de los valores terminales 7.7 Suavizadores Compuestos Los suavizadores elementales representan la primera etapa del análisis de secuencias. Es posible mejorar la descripción de los datos. Una forma de hacerlo es la aplicación de un suavizador a una secuencia previamente suavizada, procedimiento que Tukey (1977) denominó "re-suavización". Es así como se construyen los "suavizadores compuestos".

Uno de los más sencillos es la suavización por 3 hasta que no se produzcan cambios en la secuencia resultante, método que se llama 3R (Tabla 7.3). Un inconveniente de este suavizador es su tendencia a producir "mesetas" y "valles" planos (Figura 7.9).

01

23

45

67

89

10

0 1 2 3 4 5 6 7 8 9 10t

Datos originales Valores suavizadosExtrapolado a t = 0 Línea de extrapolaciónSuavizado a t = 1

Page 125: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

116  

Tabla 7.3 Suavización del número mensual de manchas solares por el suavizador compuesto 3R Índice de

tiempo No. de manchas

Suavizado por 3

Suavizado por 3

Suavizado por 3

Suavizado por 3R

158 73 73 73 73 73 159 46 60 60 60 60 160 60 46 60 60 60 161 40 60 46 60 60 162 77 40 60 60 60 163 34 68 68 68 68 164 68 68 68 68 68 165 68 68 68 68 68 166 69 69 69 69 69 167 78 77 77 77 77 168 77 77 77 77 77 169 56 56 56 56 56 170 32 34 34 34 34 171 34 33 33 33 33 172 33 33 33 33 33 173 33 33 33 33 33 174 36 36 36 36 36 175 54 36 36 36 36 176 26 54 46 46 46 177 68 46 54 54 54 178 46 61 61 61 61 179 61 61 61 61 61 180 61 61 61 61 61 181 60 60 60 60 60 182 60 60 60 60 60 183 40 40 40 40 40 184 34 40 40 40 40 185 44 34 34 34 34 186 30 30 30 30 30 187 30 30 30 30 30 188 30 30 30 30 30

Además de la re-suavización es posible efectuar un ajuste adicional empleando los valores rugosos (residuos de la suavización), que permite la incorporación a la secuencia suavizada de patrones de variación contenidos en las rugosidades. Para ello se suavizan los valores rugosos y la secuencia

Page 126: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

117  

resultante se suma a los valores suavizados. Lo anterior puede expresarse de la siguiente manera:

Dato ≡ suave + rugoso y

rugoso ≡ rugoso suavizado + rugoso (de rugoso) entonces

dato ≡ suave + rugoso suavizado + rugoso de rugoso

dato ≡ suave final + rugoso final donde

suave final - suave + rugoso suavizado y

rugoso final - rugoso de rugoso

Por analogía con la re-suavización, a esta operación se le denomina en inglés "re-roughing" (en inglés "rough" significa rugoso).

De esta forma es posible aplicar primero el suavizador 53, calcular los valores rugosos y suavizarlos. Por lo general se utiliza el mismo suavizador (en este caso 53) para la secuencia rugosa y el resultado se suma a los valores suaves iniciales (Tabla 7.4 y Figura 7.10). Cuando se realiza lo anterior se emplea el término "doble", por lo que en este ejemplo se ilustra el suavizador 53,doble.

Figura 7.9 Suavizador 3R

3040

5060

7080

Va

lore

s su

aviz

ados

160 170 180 190Tiempo (no. de mes)

Page 127: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

118  

Figura 7.10 Suavizador 53,doble

Los suavizadores compuestos combinan varios suavizadores elementales resuavizando y ajustando rugosidades (re-roughing). La estrategia general es eliminar a los datos pronunciados en los primeros pasos (mediante el uso de medianas corredizas) y al final emplear promedios móviles ponderados.

Se han propuesto varias combinaciones de unidades elementales de suavización para la construcción de suavizadores compuestos. Tukey (1971) propuso al suavizador 53H,doble.

Velleman (1975, 1980) fue quien analizó por primera vez el comportamiento de algunos suavizadores no lineales resistentes comparándolos entre sí y con un filtro (suavizador) lineal (basado en promedios móviles). Entre los parámetros que este autor consideró están: el llamado "rebote de Gibbs", la resistencia a los casos pronunciados, el transporte de una frecuencia a otra y su robustez. Entre los resultados que reporta pueden citarse que los suavizadores simples y compuestos basados en medianas corredizas de amplitud impar (como 5, 53H y 53H,doble) manifiestan un considerable valor de rebote y los mayores transportes a otras frecuencias (características no deseables en un "buen" suavizador). Los suavizadores 3R y 3RSSH (la S se refiere a la inicial de la palabra inglesa "Split" e indica la operación de "partición" de la secuencia en proceso de

3040

5060

7080

Va

lore

s su

aviz

ados

160 170 180 190Tiempo (no. de mes)

Page 128: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

119  

suavización en los sitios con mesetas o valles planos según el procedimiento explicado en Tukey, 1977 y Goodall, 1990), presentan un rebote menor pero igual transporte. Tabla 7.4 Suavización del número mensual de manchas solares por el suavizador 53,doble Índice de

tiempo No. de manchas 5 53

Rugoso1 5 53 53,doble

158 73 73 73 0 0 0 73 159 46 60 60 -14 0 0 60 160 60 60 60 0 0 0 60 161 40 46 60 -20 -14 0 60 162 77 60 60 17 0 0 60 163 34 68 68 -34 0 0 68 164 68 68 68 0 0 0 68 165 68 68 68 0 0 0 68 166 69 69 69 0 0 0 69 167 78 69 69 9 0 0 69 168 77 69 69 8 0 0 69 169 56 56 56 0 1 0 56 170 32 34 34 -2 0 0 34 171 34 33 33 1 0 0 33 172 33 33 33 0 0 0 33 173 33 34 33 0 1 0 33 174 36 33 34 2 0 1 35 175 54 36 36 18 2 2 38 176 26 46 46 -20 2 2 48 177 68 54 54 14 0 0 54 178 46 61 61 -15 0 0 61 179 61 61 61 0 0 0 61 180 61 60 60 1 0 0 60 181 60 60 60 0 0 0 60 182 60 60 60 0 0 0 60 183 40 44 44 -4 0 0 44 184 34 40 40 -6 0 0 40 185 44 34 34 10 0 0 34 186 30 30 30 0 0 0 30 187 30 30 30 0 0 0 30 188 30 30 30 0 0 0 30

Page 129: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

120  

La resuavización por H de los suavizadores compuestos arriba citados mejora su desempeño. Por otro lado, los suavizadores compuestos constituidos por suavizadores de amplitud par y los de amplitud combinada (por ejemplo 42, 4253H,doble y 43R5R2H,doble) poseen un menor transporte y rebote.

En este punto cabe recordar que los suavizadores lineales dispersan un valor aberrante a lo largo de su amplitud, mientras que todos los suavizadores no lineales son resistentes a un caso pronunciado y varios eliminan a dos de estos casos contenidos dentro de su amplitud. Además los suavizadores compuestos basados en suavizadores simples de amplitud par, por su desempeño consistente bajo la presencia de valores ruidosos se consideran como más robustos.

Los experimentos realizados, consideraciones teóricas y experiencia en aplicaciones permiten al autor arriba citado recomendar, en orden de preferencia a los siguientes suavizadores compuestos:

a) 4253H,doble b) 43R5R2H,doble c) 3RSSH d) 53H,doble

(Velleman no señala el ajuste de valores terminales).

El primero tiene el menor rebote de Gibbs, menor transporte a otras frecuencias y produce secuencias ligeramente más suaves que los otros. Los dos últimos son de fácil cálculo, altamente resistentes y se ajustan bastante bien a las variaciones de alta frecuencia.

En las tablas 7.5a y 7.5b se ilustra en detalle la determinación de los valores suavizados por 4253EH,doble: inicia con una mediana corrediza de amplitud 4, recentrada por medio de una mediana móvil de 2. Al resultado se aplica 5, 3, la regla de los valores terminales y finalmente el "Hanning" (esta serie de pasos representa la etapa de re-suavización). Posteriormente se calculan las rugosidades y se suavizan utilizando el mismo suavizador compuesto (4253EH,doble), sumando el resultado a los valores suaves producto de la resuavización (esta serie de procedimientos representa la operación doble). Los valores suavizados finales se representan en la Figura 7.11 en la cual se incluyen también los meses del año. Puede notarse de manera clara que existieron números mínimos de manchas en los meses cálidos (abril a junio) y máximos en los meses invernales (octubre a enero) de los años 1763 y 1764.

Page 130: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

121  

Tabla 7.5a Suavización del número mensual de manchas solares por el suavizador compuesto 4253EH,doble (primera parte)

(1) No. de

manchas

(2)

4

(3)

2

(4)

5

(5)

3(E)

(6)

H

(7)

rugoso1 73 73.00 73.00 73.00 62.75 62.7500 10.2500 46 59.50 56.25 56.25 56.25 57.0625 -11.0625 60 53.00 53.00 53.00 53.00 53.8125 6.1875 40 53.00 51.50 53.00 53.00 53.0000 -13.0000 77 50.00 52.00 53.00 53.00 55.0000 22.0000 34 54.00 61.00 61.00 61.00 60.7500 -26.7500 68 68.00 68.00 68.00 68.00 66.3125 1.6875 68 68.00 68.25 68.25 68.25 68.5625 -0.5625 69 68.50 70.75 69.75 69.75 69.3750 -0.3750 78 73.00 73.00 69.75 69.75 69.7500 8.2500 77 73.00 69.75 69.75 69.75 66.2500 10.7500 56 66.50 55.75 55.75 55.75 55.1250 0.8750 32 45.00 39.25 39.25 39.25 42.0625 -10.0625 34 33.50 33.25 34.00 34.00 35.3125 -1.3125 33 33.00 33.25 34.00 34.00 34.0000 -1.0000 33 33.50 34.00 34.00 34.00 34.1250 -1.1250 36 34.50 34.50 34.50 34.50 35.6875 0.3125 54 34.50 39.75 39.75 39.75 40.3750 13.6250 26 45.00 47.50 47.50 47.50 46.6250 -20.6250 68 50.00 51.75 51.75 51.75 52.0625 15.9375 46 53.50 57.25 57.25 57.25 56.6250 -10.6250 61 61.00 60.75 60.25 60.25 59.5000 1.5000 61 60.50 60.50 60.25 60.25 60.2500 0.7500 60 60.50 60.25 60.25 60.25 58.9375 1.0625 60 60.00 55.00 55.00 55.00 54.0625 5.9375 40 50.00 46.00 46.00 46.00 46.6250 -6.6250 34 42.00 39.50 39.50 39.50 39.8750 -5.8750 44 37.00 34.50 34.50 34.50 34.8750 9.1250 30 32.00 31.00 31.00 31.00 31.6250 -1.6250 30 30.00 30.00 30.00 30.00 30.2500 -0.2500 30 30.00 30.00 30.00 30.00 30.0000 0.0000

30

Page 131: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

122  

Tabla 7.5b Suavización del número mensual de manchas solares por el suavizador compuesto 4253EH,doble (segunda parte)

(8)

4

(9)

2

(10)

5

(11)

3(E)

(12)

H

(13) Suavizador 4253EH,doble

10.2500 10.2500 10.2500 0.6094 0.6094 63.3594 -0.4063 -1.4219 -1.4219 -1.4219 -1.1680 55.8945 -2.4375 -2.4375 -2.4375 -2.4375 -2.2109 51.6016 -2.4375 -2.9219 -2.5469 -2.5469 -2.5195 50.4805 -3.4063 -4.5313 -2.5469 -2.5469 -2.5469 52.4531 -5.6563 -2.5469 -2.5469 -2.5469 -1.8984 58.8516 0.5625 0.0469 0.0469 0.0469 -0.5898 65.7227

-0.4688 0.0938 0.0938 0.0938 0.6328 69.1953 0.6563 2.2969 2.2969 2.2969 1.7461 71.1211 3.9375 4.2500 2.2969 2.2969 2.2969 72.0469 4.5625 4.5625 2.2969 2.2969 2.2656 68.5156 4.5625 2.1719 2.1719 2.1719 1.4883 56.6133

-0.2188 -0.6875 -0.6875 -0.6875 0.0234 42.0859 -1.1563 -1.1875 -0.7031 -0.7031 -0.6992 34.6133 -1.2188 -1.1406 -0.7031 -0.7031 -0.7031 33.2969 -1.0625 -0.7031 -0.7031 -0.7031 -0.6211 33.5039 -0.3438 -0.3750 -0.3750 -0.3750 -0.4570 35.2305 -0.4063 3.2813 -0.3750 -0.3750 -0.3750 40.0000 6.9688 4.2344 -0.3750 -0.3750 -0.0273 46.5977 1.5000 -1.5313 1.0156 1.0156 0.6680 52.7305

-4.5625 -1.7188 1.0156 1.0156 1.0156 57.6406 1.1250 1.0156 1.0156 1.0156 1.0156 60.5156 0.9063 1.0938 1.0156 1.0156 1.0156 61.2656 1.2813 1.0938 1.0156 1.0156 0.5742 59.5117 0.9063 -0.7500 -0.7500 -0.7500 -0.4180 53.6445

-2.4063 -1.1875 -1.1875 -1.1875 -1.0781 45.5469 0.0313 -1.8594 -1.1875 -1.1875 -1.1875 38.6875

-3.7500 -2.3438 -1.1875 -1.1875 -1.0234 33.8516 -0.9375 -0.5313 -0.5313 -0.5313 -0.5938 31.0313 -0.1250 -0.1250 -0.1250 -0.1250 -0.1953 30.0547 -0.1250 0.0000 0.0000 0.0000 0.0000 30.0000 0

Page 132: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

123  

Figura 7.11 Suavizador 4253EH,doble. Los números al lado de los puntos son los meses del año (de febrero de 1762 a agosto de 1764) 7.8 Ejemplo 2: Capturas de peces en el tiempo La suavización también puede emplearse para el análisis de las capturas de peces en el tiempo. En ocasiones la cantidad de peces capturados año con año permite el reconocimiento de patrones regulares cíclicos que pueden ser reflejo de la dinámica poblacional de la especie en relación con los factores ambientales. Esta aplicación se ejemplifica con los datos de captura de atunes en la costa de Marruecos entre los años 1927 y 1954 reportados por Lozano-Cabo (1983) y representados en la Figura 7.12. En esta figura debido a las fluctuaciones no es posible identificar los patrones regulares periódicos. Por esto Lozano-Cabo (1983) propone el empleo de la "regularización" de la curva utilizando un promedio móvil. En este conjunto de datos puede encontrarse un año sin captura. El promedio móvil no permite la interpolación del valor faltante. Sin embargo, los suvizadores no lineales resistentes, debido a sus características son un medio idóneo para la interpolación de valores faltantes. Al substituir dicho valor con un cero, y al aplicar 4253EH,doble se tienen los resultados de la Tabla 7.6, representados gráficamente en la Figura 7.13. En dicha curva aparece con gran claridad el patrón periódico de las capturas que caracteriza a esta especie.

2

3

45

6

7

8

910 11

12

1

2

34 5

6

7

8

9

10

11 121

2

3

4

5

67 830

4050

6070

80V

alo

res

suav

izad

os

160 170 180 190Tiempo (no. de mes)

Page 133: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

124  

Tabla 7.6 Captura de atún en Marruecos durante el periodo de 1927 a 1954

Año Captura (número de peces) Captura suavizada (4253EH,doble) 1927 7297 7564.219 1928 7218 7764.156 1929 8959 7878.406 1930 9533 7883.762 1931 6368 7837.348 1932 4755 7814.141 1933 12236 7835.266 1934 6287 7877.516 1935 12769 7898.641 1936 3214 7688.078 1937 11036 7266.953 1938 0* 7113.453 1939 3407 8067.695 1940 14636 10079.430 1941 15353 11468.420 1942 9363 11705.430 1943 16589 11499.610 1944 6459 11200.250 1945 12354 11404.160 1946 9590 13228.000 1947 22480 15993.560 1948 17493 17392.660 1949 17675 17448.320 1950 21604 16792.660 1951 14132 15206.620 1952 11140 13398.150 1953 13369 11629.200 1954 9428 9428.000

* Valor faltante

Page 134: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

125  

Figura 7.12 Captura de atunes en Marruecos (1927 a 1954)

Figura 7.13 Captura suavizada por 4253EH,doble

040

0080

0012

000

1600

020

000

2400

0N

úme

ro d

e pe

ces

1925 1931 1937 1943 1949 1955Tiempo (años)

040

0080

0012

000

1600

020

000

2400

0N

úme

ro d

e pe

ces

suav

izad

o

1925 1931 1937 1943 1949 1955Tiempo (años)

Page 135: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

126  

7.9 Diagnóstico de la No-estacionaridad En una secuencia de datos a veces ocurre que la variabilidad de cada punto respecto al ajuste no es la misma. Lo anterior se presenta de manera común cuando los datos mayores muestran una variabilidad elevada respecto a los menores.

Cuando se tiene lo anterior se dice que la varianza no es estacionaria y se puede comparar con la heteroscedasticidad en la regresión (Velleman, 1982). En la Figura 7.14 se muestra una secuencia no-estacionaria (tomada de Wallonick, 1987) en la que puede observarse un incremento en la dimensión de las oscilaciones al incrementarse el intervalo del número de individuos (la variabilidad en intervalos de baja magnitud es menor que aquella a magnitudes altas).

Para descubrir formalmente si la varianza no es estacionaria se utiliza el ya mencionado gráfico de dispersión contra nivel, en donde la dispersión se refiere a las desviaciones respecto a los valores suavizados (rugosidades) y el nivel viene dado por el ajuste, o sea, los valores suavizados.

Recordando el fundamento del gráfico de la dispersión contra el nivel se tiene:

dispersión = c N b

donde N = nivel (medida de localización); c y b son constantes. Por lo tanto:

log (dispersión) = b log (nivel) + log (c) si k = log (c) = constante, entonces:

log (dispersión) = b log (nivel) + k

Cuando b es igual a cero, entonces el logaritmo de la dispersión es igual a un valor constante y se tiene que la variabilidad es homogénea. Si el valor de la pendiente (b) es diferente de cero existe una relación entre la dispersión y el nivel. Cuando esto ocurre es posible estabilizar la variabilidad por la re-expresión (transformación) de los datos mediante alguna de las potencias incluidas en la "escala de potencias de Tukey" (Tukey, 1977).

Page 136: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

127  

Figura 7.14 Secuencia no estacionaria

Una manera de indicar esta escala es la siguiente:

                   0log                 0 

               0

En donde y es la variable, T indica la transformación y p es la potencia de la re-expresión (Emerson y Stoto, 1983), la cual está relacionada con la pendiente b del gráfico dispersión-nivel en la forma:

p = 1 - b

En una secuencia de datos, cualquier suavizador se comporta en cada punto como un estimador del nivel y el valor absoluto de las rugosidades representa una medida de la dispersión. Por lo tanto, para diagnosticar la no estacionaridad se grafica el logaritmo del valor absoluto de las rugosidades –log (dispersión) – contra el logaritmo de los valores suavizados – log (nivel). Si en la secuencia rugosa existen valores iguales a cero, Velleman (1982) recomienda la adición de un valor constante a todos los valores absolutos de las rugosidades, por ejemplo 1/6.

100

205

310

415

520

625

No

. de

pas

ajer

os a

ére

os

1 12 23 34 45 56 67 78 89 100 111 122 133 144No. de meses consecutivos

Page 137: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

128  

En el caso de que exista una relación lineal con pendiente igual a b, entonces se sugiere una re-expresión por medio de la potencia p = 1 - b para hacer estacionaria la varianza de la secuencia. Debido a la resistencia de los suavizadores es de esperar que en las rugosidades existan casos extraordinarios. Esto implica que para encontrar la pendiente del gráfico dispersión-nivel es recomendable utilizar un método de ajuste lineal resistente o algún otro procedimiento que reduzca la influencia de casos extraordinarios.

El gráfico de diagnóstico de no-estacionaridad ──logaritmo de valores absolutos de rugosos (dispersión) y el logaritmo de valores suaves (nivel) se presenta en la Figura 7.15 el cual indica una relación de incremento de la dispersión con el nivel. La línea resistente ajustada a estos datos (con Minitab) proporcionó una pendiente aproximadamente igual a 1.4, por lo que se recomienda una potencia de 1 - 1.4 = -0.4, es decir una transformación intermedia entre el recíproco negativo de la raíz cuarta y la raíz cuadrada.

Figura 7.15 Gráfico de dispersión nivel

Se probó la primera opción y los valores re-expresados se grafican en la Figura 7.16. Puede notarse una notable mejoría en el comportamiento oscilatorio en el cual las variaciones a todos los intervalos de magnitud de la variable transformada son equivalentes de manera aproximada. Este comportamiento indica que la secuencia se ha vuelto estacionaria y definitivamente su manipulación matemática analítica (por los métodos

-1-.

50

.51

1.5

2Lo

g de

l ab

solu

to d

e r

ugos

os (

disp

ersi

ón)

2 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8Log de valores suavizados (nivel)

Page 138: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

129  

exploratorios y/ó tradicionales) es mucho más sencilla que la presentada por los datos originales.

Figura 7.16 Gráfico de valores re-expresados 7.10 Comentario final La suavización es un procedimiento muy útil y con varias aplicaciones. Las funciones de suavización pueden servir para (Queen y Keough, 2006):

- Describir gráficamente una relación entre dos variables cuantitativas sin tener que establecer a priori un modelo específico.

- Diagnosticar si un modelo lineal es apropiado en cuyo caso contrario sugerir un modelo no lineal.

- Modelar y predecir el comportamiento numérico en modelos aditivos generalizados

-.32

-.3

-.28

-.26

-.24

-.22

-.2

Inve

rso

neg

ativ

o de

ra

íz c

uar

ta

1 12 23 34 45 56 67 78 89 100 111 122 133 144No. de meses consecutivos

Page 139: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

131  

Capítulo 8. Tablas codificadas En los capítulos anteriores se han revisado datos univariados y bivariados. En el capítulo 6 se presentó un procedimiento alternativo para el ajuste de un patrón lineal a dos variables cuantitativas. Posteriormente se presentaron diferentes procedimientos para encontrar tendencias en datos ordenados temporal o espacialmente. En ocasiones los valores numéricos pueden disponerse de acuerdo a diferentes criterios de clasificación. De esta manera es posible buscar patrones de acuerdo a los grupos definidos por dichas variables, las cuales por lo general son de naturaleza cualitativa (nominales u ordinales). Cuando tal es el caso, los datos representan el número (frecuencia) de veces que se presenta cada una de las categorías o clases de cada variable. Estas ocurrencias pueden expresarse en forma relativa en tablas de proporciones o porcentajes. Si se especifica el número de ocurrencias de cada categoría para una sola variable se tiene una tabla de frecuencia univariada (en donde se toma en cuenta un sólo "factor", "criterio" ó "vía" de "clasificación"). Las variables (cada una con clases propias) pueden ser dos o más. En el caso de considerar dos variables se puede hablar de una tabla de frecuencia bivariada (o tabla de "dos factores", "dos criterios" ó de "dos vías de clasificación"). Dentro de éstas últimas existe otro tipo de tabla en las cual se representan los valores de una tercer variable (cuantitativa y distinta) en relación a las que definen a los dos grupos (criterios de clasificación). Estas son diferentes a las tablas que contienen frecuencias absolutas o relativas (Marsh, 1988) y su tratamiento estadístico se lleva a cabo por medio de procedimientos apropiados y distintos a los de la bondad ("maldad" según Hamilton, 1990) de ajuste. Tanto las tablas de frecuencias como las de tres variables permiten explorar y encontrar su relación.

En el presente capítulo se revisará un procedimiento exploratorio que facilita la detección de tendencias ó patrones contenidos en tablas de dos vías. En estas tablas cada uno de los valores está relacionado simultáneamente a dos factores. Por ejemplo, la Tabla 8.1 muestra los porcentajes de diferentes tipos de ácidos grasos en cuatro especies de peces (dos dulceacuícolas y dos marinos) reportados por Ackman en 1967 (citados por Benítez, 1989).

El aceite de pescado contiene una gran variedad de ácidos grasos en comparación con otros aceites y grasas. Este aceite está compuesto por fracciones importantes de ácidos grasos altamente poli-insaturados de cadena larga de carbono (20 o 22 átomos de carbono) a diferencia de la mayoría de aceites vegetales que contienen cantidades mínimas. En acuicultura es necesario conocer los requerimientos de lípidos en las diferentes especies cultivadas, y para ello se utilizan los datos obtenidos del análisis de la composición de ácidos grasos contenidos en el aceite extraído de los peces. Entre los factores que afectan la composición de ácidos grasos en los peces

Page 140: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

132  

pueden citarse a la salinidad, temperatura y la dieta. El caso extremo ocurre cuando se comparan peces de agua dulce con los de mar (Benítez, 1989). Tabla 8.1 Distribución de ácidos grasos en lípidos de varios peces Tipo de ácido graso

Especie de pez Dulceacuícolas Marinos sp. 1 (1)

sp. 2 (2)

sp. 3 (3)

sp.4 (4)

(1) I 38.1 36.7 25.7 23.5 (2) II 37.3 27.0 27.1 27.6 (3) III 7.7 12.2 21.8 13.0 (4) IV 2.3 6.4 18.9 25.5

Grupo I.- Ácidos grasos con cadenas de 14 y 16 carbonos (cortas). Grupo II.- Ácidos grados con cadena de 18 carbonos (corta). Grupo III.- Ácidos grasos con cadena de 20 carbonos (larga). Grupo IV.- Ácidos grasos con cadena de 22 carbonos (larga). Especie 1.- “Sheepshead” (Archosargus probatocephalus) Especie 2.- “Alewife” (Alosa pseudoharengus) Especie 3.- Bacalao del Atlántico (Gadus morhua) Especie 4.- Salmón Chinook (Oncorhynchus tshawytscha)

Para explorar la influencia de la salinidad sobre la composición de ácidos grasos, las especies (de agua dulce y marina) se han dispuesto en las columnas y los diferentes grupos de ácidos grasos en las filas. Cada uno de los valores numéricos contenidos puede identificarse por medio de la columna (especie de pez) y renglón (tipo de ácido graso) al que pertenece. Pueden utilizarse subíndices que correspondan al número de columna. De esta forma el bacalao (pez marino situado en la columna tres) contiene un 27.1 % de ácidos grasos de 18 carbonos (fila tres). Por tanto, al buscar tendencias o patrones en este tipo de tablas se deben considerar los factores de agrupamiento (columnas y filas) así como los valores numéricos que les corresponden. Si las columnas presentan un orden natural se puede buscar alguna tendencia a lo largo del mismo. En la Tabla 8.1 las filas presentan un orden natural (el número de átomos de carbono se incrementa hacia abajo) a diferencia de las columnas (se pueden colocar las especies en cualquier orden, aunque para fines interpretativos es conveniente colocar juntas a las especies marinas y dulceacuícolas). Consecuentemente, resulta apropiado buscar tendencias globales a lo largo de las filas y columnas (los ácidos grasos de cadena corta son más abundantes en peces de agua dulce que en los marinos; los ácidos grasos de cadena larga constituyen una buena parte de los lípidos de peces marinos pero tan sólo una pequeña fracción en los dulceacuícolas), ó tendencias por columnas o renglones (para la especie uno la tendencia dulceacuícola es particularmente marcada).

Page 141: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

133  

Como en cada uno de los métodos exploratorios, se busca la existencia de casos extraordinarios. En la Tabla 8.1 el valor correspondiente a los ácidos grasos de cadena larga (fila 4) de la especie 1 (columna 1) es particularmente bajo respecto a los demás. 8.1 Desplegado de Tablas Como se ha comentado anteriormente, el examen de una gran cantidad de valores numéricos puede resultar difícil y tediosa. En las tablas esto puede ser un factor importante que interviene en su interpretación. A veces es posible discernir las tendencias, pero con filas y columnas numerosas la situación se complica. Para facilitar el reconocimiento de patrones Velleman y Hoaglin (1981) sugieren el uso de un código que simplifica el comportamiento numérico y conserva el arreglo tabular, técnica exploratoria que denominan tablas codificadas.

El comportamiento de los valores se resume por una serie de símbolos de un sólo carácter que se coloca en lugar del dato original. Dicho código se basa en las medidas resistentes de nivel, localización y dispersión que definen a los diagramas de caja (capítulos 2 y 3). Los criterios utilizados se especifican de la siguiente manera:

a) Valores dentro del 50% central, es decir entre el cuarto superior y el inferior (representados por un punto, ●·)

b) Valores situados arriba o abajo de los cuartos pero dentro de las cotas internas (representados por los signos + y - respectivamente).

c) Valores fuera de las cotas internas pero sin igualarse a las cotas externas (codificados por los signos #, equivalente a un signo + "doble", o un signo =, interpretado como un signo - "doble").

d) Valores mas allá de las cotas externas (codificados por las letras P de la palabra inglesa Plus, ó M de Menos).

La categoría c) caracteriza a los casos extraordinarios moderados, mientras que en la d) se incluyen a los casos extraordinarios marcados o severos. La Tabla 8.2 muestra la codificación de la Tabla 8.1. Pueden notarse ahora los patrones de manera más clara y ver que la tendencia a la disminución de abundancia de ácidos grasos de cadena larga en peces dulceacuícolas se marca mejor que la tendencia al aumento de los mismos ácidos grasos en peces marinos. Asimismo, es claro que no existen casos extraordinarios.

Page 142: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

134  

Tabla 8.1 Distribución de ácidos grasos en lípidos de varios peces Tipo de ácido graso

Especie de pez Dulceacuícolas Marinos sp. 1 (1)

sp. 2 (2)

sp. 3 (3)

sp.4 (4)

(1) I + + ● ● (2) II + ● ● + (3) III - - ● ● (4) IV - - ● ●

8.2 Recomendaciones para el Uso de Tablas Codificadas Mientras las tablas tengan un tamaño moderado pueden realizarse a mano por medio del cálculo de los cuartos y las cotas internas y externas. Estos valores pueden obtenerse de un resumen de letras. Para las tablas con numerosas filas y columnas es recomendable el uso de las computadoras.

La codificación de tablas grandes trae consigo varias ventajas: en primer lugar representa una forma efectiva de condensación ya que en lugar de los cinco ó seis espacios utilizados para escribir a los números se emplea sólo uno (ó dos si los símbolos se separan por un espacio en blanco). En segundo término, si las filas y columnas están ordenadas y espaciadas uniformemente, las tablas codificadas sirven como un bosquejo de un gráfico de contorno. Hay que señalar que los códigos se han escogido de tal forma que los símbolos más obscuros (en una impresión en blanco y negro) representan valores alejados de la tendencia central, lo que facilita la interpretación (Velleman y Hoaglin, 1981).

Las tablas con réplicas de valores en cada categoría de clasificación pueden analizarse de manera más sencilla por medio de su codificación y del empleo de computadoras. La Tabla 8.3 contiene el consumo de oxígeno de dos especies de lapas bajo tres concentraciones diferentes de agua marina. Para cada especie se hicieron mediciones en ocho individuos (Sokal y Rohlf, 1981).

En este caso existen ocho posibilidades para representar los valores contenidos en cada combinación de especie-tratamiento. Dos tablas codificadas son de utilidad para analizar estos datos. La primera utiliza el valor más bajo de cada grupo y la segunda usa el valor más alto. En ambas tablas se determinan los cuartos y cotas considerando el número total de datos (8 * 2 * 3 = 48) aunque sólo se codifican 6 números. La Tabla 8.4 muestra el resultado de estas dos codificaciones. La tabla de valores máximos

Page 143: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

135  

muestra la predominancia de valores mayores a los cuartos; las dos tablas no indican la existencia de casos extraordinarios.

Tabla 8.3 Consumo de oxígeno bajo tres concentraciones de agua marina en dos especies de lapas

Concentración de agua marina (porcentaje)

Especies Acmaea scabra (1) Acmaea digitalis (2)

50 9.74 14.50 50 11.80 12.30 50 18.80 13.40 50 11.10 17.70 50 9.74 6.38 50 14.60 10.20 50 11.10 9.63 50 10.50 14.50 75 6.37 11.80 75 7.18 9.90 75 7.18 5.75 75 10.40 5.44 75 5.20 9.99 75 8.39 6.49 75 5.20 4.47 75 13.20 4.95 100 8.93 5.49 100 9.66 5.80 100 13.60 10.40 100 16.10 11.60 100 6.78 10.00 100 14.00 3.86 100 7.16 6.14 100 8.26 6.14

Un tercer uso se da en combinación con el procedimiento que se presenta en el capítulo siguiente, el pulido de mediana. Al codificar y representar en una tabla los residuos del ajuste y examinarlos en búsqueda de patrones o tendencias. Como en otros métodos exploratorios la existencia de comportamientos sistemáticos en los residuos da idea de lo adecuado del ajuste y da pautas para la modificación de los datos originales y la consideración de escalas alternativas (re-expresión). Para el análisis de los residuos se utilizan los valores absolutos mayores (el valor más alto independientemente de su signo). Asimismo, y debido a la resistencia del pulido de mediana este análisis de residuos por la tabla codificada permite la detección de casos extraordinarios.

Page 144: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

136  

Tabla 8.4 Codificación de los valores de la Tabla 8.3 Concentración de agua marina (porcentaje)

Especies Valor mínimo Valor máximo (1) (2) (3) (4)

50 ● ● + + 75 - - + ● 100 ● - + +

Para el análisis de datos tabulares es muy útil el empleo de computadoras. Por esto resulta conveniente aclarar la forma como se introducen los valores numéricos. Por lo general, los diversos programas requieren que los valores que constituyen a las tablas se agrupen por medio de valores auxiliares que indican a las diferentes categorías. Para una tabla de dos vías se requieren tres arreglos: uno que contenga los valores de la variable, otro que indique a las filas y otro tercero con la indicación de las columnas. De esta manera, la tabla siguiente (tomada de Velleman y Hoaglin, 1981):

10 20 30 40

se introduciría en un programa de cómputo como:

Dato Fila Columna 10 1 1 20 1 2 30 2 1 40 2 2

En este arreglo la columna "Dato" contiene los valores numéricos a considerar; la columna "Fila" contiene el número de la fila y la columna "Columna" contiene el número correspondiente de columna. Como Velleman y Hoaglin (1981) puntualizan, esta forma de especificar a los datos de las tablas quizás ocupe un espacio mayor, sin embargo, posee ciertas ventajas. Por ejemplo, si en la tabla existen valores faltantes es fácil su acomodo, ya que la combinación de fila y columna correspondiente nunca se introduce. Los valores múltiples quedan definidos por la repetición de los números de fila y columna.

Page 145: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

137  

8.3 Tablas Codificadas y Diagramas de Caja Los diagramas de caja y las tablas codificadas poseen el mismo fundamento al derivarse de los resúmenes de letras. Ambos despliegan tendencias globales y permiten la identificación de casos extraordinarios. Como se ha señalado, las tablas codificadas son un medio que permite encontrar patrones bidimensionales. Cuando se requiere analizar las tendencias por filas o columnas en forma independiente, los diagramas de caja resultan más convenientes (Velleman y Hoaglin, 1981).

La Tabla 8.5 muestra la captura total (toneladas en peso vivo) por regiones de México durante el período de 1975 a 1987 (Anuario Estadístico de Pesca 1987). La versión codificada se presenta en la Tabla 8.6. Tabla 8.5 Captura total de peces por regiones de México durante el periodo de 1975 a 1987 (toneladas de peso vivo) 1975 1976 1977 1978 1979 1980 1981 (1) (2) (3) (4) (5) (6) (7) I 378777 465185 504109 566827 734316 954568 1109311 II 34944 33981 33062 66288 72438 75440 146163 III 121103 128217 135453 179143 189707 222330 290377 IV 205 305 428 1194 1837 4641 7687 V 756 899 818 5059 4627 5169 11927 1982 1983 1984 1985 1986 1987 (8) (9) (10) (11) (12) (13) I 933052 681170 664972 836661 926127 995409 II 127675 79384 102102 88735 113568 122610 III 282835 293293 342243 300349 283388 303161 IV 6788 6805 7239 7637 8418 11019 V 5955 14895 18036 22506 25499 32642 Las claves de las regiones se especifican en el Cuadro 3.2

La tabla codificada muestra algunas tendencias claras: la región I destaca por sus elevados valores de captura, entre los que se incluyen un buen número de casos extraordinarios moderados. En los últimos años la región III alcanza también valores altos. La región II se caracteriza por una captura que ha permanecido estable en el período considerado. Por otra parte puede observarse que en general, a través de los años, la captura se ha incrementado en todas las regiones. No obstante, dicho incremento parece ser variable en casi todas las regiones.

Page 146: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

138  

Tabla 8.6 Codificación de los datos de la Tabla 8.5 75 76 77 78 79 80 81 82 83 84 85 86 87 I + +  + +  # # # # + + #  #  #II ●  ●  ● ●  ● ● ● ● ● ● ●  ●  ●III ●  ●  ● ●  ● ● ● ● ● + +  ● + IV - -  -  -  - - ● - - - ●  ●  ●V -  -  -  -  - - ● - ● ● ●  ●  ●

Para observar con mejor detalle las tendencias anuales es necesario considerar a los valores anuales en conjunto. La forma de realizar esto es por medio de diagramas de caja de la captura por año. En la Figura 8.1 puede apreciarse que el incremento en la capturas se dió de manera general hasta 1981; durante 1982 y 1983 se registró una baja en los valores típicos de captura, para incrementarse de nuevo en los años siguientes. La tendencia citada se observa en las medianas, en los cuartos superiores, y aún en los casos extraordinarios. Por medio de los diagramas de caja se pueden apreciar estas variaciones anuales con un mejor detalle. La marcada asimetría de las cajas nos sugiere la re-expresión de los datos por medio de alguna de las potencias de la escala de Tukey.

La forma en la cual se introducen las tablas en la computadora facilita la utilización de los diagramas de caja, ya que los números de agrupamiento de filas y columnas se especifican desde el principio. Para realizar los diagramas de caja en paralelo tan sólo basta indicar que valores de grupo (filas o columnas) son los que se utilizan. Un examen más detallado podría realizarse mediante la suavización de la captura de cada región. Una forma adicional de analizar este tipo de tablas se da en el capítulo siguiente. 8.4 Detalles y Alternativas Podría pensarse que el empleo de computadores con tarjetas de gráficos y monitores de color mejore significativamente la interpretación de las tablas codificadas. Con estos dispositivos es posible representar a cada símbolo con un color diferente que permita destacarlo de los demás. Sin embargo, varios estudios (Miller, 1956) indican que existe una limitación en la percepción humana para interpretar códigos. Siete parece ser un número confortable de interpretación (Velleman y Hoaglin, 1981).

Los dispositivos de salida actuales permiten que el orden y espaciado uniforme de filas y columnas se represente adecuadamente. Una fuente de esta separación puede identificarse por los efectos de fila y columna

Page 147: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

139  

determinados por el pulido de mediana de la tabla (Velleman y Hoaglin, 1981), tema que se presenta en el capítulo siguiente.

Figura 7.1 Diagramas de caja y bigotes para captura anual en México

020

000

040

000

060

000

080

000

01.

0e+

061.

2e+

06C

aptu

ra e

n pe

so v

ivo

(ton

ela

das)

1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987

Page 148: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

141  

Capítulo 9. Pulido de Mediana Como se mencionó anteriormente, en este capítulo se presentará un método para analizar tablas de dos vías, en las cuales, como se indicó al describir las tablas codificadas, los factores poseen varios niveles independientes (categorías) y cada combinación de filas y columnas contiene el valor de una tercera variable (llamada de respuesta). Así, por ejemplo, la temperatura del agua de una presa ó lago puede variar respecto a la profundidad y el tiempo o bien la tasa de supervivencia de una especie de pez depende de la edad de los peces y el año considerado. El análisis tradicional de este tipo de tablas se realiza mediante el uso de medias, por lo que, en ocasiones, cuando existen casos extraordinarios, estas medidas de centralización no representan adecuadamente a los datos. Para fines exploratorios resulta conveniente el tener procedimientos que no sean influenciados por unos cuantos valores muy diferentes a los demás. En vez de la media se puede utilizar a la mediana para resumir dependencias aditivas de la variable de respuesta respecto a los factores de acuerdo a la llamada ecuación DAR (Datos = Ajuste + Residuos). El ajuste de medianas a una tabla de dos vías con tres variables es otro de los procedimientos exploratorios que requiere iteración para llegar al resultado final. Los residuos de tal ajuste permiten identificar casos extraordinarios y desviaciones de la estructura aditiva (si presentan un comportamiento sistemático). 9.1 Tablas de Dos-Vías con Tres Variables Una tabla de dos-vías con tres variables es un conjunto de datos en el cual las observaciones se escriben:

yij i = 1,...,I ;j = 1,...,J ;................(1) en un arreglo rectangular, como el mostrado en la Tabla 9.1 que reproduce a la tabla 8.1 del capítulo anterior. Esta estructura de datos involucra tres variables: un factor de fila, el cual tiene I niveles o categorías; un factor de columna, el cual posee J niveles; y una variable de respuesta y, de la cual tenemos I * J observaciones, una para cada combinación de fila y columna. La intersección de una fila y una columna se denomina celda. Las tablas pueden tener un valor único por celda o varios valores en cada celda. Como se ha descrito anteriormente las variables que definen los factores son de naturaleza cualititiva (categóricas nominales u ordinales), mientras que la variable de respuesta es cuantitativa (continua o discreta) (Emerson y Hoaglin, 1983c). Superficialmente este tipo de tablas es semejante a las tablas bivariadas de

Page 149: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

142  

clasificación cruzada que contienen frecuencias, sin embargo, estos dos tipos de tablas son diferentes y deben tratarse por métodos propios (Marsh, 1988).

En el ejemplo de la Tabla 9.1 el tipo de ácido graso representa el factor de fila con cuatro niveles (I = 4), y la especie del pez viene a ser el factor de columna también con cuatro niveles (J = 4). La cantidad de ácidos grasos es la variable de respuesta, yij . La variable de fila representa conjuntos de ácidos grasos agrupados de acuerdo al número de átomos de carbono mientras que la variable "especie" claramente es una variable nominal. Tabla 9.1 Distribución de ácidos grasos en lípidos de varios peces (datos descritos en la Tabla 8.1) Tipo de ácido graso

Especie de pez Dulceacuícolas Marinos sp. 1 (1)

sp. 2 (2)

sp. 3 (3)

sp.4 (4)

(1) I 38.1 36.7 25.7 23.5 (2) II 37.3 27.0 27.1 27.6 (3) III 7.7 12.2 21.8 13.0 (4) IV 2.3 6.4 18.9 25.5

Grupo I.- Ácidos grasos con cadenas de 14 y 16 carbonos. Grupo II.- Ácidos grasos con cadena de 18 carbonos. Grupo III.- Ácidos grasos con cadena de 20 carbonos. Grupo IV.- Ácidos grasos con cadena de 22 carbonos. Especie 1.- "Sheepshead" (Archosargus probatocephalus) Especie 2.- "Alewife" (Alosa pseudoharengus). Especie 3.- Bacalao del Atlántico (Gadus morhua) Especie 4.- Salmón chinook (Oncorhynchus tshawytscha)

Es posible tratar de describir el efecto de las filas y de las columnas en los valores numéricos examinando los valores numéricos de la tabla, o bien, mediante el análisis de los símbolos de una tabla codificada. No obstante, existen procedimientos estadísticos apropiados para descubrir estos efectos. Todos ellos descomponen los valores en varias partes relacionadas de diferentes maneras, de las cuales, la relación más sencilla es aditiva.

Page 150: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

143  

9.2 Modelo Aditivo para Tablas de Dos Vías (tres variables) En un modelo aditivo para este tipo de tablas se considera un elemento típico global que se denomina "valor común" al cual se suman valores debidos a las filas y a las columnas; finalmente existe un elemento que contiene fracciones inexplicadas por los valores anteriores (residuos). Este ajuste puede representarse por medio de la ecuación DAR:

Datos = Valor común + efecto filai + efecto columnaj + residuoij ó de forma abreviada:

Datos = m + ai + bj + eij ………….....................(2) En donde el

Ajuste = Valor común + efecto filai + efecto columnaj. En la nomenclatura estadística tradicional estos valores se representan de la siguiente manera:

yij = µ + αi + ßj + eij .....................................(3) En este modelo, µ es el valor común, αi es el efecto de fila y ßj representa los efectos de cada columna; eij representa el "error residual", es decir, las desviaciones (teóricamente aleatorias) del modelo aditivo.

Existen varios procedimientos para encontrar los elementos aditivos especificados en las expresiones anteriores. Algunos involucran el uso de medias para encontrar el término común. A continuación se explicará un método iterativo resistente basado en el uso de medianas. De esta forma, observaciones aisladas en algunas celdas no afectarán la estimación del valor común, los efectos de fila, los de columna y como consecuencia, esto se reflejará en los residuos (Emerson y Hoaglin, 1983c).

Page 151: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

144  

9.3 Pulido de Mediana El pulido de la mediana permite estimar los elementos del modelo aditivo a través de un proceso iterativo. A continuación se presentan los pasos a seguir (de acuerdo a Marsh, 1988). En primer lugar se determinan las medianas de cada fila. De esta forma y al aplicar a los datos de la tabla 9.1 se obtienen 4 medianas. En seguida estas medianas ajustadas se restan entonces a cada uno de los valores de cada fila. La tabla inferior representa los pasos anteriores y los dispone de acuerdo a la ecuación DAR: Datos = Ajuste + Residuos 38.1 36.7 25.7 23.5 31.20 +6.90 +5.50 -5.50 -7.70 37.3 27.0 27.1 27.6 27.35 +9.95 -0.35 -0.20 +0.25 7.7 12.2 21.8 13.0 12.60 -4.90 -0.40 +9.20 +0.40 2.3 6.4 18.9 25.5 12.65 -10.00 -6.25 +6.25 +12.85

La tabla de residuos muestra la variación asociada con las especies; se puede apreciar que los peces de agua dulce tienden a tener mayor cantidad de ácidos grasos de bajo número de carbono y que los marinos contienen mayor proporción de los de alto número.

El siguiente paso es calcular las medianas de las columnas del ajuste y de los residuos y restarlas de dichos valores para obtener nuevos residuos. De esta manera se obtiene la tabla de la página siguiente, la cual en adición a las partes de la tabla anterior contiene las medianas de cada columna y sus correspondientes residuos. A la hora de obtener los residuos hay que tener cuidado con los signos (Marsh, 1988).

En este punto es conveniente hacer una interpretación preliminar de los resultados después del primer ciclo iterativo: se ha obtenido el ajuste global igual a 20; los efectos de fila (con una tendencia a la disminución al aumentar el número de carbonos); los efectos de columna (que muestran un patrón poco definido de valores bajos para los peces dulceacuícolas y relativamente altos para los marinos) y una tabla de residuos.

Primer Ciclo +38.1 +36.7 +25.7 +23.5 +31.20 +6.90 +5.50 -5.50 -7.70 +37.3 +27.0 +27.1 +27.6 +27.35 +9.95 -0.35 -0.20 +0.25 +7.7 +12.2 +21.8 +13.0 +12.60 -4.90 -0.40 +9.20 +0.40 +2.3 +6.4 +18.9 +25.5 +12.65 -10.00 -6.25 +6.25 +12.85

+20.00 +1.00 -0.375 +3.00 +0.325 +11.20 +5.90 +5.875 -8.50 -8.025

+7.35 +8.95 +0.025 -3.20 -0.075 -7.40 -5.90 -0.025 +6.20 +0.075 -7.35 -11.00 -5.875 +3.25 +12.525

Page 152: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

145  

El primer ciclo no es sino la primera etapa del ajuste. Como en el caso

de la recta resistente estos valores preliminares requieren de un ajuste adicional. Este proceso se denomina "pulido", de donde el método toma su nombre y consiste en ajustar los valores de las medianas residuales para estimar los efectos de fila y columna. Esta operación es el segundo ciclo y se procede a partir de la tabla de residuos que resulta del primero.

Segundo Ciclo +6.9750 +6.9500 -7.4250 -6.9500 -1.0750 +5.90 +5.875 -8.50 -8.0250 +8.9750 +0.0500 -3.2250 -0.0500 -0.0250 +8.95 +0.025 -3.25 -0.0750 -5.9250 -0.0500 +6.1750 +0.0500 +0.0250 -5.90 -0.020 +6.20 +0.0750

-10.0375 -4.5625 +4.5625 +13.8375 -1.3125 -11.35 -5.870 +3.25 +12.525 +0.5250 0.0000 0.6687 0.0000 -0.5500 +6.4500 +6.9500 -8.0930 -6.9500 -0.5250 +8.4500 +0.0500 -3.8930 -0.0500 +0.5250 -6.4500 -0.0500 +5.5062 +0.0500 +0.5750

-10.5625 -4.5625 +3.8937 +13.8375 -0.7625

En la tabla anterior se han incluido los resultados de esta operación que se realiza de izquierda a derecha para distinguirla de la anterior. Primeramente se determinan las medianas de fila, se restan de cada uno de los valores de la tabla residual y el resultado se escribe a la izquierda. Posteriormente se determinan las medianas de las columnas de la tabla nueva de residuos y de la columna de medianas. Como parte final y para completar este segundo ciclo se resta estas medianas a los valores de la tabla y columna de la cual provienen.

El pulido de la mediana puede generar un gran número de residuos iguales a cero especialmente cuando el número de filas y/o columnas es impar. Los valores que aparecen en la fila y columna de medianas así como el valor común, representan valores de ajuste para los anteriormente determinados. En principio, podríamos repetir esta sustracción de medianas hasta que todas las filas y columnas tuvieran medianas igual a cero. Esto significa que, habiendo empezado con las filas y luego pulido las columnas, es necesario verificar las filas y pulir de nuevo cualquiera que tuviera una mediana diferente de cero (Emerson y Hoaglin, 1983c).

La Figura 9.1 explica gráficamente las operaciones realizadas hasta este punto.

Page 153: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

146  

Primer Ciclo

1

2

MF1

3

(1 – 2)

5 (MC2)

4 (MC3)

7

(2 – 5)

6

(3 – 4)

Segundo Ciclo 9

(6 – 8)

8

(MF6)

6

(Otra vez)

10 (MC9)

11 (MC8)

12

(9 – 10)

13

(8 – 11)

Resultado

Ajuste global 5 + 11

Efectos de columna

4 + 10

Efectos de fila

7 + 13

Residuos

12

MF = Medianas de fila MC = Medianas de columna

Figura 9.1 Versión esquemática del pulido de mediana (Adaptada de Marsh, 1988)

Como lo indica la figura 9.1, el resultado final se obtiene mediante la suma del ajuste y los efectos obtenidos en el segundo ciclo a los del primero. Los residuos finales son los calculados al final del segundo ciclo.

Page 154: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

147  

Se sugiere que el pulido se repita tantas veces como sea necesario para

que los efectos de fila y columna se encuentren cerca de cero (aproximados a 0.5 de cero). Por lo general, rara vez se requiere un número mayor de dos iteraciones. Este procedimiento es otro ejemplo de la utilidad de las computadoras para efectuar las operaciones de métodos exploratorios iterativos (los otros son la recta resistente y la suavización no lineal resistente). Tabla 9.2 Pulido de mediana de los datos de la Tabla 9.1 (después de dos ciclos) Tipo de ácido graso

Especie de pez Dulceacuícolas Marinos sp1 (1)

sp 2 (2)

sp 3 (3)

sp 4 (4)

19.45 1.525 -0.375 3.66875 0.325 (1) I 10.675 +6.4500 +6.9500 -8.09370 -6.9500 (2) II 7.875 +8.4500 +0.0500 -3.89470 -0.0500 (3) III -6.825 -6.4500 -0.0500 +5.50625 +0.0500 (4) IV -8.1125 -10.5625 -4.5625 +3.89375 +13.8375

El resultado final después de los dos ciclos se muestra en la Tabla 9.2. Se pueden apreciar algunos cambios respecto a los efectos y ajuste del primer ciclo. Ahora bien ¿qué significan los valores de esta tabla? El término común es un valor de referencia que permite la cuantificación y variación de los efectos; este valor no tiene importancia por si mismo. Por otro lado, los valores de los efectos poseen un interés mayor.

Los efectos correspondientes al tipo de ácidos grasos exponen una tendencia clara a la disminución: el intervalo va de -8.11 hasta 10.67. Resulta evidente que en los peces, la cantidad de ácidos grasos de cadena corta predominan sobre los de cadena larga. Respecto a los efectos de la especie de pez, puede observarse que existe un patrón menos claro: bajos efectos en los peces de agua dulce y mayores en los marinos, lo que indica que la cantidad de ácidos grasos en los peces de mar tiende a ser mayor que en los dulceacuícolas. El valor de los efectos de columna sugiere un orden diferente que podría utilizarse para escribir la tabla; en un principio y dado el carácter nominal de la variable especie, no existió un orden definido para la disposición de las columnas. Al comparar los valores de los efectos resulta claro que el tipo de ácido graso es de mayor importancia que las especies de peces en la cantidad de ácidos grasos.

Para examinar las desviaciones de cada valor respecto al ajuste (es decir, los residuos) se utilizará una tabla codificada (Tabla 9.3). En esta puede

Page 155: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

148  

notarse una característica interesante no manifiesta por los efectos: los residuos de las especies dulceacuícolas (sobre todo la primera de la tabla) reflejan la tendencia de los efectos de fila; las especies marinas, por otro lado, manifiestan una tendencia contraria: poca cantidad de ácidos grasos de cadena corta y proporciones importantes de ácidos grasos de cadena larga (sobre todo en la especie 4). Se puede notar también que no existen casos extraordinarios que merezcan un examen adicional.

Como se mencionó en el capítulo anterior, el comportamiento de los valores en la tabla pueden captarse examinando los valores de la misma. Sin embargo, el ajuste del modelo aditivo permite un análisis cuantitativo de las variaciones de acuerdo a los niveles de las variables de clasificación. Tabla 9.3 Codificación de los residuos del pulido de mediana de la distribución de ácidos grasos en lípidos de varios peces Tipo de ácido graso

Especie de pez Dulceacuícolas Marinos sp. 1 (1)

sp. 2 (2)

sp. 3 (3)

sp. 4 (4)

(1) I + + - - (2) II + ● ● ● (3) III - ● ● ● (4) IV - ● ● +

Existe otra tendencia en la distribución de los residuos que merece un apartado propio para su discusión. 9.4 Residuos y aditividad Como es usual, el patrón de los residuos es indicador de lo adecuado del modelo empleado. Al utilizar medianas en lugar de medias se garantiza que valores extraordinarios no afecten al modelo aditivo. Si los residuos muestran un patrón definido, la aditividad de los elementos del modelo aditivo es cuestionable. Para entender la aditividad se considerará el siguiente ejemplo:

La tabla 9.4a) contiene valores de una variable clasificada de acuerdo a otras dos, cada una con dos niveles. En esta parte de la tabla, cuando el factor A cambia del nivel 1 al 2 mientras el factor B permanece en su nivel 1 (es decir, los cambios en la primera columna), la respuesta se incrementa en 2. De manera semejante, cuando el factor B cambia del nivel 1 al 2 y el factor A permanece fijo en el nivel 1 (cambio en la primera fila), la respuesta se incrementa por 3. Cuando los dos niveles cambian de 1 a 2, la variable de respuesta aumenta en 5, lo cual es la suma de los dos incrementos por nivel y

Page 156: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

149  

por separado. Esto se debe a que el cambio en la respuesta cuando el nivel de cualquier factor varía de 1 a 2 es el mismo para cada nivel del otro factor. En este caso los cambios en los niveles de los dos factores afectan la variable de respuesta por separado, o, en una forma aditiva (Devore y Peck, 1986). Tabla 9.4 Datos para explicar aditividad (adaptada de Devore y

Peck, 1986) a) b) Factor Factor B Factor Factor B

A 1 2 A 1 2 3 3 1 24 27 1 24 27 2 5 2 2 8 5 2 26 29 2 26 32 3 6

____________________________________________________________________________ Por otra parte, los cambios en la respuesta de la primera fila y en la primera columna de la tabla 9.4b) son 3 y 2 respectivamente, tal y como en la parte a). Sin embargo, el cambio en la respuesta cuando los niveles de ambos factores cambian simultáneamente de 1 a 2 es 8, valor mucho mayor que el sugerido por los efectos individuales de los cambios por separado. En este caso existe interacción entre los dos factores de tal forma que el efecto de cambios simultáneos no puede determinarse de los efectos individuales de los cambios por separado. Esto se debe a que el cambio al ir de la primera a la segunda columna es diferente para las dos filas, y el cambio al ir de la primera a la segunda fila es diferente para las dos columnas. De esta forma el cambio en la variable de respuesta cuando el nivel de un factor cambia depende del nivel del otro factor. Por lo tanto, la relación de los elementos no es aditiva (Devore y Peck, 1986). Tabla 9.5 Percentiles de la distribución de chi-cuadrada (Adaptados de Emerson y Hoaglin, 1983c) Grados de libertad

Nivel de significancia 0.9 0.95 0.975 0.99 0.995

3 6.25 7.81 9.35 11.34 12.84 6 10.64 12.59 14.45 16.81 18.55 9 14.68 16.92 19.02 21.67 23.59 12 18.55 21.03 23.34 26.22 28.30 15 22.31 25.00 27.49 30.58 32.80 18 25.99 28.87 31.53 34.81 37.16

Page 157: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

150  

Un ejemplo teórico hará mas claro este comportamiento. La tabla de porcentajes de la distribución de chi-cuadrada es muy conocida. Se sabe que al disminuir la probabilidad de las colas (nivel de significancia), el porcentaje del área bajo la curva de la distribución aumenta. Para un nivel de significancia fijo, un incremento en el número de grados de libertad produce un aumento en el porcentaje del área bajo la curva. La tabla de chi-cuadrada es un ejemplo de una tabla de dos vías con tres variables (Tabla 9.5)

Si estos datos se analizan mediante el pulido de mediana se obtiene la Tabla 9.6: Tabla 9.6 Pulido de mediana para los datos de la Tabla 9.5 Grados de libertad

Nivel de significancia (α) 0.90 0.95 0.975 0.99 0.995

21.18 -4.57 -2.21 0.00 2.77 4.77 3 -11.83 +1.47 +0.67 0.00 -0.78 -1.28 6 -6.73 +0.76 +0.35 0.00 -0.41 -0.67 9 -2.16 +0.23 +0.11 0.00 -0.12 -0.20

12 2.16 -0.22 -0.10 0.00 +0.11 +0.19 15 6.31 -0.61 -0.28 0.00 +0.32 +0.54 18 10.35 -0.97 -0.45 0.00 +0.51 +0.86

Las tendencias generales resultan claras en los efectos de fila y columna. Además, los residuos presentan una distribución peculiar. Las esquinas opuestas de la tabla muestran residuos del mismo signo. La esquina superior izquierda y la inferior derecha concentran residuos positivos, mientras que la inferior izquierda y la superior derecha acumulan residuos negativos.

La tabla codificada intensifica este comportamiento (Tabla 9.7) Tabla 9.7 Tabla codificada de residuos del pulido de mediana (Tabla 9.6) Grados de libertad

Nivel de significancia (α) 0.9 0.95 0.975 0.99 0.995

3 # + ● - = 6 + + ● - - 9 ● ● ● ● ● 12 ● ● ● ● ● 15 - ● ● ● + 18 - - ● + +

Page 158: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

151  

Así como la distribución curvilínea de los residuos respecto al ajuste de una línea recta marcan la necesidad de re-expresar las unidades de las variables, en el caso de las tablas de dos vías con tres variables la desviación sistemática de los residuos respecto al ajuste indican la necesidad de una transformación. El comportamiento sistemático que indica la no-aditividad es precisamente el que se muestra en las tablas anteriores y que Velleman y Hoaglin (1981) denominan de "silla de montar" por el "doblez" opuesto de las esquinas de la tabla.

Para encontrar la transformación que simplifica el comportamiento y hace lineal la relación de los componentes de la tabla se emplea un gráfico de diagnóstico. El procedimiento es semejante al descrito para la comparación de lotes de datos (gráfico dispersión-nivel del capítulo 3), para la promoción de simetría del capítulo 4, y para la detección de no-estacionaridad en secuencias de datos (capítulo 7).

El procedimiento considera los valores obtenidos del pulido de mediana: al término común (m), a los efectos de filas (ai), a los efectos de columna (bj) y a los residuos del ajuste (eij). Para cada valor de la celda se define un valor de comparación de acuerdo a la siguiente expresión:

  ……………………….....................(4) El gráfico de diagnóstico consiste en graficar los pares (vcij, eij ), uno para cada celda. En otras palabras se grafican los residuos contra los valores de comparación. Si los puntos de dicho diagrama no presentan ningún patrón ó variación sistemática, puede concluirse que los datos no se apartan de forma consistente del modelo aditivo (Velleman y Hoaglin, 1981; Emerson y Hoaglin, 1983c).

Como en los gráficos de capítulos anteriores, la pendiente de este gráfico es la guía en la elección de la transformación que promueve la aditividad en los datos de la tabla de acuerdo a la expresión p = 1 - b en donde "b" es la pendiente del gráfico y "p" es la potencia de acuerdo a la escala de Tukey (capítulos 3 y 4). Existe la posibilidad de adicionar el término b × vcij para promover la aditividad (consultar a Emerson y Hoaglin, 1983c y Emerson y Wong, 1985), sin embargo, sólo se considerará la transformación potencial.

Para el ejemplo analizado el gráfico de diagnóstico se presenta en la Figura 9.2 que confirma la no-aditividad de los datos en la tabla. El ajuste de una línea resistente (procedimiento recomendado debido a la posible existencia de casos extraordinarios) proporciona una pendiente igual a 0.44. Este valor de pendiente conduce a la transformación de los datos por raíz cuadrada.

Page 159: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

152  

Al aplicar esta sugerencia se calculó la raíz cuadrada de los datos y se

efectuó el pulido de mediana. Los resultados se muestran en la Tabla 9.8. Los residuos en la nueva escala son menores, sin embargo, aún muestran cierto patrón "asillado". No obstante, debido a la pequeña magnitud de los residuos puede concluirse que la aditividad en la tabla es mejor en la escala de raíz cuadrada respecto a los datos originales (Emerson y Hoaglin, 1983). Este ajuste permite la determinación de los valores de probabilidad de la distribución de chi-cuadrada conociendo el nivel de significancia y los grados de libertad (sin necesidad de una tabla) (consultar el trabajo de Hoaglin, 1977 en el cual se especifican las fórmulas para tal fin).

Un ejemplo menos teórico de no-aditividad en los valores de una tabla de dos vías con tres variables se presenta en la Tabla 9.9, donde se incluyen la producción asiática de crustáceos cultivados en períodos de cinco años (de 1975 a 1985) y el estimado para el año 2000 en varios países del continente asiático (Piedad-Pascual, 1989). Tabla 9.8 Pulido de mediana para la raíz cuadrada de la Tabla 9.5 Grados de libertad

Nivel de significancia (α) 0.9 0.95 0.975 0.99 0.995

4.59 -0.53 -0.25 0.00 0.30 0.50 3 -1.53 -0.03 -0.02 0.00 +0.01 +0.02 6 -0.79 -0.01 +0.00 0.00 +0.00 +0.01 9 -0.23 +0.00 +0.00 0.00 +0.00 +0.00 12 0.24 +0.01 -0.01 0.00 -0.01 -0.01 15 0.65 +0.01 -0.01 0.00 -0.01 -0.01 18 1.03 +0.01 +0.00 0.00 -0.02 -0.02

Page 160: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

153  

Figura 9.2 Gráfico de diagnóstico de no aditividad Tabla 9.9 Producción de crustáceos cultivados en Asia y producción estimada para el año 2000 en miles de toneladas (Tomados de Piedad-Pascual, 1989) Año País 1975 1980 1985 2000 Corea del Sur 0.1 0.1 0.1 5.0 Malasia 0.1 0.1 0.2 8.0 Singapur 0.0 0.0 0.3 2.0 Burma 0.2 0.3 0.7 5.0 Japón 0.9 1.6 2.1 3.0 Bangladesh 1.6 2.7 7.6 60.0 Vietnam 3.0 5.4 13.0 30.0 India 4.0 7.0 17.0 50.0 Tailandia 3.3 8.1 18.5 110.0 Filipinas 1.1 1.4 29.9 100.0 Taiwan 0.3 3.8 31.0 85.0 China 0.5 1.2 42.7 200.0 Indonesia 10.0 24.0 38.0 120.0

-1.5

-.5

.51.

5R

esid

uos

-2.6 -1.3 0 1.3 2.6Valor de comparación

Page 161: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

154  

El pulido de mediana se presenta en la Tabla 9.10. Existe una tendencia marcada al incremento de la producción con el tiempo; los valores estimados para el año 2000 resaltan por su elevada magnitud. Los países han sido ordenados de acuerdo al efecto de su producción; el efecto para Indonesia destaca con mucho como el país con mayor producción de crustáceos cultivados. Al examinar los valores numéricos de los residuos es posible distinguir valores elevados para los últimos países de la lista en el año 2000, ya sea por una extrapolación muy optimista o bien por el mayor lapso de tiempo implicado (15 años); destaca sobre todo el residuo correspondiente a China para ese año. Además, se bosqueja lo que parece un patrón de silla de montar. La tabla codificada correspondiente se incluye en la tabla 9.11 y en ella puede notarse el patrón asillado de los residuos que sugiere no-aditividad en los datos.

La Figura 9.3 incluye el gráfico de diagnóstico de no-aditividad que muestra un comportamiento sistemático. La pendiente de la recta resistente es igual a 0.97, valor que sugiere (p = 1 - b) la re-expresión logarítmica en la escala de Tukey. El pulido de mediana de los datos logarítmicos se muestra tan sólo para comprobar que la versión re-expresada se ajusta mejor al modelo aditivo mediante la versión codificada de los residuos (Tabla 9.12). Esta tabla no muestra un comportamiento sistemático marcado como el de los residuos provenientes del pulido de los datos originales.

Figura 9.3 Gráfico de diagnóstico de no-aditividad

-50

050

100

150

Res

iduo

s

-50 0 50 100Valor de comparación

Page 162: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

155  

Tabla 9.10 Pulido de mediana para los datos de producción de crustáceos cultivados en Asia Año País 1975 1980 1985 2000 8.90 -5.9 -4.1 4.1 38.9 Corea del Sur -9.10 +6.20 +4.40 -3.80 -33.70 Malasia -9.05 +6.15 +4.35 -3.75 -30.75 Singapur -9.05 +6.05 +4.25 -3.65 -36.75 Burma -8.70 +5.90 +4.20 -3.60 -34.10 Japón -7.35 +5.25 +4.15 -3.55 -37.45 Bangladesh -2.05 +0.65 -0.05 -3.35 +14.25 Vietnam 0.00 0.00 +0.60 0.00 -17.80 India 2.20 -1.20 0.00 +1.80 0.00 Tailandia 4.10 -3.80 -0.80 +1.40 +58.10 Filipinas 7.50 -9.40 -10.90 +9.40 +44.70 Taiwan 8.20 -10.90 -9.20 +9.80 +29.00 China 13.60 -16.10 -17.20 +16.10 +138.60 Indonesia 21.80 -14.80 -2.60 +3.20 +50.40 Tabla 9.11 Codificación de los residuos del pulido de mediana de la Tabla 9.9 Año País 1975 1980 1985 2000 Corea del Sur + ● ● = Malasia + ● ● = Singapur + ● ● = Burma + ● ● = Japón ● ● ● = Bangladesh ●  ● ● + Vietnam ●  ● ● - India ●  ● ● ● Tailandia ●  ● ● P Filipinas - - + + Taiwan - - + # China - - + P Indonesia - ● ● P

Page 163: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

156  

Tabla 9.12 Codificación de los residuos del pulido de mediana para los datos re-expresados (logaritmos) de la Tabla 9.9 Año País 1975 1980 1985 2000 Corea del Sur + ● = ● Malasia ● ● - + Singapur + ● ● ● Burma + ● ● ● Japón + + - = Bangladesh ●  ● ● + Vietnam ●  ● ● - India ●  ● ● - Tailandia -  ● ● ● Filipinas - - + + Taiwan = ● + ● China = = # # Indonesia ● + ● -

Page 164: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

 

157  

Capítulo 10. Un método exploratorio multidimensional Los procedimientos exploratorios no se limitan al análisis de una o dos variables; algunas técnicas permiten el estudio de un número mayor. Entre los métodos para analizar datos con tres o más variables podemos citar al diagrama de escalera, al gráfico simbólico de dispersión, (symbolic scatter plot) y al desplegado por ventanas (casement display) descritos por Chambers et al. (1983). En este capítulo tan sólo se presenta uno de estos procedimientos, el cual se describe y explica a continuación.

El diagrama de escalera es un bosquejo bidimensional de un número n de variables. Este diagrama utiliza gráficos bidimensionales para cada par posible de variables consideradas. El arreglo en forma de "escalera" está condicionado a que cualquier par de gráficas adyacentes compartan un eje común (Chambers et al., 1983; Curts et al., 1987). Se puede afirmar que el diagrama de escalera, cuyo nombre se deriva de su aspecto (Curts et al., 1987), es la versión gráfica de la mitad inferior de una matriz de correlación y por tanto viene a ser la diagonal inferior de una matriz de gráficos de dispersión. Este desplegado visual posee la ventaja de revelar patrones o tendencias de los puntos (por ejemplo, la presencia de casos extraordinarios o curvatura) que no son evidentes en los tradicionales índices de correlación (Hamilton, 1990).

En principio, el diagrama de escalera puede realizarse con cualquier número de variables; sin embargo, cuando se tienen más de 7, los gráficos pueden ser tan pequeños que pierden su utilidad. Una solución a este inconveniente es generar los gráficos por partes y después pegar las hojas individuales en la pared, el pizarrón ó la pantalla (Chambers, et al., 1983).

La utilización del Diagrama de Escalera junto con la matriz de correlación hace posible tener una vista global de la relación de los datos de las variables consideradas. Salgado-Ugarte (1990) utiliza este procedimiento exploratorio-confirmatorio para estudiar en conjunto una serie de medidas de longitud corporal y el tamaño de los otolitos del pez plano Kareius bicoloratus conocido en japonés como "Ishigarei" (Tabla 10.1 y Figuras 10.1 y 10.2).

Page 165: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

 

158  

Figura 10.1 Matriz de gráficos de dispersión para los machos del pez plano “ishigerei”

El examen de los valores numéricos de la Tabla 10.1 permite distinguir la existencia de correlaciones positivas con valores cercanos a uno. Se distingue la correlación existente entre medidas de longitud (total y estándar) y de algunas dimensiones de los otolitos con la longitud de los peces. Se puede notar también que los valores de correlación de las hembras son mayores que los valores de los machos. Sin embargo, a pesar de la información revelada por los números de la Tabla, no es posible saber si existe un patrón lineal en los valores de las variables; tampoco es posible discernir la presencia de casos extraordinarios, casos influenciales (puntos dentro de la tendencia lineal pero lejos del grupo de datos) o la ocurrencia de cúmulos de puntos a lo largo de la tendencia rectilínea.

LT

LE

RAOI

RPOI

RAOD

RPOD

150

200

250

150 200 250

150

200

250

150 200 250

1.522.53

1.5 2 2.5 3

1.5

2

2.5

3

1.5 2 2.5 3

2

3

4

2 3 41

1.5

2

1 1.5 2

Page 166: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

 

159  

Figura 10.2 Matriz de gráficos de dispersión para las hembras del pez plano “ihsigarei”

Estas características pueden distinguirse con facilidad en el diagrama de escalera. Estos gráficos pueden dibujarse en dos formas: la primera es el equivalente gráfico de la matriz completa de correlación, desplegado que se conoce como "matriz de gráficos de dispersión" (Figuras 10.1 y 10.2). La segunda se deriva de la redundancia de las diagonales inferior y superior de la matriz de correlación: se representa tan sólo la diagonal inferior, y el aspecto de esta gráfica da lugar a su nombre en español "diagrama de escalera" (Figuras 10.3 y 10.4). Como es de esperar las relaciones gráficas lineales más claramente definidas se corresponden con los valores mayores de correlación. Así, por ejemplo, tanto en machos como en hembras las medidas corporales (longitud total y longitud estándar) varían conjuntamente en forma muy cercana. Si bien la definición es menor entre las medidas restantes, resulta claro que en general existe una relación lineal entre ellas.

LT

LE

RAOI

RPOI

RAOD

RPOD

100

200

300

400

100 200 300 400

100

200

300

100 200 300

2

3

4

2 3 4

2

3

4

2 3 4

23

4

5

2 3 4 51

2

3

1 2 3

Page 167: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

 

160  

Tabla 10.1 Matriz de correlación para medidas de longitud corporal y radios de otolitos del pez plano “ishigarei” a) MACHOS LT LE RAOI RPOI RAOD RPOD LT 0.9962 0.7843 0.7871 0.8139 0.6562 LE 0.9962 0.7722 0.7874 0.8094 0.6558 RAOI 0.7843 0.7722 0.5676 0.8075 0.6118 RPOI 0.7871 0.7874 0.5676 0.7856 0.6275 RAOD 0.8139 0.8094 0.8075 0.7856 0.4105 RPOD 0.6562 0.6558 0.6118 0.6275 0.4105 b)HEMBRAS LT LE RAOI RPOI RAOD RPOD LT 0.9977 0.8980 0.9250 0.9210 0.8515 LE 0.9977 0.9010 0.9263 0.9262 0.8502 RAOI 0.8980 0.9010 0.8713 0.9358 0.8559 RPOI 0.9250 0.9263 0.8713 0.9199 0.8914 RAOD 0.9210 0.9262 0.9358 0.9199 0.7907 RPOD 0.8515 0.8502 0.8559 0.8914 0.7907 Nota: En todos los casos la significancia fue menor de 0.001 LT = Longitud total LE = Longitud estándar RAOI = Radio anterior del otolito izquierdo

RPOI = Radio posterior del otolito izquierdo

RAOD = Radio anterior del otolito derecho RPOD = Radio posterior del otolito derecho

Figura 10.3 Diagrama de escalera para medidas de los machos del pez plano “ishigarei”

LT

LE

RAOI

RPOI

RAOD

RPOD

150 250

130

224

150 210

2

3

2 3

2

3

2 3

2.5

4

2.5 41

2

Page 168: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

 

161  

Figura 10.4 Diagrama de escalera para medidas de hembras del pez plano “ishigarei”

No existe evidencia de curvatura o presencia de casos extraordinarios aunque la dispersión alrededor del patrón lineal es variable y por lo general mayor en machos. Los valores numéricos de la matriz permiten la elección de aquellos pares con la mayor correlación para su utilización en el retrocálculo de la talla a cada edad con la seguridad de que efectivamente existe una relación lineal (sin curvatura) no afectada por casos extraordinarios entre las variables elegidas. Tabla 10.2 Matriz de correlación para datos de longitud y peso corporal del “suzuki” LT LE PT LT 0.9992 0.9211 LE 0.9992 0.9267 PT 0.9211 0.9267 Nota: En todos los casos la significancia fue menor a 0.001 LT = Longitud total; LE = Longitud estándar; PT = Peso total

LT

LE

RAOI

RPOI

RAOD

RPOD

150 340

130

300

150 290

2

3.5

2 3.5

2

4

2 3.5

2.5

5

3 51

2.5

Page 169: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

 

162  

Por otra parte, la Tabla 10.2 contiene la correlación de las medidas de longitud y peso de individuos del pez "suzuki" (Lateolabrax japonicus) reportados por Salgado-Ugarte(1995). Se puede apreciar en dicha tabla que en verdad existe una variación conjunta muy cercana entre las variables consideradas: longitud total (LT), longitud estándar (LE) y peso total (PT). Si se analizaran estos valores exclusivamente se podría llegar a pensar que los datos se corresponden en la escala original. Sin embargo, al estudiar el diagrama de escalera de estos datos (Figura 10.5) se puede notar la clara tendencia curvilínea entre las medidas de longitud y peso. En el capítulo 5 se analizó la relación potencial peso-longitud en peces y la forma para linearizar dicha relación. Los logaritmos de las variables de longitud y peso siguen una relación lineal. La tabla 10.3 y la Figura 10.6 contienen la matriz de correlación y el diagrama de escalera (respectivamente) para los datos re-expresados (logaritmos base 10). Tabla 10.2 Matriz de correlación para datos transformados (logaritmo base 10) de longitud y peso corporal del “suzuki” LogLT LogLE LogPT LogLT 0.9996 0.9969 LogLE 0.9996 0.9966 LogPT 0.9969 0.9966 Nota: En todos los casos la significancia fue menor a 0.001 LogLT = Logaritmo de Longitud total; LogLE = Logaritmo de Longitud estándar; LogPT = Logaritmo del Peso total La correlación de las medidas de longitud no cambió de manera apreciable, sin embargo, la variación conjunta de las medidas de longitud y peso se incrementó notablemente como puede observarse en la matriz de gráficos de dispersión. La utilidad de este tipo de gráficos resulta evidente en el análisis de la correlación de variables.

Una aplicación potencial de este tipo de gráficos se encuentra en otros procedimientos del análisis multivariado. Para la identificación de cúmulos puede utilizarse como fundamento la matriz de correlación. Como se observó en el ejemplo anterior, los valores numéricos pueden indicar una variación conjunta muy cercana. Sin embargo, por medio de la matriz de gráficos de dispersión puede juzgarse si dicha relación sigue una tendencia lineal o no (el procedimiento de la correlación requiere de la linealidad en la relación).

Page 170: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

 

163  

Figura 10.5 Diagrama de escalera para datos de longitud y peso corporal del “suzuki”

El diagrama de escalera y la matriz de gráficos de dispersión forman parte de una serie de métodos gráficos para el análisis multivariado (multidimensional). Puede consultarse a Chambers et al. (1983) para mayor información sobre otros procedimientos tales como los desplegados por ventanas, los diagramas de estrella, el gráfico de contorno simbólico o los dendrogramas de Kleiner-Hartigan.

LT

LE

PT

0 500 1000

200

400

600

800

200 400 600 800

0

5000

Page 171: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

 

164  

Figura 10.6 Diagrama de escalera para logaritmos base 10 de las medidas de longitud y peso del “suzuki"

Log10(LT)

Log10(LE)

Log10(PT)

2 2.5 3

2

2.5

3

2 2.5 3

1

2

3

4

Page 172: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

165

Capítulo 11. Algunos procedimientos confirmatorios Una vez que se han investigado las características de los datos (nivel, dispersión, distribución y casos extraordinarios) es posible elegir el método estadístico apropiado para comparar valores y comprobar (o refutar) hipótesis estadísticas.

Dependiendo del tipo de datos y sus características así como de la finalidad y preguntas del estudio se comparan valores resumen y se establecen afirmaciones acerca de la población de interés. Es así como se llega al campo de la Estadística Inferencial, la cual, tomando como base el comportamiento regular de los fenómenos aleatorios, permite hacer inferencias acerca del total de elementos de estudio (población) con base en una parte (muestra). Una descripción más detallada puede consultarse en otras obras (Marques dos Santos, 2004). En este apartado se presentará un recorrido muy breve por los estimadores y pruebas estadísticas más usuales. Conceptos importantes en este apartado son: - población: conjunto de la totalidad de elementos de interés - muestra: fracción de elementos tomados de la población; para que las reglas de los fenómenos aleatorios se cumplan, esta fracción debe de obtenerse por métodos selectivos en donde intervenga el azar. - parámetro: valor que representa alguna propiedad (nivel, dispersión, distribución o casos extraordinarios en caso de valores numéricos) de los elementos de la población. - estimador (ó estadístico): valor que representa alguna propiedad de los elementos en la muestra. - distribución muestral: distribución de probabilidad para todos los valores posibles que puede tomar un estimador.

Page 173: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

166

La estadística inferencial tiene dos tareas principales:

a) Estimación: puntual y por intervalo b) Pruebas de hipótesis.

11.1 Intervalos de confianza y pruebas de hipótesis

En las estimaciones por intervalo se hace uso de las distribuciones maestrales. De esta forma, la fórmula general del intervalo de confianza es:

1)ˆˆ( ˆˆ kkP (11.1) En donde es el estimador del parámetro, k es una constante que depende de la distribución muestral del estimador y establece un múltiplo de ˆ que es el error estándar del estimador y 1 – α es el nivel de confianza. Las pruebas estadísticas establecen dos tipos de hipótesis: nula, que se representa convencionalmente como H0 y alternativa representada como Ha. A su vez, las pruebas son bilaterales (ó de dos colas) y unilaterales (de una cola).

Figura 11.1 Esquema de una prueba bilateral (de dos colas). Las regiones de no rechazo y rechazo quedan delimitadas por los valores críticos (vc).

Page 174: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

167

Para rechazar o no una hipótesis nula se contrasta un valor calculado a partir de la muestra y el valor de referencia para la comparación llamado “estadígrafo de prueba”. Este valor queda dentro de una de las regiones señaladas en las Figuras 11.1 a 11.3 e indica la decisión a tomar.

El procedimiento general para calcular el estadígrafo de prueba es comparar el estimador con el valor supuesto en las hipótesis (por diferencia o cociente) en relación de su error estándar. El valor obtenido se contrasta con los valores críticos e indica de esta forma si se rechaza o no la hipótesis nula. Los paquetes estadísticos computarizados calculan directamente la probabilidad de cola derecha del valor calculado y lo reportan como un valor de P. Si P < que α, se rechaza H0; si P > que α, no se rechaza H0.

Las principales pruebas de hipótesis pueden memorizarse con tan solo recordar tres signos: =, > y <. Debe recordarse que la posición de los signos en el planteamiento de las hipótesis no se altera. El signo igual caracteriza las pruebas de hipótesis bilaterales en las cuales se establecen las siguientes hipótesis:

H0: θ = θ0 Ha: θ ≠ θ0

El esquema correspondiente a esta prueba se muestra en la Figura 11.1. En la curva que describe la distribución de probabilidad del estimador se distinguen dos tipos de regiones: de no rechazo de H0 y de rechazo de H0. Estas regiones quedan determinadas por los valores críticos que subdividen la probabilidad en la confianza (1 – α) y la significancia (α). Los valores críticos se obtienen por lo general de tablas publicadas en la literatura estadística, aunque actualmente las hojas electrónicas y paquetes estadísticos computarizados permiten calcularlas directamente. Un intervalo de confianza es equivalente a una prueba bilateral, llevando a aceptar las hipótesis nulas que consideren a los valores que contiene y rechazando aquellas que planteen valores fuera del intervalo. Las pruebas unilaterales se subdividen en las de cola izquierda y las de cola derecha. Las hipótesis correspondientes son respectivamente:

H0: θ ≥ θ0 H0: θ ≤ θ0 Ha: θ < θ0 Ha: θ > θ0

Los esquemas para estas pruebas se presentan en las figuras 11.2 y 11.3. Resulta evidente la existencia de una sola región de rechazo

Page 175: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

168

contraparte de la región de no rechazo. Se puede recordar también que la región de rechazo en todos los casos queda bajo las colas de la distribución especificadas por los valores críticos. Estos valores críticos a su vez se establecen al elegir la confianza (1 – α) de la prueba o el nivel de significancia (α).

Figura 11.2 Esquema de una prueba unilateral de cola izquierda. Las regiones de no rechazo y rechazo quedan delimitadas por el valor crítico (vc). Cuadro 11.1 Tipos de error en Estadística Inferencial (modificado de Marques Dos Santos, 2004) Evento

Decisión No Rechazar H0 Rechazar H0

H0 Verdadera No error Confianza = 1 - α

Error de Tipo I P(ETI) = α

H0 Falsa Error de Tipo II P(ETII) = β

No error Potencia = 1 - β

Page 176: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

169

11.2 Tipos de error estadístico Una explicación adicional para el nivel de significancia lo proporciona la definición de los tipos de error en la Estadística Inferencial. Esta definición se ejemplifica en el Cuadro 11.1. Cuando se establece una hipótesis y se lleva a cabo, los valores de la muestra llevan a una decisión (rechazar o no rechazar). El nivel de significancia indica la magnitud que se le da a la probabilidad de rechazar una hipótesis nula cuando es verdadera, esto es el Error de Tipo I (ETI). Pudiera pensarse que lo ideal sería que α fuera lo más pequeño posible. Sin embargo, existe una relación inversa con el Error de Tipo II (ETII) que cuantifica la probabilidad de no rechazar una hipótesis nula falsa. Es decir, lo mejor que se puede hacer es llegar a un compromiso, con una α lo suficientemente pequeña pero que no implique un ETII demasiado grande.

Valores adecuados para α son 0.10 0.05, 0.01 e inclusive 0.005. Como valor general se utiliza una significancia del 5% (α = 0.05).

Figura 5.3 Esquema de una prueba unilateral de cola derecha. Las regiones de no rechazo y rechazo quedan delimitadas por el valor crítico (vc).

Page 177: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

170

A continuación se presentan ejemplos de estimaciones por intervalo y pruebas de hipótesis para los casos principales en el análisis de lotes de números. 11.3 Estimación y pruebas acerca de una media poblacional Volviendo al caso de los canguros, un investigador ha medido para una especie desconocida de canguro un valor, que considera representativo, de 751 mm para la longitud nasal de individuos machos. ¿Podrá ser la media de las longitudes nasales de machos presentados en la tabla 3.1 igual a este valor? La pregunta de interés se refiere al valor medio y contiene una palabra clave que se ha escrito en negritas. Esta palabra lleva al planteamiento de una prueba bilateral para la media poblacional (μ):

H0: μ = 751 Ha: μ ≠ 751

Como se desconoce la varianza poblacional la fórmula para el estadígrafo de prueba es:

n

sx

t 0 (11.2)

Sustituyendo valores ( x = 656.96; s = 61.5437; n = 25):

64.7

25

5437.6175196.656

t

El valor de tablas (considerando α = 0.05) es t1 - α/2, n – 1= t1 - 0.05/2, 25 – 1 = t0.975, 24= 2.0639; como la t calculada (- 7.64) es mucho menor que el valor crítico inferior (-2.0639) se rechaza claramente la hipótesis nula y se tiene que la media de longitud nasal de Macropus fuliginosus no puede ser la misma que la especie desconocida. El intervalo de confianza de 95 % para la media poblacional de M. fuliginosus (ecuación 11.3) nos conduce a la misma conclusión en esta prueba bilateral:

Page 178: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

171

1)( 1,2/11,2/1n

stx

n

stxP nn (11.3)

95.0)25

5437.610639.296.656

25

5437.610639.296.656( P

95.0)364.682556.631( P

Claramente, el valor 751 queda fuera del intervalo por lo que la hipótesis nula que establece igualdad con este valor se rechaza.

Figura 11.4 Esquema de prueba bilateral (de dos colas) para los datos de longitud nasal de M. fuliginosus y especie desconocida. El valor de t calculada (- 7.64) queda claramente en región de rechazo Un intervalo de confianza jamás podrá utilizarse para responder a una pregunta de naturaleza unilateral. Para probar que M. fuliginosus tiene en promedio longitud nasal menor que la desconocida es necesario llevar a cabo la prueba unilateral correspondiente:

Page 179: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

172

H0: μ ≥ 751 Ha: μ < 751

El valor calculado de t es el mismo, pero el esquema de la prueba y el valor crítico (-1.7109) son ahora diferentes (Figura 11.5). Nuevamente, el valor calculado se encuentra claramente en la región de rechazo de la hipótesis nula, por lo que se tiene evidencia con una confianza del 95% de que la media de longitud nasal de M. fuliginosus es menor que 751.

Figura 11.5 Esquema de una prueba unilateral de cola izquierda. Las regiones de no rechazo y rechazo de la hipótesis nula (Ho) quedan delimitadas por el valor crítico de t = - 1.7109. 11.4 Estimación y comparación de dos parámetros (varianzas y medias) Resulta interesante comparar la longitud nasal de machos y hembras de esta especie. Los datos se incluyen en la Tabla 3.1 y se muestran en el diagrama de cajas de la Figura 3.2. Una comparación exploratoria preliminar se ha presentado también en la Figura 3.3, con los diagramas de caja con muesca. En esta última figura se puede asegurar

Page 180: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

173

que los machos tienen longitudes mayores ya que los intervalos definidos por las muescas no se sobrelapan con los de las hembras.

Si se quiere probar que los machos en promedio tienen longitudes nasales mayores que las hembras se utilizaría un método confirmatorio de la Estadística Inferencial implicaría llevar a cabo una prueba para diferencia de medias con muestras independientes. Esta prueba requiere saber si las varianzas de cada grupo son iguales o diferentes. Por tanto, como primer paso se lleva a cabo una prueba para probar si la varianza de los machos es igual a la varianza de las hembras. Esta prueba estadística implica el uso de la distribución F de Fisher y utiliza la comparación por cociente, es decir si dos números son iguales y se dividen, entonces el resultado es la unidad.

Las hipótesis quedan:

H0: 122

212

221

Ha: 122

212

221

Se tomarán los valores requeridos del Cuadro 11.2: Tabla 11.2 Resumen estadístico para longitud nasal M. fuliginosus Sexo Tamaño de

muestra Media Desviación

estándar Varianza

Machos 25 656.96 61.5437 3787.6233 Hembras 25 572.96 60.2858 3634.3733 El estadígrafo de prueba es:

022

21

Rs

sF (11.4)

En donde R0 es el valor supuesto para el cociente de varianzas que aparece en las hipótesis. Sustituyendo los valores de los canguros y considerando a los machos como población 1 y a las hembras como la población 2, llegamos al siguiente resultado:

0422.1)1(3733.3634

6233.3787cF

Page 181: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

174

El valor de tablas es F1-α/2, glnum, glden = F0.975, 24, 24 = 2.269, considerando una significancia (α) de 0.05, glnum (grados de libertad del numerador) = n1 – 1 = glden (grados de libertad del denominador) = n2 – 1 = 25 -1 = 24 (en esta caso ya que n1 = n2 = 25 = 25).

La distribución F como la 2 es asimétrica por lo que se deben calcular los valores críticos inferior y superior. Para el caso de la distribución F el valor inferior puede calcularse a partir de la siguiente relación:

numgldengldenglnumgl F

F.,.,2/1

.,.,2/

1

(11.5)

Sustituyendo con los datos de canguros:

4407.0269.2

11

24,24,975.024,24,025.0

FF

El valor calculado para F (estadígrafo de prueba) queda dentro de la región de no rechazo de la hipótesis nula, por lo que puede afirmarse que las varianzas de machos y hembras (aunque desconocidas) son iguales con una confianza del 95% (Figura 11.6).

Page 182: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

175

Figura 11.6 Esquema de una prueba bilateral de dos colas con la distribución F de Fisher. Las regiones de rechazo de Ho quedan delimitadas por los valores críticos F.025,24,24 = 0.4407 y F.975,24,24 = 2.269. La F calculada queda en la región de no rechazo de Ho. Después de este paso preliminar procedemos ahora con la prueba respecto de las medias. Recordar que estamos interesados en respaldar la afirmación de que los machos tienen nariz más larga que las hembras. Para esto se plantean las siguientes hipótesis (nótese la palabra clave en negritas de la pregunta):

H0: μ1 ≤ μ2 → μ1 - μ2 ≤ 0 Ha: μ1 > μ2 → μ1 - μ2 > 0

Conviene notar que es una prueba unilateral y que la comparación de medias es por diferencia, por lo que el valor que indica igualdad es el cero, el cual aparece en las hipótesis. El estadígrafo de prueba para el caso de varianzas desconocidas pero iguales es:

Page 183: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

176

21

021

11

nnsp

xxt

(11.6)

En donde:

2

)1()1(

21

222

2112

nn

snsns p (11.7)

Aplicando a los datos de longitud nasal:

9983.371048

92.178127

48

96.8722496.90902

22525

3733.3634)125(6233.3787)125(2

ps

Por lo que sp es igual a 9983.3710 = 60.92 y entonces:

8752.4

25

1

25

192.60

096.57296.656

ct

Este valor calculado se compara con el valor de tablas: t 1-α, 25 + 25 – 2 = t0.95,48 = l.6772. Como la tc (4.8752) es mayor que la t de tablas se rechaza la hipótesis nula y entonces los machos en promedio son mayores en longitud nasal que las hembras. El esquema correspondiente se presenta en la Figura 11.7 en el cual se aprecia claramente que el valor calculado (4.8752) queda claramente en la región de rechazo.

Page 184: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

177

Figura 11.7 Esquema de la prueba unilateral de cola derecha. Las regiones de no rechazo y rechazo de la hipótesis nula (Ho) quedan delimitadas por el valor crítico de t = 1.6772. Cuando las varianzas de los dos grupos son diferentes, el procedimiento adecuado implica fórmulas diferentes a las anteriores. Como ejemplo de este caso se analizan los datos de anchura mandibular de machos y hembras de M. fuliginosus (Tabla 1.1). Los diagramas de caja en paralelo (Figura 5.8) sugieren una variabilidad diferente entre sexos: la longitud de las cajas (la dispersión de cuartos) es diferente para machos (menor) y hembras (mayor). La prueba de razón de varianzas confirma la anterior impresión gráfica. En esta ocasión se presentan los resultados obtenidos con el paquete estadístico Stata (StataCorp, 2009) en la Tabla 11.3. El programa Stata presenta los resultados de las tres pruebas posibles (cola izquierda, bilateral y cola derecha) respectivamente además de un resumen estadístico completo por grupos con tamaños de muestra, medias, error y desviación estándar así como intervalos de confianza para las medias. La prueba que interesa en este momento es la bilateral (H0: igualdad de varianzas, señalada en negritas). Como el valor de P (0.0292) es inferior al nivel de significancia establecido (en este caso se toma α = 0.05), entonces la hipótesis nula se rechaza y se tiene que las varianzas por grupos (machos y hembras son estadísticamente diferentes). Al relacionar con el procedimiento clásico de comparación de valores

Page 185: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

178

calculados con los obtenidos de las tablas, se tiene que el valor de F calculada (0.4006) es inferior al valor de las tablas (F.025,24,24 = 0.4407) por lo que queda en la región de rechazo de H0 (ver Figura 11.6).

100

120

140

160

180

Anc

hur

a m

and

ibul

ar (

mm

)

Machos Hembras

Figura 11.8 Diagramas de caja en paralelo para los datos de anchura mandibular por sexo de Macropus fuliginosus Tabla 11.3 Resultados de la prueba de razón de varianzas del programa estadístico Stata para anchura mandibular de Macropus fuliginosus Grupo Obs. Media Error

estándar Desviación estándar

[Intervalo de Confianza del 95%]

Machos 25 154.92 1.6732 8.3662 151.4667 158.3734 Hembras 25 141.04 2.6435 13.2175 135.5840 146.4960 Combinados 50 147.98 1.8384 13.0000 144.2854 151.6746 Grados de libertad: 24, 24

Ho: Machos = Hembras Ha: Machos < Hembras Ha: Machos ≠ Hembras Ha: Machos > Hembras F = 0.4006 F = 0.4006 F = 0.4006 Valor de P = 0.0146 Valor de P = 0.0292 Valor de P = 0.9854

Page 186: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

179

La comparación de medias de dos grupos con varianzas desiguales hace necesario el cálculo ajustado de los grados de libertad para llevar a cabo la prueba. Puede utilizarse la expresión de Satterthwaite (1946):

11 2

2

2

22

1

2

1

21

2

2

22

1

21

n

n

s

n

n

s

n

s

n

s

gl (11.8)

o la de Welch (1947):

2

11 2

2

2

22

1

2

1

21

2

2

22

1

21

n

n

s

n

n

s

n

s

n

s

gl (11.9).

El estadígrafo de prueba es:

2

22

1

21

021

n

s

n

s

xxt

(11.10)

con grados de libertad estimados de (11.8) ó (11.9). Los resultados obtenidos con el programa Stata se resumen en la Tabla 11.4. La interpretación inmediata es que las medias de machos y hembras son diferentes y además que los machos tienen mandíbulas más anchas que las hembras. Queda como ejercicio para el lector el obtener los resultados numéricos presentados en el cuadro 11.4 mediante las expresiones (11.8), (11.9) y (11.10).

Page 187: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

180

Tabla 11.4 Resultados de la prueba de diferencia de medias del programa estadístico Stata para anchura mandibular de Macropus fuliginosus Grupo Obs. Media Error

estándar Desviación estándar

[Intervalo de Confianza del 95%]

Machos 25 154.92 1.6732 8.3662 151.4667 158.3734Hembras 25 141.04 2.6435 13.2175 135.5840 146.4960Combinados 50 147.98 1.8384 13.0000 144.2854 151.6746Diferencia 13.88 3.1286 7.5597 20.2003gl de Satterthwaite = 40.5707; gl de Welch = 41.9516

Ho: μMachos - μHembras = 0 Ha: Machos - Hembras < 0 Ha: Machos - Hembras ≠ 0 Ha: Machos - Hembras > 0 t = 4.4365 t = 4.4365 t = 4.4365 Valor de P = 1.0000 Valor de P = 0.0001 Valor de P = 0.0000 11.5 Análisis de varianza de un factor (diseño completamente al azar)

Las medidas craneales de canguros fueron tomadas en individuos de tres especies actualmente reconocidas. Con estos datos es posible llevar a cabo comparaciones entre las mismas. Para la anchura de la cresta de hembras los datos se presentan en la Tabla 11.5 y la gráfica de diagramas de caja en la Figura 11.9.

05

01

001

502

00A

nch

ura

de

la c

rest

a (m

m)

M. giganteus M. melanops M. fuliginosus

Figura 11.9 Diagramas de caja en paralelo para los datos de anchura de la cresta de cráneos de hembras de Macropus spp.

Page 188: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

181

Tabla 11.5 Anchura de cresta craneal de canguros hembras del género Macropus M. giganteus M. melanops M. fuliginosus

203 216 199 164 125 153 148 170 169 147 209 167 131 129 155 125 159 181 129 157 214 125 88 198 101 129 153 121 148 170 104 138 154 135 140 167 103 176 170 112 112 118 80 101 138 82 87 137 123 112 160 70 127 172 114 70 139 193 135 200 74 120 122 95 140 178 28 86 78 122 65 145 100 73 188

Tamaño de muestra 25 25 25

75.00

Sumas 2929 3212 4025 10166.00 Medias 117.16 128.48 161.00 135.55

Los diagramas de caja permiten notar fácilmente que las hembras de M. fuliginosus tienen una cresta más ancha (mayor nivel) que M. melanops, el cual a su vez es mayor que la de M. giganteus. Para respaldar esta impresión con una significancia estadística el procedimiento apropiado es el Análisis de Varianza. Este método de análisis permite la comparación tres ó más valores medios. El análisis de varianza es un tema relacionado con el diseño de experimentos.

En este material se presentará primeramente el caso más sencillo que es el ANDEVA de un factor en un diseño completamente al azar. La

Page 189: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

182

información para llevar a cabo la prueba requiere de cálculos de diferentes varianzas colocadas en un cuadro convencional. Para simplificar la presentación de fórmulas e utilizará la notación de puntos de acuerdo al arreglo de datos de la Tabla 11.6. La Tabla 11.7 presenta la disposición convencional de la información para interpretar el ANDEVA. Tabla 11.6 Arreglo general de datos para el ANDEVA en el diseño completamente al azar 1 2 3 . . . K X11 X12 X13 . . . X1K X21 X22 X23 . . . X2K X31 X32 X33 . . . X3K . . . . . . . . . . . . . . . . . . . . . 1

1nX 22nX 3

3nX . . . KXkn Gran

total Tamaño n1 N2 n3 . . . nK N Sumas

1X 2X 3X . . . KX X

Medias 1X 2X 3X . . .

KX X

Tabla 11.7 Disposición de información para el ANDEVA del diseño completamente al azar Fuente g.l. Suma de Cuadrados Cuadrados

Medios F calculada

F tablas

Trata-mientos

K – 1

N

X

n

XSC

K

jTrat

2

1

2

.

1

K

SCCM Trat

Trat Error

Tratc CM

CMF KNKF ,1,1

Error N – K TratTotalError SCSCSC

KN

SCCM Error

Error

Total N - 1

K

j

n

iijTotal

j

N

XXSC

1 1

22

La aplicación de este procedimiento a los datos de anchura de cresta craneal de las hembras de tres especies de canguro se incluye en la Tabla 11.8. El valor de Fcalculada es claramente mayor que la F de tablas, por lo que se rechaza la hipótesis nula de igualdad de medias. El valor de P para la Fcalculada se interpreta de la misma forma (rechazo de Ho). Por lo menos un par de medias es diferente. Sin ningún cálculo adicional puede afirmarse que el grupo con la media más alta (M. fuliginosus) es diferente

Page 190: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

183

de aquél con la más pequeña (M. giganteus). Para indagar en mayor detalle este resultado se indica una estimación a posteriori. Existen varias pruebas, siendo de las más conocidas la distancia mínima significativa, la distancia significativa honesta de Tukey y el criterio de Bonferroni que es de los más sencillos y generales. Los resultados de éste último se incluyen en la Tabla 11.9 y el arreglo consiste en la diferencia de media de fila menos la de columna y abajo el valor de P (ajustado por comparaciones múltiples) para la prueba de igualdad de las medias involucradas. En dicha Tabla se aprecia claramente que M. fuliginosus es estadísticamente diferente de M. giganteus y M. melanopus (valores de P menores que de 0.05), mientras que éstas últimas no son diferentes entre sí (valor de P = 0.809).

Tabla 11.8 ANDEVA para la anchura de cresta craneal de canguros del género Macropus Fuente g.l. Suma de Cuadrados Cuadrados

Medios F calculada F tablas

Esp. 3–1 = 2

25896.9867

331377967.41-1403864.4

75

10166

25

402532122929 23

1

222

.

j

EspSC

12948.4933

13

9867.25896

TratCM

0100.10

55.1293

4933.12948

cF

1239.3

72,2,95.0 F

P= 0.0001

Error 75–3 = 72 93135.6

9867.258965867.119032

ErrorSC

1293.55

375

93135.6000

ErrorCM

Total 75–1 = 74

7119032.586

331377967.41-149700075

10166188...203

222

TotalSC

Tabla 11.9 Comparaciones múltiples de Bonferroni para anchura craneal de hembras de canguros del género Macropus M. giganteus M. melanopus M. melanopus 11.32 0.809 M. fuliginosus 43.84 32.52 0.000 0.006

Page 191: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

184

11.6 Análisis de varianza de dos factores con interacción Si se quisiera investigar la diferencia entre las especies de canguro pero además si en promedio los sexos difieren y si hay un efecto de interacción entre la especie y el sexo, entonces es necesario el análisis de varianza de dos factores (en diseño completamente al azar) con interacción. En este diseño se contrastan tres pares de hipótesis: las medias aritméticas del factor columna son iguales; las medias aritméticas del factor fila son iguales y que no hay efecto de interacción, contra las alternativas de que al menos una media sea diferente y de que si exista un efecto por interacción. El arreglo de datos se presenta en la Tabla 11.10 y las fórmulas para los cálculos requeridos en la Tabla 11.11. Tabla 11.10 Arreglo general de datos para el ANDEVA de dos factores con interacción Factor B (Columnas) Factor A (Filas)

B1 B2 B3 . . . BJ m = J*K

iX iX

A1 X111 X121 X131 . . . X1J1 m 1X 1X X112 X122 X132 . . . X1J2 . . . X11k X12k X23k . . . X1Jk

A2 X211 X221 X231 . . . X2J1 m 2X 2X X212 X222 X232 . . . X2J2 . . . X21k X22k X33k . . . X2Jk

A3 X311 X321 X331 . . . X3J1 m 3X 3X

X312 X322 X332 . . . X3J2 . . . X31k X32k X33k . . . X3Jk

AI XI11 XI21 XI31 . . . XIJ1 m IX IX XI12 XI22 XI32 . . . XIJ2 . . . XI1k XI2k XI3k . . . XIJk

Tamaño de muestra

n = I*K n n . . . n N = IJK = nJ = mI

Sumas 1X 2X 3X . . . JX X

Medias 1X 2X 3X . . .

JX X

Page 192: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

185

Tabla 11.11 Disposición de información para el ANDEVA de dos factores con interacción Fuente g.l. Suma de Cuadrados Cuadrados Medios Factor fila I – 1

N

X

m

XSC

I

j

iAfilas

2

1

2

)(

filas

filasfilas gl

SCCM

Factor Columna

J – 1

N

X

n

XSC

J

j

jBcolumnas

2

1

2

)(

columnas

columnascolumnas gl

SCCM

Interacción (I-1)(J-1) colfilassubt SCSCSCSC int

intint gl

SCCM columnas

Subtotal IJ – 1

N

X

K

XSC

J

j

I

i

ijsubtotal

2

1 1

2

Error N – IJ subtotaltotalerror SCSCSC

error

errorerror gl

SCCM

Total N – 1

N

XXSC

J

j

I

i

K

kijktotal

2

1 1 1

2

Como ejemplo de la aplicación de este método se utilizan los datos de amplitud nasal medida en cráneos presentados en la Tabla 11.13 la cual contiene veinte observaciones para machos y hembras de tres especies de canguros adultos modificados de Andrews y Herzberg (1985). Los cálculos necesarios para el análisis se muestran en la Tabla 11.14 y el cuadro del análisis de varianza se presenta en la Tabla 11.15. Cabe señalar que en el análisis de varianza de dos factores en el diseño completamente al azar es necesario distinguir entre factores fijos y aleatorios. Se considera que los factores fijos contienen todos los niveles posibles mientras que los aleatorios incluyen niveles seleccionados al azar de la totalidad existente. Es posible tener combinaciones de factores fijos y aleatorios. Esto es importante porque determina los contrastes de varianza a realizar para verificar las hipótesis. La relación de contrastes de cuadrados medios en cada caso se presenta en la Tabla 11.12. Para nuestro ejemplo se considerarán a los factores especie y sexo como fijos por lo que los estadígrafos de contraste (valores de F calculados) se obtendrán dividiendo entre la varianza debida al error. La Tabla 11.15 muestra los resultados del análisis. Estos valores pueden comprobarse de los cálculos incluidos en la Tabla 11.14 lo que sirve como guía para su aplicación a cualquier otro conjunto de datos.

Page 193: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

186

Tabla 11.12 Relación de contrastes de acuerdo a la consideración de factores fijos ó aleatorios Factores fijos Factores aleatorios Factores mixtos filas

factor fijo y columnas factor aleatorio

error

filasfilas CM

CMF

intCM

CMF filas

filas intCM

CMF filas

filas

error

columnascolumnas CM

CMF

intCM

CMF columnas

columnas error

columnascolumnas CM

CMF

errorCM

CMF int

int errorCM

CMF int

int errorCM

CMF int

int

Tabla 11.13 Datos de amplitud nasal para tres especies de canguros del género Macropus (modificados de Andrews y Herzberg, 1985)

Especie

Sexo Macropus giganteus

Macropus fuliginosus melanopus

Macropus fuliginosus fuliginosus

Machos

241 263 236 237 231 226 222 220 204 217 218 206 233 271 216 211 200 250 207 284 225 238 202 232 247 279 220 221 247 253 189 272 219 281 208 263 226 268 201 292 234 262 240 278 213 251 216 275 215 238 228 231 237 246 231 255 234 275 240 255

Hembras

175 249 141 196 171 205 200 223 203 236 197 199 226 245 203 261 196 214 238 255 151 240 190 219 229 238 222 217 167 222 247 251 189 242 195 191 205 242 186 254 232 221 210 258 235 207 167 230 221 253 242 238 217 213 225 241 239 238 212 212

Page 194: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

187

Tabla 11.14 Resumen de cálculos para el ANDEVA de dos factores con interacción

Factor A (Sexo)

Factor B (Especie)

Macropus giganteus Macropus fuliginosus melanopus

Macropus fuliginosus fuliginosus

Machos a1 a2 a3 m iX iX iX )( 2

K = 20 K = 20 K = 20 60

xbar = 243.95 xbar = 232.5 xbar = 235.05 237.167

varx = 712.155263 varx = 621.842105 varx = 473.523684

sx = 26.6862373 sx = 24.9367621 sx = 21.7605994

sumax = 4879 sumax = 4650 sumax = 4701 14230

(sumax)2 = 23804641 (sumax)2=2162250 (sumax)2= 22099401

sumax2 = 1203763 sumax2 =1092940 sumax2 =1113967 341067

Hembras a4 a5 a6 m iX iX

K = 20 K = 20 K = 20 60

xbar = 231.55 xbar = 217 xbar = 203.5 217.35

varx = 458.997368 varx = 1051.05263 varx = 378.052632

sx = 21.4242239 sx = 32.4199419 sx = 19.4435756

sumax = 4631 sumax = 4340 sumax = 4070 13041

(sumax)2= 21446161 (sumax)2 = 18835600 (sumax)2=16564900

sumax2 = 1081029 sumax2 = 961750 sumax2 =835428 2878207

n 40 40 40 N = 120

JX 9510 8990 8771 X = 27271

JX 237.75 224.75 219.275 X 227.25833

JX )( 2

2284792 205469 1949395 )( 2X 6288877

Page 195: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

188

Tabla 11.15 ANDEVA para la amplitud nasal en cráneos de canguros del género Macropus (entre paréntesis se presenta el valor de F de tablas) Fuente de variación gl SC CM F

sexo 1 6209343.017 - 6197562.01 = 11781.00833 11781.0083

19.12696 (3.9243) P < 0.001

especie 2 6204766.025 - 6197562.01 = 7204.016667 3602.00833

5.84801 (3.0758) P = 0.004

Interacción 2 21098.14167 - 18985.025 = 2113.116667 1056.55833

1.71537 (3.0758) P = 0.184

Subtotal 5 6218660.15 - 6197562.01 = 21098.14167

Error 114 91314.99167 - 21098.1417 = 70216.85 615.93728

Total 119 6288877 - 6197562.01 = 91314.99167

Puede concluirse de lo obtenido que existe diferencia entre sexos (Fc = 19.13, P < 0.001), lo que sugiere un dimorfismo sexual así como entre los promedios para cada especie (Fc = 5.85, P = 0.004). Asimismo se constata que no hay efecto de interacción (Fc = 1.71, P = 0.184). Lo anterior puede apreciarse en el gráfico de medias de la Figura 11.10; se observa que en general los machos tienen amplitudes nasales mayores que las hembras, que la especie 1 (Macropus giganteus) es la más grande y que las hembras de la especie 3 (Macropus f. fuliginosus) es la más pequeña. La conexión de los valores medios no se cruza entre sexos lo que ilustra de manera gráfica que no existe efecto de interacción (las tendencias tienden a ser paralelas). Como en el caso del ANDEVA de un factor el análisis realizado da una conclusión general en las comparaciones, sin embargo no indica que medias en particular son diferentes. Para esto es necesario llevar a cabo una comparación múltiple a posteriori. En lo que sigue se utilizará el método de la diferencia significativa honesta (DSH) de Tukey para esclarecer que medias son estadísticamente diferentes y por tanto las responsables del rechazo de las hipótesis nulas por sexo y especie. Seguiremos el procedimiento presentado en Fowler et al. (1998) y que es equivalente al aplicado en el caso de un factor. En primer lugar se construye una matriz de comparaciones de todas las medias por diferencia absoluta de medias de fila menos las de columnas (las 6 medias están en la Tabla 11.14). Por ejemplo, para la primera celda de la Tabla 11.16 se

Page 196: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

189

tiene abs(243.95 – 232.5) = 11.45. Estas diferencias se comparan con la distancia dada por la siguiente expresión:

K

CMqDSH error

a ,,

Donde ,,aq se obtiene de la tabla (disponible en libros de estadística)

para un valor de significancia () con a número de muestras y grados de libertad del error. Para nuestro ejemplo, la significancia es de 0.05, el número de muestras es 6 (3 especies por dos sexos), los grados de libertad del error son 114 y el tamaño de muestra de cada grupo (K) es de 20 (Tabla 11.14).

200

210

220

230

240

Am

plitu

d n

asal

(m

m)

Mg Mfm MffEspecie

Machos Hembras

Figura 11.10 Gráfico de medias para la amplitud nasal de cráneos en machos y hembras de tres especies de canguros del género Macropus (Mg = M. giganteus; Mfm = M. fuliginosus melanopus; Mff = M. fuliginosus fuliginosus) Interpolando linealmente entre los valores presentados en la Tabla T8 de Marques dos Santos (2004) (página 564) o de la tabla del Apéndice 11 de Fowler et al. (1998) (página 248) se obtiene un valor de 114,6,05.0q =

4.106 con lo que se tiene:

Page 197: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

190

7862.2220

9373.615106.4114,6,05.0

K

CMqDSH error

Todas las diferencias de la Tabla 11.16 mayores a esta distancia se

han sombreado. Puede notarse así que las hembras con las menores amplitudes nasales (Macropus fuliginosus melanopus y M. f. fuliginosus) fueron diferentes de los machos de la misma especie (la primera) y de machos y hembras de la misma y de otras especies (la segunda) excepto de las hembras de M. f. melanopus. Tabla 11.16 Matriz de comparación de medias para amplitud nasal de machos y hembras de tres especies de canguros del género Macropus (diferencias absolutas de medias de fila – columna) Muestra 2 (Mfmm) 3(Mffm) 4 (Mgh) 5 (Mfmh) 6 (Mffh) 1 (Mgm) 11.45 8.9 12.4 26.95 40.45 2 (Mfmm) 2.55 0.95 15.5 29 3 (Mffm) 3.5 18.05 31.55 4 (Mgh) 14.55 28.05 5(Mfmh) 13.5 1 Mgm (Macropus giganteus machos) 2 Mfmm (Macropus fuliginosus melanopus machos) 3 Mffm (Macropus fuliginosus fuliginosus machos) 4 Mgh (Macropus giganteus hembras) 5 Mfmh (Macropus fuliginosus melanopus hembras) 6 Mffh (Macropus fuliginosus fuliginosus hembras)

Page 198: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

191  

Capítulo 12. Breve introducción a los métodos multivariados Los objetos de interés en el mundo real rara vez quedan caracterizados por la medición de una sola característica. En la naturaleza los elementos de interés son el resultado de la manifestación simultánea de muchos procesos, cuyos resultados, en el mejor de los casos, pueden medirse. Es por eso que en Biología y en otras áreas de conocimiento y actividad humanas se ha hecho necesario el contar con métodos cuantitativos capaces de considerar al mismo tiempo, varias características para llegar a definir de manera lo más integral posible a un objeto de estudio. Los métodos revisados hasta este capítulo se han enfocado al análisis de una sola variable cuantitativa y grupos de esa variable (diagramas de tallo y hoja; diagramas de caja y bigotes), dos variables cuantitativas (línea resistente; suavización no lineal resistente), una cualitativa y otra cuantitativa (tablas codificadas y pulido de mediana) de manera gráfica y por pares, dos variables cuantitativas (diagrama de escalera). Asimismo se han considerado la comparación de variables cuantitativas en dos o más grupos (pruebas de t de Student y análisis de varianza). En este capítulo se hará una introducción muy breve de algunos de los métodos multivariados más importantes. La estadística multivariada contiene una colección de procedimientos muy poderosos que permiten al investigador el manejo de un mayor número de variables del que pudiera asimilar. Este poder necesariamente tiene un costo: estos métodos son complicados tanto en la teoría que los sustenta como en los cálculos requeridos. Sin embargo, dado que los fenómenos biológicos son complicados y en general, difíciles de comprender considerando aspectos aislados de los mismos, ofrecen un potencial muy importante para su estudio (en parte Davis, 1983). Para llevar a cabo los complicados cálculos requeridos por los métodos multivariados es necesario el uso del álgebra matricial. Esta rama algebraica permite llevar a cabo cálculos complejos mediante la aplicación de reglas definidas, aunque para ciertas operaciones se requiere de procedimientos muy complejos, los cuales en la actualidad, se ejecutan con la ayuda de computadoras. La disponibilidad de estos instrumentos y de programas de cálculo de uso sencillo y generalizado han hecho posible

Page 199: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

192  

que la aplicación de la estadística multivariada sea cada vez más común en todos los ámbitos (incluyendo a la Biología). En esta obra no es intención cubrir el tema del álgebra matricial. Las referencias adecuadas para su comprensión son abundantes, y aquí solo mencionaremos a Ayres (2000) y a Marques dos Santos (1993). Otras obras con capítulos o anexos dedicados a ese fin se encuentran en Morrison (1984), Davis (1983) ó Gotelli y Ellison (2004). Siguiendo a Fowler, et al. (1998) y Davis (1983) los métodos multivariados a revisar se encargan de los siguientes aspectos:

- Comparación de grupos multivariados de datos. - Derivación de reglas de clasificación para discriminar entre grupos

conocidos de las unidades de muestreo (discriminación). - Identificación de conglomerados de unidades de muestreo

semejantes dentro de una muestra (clasificación).

- Reducir la complejidad de una muestra en la cual se han hecho muchas mediciones en cada unidad de muestreo mediante la identificación de las combinaciones de variables que mejor resumen la información de la muestra.

Pero antes de entrar a revisar estos puntos se presentará un ejemplo

del uso del álgebra matricial para el análisis de datos multivariados. Tabla 12.1 Datos hipotéticos de 7 entidades y 3 características medidas (Adaptados de Pimentel, 1979) No. Variable 1 Variable 2 Variable 3

1 4 2 2 2 3 1 2 3 0 1 2 4 5 0 3 5 6 1 2 6 5 3 3 7 5 6 0

De cada variable es posible calcular su media y desviación estándar

(columna por columna). Mediante el álgebra matricial es posible llevar a cabo los cálculos de manera simultánea con las tres variables:

Page 200: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

193  

Se define a la matriz X y una matriz auxiliar (A1) con el fin de obtener (aprovechando las reglas de multiplicación de matrices) una matriz con las sumas de las columnas (Su):

 

4 2 23 1 20 1 25 0 36 1 25 3 35 6 0

    1 1 1 1 1 1 1  

  1 1 1 1 1 1 1

4 2 23 1 20 1 25 0 36 1 25 3 35 6 0

    28 14 14  

Los valores medios se obtienen dividiendo la matriz Su entre el número de observaciones (filas = 7) para obtener la matriz de medias

7  4 2 2

Para el cálculo de la varianza es necesario restar a cada dato en la matriz X la media correspondiente. Como el álgebra matricial requiere para la suma (resta) que el orden de las matrices sea el mismo, se hace uso de otra matriz auxiliar de unos para repetir las medias tantas veces como observaciones haya (7) y posteriormente restar la matriz de medias a la matriz de datos originales para obtener una matriz de diferencias (D):

 

1111111

;  

1111111

4 2 2  

4 2 24 2 24 2 24 2 24 2 24 2 24 2 2

  

Page 201: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

194  

 

4 2 23 1 20 1 25 0 36 1 25 3 35 6 0

4 2 24 2 24 2 24 2 24 2 24 2 24 2 2

  

0 0 01 1 04 1 01 2 12 1 01 1 11 4 2

La varianza requiere que esas desviaciones se eleven al cuadrado. Una forma de hacerlo con matrices es multiplicar la traspuesta de las diferencias (D’) por la original (D), cantidad conocida como matriz de productos cruzados:

0 1 4 1 2 1 10 1 1 2 1 1 40 0 0 1 0 1 2

 

0 0 01 1 04 1 01 2 12 1 01 1 11 4 2

 24 6 06 24 90 9 6

Si se divide esta última matriz entre los grados de libertad (número de observaciones menos uno) se obtiene la matriz de varianza covarianza (S):

7 11

7 1

24 6 06 24 90 9 6

 4 1 01 4 1.50 1.5 1

Las desviaciones estándar de cada variable se obtienen al sacar raíz cuadrada de la diagonal de la matriz (con valores 2, 2 y 1 respectivamente). 12.1 Extensiones multivariadas de estadística elemental La comparación de un conjunto de números respecto a un valor (medio) considerado como referencia se lleva a cabo mediante el estadígrafo de prueba t de Student:

   √

Page 202: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

195  

La generalización multivariada implica el uso de un vector de medias muestrales de cada variable menos sus valores de referencia, así como la matriz de varianza covarianza:

   √

                                                              12.1

Con el fin de obtener un valor único como resultado (escalar) es

necesario introducir una matriz auxiliar:

   √

Después de manipulación algebraica para el cumplimiento de que el

divisor de la expresión sea igual a la unidad y elevando al cuadrado para eliminar las raíces, se llega a la siguiente expresión:

                                               12.2 

El estadígrafo de prueba resultante se le ha bautizado como la “T cuadrada de Hotelling” en honor del estadístico que la propuso por primera vez (Hotelling, 1931). No es necesario contar con tablas de T2 ya que se utiliza la siguiente relación con la distribución F de Fisher:

 1                                                          12.3

en donde n es el número de muestras y m es el número de variables. Esta relación permite utilizar las tablas disponibles de la distribución F con m y n - m grados de libertad (Davis, 1983; Morrison (1984). Tabla 12.2 Contenido de Si, Al, Fe y Mg (%) en rocas de la luna No. Si Al Fe Mg

1 19.4 5.9 14.7 5.0 2 21.5 4.0 15.7 3.7 3 19.2 4.0 15.4 4.3 4 18.4 5.4 15.2 3.4 5 20.6 6.2 13.2 5.5 6 19.8 5.7 14.8 2.8 7 18.7 6.0 13.8 4.6

Page 203: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

196  

12.2 Ejemplo: contenido de Si, Al, Fe y Mg en rocas lunares Como ejemplo se utilizarán los datos reportados por Davis (1983) acerca del contenido de Silicio, Aluminio, Fierro y Magnesio de rocas lunares (Tabla 12.2) Aplicando el procedimiento delineado anteriormente se tiene:

 

19.4 5.9 14.7 5.021.5 4.0 15.7 3.719.2 4.0 15.4 4.318.4 5.4 15.2 3.420.6 6.2 13.2 5.519.8 5.7 14.8 2.818.7 6.0 13.8 4.6

    1 1 1 1 1 1 1  

  1 1 1 1 1 1 1

19.4 5.9 14.7 5.021.5 4.0 15.7 3.719.2 4.0 15.4 4.318.4 5.4 15.2 3.420.6 6.2 13.2 5.519.8 5.7 14.8 2.818.7 6.0 13.8 4.6

 

  137.6 37.2 102.8 29.3  

7  19.657143 5.3142857 14.685714 4.1857143

 

1111111

;  

1111111

19.657143 5.3142857 14.684714 4.1857143

Page 204: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

197  

 

19.657143 5.3142857 214.684714 4.185714319.657143 5.3142857 14.684714 4.185714319.657143 5.3142857 14.684714 4.185714319.657143 5.3142857 14.684714 4.1857143419.657143 5.3142857 14.684714 4.1857143419.657143 5.3142857 14.684714 4.185714319.657143 5.3142857 14.684714 4.1857143

  

   

0.25714329 0.58571441 0.01428563 0.814285691.8428571 1.3142857 1.0142856 0.485714270.45714215 1.3142857 0.71428544 0.114285881.2571433 0.08571441 0.51428563 0.78571422

0.94285747 0.88571412 1.4857144 1.31428571.14285633 0.38571412 0.11428601 1.38571440.95714215 0.68571431 0.88571399 0.41428559

 

7.0771424 1.8457153 0.35571308 0.47571621.8457153 5.2085711 4.0985705 1.8114282

0.35571308 4.0985705 4.8085706 3.28142870.4757162 1.8114282 3.2814287 5.3485713

7 1 

1.1795237 0.30761922 0.05928551 0.079286030.30761922 0.86809518 0.68309508 0.30190470.05928551 0.68309508 0.80142843 0.546904780.07928603 0.3019047 0.54690478 0.89142855

Se desea probar si las medias del porcentaje de Si, Al, Fe y Mg de las rocas lunares no son diferentes de los promedios de rocas basálticas terrestres. Para llevar a cabo la prueba se colocan los valores medios como vectores columna:

19.6571435.314285714.6857144.1857143

             

22.17.410.14

 

19.6571435.314285714.6857144.1857143

   

22.17.410.14

 

2.44285712.08571434.58571420.18571431

Page 205: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

198  

Si la inversa de la matriz de varianza covarianza es:

 

1.0614786 0.99488493 0.81727015 0.070053950.99488493 5.2095781 5.3366768 1.42128880.81727015 5.3366768 7.6600557 2.8194690.07005395 1.4212888 2.819469 2.3639953

y se sustituye en la ecuación 12.2 (adecuando un poco la notación, es decir usando a S para representar a la matriz de varianza covarianza) obtenemos el valor de T2:

7          584.78231

Considerando que n = 7 y m = 4, entonces el valor equivalente de F (aplicando la ecuación 12.3) es:

 7 4

4 7 1 584.78231 73.097789

Los grados de libertad son m = 4 y n – m = 7 – 4 = 3 y por tanto el

valor de tablas (con significancia de 0.01) es F0.99,4,3 = 28.71. Como la F calculada es mucho mayor que la F de tablas, no se acepta H0 y por tanto se concluye que el promedio de contenido porcentual de Si, Al, Fe y Mg en las rocas lunares no es igual a los valores referencia de los basaltos de la Tierra. El ejemplo anterior (comparación de las medias de una muestra con valores “poblacionales” medios de referencia) se ilustra la relación cercana entre la estadística convencional y la multivariada a veces obscurecida por la transición del álgebra tradicional a la de matrices. Aunque se tiene la idea contraria, la estadística tradicional es un caso especial de métodos más generales comprendidos en el análisis multivariado (Davis, 1983). 12.3 Comparación multivariada de dos muestras A continuación se introduce la comparación de dos muestras multivariadas. Las hipótesis de la prueba son:

H0 = [µ1] = [µ2]

Ha = [µ1] ≠ [µ2] Asumiendo que no hay diferencia entre las matrices de varianza-covarianza respectivas, es necesario calcular una matriz conjunta:

Page 206: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

199  

 1

2                                               12.4

Haciendo la diferencia entre los vectores de medias de la muestra 1 y la muestra 2 la expresión para el estadígrafo T2 es:

                                           12.5 

La transformación a F se calcula por:

 1

2                                                   12.6

Con m y (n1 + n2 –m – 1) grados de libertad. Para ilustrar este caso se comparará el contenido de Si, Al, Fe y Mg de las 7 muestras de rocas lunares con el contenido de 7 muestras de rocas basálticas del Pacífico (Tabla 12.3). Tabla 12.3 Contenido de Si, Al, Fe y Mg (%) en basaltos del océano Pacífico No. Si Al Fe Mg

1 22.5 9.6 6.6 3.4 2 22.1 8.4 7.8 3.6 3 25.9 8.7 4.8 4.0 4 23.5 8.1 5.0 5.2 5 21.7 10.0 8.2 4.9 6 21.9 8.2 9.3 4.9 7 23.7 7.2 9.5 3.3

Haciendo los cálculos correspondientes se llega a la matriz de varianza covarianza para basaltos terrestres (S2):

 

1.1795237 0.30761922 0.05928551 0.079286030.30761922 0.86809518 0.68309508 0.30190470.05928551 0.68309508 0.80142843 0.546904780.07928603 0.3019047 0.54690478 0.89142855

Y con ella y la matriz correspondiente de las rocas lunares se calcula la matriz de varianza-covarianza conjunta (Sp)

Page 207: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

200  

 

1.6811902 0.37380962 0.83154745 0.080833250.37380962 0.88238102 0.55154771 0.214285750.83154745 0.55154771 2.2280951 0.397499970.08083325 0.21428575 0.39749997 0.76476189

Y su inversa:

 

1.1214262 0.83567247 0.66657481 0.230842160.83567247 1.9992066 0.7964433 0.057880980.66657481 0.7964433 0.9561595 0.344274910.23084216 0.05788098 0.34427491 1.5271578

Los vectores columna de medias y su diferencia son

19.6571435.314285714.6857144.1857143

             

23.0428578.6

7.31428584.1857143

 

19.6571435.314285714.6857144.1857143

   

23.0428578.6

7.31428584.1857143

 

3.38571443.28571437.37142843.406e 08

Entonces el valor de T2 es:

7 77 7

      115.97023

Con su valor equivalente de F:

 7 7 4 17 7 2 4

 115.97023 21.744417

En las tablas se tiene que F0.95,4,9 = 3.633; como la F calculada es

mucho mayor se rechaza Ho y se tiene que los vectores de medias no pueden ser iguales con una confianza del 95 %.

Detalles para llevar a cabo todas las operaciones matriciales se presentan en el Apéndice 1.

Page 208: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

201  

12.4. Comparación de dos matrices de covarianza

La prueba presentada asume igualdad en las matrices de varianza-covarianza. Para comprobar si las matrices de varianza-covarianza no son diferentes, se puede llevar a cabo la siguiente prueba:

: Σ Σ   Σ  

: Σ Σ La hipótesis nula postula la igualdad de las matrices de varianza-covarianza y la alternativa que al menos un par es diferente. Para calcular la matriz de varianza-covarianza conjunta para un número de k grupos se utiliza:

 1

∑                                                 12.7

Si se tienen dos grupos (k = 2) la expresión 12.7 es equivalente a la

12.4 utilizada arriba. Con la matriz de varianza-covarianza conjunta se puede calcular el estadístico de prueba M:

         1 ln| |              12.8

La prueba se vasa en la diferencia entre el logaritmo de los

determinantes de la matriz de varianza-covarianza y el promedio de los logaritmos de los determinantes de las matrices varianza-covarianza de las muestras. De nuevo, no son necesarias tablas de M ya que se pueden utilizar las siguientes expresiones para convertirla a 2:

1  2  3 16 1 1

 1 1

 1

∑       12.9

y

                                                       12.10

Page 209: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

202  

Con grados de libertad igual a = (1/2)(k – 1)m(m + 1). Si todas las muestras tienen el mismo número de observaciones, n, 12.10 puede simplificarse a:

1  2  3 1 16 1 1

                          12.11

Esta aproximación a ji-cuadrada es adecuada siempre y cuando k y m no sean mayores de 5 y las matrices de varianza-covarianza se deriven de al menos 20 observaciones (Davis, 1983). Tabla 12.4a Medidas anatómicas del cráneo del canguro Macropus f. fuliginosus (machos) Tomados de Andrews y Herzberg (1985) No. de ejemplar

Amplitud nasal

Profundidad escamosal

Amplitud post orbital

Amplitud de la cresta

1 278 280 262 151 2 237 203 254 172 3 216 196 230 110 4 247 192 290 189 5 226 194 235 114 6 232 198 217 104 7 233 221 210 60 8 255 224 213 78 9 218 173 249 172

10 262 243 236 129 11 200 176 253 138 12 246 237 258 149 13 259 229 222 125 14 240 177 243 118 15 206 155 242 160 16 231 169 261 151 17 239 215 239 126 18 263 204 240 111 19 275 239 207 80 20 234 193 240 144 21 253 193 242 119 22 250 205 265 115 23 208 185 243 134 24 255 230 233 106 25 202 176 260 140

Page 210: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

203  

Tabla 12.4b Medidas anatómicas del cráneo del canguro Macropus f. fuliginosus (hembras). Tomados de Andrews y Herzberg (1985) No. de ejemplar

Amplitud nasal

Profundidad escamosal

Amplitud post orbital

Amplitud de la cresta

1 213 180 230 139 2 222 190 217 178 3 250 201 236 145 4 232 176 274 214 5 219 188 235 118 6 190 138 247 167 7 218 197 190 78 8 244 198 253 188 9 221 166 231 160

10 191 156 217 137 11 167 152 226 155 12 197 172 214 153 13 214 162 248 170 14 205 203 225 122 15 195 160 220 181 16 196 154 230 169 17 230 183 234 172 18 167 131 217 198 19 205 171 246 154 20 171 152 240 199 21 222 282 228 138 22 217 167 234 153 23 212 190 256 200 24 212 172 241 170 25 199 182 235 167

Como ejemplo de esta prueba se utilizan los datos de medidas craneales de 25 machos y 25 hembras del canguro Macropus f. fuliginosus utilizados como referencia para la identificación de tres especímenes históricos llevados a Francia en 1803 (Andrews y Herzberg, 1985). De las 18 variables incluidas para este ejemplo se consideraron cuatro: amplitud nasal, profundidad escamosal, amplitud post orbital y amplitud de la cresta. Se calcula el estadígrafo M (ecuación 12.8):

  25 25 2 ln 2.261 10   24ln 1.491 10  24ln  2.463 10

 7.9388936

Page 211: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

204  

Como se tienen dos grupos (k = 2) se utiliza la versión simplificada para el factor de conversión (ecuación 12.11)

1  2 4  3 4 1 2 1

6 4 1 2 25 10.97013889

El valor correspondiente de 2 se calcula con la expresión 12.10:

7.9388986 0.97013889 7.7018294

Con (1/2)(2 – 1)4(4 + 1) = 10 grados de libertad. El valor de tablas con = 0.05 es 18.307, por lo que se puede considerar, con una confianza del 95 % que las matrices de varianza-covarianza son semejantes. Tabla 12.5 Vectores de medias y Matrices de varianza-covarianza para medidas craneales de canguros por sexo Medias de machos

238.60 204.28 241.76 127.80 Medias de hembras

208.36 176.92 232.96 161.00 S1, determinante = 1.491 × 1010

479.91667 495.86667 -67.97500 -177.25000 495.86667 814.71000 -136.13833 -277.44167 -67.97500 -136.13833 372.10667 479.11667

-177.25000 -277.44167 479.11667 929.66667 S2, determinante = 2.463 × 1010

456.240000 371.32167 100.72333 -86.791667 371.321670 846.91000 -18.42000 -309.875000 100.723330 -18.42000 276.62333 310.458330 -86.791667 -309.87500 310.45833 887.416670

Sp, determinante = 2.261 × 1010 468.078330 433.594170 16.374167 -132.02083 433.594170 830.810000 -77.279167 -293.65833 16.374167 -77.279167 324.365000 394.78750

-132.020830 -293.658330 394.787500 908.54167 Inversa de la matriz varianza-covarianza conjunta

0.00441628 -0.00225098 -0.00138977 0.00051807 -0.00225098 0.00253753 0.00025057 0.00038421 -0.00138977 0.00025057 0.00713182 -0.00321994 0.00051807 0.00038421 -0.00321994 0.00269929

Habiendo comprobado la igualdad de las matrices varianza-covarianza se procede a la prueba multivariada de medias (expresión 12.5):

Page 212: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

205  

25 2525 25

      65.812719

que transformado a F da (ecuación 12.6):

 25 25 4 125 25 2 4

 65.812719 15.424856

El valor de tablas con m = 4 (glnum) y 25 +25 – 4 – 1 = 45 (glden) es F.95,4,45 = 2.579, por lo que no es posible aceptar que los vectores de medias entre machos y hembras sean iguales. Esto sugiere un dimorfismo sexual en esta especie de canguros.

Page 213: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

207  

Capítulo 13. Introducción a Stata Stata es un programa de análisis estadístico completo. Sus capacidades van de la estadística descriptiva hasta métodos de análisis más avanzados. Desde su aparición, entre los componentes de mayor interés del programa se encuentran las rutinas de graficación (casi todas las gráficas del presente libro se efectuaron con Stata). Las últimas versiones del Stata proporcionan gráficas de alta calidad y definición en adición a los procedimientos y avances más recientes para el análisis gráfico de la información. La siguiente explicación trata de ser una guía para el uso de las funciones básicas de este programa y está basada principalmente en la obra de Hamilton (1990b) y en las guías de Referencia de la versión 11 (StataCorp, 2009). Conviene aclarar que Stata reconoce la diferencia entre letras mayúsculas y minúsculas por lo que debe respetarse la forma en la que se indica el tecleo de las órdenes. 13.1 Entrada a Stata

a) Para utilizar el programa basta con seleccionar con el ratón “Iniciar”-“Todos los programas”-“Stata XX” (donde XX es por la versión instalada); o bien oprimir el botón izquierdo del ratón sobre el acceso directo a Stata. Después de algunos instantes aparecen las ventanas de la versión de interfase gráfica para usuario (Windows): la principal es donde se despliega la información de texto (Resultados); a la izquierda están las ventanas de Review y Variables las cuales despliegan las órdenes (comandos) que se dan y las variables cargadas a la memoria respectivamente. En la parte inferior aparece la ventana Command, en la que se escriben las órdenes para Stata. En la ventana de resultados aparece el indicador de entrada de comandos, que en Stata es un punto ".", el cual señala al usuario que el programa está listo para recibir órdenes.

b) La información inicial al entrar al programa da información sobre la cantidad de memoria asignada a los datos y le número máximo de variables que se puede manejar. En el caso de la versión SE 11 se tienen 50 Mb para datos y el máximo de variables es de 5000 (una capacidad considerable). Conviene conocer otras especificaciones iniciales del programa; para esto se teclea "query", para conocer los parámetros básicos de operación de Stata, tales como las características de la pantalla utilizada (modo gráfico, tamaño de pantalla y caracteres, etc.), el directorio de los archivos de ayuda, entre otros.

Page 214: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

208  

13.2 Introducción y edición de datos Una manera simple de introducir datos en una interfase gráfica para el usuario (Windows) consiste en “seleccionar, copiar y pegar”. Es decir, los datos se seleccionan en otro programa, por lo general una hoja de cálculo, se selecciona el intervalo de celdas con la información que se desea trasladar a Stata, se “copia” (CTL-C o bien Click auxiliar “Copiar” o el método favorito en el ambiente gráfico) se cambia a Stata, se abre el “Editor de Datos” sea con el comando “edit” o bien dando click en el botón de editor, y “pegar” (CTL-V ó click con botón derecho y click en “pegar”). Otra forma es utilizando los menús de caída. Siguiendo la convención de “Getting Started with Stata for Windows” (StataCorp, 2009) para el uso de apuntar y seleccionar (click) se tiene la siguiente secuencia general: Menú > Item de menú > Item de submenú > etc. Para la lectura de datos del tipo de Stata (guardados con el comando “save” con la extensión “.dta”) se tiene: 1.- Seleccionar File > Open 2.- En el cuadro de diálogo, buscar la Carpeta con datos 3.- Click el archivo deseado. Si los datos no son del tipo Stata se usará para tipo ASCII (texto) sin formato: 1.- Seleccionar File > Import 2.- Seleccionar “Unformatted ASCII data” 3.- Click en el archivo deseado y proporcionar el nombre de las variables incluidas. Este paso requiere conocer las variables contenidas en el archivo de texto.

Es posible importar datos ASCII en otros arreglos, así como los creados por hoja de cálculo tipo Excel seleccionando la opción correspondiente.

A continuación, otras formas para introducción de datos.

a) Introducción de datos. Existen varias maneras de introducir la información para su procesamiento. La primera es utilizar el comando: input cuando el número de datos no es muy grande. Basta con teclear input y enseguida el nombre de las variables a introducir separadas por un espacio. Por ejemplo, si se desean introducir tres variables (longitud, peso y altura) se deberá teclear: input longitud peso altura. Una vez hecho 2lo anterior aparecen en pantalla los nombres de las variables y el número 1 que solicita el primer conjunto de datos. A continuación hay que teclear

Page 215: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

209  

los valores separados por espacios y ENTER, pasando al renglón 2. Al finalizar con la introducción de datos basta con teclear "end" para regresar al indicador. El programa utiliza el símbolo "." para indicar un valor faltante (missing value), por lo que en lugar de dejar un espacio se debe teclear un punto con el fin de señalar estos valores. Para revisar los valores introducidos se puede utilizar el comando "list" (listar). Si en el listado aparecen errores se pueden corregir mediante el comando "replace".

b) Reemplazo de datos (replace). Si durante la entrada de datos ocurren equivocaciones es posible corregirlas mediante el comando "replace" en combinación con el nombre de la variable, el valor correcto y el renglón en el cual se encuentra el error. Por ejemplo, si en el segundo renglón se introdujo un valor incorrecto (233, en lugar de 23) de la variable altura se debe teclear: replace altura=23 in 2

c) Salvado de datos (save). Antes de salir del programa conviene grabar en el disco de datos la información introducida, para lo cual se necesita teclear el comando "save" y el nombre del archivo (Stata automáticamente agrega la extensión ".dta"). El archivo se guardará en la carpeta de trabajo. Para saber cual es esta carpeta es conveniente el uso del comando “pwd”. Si se quiere cambiar, se especifica la dirección completa. Así, si queremos grabar en la carpeta “misdatos” del disco duro “c” los datos de longitud, peso y altura en un archivo que se llame "datopez" se tecleará: save c:\misdatos\datopez.dta (la extensión puede omitirse; no se recomienda el uso de otra extensión, ya que estos archivos sólo pueden ser leídos por Stata). Si el archivo ya existe no podrá realizarse la operación. Si el archivo se grabó anteriormente y al usarlo modificamos algunos valores para salvar la información se tecleará al final "replace" (reemplazar). Si se quiere cambiar de carpeta de trabajo basta con teclear la nueva dirección después del comando “cd”: cd c:\misdatos Posteriormente basta con escribir: save datopez.dta

d) Ordenamiento (sort). Para la adecuada función de algunos comandos es necesario ordenar a los datos de acuerdo a alguna variable. Para ello se utiliza el comando "sort" (ordenar) y posteriormente el nombre

Page 216: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

210  

de la variable. Por ejemplo, si se desea ordenar los datos de peces por el peso se teclea: sort peso

e) Importación de datos en ASCII (infile). Para manejar una cantidad considerable de datos conviene introducirlos y grabarlos en disco por medio de un procesador de palabras (Wordpad, MS Word, etc.), de una hoja electrónica de datos (como Excel o 1-2-3 de Lotus) o de un gestor electrónico de bases de datos (Data Base III +) y grabarlos en un archivo tipo ASCII antes de utilizar Stata. Para leer este tipo de archivos por medio del Stata además de la forma presentada al inicio de este apartado, hay que teclear después del comando "infile" el nombre de las variables, la indicación de uso del archivo y el nombre del archivo con la información. Por tanto, si existe el archivo en ASCII "datopez.prn" en la carpeta “misdatos” del drive c: se teclea lo siguiente: infile longitud peso altura using c:\misdatos\datopez.prn Al finalizar la lectura de los datos aparece un mensaje del número de observaciones leídas. Para verificar los datos conviene utilizar "list" (listar) o "summarize" (resumir). Con los datos en la memoria, se usa el comando “save” para guardar la información en un archivo tipo Stata. Una vez realizado lo anterior podemos utilizar el archivo por medio del comando "use". Al arrancar Stata puede manejar como un valor pre-establecido para el número de variables y de datos que depende de la memoria física del sistema. Un ejemplo en el uso del Stata 11 SE puede ser de 5000 variables y más de 5 millones de observaciones. Si el número de observaciones a trabajar es mayor hay que utilizar el comando "set maxobs no." (establecer el número máximo de observaciones), por ejemplo, si tenemos un poco menos de 10 millones de datos resulta razonable teclear: set maxobs 100000 El aumento en el número máximo de observaciones trae como consecuencia una disminución proporcional en el número de variables que el programa puede manejar.

f) Selección de datos. Con el Stata es posible seleccionar de varias maneras subgrupos de datos. Se puede indicar al programa que se quiere utilizar un dato de un renglón en particular y para ello se utiliza el selector "in"; por ejemplo: list peso in 6

Page 217: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

211  

producirá el desplegado de la variable peso del sexto renglón. También es posible desplegar intervalos de renglones: list peso in 1/20 desplegará en pantalla los primeros 20 valores. Asimismo, es posible seleccionar cualquier valor que cumpla con una cierta condición de búsqueda. De esta forma si queremos considerar los valores del peso para las alturas mayores de 10 teclearemos: list peso if altura > 10

Las operaciones que se pueden manejar con el selector if son: > mayor que < menor que >= mayor igual <= menor igual != diferente (también ~=) == igual Nótese que el signo "==" es diferente del operador algebraico "=". Conviene utilizar este comando en combinación con "sort", para observar los valores ordenados.

El prefijo "by" puede utilizarse también para analizar subgrupos de datos. De esta forma, si existe la variable "sexo" en el archivo "datopez" anteriormente utilizado, podemos procesar los datos por cada sexo. Por tanto si deseamos la lista de valores de longitud por sexo, es necesario primero ordenar por sexo: sort sexo y después teclear: by sexo: list longitud La variable utilizada con by debe ser una variable de clasificación (categórica).

g) Resumen de estadísticos (summarize). Para obtener un resumen básico de los datos contenidos en los archivos se emplea el comando summarize (resumir). De esta manera si se desea tener un resumen de los valores contenidos en las variables del archivo datopez tecleamos: summarize

Page 218: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

212  

que proporciona un listado con el nombre de las variables, el número de observaciones, la media, desviación estándar y los valores mínimo y máximo.

h) Creación de variables nuevas (generate). Stata puede utilizar operadores algebraicos y funciones matemáticas para generar nuevas variables a partir de los valores existentes. De esta forma se puede crear una variable nueva que contenga, por ejemplo, la diferencia de dos variables tecleando el comando "generate" (generar), el nombre de la nueva variable, el signo = y la operación que la define, en este caso una resta: generate diferen=longitud-altura Si se requieren los valores logarítmicos de la longitud y el peso se deberá teclear: generate logpeso=log(peso) y generate loglon=log(longitud) la función log(x) proporciona logaritmos neperianos, por lo que para obtenerlos en base 10 hay que dividir entre el logaritmo natural de 10 o utilizar la función 1og10(). 13.3 Estadística descriptiva univariada Como se describió anteriormente, Stata proporciona estadísticos descriptivos básicos por medio del comando "summarize" (número de observaciones, media, desviación estándar, mínimo y máximo). Se pueden obtener más estadísticos agregando la opción "detail" (detalle); las opciones se teclean después de una coma. Este comando opcional agrega al desplegado percentiles (1, 5, 10, 25, 50, 75, 90, 95 y 99), la varianza, el sesgo y la curtosis. Estos últimos índices pueden reemplazarse por comparaciones menos formales pero más resistentes o robustas. En primer lugar la comparación de media y mediana proporciona un medio para analizar la asimetría (sesgo), ya que se conocen las siguientes relaciones:

media>mediana (sesgo positivo) media=mediana (simétrica) media<mediana (sesgo negativo)

Page 219: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

213  

La curtosis se refiere al grado de achatamiento o agudeza relativa de

una distribución en relación a la distribución normal. Un indicador de la curtosis más robusto es comparar la desviación estándar con la F-pseudosigma (el recorrido intercuartílico o dispersión de los cuartos, dividido entre 1.349; capítulo 2), que es el equivalente resistente de la desviación estándar:

d.s. > F.P. (dist. puntiaguda) d.s. ÷ F.P. (dist. aprox. gaussiana)

d.s. < F.P. (dist. achatada)

La distribución de variables categóricas se pueden examinar más fácilmente por medio del comando "tabulate" (tabular). Así volviendo al ejemplo de los datos de los peces, si queremos analizar la distribución de la variable sexo basta teclear: tabulate sexo para obtener una tabla del número y porcentajes de machos y hembras.

La opción "plot" (graficar) proporciona un gráfico de barras en modo texto para los valores de frecuencia de cada categoría.

Este comando proporciona una tabla de dos vías si se especifica el

nombre de dos variables. Si se tuviera la variable categórica clase (de edad) en el archivo datopez podríamos analizar la frecuencia por sexos y clases de edad tecleando: tabulate sexo clase

Existen cinco opciones importantes para la tabulación cruzada: column porcentajes de columnas row porcentajes de renglones cell porcentajes totales nofreq la frecuencia de las celdas no se muestra chi2 prueba de independencia de chi-cuadrada

Conviene aplicar las recomendaciones de Marsh (1988; capítulos 7 y 8) para la especificación de porcentajes de filas y columnas.

Page 220: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

214  

13.4 Análisis gráfico de datos Stata dibuja gráficas mediante varios comandos. El primero es “graph”: Comando Descripción graph twoway gráficos de dispersión, de línea graph matrix matrices de gráficos de dispersión graph bar gráficos de barras graph dot diagrama de puntos graph box diagrama de caja y bigotes graph pie gráfico circular Otros comandos gráficos importantes son: Comando Descripción histogram Histogramas symplot gráficos de simetría quantile gráficos de cuantiles qnorm gráficos de cuantiles normales pnorm gráficos de probabilidad normal,

estandarizados qchi gráficos de cuantiles de ji-cuadrada pchi Gráficos de probabilidad de ji-

cuadrada qqplot gráficos cuantil-cuantil gladder gráficos de escala de potencias qladder cuantiles de escala de potencias spikeplot spikeplots and rootograms dotplot medias o medianas por grupo sunflower gráficos de flor para distribución de

densidad

Además de los anteriores Stata puede producir gráficos especializados para suavización no paramétrica (densidad uni y bivariada, polinomial), diagnóstico de regresión (leverage plots, gráficos de estimados contra residuos, entre otros), series de tiempo (correlogramas, periodogramas, gráficos de autocorrelación y correlación cruzada), modelos autorregresivos de vector, datos longitudinales o en panel, análisis de supervivencia, análisis de riesgo, multivariado, control de calidad, entre los principales.

En general este comando puede emplearse en combinación con los selectores "in", "if" y en la mayoría con "by". Cada estilo también ofrece una

Page 221: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

215  

variedad de opciones más especializadas que permiten un control adicional sobre lo que se grafica y la manera como lucirá.

a) Histogramas. Para obtener un histograma de los valores de una variable basta con teclear el comando "histogram" y el nombre de la variable. Al utilizar la información de datopez para obtener un histograma de la talla de los peces se teclearía: histogram longitud En breves momentos aparece en la pantalla el histograma con el número pre-establecido de clases de acuerdo a la regla k = min{sqrt(N), 10*ln(N)/ln(10)} en donde k es el número de clases. Esta regla surge de las sugerencias de (Hoaglin, 1983; Geiger, 1991 y Velleman, 1976) quienes recomendaban usar 10*log10N para más de 20 datos, o n1/2 con menos observaciones. Este valor puede cambiarse por medio de la opción "bin()", colocando dentro del paréntesis el número de clases que se crea conveniente o aquél resultado de alguna otra expresión ideada para determinar la cantidad de intervalos (Sturges, Scott, etc.).

Al histograma se le puede sobreponer una curva normal agregando a

la orden la opción "normal". En el tipo nuevo de gráficas la curva normal tiene la media y desviación estándar de los datos. Con los comandos anteriores además, es posible controlar a la curva normal incluyendo entre paréntesis la mediana y la F-pseudosigma para tener una curva normal resistente (graph7 longitud, bin(5) normal(18,0.75)).

Es posible construir gráficos múltiples por medio del comando "by". Para esto hay que ordenar por la variable de agrupamiento y agregar la opción by al final de la orden. Si se desea la gráfica del total de datos se deberá agregar la opción "total". Utilizando el ejemplo del archivo datopez, podríamos observar el comportamiento de la frecuencia de tallas a través de histogramas con 10 clases, una curva normal sobrepuesta, por sexo y total tecleando:

histogram longitud, bin(10) normal by(sexo, total) Esta orden proporciona cuatro histogramas (machos, hembras, indeterminados y el total).

b) Diagramas de caja y bigotes. Como se ha comentado en esta obra, en el año de 1977 apareció la versión formal de la obra de J. Tukey denominada "Exploratory Data Analysis". En ella el Dr. Tukey describe un diagrama basado en estadígrafos resistentes que permite la visualización de la distribución de los datos que él llamó "diagramas de caja y bigote" (ver capítulo 3). En estos diagramas la medida de tendencia central es la

Page 222: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

216  

mediana, la dispersión queda indicada por el recorrido intercuartílico (descritos en el capítulo 2 y 3 como "dispersión de los cuartos"), los bigotes indican todos aquellos valores que no son casos extraordinarios (hasta los “valores adyacentes”). Los casos extraordinarios (outliers) se indican con símbolos separados más allá de los "bigotes". Para obtener estos diagramas se teclea el comando “graph box” y el nombre de la(s) variable(s) que se desea analizar. En breve aparece el diagrama de caja simple. Si se quisiera analizar la variable altura del archivo datopez se teclearía: graph box altura

Este tipo de diagramas permite la comparación gráfica de la distribución de varios lotes de datos agrupados por alguna variable. Para lograr esto se utiliza la opción over(), colocando en el paréntesis el nombre de la variable de agrupamiento (también es posible considerar en el mismo gráfico la opción "total"). En esta forma si se desea observar la distribución de la altura por sexos en un solo gráfico basta teclear (después de ordenar por sexo): graph box altura, over(sexo)

En ocasiones es conveniente colocar una línea horizontal que sirva de referencia. Para lograr esto se utiliza la opción "yline(y)", colocando en el paréntesis el valor de y correspondiente. Si se desean gráficos independientes para cada grupo se puede utilizar la opción by(). Igualmente se puede agregar total.

c) Es posible utilizar otra forma para observar varias distribuciones por medio de los gráficos de tipo anterior. Para ello se especifica la construcción de un gráfico de dispersión unidimensional (oneway scatterplots) modificados de Chambers (1983) en combinación con diagramas de caja. Aplicando al ejemplo anterior la orden sería: graph7 altura, oneway box by(sexo) Observar que para utilizar el tipo de gráficos anteriores de Stata se utiliza “graph7” (ó en breve “gr7”). Esta combinación contiene el desplegado visual de estadísticos resumen como la mediana y los cuartiles así como el gráfico de dispersión unidimensional que muestra la posición de cada dato. De esta forma ambos gráficos se complementan.

d) Gráficos de dispersión bidimensionales. Los gráficos bidimensionales son el tipo más versátil dentro de los diagramas de análisis. En las gráficas nuevas de Stata el comando "scatter" seguido por el nombre de dos variables construye un gráfico de dispersión

Page 223: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

217  

bidimensional (y primero, x en segundo lugar). Por ejemplo, si se desea graficar el peso contra la longitud del archivo datopez: scatter peso longitud Las gráficas anteriores de Stata tienen unas variaciones muy potentes para el desplegado de datos bidimensionales, si bien su presentación es más sencilla. Por ejemplo, es posible combinar un gráfico bidimensional de dispersión con diagramas univariados de dispersión y con diagramas de caja y bigotes para cada conjunto de valores (x,y): graph7 peso longitud, oneway twoway box

Pueden utilizarse diversos símbolos para representar a cada punto. La opción que permite lo anterior es "symbol()" en la cual dentro de los paréntesis se colocan claves de acuerdo a la siguiente tabla: Estilo de símbolo Sinónimo (si existe) Descripción Círculo O Relleno Diamante D Relleno Triángulo T Relleno Cuadrado S Relleno Símbolo más + Equis (X) X Círculo pequeño o Relleno Diamante pequeño d Relleno Cuadrado pequeño s Relleno Triángulo pequeño t Relleno Equis pequeña x Circulo vacío Oh Vacío Diamante vacío Dh Vacío Triángulo vacío Th Vacío Cuadrado vacío Sh Vacío Círculo pequeño vacío oh Vacío Diamante pequeño vacío dh Vacío Triángulo pequeño vacío th Vacío Cuadrado pequeño vacío sh Vacío Punto p Punto pequeño Ninguno i Símbolo invisible

Page 224: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

218  

Con la opción “mlabel” es posible especificar etiquetas para los puntos. Por ejemplo el número de observación: gen orden = _n scatter peso longitud, mlabel(orden) ó bien, otra variable con información adicional: scatter peso longitud, mlabel(especie)

Los puntos en un gráfico pueden unirse de varias formas, a través de la opción “connect()”. Dentro del paréntesis se pueden colocar alguna de las siguientes claves: Estilo de conexión Sinónimo Descripción Ninguno i Sin conexión Directo l Conecta con líneas rectas Ascendente L Directo, pero sólo si x[j+1] > x[j] Escalón a J Horizontal, luego vertical Escalón b stepstair Vertical, luego horizontal

e) Gráficos de dispersión en modo de texto. Es posible también producir gráficos bidimensionales utilizando símbolos tipográficos ordinarios en lugar de gráficos de alta resolución. Tales gráficas pueden editarse por medio de un procesador de palabras e incorporarse fácilmente en un reporte escrito. Por ejemplo, para graficar el peso contra la longitud se teclearía: plot peso longitud

f) Matriz de gráficos de dispersión. La matriz de gráficos de dispersión es un arreglo en el cual se muestran gráficos bidimensionales para cada combinación posible de las variables consideradas (ver capítulo 10). Para obtener este gráfico se introduce el comando "graph matrix" seguido de la lista de variables a considerar. La organización de la matriz de gráficos de dispersión es como la de una matriz de correlación. Las matrices de correlación son ampliamente utilizadas, sin embargo no muestran indicio alguno de la existencia de tendencias curvilíneas o casos extraordinarios en los datos. Tanto en la matriz de correlación como en la de gráficos de dispersión, la diagonal superior es redundante de la inferior, por lo que se puede elegir considerar tan sólo la mitad inferior con la opción "half", al final de la orden.

Page 225: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

219  

Estas matrices gráficas se vuelven difíciles de observar al incluir un número grande de variables. No obstante, Stata puede dibujar una matriz de 30 por 30 variables.

g) Stata puede dibujar gráficos de barras, por medio del comando "graph bar (estadístico) vary, over(catvar)", en donde estadístico se refiere al valor deseado (media, mediana, suma, cuenta, etc.) y dentro de los paréntesis de la opción “over” se incluye alguna variable categórica.

h) Los gráficos de pastel (o de sectores) se indican mediante la combinación "graph pie lista de variables". También es posible utilizar la opción "by()".

i) Un método para mostrar información multivariada en dos dimensiones es el gráfico de estrella. Cada caso es representado por una figura pequeña, con líneas radiales de longitud proporcional al valor relativo de cada variable (hasta 16). La sintaxis de la orden es: "graph7 lista de variables, star". Con estos gráficos no se puede utilizar la opción "by".

j) A todas las gráficas pueden agregarse etiquetas (rótulos). Para las gráficas bidimensionales de dispersión (scatter), existen dos etiquetas izquierdas: "l1" y "l2"; cuatro etiquetas superiores: "t1", "t2", “subtitle” y “title”; dos etiquetas derechas: "r1" y "r2"; y cinco etiquetas inferiores: "b1", "b2", “legend”, “note” y “caption”. En las etiquetas izquierdas y derechas aquéllas con el número 2 son las que se encuentran más alejadas de los ejes de la gráfica, en las superiores es “title” y en las inferiores “note” y “caption” las cuales además están situadas en el ángulo inferior izquierdo y no al centro como las demás. Así, por ejemplo, en el caso de la gráfica de dispersión bidimensional para el peso y longitud de peces se podría especificar el nombre de los ejes y y x, así como el título de dicha gráfica tecleando lo siguiente: scatter peso longitud, l1("Peso total (gr)") b2("Longitud patrón (mm)") ti(Gráfica 1 Relación Longitud-Peso) en pocos instantes aparecería la gráfica con el título Gráfica 1 Relación Longitud-Peso y con ejes “Peso total (mm)” a la izquierda y “Longitud patrón (mm)” bajo el eje de las x's.

k) Stata permite grabar las gráficas en un archivo para su uso posterior o para su impresión. Por ejemplo, la gráfica de peso longitud

Page 226: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

220  

considerada anteriormente puede salvarse agregando la opción "saving(nomarchi)” al comando graph (“nomarchi” se refiere al nombre del archivo): scatter peso longitud, saving(figura1) La extensión .gph se agrega automáticamente a la imagen grabada si no se especifica otra diferente (lo cual no se recomienda). Las posibilidades gráficas (y analíticas) de Stata solamente se han bosquejado en el presente resumen. Para mayor información consultar a Hamilton (1990b) y a los manuale de referencia del programa (Computing Resource Center, 1990; StataCorp, 2009).

l) Se tienen varios métodos para imprimir una gráfica de Stata. Si la gráfica está en pantalla, se da sobre ella un click derecho y se elige “print”. Si la gráfica se guardó en disco en el directorio de trabajo y con el nombre de “figura1”, se usa:

graph use figura1 graph print

Si la gráfica está almacenada en la memoria (supongamos que con el nombre de “figura1”) pero no está desplegada entonces se teclea: graph display figura1 graph print En todos los casos el comando graph print abre un cuadro de diálogo con las impresoras del sistema permitiendo elegir la deseada. Las gráficas pueden exportarse a otros formatos (postscript, postscript encapsulado, Windows metafile normal y mejorado (enhanced), pdf, png (Portable Network Graphic), TIFF, entre otros (con el comando “graph export”).

m) Además de su impresión, se pueden hacer varias cosas con las gráficas grabadas. Pueden leerse y desplegarse en pantalla nuevamente mediante el comando "graph use". Por ejemplo, para observar la gráfica de peso longitud: graph use figura1 Las gráficas salvadas pueden combinarse en gráficas nuevas mediante el comando “graph combine”, por ejemplo: graph combine figura1 figura2 figura3 figura4, saving(figura5)

Page 227: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

221  

Dando click derecho sobre la gráfica puede elegirse “copy” y pasarse a otro programa (de gráficos, de texto, etc.) y quedar incluida en un reporte o para alguna edición especializada posterior.

De esta forma se puede combinar cualquier número de gráficas, capacidad que proporciona una gran versatilidad en la graficación de datos. (Para una descripción completa de las opciones y comandos del Stata consultar el Manual de Referencia (Computing Resource Center, 1989 y 1990a); la guía del Usuario o el manual de gráficas (Statacorp (2009); a Hamilton, 1990b, al Boletín Técnico de Stata (Stata Technical Bulletin, publicación periódica bimensual) o al Stata Journal (revista indexada especializada versión actual del anterior boletín). 13.5 Procedimientos exploratorios complementarios en Stata En adición a los métodos mencionados arriba, Stata contiene una serie adicional de procedimientos exploratorios:

a) Diagramas de Tallo y Hoja. Stata puede realizar diagramas de tallo y hoja mediante el comando "stem" (Computing Resource Center, 1991; StataCorp, 2009). Para realizar este diagrama con los datos de longitud se teclea: stem longitud Este comando puede emplearse con "if" e "in". Posee la opción "short" que evita el desplegado de tallos sin hojas.

b) Re-expresión de datos para promover gaussianidad (normalidad). Stata proporciona dos comandos que proporcionan indicaciones sobre la transformación de los datos. La orden "ladder" (escala) produce una tabla con nueve transformaciones potenciales de la escala de Tukey (especificadas por nombre y fórmula), el valor de Chi-cuadrada calculada y la probabilidad de su ocurrencia (de acuerdo a una prueba de "bondad de ajuste", Gould, 1991). Para verificar la distribución de la longitud de peces de un sólo grupo de edad (un componente gaussiano) y crear una nueva variable con los valores re-expresados se deberá teclear: ladder longitud if clase==1, generate(longitran) Este comando puede usarse también con el selector "in".

El comando "gladder" produce un arreglo de nueve histogramas (uno para cada re-expresión de la escala de potencias de Tukey). Aplicado a los datos de longitud se deberá teclear:

Page 228: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

222  

gladder longitud if clase==1 y se obtendrán nueve histogramas con curvas ajustadas. Si no se especifica la opción "bin()", el número de intervalos es el recomendado por las expresiones explicadas en el capítulo 1 y por Geiger (1991). Con este comando se pueden utilizar las opciones para gráficas y el selector "in" (Gould y Hilbe, 1991).

Por otra parte, existe también un programa (transfor.do) que permite la aplicación de siete transformaciones potenciales a un conjunto de datos y que produce una tabla con estadísticos básicos (media, mediana, sesgo, curtosis, desviación estándar, F-pseudosigma, y dos intervalos de confianza), una serie de histogramas (con curva gaussiana sobrepuesta) para cada transformación y gráficos de dispersión univariados con diagramas de caja sobrepuestos (Findley, 1991). Aplicado a los pesos de los peces teclearíamos: run transfor peso Con esta información se puede elegir la re-expresión que hace simétrica y gaussiana a la distribución de los valores.

c) Pulido de Mediana (Tukey's Two-Way Analysis). Para ajustar con Stata un modelo aditivo a una tabla de dos vías con tres variables, se utiliza el comando "t2way5" modificado de la propuesta original (Computing Resource Center, 1990) por Cox (1998), el cual produce como resultados una tabla con el término común y los efectos de fila y columna así como una gráfica que muestra el tamaño y signo de los residuos. Por ejemplo, para analizar el peso de los peces de acuerdo al sexo (variable de fila), la clase de edad (variable de columna) y obtener la gráfica de residuos (especie de tabla codificada simplificada) se teclearía: t2way5 sexo clase, summ(peso) graph d) Estimación de densidad por kernel. Además de los programas y comandos introducidos en el Capítulo 4 basados en Salgado-Ugarte (2002), Stata contiene un comando para calcular histogramas suavizados: “kdensity”. Para obtener el estimador de densidad de la variable longitud se escribe: kdensity longitud, gauss

Cabe aclarar que el programa, en forma pre-establecida calcula y utiliza la banda óptima de Silverman (Silverman, 1986; Salgado-Ugarte, 2002) para kernel gaussiano, por lo que es necesario agregar la opción “gauss” en el comando. Este comando tiene varias opciones útiles, entre

Page 229: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

223  

las que se menciona “at”, opción que permite utilizar los valores deseados para hacer los cálculos guardados en una variable haciendo posible la utilización de los mismos puntos de cálculo para toda una serie datos, por ejemplo los datos de longitud de cada mes a lo largo de los años.

Page 230: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

225  

Capítulo 14. Introducción a MINITAB MINITAB es un sistema de análisis de datos de propósito general para la organización, análisis y reporte estadístico de datos. Este paquete proporciona al usuario un amplio repertorio de funciones matemáticas básicas y estadísticas de alto nivel pero de fácil uso. En las últimas versiones además de poseer una estructura directa de comandos cuenta con una interfase gráfica muy conveniente con las opciones más comunes. Los comandos del Minitab son intuitivamente fáciles de usar y recordar debido a que imitan la manera en que pensamos para realizar análisis estadístico (Ryan et al., 1985). Para entrar a Minitab se sigue la siguiente secuencia de opciones: Inicio Programas Minitab Solutions Minitab 15 Statistical Software English.

En cuanto a rutinas exploratorias, MINITAB es el programa que, por estar basado en los algoritmos contenidos en la obra de Velleman y Hoaglin (1981), contiene las principales rutinas del Análisis Exploratorio de Datos.

El siguiente resumen está basado en el "Manual del MINITAB" (Ryan et

al., 1985) en la "Guía del Usuario de MINITAB" (MINITAB, 1989), en el Minitab Reference Manual Release 11 (Minitab Inc. 1996) y en “Meet Minitab” (Minitab Inc., 2007). Además de la interfase gráfica para el usuario, Minitab está constituido por una hoja electrónica que permite el almacenamiento de datos y el empleo de unos 150 comandos. El uso de las ventanas en Minitab para los procedimientos revisados en la presente obra se presentará en el apartado correspondiente. A continuación se presenta un resumen sobre el uso de los comandos. Al abrir el programa, aparecen las ventanas Session (Sesión) y Data (Datos). Para activar el uso de comandos es necesario seguir la siguiente secuencia de opciones en la barra de menús: Editor Enable Commands. Esta elección permitirá escribir y recuperar los comandos en la ventana de Sesión.

En la hoja electrónica de Minitab se pueden almacenar columnas de datos y valores constantes únicos. Las columnas se denotan con la letra C y un número, esto es, C1, C2, C3,... las cuales pueden tener nombres. Las constantes almacenadas se indican mediante la letra K y un número (K1, K2, K3,...). El área total de la hoja de trabajo y el número de columnas almacenadas y constantes disponibles depende de la capacidad de memoria de la computadora empleada. El total que se tiene es desplegado al utilizar Minitab. Cuando se desea emplear a Minitab para analizar datos basta con teclear los comandos ó las opciones de los menús que sean apropiados.

Page 231: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

226  

Existen comandos y opciones para leer, editar e imprimir datos; para hacer gráficos e histogramas; para realizar operaciones aritméticas, transformaciones y para efectuar análisis estadísticos variados como pruebas de t, regresión y análisis de varianza.

Para utilizar los comandos en Minitab es necesario seguir ciertas reglas: 1.- Cada comando empieza con un nombre, tal como READ (LEER) o

HISTOGRAM (HISTOGRAMA). La mayor parte de los comandos son seguidos por argumentos. Un argumento es ya sea un número de columna (como C10), un nombre de columna (por ejemplo 'ALTURA'), una constante (tal como 75.34), una constante almacenada (K15), ó el nombre de un archivo.

2.- Sólo las primeras cuatro letras del nombre del comando y de los

argumentos, los cuales deben estar dispuestos en el orden adecuado, son utilizados por el Minitab. Si se desea puede agregarse texto adicional con fines explicativos. Sin embargo, se recomienda sólo utilizar letras y comandos para este texto extra. Nunca utilizar números o símbolos (como ; : - * & o +) puesto que son utilizados de manera espacial por Minitab. Siguiendo estas reglas, el comando READ FOLLOWING DATA INTO COLUMNS C1 AND C2 puede escribirse:

READ DATA INTO C1 AND C2

ó simplemente:

READ C1 C2 3.- Se puede abreviar una lista de columnas consecutivas utilizando un guión.

Por ejemplo, puede utilizarse:

READ C2-C5

en lugar de

READ C2, C3, C4, C5 4.- Las columnas y las constantes almacenadas pueden utilizarse

repetidamente cualquier número de veces. Si almacena datos nuevos en una columna o constante almacenada, el contenido previo se borrará automáticamente.

Page 232: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

227  

5.- Si se teclea un número, no deben incluirse comas. Por tanto debe escribirse 1041 y no 1,041.

6.- Cada comando debe empezar en una línea nueva. No es necesario iniciar

en el primer espacio. Si el comando completo no cabe en una sola línea, finalice la primera línea con el símbolo & (ampersand) y continúe en la siguiente línea. Por ejemplo:

PRINT C2, C4-C20, C25, C26, C30, C33 & C35-C40, C42, C50

14.1 Introducción, edición y desplegado de datos En Minitab 15 para Windows la forma de introducir, editar y desplegar los datos es simple y directa. Para abrir un archivo de datos basta con seguir: File Open Worksheet “nombre del archivo”. De manera preestablecida se leen los archivos grabados por Minitab (con extensiónes *.mtw ó *.mpj), pero es importante aclarar que además es posible importar archivos provenientes de un número muy amplio de formatos (identificados por su extensión): Minitab portable (*.mpj), Excel (*.xls; *.xlsx), Spreadsheet XML (*.xml), Quattro Pro (*.wb1; *.wq1), 1-2-3 (*.wk?), dBase (*.dbf), Text (*.txt), Text (*.csv) y Data (*.dat). No obstante, a continuación se especifican comandos para llevar a cabo estas tareas. a) Los comandos READ (LEER) y SET (ESTABLECER) permiten introducir datos en Minitab. La diferencia es que READ se utiliza para incluir los datos fila por fila, mientras que SET incluye los valores de una columna.

Ejemplo del uso de READ:

READ C2 C3 C5 1 3 980 3 0 1430 2 4 2190

END

Después de lo anterior los datos quedan incluidos en las columnas 2 3 y 5.

Ejemplo del uso de SET

SET into C1 270 236 210 142 280 272 160 220 226 242 186 266

END

Page 233: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

228  

Con esto, los valores quedan incluidos en la columna C1.

Al introducir los datos es conveniente verificar cada línea antes de oprimir la tecla ENTER (INTRO). De esta forma si se descubre un error se puede retroceder y corregirlo. Cuando se ha terminado la introducción de los datos se recomienda imprimirlos en pantalla con el comando PRINT.

b) Constantes almacenadas. Cualquier operación que resulte en una respuesta de un sólo número puede colocar dicho valor en una constante de almacenamiento. Esta constante puede utilizarse en lugar de un número en cualquier comando. SUM (SUMA) es un comando que tiene como resultado un sólo valor. Si C1 contiene los números 5, 3, 6 y 2, entonces SUM C1 calcula 5 + 3 + 6 + 2 = 16. Puesto que la respuesta es un sólo valor, se puede almacenar en una constante. Por ejemplo:

SET C1 5,3,6,2

END SUM C1, PUT IN K1 LET K2 = 4 LET K3 = K1 + K2 - 8 PRINT K1-K3

c) Cálculos aritméticos.- El comando LET (ESTABLECER) hace fácil el

cálculo de expresiones complicadas. Sin embargo, en la mayor parte del análisis de datos se utilizarán tan sólo formas simples de este comando. A continuación se incluye una breve explicación:

LET utiliza los siguientes símbolos:

+ para sumar - para restar * para multiplicar / para dividir ** para elevar a una potencia

Ejemplo:

LET K1 = 3 LET K2 = 5*13 LET K3 = K1+K2+4 SET C1

4 6 5 2 END

Page 234: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

229  

LET C2 = 2*C1 LET C3 = K1*C1 LET C4 = C2+1 LET C5 = C3+C4 LET C6 = C1**2

Después de estos comandos, K1 = 3, K2 = 65 y K3 = 72. La siguiente tabla muestra los contenidos de C1 a C6:

C1 C2 C3 C4 C5 C6 4 8 12 9 21 16 6 12 18 13 31 36 5 10 15 11 26 25 2 4 6 5 11 4

Los paréntesis pueden utilizarse para agrupar operaciones.

d) Corrección de datos. Existen tres comandos útiles para corregir números que se han introducido en la hoja de trabajo: LET (ESTABLECER), DELETE (BORRAR) e INSERT (INSERTAR). Por ejemplo, si el tercer valor de la columna C1 se ha teclado incorrectamente, puede cambiarse utilizando LET y el valor correcto:

LET C1(3) = 1.3

Si se olvidó colocar un valor intermedio en la columna se utiliza INSERT. De esta forma si se omitieron los valores (2.1 y 130) de C1 y C2 en la sexta fila se utiliza:

INSERT (ENTRE LAS FILAS) 5 6 (DE) C1 C2 2.1 130

END

e) Nombre de columnas. Cualquier columna puede nombrarse. El nombre tiene dos propósitos: 1.- La columna puede referirse por su nombre. A menudo es más fácil

recordar el nombre de una variable que el número de la columna que ocupa.

Page 235: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

230  

2.- Todos los resultados estarán rotulados con el nombre. Muchos usuarios encuentran que el nombrar columnas toma un poco de tiempo extra pero éste se ve compensado por una salida de fácil lectura.

Ejemplo: NAME C1 “snow” C2 “rain” C3 “temp”

f) Término de la sesión. Para finalizar basta teclear STOP (PARAR), con lo que se regresa al indicador del sistema operativo. Con las opciones de menú, la secuencia para salir es: File Exit, indicando si se desea ó no guardar el proyecto antes de salir. 14.2 Información adicional sobre Minitab a) Ayuda en Minitab. Si no se recuerda cómo utilizar un comando se puede preguntar al programa. Por ejemplo, para saber acerca del comando SET, basta teclear: HELP SET Minitab responderá con una breve explicación de dicho comando. En general, para obtener ayuda sobre un comando hay que teclear HELP seguido del nombre del comando. Para obtener ayuda acerca del comando de ayuda (HELP), se tiene que teclear: HELP HELP La secuencia con el menú de ayuda es: Help Help para posteriormente elegir de las opciones del cuadro de diálogo: las pestañas (Contenido; Índice; Buscar) o de las opciones desplegadas a la derecha sobre temas y cada uno de los menús.

b) Salvado de hojas de datos. Las hojas de datos salvadas son una manera muy conveniente de almacenar datos en un archivo de computadora para utilizarlas con Minitab. Para salvar un conjunto de datos se utiliza el comando SAVE (salvar). Este comando coloca todos los datos, incluyendo constantes y nombres de columnas en un archivo. Es necesario aclarar el drive que contiene el disco de trabajo. Para salvar los datos en un archivo llamado "EJEMPLO" en el disco de la unidad de disco A se teclea: SAVE “A:EJEMPLO”

Page 236: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

231  

Hay que resaltar que tanto la unidad de disco como el nombre del archivo se escriben entre comillas. Si la unidad con la vía correspondiente no se especifican, Minitab las graba en la carpeta activa.

Posteriormente, ya sea en la misma sesión de trabajo o en otra, se puede hacer uso de los datos mediante el comando RETRIEVE (RECUPERAR). De esta forma para utilizar la información guardada en el archivo "EJEMPLO" contenida en A: RETRIEVE “A:EJEMPLO” Es necesario incluir la especificación de la unidad que contiene al disco con el archivo. La extensión de estos archivos es MTW.

Estos comandos sirven únicamente para salvar y recuperar información en el formato de Minitab; estos datos no pueden manejarse con otros programas.

c) Manejo de la hoja de trabajo. Ocasionalmente es posible no recordar el contenido de una hoja de datos. En estas circunstancias es útil el comando INFO (INFORMACION). Este comando despliega una lista de todas las columnas utilizadas, el número de valores de cada una, su nombre (si se han nombrado) y una lista de todas las constantes almacenadas.

Se pueden eliminar columnas y constantes que no se necesitan. Algunas veces se puede hacer esto para liberar memoria. En otras ocasiones se puede desear borrarlas para evitar un exceso de datos. Para esto se utiliza el comando ERASE (BORRAR). Se puede borrar cualquier combinación de columnas y constantes almacenadas, por ejemplo: ERASE C2 C5-C9 K1-K7 C20

d) Subcomandos. Algunos comandos de Minitab contienen subcomandos. Estos permiten un control adicional sobre el modo de trabajo del comando. Por ejemplo, el comando HISTOGRAM (HISTOGRAMA) escogerá automáticamente una escala para desplegarlo, pero si se desea una diferente puede especificarse usando el subcomando CUTPOINT (PUNTO DE CORTE) e iniciando una secuencia de valores, por ejemplo: HISTOGRAM C1;

CUTPOINT 0:10/1. Con estos subcomandos se especifica una escala con incrementos de una unidad a partir del cero y hasta el 10. Para utilizar un subcomando, al final del comando principal se escribe un punto y coma. Este signo indica que a continuación se escribirá un subcomando. Cada línea de subcomandos debe

Page 237: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

232  

finalizar con un punto y coma mientras existan subcomandos por especificar. La línea del subcomando final debe terminar con un punto. Minitab espera hasta que leer el punto para empezar con los cálculos.

e) Código de dato faltante. Es posible que en el conjunto de datos falten una o más observaciones. Cuando se introducen estos datos con los comandos READ, SET o INSERT, es necesario teclear el asterisco (*) en lugar de un valor faltante. Por ejemplo, READ C1 C2

28 5.6 24 5.2 25 * 24 5.1

END Todos los comandos de Minitab consideran al asterisco (*) cuando realizan un análisis.

Algunas veces se introducen datos en la hoja de trabajo y se descubre que un valor es incorrecto sin ser posible conocer el valor verdadero. Se puede entonces cambiar este valor a *, utilizando una característica especial del comando LET. Por ejemplo, si el valor incorrecto es el quinto número de C18, se usará LET C18(5) = '*' El asterisco debe incluirse entre apóstrofes al utilizarse con el comando LET.

f) Archivos ASCII. Como se mencionó anteriormente, el comando SAVE (SALVAR) permite el grabado de datos en disco. Sin embargo, esos archivos sólo pueden utilizarse con Minitab. Para crear archivos en código ASCII que puedan leerse y editarse con otros programas se utiliza el comando WRITE (ESCRIBIR). También puede utilizarse para imprimir columnas en la pantalla o en papel. La salida es muy compacta. No existe encabezado con el nombre de las columnas ni número de fila a la izquierda. Las columnas siempre se despliegan verticalmente.

Un archivo creado mediante WRITE (ESCRIBIR) puede ser transferido a tipos diferentes de computadora y ser leído por otros programas. La extensión de los nombres de archivo es DAT. En la sección 14.1 se describen las opciones a seguir en el menú de caída File.

g) Interfase con Lotus 1-2-3. Es posible transferir datos entre Minitab y Lotus 1-2-3. En las versiones recientes, para recuperar datos salvados en una hoja de trabajo de Lotus se utiliza el comando WOpen (WAbrir) junto con los

Page 238: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

233  

subcomandos FType y Lotus. La extensión del archivo queda especificada en la instalación de Minitab. Por ejemplo: WOPEN “A:EJEMPLO”; FTYPE;

LOTUS. leerá los datos contenidos en la hoja llamada "EJEMPLO.WK?" creada y almacenada por el 1-2-3 versión 2 en la unidad A.

La conversión de Lotus a Minitab pre-establecida utiliza las siguientes reglas en la transferencia: 1) Se crea una columna de Minitab por cada columna de Lotus que contiene un valor. 2) Se conserva la orientación de filas y columnas. 3) Sólo se convierten datos numéricos. Datos Alfa, errores de Funciones @ y entradas NA @ se convierten a valores faltantes. 4) Las columnas de Minitab se nombran con los nombres de columna correspondientes en Lotus, es decir, A, B, C, etc.

Para salvar datos introducidos en Minitab en el formato del 1-2-3 de Lotus para trabajarlos con este programa se utiliza el comando de Minitab WSAVE (SALVAR) junto con varios subcomandos: FType; LOTUS; y en su caso Missing; Numeric; Text; Replace. La extensión se agregará automáticamente de acuerdo a la versión instalada. Por ejemplo: WSAVE 'A;SALIDA';

FType; LOTUS;

Missing; Numeric ‘*’ ‘*’ Text “” “”; Replace. escribirá los datos introducidos en Minitab en un archivo con formato del 1-2-3 de Lotus llamado "SALIDA" en el disco de la unidad A.

Page 239: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

234  

14.3 Graficación de Datos Un procedimiento fundamental para el análisis de datos es la creación de gráficos que permitan observar el comportamiento de los valores numéricos. Muy a menudo interesa conocer la relación entre dos o más variables. Los gráficos permiten investigar simultáneamente el comportamiento de las variables de interés. Minitab puede desplegar gráficas en modo de texto y gráficas de alta definición. De forma pre-establecida, Minitab funciona en modo de alta resolución. Si se desea trabajar con gráficos en modo de texto es necesario escribir el comando “GSTD”. En este modo, los datos se representan como asteriscos; si dos ó más pares de datos tienen las mismas coordenadas, como símbolo se usa un dígito que los cuenta; si se tienen más de nueve puntos repetidos se utiliza un símbolo de “+”. Para volver al modo de alta resolución se teclea el comando “GPRO”. A continuación se da una breve explicación para graficar en modo gráfico de alta resolución.

a) Gráficos de dispersión (PLOT). Si dos variables son de tipo continuo (o de intervalo) u ordinales, el gráfico más útil en su análisis es el familiar diagrama de dispersión. El comando para realizar este diagrama es PLOT (GRAFICAR). Se especifica primero la columna de las ordenadas (valores de y) y posteriormente la de las abcisas (valores de x). En las gráficas de alta definición de la versión actual de Minitab, cada punto se representa mediante círculos llenos de color (rojo). Subcomandos para PLOT FOOTNOTE = “texto” PIE DE PAGINA = “texto”

El subcomando TITLE (TITULO) agrega títulos y FOOTNOTE (PIE DE PÁGINA) agrega un pie de página al gráfico. El texto debe encerrarse entre comillas. Puede utilizarse cualquier carácter, incluyendo espacios y símbolos especiales.

Se pueden listar hasta dos subcomandos SUBTITLE (SUBTÍTULO) para producir dos líneas con subtítulos. Estos se disponen centrados sobre el gráfico. Si se desea justificar el texto a la izquierda deben agregarse los espacios necesarios a la derecha. Pueden listarse hasta dos subcomandos FOOTNOTE (PIE DE PÁGINA). Estos se disponen justificados a la izquierda bajo el gráfico. Si se desean centrados, deben agregarse los espacios necesarios a la derecha.

Page 240: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

235  

Minitab utiliza un círculo relleno para representar a los puntos. Para graficar utilizando otro símbolo es necesario especificarlo con los subcomandos SYMBOL y TYPE K, en donde K es el código del símbolo deseado. La lista completa de símbolos se obtiene con la ayuda “Help plot”, después seleccionando “SYMBOL”, “TYPE” y posteriormente “standard symbol type list”. Por ejemplo para graficar con signos de mas (+) utilizar:

PLOT C1*C2; SYMBOL ; TYPE 2.

Gráficos de texto En primer lugar se debe cambiar a modo estándar de gráficos con el comando gstd.

- Gráficos de dispersión múltiples (MPLOT). Para graficar varios pares de variables en el mismo eje se utiliza el comando MPLOT (MGRAFICAR), con la siguiente sintaxis: MPLOT C C … C C El primer par de columnas se grafica con el símbolo A, el segundo con la B, y así sucesivamente. Si varios pares de valores caen en el mismo punto, se imprime un contador. Se pueden graficar hasta nueve pares de columnas con este comando y utilizar los subcomandos de PLOT. Por ejemplo: MPLOT C1 C2 C3 C4

Es posible usar los comandos WIDTH (ANCHURA) y HEIGHT (ALTURA) para controlar el tamaño de los gráficos múltiples producidos por MPLOT.

- Graficación de datos de secuencia (TSPLOT). Minitab provee algunos comandos para la graficación de datos cuyo orden secuencial es importante. Las series de tiempo son el ejemplo más común de este tipo de datos, si bien cualquier otra variable puede definir el orden de la secuencia. El comando para realizar este gráfico es TSPLOT (TIME SERIES PLOT, es decir GRAFICA DE SERIES DE TIEMPO) y se emplea con la siguiente sintaxis: TSPLOT [período = K] C

Las series de tiempo a menudo tienen asociado un período. Por ejemplo, si las observaciones se colectaron mensualmente, entonces el período es 12; si se colectaron cada hora a lo largo del día, entonces el período es 24. Si se especifica el período en el renglón del comando se utilizan símbolos especiales

Page 241: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

236  

en el gráfico. El período puede ser un entero positivo hasta 36. En general la primera observación se representa con un 1, la segunda con un 2, etc. Si el período es mayor a 10 se emplean las letras del alfabeto (A para 11, B para 12,..., Z para 36). Si el gráfico de la serie de tiempo es demasiado amplio para encajar en una sola página, se imprime por partes (la anchura de este gráfico es controlada por OW, y no por el comando WIDTH). La altura del gráfico producido por TSPLOT es controlada por HEIGHT (ALTURA). Subcomandos para TSPLOT INCREMENT = K (INCREMENTO = K) START = K [fin = K] (INICIO = K [fin = K])

Estos subcomandos especifican la escala para el eje de las y's, y realizan lo mismo que los subcomandos YINCREMENT y YSTART del comando PLOT. ORIGIN = K (ORIGEN = K)

Este subcomando especifica el valor de tiempo asociado con la primera observación. Por ejemplo, suponer que se tienen datos anuales empezando en 1925 y se usa ORIGIN = 1925 (ORIGEN = 1925). Entonces la primera observación se rotula como 1925 en el eje del tiempo, la segunda 1926, etc.

ORIGIN (ORIGEN) también afecta los símbolos de graficación utilizados con datos periódicos. Por ejemplo si los datos son observaciones mensuales que empiezan en mayo, entonces

TSPLOT 12 C1; ORIGIN = 5.

graficará a la primera observación con un "5" para mayo, la segunda con un "6" para junio, etc. TSTART = K [fin = K] (TINICIO = K [fin = K])

Este subcomando permite graficar una parte de la secuencia. Por ejemplo, si se utiliza TSTART = 15 (TINICIO = 15), el primer punto graficado es la 15ava observación. Las observaciones 1 a 14 son omitidas del gráfico.

Si se emplea ORIGIN (ORIGEN) junto con TSTART (TINICIO), entonces TSTART (TINICIO) se refiere a los valores de tiempo especificados por ORIGIN (ORIGEN). Por ejemplo, suponer que C1 contiene datos anuales de 1921 a 1980. Entonces para graficar las observaciones de 1930 a 1950, utilizar:

Page 242: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

237  

TSPLOT C1;

ORIGIN 1921; TSTART 1930 1950.

- Graficación de series de tiempo múltiples (MTSPLOT). Para graficar

varias series de tiempo a la vez en el mismo eje, se utiliza el comando MTSPLOT (MULTIPLE TIME SERIES PLOT, es decir GRAFICO DE SERIES DE TIEMPO MULTIPLES). La primera serie se grafica con los símbolos utilizados por TSPLOT (TSGRAFICO). Las series adicionales se representan con símbolos especiales, indicados en la leyenda del gráfico. Si más de una serie se grafica en el mismo espacio se imprime un signo de "+".

Como en el caso de TSPLOT, la anchura y la altura de MTSPLOT (MTSGRAFICO) puede controlarse con los comandos OW y HEIGHT (ALTURA) respectivamente. Subcomandos para MTSPLOT

Los subcomandos INCREMENT (INCREMENTO), START (INICIO) Y TSTART (TSINICIO) son los mismos que para TSPLOT (TSGRAFICO). ORIGIN K (ORIGEN K) ORIGIN K para C...C ,..., origen K para C...C

En la primera forma, K es el origen para todas las series. La segunda manera permite especificar orígenes diferentes para cada serie. A las series no mencionadas se le da un origen de 1. Suponer que C1 contiene datos de 1950 a 1980 y C2 almacena información de 1973 a 1984. Para graficarlas en el mismo eje se utiliza

MTSPLOT C1 C2; ORIGIN 1950 C1, 1973 C2.

14.4 Otros comandos básicos importantes Los comandos WIDTH (ANCHURA) y HEIGHT (ALTURA) permiten especificar el tamaño de los gráficos con la siguiente sintaxis: WIDTH es K espacios (ANCHURA es K espacios) HEIGHT es K espacios (ALTURA es K espacios).

Page 243: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

238  

WIDTH especifica el número de espacios dentro del gráfico. El gráfico

total será más ancho debido al margen izquierdo y a la etiqueta del eje de las y's. El valor pre-establecido de K es 57. Se permiten valores de 10 a 150. Las escalas tienden a ser mejores si K se da en la forma 4i + 1, donde i es un entero.

El comando WIDTH (ANCHURA) controla a los siguientes comandos gráficos BOXPLOT, PLOT, MPLOT, LPLOT, TPLOT, y GRID (y por tanto CONTOUR). WIDTH no se aplica a TSPLOT o MTSPLOT (la anchura de estos es controlada por OW).

El comando HEIGHT controla el número de líneas dentro del gráfico. El gráfico completo será más alto, debido al eje de las x's, las etiquetas de los ejes, los títulos, pies de página y leyendas. El valor pre-establecido de K es 17, el cual encaja adecuadamente en una pantalla estándar (24 líneas) CRT. Se permiten valores de 5 a 400; las escalas tienden a ser mejores si K es impar.

HEIGHT controla la altura de PLOT, MPLOT, LPLOT, TPLOT, TSPLOT, MTSPLOT, GRID, CONTOUR, pero no tiene efecto sobre DOTPLOT o BOX-PLOT.

WIDTH y HEIGHT no afectan el tamaño de los gráficos de alta resolución; estos se establecen por el comando GOPTIONS.

Al teclear el comando OUTFILE = 'filename' (ARCHIVO DE SALIDA = 'nombrear') la sesión de Minitab (todo lo que se ve en la pantalla) se almacenará en el archivo cuyo nombre se especifica. Esta orden permanece activada hasta teclear NOOUTFILE (NO ARCHIVO DE SALIDA). A partir de entonces, la salida sólo se envía a la pantalla. Si se introduce de nuevo OUTFILE, con el mismo nombre de archivo, la salida se agrega al final del mismo. El archivo se escribe en códigos ASCII, pudiendo ser impreso y editado por cualquier editor o procesador de palabras. Minitab agrega la extensión LIS al nombre del archivo.

Los subcomandos de OUTFILE son: OW = K (abreviación de OUTFILE WIDTH, ANCHO DEL ARCHIVO DE SALIDA = K) que establece la anchura del archivo. Se permiten valores de 30 a 132 para K; valores de 70 a 80 son útiles para incluir la salida en reportes. OH = K (abreviación de OUTFILE HEIGHT, ALTURA DEL ARCHIVO DE SALIDA = K), establece la altura de página del archivo. Si se han obtenido un número K de líneas de salida desde la última página, o si el siguiente bloque lógico de salida produce más del número K de líneas desde la última página, entonces se inicia una nueva. OH = 0 permite desactivar la paginación automática. NOTERM (abreviación de NO TERMINAL en inglés y español) permite enviar la salida tan sólo al archivo. La única salida que va a la terminal son los mensajes de error.

Page 244: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

239  

14.5 Comandos para el análisis exploratorio de datos Los métodos del Análisis Exploratorio de Datos son utilizados para la prospección preliminar de los datos antes de usar los métodos tradicionales o para examinar los residuos de un modelo. Son particularmente útiles en la identificación de observaciones extraordinarias, y para hacer notorias violaciones de suposiciones tradicionales (tales como no linealidad o varianza heterogénea). Los comandos del AED de Minitab (todos los incluidos a continuación excepto los diagramas de puntos) utilizan los programas del libro "The ABC's of EDA" de P.F. Velleman y D.C. Hoaglin (1981). Para una explicación completa de estos comandos y de cómo usarlos consultar esta obra. Para información sobre los diagramas de puntos consultar Chambers, et al. (1983), Ryan, et al. (1985) y Hamilton (1990b). El siguiente resumen está basado fundamentalmente en el capítulo 14 del "Manual de Referencia de MINITAB" (Minitab, 1989), en el "Manual de Minitab" (Ryan, et al., 1985) y en el MINITAB Reference Manual Release 11 (Minitab Inc., 1996). a) Diagramas de Puntos Una forma simple de indagar la distribución de los datos es graficar los datos a lo largo de una línea o eje graduado de acuerdo a la escala e intervalo de medición. El diagrama en su versión más sencilla se conoce como gráfico de dispersión unidimensional. La principal virtud de este diagrama es que muestra la información de manera compacta. Para lograr una mayor definición se utilizan como símbolos angostos como puntos o líneas para representar a los datos (en lugar de asteriscos o signos de adición). Sin embargo mediante este gráfica no es posible distinguir los valores con exactamente el mismo valor. Para resolver este problema se pueden acumular verticalmente los datos con el mismo valor en la escala del eje (Chambers, et al., 1983). A este tipo de gráficos se le conoce como "Diagramas de puntos" en Minitab y se realiza mediante el comando "DOTPLOT" (DIAGRAMA DE PUNTOS). A diferencia de un histograma, que agrupa los datos en unos cuantos intervalos, un diagrama de puntos despliega los datos en intervalos lo más angostos posible. De manera ideal, disponiendo de gran resolución los valores no se agrupan en lo absoluto. Los histogramas tienden a ser más útiles en el análisis de conjuntos grandes de datos, mientras que los diagramas de punto trabajan mejor con lotes pequeños. Los diagramas de puntos son útiles en la comparación de dos o más lotes de datos. Sintaxis:

Page 245: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

240  

En el modo de gráficas estándar se tiene lo siguiente: DOTPLOT C,...,C Realiza un diagrama de puntos para cada columna. Las observaciones situados en el límite de intervalos se colocan en el inferior (valores pequeños). El comando WIDTH (AMPLITUD) controla la anchura de los Diagramas de Puntos. Se puede especificar la escala con los subcomandos INCREMENT (INCREMENTO) y START (INICIO). INCREMENT = K Especifica la distancia entre las marcas que señalan los intervalos (signos +) en el eje graduado. Puesto que existen 10 espacios entre estas marcas, la amplitud de cada espacio será de K/10. START en K [fin en K] Especifica la posición de la primera y opcionalmente la última marca en el eje. Cualquiera de los valores no incluido dentro del intervalo especificado se omite del desplegado. Ejemplo: DOTPLOT C1 . : .: : : . . : . ::::.. .: ::..::::.:: : ::. : :. : .. +---------+---------+---------+---------+---------+-------snow 20 40 60 80 100 120

En el modo de gráficas de alta definición: GPRO DOTPLOT C1

Page 246: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

241  

126112988470564228snow

Dotplot of snow

b) Diagramas de Tallo y Hoja Un diagrama de tallo y hoja es semejante al tradicional histograma. En Minitab este diagrama utiliza los valores de los datos para crear el desplegado, mientras que sus histogramas hacen uso de asteriscos. El diagrama de tallo y hoja es una técnica relativamente nueva que fue introducida por el estadístico John Tukey a fines de los sesentas. Esta diseñado primordialmente para datos de intervalo (variables continuas), aunque puede utilizarse con cualquier conjunto de números.

Los diagramas de tallo y hoja de Minitab contienen una columna de profundidades, indicación de la escala y hojas ordenadas. El número de líneas por tallo es siempre 1, 2 o 5 dependiendo del intervalo de los datos y del número de valores presente. Cuando los números contienen más de dos dígitos, el comando STEM-AND-LEAF (TALLO Y HOJA) no considera a los dígitos que no se ajustan. Por ejemplo, el número 927 puede dividirse en un tallo = 9, una hoja = 2 y eliminarse al 7.

Los puntos decimales no se usan en los diagramas de tallo y hoja. Por tanto, los números 260, 26, 2.6 y 0.26 podrían dividirse en un tallo = 2 y hoja = 6. El encabezado LEAF UNIT (UNIDAD DE HOJA) especifica donde está

Page 247: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

242  

colocado el punto decimal: para el número 260, la unidad de hoja = 10; para 26, LEAF UNIT = 1; para 2.6 LEAF UNIT = .1; y para 0.26, LEAF UNIT = .01.

El comando STEM-AND-LEAF (TALLO Y HOJA) tiene un subcomando, INCREMENT (INCREMENTO), el cual permite controlar la escala del desplegado. Sintaxis: STEM-AND-LEAF OF C,...,C Imprime un diagrama de tallo y hoja para cada columna. TRIM (RECORTAR) descarta los casos extraordinarios, es decir aquellos situados más allá de los valores límite internos (ver comando BOXPLOT, DIAGRAMA DE CAJA) y los muestra en líneas especiales rotuladas como LO de LOW, BAJO y HI de HIGH, ALTO. INCREMENT = K especifica la distancia de un tallo a otro. El incremento debe ser 1, 2 o 5 con quizás algunos ceros significativos. Por tanto, ejemplos de incrementos posibles son 1, 2, 5, 10, 20, 50, 100, 200, 500, .1, .2, .5, .01, .02, .05. BY C produce un desplegado separado para cada valor de C. Todos los diagramas para una columna se colocan en la misma escala. La columna C debe contener enteros de -10,000 a +10,000 o el código * para valores faltantes. c) Estadígrafos Básicos A menudo se quiere resumir una característica importante de un conjunto de datos por medio de un sólo número. Por ejemplo, es posible querer utilizar a la media para indicar el centro o nivel típico de los datos. Se puede emplear al recorrido, es decir el valor mayor menos el menor, para indicar que tan dispersos están los datos.

Para esto es útil el comando DESCRIBE (DESCRIBIR), el cual imprime los siguientes estadígrafos: N, el número de observaciones. NMISS da el número de valores registrados como "faltantes". MEAN (MEDIA), o sea la media aritmética, la medida más común del centro de un conjunto de datos.

Page 248: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

243  

MEDIAN (MEDIANA), el valor situado a la mitad de la secuencia de valores ordenados de los datos. La mediana es otro valor utilizado para indicar donde se encuentra el centro de los datos. TRMEAN (TRIMMED MEAN, o sea MEDIA RECORTADA), que proporciona una media recortada 5 %. Para determinarla, los datos se ordenan y posteriormente se descartan el 5 % de los valores menores y el 5 % de los valores mayores, promediando el restante 90 %. STDED (STANDARD DEVIATION, es decir DESVIACION TIPICA), la medida de dispersión más común. SEMEAN (STANDARD ERROR ──OF THE MEAN──, ERROR ESTANDAR ──DE LA MEDIA──), que proporciona el error estándar de la media, STDEV/RAIZ CUADRADA DE N. MIN el valor mínimo. MAX el valor máximo. Q1, el primer cuartil (cuartil inferior). Q3, el tercer cuartil (cuartil superior).

La mediana es el segundo cuartil, Q2. Los tres números Q1, Q2 y Q3 dividen a los datos en cuatro partes esencialmente iguales. Sintaxis: DESCRIBE C,...,C Imprime los siguientes estadísticos para cada columna. N Número de valores en la columna. NMISS Número de valores faltantes. Se omite si no existen. MEAN Media aritmética. MEDIAN Mediana TRMEAN Media recortada. STDEV Desviación típica. SEMEAN Error estándar de la media. MAX Valor máximo. MIN Valor mínimo. Q3 Tercer cuartil. Q1 Primer cuartil. d) Resúmenes de Letras Para fines exploratorios en ocasiones es conveniente el uso de resúmenes basados en la ordenación y conteo de los datos. Entre otros méritos tales resúmenes pueden ser resistentes. La media y la varianza de la muestra no se

Page 249: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

244  

comportan de esta manera y un sólo valor extraordinario tiene efectos adversos considerables en ambos estadísticos.

Minitab realiza este tipo de resúmenes, con la posibilidad de almacenar los valores de las letras, los valores centrales y los valores de dispersión.

Los resúmenes de letras utilizan valores definidos por su "profundidad". Utilizando n para indicar el número de observaciones y [x] para el entero más grande menor o igual que x, se tienen las siguientes expresiones: profundidad de la mediana p(M) = (n + 1)/2 profundidad de los cuartos p(H) = ([p(M)] + 1)/2 profundidad de los octavos p(E) = ([p(H)] + 1)/2 profundidad de los 1/16vos p(D) = ([p(E)] + 1)/2 Las profundidades restantes se encuentran continuando con este patrón. Se rotulan como C, B, A, Z, Y, X,... .

Para encontrar los valores de las letras, primero se ordenan los datos. El cuarto inferior (simbolizado por H del inglés Hinge = doblez y que representa a los valores situados a la mitad de cada una de las partes definidas por la mediana, es decir a los "Cuartos" o "F", del inglés "Fourths" en notación más reciente) es la observación que se encuentra a una distancia p(H) de la observación mínima; el cuarto superior es la observación a una distancia p(H) de la observación máxima. De manera semejante, los octavos inferior y superior son las observaciones con una profundidad p(E). El valor central para una profundidad dada es el promedio de los valores de letras superior e inferior a esa profundidad. La dispersión se define como valor superior - valor inferior.

Cuando se almacenan los valores del resumen de letras, la columna contendrá todos los números listados bajo la columna LOWER (INFERIOR) (desde abajo hasta arriba), la mediana y los números listados bajo el encabezado UPPER (SUPERIOR) (desde arriba y hasta abajo). Sintaxis LVALS C [pone las letras en C [centrales en C [dispersiones en C]]] e) Diagramas de Caja Los diagramas de caja despliegan las características principales de un lote de datos y permiten comparaciones simples de varios lotes. En Minitab, los diagramas de caja en su versión de baja resolución se construyen empleando

Page 250: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

245  

símbolos tipográficos. La mediana se marca con un signo "+". La "I" a la izquierda es el cuarto inferior (HL del inglés Hinge y Lower, inferior), y la "I" a la derecha es el Cuarto superior (HU del inglés Hinge y Upper, superior). Notar que HL esencialmente equivale al primer cuartil y HU al tercero. Por lo tanto la "caja" representa la mitad central de los datos. Esta es la nomenclatura utilizada por Tukey (1977) y Velleman y Hoaglin (1981). En obras más recientes (Hoaglin et al., 1983 y 1985) se emplea la descrita en esta obra.

La extensión de los datos y la localización de observaciones extraordinarias se indican con símbolos especiales. Para aclarar esto se incluyen las siguientes definiciones: cotas interiores: HL - 1.5 (HU – HL ) y HU + 1.5 (HU – HL ) cotas exteriores: HL - 3 (HU – HL ) y HU + 3 (HU – HL ) valores adyacentes: las dos observaciones más extremas que se encuentran dentro de las cotas interiores. "Bigotes" de líneas punteadas van de las I's de los cuartos hasta los valores adyacentes. Los valores localizados entre las cotas interiores y exteriores son casos extraordinarios y se representan con una 0. Notas:

1) Minitab emplea un sistema de prioridad para determinar que símbolos se muestran. Si la mediana y una "muesca" se localizan en el mismo espacio, la muesca no se muestra. De manera semejante, si la mediana y un cuarto quedan en el mismo lugar, el cuarto no se muestra.

2) Los cuartos se definen por el comando LVAL. 3) Se pueden disponer diagramas de caja de diferentes variables en la

misma escala. Para esto se utiliza el comando STACK (APILAR) con el subcomando SUBSCRIPTS (SUBINDICES) para apilar las variables una encima de otra. Posteriormente utilizar BOXPLOT (DIAGRAMA DE CAJA) junto con BY (POR). Subcomandos para los Diagramas de Caja INCREMENT = K START = K [fin = K]

Page 251: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

246  

Estos subcomandos especifican la escala del eje. INCREMENT (INCREMENTO) es la distancia entre las marcas (signos +) en el eje. START (INICIO) especifica la situación de la primera y opcionalmente la última marca en el eje. Cualquier punto situado fuera de estos valores se descarta del gráfico. BY C (POR C) Se imprime un diagrama de caja para cada nivel de C, todos en una escala común. Los niveles deben ser enteros entre - 10,000 y + 10,000 o valores faltantes. Se permiten hasta 100 niveles distintos. LINES = K (LINEAS = K) Normalmente se utilizan tres líneas para mostrar cada diagrama de caja. Se puede condensar este diagrama haciendo que K sea igual a 1. NOTCH [K%] (intervalo de confianza de signo) (MUESCA [K%]) Despliega un intervalo de confianza de signo para la mediana de cada diagrama de caja. Los límites se indican con paréntesis (muescas). La confianza pre-establecida es del 90 %. Se utiliza un método de interpolación no lineal para calcular el intervalo de confianza. Dos niveles cuyos intervalos no se traslapan son diferentes significativamente a un nivel aproximado del 5 %. Esto es, un nivel individual del 5 %; no se permiten comparaciones múltiples. LEVELS K...K (NIVELES K...K) LEVELS (NIVELES) es utilizado con BY (POR). Especifica que niveles serán utilizados y en qué orden. Se puede utilizar para re-arreglar a los grupos, obtener diagramas de caja para sólo algunos grupos ó incluir diagramas de caja para grupos que no están en la muestra (vacíos). Sintaxis: BOXPLOT C

INCREMENT = K START = K BY C LINES = K NOTCH [K%] (intervalo de confianza de signo) LEVELS K...K

Minitab contiene diagramas de caja de alta resolución. Para utilizarlos

es necesario estar en el modo de alta resolución dando el comando “GPRO”. El comando para obtenerlos es el mismo BOXPLOT (GDIAGRAMA DE CAJA), pero con los subcomandos propios de los gráficos de alta resolución. Por

ejemplo, para dibujar un diagrama de caja y bigotes con muesca se teclea:

Page 252: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

247  

BOXPLOT C1; IQRBOX; CIBOX. Sintaxis: BOXPLOT C…C Despliega un diagrama por cada C BOXPLOT (C…C)*C Despliega una gráfica separada por cada C a la izquierda con una caja por cada categoría de la C a la derecha. f) Línea Resistente Minitab contiene el procedimiento "de los tres grupos" de Tukey, que ajusta una línea recta resistente a los casos extraordinarios. Se requieren por lo menos seis (preferentemente nueve o más) observaciones para su funcionamiento.

Primeramente los datos se parten en tres grupos; datos con valores bajos, centrales y altos de x. La línea resistente es aquélla que iguala la mediana de los residuos del grupo izquierdo (valores bajos de x) con la mediana residual del grupo derecho (valores altos de x).

El comando RLINE (RLINEA, o sea LINEA RESISTENTE) realiza un método iterativo para encontrar esta solución. Por lo general son necesarias menos de 10 iteraciones (el número pre-establecido) para alcanzar la solución, pero para algunos datos puede que no ocurra convergencia. Lo anterior es especialmente probable si los datos contienen valores extraordinarios de x. Si se utiliza el comando BRIEF 4, se imprime la pendiente para cada iteración. Subcomandos para RLINE MAXITERATIONS = K

Especifica el número máximo de iteraciones. El pre-establecido es 10. Notar que RLINE se detendrá antes de las K iteraciones si el valor de la pendiente no varía significativamente. Sintaxis: RLINE y en C, x en C [poner residuos C [ajuste en C [intercepto en C]]]

MAXITERATIONS = K (MAXITERACIONES = K)

Page 253: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

248  

g) Suavización no Lineal Resistente El comando RSMOOTH (abreviación de SUAVIZADOR RESISTENTE) de Minitab permite el empleo de dos procedimientos de suavización no lineal resistente: el pre-establecido es el suavizador compuesto 4253EH,doble; el subcomando proporciona el suavizador compuesto 3RSSH,doble. Es posible tener valores faltantes (*'s) al principio ó al final de la secuencia, pero no a la mitad. Se requieren al menos siete observaciones. Los valores rugosos se determinan por la diferencia de cada valor observado menos el valor suave correspondiente: rugoso = dato - suave.

Estos suavizadores se construyen mediante la aplicación sucesiva de suavizadores simples, tales como medianas corredizas y el "hanning". Las medianas corredizas reemplazan cada observación por la mediana de las observaciones inmediatamente antes y después de ella. RSMOOTH (RSUAVE) emplea medianas de 2,4, 3 y 5 observaciones consecutivas. El "hanning" reemplaza los valores por un promedio ponderado de amplitud 3 con pesos igual a 1/4, 1/2 y 1/4. Se utiliza un procedimiento especial para suavizar los valores terminales (inicial y final) de la secuencia.

El suavizador pre-establecido, llamado 4253EH,doble consiste en la aplicación sucesiva de medianas corredizas de amplitud 4, 2, 3 y 5, seguida por el ajuste de los valores terminales y posteriormente el hanning. Posteriormente se determinan los residuos (o valores rugosos) y se suavizan de la misma forma. Los residuos suavizados se adicionan a los valores suavizados previos para producir los valores suavizados finales. Subcomandos para RSMOOTH SMOOTH 3RSSH, doble Este método está compuesto por tres suavizadores: 3R, seguido de SS y H. El suavizador 3R se refiere a la aplicación repetida de medianas corredizas de longitud 3 hasta que no ocurran cambios en la secuencia suavizada. Las S's se refieren al término en inglés "Split" que significa "partir" y que definen un procedimiento especial para remover porciones "planas" que aparecen a menudo por la aplicación de 3R. La H representa al Hanning. Sintaxis: RSMOOTH C, poner rugosos en C, suaves en C

SMOOTH 3RSSH, doble

Page 254: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

249  

h) Tablas Codificadas El comando CTABLE (CTABLA, de TABLA CODIFICADA), imprime una tabla de dos vías en forma codificada. Este procedimiento a menudo se utiliza para examinar los residuos de MPOLISH (MPULIDO) ó TWOWAY (DOSVIAS, análisis de varianza).

Los niveles deben ser enteros consecutivos empezando con 1. Por lo general, CTABLE no acepta columnas con valores faltantes. Para remover éstos se pueden utilizar los comandos COPY (COPIAR) ó DELETE (BORRAR).

En una tabla codificada cada celda contiene un código de un caracter. Si existe sólo una observación por celda, el código está basado en los datos. Si las celdas contienen más de una observación, se escoge la característica a codificar: el valor máximo en cada celda (por medio del subcomando MAXIMUM), el valor mínimo (subcomando MINIMUM) o el valor extremo (pre-establecido). El valor extremo en una celda es el valor más grande del valor absoluto del valor máximo y el valor absoluto del valor mínimo.

En la parte referente al comando BOXPLOT (DIAGRAMA DE CAJA) se definen los términos utilizados a continuación. Los números entre los dos cuartos se codifican con un punto ".", los números más allá de los cuartos pero dentro de las cotas interiores se codifican con signos de menos "-" ó más "+", los números entre las cotas interiores y exteriores se codifican con asteriscos "*" ó el símbolo de número "#", y los números situados más allá de las cotas exteriores se simbolizan con "M" y "P". Sintaxis CTABLE C, utilizando niveles de fila en C y niveles de columna en C

MAXIMUM se codifica el valor máximo de cada celda MINIMUM se codifica el valor mínimo de cada celda

Page 255: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

250  

i) Pulido de Mediana El comando MPOLISH (MPULIDO, de PULIDO DE MEDIANA) utiliza el pulido de mediana para ajustar un modelo aditivo a un arreglo de dos vías. Este procedimiento es semejante al análisis de varianza excepto que utiliza medianas en lugar de medias.

La tabla puede no ser balanceada y tener celdas vacías. No produce ninguna salida. Se requiere utilizar el comando TABLE para desplegar los datos, residuos o valores ajustados. Los niveles de fila y columna deben ser enteros consecutivos empezando en 1. El comando MPOLISH no acepta columnas con valores faltantes. Utilizar COPY (COPIAR) ó DELETE (BORRAR) para remover cualquier asterisco "*".

MPOLISH utiliza un algoritmo iterativo. En el primer paso encuentra la mediana de cada fila de la tabla, la substrae de los números en las filas correspondientes y las utiliza como valores preliminares para los efectos de fila. Esto proporciona una columna de medianas de fila y una tabla nueva en la cual las medianas de fila se han restado. En la segunda iteración, se determina la mediana de cada columna en esta tabla nueva, se substrae de los números en las columnas y se utiliza como valor preliminar para los efectos de columna. Adicionalmente encuentra la mediana de los efectos de fila, los substrae de cada efecto de fila y los utiliza como valor común preliminar.

El procedimiento regresa a las filas. Esta vez cuando encuentra las medianas de fila, también determina la mediana de los efectos de columna preliminares, los resta de los efectos de fila y los adiciona al valor común. Este procedimiento continúa, trabajando en filas y columnas alternadamente. El total de iteraciones pre-establecido es de cuatro. Después de la última iteración, la fila de efectos de columna es corregida por ella misma: al valor de cada efecto de columna se le resta la mediana de esa fila y se adiciona al valor común.

Los números que quedan en la tabla son los residuos. Los márgenes de la tabla contienen al valor común y los efectos de fila y columna. El valor ajustado para la fila i, columna j es igual al valor común + (efecto de fila i) + (efecto de columna j). Como en el análisis de varianza, dato = ajuste + residuo. Subcomandos para MPOLISH COLUMNS primero La primera iteración empieza con la mediana de filas de manera pre-establecida. Este subcomando permite empezar con las medianas de columna.

Page 256: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

251  

El empezar con filas o columnas no conduce necesariamente al mismo ajuste final, aún cuando se realicen un gran número de iteraciones. ITERATIONS = K (ITERACIONES = K) Permite especificar el número de iteraciones. El número pre-establecido es de 4. EFFECTS poner común en K, de fila en C, de columna en C Almacena los efectos y el valor común. COMPARISONS ponerlos en C El valor de comparación para una observación de la fila i y la columna j es:

           ú

Los valores de comparación son auxiliares en la elección de una transformación apropiada de los datos. Para ello se grafica cada residuo con su valor de comparación. Se ajusta una línea recta (utilizando el comando RLINE (RLINEA, LINEA RESISTENTE) a estos pares de datos y se observa el valor de la pendiente. Si se considera que p (de potencia) = 1 - (pendiente), entonces si p = 1 (es decir que la línea ajustada a los residuos con valores de comparación es horizontal con pendiente igual a cero), ninguna transformación mejorará el modelo. Si p = 1/2, los valores de raíz cuadrada de los datos se ajustarán mejor al modelo aditivo (y por tanto se analizarán mejor por el pulido de mediana). Si p = 0, el logaritmo de los valores mejorará la aditividad. Si p se encuentra entre 0 y 1, entonces los valores elevados a la potencia p serán más aditivos. Este método está basado en el procedimiento de Tukey para no aditividad con un grado de libertad. Sintaxis: MPOLISH C, filas en C, columnas en C [poner residuos en C [ajustes en C]

COLUMNS columnas primero ITERATIONS = K EFFECTS poner común en K, de fila en C, de columna en C COMPARISONS ponerlos en C

Como se mencionó anteriormente para visualizar el resultado de este

procedimiento es necesario utilizar el comando TABLE (TABLA). La sintaxis de este comando es: TABLE los datos clasificados por C...C Las columnas requeridas deben contener los subíndices para fila y columna respectivamente. Para este comando existen varios subcomandos, pero el necesario para emplearlo en el pulido de mediana es DATA (DATOS) cuya sintaxis es:

DATA para C...C

Page 257: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

252  

que imprime una lista para todos los datos en cada celda. En este caso se puede utilizar para visualizar los residuos, ó los valores ajustados. También pueden observarse todos los resultados mediante la orden PRINT, aunque no en forma tabular, sino por columna.

Page 258: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

253

Bibliografía Andrews, D.F. y A.M. Herzberg, 1985. Data. A Collection of Problems from Many

Fields for the Student and Research Worker. Springer-Verlag, Nueva York. 442 p.

Ayres, F. Jr. 1969. Matrices. Teoría y 340 Problemas Resueltos. Serie Schaum,

McGraw-Hill. México. 219 p. Baras, E.M., 1987. Lotus 1-2-3. Guía del Usuario. 2a. ed. McGraw-Hill de México,

S.A. de C.V. México, 378 p. Beaton, A.E. y J.W. Tukey, 1974. The Fitting of Power Series, Meaning

Polinomials, Illustrated on Band-Spectroscopic Data, Technometrics, 16: 147-185.

Beniger, J.R. y D.L. Robyn, 1978. Quantitative Graphics in Statistics: A Brief

History. The America Statistician, 32(1): 1-11. Bhattacharya, C.G. 1967. A Simple Method of Resolution of a Distribution into

Gaussian Components. Biometrics 23: 115-135. Cassie, R.M., 1954. Some Uses of Probability Paper for the Graphical Analysis of

Polymodal Frequency Distributions. Aust. J. Mar. Freshw. Res. 5: 513-522. Chambers, J.M., W.S. Cleveland, B. Kleiner y P.A. Tukey, 1983. Graphical

Methods for Data Analysis, Wadsworth & Brooks/Cole Pub. Company, Pacific Grove, p. 1-46; 26-29; 129-190.

Computing Resource Center, 1990b. Tukey's Two-Way Analysis. The Stata News

6 (4): 1-2. Computing Resource Center, 1991. Stem-and-Leaf Plots. The Stata News 7 (1): 3. Curts, J.B., 1986. El Diagrama de Tallo y Hoja. Biología, 15 (1-4): 7-12. Curts, J.B., L. Alcántara y X. Chiappa, 1987. Introducción al Análisis

Exploratorio de Datos Multidimensionales. Ciencias, No. 11: 30-35. Davis, J.C., 1973. Statistics and Data Analysis in Geology, John Wiley & Sons,

Nueva York, 550 p. Deleon, R.E. y J.T. Anagnoson, 1991. Stata and the Four R's of EDA. Stata

Technical Bulletin 1: 13-17.

Page 259: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

254

Devore, J. y R. Peck, 1986. Statistics. The Exploration and Analysis of Data. West

Publishing Co. St. Paul, 594-599. Emerson, J.D. y D.C. Hoaglin, 1983a. Stem-and-leaf displays. In: Hoaglin, D.C.,

F. Mosteller y J.W. Tukey (Eds.) Understanding Robust and Exploratory Data Analysis, John Wiley & Sons, Nueva York, p. 7-32.

Emerson, J.D. y D.C. Hoaglin, 1983b. Resistant Lines for y versus x. In: Hoaglin,

D.C., F. Mosteller y J.W. Tukey (Eds.) Understanding Robust and Exploratory Data Analysis, John Wiley & Sons, Nueva York, p. 129-165.

Emerson, J.D. y D.C. Hoaglin, 1983c. Analysis of Two-Way Tables by Medians. In:

Hoaglin, D.C., F. Mosteller y J.W. Tukey (Eds.) Understanding Robust and Exploratory Data Analysis, John Wiley & Sons, Nueva York, p. 166-210.

Emerson, J.D. y M.A. Stoto, 1983. Transforming Data. In: Hoaglin, D.C., F.

Mosteller y J.W. Tukey (Eds.) Understanding Robust and Exploratory Data Analysis, John Wiley & Sons, Nueva York, p. 97-128.

Emerson, J.D. y J. Strenio, 1983. Boxplots and Batch Comparison. In: Hoaglin,

D.C., F. Mosteller y J.W. Tukey (Eds.) Understanding Robust and Exploratory Data Analysis, John Wiley & Sons, Nueva York, p. 58-96.

Emerson, J.D. y G.Y. Wong, 1985. Resistant nonadditive fits for two-way tables.

In: Hoaglin, D.C., F. Mosteller y J.W. Tukey (Eds.) Exploring Data Tables, Trends and Shapes, John Wiley & Sons, Nueva York, p. 67-124.

Findley, T., 1991. Variable Transformation and Evaluation. Stata Technical

Bulletin 2: 15. Fox, J. 1990. Describing univariate distributions. In: Modern Methods of Data

Analysis, eds. J. Fox y J.S. Long, 58-125. Newbury Park, CA: Sage publications.

Fowler, J., L. Cohen y P. Jarvis, 1998. Practical Statistics for Field Biology. 2a ed.

John Wiley & Sons. West Sussex, RU. 259 p. Gayanilo, F.C.Jr.; Sparre, P.; Pauly, D. 2005. FAO-ICLARM Stock Assessment

Tools II (FiSAT II). Revised version. User's guide. FAO Computerized Information Series (Fisheries). No. 8, Revised version. Rome, FAO. 2005. 168 p. (Includes a CD-ROM with the software)

Geiger, P., 1991. Enhancing Visual Display Using Stem and Leaf. Stata Technical

Bulletin 1: 8-9.

Page 260: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

255

Goodall, C. 1990. A survey of smoothing techniques. In: Modern Methods of Data Analysis, eds. J. Fox y J.S. Long, 58-125. Newbury Park, CA: Sage publications.

Gotelli, N.J. y A.M. Ellison, 2004. A Primer of Ecological Statistics. Sunderland,

EUA: 510 p. Gottfried, B.S., 1986. Programación en Pascal. McGraw-Hill, México, p. 185-229. Gould, W., 1991. Skewness and Kurtosis Tests of Normality. Stata Technical

Bulletin 1: 20-21. Gould, W. y J. Hilbe, 1991. Ladder-of-Powers Variable Transformation. Stata

Technical Bulletin 2: 14-15. Hald, A., 1990. A History of Probability and Statistics and Their Application

Before 1750. John Wiley, Nueva York. Hamilton, L.C., 1990a. Modern Data Analysis. A First Course in Applied Statistics.

Brooks/Cole Pub. Co. Pacific Grove, 684 p. Hamilton, L.C. 1990b. Statistics with Stata . Brooks/Cole Pub. Company, Pacific

Grove: 55-57. Härdle, W. 1991. Smoothing Techniques. With Implementations in S. Springer-

Verlag. Nueva York Hartwig, F. y B.E. Dearing, 1979. Exploratory Data Analysis, Sage, Beverly Hills,

p. 9-31. Hintze, J. L. y R. D. Nelson (1998). "Violin plots: a box plot-density trace

synergism. The American Statistician, 52(2):181-4. Hoaglin, D.C., 1977. Direct Approximations for Chi-Squared Percentage Points.

Journal of the American Statistical Association, 72: 508-515. Hoaglin, D.C., 1983. Letter Values: a Set of Selected Order Statistics. In: Hoaglin,

D.C., F. Mosteller y J.W. Tukey (Eds.) Understanding Robust and Exploratory Data Analysis, John Wiley & Sons, Nueva York, p. 33-57.

Hoaglin, D.C., F. Mosteller y J.W. Tukey, 1983. Understanding Robust and

Exploratory Data Analysis, John Wiley & Sons, Inc. Nueva York. Hoaglin, D.C., F. Mosteller y J.W. Tukey, 1985. Exploring Data Tables, Trends

and Shapes, John Wiley & Sons, Inc. Nueva York.

Page 261: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

256

Hoenig, J.M., J. Csirke, M.J. Sanders, A. Abella, M.G. Andreoli, D. Levi, S Ragonese, M. Al-Shoushani y M.M. El-Musa, 1987. Data adquisition for length-based stock assessment: report of writing group I, p. 343-352. In: D. Pauly y G.R. Morgan (eds.) Length-based methods in fisheries research. ICLARM Conference Proceedings 13, 468 p. International Center for Living Aquatic Resources Management, Manila, Filipinas y Kuwait Institute for Scientific Research, Safat, Kuwait.

Hotelling, H. 1931. The generalization of Student’s ratio. Annals of Mathematical

Statistics, 2: 360-378. Iglewicz, B., 1983. Robust Scale Estimators and Confidence Intervals for

Locations. In: Hoaglin, D.C., F. Mosteller y J.W. Tukey (Eds.) Understanding Robust and Exploratory Data Analysis, John Wiley & Sons, Nueva York, p. 404-431.

Lagler, K.F., 1978. Freshwater Fishery Biology. Wm. C. Co. Pub., Iowa, p. 159-

166. Lozano-Cabo, F., 1983. Oceanografía, Biología Marina y Pesca. Tomo I, Paraninfo,

Madrid, p. 434-436. Marques Dos Santos, M.J. 1993. Introducción a las Matrices con Aplicaciones.

Facultad de Estudios Superiores Zaragoza, México, D.F., México: 26 p. Marques Dos Santos, M.J. 2001. Estadística Básica. Un Enfoque no Paramétrico.

F.E.S. Zaragoza, U.N.A.M. México, 171 p. Marques Dos Santos, M.J. 2004. Probabilidad y Estadística para Ciencias

Químico Biológicas. F.E.S. Zaragoza, U.N.A.M. México, 626 p. Marques Dos Santos, M.J., T. Guerra Dávila y A. Barajas Chavarría, 2000.

Colección de Problemas y Ejercicios de Bioestadística. F.E.S. Zaragoza, U.N.A.M. México, 130 p.

Marsh, C., 1988. Exploring Data. An Introduction to Data Analysis for Social

Scientists. Polity Press, Cambridge, Reino Unido, 385 p. Microsoft Corporation, 1998. Visual Basic Versión 6.0. Manual del Programador.

Microsoft Corporation, EUA. Miller, G.A., 1956. The Magical Number Seven, Plus or Minus Two: Some Limits

on Our Capacity for Processing Information. Psychological Review 63: 81-97. Minitab, 1991. MINITAB Reference Manual. Release 8. Quickset Inc. Rosemont,

PA.

Page 262: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

257

Minitab, 1995. MINITAB Reference Manual. Release 10. Minitab, Inc. State

College. Minitab Inc. 1996. Letter Values. Minitab Reference Manual, Release 11. Minitab

Inc. State College: 8-2 – 8-3. Morrison, D.F. 1984. Multivariate Statistical Methods. 2a. ed. McGraw-Hill

International Book Company, Singapur: 415 p. Open University, 1983. Statistics in Society. Curso MDST 242, 16 volúmenes,

Milton Keynes: Open University Press: p. xix; 188. Quinn, G.P. y M.J. Keough, 2002. Experimental Design and Data Analysis for

Biologists. Cambridge University Press, Cambridge, R.U. 537 p. Rosenblatt, M. 1956. Remarks on some nonparametric estimates of a density

function. Ann. Math. Statist. 27: 832-837. Ryan, B.F., B.L. Joiner y T.A. Ryan, Jr., 1985. Minitab Handbook. 2a. ed. PWS

Publishers, Boston. 386 p. Salgado-Ugarte, I.H., 1985. Algunos Aspectos Biológicos del Bagre Arius

melanopus Günther (Osteichthyes: Ariidae) en el Sistema Lagunar de Tampamachoco, Veracruz. Tesis de licenciatura, E.N.E.P. Zaragoza, U.N.A.M. México, 108 p. 21 figuras, 20 tablas y un cuadro.

Salgado-Ugarte, I.H., 1990. Exploratory Analysis of the Asymmetric Otoliths of

Stone Flounder Kareius bicoloratus in Tokio Bay. Reporte final sobre el entrenamiento técnico desarrollado en el Departamento de Pesquerías, Facultad de Agricultura de la Universidad de Tokio, Tokio, Japón, 23 p. 15 tablas, 15 figuras.

Salgado-Ugarte, I.H., 1991. Exploratory Analysis of Some Measures of the

Asymmetric Otoliths of Stone Flounder Kareius bicoloratus (Pisces: Pleuronectidae) in Tokyo Bay. Anales del Instituto de Ciencias del Mar y Limnología U.N.A.M. 18(2): 261-278.

Salgado-Ugarte, I.H., 1992. El Análisis Exploratorio de Datos Biológicos.

Fundamentos y Aplicaciones. Marc Ediciones y E.N.E.P. Zaragoza U.N.A.M. México. 243 p.

Salgado-Ugarte, I.H., 1995. Nonparametric Methods for Fisheries Data Análisis

and their Application in Conjunction with other Statistical Techniques to Study Biological Data of the Japanese Sea Bass Lateolabrax japonicus in Tokyo Bay. Tesis de doctorado. Tokio, Japón. 389 p.

Page 263: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

258

Salgado-Ugarte, I.H., 2002. Suavización No Paramétrica para Análisis de Datos.

F.E.S. Zaragoza U.N.A.M. 139 p. Salgado-Ugarte, I.H. y M.A. Pérez-Hernández, 2003. Exploring the use of variable

bandwidth kernel density estimators. The Stata Journal, 3(2): 133-147. Satterthwaite, F.E., 1946. An approximate distribution of estimates of variante

components. Biometrics Bulletin 2: 110-114. Scott, D.W. 1992. Multivariate Density Estimation: Theory, Practice, and

Visualization. John Wiley & Sons, Nueva York. Siegel, A.F., 1988. Statistics and Data Analysis. An Introduction. John Wiley &

Sons, Singapur, 518 p. Simonoff, J.S. 1996. Smoothing Methods in Statistics. Springer, Nueva York. Sokal, R.R. y F.J. Rohlf, 1981. Biometry. The Principles and Practice of Statistics

in Biological Research. 2nd. ed. W.H. Freeman and Company, Nueva York, 859 p.

StataCorp, 2003. Stata Statistical Software; Release 8.0. College Station, E.U.A.

Stata Corporation. StataCorp, 2009. Stata: Release 11. Statistical Software. College Station, E.U.A.

StataCorp LP. Statistical Graphics Corporation, 1986. STATGRAPHICS Reference Guide. Version

2.1. STSC Inc. E.U.A., 13-1 a 13-19. Stine, R.A., 1980. An Exploratory Data Analysis Package. The American

Statistician, 34(3): 187-188. Sturges, H.A. 1926. The choice of a class interval. Journal of the American

Statistical Association, 21: 65-66. Tarter, M.E. y R.A. Kronmal 1976. An introduction to the implementation and

theory of nonparametric density estimation. The American Statistician, 30: 105-112.

Terrell, G.R., 1990. The maximal smoothing principle in density estimation.

Journal of the American Statistical Association, 85(410): 470-477. Terrell, G.R. and D.W. Scott, 1985. Oversmoothed nonparametric density

estimates. Journal of the American Statistical Association, 80(389): 209-214.

Page 264: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

259

Tukey, J.W., 1970. Exploratory Data Analysis (edición preliminar limitada), Vol. 1,

Addison-Wesley, Reading. Tukey, J.W. 1971. Exploratory Data Analysis (edición preliminar limitada),

University Microfilms, Ann Arbor. Tukey, J.W., 1972. Some Graphic and Semigraphic Displays. In: Bancroft, T.A.

(Ed.) Statististical Papers in Honor of George W. Snedecor. Iowa State University Press, Ames.

Tukey, J.W. 1977. Exploratory Data Analysis. Addison-Wesley, Reading. Velleman P.F., 1976. Interactive computing for exploratory data analysis I:

display algorithms. 1975 Proceedings of the Statistical Computing Section. Washington DC: American Statistical Association.

Velleman P.F. y D.C. Hoaglin, 1981. Applications, Basics, and Computing of

Exploratory Data Analysis, Duxbury Press, p. 41-63. Wallonick, D.S., 1987. The EXPLORATORY ANALYSIS Program. Stat-Packets

Statistical Analysis Package for Lotus Worksheets. Version 1.0, Minneapolis, 39 p.

Weisberg, S., 1985. Applied Linear Regression. John Wiley, Nueva York, tabla 9.1,

p. 213. Welch, B.L., 1947. The generalization of Student’s problem when several different

population variances are involved. Biometrika 34: 28-35.

Page 265: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

261 

 

Apéndice 1. Comandos de Stata

En este apéndice se incluyen los comandos del programa Stata para obtener algunos de los resultados numéricos y gráficos de los capítulos especificados. Basta con teclear las órdenes dentro del programa para obtener los resultados deseados. Es requisito tener instalados los archivos con los datos y programas necesarios. Los mismos están disponibles en la página de Internet de Stata (http:/www.stata.com) en el apartado correspondiente al Stata Technical Bulletin y en The Stata Journal. Los programas (archivos con extensión “ado”) y los datos (archivos con extensión “dta”) deben instalarse apropiadamente. Estos archivos están también en el CD acompañante de la presente obra.

Se utiliza una fuente de ancho fijo y tamaño reducido para preservar la alineación tal y como aparece en la ventana de resultados de Stata.

Comandos para el Capítulo 2 (Resúmenes resistentes de nivel y dispersión) . use ishidatg . clear . *(4 variables, 202 observations pasted into data editor) . rename var1 mes . rename var2 sexo . rename var3 radioto . rename var4 medida . sum Variable | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------- mes | 202 3.80198 1.934344 1 7 sexo | 202 1 0 1 1 radioto | 202 2.30495 .7519251 1.18 3.9 medida | 202 1.5 .5012422 1 2 . sum radioto if medida==2 & sexo==1 Variable | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------- radioto | 101 1.594851 .1703327 1.18 1.97 . sum radioto if medida==2 & sexo==2 Variable | Obs Mean Std. Dev. Min Max -------------+--------------------------------------------------------

Page 266: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

262 

 

radioto | 0 . sum radioto if medida==2 & sexo==1 Variable | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------- radioto | 101 1.594851 .1703327 1.18 1.97 . sum radioto if medida==1 & sexo==1 Variable | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------- radioto | 101 3.01505 .2980893 2.21 3.9 . save eda2otom file eda2otom.dta saved . clear . *(6 variables, 9 observations pasted into data editor) . sum raoi2 if sexo==1 Variable | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------- raoi2 | 3 2.363333 .2173322 2.2 2.61 . sum if sexo==1 Variable | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------- mes | 0 sexo | 3 1 0 1 1 raoi2 | 3 2.363333 .2173322 2.2 2.61 rpoi2 | 3 2.213333 .184752 2 2.32 raod2 | 3 3.09 .2424871 2.83 3.31 -------------+-------------------------------------------------------- rpod2 | 1 1.41 . 1.41 1.41 . sum if sexo==2 Variable | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------- mes | 0 sexo | 6 2 0 2 2 raoi2 | 5 3.096 .3321596 2.58 3.43 rpoi2 | 6 3.04 .3285118 2.57 3.44 raod2 | 6 3.976667 .5024209 3.38 4.53 -------------+-------------------------------------------------------- rpod2 | 4 1.9825 .3560313 1.59 2.37 . save ishiotoanillo2 file ishiotoanillo2.dta saved . lv raoi2 if sexo==1 # 3 raoi2 --------------------------------- M 2 | 2.28 | spread pseudosigma F 1.5 | 2.24 2.3425 2.445 | .2049999 .2660122 1 | 2.2 2.405 2.61 | .4099998 .2488341 | | | | # below # above inner fence | 1.9325 2.7525 | 0 0 outer fence | 1.625 3.06 | 0 0 . di .2049/1.349 .15189029

Page 267: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

263 

 

. di .205/1.349

.15196442 . di 2.445-2.24 .205 . lv rpoi2 if sexo==1 # 3 rpoi2 --------------------------------- M 2 | 2.32 | spread pseudosigma F 1.5 | 2.16 2.24 2.32 | .16 .2076193 1 | 2 2.16 2.32 | .3199999 .194212 | | | | # below # above inner fence | 1.92 2.56 | 0 0 outer fence | 1.68 2.8 | 0 0 . di (2.32-2.16)/1.349 .11860638 . lv raod2 if sexo==1 # 3 raod2 --------------------------------- M 2 | 3.13 | spread pseudosigma F 1.5 | 2.98 3.1 3.22 | .24 .3114291 1 | 2.83 3.07 3.31 | .48 .2913181 | | | | # below # above inner fence | 2.62 3.58 | 0 0 outer fence | 2.26 3.94 | 0 0 . di (3.22-2.98)/1.349 .17790956 . lv raoi2 if sexo==2 # 5 raoi2 --------------------------------- M 3 | 3.24 | spread pseudosigma F 2 | 2.97 3.115 3.26 | .29 .2966591 E 1.5 | 2.775 3.06 3.345 | .5700001 .3670686 1 | 2.58 3.005 3.43 | .8500001 .3756394 | | | | # below # above inner fence | 2.535 3.695 | 0 0 outer fence | 2.1 4.13 | 0 0 . di (3.26-2.97)/1.349 .21497405 . lv rpoi2 if sexo==2 # 6 rpoi2 --------------------------------- M 3.5 | 3.135 | spread pseudosigma F 2 | 2.73 2.98 3.23 | .5 .3945458 E 1.5 | 2.65 2.9925 3.335 | .6850001 .3807947 1 | 2.57 3.005 3.44 | .8700001 .352761 | | | | # below # above inner fence | 1.98 3.98 | 0 0 outer fence | 1.23 4.73 | 0 0

Page 268: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

264 

 

. di (3.23-2.73)/1.349

.37064492 . lv raod2 if sexo==2 # 6 raod2 --------------------------------- M 3.5 | 3.97 | spread pseudosigma F 2 | 3.5 4.005 4.51 | 1.01 .7969827 E 1.5 | 3.44 3.98 4.52 | 1.08 .6003771 1 | 3.38 3.955 4.53 | 1.15 .4662933 | | | | # below # above inner fence | 1.985 6.025001 | 0 0 outer fence | .4699993 7.540001 | 0 0 . di (4.51-3.5)/1.349 .74870274 . lv rpod2 if sexo==2 # 4 rpod2 --------------------------------- M 2.5 | 1.985 | spread pseudosigma F 1.5 | 1.69 1.9825 2.275 | .585 .4755006 1 | 1.59 1.98 2.37 | .7799999 .3894509 | | | | # below # above inner fence | .8125 3.1525 | 0 0 outer fence | -.0649999 4.03 | 0 0 . di (2.275-1.69)/1.349 .43365456

Comandos para el Capítulo 3 (Diagramas de caja y bigotes) use ameripob2 . tab abrep abrep | Freq. Percent Cum. ------------+----------------------------------- ARG | 10 4.39 4.39 BEL | 5 2.19 6.58 BOL | 9 3.95 10.53 BRA | 10 4.39 14.91 CAN | 10 4.39 19.30 CHL | 10 4.39 23.68 COL | 10 4.39 28.07 CR | 7 3.07 31.14 CUB | 10 4.39 35.53 ECU | 10 4.39 39.91 EU | 10 4.39 44.30 GUA | 10 4.39 48.68 HAI | 4 1.75 50.44 HON | 10 4.39 54.82 MEX | 10 4.39 59.21 NIC | 10 4.39 63.60 PAN | 10 4.39 67.98 PAR | 10 4.39 72.37 PER | 10 4.39 76.75 PR | 10 4.39 81.14 RD | 10 4.39 85.53 SAL | 10 4.39 89.91 SUR | 3 1.32 91.23

Page 269: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

265 

 

URU | 10 4.39 95.61 VEN | 10 4.39 100.00 ------------+----------------------------------- Total | 228 100.00 . graph box pobaju if mdorasc>14, over(abrep, sort(mdorasc))

. graph box log10p if mdorasc>14, over(abrep, sort(mdorasc))

Comandos para el Capítulo 6 (Línea resistente) . scatter ye ye1 equis, c(l) ms(p Oh) ylab(0(2)10) . regress ye equis Source | SS df MS Number of obs = 2 -------------+------------------------------ F( 1, 0) = . Model | 18 1 18 Prob > F = . Residual | 0 0 . R-squared = 1.0000 -------------+------------------------------ Adj R-squared = . Total | 18 1 18 Root MSE = 0 ------------------------------------------------------------------------------ ye | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- equis | -.6 . . . . . _cons | 6 . . . . . ------------------------------------------------------------------------------ . l +------------------+ | ye equis ye1 | |------------------| 1. | 6 0 . | 2. | 0 10 . | 3. | . 1 5.5 | 4. | . 8 2 | +------------------+ . di -.6*1+6 5.4 . replace ye1 = 5.4 in 3 (1 real change made) . l +------------------+ | ye equis ye1 | |------------------| 1. | 6 0 . | 2. | 0 10 . | 3. | . 1 5.4 | 4. | . 8 2 | +------------------+ . di -.6*8+6 1.2 . replace ye1 = 1.2 in 4 (1 real change made) . generate var5 = 10 in 1

Page 270: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

266 

 

(3 missing values generated) . replace var5 = 0 in 2 (1 real change made) . rename var5 ye2 . scatter ye ye1 ye2 equis, c(l) ms(p Oh i) ylab(none) xlab(none) legend(off) xtitle(" ") . generate var6 = 1 in 3 (3 missing values generated) . replace var6 = 8 in 4 (1 real change made) . rename var6 ye3 . replace ye3 = . in 4 (1 real change made, 1 to missing) . generate var7 = 8 in 4 (3 missing values generated) . rename var7 ye4 . scatter ye ye1 ye2 ye3 ye4 equis, c(l i i l l) ms(p Oh i) ylab(none) xlab(none) legend(off) xtitle(" ") . replace ye3 = 1.2 in 3 (1 real change made) . set obs 5 obs was 4, now 5 . replace ye1 = 5.4 in 5 (1 real change made) . replace ye1 = . in 5 (1 real change made, 1 to missing) . replace equis = 1 in 5 (1 real change made) . replace ye3 = 5.4 in 5 (1 real change made) . replace ye4 = 1.2 in 4 (1 real change made) . replace ye4 = 1.2 in 5 (1 real change made) . scatter ye ye1 ye2 ye3 ye4 equis, c(l i i l l) ms(p Oh i i i) ylab(none) xlab(none) legend(off) xtitle(" ") . save figura6p1 file figura6p1.dta saved . scatter ye ye1 ye2 ye3 ye4 equis, c(l i i l l) lc(dknavy dknavy dknavy dknavy dknavy) ms(p Oh i i i) ylab(none) xlab(none) legend(off) xtitle(x) ytitle(y) . *(3 variables, 33 observations pasted into data editor) . lv equis if porcion==1

Page 271: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

267 

 

# 11 equis --------------------------------- M 6 | 6.3 | spread pseudosigma F 3.5 | 4.15 6.075 8 | 3.85 3.292907 E 2 | 1 5.35 9.7 | 8.7 4.146287 D 1.5 | .75 5.275 9.8 | 9.05 3.577162 1 | .5 5.2 9.9 | 9.4 3.039552 | | | | # below # above inner fence | -1.625 13.775 | 0 0 outer fence | -7.4 19.55 | 0 0 . lv ye if porcion==1 # 11 ye --------------------------------- M 6 | 11.1 | spread pseudosigma F 3.5 | 7.85 10.975 14.1 | 6.25 5.345628 E 2 | 7.2 11.2 15.2 | 8 3.812678 D 1.5 | 6.65 10.95 15.25 | 8.6 3.399292 1 | 6.1 10.7 15.3 | 9.2 2.974881 | | | | # below # above inner fence | -1.524999 23.475 | 0 0 outer fence | -10.9 32.85 | 0 0 . lv equis if porcion==2 # 11 equis --------------------------------- M 6 | 15.4 | spread pseudosigma F 3.5 | 12.9 15.675 18.45 | 5.55 4.746918 E 2 | 11.3 15.45 19.6 | 8.3 3.955653 D 1.5 | 10.7 15.2 19.7 | 9 3.557399 1 | 10.1 14.95 19.8 | 9.699999 3.136559 | | | | # below # above inner fence | 4.575001 26.775 | 0 0 outer fence | -3.749999 35.1 | 0 0 . lv ye if porcion==2 # 11 ye --------------------------------- M 6 | 8.4 | spread pseudosigma F 3.5 | 7.45 8.375 9.3 | 1.85 1.582306 E 2 | 6.2 8.15 10.1 | 3.900001 1.858681 D 1.5 | 6.05 9.075 12.1 | 6.05 2.391363 1 | 5.9 10 14.1 | 8.2 2.651524 | | | | # below # above inner fence | 4.674999 12.075 | 0 1 outer fence | 1.899999 14.85 | 0 0 . lv equis if porcion==3 # 11 equis --------------------------------- M 6 | 25.3 | spread pseudosigma F 3.5 | 22.8 25.2 27.6 | 4.799999 4.105442 E 2 | 21.7 25.65 29.6 | 7.9 3.765019 D 1.5 | 21.1 25.4 29.7 | 8.599999 3.399292 1 | 20.5 25.15 29.8 | 9.299999 3.007216 | | | | # below # above inner fence | 15.6 34.8 | 0 0 outer fence | 8.400002 42 | 0 0 . lv ye if porcion==3

Page 272: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

268 

 

# 11 ye --------------------------------- M 6 | 8.2 | spread pseudosigma F 3.5 | 3.35 6.6 9.85 | 6.5 5.559454 E 2 | 2.1 6.2 10.3 | 8.2 3.907995 D 1.5 | 2 6.5 11 | 9 3.557399 1 | 1.9 6.8 11.7 | 9.8 3.168895 | | | | # below # above inner fence | -6.400001 19.6 | 0 0 outer fence | -16.15 29.35 | 0 0 . *(9 variables, 33 observations pasted into data editor) . rename var4 mequisi . rename var5 myei . rename var6 mequisc . rename var7 myec . rename var8 mequisd . rename var9 myed . clear . *(9 variables, 33 observations pasted into data editor) . save figura6p2 file figura6p2.dta saved . scatter ye equis, xline(10 20) || scatter myei myei mequisi, ms(Oh o) msize(vlarge small) legend(off) || scatter myec myec mequisc, ms(Oh o) msize(vlarge small) || scatter myed myed mequisd, ms(Oh o) msize(vlarge small) . replace ye = 7.1 in 27 (1 real change made) . replace ye = 6.3 in 28 (1 real change made) . lv equis if porcion==3 # 11 equis --------------------------------- M 6 | 25.3 | spread pseudosigma F 3.5 | 22.8 25.2 27.6 | 4.799999 4.105442 E 2 | 21.7 25.65 29.6 | 7.9 3.765019 D 1.5 | 21.1 25.4 29.7 | 8.599999 3.399292 1 | 20.5 25.15 29.8 | 9.299999 3.007216 | | | | # below # above inner fence | 15.6 34.8 | 0 0 outer fence | 8.400002 42 | 0 0 . lv ye if porcion==3 # 11 ye --------------------------------- M 6 | 6.3 | spread pseudosigma F 3.5 | 3.35 6.125 8.9 | 5.55 4.746918 E 2 | 2.1 6.2 10.3 | 8.2 3.907995 D 1.5 | 2 6.5 11 | 9 3.557399 1 | 1.9 6.8 11.7 | 9.8 3.168895 | |

Page 273: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

269 

 

| | # below # above inner fence | -4.975 17.225 | 0 0 outer fence | -13.3 25.55 | 0 0 . replace myed = 6.3 in 28 (1 real change made) . scatter ye equis, xline(10 20) || scatter myei myei mequisi, ms(Oh o) msize(vlarge small) legend(off) || scatter myec myec mequisc, ms(Oh o) msize(vlarge small) || scatter myed myed mequisd, ms(Oh o) msize(vlarge small) . replace ye = 6.1 in 28 (1 real change made) . lv ye if porcion==3 # 11 ye --------------------------------- M 6 | 6.1 | spread pseudosigma F 3.5 | 3.35 6.125 8.9 | 5.55 4.746918 E 2 | 2.1 6.2 10.3 | 8.2 3.907995 D 1.5 | 2 6.5 11 | 9 3.557399 1 | 1.9 6.8 11.7 | 9.8 3.168895 | | | | # below # above inner fence | -4.975 17.225 | 0 0 outer fence | -13.3 25.55 | 0 0 . replace myed = 6.1 in 28 (1 real change made) . scatter ye equis, xline(10 20) || scatter myei myei mequisi, ms(Oh o) msize(vlarge small) legend(off) || scatter myec myec mequisc, ms(Oh o) msize(vlarge small) || scatter myed myed mequisd, ms(Oh o) msize(vlarge small) . replace mequisd = 2 in 28 (1 real change made) . replace mequisd = 25.3 in 28 (1 real change made) . replace equis = 25 in 28 (1 real change made) . lv ye if porcion==3 # 11 ye --------------------------------- M 6 | 6.1 | spread pseudosigma F 3.5 | 3.35 6.125 8.9 | 5.55 4.746918 E 2 | 2.1 6.2 10.3 | 8.2 3.907995 D 1.5 | 2 6.5 11 | 9 3.557399 1 | 1.9 6.8 11.7 | 9.8 3.168895 | | | | # below # above inner fence | -4.975 17.225 | 0 0 outer fence | -13.3 25.55 | 0 0 . lv equis if porcion==3 # 11 equis --------------------------------- M 6 | 25 | spread pseudosigma F 3.5 | 22.8 25.2 27.6 | 4.799999 4.105442 E 2 | 21.7 25.65 29.6 | 7.9 3.765019

Page 274: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

270 

 

D 1.5 | 21.1 25.4 29.7 | 8.599999 3.399292 1 | 20.5 25.15 29.8 | 9.299999 3.007216 | | | | # below # above inner fence | 15.6 34.8 | 0 0 outer fence | 8.400002 42 | 0 0 . replace mequisd = 25 in 28 (1 real change made) . scatter ye equis, xline(10 20) || scatter myei myei mequisi, ms(Oh o) msize(vlarge small) legend(off) || scatter myec myec mequisc, ms(Oh o) msize(vlarge small) || scatter myed myed mequisd, ms(Oh o) msize(vlarge small) . replace ye = 6.5 in 30 (1 real change made) . lv equis if porcion==3 # 11 equis --------------------------------- M 6 | 25 | spread pseudosigma F 3.5 | 22.8 25.2 27.6 | 4.799999 4.105442 E 2 | 21.7 25.65 29.6 | 7.9 3.765019 D 1.5 | 21.1 25.4 29.7 | 8.599999 3.399292 1 | 20.5 25.15 29.8 | 9.299999 3.007216 | | | | # below # above inner fence | 15.6 34.8 | 0 0 outer fence | 8.400002 42 | 0 0 . lv ye if porcion==3 # 11 ye --------------------------------- M 6 | 6.5 | spread pseudosigma F 3.5 | 3.6 6.25 8.9 | 5.3 4.533093 E 2 | 2.1 6.2 10.3 | 8.2 3.907995 D 1.5 | 2 6.5 11 | 9 3.557399 1 | 1.9 6.8 11.7 | 9.8 3.168895 | | | | # below # above inner fence | -4.35 16.85 | 0 0 outer fence | -12.3 24.8 | 0 0 . replace myed = 6.5 in 28 (1 real change made) . scatter ye equis, xline(10 20, lcolor(dknavy)) || scatter myei myei mequisi, ms(Oh o) mcolor(dknavy dknavy) msize(vlarge small) legend(off) || scatter myec myec mequisc, ms(Oh o) mcolor(dknavy dknavy) msize(vlarge small) || scatter myed myed mequisd, ms(Oh o) mcolor(dknavy dknavy) msize(vlarge small) . replace ye = 4.3 in 23 (1 real change made) . replace ye = 7.2 in 24 (1 real change made) . replace ye = 8.7 in 25 (1 real change made) . replace ye = 6.9 in 27 (1 real change made) . lv ye if porcion==3

Page 275: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

271 

 

# 11 ye --------------------------------- M 6 | 6.1 | spread pseudosigma F 3.5 | 3.6 5.325 7.05 | 3.45 2.950787 E 2 | 2.1 5.15 8.2 | 6.1 2.907167 D 1.5 | 2 5.225 8.45 | 6.45 2.549469 1 | 1.9 5.3 8.7 | 6.8 2.198825 | | | | # below # above inner fence | -1.575 12.225 | 0 0 outer fence | -6.749999 17.4 | 0 0 . scatter ye equis, xline(10 20, lcolor(dknavy)) ms(x) mcolor(dknavy) msize(vlarge) || scatter myei myei mequisi, ms(Oh o) mcolor(dknavy dknavy) msize(vlarge small) legend(off) || scatter myec myec mequisc, ms(Oh o) mcolor(dknavy dknavy) msize(vlarge small) || scatter myed myed mequisd, ms(Oh o) mcolor(dknavy dknavy) msize(vlarge small) . save figura5p2 file figura5p2.dta saved . *(2 variables, 9 observations pasted into data editor) . save cuadro6p1 file cuadro6p1.dta saved . scatter lontot rpoi, ylab(230(20)310) xlab(2.4(.2)3.4) ms(Oh) ytitle("Longitud total (mm)") xtitle("Radio Posterior del Otolito Izquierdo (mm)") . *(3 variables, 9 observations pasted into data editor) . scatter resif rpoi, ms(Oh) yline(0, lc(dknavy)) lc(dknavy) ytitle(Residuos finales) xtitle("Radio Posterior del Otolito Izquierdo (mm)") xlab(2.4(.2)3.4) . gen lresi=50.63013 + 73.9726*rpoi . scatter lontot rpoi, ylab(230(20)310) xlab(2.4(.2)3.4) ms(Oh) ytitle("Longitud total (mm)") xtitle("Radio Posterior del Otolito Izquierdo (mm)") || scatter lresi rpoi , c(l) legend(lab(1 "Observados") lab(2 "Recta resistente")) lcolor(dknavy) ms(T) mcolor(dknavy) . regress lontot rpoi Source | SS df MS Number of obs = 9 -------------+------------------------------ F( 1, 7) = 5.03 Model | 2255.29348 1 2255.29348 Prob > F = 0.0599 Residual | 3140.70652 7 448.672359 R-squared = 0.4180 -------------+------------------------------ Adj R-squared = 0.3348 Total | 5396 8 674.5 Root MSE = 21.182 ------------------------------------------------------------------------------ lontot | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- rpoi | 58.43738 26.06477 2.24 0.060 -3.196002 120.0708 _cons | 98.27605 74.99419 1.31 0.231 -79.05704 275.6091 ------------------------------------------------------------------------------ . predict olse (option xb assumed; fitted values) . rreg lontot rpoi Huber iteration 1: maximum difference in weights = .51264652 Huber iteration 2: maximum difference in weights = .09455651 Huber iteration 3: maximum difference in weights = .1244992 Huber iteration 4: maximum difference in weights = .12157479 Huber iteration 5: maximum difference in weights = .1093879 Huber iteration 6: maximum difference in weights = .08722431 Huber iteration 7: maximum difference in weights = .00286041

Page 276: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

272 

 

Biweight iteration 8: maximum difference in weights = .21599237 Biweight iteration 9: maximum difference in weights = .08893444 Biweight iteration 10: maximum difference in weights = .01147374 Biweight iteration 11: maximum difference in weights = .00220795 Robust regression Number of obs = 9 F( 1, 7) = 27.55 Prob > F = 0.0012 ------------------------------------------------------------------------------ lontot | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- rpoi | 79.2454 15.09772 5.25 0.001 43.54497 114.9458 _cons | 33.84804 43.43954 0.78 0.461 -68.87015 136.5662 ------------------------------------------------------------------------------ . predict robrege (option xb assumed; fitted values) . scatter lontot lresi olse robrege rpoi, c(i l l l) . label variable olse "Recta mínimos cuadrados" . label variable robrege "Recta robusta" . label variable lresi "Línea resistente" . label variable robrege "Recta robusta" . scatter lontot lresi olse robrege rpoi, c(i l l l) . label variable lontot "Observados" . label variable lontot "Observados" . scatter lontot lresi olse robrege rpoi, c(i l l l) ms(Oh Th + Sh) lcolor(dknavy dknavy dknavy dknavy) mcolor(dknavy dknavy dknavy dknavy) xlab(2.4(.2)3.4) . save datoscapi6 file datoscapi6.dta saved

Comandos para el Capítulo 7 (Suavización no lineal resistente) . use resistidavis . scatter resi prof, c(l) s(Oh) xlab(0(35)175) xtitle("Profundidad (m)") ytitle("Log de Resistividad") title("c) Sección estratigráfica") saving(fig3, replace) (file fig3.gph saved) . use tempcom . scatter temp dia, ms(Oh) c(l) ytitle("Temperatura no.pulsos/min") xtitle(Días transcurridos) title("b) Vaca productora de leche") saving(fig2, replace) (file fig2.gph saved) . use rainfallacal (LA's Rainfall, 1878-1989) . scatter ppmm year, ms(Oh) c(l) xlab(1878(28)1990) ylab(100(185)1025) xtitle("Tiempo (años)") ytitle("Precipitación pluvial (mm)") title("a) Los Ángeles, California, E.U.A.") saving(fig1, replace) (file fig1.gph saved) . use mansolda

Page 277: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

273 

 

. scatter noman index in 1/200, ms(Oh) c(l) xtitle("Tiempo (meses)") ytitle(Media mensual) title("d) Manchas solares") saving(fig4, replace) (file fig4.gph saved) . save tasamortaeu file tasamortaeu.dta saved . *(4 variables, 13 observations pasted into data editor) . scatter tasa anio, ms(Oh) c(l) xlab(1910(4)1922) ylab(3.8(2.1)12.2) ytitle(Tasa de mortalidad) xtitle("Tiempo (años)") msize(large) title("a) Datos de mortalidad") saving(fig6p2a) (file fig6p2a.gph saved) . scatter rm3 anio, ms(Oh) c(l) xlab(1910(4)1922) ylab(3.8(2.1)12.2) ytitle(Mortalidad suavizada) xtitle("Tiempo (años)") msize(large) title("b) Media móvil de 3") saving(fig6p2b) (file fig6p2b.gph saved) . scatter resirm3 anio, ms(Oh) c(l) xlab(1910(4)1922) ylab(-2.3(1.1)7) ytitle(Residuos) xtitle("Tiempo (años)") msize(large) title("c) Residuos de media móvil") yline(0) saving(fig6p2c) (file fig6p2c.gph saved) . scatter mc3 anio, ms(Oh) c(l) xlab(1910(4)1922) ylab(3.8(2.1)12.2) ytitle(Mortalidad suavizada) xtitle("Tiempo (años)") msize(large) title("b) Medianas corredizas de 3") saving(fig6p2d) (file fig6p2d.gph saved) . graph combine fig6p2a.gph fig6p2b.gph fig6p2c.gph fig6p2d.gph . save tasamortal file tasamortal.dta saved . use tasamortaeu . use tasamortal . outfile using tasamortal.txt . clear . *(3 variables, 12 observations pasted into data editor) . scatter original mm3 index, ms(Oh Th) c(l l) xlab(1(1)12) ylab(1(1)7) lw(medthick medthick) legend(lab(1 "Valores originales") lab(2 "Medias móviles de 3")) . save desfazapicovalle file desfazapicovalle.dta saved . outfile using desfazapicovalle.txt . use mansolda2 . sum Variable | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------- no | 2820 118 67.85007 1 235 anio | 2820 1866 67.85007 1749 1983 cmes | 2820 6.5 3.452665 1 12 noman | 2820 51.26596 43.44897 0 253.8 index | 2820 1410.5 814.2082 1 2820 -------------+-------------------------------------------------------- nm1 | 552 59.22736 10.64575 40.83842 77.61629 nm2 | 672 37.71518 1.694215 34.78725 40.6431 nm3 | 552 37.07264 .5371452 36.14481 38.00048 nm4 | 552 77.91141 3.062958 72.62061 83.20221

Page 278: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

274 

 

. scatter noman index, ms(p) c(l) . di 1983 -1749 +1 235 . di (1983 -1749 +1)*12 2820 . scatter noman index in 158/188 , c(l) . sum Variable | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------- no | 2820 118 67.85007 1 235 anio | 2820 1866 67.85007 1749 1983 cmes | 2820 6.5 3.452665 1 12 noman | 2820 51.26596 43.44897 0 253.8 index | 2820 1410.5 814.2082 1 2820 -------------+-------------------------------------------------------- nm1 | 552 59.22736 10.64575 40.83842 77.61629 nm2 | 672 37.71518 1.694215 34.78725 40.6431 nm3 | 552 37.07264 .5371452 36.14481 38.00048 nm4 | 552 77.91141 3.062958 72.62061 83.20221 . scatter noman nm4 index, c(l l) ms(Oh p) . use tempcom . sum Variable | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------- temp | 75 53.6 9.638044 38 95 dia | 75 38 21.79449 1 75 smotem | 75 53.1412 7.289272 41.1875 70.05078 s3 | 73 53.49315 7.576382 41.66667 78 s4 | 73 53.25685 7.456584 38.5 72.5 -------------+-------------------------------------------------------- s5 | 71 53.4507 7.118645 44 72 s9 | 67 47.33333 5.637609 39.33333 61.77778 test | 75 53.6 5.361508 44.49789 62.70211 resi | 75 5.09e-08 8.009128 -14.83001 34.01992 smoresi | 75 -.4469428 5.282898 -13.60792 9.490631 -------------+-------------------------------------------------------- tempc | 75 12 5.354469 3.333333 35 . use mansolda2 . di 158-25 133 . di 188+25 213 . scatter noman index in 133/213 , c(l) . di 158-50 108 . scatter noman index in 108/188 , c(l) . l anio mes index if index==108 variable mes not found r(111); . l anio cmes index if index==108

Page 279: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

275 

 

+---------------------+ | anio cmes index | |---------------------| 108. | 1757 12 108 | +---------------------+ . scatter noman index in 108/188 , c(l) ms(Oh) . di 108-188-80 . l anio cmes index if index==188 +---------------------+ | anio cmes index | |---------------------| 188. | 1764 8 188 | +---------------------+ . l anio cmes index if index==158 +---------------------+ | anio cmes index | |---------------------| 158. | 1762 2 158 | +---------------------+ DATOS FIGURA 7.3 . save suavizamedias file suavizamedias.dta saved . label variable equis "Valores originales" . label variable medias3 "Medias móviles de 3" . scatter ye medias3 equis, ms(Oh Th) c(l l) . label variable equis "" . label variable ye "Valores originales" . scatter ye medias3 equis, ms(Oh Th) c(l l) ylab(1(1)7) xlab(1(1)12) xtitle(" ") . clear . *(1 variable, 62 observations pasted into data editor) . *(2 variables, 62 observations pasted into data editor) . scatter suavi index, by(tsuavi) . scatter suavi index, by(tsuavi, cols(1) note("") ) c(l) . scatter suavi index, by(tsuavi, cols(1) note("") ) c(l) subtitle(lab(1 "3") lab(2 "5")) . scatter suavi index, by(tsuavi, cols(1) note("") subtitle(lab(1 "3") lab(2 "5")) ) c(l) . scatter suavi index, by(tsuavi, cols(1) note("") ) c(l) . label define etitipos 1 "Medianas corredizas de 3" 2 "Medianas corredizas de 5" . label values tsuavi etitipos . scatter suavi index, by(tsuavi, cols(1) note("") ) c(l) ytitle(Valores suavizados) xtitle("Tiempo (no. de mes)") . save suavinvolibro

Page 280: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

276 

 

file suavinvolibro.dta saved . clear . *(3 variables, 63 observations pasted into data editor) . *(1 variable, 63 observations pasted into data editor) . save suavinvolibro2 file suavinvolibro2.dta saved . scatter suavi index, by(tsuavi, cols(1) note("") ) c(l) ytitle(Valores suavizados) xtitle("Tiempo (no. de mes)") . scatter suavi42 index, by(tsuavi, cols(1) note("") ) c(l) ytitle(Valores suavizados) xtitle("Tiempo (no. de mes)") . gen tsuavi42 = tsuavi . label define etitipo35 1 "a) Medianas corredizas de amplitud 3" 2 "b) Medianas corredizas de amplitud 5" . label define etitipo42 1 "a) Medianas corredizas de 4" 2 "b) Medianas corredizas de 4 y 2" . label values tsuavi etitipo35 . label values tsuavi42 etitipo42 . scatter suavi42 index, by(tsuavi42, cols(1) note("") ) ms(Oh) c(l) ytitle(Valores suavizados) xtitle("Tiempo (no. de mes)") . save suavinvolibro2, replace file suavinvolibro2.dta saved . clear . *(5 variables, 11 observations pasted into data editor) . save endpointdata file endpointdata.dta saved . scatter ye zeta ep lin equis, ms(x Oh S i) c(i i i l) ylab(0(1)10) xlab(0(1)10) msize(vlarge large large) legend(lab(1 "Datos originales") lab(2 "Valores suavizados") lab(3 "Extrapolado a t = 0") lab(4 "Línea de extrapolación")) mcolor(dknavy dknavy dknavy dknavy) lcolor(dknavy dknavy dknavy dknavy) xtitle(t) . generate var6 = 5 in 2 (10 missing values generated) . label variable var6 "Suavizado a t = 1" . rename var6 suavicero . save endpointdata, replace file endpointdata.dta saved . rename suavicero suaviuno . scatter ye zeta ep lin suaviuno equis, ms(x Oh S i O) c(i i i l) ylab(0(1)10) xlab(0(1)10) msize(vlarge large large large large) legend(lab(1 "Datos originales") lab(2 "Valores suavizados") lab(3 "Extrapolado a t = 0") lab(4 "Línea de extrapolación") lab(5 "Suavizado a t = 1")) mcolor(dknavy dknavy dknavy dknavy dknavy) lcolor(dknavy dknavy dknavy dknavy) xtitle(t) . save endpointdata, replace file endpointdata.dta saved

Page 281: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

277 

 

. use suavinvolibro2 . sum Variable | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------- suavi | 62 50.85484 15.18719 30 77 tsuavi | 63 1.492063 .5039526 1 2 suavi42 | 63 50.55952 14.19682 30 73 index | 62 173 9.017288 158 188 tsuavi42 | 63 1.492063 .5039526 1 2 . *(1 variable, 31 observations pasted into data editor) . use suavinvolibro, clear . *(1 variable, 31 observations pasted into data editor) . rename r r3 . scatter r3 index, ms(Oh) c(l) ytitle(Valores suavizados) xtitle("Tiempo (no. de mes)") . use suavinvolibro, clear . *(2 variables, 32 observations pasted into data editor) . drop var4 var5 . *(2 variables, 32 observations pasted into data editor) . drop var4 var5 . *(2 variables, 32 observations pasted into data editor) . drop var4 var5 . *(1 variable, 31 observations pasted into data editor) . label variable var4 "53,doble" . rename var4 s53doble . *(1 variable, 31 observations pasted into data editor) . label variable var5 "3R" . rename var5 s3r . scatter s53doble index, ms(Oh) c(l) ytitle(Valores suavizados) xtitle("Tiempo (no. de mes)") ylab(30(10)80) . *(1 variable, 31 observations pasted into data editor) . label variable var6 "4253EH,doble" . rename var6 s4253eht . scatter s4253eht index, ms(Oh) c(l) ytitle(Valores suavizados) xtitle("Tiempo (no. de mes)") ylab(30(10)80) . *(1 variable, 31 observations pasted into data editor) . label variable var7 "Originales" . rename var7 noman . scatter s4253eht index, ms(Oh) c(l) ytitle(Valores suavizados) xtitle("Tiempo (no. de mes)") ylab(30(10)80)

Page 282: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

278 

 

. *(2 variables, 31 observations pasted into data editor) . label variable var8 "Mes" . rename var8 mes . label variable var9 "Año" . rename var9 anio . scatter s4253eht index, ms(Oh) c(l) ytitle(Valores suavizados) xtitle("Tiempo (no. de mes)") ylab(30(10)80) mlab(mes) . save suavinvolibro, replace file suavinvolibro.dta saved . scatter captusua anio, ms(Oh) c(l) xlab(1925(6)1955) ylab(0(4000)24000) ytitle(Número de peces suavizado) xtitle("Tiempo (años)") . save captuatun file captuatun.dta saved . save capturaaed file capturaaed.dta saved . graph box captot, over(mediord) . clear . *(3 variables, 65 observations pasted into data editor) . graph box captot, over(anio) ylab(0(200000)1200000) ytitle("Captura en peso vivo (toneladas)") . save datoscapturanualmexico file datoscapturanualmexico.dta saved . *(2 variables, 30 observations pasted into data editor) . scatter resi vc, ms(Oh) ylab(-1.5(1)1.5) xlab(-2.6(1.3)2.6) ytitle(Residuos) xtitle(Valor de comparación) . save datosfigu9p6 file datosfigu9p6.dta saved . use captuatun . l +--------------------------------------+ | anio captura captusua rugoso | |--------------------------------------| 1. | 1927 7297 7564.22 -267.219 | 2. | 1928 7218 7764.16 -546.156 | 3. | 1929 8959 7878.41 1080.59 | 4. | 1930 9533 7883.76 1649.24 | 5. | 1931 6368 7837.35 -1469.35 | |--------------------------------------| 6. | 1932 4755 7814.14 -3059.14 | 7. | 1933 12236 7835.27 4400.73 | 8. | 1934 6287 7877.52 -1590.52 | 9. | 1935 12769 7898.64 4870.36 | 10. | 1936 3214 7688.08 -4474.08 | |--------------------------------------| 11. | 1937 11036 7266.95 3769.05 |

Page 283: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

279 

 

12. | 1938 0 7113.45 -7113.45 | 13. | 1939 3407 8067.69 -4660.69 | 14. | 1940 14636 10079.4 4556.57 | 15. | 1941 15353 11468.4 3884.58 | |--------------------------------------| 16. | 1942 9363 11705.4 -2342.43 | 17. | 1943 16589 11499.6 5089.4 | 18. | 1944 6459 11200.3 -4741.25 | 19. | 1945 12354 11404.2 949.844 | 20. | 1946 9590 13228 -3638 | |--------------------------------------| 21. | 1947 22480 15993.6 6486.44 | 22. | 1948 17493 17392.7 100.344 | 23. | 1949 17675 17448.3 226.684 | 24. | 1950 21604 16792.7 4811.34 | 25. | 1951 14132 15206.6 -1074.62 | |--------------------------------------| 26. | 1952 11140 13398.2 -2258.15 | 27. | 1953 13369 11629.2 1739.8 | 28. | 1954 9428 9428 0 | +--------------------------------------+ . outfile using captuatun.txt . use air2 (TIMESLAB: Airline passengers) . smooth 4253eh,twice air, gen(sair) . gen rough=air-sair . gen logrough=log10(rough) (73 missing values generated) . gen logsair=log10(sair) . replace logrough=log10(rough+1/6) (73 real changes made) . scatter logrough logsair, ms(Oh) . l air sair rough logrough logsair . replace logrough=log10(abs(rough)+1/6) (71 real changes made) . scatter logrough logsair, ms(Oh) msize(medlarge) ylab(-1(.5)2) ytitle("Log del absoluto de rugosos (dispersión)") xtitle("Log de valores suavizados (nivel)") xlab(2(.1)2.8) . save aircom, replace file aircom.dta saved . outfile using aircom.txt

Comandos para el Capítulo 10 (Un método exploratorio multidimensional) . use ishidatg . di "Hola función {&chi}" Hola función {&chi}

Page 284: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

280 

 

. graph matrix totlen bodlen oraleft orpleft oraright orpright, ms(+) title("Hola función {&chi}{sup: 2}") . graph query textsizestyle . graph matrix totlen bodlen oraleft orpleft oraright orpright, ms(+) ylabel(,labsize(large)) xlab(,labsize(large)) . help matrix . help graph matrix . graph matrix totlen bodlen oraleft orpleft oraright orpright, ms(+) ylabel(,labsize(large)) xlab(,labsize(large)) diagonal(,size(large)) . graph matrix totlen bodlen oraleft orpleft oraright orpright, ms(+) ylabel(,labsize(large)) xlab(,labsize(large)) diagonal(,size(vlarge)) . label variable orpright "RPOD" . label variable oraright "RAOD" . label variable orpleft "RPOI" . label variable oraleft "RAOI" . label variable bodlen "LE" . label variable totlen "LT" . graph matrix totlen bodlen oraleft orpleft oraright orpright if sex==2, ms(+) ylabel(,labsize(vlarge)) xlab(,labsize(vlarge)) diagonal(,size(vlarge)) . pwcorr totlen bodlen oraleft orpleft oraright orpright if sex==1 | totlen bodlen oraleft orpleft oraright orpright -------------+------------------------------------------------------ totlen | 1.0000 bodlen | 0.9936 1.0000 oraleft | 0.7843 0.7711 1.0000 orpleft | 0.7871 0.7792 0.5676 1.0000 oraright | 0.8135 0.8046 0.8075 0.7856 1.0000 orpright | 0.6584 0.6499 0.6118 0.6275 0.4116 1.0000 . pwcorr totlen bodlen oraleft orpleft oraright orpright if sex==1, sig | totlen bodlen oraleft orpleft oraright orpright -------------+------------------------------------------------------ totlen | 1.0000 | | bodlen | 0.9936 1.0000 | 0.0000 | oraleft | 0.7843 0.7711 1.0000 | 0.0000 0.0000 | orpleft | 0.7871 0.7792 0.5676 1.0000 | 0.0000 0.0000 0.0000 | oraright | 0.8135 0.8046 0.8075 0.7856 1.0000 | 0.0000 0.0000 0.0000 0.0000 | orpright | 0.6584 0.6499 0.6118 0.6275 0.4116 1.0000

Page 285: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

281 

 

| 0.0000 0.0000 0.0000 0.0000 0.0000 | . pwcorr totlen bodlen oraleft orpleft oraright orpright if sex==2, sig | totlen bodlen oraleft orpleft oraright orpright -------------+------------------------------------------------------ totlen | 1.0000 | | bodlen | 0.9979 1.0000 | 0.0000 | oraleft | 0.8980 0.9010 1.0000 | 0.0000 0.0000 | orpleft | 0.9290 0.9301 0.8713 1.0000 | 0.0000 0.0000 0.0000 | oraright | 0.9230 0.9278 0.9358 0.9205 1.0000 | 0.0000 0.0000 0.0000 0.0000 | orpright | 0.8410 0.8396 0.8559 0.8814 0.7668 1.0000 | 0.0000 0.0000 0.0000 0.0000 0.0000 | . graph matrix totlen bodlen oraleft orpleft oraright orpright if sex==2, ms(+) ylab(130 300, labsize(large) axis(2)) yla > b(2 3.5, axis(3)) ylab(2 4, axis(4)) ylab(2.5 5, axis(5)) ylab(1 2.5, axis(6)) xlab(,labsize(vlarge)) diagonal(,size(vl > arge)) xlab(150 340, axis(1)) xlab(150 290, axis(2)) xlab(2 3.5, axis(3)) xlab(2 3.5, axis(4)) xlab(3 5, axis(5)) half

Comandos para el Capítulo 11 (Algunos procedimientos confirmatorios) . use andeva2vcanguros . sum Variable | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------- muestra | 6 3.5 1.870829 1 6 medianchum~i | 6 227.2583 14.5252 203.5 243.95 sexo | 6 1.5 .5477226 1 2 mediamachos | 3 237.1667 6.011307 232.5 243.95 mediahembras | 3 217.35 14.02828 203.5 231.55 -------------+-------------------------------------------------------- abreviasp | 6 1 .8944272 0 2 etisp | 0 . l +---------------------------------------------------------------------------------------+ | muestra median~i sexo mediam~s mediah~s abrevi~p etisp | |---------------------------------------------------------------------------------------| 1. | 1 243.95 1 243.95 . M.g. Macropus giganteus | 2. | 2 232.5 1 232.5 . M. f. m. M. fuliginosus melanopus | 3. | 3 235.05 1 235.05 . M. f. f. M. f. fuliginosus | 4. | 4 231.55 2 . 231.55 M.g. Macropus giganteus | 5. | 5 217 2 . 217 M. f. m. M. fuliginosus melanopus | |---------------------------------------------------------------------------------------|

Page 286: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

282 

 

6. | 6 203.5 2 . 203.5 M. f. f. M. f. fuliginosus | +---------------------------------------------------------------------------------------+ . scatter median sexo . scatter mediam mediah sexo, c(l l) . scatter mediam mediah muestra, c(l l) . generate var8 = 1 in 1 (5 missing values generated) . replace var8 = 2 in 2 (1 real change made) . replace var8 = 3 in 3 (1 real change made) . replace var8 = 1 in 4 (1 real change made) . replace var8 = 2 in 5 (1 real change made) . replace var8 = 3 in 6 (1 real change made) . rename var8 gpo . scatter mediam mediah gpo, c(l l) xlab(1 2 3) xtitle(Especie) ytitle("Amplitud nasal (mm)") . label variable mediamachos "Machos" . label variable mediahembras "Hembras" . scatter mediam mediah gpo, c(l l) xlab(1 2 3) xtitle(Especie) ytitle("Amplitud nasal (mm)") . l +---------------------------------------------------------------------------------------+ | muestra median~i sexo mediam~s mediah~s abrevi~p etisp gpo | |---------------------------------------------------------------------------------------| 1. | 1 243.95 1 243.95 . M.g. Macropus giganteus 1 | 2. | 2 232.5 1 232.5 . M. f. m. M. fuliginosus melanopus 2 | 3. | 3 235.05 1 235.05 . M. f. f. M. f. fuliginosus 3 | 4. | 4 231.55 2 . 231.55 M.g. Macropus giganteus 1 | 5. | 5 217 2 . 217 M. f. m. M. fuliginosus melanopus 2 | |---------------------------------------------------------------------------------------| 6. | 6 203.5 2 . 203.5 M. f. f. M. f. fuliginosus 3 | +---------------------------------------------------------------------------------------+ . label define etisp 1 "Mg" 2 "Mfm" 3 "Mff" . label values gpo etisp . scatter mediam mediah gpo, c(l l) xlab(1 2 3) xtitle(Especie) ytitle("Amplitud nasal (mm)") . tab gpo gpo | Freq. Percent Cum. ------------+----------------------------------- Mg | 2 33.33 33.33 Mfm | 2 33.33 66.67 Mff | 2 33.33 100.00 ------------+-----------------------------------

Page 287: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

283 

 

Total | 6 100.00 . scatter mediam mediah gpo, c(l l) xlab(1 2 3) xtitle(Especie) ytitle("Amplitud nasal (mm)") ms(O S) msize(vlarge large) lwidth(medthick medthick) . save andeva2vcanguros, replace file andeva2vcanguros.dta saved . use andeva2vcanguros, clear . scatter mediam mediah gpo, c(l l) xlab(1 2 3) xtitle(Especie) ytitle("Amplitud nasal (mm)") ms(O S) msize(vlarge large) lwidth(medthick medthick) . l +---------------------------------------------------------------------------------------+ |muestra median~i sexo mediam~s mediah~s abrevi~p etisp gpo | |---------------------------------------------------------------------------------------| 1. | 1 243.95 1 243.95 . M.g. Macropus giganteus Mg | 2. | 2 232.5 1 232.5 . M. f. m. M. fuliginosus melanopus Mfm | 3. | 3 235.05 1 235.05 . M. f. f. M. f. fuliginosus Mff | 4. | 4 231.55 2 . 231.55 M.g. Macropus giganteus Mg | 5. | 5 217 2 . 217 M. f. m. M. fuliginosus melanopus Mfm | |---------------------------------------------------------------------------------------| 6. | 6 203.5 2 . 203.5 M. f. f. M. f. fuliginosus Mff | +---------------------------------------------------------------------------------------+ . l, nolab +---------------------------------------------------------------------------------------+ |muestra median~i sexo mediam~s mediah~s abrevi~p etisp gpo | |---------------------------------------------------------------------------------------| 1. | 1 243.95 1 243.95 . 0 Macropus giganteus 1 | 2. | 2 232.5 1 232.5 . 1 M. fuliginosus melanopus 2 | 3. | 3 235.05 1 235.05 . 2 M. f. fuliginosus 3 | 4. | 4 231.55 2 . 231.55 0 Macropus giganteus 1 | 5. | 5 217 2 . 217 1 M. fuliginosus melanopus 2 | |---------------------------------------------------------------------------------------| 6. | 6 203.5 2 . 203.5 2 M. f. fuliginosus 3 | +---------------------------------------------------------------------------------------+ . replace gpo = gpo-1 (6 real changes made) . l, nolab +---------------------------------------------------------------------------------------+ |muestra median~i sexo mediam~s mediah~s abrevi~p etisp gpo | |---------------------------------------------------------------------------------------| 1. | 1 243.95 1 243.95 . 0 Macropus giganteus 0 | 2. | 2 232.5 1 232.5 . 1 M. fuliginosus melanopus 1 | 3. | 3 235.05 1 235.05 . 2 M. f. fuliginosus 2 | 4. | 4 231.55 2 . 231.55 0 Macropus giganteus 0 | 5. | 5 217 2 . 217 1 M. fuliginosus melanopus 1 | |---------------------------------------------------------------------------------------| 6. | 6 203.5 2 . 203.5 2 M. f. fuliginosus 2 | +---------------------------------------------------------------------------------------+ . label drop etisp . label define etisp 0 "Mg" 1 "Mfm" 2 "Mff" . scatter mediam mediah gpo, c(l l) xlab(0 1 2, valuelabel) xtitle(Especie) ytitle("Amplitud nasal (mm)") ms(O S) msize(vlarge large) lwidth(medthick medthick) . save andeva2vcanguros, replace file andeva2vcanguros.dta saved

Page 288: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

284 

 

. clear . *(4 variables, 120 observations pasted into data editor) . anova var6 especie sexo Number of obs = 120 R-squared = 0.2079 Root MSE = 24.9707 Adj R-squared = 0.1874 Source | Partial SS df MS F Prob > F -----------+---------------------------------------------------- Model | 18985.025 3 6328.34167 10.15 0.0000 | especie | 7204.01667 2 3602.00833 5.78 0.0041 sexo | 11781.0083 1 11781.0083 18.89 0.0000 | Residual | 72329.9667 116 623.534195 -----------+---------------------------------------------------- Total | 91314.9917 119 767.352871 . anova var6 sexo especie Number of obs = 120 R-squared = 0.2079 Root MSE = 24.9707 Adj R-squared = 0.1874 Source | Partial SS df MS F Prob > F -----------+---------------------------------------------------- Model | 18985.025 3 6328.34167 10.15 0.0000 | sexo | 11781.0083 1 11781.0083 18.89 0.0000 especie | 7204.01667 2 3602.00833 5.78 0.0041 | Residual | 72329.9667 116 623.534195 -----------+---------------------------------------------------- Total | 91314.9917 119 767.352871 . tab sexo especie | especie sexo | 0 1 2 | Total -----------+---------------------------------+---------- 1 | 20 20 20 | 60 2 | 20 20 20 | 60 -----------+---------------------------------+---------- Total | 40 40 40 | 120 . anova var6 sexo especie sexo#especie Number of obs = 120 R-squared = 0.2310 Root MSE = 24.8181 Adj R-squared = 0.1973 Source | Partial SS df MS F Prob > F -------------+---------------------------------------------------- Model | 21098.1417 5 4219.62833 6.85 0.0000 | sexo | 11781.0083 1 11781.0083 19.13 0.0000 especie | 7204.01667 2 3602.00833 5.85 0.0038 sexo#especie | 2113.11667 2 1056.55833 1.72 0.1845 | Residual | 70216.85 114 615.937281 -------------+---------------------------------------------------- Total | 91314.9917 119 767.352871 . save andeva2vdatoscangu file andeva2vdatoscangu.dta saved . regress Source | SS df MS Number of obs = 120

Page 289: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

285 

 

-------------+------------------------------ F( 5, 114) = 6.85 Model | 21098.1417 5 4219.62833 Prob > F = 0.0000 Residual | 70216.85 114 615.937281 R-squared = 0.2310 -------------+------------------------------ Adj R-squared = 0.1973 Total | 91314.9917 119 767.352871 Root MSE = 24.818 ------------------------------------------------------------------------------ var6 | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- 2.sexo | -12.4 7.848167 -1.58 0.117 -27.94716 3.147159 | especie | 1 | -11.45 7.848167 -1.46 0.147 -26.99716 4.097159 2 | -8.9 7.848167 -1.13 0.259 -24.44716 6.647159 | sexo#especie | 2 1 | -3.1 11.09898 -0.28 0.781 -25.087 18.887 2 2 | -19.15 11.09898 -1.73 0.087 -41.137 2.837003 | _cons | 243.95 5.549492 43.96 0.000 232.9565 254.9435 ------------------------------------------------------------------------------

Comandos para el Capítulo 12 (Breve introducción a los métodos multivariados) . matrix X = (4,2,2\3,1,2\0,2,2\5,0,3\6,1,2\5,3,3\5,6,0) . matrix list X X[7,3] c1 c2 c3 r1 4 2 2 r2 3 1 2 r3 0 2 2 r4 5 0 3 r5 6 1 2 r6 5 3 3 r7 5 6 0 . matrix A1 = (1,1,1,1,1,1,1) . matrix Su = A1*X . matrix list Su Su[1,3] c1 c2 c3 r1 28 15 14 . matrix X = (4,2,2\3,1,2\0,1,2\5,0,3\6,1,2\5,3,3\5,6,0) . matrix Su = A1*X . matrix list Su Su[1,3] c1 c2 c3 r1 28 14 14 . matrix Xbar=Su/7 . matrix list Xbar Xbar[1,3] c1 c2 c3

Page 290: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

286 

 

r1 4 2 2 . matrix A2 = (1\1\1\1\1\1\1) . matrix list A2 A2[7,1] c1 r1 1 r2 1 r3 1 r4 1 r5 1 r6 1 r7 1 . matrix A3 = A2*Xbar . matrix list A3 A3[7,3] c1 c2 c3 r1 4 2 2 r2 4 2 2 r3 4 2 2 r4 4 2 2 r5 4 2 2 r6 4 2 2 r7 4 2 2 . matrix D=X-A3 . matrix list D D[7,3] c1 c2 c3 r1 0 0 0 r2 -1 -1 0 r3 -4 -1 0 r4 1 -2 1 r5 2 -1 0 r6 1 1 1 r7 1 4 -2 . matrix DprimeD=D*D' . matrix list DprimeD symmetric DprimeD[7,7] r1 r2 r3 r4 r5 r6 r7 r1 0 r2 0 2 r3 0 5 17 r4 0 1 -2 6 r5 0 -1 -7 4 5 r6 0 -2 -5 0 1 3 r7 0 -5 -8 -9 -2 3 21 . matrix DDprime=D*D' . matrix list DDprime symmetric DDprime[7,7] r1 r2 r3 r4 r5 r6 r7 r1 0 r2 0 2 r3 0 5 17 r4 0 1 -2 6 r5 0 -1 -7 4 5

Page 291: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

287 

 

r6 0 -2 -5 0 1 3 r7 0 -5 -8 -9 -2 3 21 . matrix DprimeD=D'*D . matrix list DprimeD symmetric DprimeD[3,3] c1 c2 c3 c1 24 c2 6 24 c3 0 -9 6 . matrix S2=(1/(7-1))*DprimeD . matrix list S2 symmetric S2[3,3] c1 c2 c3 c1 4 c2 1 4 c3 0 -1.5 1 . matrix S=(S2[1,1]^.5\S2[2,2]^.5\S2[3,3]^.5) . matrix list S S[3,1] c1 r1 2 r2 2 r3 1 . matrix list X X[7,3] c1 c2 c3 r1 4 2 2 r2 3 1 2 r3 0 1 2 r4 5 0 3 r5 6 1 2 r6 5 3 3 r7 5 6 0 . matrix list D D[7,3] c1 c2 c3 r1 0 0 0 r2 -1 -1 0 r3 -4 -1 0 r4 1 -2 1 r5 2 -1 0 r6 1 1 1 r7 1 4 -2 . matrix Dprime=D' . matrix list Dprime Dprime[3,7] r1 r2 r3 r4 r5 r6 r7 c1 0 -1 -4 1 2 1 1 c2 0 -1 -1 -2 -1 1 4 c3 0 0 0 1 0 1 -2

Page 292: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

288 

 

. matrix list DprimeD symmetric DprimeD[3,3] c1 c2 c3 c1 24 c2 6 24 c3 0 -9 6 . matrix list DprimeD, nohalf symmetric DprimeD[3,3] c1 c2 c3 c1 24 6 0 c2 6 24 -9 c3 0 -9 6

Page 293: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Apéndice 2. Uso del programa AED2010 A continuación se presenta un breve tutorial para el programa AED2010 tal como se presenta en el archivo readme.txt que lo acompaña.

El programa AED2010 es un ejecutable escrito en Visual Basic Ver. 5.0 (Microsoft Corporation, 1997) que integra algunos de los procedimientos más conocidos para el cálculo de métodos exploratorios, tales como la suavización no lineal resistente (Velleman y Hoaglin, 1981; Goodall, 1990) y los estimadores de densidad por kernel, incluidas las “trazas de densidad” presentadas en Chambers, et al. (1983) y el estimador de densidad por kernel gaussiano de amplitud variable (Fox, 1990; Salgado-Ugarte, et al. 1993; Salgado-Ugarte y Pérez-Hernández, 2003). Esta versión (derivada de su predecesor el programa EDK2000) sigue siendo muy simple pero con la ventaja de funcionar en el ambiente Windows e integra además métodos no incluidos en el anterior: tres suavizadores no lineales resistentes (4253EH, 3RRSH y 53EH) con la opción de re-suavización (procedimiento “doble”) para cada uno; dos métodos de validación cruzada (por mínimos cuadrados y sesgada) para determinación de amplitud de banda de estimadores de densidad por kernel y para regresión no paramétrica (por kernel), una rutina auxiliar para encontrar las bandas críticas, el método de bootstrap suavizado para la evaluación no paramétrica de la multimodalidad y regresión no paramétrica por kernel. Por lo anterior, el programa AED2010 consideramos es un auxiliar valioso y muy poderoso para el análisis exploratorio (y en el caso de la prueba de multimodalidad, confirmatorio) de datos. A continuación la explicación puntual de las rutinas. Programa AED2010 Versión 1.01 Diciembre, 2010 Conjunto de programas exploratorios y de cómputo intensivo para el análisis de datos uni y bivariados (estimación no paramétrica de la densidad por medio de diferentes funciones ponderales “kerneles”, determinación de ancho de banda por validación cruzada, evaluación de multimodalidad por método bootstrap, regresión no paramétrica por kernel y suavización no lineal resistente. Derechos Reservados (Copyright): Isaías H. Salgado Ugarte, José R. Rodríguez Rojas, D.G.A.P.A. UNAM Proyecto P.A.P.I.I.T. IN217596, P.A.P.I.M.E. 192031, EN221403 y PE205407, México, 2010. Patente en trámite.

Page 294: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Apéndice 2. Uso del Programa AED2010

292

Requerimientos: Sistema 486 o superior (Pentium recomendado) S.O. Windows 95, 98, Millenium ó XP (Recomendado) Guía breve de uso: A la fecha se proporciona la siguiente información. Versiones posteriores contarán con ayuda dentro del programa.

El programa de instalación en el cd de distribución debe copiarse a una carpeta propia en el disco duro, ejecutarse y seguir las instrucciones de instalación.

Para su ejecución puede utilizarse el Explorador de Windows abriendo la carpeta donde se encuentra el programa y oprimiendo dos veces (doble click) el botón del ratón en el icono del archivo ejecutable "aed.exe" o bien en el ícono creado al instalarse.

Se abre una ventana de presentación que se cierra al oprimir el botón del ratón en el centro de dicha ventana. Enseguida aparece la pantalla principal del programa con las siguientes opciones: Archivo Abrir (Una Variable)... Abrir (Valores x,y)... Guardar resultados... Guardar gráfica... Cerrar Validación Cruzada Mínimos cuadrados Sesgada Para Regresión Estimar Traza de densidad EDK EDKVariable(Gauss) WARP (PPPR) Amplitud Crítica Prueba de Silverman Regresión por kernel (PPPR) Suavización no Lineal Resistente Ayuda Acerca de

El menú “Archivo-Abrir (Una Variable)” permite la lectura de un archivo de texto con los datos numéricos de una sola variable mediante la apertura de un cuadro de diálogo en el que se pueden seleccionar archivos con tres extensiones: “.raw” (extensión para archivos de texto creados con Stata), “.txt” (pre-establecido) y cualquier otra siempre y

Page 295: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Métodos estadísticos exploratorios y confirmatorios para análisis de datos

293

cuando el formato sea de texto en una sola columna y con el fin de archivo debajo del último número.

Al abrir el archivo, en la parte izquierda de la pantalla se actualizan los datos sobre "Archivo leído" y "Número de observaciones", y aparece una nueva ventana con un resumen estadístico básico de los datos leídos. La ventana principal se divide en tres partes: en la superior izquierda se presenta la lista de los datos y en la superior derecha aparece la lista de resultados cuando se aplica un método.

Con los datos en la memoria es posible abrir el Menú “Estimar”. La

opción "Traza de densidad" permite calcular los estimadores presentados por Chambers, et al. 1983. Al seleccionarla se abre un cuadro de diálogo que permite elegir función ponderal de dos opciones “Cuadrada” y “Coseno”; además se debe escoger la forma de cálculo entre “Directa” para estimar la densidad de cada dato ó “Discreta” que utiliza una trama de puntos uniformemente espaciados desde un valor un poco menor al mínimo y hasta un poco más allá del máximo. De manera pre-establecida, el número de puntos es de 50, pero ese valor puede cambiarse por el usuario en el campo que aparece al escoger esta opción de cálculo. Asimismo, se debe especificar la amplitud de ventana (ancho de banda) para lo cual el cuadro presenta un botón para el cálculo de valores de referencia: dos óptimos (Silverman y Härdle) y un sobresuavizado (Scott). Al presionar el botón “Calcular ventanas” aparecen los tres valores y en el campo de entrada se dispone del valor intermedio (óptima de Härdle). La estimación se lleva a cabo oprimiendo el botón “Calcular Densidad” lo que produce el listado de resultados en el campo superior derecho y un gráfico con la densidad (eje vertical) para la variable (eje horizontal). En la parte inferior izquierda de la ventana principal existen dos selectores de opción para la gráfica: la opción “línea” es la pre-establecida y muestra los valores de densidad unidos por líneas acompañados de un gráfico univariado de dispersión en el eje de las absisas (horizontal). La opción “puntos” presenta los valores de densidad en su respectiva posición de acuerdo a su valor como puntos aislados. Estas opciones son válidas para todas las gráficas de los estimadores de densidad subsiguientes. Los resultados pueden almacenarse en un archivo de texto mediante la opción “Archivo-Guardar Resultados...” opción que hace aparecer un cuadro de diálogo estándar de Windows en el que se puede elegir el lugar de almacenaje, crear una carpeta nueva y especificar el nombre del archivo el cual es de texto (extensión “txt”). Este archivo tiene dos columnas: la primera son los valores observados “Valor de X” (Directa) ó los “Valores medios” (Discreta) y la segunda es la estimación de la densidad. Si no se especifica valor para el ancho de ventana, aparece un mensaje de error y se regresa al cuadro de diálogo. En la presente versión no se ha implementado la opción “Guardar Gráfica...”, sin embargo, es posible utilizar la función de copia de pantalla (Impr Pant) para obtener una imagen de la pantalla actual (con

Page 296: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Apéndice 2. Uso del Programa AED2010

294

la gráfica) y pegar esta en un programa de edición gráfica, seleccionar la parte de la gráfica, copiar la selección y volverla a pegar en como imagen distinta en el mismo programa o en otro (como procesador de textos). Esta forma de copia de gráfica es posible para todas las gráficas producidas por el programa (como el caso de la regresión por kernel y las gráficas de validación cruzada).

La opción "EDK" permite calcular los Estimadores de Densidad por

Kernel presentados por Härdle (1991) y Scott (1992). Para detalles ver los artículos de Salgado-Ugarte (1993; 1995a; 1995b) y el texto de Salgado-Ugarte (2002). Al elegir esta opción aparece un cuadro de diálogo en donde es posible establecer la función ponderal (kernel) de un total de siete opciones: Cuadrada, Triangular, Epanechnikov, Biponderada, Triponderada, Gaussiana (pre-establecida) y Coseno. Se puede elegir también la forma de cálculo: “Directa” (pre-establecida) ó “Discreta”. En este último caso el número de puntos pre-establecido es de 50. El usuario puede utilizar un número mayor si lo requiere. De nuevo se tienen los botones para calcular las bandas y la densidad. Los resultados (lista y gráfica) aparecen como en la opción “Traza de Densidad”. Es posible crear el archivo de resultados pero no se ha implementado aún “Guardar Gráfica”. Las bandas calculadas (dos óptimas y una sobresuavizada) automáticamente se ajustan al tipo de función ponderal (kernel) especificado de acuerdo a la idea de los "kerneles equivalentes" de Scott (1992) para producir estimaciones con el mismo grado de suavización. De nuevo, si no se especifica valor para el ancho de banda y se oprime el botón de "Calcular Densidad" aparece un mensaje de error y se regresa al cuadro de diálogo.

La opción “EDKVariable(Gauss)” permite calcular el Estimador de

Densidad por Kernel Gaussiano con banda de amplitud variable (ver Fox, 1990, Salgado-Ugarte, et al. 1993 y Salgado-Ugarte y Pérez Hernández, 2003). Este estimador resulta muy conveniente ya que proporciona detalles de la distribución donde los datos abundan (empleando bandas angostas) y disminuye el ruido donde los datos son escasos (con bandas mas anchas). Para lograr esto el algoritmo realiza una estimación preliminar de la densidad, la cual es usada como referencia para en un segundo paso, calcular la densidad tomando a los valores iniciales como factores de ajuste a la banda. A semejanza de los procedimientos anteriores al elegirla se abre un cuadro de diálogo que permite escoger la forma de cálculo: “Directa” ó “Discreta”. En la “Directa” se utilizan todos los datos para el cálculo y en la “Discreta” se usa un número de puntos uniformemente espaciados en la segunda parte del algoritmo de cálculo (lo que resulta más eficiente). El valor pre-establecido es de 50, pero recomendamos usar 100 puntos. Este método sólo se ha implementado para el kernel gaussiano y permite establecer el ancho de banda (media geométrica de todas las bandas utilizadas) y de nuevo es posible aplicar

Page 297: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Métodos estadísticos exploratorios y confirmatorios para análisis de datos

295

el botón “Calcular Bandas” para que aparezcan los valores en el cuadro para utilizarlos como referencia. De nuevo, en el campo de entrada aparece el valor intermedio (óptimo de Härdle). Debido a la cantidad de cálculos requeridos, esta opción puede llevar un tiempo considerable si el número de los datos es elevado (miles de observaciones) por lo que se pide paciencia al usuario. Este método está considerado como cerca de ser el mejor posible para estimar la distribución de un conjunto de datos (Simonoff, 1996). Como con las opciones anteriores es posible guardar en un archivo de texto los resultados, pero no la gráfica.

La opción "WARP" permite el cálculo de "histogramas desplazados

promediados", una forma eficiente para obtener a los Estimadores de densidad por kernel. Este procedimiento reduce considerablemente el número de operaciones. Al elegirla aparece un cuadro de diálogo para especificar una de las siguientes funciones ponderales (kerneles): Cuadrada, Triangular, Epanechnikov, Biponderada, Triponderada y Gaussiana. Se cuenta con los botones para calcular las bandas y la densidad. Este método requiere especificar el número de histogramas a promediar el cual de manera pre-establecida es de 5, valor que conduce a un histograma desplazado promediado. Utilizando un valor mayor (10 o más) el resultado es equivalente a un Estimador de Densidad por Kernel. Se recomienda utilizar un valor de 10 para no aumentar el número de operaciones y disminuir la eficiencia del método. Nuevamente al oprimir el botón “Calcular Densidad” aparece la lista de resultados y la gráfica (densidad y univariado de dispersión). Es posible guardar los resultados en un archivo de texto. No está implementado aún almacenar la gráfica. En todos los casos, las rutinas gráficas incluidas son muy simples (presentan valores numéricos máximos y mínimos para cada eje y un encabezado con el estimador utilizado, el número de puntos usado para la estimación en el caso discreto, el kernel y la amplitud de banda y el número de modas) pero son de gran utilidad ya que permiten observar de una manera muy clara la forma de la distribución de los datos. Si se desean gráficos de mejor presentación, los resultados almacenados como texto pueden importarse a otro programa capaz de realizar gráficos para presentaciones.

El siguiente grupo de opciones es útil para llevar a cabo la prueba

de multimodalidad de Silverman (bootstrap suavizado). La opción “Amplitud Crítica” facilita la identificación de las amplitudes de banda críticas, es decir el último valor compatible con un número dado de modas en la estimación. Al escogerla se abre un cuadro de diálogo con varios campos para especificar: el límite superior e inferior del intervalo de amplitudes en el cual buscar el valor crítico; el número de histogramas promediados para la estimación (se recomienda el valor pre-establecido de 40) y el valor para la distancia entre los puntos (“step”) dentro de los intervalos. Este valor depende de la precisión original de los

Page 298: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Apéndice 2. Uso del Programa AED2010

296

datos. Esta rutina calcula un EDK con la amplitud de banda determinada por el intervalo y el valor de cada paso y cuenta el número de modas basándose en primeras diferencias. Se recomienda usar primero valores amplios y posteriormente valores pequeños una vez que se han identificado las regiones donde se localizan los valores críticos. Aquí es pertinente anotar que se deben utilizar un poco más de posiciones decimales que los presentes en las observaciones generales (una o dos a lo más). En el mismo cuadro es posible escoger la función ponderal de un total de 6: Cuadrada, Triangular, Epanechnikov, Biponderada, Triponderada y Gaussiana (pre-establecida). Se recomienda utilizar la Gaussiana ya que la prueba de multimodalidad se implementó y valoró con este kernel. Es posible también activar la opción “Gráfica”, la cual permite visualizar la gráfica de densidad para cada uno de los pasos en el intervalo especificado. El resultado es una “animación” que permite observar como al disminuir el ancho de banda el número de modas en el resultado se va incrementando. En el campo izquierdo aparece un listado con resultados que consisten en el número de modas y la amplitud asociada. El último valor compatible con un número de modas especificado es la “amplitud crítica”. En la práctica es posible observar cierta fluctuación en la vecindad del valor crítico, por lo que se recomienda hacer un recorrido amplio alrededor del posible valor crítico. Eventualmente se llega a un aumento en el número de modas que ya no disminuye, y el valor crítico es el valor anterior con el valor modal menor especificado.

Una vez identificadas las amplitudes críticas es posible proseguir

con la prueba de multimodalidad de Silverman. Esta prueba se basa en un esquema de muestreo con repetición “bootstrap”. Al activar la opción “Prueba de Silverman” se abre un cuadro de diálogo con campos para especificar la “banda crítica” (el valor encontrado con la opción anterior); el “No. Crítico de Modas” (el número de modas a probar); el número de histogramas promediados (se recomienda el valor pre-establecido de 40); el “No. de Replicaciones” el cual se ha pre-establecido como 100 (valor utilizado en el artículo original del método) pero actualmente es posible utilizar valores mayores. Dependiendo del número de datos este puede ser de 500, 1000 ó más aunque se recomienda prudencia en el número de replicaciones. De todas formas, es posible acumular los resultados y si se hacen 10 corridas de 1000 cada una, se finalizará con un total de 10000 replicaciones. Cabe señalar que las repeticiones requeridas para la estimación eficiente de valores de nivel y dispersión así como de coeficientes de regresión son de unos pocos miles. No es necesario un número mayor si bien, con este programa es posible investigar la cuestión. Es importante también establecer el valor inicial para los números pseudo-aleatorios generados. Estas “semillas” deben ser anotadas en todo estudio serio de simulación ya que al utilizar el mismo número permite la reproducción exacta del muestreo realizado (cosa

Page 299: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Métodos estadísticos exploratorios y confirmatorios para análisis de datos

297

posible con las computadoras pero imposibles por otros métodos aleatorios). El cuadro contiene un botón que permite la generación “aleatoria” de valores para ser utilizados como semilla. Se puede activar la opción “Gráfica” para observar el EDK para cada una de las muestras bootstrap las cuales aparecerán al oprimir el botón “Calcular”. El resultado de la prueba se presenta en el campo izquierdo como una lista de valores con el número de muestra y el número de modas que cada una posee. Al final se obtiene un valor de P obtenido de la división del número de estimaciones con un número mayor al probado entre el total de replicaciones. El valor de referencia utilizado proviene de la recomendación de Izenman y Sommer (1988) de 0.4 para señalar el número de modas en la muestra. Al mostrar los valores para el cociente se hace posible acumular resultados de varias corridas. Cabe señalar que estas rutinas son hasta donde hemos podido investigar, la única versión de la prueba disponible aparte de la presentada en Salgado-Ugarte (1997 y 2002) con rutinas para el programa estadístico Stata.

La opción Regresión por Kernel (PPPR) permite calcular regresión

no paramétrica por kernel mediante el método de promedio de histogramas desplazados (WARP por sus siglas en inglés ó PPPR por referirse al Promedio Ponderado de Puntos Redondeados, su equivalente en español, Salgado-Ugarte, 2002). Para ello se requiere tener datos bivariados (x,y). Con los datos en la memoria, al seleccionar esta opción se abre un cuadro de diálogo que solicita especificar el ancho de banda (el valor pre-establecido de 0.4 tan sólo es un ejemplo y no es utilizable en general) y el número de histogramas a promediar (se recomienda utilizar el valor pre-establecido de 10). En el mismo se requiere especificar la función ponderal. En la literatura (Härdle, 1990) se recomienda el uso del kernel cuártico por lo que se ha puesto como opción pre-establecida. Cómo recomendación para encontrar un valor de banda adecuado se recomienda utilizar los valores óptimos y el sobresuavizado para los datos del eje horizontal, los cuales pueden estimarse separando a esta variable en un archivo de texto y leyéndolo para su uso con las rutinas de EDKs. Una estrategia más directa es utilizar la opción de “Validación Cruzada- Para Regresión” en el AED2010. Al especificar los anteriores valores y función kernel se oprime el botón “Calcular” y aparecen los resultados: en el campo superior derecho se tiene la lista de los puntos de cálculo (Valor Medio) y los valores estimados (MM) y en el campo principal la gráfica x,y de los valores observados y los estimados por la regresión por kernel. Para esta gráfica, los selectores de “línea” y “puntos” no aplican. Es posible guardar estas dos columnas de datos en un archivo de texto mediante la opción “Guardar Resultados...”, pero no la gráfica.

La rutina de “Suavización no Lineal Resistente” abre un cuadro de

diálogo que permite elegir el método de suavización compuesto: 4253EH,

Page 300: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Apéndice 2. Uso del Programa AED2010

298

3RSSH y 53EH. Cada uno de ellos puede hacerse “doble” para recuperar información de los valores rugosos (residuales) y reincorporarla a la suavización. Los resultados aparecen listados después de oprimir el botón “Realizar”. Esta lista con el número de dato, valor original y valores suavizados puede seleccionarse con el “ratón”, copiarse y pegarse en una hoja de cálculo o un procesador de textos para luego copiarse a un paquete de graficación. La opción “Guardar Resultados” no está implementada aún para este procedimiento.

La opción “Validación Cruzada” puede aplicarse en la búsqueda del

ancho de banda apropiado para datos univariados (EDKs) y bivariados (regresión por kernel). Para el primer caso se tiene la opción de VC por “Mínimos Cuadrados” la cual al ser elegida abre un cuadro de diálogo que permite establecer el valor de delta (equivalente al paso de búsqueda en un intervalo) cuyo valor pre-establecido es recomendado para utilizarlo en primera instancia; asimismo se tiene que especificar un intervalo dentro del cual buscar el cual puede entenderse como intervalo de anchos de banda dentro de los cuales buscar un óptimo, equivalencia uno a uno cuando delta es 1; si delta es 0.5 entonces la banda se obtiene multiplicando al doble los valores del intervalo; si delta es 0.1 entonces los valores del intervalo se multiplican por diez, etc. El resultado de la rutina es una lista en el campo superior derecho que contiene los puntajes, el valor de M (escalado por delta) y el ancho de banda (M multiplicado por delta de acuerdo a lo arriba señalado). Estos valores están ordenados por el puntaje de menor a mayor, por lo que el ancho de banda recomendado por el método es el que aparece en el primer renglón. Este valor se puede utilizar como ancho de banda en las rutinas para estimación de EDKs (EDK, WARP ó inclusive EDKVariable). En el campo principal aparece la gráfica con los valores del puntaje en el eje vertical y los de M en el horizontal (en escala logarítmica neperiana). Se marca además como una línea vertical la banda sobresuavizada. Se pretende encontrar un mínimo en los puntajes y tan sólo será de interés si este mínimo es menor al valor señalado por la banda sobresuavizada. La lista completa de puntajes, valores de M y ancho de banda puede almacenarse en un archivo de texto con la opción “Guardar Resultados” no así la gráfica.

La VC “Sesgada” muestra un cuadro de diálogo que permite

escoger una de las dos opciones implementadas para la función ponderal (kernel): cuártico y triponderado, así como el valor de delta (se recomienda en primera instancia el valor pre-establecido de uno) y los límites inferior (inicial) y superior (final) para la búsqueda del ancho óptimo en términos de M (número de histogramas promediados). Los resultados se presentan de manera semejante a la VC por mínimos cuadrados, una lista en el campo superior derecho y la gráfica en el campo principal de la ventana. Los resultados están ordenados de

Page 301: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

Métodos estadísticos exploratorios y confirmatorios para análisis de datos

299

acuerdo al puntaje y por tanto la anchura de banda recomendada por el método aparece en el primer renglón. La lista completa de resultados puede salvarse en un archivo de texto pero no la gráfica.

La opción Validación Cruzada “Para Regresión” requiere de cargar

en la memoria datos bivariados (“Abrir (Valores x,y)...”). Al seleccionarla se muestra un cuadro de diálogo con campos para especificar el parámetro delta (1), m de inicio (5), m final (20) y valor de frontera (0.1) (boundary). Se recomienda utilizar en primera instancia los valores pre-establecidos (entre paréntesis) e ir afinando las estimaciones en pasos posteriores. Se debe especificar el kernel (cuártico como pre-establecido), y la función penalizante de cinco opciones: Shibata, Validación cruzada generalizada, criterio de información de Akaike, error finito de predicción y T de Rice. La primera reduce el sesgo mientras que la última reduce la varianza, pero sin importar las diferencias, cualquiera de estos selectores conduce substancialmente a la misma amplitud de banda “óptima” (Härdle, 1991; Salgado-Ugarte, 2002). Los resultados aparecen en el mismo patrón que para la VC univariada: lista de valores mínimos con la banda óptima recomendada en el primer renglón y la gráfica en el campo principal. La lista completa de puntajes, valores de M y amplitudes de banda puede grabarse en un archivo de texto.

Finalmente el menú “Ayuda” contiene una opción única (“Acerca

de”) que abre un cuadro de diálogo con información del programa AED2010, las advertencias sobre su protección como obra intelectual, y autoría. Este cuadro tiene dos botones: “Aceptar”, que cierra el cuadro de informativo e “Información del Sistema” que proporciona características del sistema de cómputo que se está utilizando.

Para información adicional así como reporte de fallas, contactar a

Dr. Isaías H. Salgado Ugarte [email protected] [email protected]

Page 302: Métodos Estadísticos Exploratorios y Confirmatorios para ...€¦ · El libro es un excelente texto que trata temas poco usuales en textos comunes de estadística. Sin embargo son

View publication statsView publication stats