análisis estadístico de datos sobre la diabetes en méxico
TRANSCRIPT
+Adolfo prieto 424 colonia del valle
Análisis estadístico de datos sobre la diabetes en México con técnicas
multivariadas.
Tesis para obtener el título de:
Licenciada en ingeniería matemática
Presenta:
Susana Cantú Figueroa
Director de tesis:
Dr. Roberto Segundo Acosta Abreu
Ciudad de México, Marzo del 2018
INSTITUTO POLITÉCNICO
NACIONAL
ESCUELA SUPERIOR DE FÍSICA Y
MATEMÁTICAS
i
LISTA DE FIGURAS IV
LISTA DE TABLAS VII
INTRODUCCIÓN 1
CAPITULO 1 3
La diabetes mellitus 3
1.1. ¿Qué es la diabetes mellitus? 3
1.2. Antecedentes 4
1.3. Tipos de diabetes 4
1.4. Situación de la diabetes en México y el mundo 5
1.5. Carga económica de la diabetes 5
CAPÍTULO 2 7
Datos multivariados y su visualización 7
2.1. Estadística descriptiva 7
2.1.1. Covarianzas 8
2.1.2. Correlaciones 8
2.1.3. Distancias 9
2.2. Visualización del comportamiento de los datos 10
2.2.1. Diagrama de dispersión. 10
2.2.2. Matriz de dispersión. 11
2.2.3. Diagrama de caja 11
2.2.4. Diagrama de caja bivariante 11
2.2.5. Diagrama chiplot 11
2.2.6. Diagrama estalactita 12
CAPÍTULO 3 13
Técnicas multivariadas 13
3.1. Análisis por el método de las componentes principales 14
ii
3.1.1. Región de la confianza para un vector característico 15
3.2. El análisis de factores 17
3.2.1. Formulación del problema 17
3.2.2. Análisis de la matriz de correlación 19
3.2.3. Extracción de factores 19
3.2.4. Determinación del número de factores 21
3.2.5. Rotación de factores 22
3.2.6. Interpretación de factores 23
3.2.7. Validación del modelo 24
3.3. Análisis por conglomerados 24
3.3.1. k medias 25
3.3.2. Construcción de jerarquías. 27
3.4. Análisis de regresión estadística 27
CAPÍTULO 4 29
Aplicación de los métodos multivariados. 29
4.1. Análisis preliminar 29
4.1.1. Variables asociadas a la diabetes en hombres mexicanos 29
4.1.2. Variables asociadas a la diabetes en mujeres mexicanas 33
4.1.3. Variables asociadas a la situación de los mexicanos por entidad federativa 36
4.2. Componentes principales 40
4.2.1. Datos sobre causas de diabetes en los hombres mexicanos 40
4.2.2. Datos sobre causas de diabetes en los mujeres mexicanas 42
4.2.3. Datos sobre situación de los Mexicanos por estados 44
4.3. Análisis de factores 46
4.3.1. Datos de las variables asociadas a la diabetes en hombres mexicanos 46
4.3.2. Factores para las variables asociadas a la diabetes en mujeres mexicanas 49
4.3.3. Datos de situación de los mexicanos por estados 52
4.4. Conglomerados 55
4.4.1. Datos de la situación de loa mexicanos por estados 55
4.4.1.1. Análisis por k medias 55
4.4.1.2. Por jerarquías 56
iii
4.5. Regresión múltiple 58
4.5.1. Causas que pueden repercutir en padecer diabetes en hombres 58
4.5.2. Datos de causas de diabetes en mujeres mexicanas 59
CAPÍTULO 5 63
Pronóstico para la mortalidad por diabetes en México 63
5.1. Regresión 63
5.1.1. Regresión lineal simple 63
5.1.2. Regresión local 64
5.1.3. Aplicación del método por regresión 64
5.2. Series de Tiempo 67
5.2.1. Componentes 68
5.2.2. Modelo ACF Y PACF 69
5.2.3. Modelo ARMA 69
5.2.4. Modelo ARIMA 70
5.2.5. Pronóstico 71
5.2.6. Aplicación de Series de tiempo 72
CONCLUSIONES 77
APÉNDICE A 79
BIBLIOGRAFÍA 83
iv
Lista de Figuras
Fig. 1.5.1 Carga Económica de la diabetes............................................................................. 6
Fig. 2.2.1 Diagrama de dispersión de causas de diabetes en hombres ................................. 10
Fig. 3.1.1 Enfoque de las técnicas multivariadas. ................................................................ 13
Fig. 3.2.1 Pasos para realizar un análisis de factores ........................................................... 17
Fig. 3.2 2 Métodos de Extracción de Factores ..................................................................... 21
Fig. 3.2.3 Criterios para determinar el número de factores .................................................. 22
Fig. 3.2.4 Métodos para aplicar rotación de factores............................................................ 23
Fig. 3.3.1 Diagrama del método por conglomerados ........................................................... 25
Fig. 3.3.2 Pasos del criterio de traza ..................................................................................... 27
Fig. 4.1.1 Matriz de las variables asociadas a la diabetes en hombres mexicanos ............... 31
Fig. 4.1.2 Diagrama de caja de las variables asociadas a la diabetes en hombres mexicanos
.............................................................................................................................................. 32
Fig. 4.1.3 Diagrama bivariante de las variables asociadas a la diabetes en hombres
mexicanos ............................................................................................................................. 32
Fig. 4.1.4 Chi plot de las variables asociadas a la diabetes en hombres mexicanos ............ 33
Fig. 4.1.5 Gráfico de variación de las componentes principales de las variables asociadas a
la diabetes en hombres mexicanos........................................................................................ 40
Fig. 4.1.6 Gráfico del comportamiento de las cargas con dirección para las variables
asociadas a la diabetes en hombres mexicanos .................................................................... 41
Fig. 4.1.8 Gráfico de componentes en espacio rotado de las variables asociadas a la diabetes
en hombres mexicanos.......................................................................................................... 49
Fig. 4.2.1 Matriz de dispersión en las variables asociadas a la diabetes en mujeres
mexicanas ............................................................................................................................. 35
Fig. 4.2.2 Diagrama de caja para las variables asociadas a la diabetes en mujeres
mexicanas ............................................................................................................................. 35
Fig. 4.2.3 Caja bivariante para las variables asociadas a la diabetes en mujeres mexicanas 36
Fig. 4.2.4 Chi plot de las variables asociadas a la diabetes en mujeres mexicanas .............. 36
v
Fig. 4.2.5 Gráfico de variación de las componentes principales en las variables asociadas a
la diabetes en mujeres mexicanas ......................................................................................... 42
Fig. 4.2.6 Gráfico del comportamiento de las cargas con dirección para las variables
asociadas a la diabetes en mujeres mexicanas ...................................................................... 43
Fig. 4.2.7 Gráfico de componentes en espacio rotado de las variables asociadas a la diabetes
en mujeres mexicanas ........................................................................................................... 52
Fig. 4.3.1 Matriz de dispersión de las variables asociadas a la situación de los mexicanos
por entidad federativa ........................................................................................................... 38
Fig. 4.3.2 Diagrama de caja aplicado a las variables asociadas a la situación de los
mexicanos por entidad federativa ......................................................................................... 39
Fig. 4.3.3 Diagrama estalactita para las variables asociadas a la situación de los mexicanos
por entidad federativa. .......................................................................................................... 39
Fig. 4.3.4 Gráfico de variación de las componentes principales en las variables asociadas a
la situación de los mexicanos por entidad federativa ........................................................... 44
Fig. 4.3. 5 Gráfico de las cargas con dirección de las variables asociadas a la situación de
los mexicanos por entidad federativa ................................................................................... 45
Fig. 4.3.6 Gráfico de componentes en espacios rotados de “análisis por estado” ................ 55
Fig. 4.3. 7 Mapa de los grupos formados por las variables asociadas a la situación de los
mexicanos por entidad federativa por k medias ................................................................... 56
Fig. 4.3.8 Método de k medias aplicado a la situación por estados ..................................... 56
Fig. 4.3.9 Dendograma generado por método de jerarquías a situación por estados ........... 57
Fig. 4.3. 10 Mapa Factorial de la agrupación por jerarquías a datos de situación por estados
.............................................................................................................................................. 57
Fig. 4.3. 11 Mapa de los grupos formados por las variables asociadas a la situación de los
mexicanos por entidad federativa por jerarquia ................................................................... 58
Fig. 5.1.1 Proceso para realizar una regresión local ............................................................. 64
Fig. 5.1. 2 Ajuste de datos aplicando LOES ......................................................................... 66
Fig. 5.1. 3 Comparación del ajuste de datos de ambos modelos. ....................................... 67
Fig. 5.2.2 Tipos de componentes .......................................................................................... 68
Fig. 5.2.3 Metodología de Box Jenkins ................................................................................ 71
Fig. 5.2. 4 Gráfico de la tendencia de los datos .................................................................... 73
vi
Fig. 5.2.5 Gráfico de los datos ya estacionarios ................................................................... 73
Fig. 5.2. 6 Gráfico del ACF y PACF de los datos ................................................................ 74
Fig. 5.2. 7 Gráfico de los residuos cuando ya se ha diferenciado ........................................ 74
Fig. 5.2. 8 ACF y PACF de los residuos .............................................................................. 75
Fig. 5.2. 9 Predicción con Series de Tiempo ........................................................................ 75
vii
Lista de tablas
Tabla 4.1.1 Medias de las variables asociadas a la diabetes en hombres mexicanos ........... 30
Tabla 4.1. 2 Matriz de varianza covarianza de las variables asociadas a la diabetes en
hombres mexicanos .............................................................................................................. 30
Tabla 4.1.3 Matriz de correlación de las variables asociadas a la diabetes en hombres
mexicanos ............................................................................................................................. 31
Tabla 4.14 Variación de las componentes principales de las variables asociadas a la
diabetes en hombres mexicanos ........................................................................................... 40
Tabla 4.1.5 Carga de los eigen-vectores estimados de las variables asociadas a la diabetes
en hombres mexicanos.......................................................................................................... 41
Tabla 4.1.6 Prueba de KMO y Bartlett para las variables asociadas a la diabetes en hombres
mexicanos ............................................................................................................................. 46
Tabla 4.1.7 Extracción de factores a las variables asociadas a la diabetes en hombres
mexicanos ............................................................................................................................. 47
Tabla 4.1 8 Comunalidades de las variables asociadas a la diabetes en hombres mexicanos
.............................................................................................................................................. 47
Tabla 4.1.9 Suma de rotación de cargas al cuadrado en las variables asociadas a la diabetes
en hombres mexicanos.......................................................................................................... 48
Tabla 4.1.10 Matriz de componentes aplicando factores a las variables asociadas a la
diabetes en hombres mexicanos ........................................................................................... 48
Tabla 4.1. 11 Matriz de componentes rotados de las variables asociadas a la diabetes en
hombres mexicanos .............................................................................................................. 48
Tabla 4.1. 12 Estimador por regresión múltiple a las variables asociadas a la diabetes en
hombres mexicanos .............................................................................................................. 58
Tabla 4.2. 1 Media de las variables asociadas a la diabetes en mujeres mexicanas ............. 33
Tabla 4.2.2 Matriz de varianza covarianza en las variables asociadas a la diabetes en
mujeres mexicanas ................................................................................................................ 34
Tabla 4.2. 3 Matriz de correlación en las variables asociadas a la diabetes en mujeres
mexicanas ............................................................................................................................. 34
Tabla 4.2.4 Variación de las componentes principales en las variables asociadas a la
diabetes en mujeres mexicanas ............................................................................................. 42
viii
Tabla 4.2.5 Carga de los eigen-vectores estimados en las variables asociadas a la diabetes
en mujeres mexicanas ........................................................................................................... 43
Tabla 4.2.6 Extracción de factores de las variables asociadas a la diabetes en mujeres
mexicanas ............................................................................................................................. 49
Tabla 4.2.7 Comunalidades de las variables asociadas a la diabetes en mujeres mexicanas50
Tabla 4.2.8 Sumas de rotación de cargas al cuadrado de las variables asociadas a la diabetes
en mujeres mexicanas ........................................................................................................... 50
Tabla 4.2.9 Matriz de componentes de las variables asociadas a la diabetes en mujeres
mexicanas ............................................................................................................................. 51
Tabla 4.2.10 Matriz de componentes rotados de las variables asociadas a la diabetes en
mujeres mexicanas ................................................................................................................ 51
Tabla 4.2. 11 Estimador por regresión múltiple de las variables asociadas a la diabetes en
mujeres mexicanas ................................................................................................................ 59
Tabla 4.2. 12 Estimador por regresión múltiple de algunas de las variables asociadas a la
diabetes en mujeres mexicanas ............................................................................................. 60
Tabla 4.3.1 Media de las variables asociadas a la situación de los mexicanos por entidad
federativa .............................................................................................................................. 37
Tabla 4.3.2 Matriz de varianza covarianza de las variables asociadas a la situación de los
mexicanos por entidad federativa ......................................................................................... 37
Tabla 4.3.3 Matriz de correlación de las variables asociadas a la situación de los mexicanos
por entidad federativa ........................................................................................................... 38
Tabla 4.3.4 Variación de las componentes principales de las variables asociadas a la
situación de los mexicanos por entidad federativa ............................................................... 44
Tabla 4.3. 5 Carga de los eigen-vectores estimados de las variables asociadas a la situación
de los mexicanos por entidad federativa............................................................................... 45
Tabla 4.3.6 Prueba de KMO y Bartlett para análisis por estados en México ....................... 52
Tabla 4.3. 7 Extracción de factores para análisis por estados en México. ........................... 52
Tabla 4.3.8 Comunalidades del análisis por estados de México .......................................... 53
Tabla 4.3.9 Suma de rotación de cargas al cuadrado de "análisis por estados" ................... 53
Tabla 4.3. 10 Matriz de componentes de "análisis por estados" .......................................... 54
Tabla 4.3. 11 Matriz de componentes rotados de "análisis por estados" .............................. 54
ix
Tabla 5.1.1 Datos históricos de mortalidad en México ........................................................ 64
Tabla 5.1.2 Coeficientes de regresión lineal sobre datos de mortalidad .............................. 65
Tabla 5.1.3 Nuevos valores de mortalidad ajustando con LOESS ....................................... 65
Tabla 5.1.4 Comparación de las predicciones obtenidas de los modelos de regresión lineal y
local- ..................................................................................................................................... 67
Tabla 5.2.1 Datos de la predicción por Series de Tiempo .................................................... 76
1
Introducción
El interés por realizar un análisis de datos acerca de algunas variables relacionadas con la
diabetes es con el fin de ampliar nuestro conocimiento sobre este tema. La problemática
asociada con la diabetes va en aumento con el paso del tiempo. El interés surge debido a
que a pesar de las medidas que se han tomado para disminuirla.
Los objetivos que se tiene principalmente son:
Estudiar datos sobre la diabetes en mujeres y hombres, para determinar nuevas
variables que expliquen la mayor parte posible de la variabilidad en los datos
originales.
Determinar a partir de los datos estudiados sobre diabetes, si existe relaciones que
permitan agrupar a las entidades federativas en conjuntos con cierta similitud.
Agrupar grupos homogéneos, en los cuales, las variables que lo integran tengan una
alta correlación.
Realizar una regresión multivariada que exprese la incidencia de diabetes en
términos de otras variables importantes, que nos permita ver cómo afectan los
cambios en estas variables a dicha incidencia.
Hacer un pronóstico de la mortalidad por diabetes, mediante regresión local y series
temporales, que revele la tendencia de esta problemática.
Con estos objetivos ya planteados, se busca dar información que tenga un aporte para la
comprensión de la situación que tiene la diabetes en la población mexicana. Para esto se
tomaran los datos estadísticos recabados por instituciones dedicadas a realizar estadísticas
en México (del año 2012).
Desarrollamos el trabajo aplicando la metodología de la estadística multivariada, para lo
cual lo hemos dividido en cinco capítulos.
En el Capítulo 1 “La diabetes mellitus”, se da información acerca de lo que es la diabetes,
sus tipos, antecedentes, la situación de la misma, y la carga económica que provoca. El fin
es lograr entender el impacto que tiene en el mundo, pero principalmente en México, y
poder tener un entendimiento de las causas que se involucran en este padecimiento, además
de las consecuencias tanto de salud, como económicas que esta tiene.
En el Capítulo 2 “Datos multivariados y su visualización”, se hace referencia al análisis
preliminar que se debe aplicar a los datos, antes de un análisis con mayor profundidad. Este
análisis preliminar consta de la estadística descriptiva, la cual busca información acerca del
comportamiento que tiene cada variable individualmente, y alguna relación de varias
2
variables entre sí. Para complementar este análisis, se recurre a la visualización gráfica de
los datos.
En el Capítulo 3 “Técnicas multivariadas”, se hace un estudio breve de varios métodos de
análisis multivariado. Dentro de estos, se considero el Análisis de Componentes
Principales, el Análisis de Factores, Análisis por Conglomerados y Análisis de Regresión
Múltiple.
En el Capítulo 4 “Aplicación de los métodos multivariados.”, se aplican los métodos de los
Capítulo 2 y Capítulo 3 a tres grupos diferentes de datos.
Por último en el Capítulo 5 “Pronóstico para la mortalidad por diabetes en México”, se
desarrolla brevemente las teorías de regresión lineal y regresión local. Se aplica esto a datos
anuales de la mortalidad en México. También se da una breve explicación de Series de
tiempo, y se aplica este método a los mismos datos sobre mortalidad.
3
CAPITULO 1
La diabetes mellitus
En este capítulo se introduce el tema de la problemática de la diabetes, comenzando
definiendo a que se refiere el término diabetes mellitus, y los tipos que tiene. La diabetes es
una enfermedad que ha venido creciendo considerablemente y se describe la situación que
tiene tanto en México, como a nivel mundial, además de los costos que está genera. La
recopilación de información se basa principalmente de (FUNSALUD, 2015).
1.1. ¿Qué es la diabetes mellitus?
La diabetes (diabetes mellitus) es una enfermedad crónica degenerativa producida cuando
el páncreas no produce suficiente insulina o cuando el organismo no puede utilizar la
insulina con eficiencia.
La diabetes mellitus se ha convertido en un problema de salud pública de mucha
importancia, pues es una de las cuatro enfermedades no transmisibles que es considerada
por los dirigentes mundiales para poder intervenir prioritariamente
Para poder entender la dimensión que ha alcanzado la diabetes, el (INEGI, 2013) aproxima
que 371 millones de personas padecen diabetes a nivel mundial, y a esta situación trae con
sigo costos muy altos para poder atenderla, ya que se estima que las instituciones gastan
707 dólares al año por pacientes con diabetes, lo cual es un gasto muy elevado tomando en
cuenta la tendencia creciente de la enfermedad, pero más adelante se explicará con mayor
detalle.
Existen muchos factores por los cuales se tiene conocimiento que se puede desarrollar la
diabetes, ya sea por predisposición hereditaria, estilo de vida (sobrepeso, obesidad,
inactividad física, dieta inadecuada), factores ambientales, edad, entre otros. El estilo de
vida es una de las causas que influyen mucho en este padecimiento, y este es un
comportamiento que puede ser modificadas por las personas, pero a pesar de las medidas
que las instituciones han tomado para que se modifiquen estas conductas, y con ello se
pueda reducir la incidencia de diabetes, la problemática sigue en tendencia creciente.
En el caso de tener diabetes, lo fundamental es tener un diagnóstico de que se padece está
enfermedad lo antes posible para poder tomar acciones contra la enfermedad, parece algo
CAPITULO 1
4
obvio, pero muchas de las personas que padecen diabetes lo desconocen y eso aumenta las
posibilidades de que la enfermedad se agrave, ya que se pueden sumar otras
complicaciones.
1.2. Antecedentes
Se tiene referencias de casos de diabetes desde el año de 1500 a.C. pero fue el médico
romano Arateus quien la nombro como diabetes, que hace referencia al exceso de orina y
posteriormente el médico William Cullen fue quien le agrego el mellitus, que hace
referencia a la miel.
Pero el gran logro lo llevaron un equipo de médicos canadienses, los cuales lograron aislar
la insulina (secreción interna del páncreas), y un año más tarde pudieron tratar a un joven
de 14 años que padecía diabetes mellitus tipo I,
En México, a partir de la década de los ochentas la obesidad comenzó aumentar debido a la
urbanización, que trajo consigo el consumo de alimentos azucarados, la disminución del
transporte activo, entre otras circunstancias.
1.3. Tipos de diabetes
La diabetes mellitus se clasifica en tres tipos, entre estos esta la diabetes tipo I, la cual es
una enfermedad autoinmune y se caracteriza por una producción inadecuada de la insulina,
y debido a lo cual se necesita la administración de esta hormona. Las personas propensas a
padecerla son los infantes o adolescentes.
La diabetes mellitus tipo II es un trastorno metabólico que se caracteriza por hiperglucemia
(nivel alto de azúcar en la sangre) en el contexto de resistencia a la insulina y falta relativa
de insulina. Este tipo de diabetes se debe en gran parte a los hábitos alimenticios,
inactividad física, sobrepeso y obesidad. El consumir bebidas azucaradas también aumenta
el riesgo de padecerla.
Aunque las causas por las que se padece diabetes tipo I, y la diabetes tipo II, no son las
mismas, los síntomas de ambas son similares, pues consiste en la expulsión excesiva de
orina, sed y hambre constante, pérdida de peso, cansancio y trastornos visuales, pero la
diabetes tipo II, suelen ser menos intensos.
Y por último se tiene la diabetes gestacional, que es un estado hiperglucémico que se
detecta por primera vez durante el embarazo. Esto puede ser a causa de una mala
alimentación previa y durante el embarazo, o por el bloqueo de las funciones de la insulina,
1.4 Situación de la diabetes en México y el mundo
5
debido a las hormonas que se liberan en el proceso. Las mujeres con este tipo de diabetes
corren mayor riesgo de padecer hipertensión durante el embarazo.
1.4. Situación de la diabetes en México y el mundo
Es claro que la diabetes es un gran problema de salud pública, según la Organización
Mundial de la Salud (OMS), en el año 2012 hubo más de 347 millones de personas con
diabetes en el mundo, de las cuales, más del 80% de las muertes fueron a causa de la
misma, se registraron en países donde los ingresos son medios o bajos. También se sabe
que en 2014, esa cifra aumento a 422 millones de adultos con una prevalencia de 8.5% en
la población adulta.
Tan sólo la diabetes tipo II representa el 90% de los casos a nivel mundial a causa del
sobrepeso, la obesidad y la inactividad física, y a pesar de que estas causales son debido a
los hábitos que tienen las personas y los cuales podrían modificar, ya que dependen de
factores sociales, económicos e individuales, la realidad es que esto no es un problema fácil
de abordar, porque estos factores están fuera del alcance de las intervenciones de salud, y
por tanto, no pueden influir de tal manera que estos índices disminuyan.
Se estima que el costo generado por esta enfermedad y sus complicaciones asciende a
$346,000 mil millones de dólares, y con la tendencia creciente que tiene la diabetes, está
cifra podría ser de $490,000 mil millones de dólares en unos 13 años.
Pero el incremento de la diabetes no es lo único preocupante, ya que estadísticas de la
diabetes en México revelan que la morbilidad y la letalidad hospitalaria, también aumenta,
conforme la edad del paciente aumenta. Además, tiene la mayor contribución de mortalidad
por diabetes del continente americano y una de las tasas de mortalidad más altas del mundo
por esta condición. Además ocupa el 6to lugar a nivel mundial en el número de personas
con diabetes.
1.5. Carga económica de la diabetes
Por carga económica se refiere a los gastos que se realizan para la atención médica y los
gastos relacionados con el efecto que tiene por la mortalidad prematura y la discapacidad
que tenga el afectado en el trabajo. El motivo por el que se engloban estos aspectos es
debido a que repercuten directamente en el desarrollo económico y humano, en la
capacidad de fuerza de trabajo y en las condiciones de equidad y pobreza.
En el año 2013, se estimó según (FUNSALUD, 2015), que la carga económica a causa de
la diabetes fue de 362, 859,82 millones de pesos, es decir 2.25% del PIB de ese mismo año.
Los costos directos e indirectos se expresan en la Fig. 1.5.1. También se tiene que
CAPITULO 1
6
considerar que el 40% de la carga total recae sobre el sistema de salud y por ello es
importante que para afrontar esta problemática se considere a la salud, de la mano con la
seguridad social.
Fig. 1.5.1 Carga Económica de la diabetes
Debido a estos altos costos, es tan importante poder comprender y buscar medidas para
solucionar el problema, ya que es preocupante que estos costos que genera la enfermedad
van en aumento por que no se ha podido frenar esta tendencia como se quisiera. Según
(FUNSALUD, 2015), si el comportamiento no se modifica, se tiene una estimación que la
carga económica podría alcanzar 2.68% del PIB, para el año 2018.
Con ello podemos entender que el problema es bastante complicado, pero se necesita
mayormente que las personas modifiquen comportamientos que ponen en riesgo la salud,
además de los grandes costos que generan al no seguir las recomendaciones de estilo de
vida y alimentación que recomiendan los especialistas en salud.
Carga económica
362,859.82 (2.25%)
Costos directos
Gastos de atención médica
$179,495.33 (1.11%)
Costos indirectos
Perdida de ingresos por
muerte prematura o discapacidad.
$183,364.49 (1.14%)
7
CAPÍTULO 2
Datos multivariados y su visualización
En principio, los datos multivariados surgen en el instante en que a un individuo u objeto se le
miden más de una característica de interés (conocido como variable). Para poder hacer un
análisis de los datos, en primera instancia se recurre a aplicar una estadística descriptiva, la cual
consta esencialmente de obtener la matriz de datos, vector de media, la matriz de varianza
covarianza, la matriz de covarianza muestral, la matriz de correlación.
Como complemento a este análisis, se recurre a la visualización del comportamiento de estos
datos por medio de distintos gráficos, como lo es el gráfico de dispersión, chiplot, diagrama de
caja, diagrama de caja bivariante, diagrama de estalactita, entre otros, que son útiles para tener
una interpretación del comportamiento de nuestros datos, de manera más apreciativa. Con la
descripción estadística y la representación gráfica se tiene un complemento ideal para tener el
primer contacto con los datos.
2.1. Estadística descriptiva
El desarrollo de los temas está basado en (Everitt & Hothorn, 2011). Se describe a la estadística
como la rama de las matemáticas que proporciona métodos para reunir, organizar y analizar
información y usar ésta para obtener diversas conclusiones que nos puedan ayudar a resolver
problemas en la toma de decisiones y el diseño de experimentos.
Ahora, por estadística descriptiva se entiende a la parte de la estadística que analiza, estudia y
describe a la totalidad de individuos de una población muestra.
Para poder aplicar la estadística descriptiva, primero se plasman en una matriz de datos, donde
consta de p variables y n objetos o individuos (2.1. 1).
푋 =
푥 푥 ⋯ 푥
푥⋮푥
푥 ⋯ 푥
⋮ ⋱ ⋮푥 ⋯ 푥
(2.1. 1)
La matriz X consiste de datos observados, que corresponden a variables teóricas 푋 ,푋 ,… , 푋 . En
el análisis multivariado tratamos de encontrar relaciones entre las variables y estudiar la
“cercanía” entre los diferentes objetos.
CAPÍTULO 2
8
2.1.1. Covarianzas
Las covarianzas de las variables aleatorias nos miden su dependencia lineal. La covarianza
teórica de las variables aleatorias 푋 y 푋 se define por
휎 = 퐶표푣 푋 , 푋 = 퐸(푋 − µ ) 푋 − µ (2.1. 2)
donde µ = 퐸(푋 ) y µ = 퐸 푋 . Cuando 푖 = 푗 la covarianza es la varianza
휎 = 퐸((푋 − µ ) ) (2.1. 3)
Con los 휎푖푗 se forma la matriz Ʃ:
Ʃ =
⎣⎢⎢⎢⎡휎 휎 ⋯ 휎
휎 휎 ⋯ 휎
⋮휎
⋮ ⋱ ⋮휎 ⋯ 휎 ⎦
⎥⎥⎥⎤
(2.1. 4)
Esta matriz se llama matriz de varianza-covarianza, o simplemente matriz de covarianza. La
matriz Ʃ es estimada por:
푺 =1
푛 − 1(풙풊 − 풙)(풙풊 − 풙) (2.1. 5)
donde 푥 = 푥 , 푥 , … , 푥 es el vector de observaciones para el i-ésimo objeto y 푥̅ =
푛 ∑ 풙풊풏풊 ퟏ . La diagonal de S contiene las varianzas muestrales de cada variable, a las que
denotamos por 푠 .
2.1.2. Correlaciones
El coeficiente de correlación entre las variables 푋 y 푋 se define como:
휌 =휎
휎 휎 (2.1. 6)
2.1 Estadística descriptiva
9
donde 휎 = 휎 .
Para datos observados, definimos la matriz de correlación que contiene a los estimadores de las
correlaciones 휌 por medio de
푹 = 푫 / 푺푫 / (2.1. 7)
donde 푫 / = 1 푠⁄ ,… , 1 푠⁄ y 푠 = 푠 es la desviación estándar muestral de la variable i.
2.1.3. Distancias
En el análisis de conglomerados que veremos en el capítulo 3 aplicamos el concepto de distancia
entre los objetos en los datos. Dadas las unidades i y j la distancia más usada es la euclidiana
definida por:
풅풆 풙풊, 풙풋 = 푥 − 푥 (2.1. 8)
Además tenemos otras distancias, como las del máximo que se define por:
풅 풙풊, 풙풋 = max 푥 − 푥 (2.1. 9)
La distancia Manhattan, definida como:
d 풙풊, 풙풋 = 푥 − 푥 (2.1.10)
Y la distancia de Minkowski para 푝 > 0:
풅푴풊 풙풊, 풙풋 = 푥 − 푥
/
(2.1.11)
CAPÍTULO 2
10
2.2. Visualización del comportamiento de los datos
Para poder apreciar de forma más completa el comportamiento de los datos, se puede recurrir a
los gráficos de datos, los cuales ayudan a que se aprecie visualmente las cantidades medidas por
medio de combinación de puntos, líneas, un sistema de coordenadas, números, símbolos,
palabras, sombreado y color.
Esta manera de poder dar la interpretación de los datos, funciona sólo como un complemento del
análisis, pues si bien, al poder visualizar los datos, se puede ver patrones que indique el
comportamiento de estos, también es cierto que lo que se visualiza debe reflejar lo obtenido por
el análisis estadístico.
2.2.1. Diagrama de dispersión.
Este gráfico vincula al menos dos variables para evaluar la posible relación entre las variables
distribuidas. Es el diagrama estándar para representar datos bivariantes continuos, pero se puede
mejorar en una variedad de formas a la hora de acomodar información sobre otras variables. La
ejemplificación de este modelo está representado en la Fig. 2.2.1 que muestra a la variable
letalidad y mortalidad en hombres mexicanos.
Fig. 2.2.1 Diagrama de dispersión de causas de diabetes en hombres
2.2 Visualización del comportamiento de los datos
11
2.2.2. Matriz de dispersión.
En una matriz de dispersión consiste en representar en cada entrada de la matriz, un gráfico de
dispersión sencillo, lo malo de este método es que mientras más variables se tengan que
representar, la visualización de los datos, no es tan buena (la visualización de este gráfico lo
puede ver en la Fig. 4.1.1, Fig. 4.2.1 y Fig. 4.3.1).
2.2.3. Diagrama de caja
Es un gráfico que ayuda a la visualización de la distribución de un conjunto de datos. Este
gráfico está basado en cuartiles, donde se compone de el cuartil inferior 푄 , el cuartil superior
푄 de la distribución de una variable aleatoria, además de 푄 referido a la mediana de los datos,
también contiene el rango intercualtil 퐼푄푅 = 푄 − 푄 , lo que conforma el centro del gráfico.
Luego, el gráfico contiene líneas que se extienden desde la caja, hasta los valores máximo y
mínimo, o hasta 1.5 veces el 퐼푄푅, si los datos se extienden más de este valor, entonces nos dice
que hay valores atípicos (para una ejemplificación del diagrama, se puede ver en la Fig. 4.1.2,
Fig. 4.2.2 y Fig. 4.3.2)
2.2.4. Diagrama de caja bivariante
El cuadro de caja bivariante se basa en el cálculo de medidas solidas de ubicación, escala y
correlación. Consiste de un par de elipses concéntricas, una de ellas (bisagra) incluye el 50% de
los datos, mientras que la segunda (valla) delinea los valores atípicos potencialmente
problemáticos. Además, este gráfico muestra las líneas de regresión resistentes de 푦 en 푥 y 푥 en
푦, con su respectiva intersección, la cual muestra el estimador de ubicación bivariante. El ángulo
agudo entre las líneas de regresión será pequeño para un gran valor absoluto de correlaciones y
grande para uno pequeño (la visualización del diagrama se puede ver en la Fig. 4.1.3 y Fig.
4.2.3).
2.2.5. Diagrama chiplot
El gráfico chiplot está diseñado para admitir el problema bajo la dependencia de dos variables
aleatorias (푋 , 푋 ). El chiplot transforma los datos 푥 ,… , 푥 y (푥 , … , 푥 ) en valores
(푥 , … , 푥 ) Y (휆 ,… , 휆 ), que trazados en un diagrama de dispersión, se pueden usar para
detectar desviaciones de la independencia (este diagrama fue utilizado en la Fig. 4.1.4 y Fig.
4.2.4)
CAPÍTULO 2
12
2.2.6. Diagrama estalactita
Este diagrama está diseñado específicamente para poder detectar valores atípicos multivariados
(ver Fig. 4.3.3). Este método se basa en las distancias de observación generalizadas de la media
multivariada de los datos, sólo que esta se calcula a partir del aumento del tamaño de los
subconjuntos de datos.
se muestran la matriz de datos de tres casos particulares (los cuales se han tomado los gráficos
para ilustrar este capítulo) en los que se aplicara en la sección de “análisis preliminar” la
estadística descriptiva y la visualización de los datos por medio de los gráficos anteriormente
descritos, esto con el fin de observar la correlación de los datos, antes de hacer un análisis más
profundo.
13
CAPÍTULO 3
Técnicas multivariadas
Las técnicas multivariadas pueden abordarse desde distintos enfoques según (Pla, 1986) que se
reduce a los expresados en Fig. 3.1.1 en donde los enfoques se encuentran en los recuadros del
lado izquierdo, y a su derecha se expresa como es que se realiza dicho enfoque.
Fig. 3.1.1 Enfoque de las técnicas multivariadas.
Para realizar este análisis, tenemos varios métodos y en este capítulo se describirá a cuatro de
ellos. Los métodos son:
Análisis de Componentes Principales,
Análisis de Factores
Conglomerados.
Regresión Múltiple
• Hacer lo más simple el universo de estudio.Simplificar estructura
de los datos
• Observar como se comportan los datos, si forman grupos o están dispersos en el multiespacio. También se pueden agrupar variables.
Clasificación
• Se selecciona cierta variable y se analiza la dependencia con las variables restantes.
Análisis de la dependencia
• Se analiza si hay independencia total y colinealidadAnálisis de
interdependencia
• Se pretende establecer si los datos obtenidos pueden aceptarse con cierto nivel de significancia.
Formulación y prueba de hipótesis
CAPÍTULO 3
14
3.1. Análisis por el método de las componentes principales
El método de análisis por componentes principales es una técnica matemática en la cual no es
necesario conocer la distribución de probabilidad de los datos. Lo que se logra con este método es
generar nuevas variables que expresen la información de los datos originales, reducir la
dimensión de nuestro problema y en caso de que de las variables analizadas tenga poco aporte en
cuanto a información, se elimina.
Estas nuevas variables generadas las denominamos componentes principales, las cuales se desea
que no estén correlacionadas.
Las componentes principales debe cumplir con ciertos requisitos, los cuales se engloban en:
Las componentes no deben estar correlacionadas, y en tal caso de conocer si las variables
originales tienen un comportamiento multinormal, podemos afirmar que son
independientes.
Cada componente principal muestra la máxima variabilidad de los datos analizados.
El análisis de componentes principales parte de considerar una matriz de datos 푿 de tamaño 푛, y
dimensión 푝. Además de 푿, el análisis requiere tener la matriz de covarianza 휮, y para el análisis
se puede contar con dos casos.
휮 es singular
휮 tiene múltiples raíces.
Sea 휷 un vector columna ortogonal de 푝 componentes tal que 휷′휷 = 1. Para obtener la varianza
de la matriz de datos se tiene que obtener 휷′푿 , la cual se estima como (3.1.1)
휎(휷′푿) = 휎휷′푿푿′휷 = 휷′휮휷 (3.1.1)
Para poder determinar la combinación lineal normalizada 휷′푿 con varianza máxima, se debe
encontrar un vector 푝 tal que 휷′휷 = 1 que pueda maximizar la ecuación (3.1.1). Para lograrlo
se tiene la ecuación (3.1.2)
ɸ = 휷’Ʃ휷 − 휆(휷′휷 − 1) = ∑ 훽 휎 훽 − 휆 ∑ 훽 − 1, (3.1.2)
Donde 휆 es un multiplicador de Lagrange. Resulta ser que al obtener las derivadas parciales del
vector ɸ se tiene (3.1.3)
3.1 Análisis por el método de las componentes principales
15
휕ɸ
휕휷= 2Ʃ휷 − 2휆휷 (3.1.3)
Dado que 휷′휮휷 y 휷′휷 tienen derivados en todas partes en una región que contiene 휷′휷 = 1, un
vector 휷 que maximiza 휷′휮휷, entonces se debe satisfacer la expresión de la ecuación
(3.1.3)establecida igual a 0 (como se expresa en (3.1.4)).
(휮 − 휆푰) 휷 = 0. (3.1.4)
Para poder llegar a la solución de la ecuación (3.1.4) se debe tener Σ-λI singular; En otras
palabras, λ debe satisfacer (3.1.5).
| 휮 − 흀푰 | = 0 (3.1.5)
La expresión | 휮 − 흀푰 | resulta ser un polinomio, donde 휆 es de grado 푝, por lo tanto la ecuación
(3.1.5) tiene 푝 raíces tales que 휆 ≥ 휆 ≥ ⋯ ≥ 휆 . Si multiplicamos la ecuación (3.1.4) por 휷′,
obtenemos la siguiente ecuación (3.1.6).
휷′휮휷 = 휆휷′휷 = 휆 (3.1.6)
Lo cual demuestra que si 푝 satisface la ecuación (3.1.4) y 휷′휷 = 1, entonces la varianza de 휷′푿
(3.1.1) es 휆. Así, para la varianza máxima deberíamos usar en (3.1.4) la raíz más grande que es
휆 .
3.1.1. Región de la confianza para un vector característico
Para realizar la región de confianza, según (Anderson, 1918), lo primero es definir la matriz de
covarianza como (3.1.7)
휷휟풊휷′ = 휷풊
∗휟풊∗ 휷풊
∗′, (3.1.7)
Donde 휟 es la matriz diagonal 푝 푋 푝 con 0 como el i−é푠푖푚표 elemento diagonal y
휆 휆 휆 − 휆 como el elemento diagonal 푗 = 푖; 휟풊∗ es el (푝 − 1) 푋 (푝 − 1) matriz diagonal
obtenida de 휟풊 suprimiendo la 푖 − é푠푖푚푎 fila y columna; y휷풊∗es la matriz 푝 푋 (푝 − 1) formada
suprimiendo la 푖 − é푠푖푚푎 columna de 휷. Entonces 풉(풊) = 휟풊∗ ퟏ휷풊
∗′√푛 풃(풊) − 휷(풊) tiene una
distribución normal limitante con media 0 y matriz de covarianza
CAPÍTULO 3
16
ℯ 풉(풊) = 휟풊∗ ퟏ휷풊
∗′ 휷풊∗휟풊∗ 휷풊
∗′ 휷풊∗휟풊∗ ퟏ = 푰풑 ퟏ (3.1.8)
y
풉(풊) 풉(풊) = 풏 풃(풊) − 휷(풊) ′휷풊∗휟푰∗ ퟐ휷푰
∗′ 풃(풊) − 휷(푰) (3.1.9)
Tiene una distribución limitada con 푝 − 1 grados de libertad. La matriz de la forma cuadrática en
√푛 풃(풊) − 휷(푰) es
휷풊∗휟풊∗ 휷풊
∗ = 휷(풋)휆
휆− 2 +
휆
휆휷(풋)
′− 휷(푰)
휆
휆− 2 +
휆
휆휷(풊)
′= 휆 Ʃ − 2푰 + (1 휆⁄ )Ʃ (3.1.10)
Porque 휷Ʌ ퟏ휷′ = Ʃ ퟏ, 휷휷 = 퐼 y 휷Ʌ휷 = Ʃ. Entonces (3.1.9) es
푛 풃( ) − 휷( ) ′[휆 Ʃ − 2푰 + (1 휆⁄ )푺] 풃( ) − 휷( ) = 푛풃( )′[휆 Ʃ − 2푰 + (1 휆⁄ )Ʃ]풃( )
= 푛 휆 풃( ) Ʃ 풃( ) + (1 휆⁄ )풃( ) Ʃ풃( ) − 2 (3.1.11)
Porque 휷( )′es un vector característico de 휮 con raíz 휆 y de 휮 con raíz 1 휆⁄ . En el lado
izquierdo de (3.1.11) podemos reemplazar 휮 y 휆 por los estimadores consistentes 푺 y 푙 para
obtener (3.1.12), la cual tiene una distribución limitante con 푝 − 푔푟푎푑표푠 de libertad.
푛 풃( ) − 휷( ) ′[푙 푺 − 2푰 + (1 퐼⁄ 푺)] 풃( ) − 휷( )
= 푛 퐼 휷( ) 푺 휷( ) + (1 푙⁄ )휷( )′푺휷( ) − 2 (3.1.12)
Una región de confianza para el i−é푠푖푚표 vector característico de 휮 con confianza 1 − 푒 consiste
en la intersección de 휷( )휷( ) = 1 y el conjunto de p휷( ) tal que el lado derecho de (3.1.11) es
menor que 푋 (휀) donde 푃푟 푋 > 푋 (휀) = 휀. Obsérvese que la matriz de la forma
cuadrática (3.1.10) es semidefinita positiva.
Este enfoque también proporciona una prueba de la hipótesis nula de que el 푖 − é푠푖푚표 vector
característico es un especificado 휷( )휷( )′휷( )= 1 . La hipótesis es rechazado si el lado derecho
de (3.1.12) con 휷( ) reemplazado por 휷( )
excede 푋 (휀)
3.2 El análisis de factores
17
3.2. El análisis de factores
El análisis de factores es un método para identificar grupos de variables (o factores) cuyas
acciones parecen funcionar en paralelo. Dentro de un solo factor, varias variables medidas dentro
de cada individuo están altamente correlacionadas, ya sea positivamente o negativamente. Otras
variables parecen actuar independientemente de todas las demás. El objetivo del análisis de
factores es identificar e interpretar estos grupos de factores (De la Fuente Fernández, 2011).
Para poder realizar este análisis, hay un par de pasos que se deben seguir, estos pasos están
representados en la Fig. 3.2.1, en la que se puede apreciar que hay un orden para poder obtener
los factores necesarios para su análisis.
Fig. 3.2.1Pasos para realizar un análisis de factores
3.2.1. Formulación del problema
El análisis está basado en (Peña, 2002). Supongamos que x es un vector de variables de
dimensiones 푝 × 1 en elementos de una población. Se tiene un modelo de análisis factorial como
se establece en (3.2.1)
퐱 − 훍 = f횲′ + 훆 (3.2.1)
donde f es un vector de dimensión 푚 × 1, y son los factores no observados, 횲 es una matriz de
cargas y es de dimensión 푝 × 푚 (con 푚 < 푝), 훍 es la media de las variables de x y 훆 es un vector
de dimensión 푝 × 1 de perturbaciones no observadas. Para el caso de f y 훆 supondremos que se
tiene una distribución 푁 (0,1) Y 푁 (0,훹) respectivamente (훹 es diagonal), por lo que las 훆 no
están correlacionadas con f.
CAPÍTULO 3
18
La ecuación (3.2.1) implica que dada una muestra aleatoria simple de n elementos, el modelo
factorial se puede escribir como se expresa en la siguiente ecuación
푥 = µ + 휆 푓 +⋯+ 휆 푓 + ε (3.2.2)
donde 푖 = 1,⋯ , 푛 y 푗 = 1,⋯ , 푝. Con lo cual, i hace referencia a el valor observado, mientras que
j se refiere a las variable. Entonces µ es la media de la variable j, los 푚 휆 multiplicados por los
푚 푓 recogen el efecto de los factores y el ε es una perturbación específica de cada observación.
Poniendo juntas las ecuaciones para todas las observaciones, la matriz de datos 푿 (de 푛 × 푝)
puede escribirse como
퐗 = ퟏ훍 + 퐅횲′ + 훆 (3.2.3)
donde 횲 dimensión p x k, el vector F es de dimensión n x k y el vector aleatorio 훆 es de
dimensión n x 1. La estimación de las cargas Λ y de los factores F no es posible sin algunas
suposiciones adicionales. Específicamente se debe asumir lo expresado en (3.2.4) y (3.2.5).
퐸퐹 = 0 푦 푉푎푟(퐹 ) = 1 (3.2.4)
퐸휀 = 0 푦 푉푎푟(휀) = 훹 = 퐷푖푎푔(훹 ,훹 ,… ,훹 ) (3.2.5)
Además, los factores f no están correlacionados con los errores ε (퐶표푣 퐹 , 휀 = 0) 푐표푛 푖 =
1,⋯ , 푘 푦 푗 = 1,⋯ , 푝. En conjunto, estas suposiciones son suficientes para que podamos
ajustarnos al modelo (3.2.1). Además también pueden usarse para describir una forma alternativa
para el modelo de análisis factorial.
La ecuación (3.2.1) se puede escribir como se expresa en la ecuación siguiente.
(풙 − 흁)(풙 − 흁)′ = (휦풇 + 휺)(휦풇 + 휺)′ = 휦풇 휦풇′ + 휺 휦풇′ + 휦풇휺′ + 휺휺′ (3.2.6)
Usando los tres supuestos (3.2.4), (3.2.5) y la no correlación de los factores y los errores
podemos entonces expresar la matriz de covarianza Σ de x como la ecuación (3.2.7).
3.2 El análisis de factores
19
퐶표푣(풙) = 퐸(풙 − 흁)(풙 − 흁)′ = 휦퐸 풇풇′ 휦′ + 퐸 휺풇′ 휦′ + 휦퐸 풇휺′ + 퐸 휺휺′ = 휦휦′ +휳 (3.2.7)
Demostrando la equivalencia de dos formulaciones de los modelos de análisis factorial en la
ecuación (3.2.1) y (3.2.2). En (3.2.3) se compone de 휦휦′ que es una matriz simétrica y contiene la
parte común del conjunto de variables. La diagonal 휳 contiene la parte específica de cada
variable. Ya que la covarianza de 풙 se puede descomponer de esta manera, entonces la varianza
de las variables observadas puede verse como se expresa en
휎 = 휆 + 훹 푖 = 1,⋯ , 푝 (3.2.8)
Si tenemos que la comunalidad es ℎ = ∑ 휆 , entonces (3.2.8) resulta
휎 = ℎ + 훹 (3.2.9)
Esta igualdad puede interpretarse como una descomposición de la varianza en:
Varianza observada = Variabilidad común + Variabilidad específica
3.2.2. Análisis de la matriz de correlación
El motivo para realizar este análisis de la matriz, es que se busca comprobar si las características
son las correctas para poder realizar un análisis de factores. Las características a las que se hace
mención son:
1. Las variables se encuentren altamente intercorrelacionadas
2. Las variables que tengan correlación muy alta entre sí, también deben tener alta correlación
con el mismo factor o factores.
3.2.3. Extracción de factores
Partiendo del modelo factorial en forma matricial (푋 = 퐹퐴′+ 휀) se deduce la identidad
fundamental del análisis factorial.
CAPÍTULO 3
20
푟 = 퐴퐴′ + 휓 (3.2.10)
Donde 푟 es la matriz de correlación poblacional de las variables 푥 , 푥 , … , 푥 . En esta
extracción se deben obtener los grados de libertad y para que se pueda realizar la estimación se
requiere que el número de ecuaciones sea mayor o igual al número de parámetros a estimar, o lo
que viene siendo
푝(푝 + 1)
2≥ 푝(푘 + 1) => 푘 ≤
푝 − 1
2 (3.2.11)
También se debe tomar en cuenta la no unicidad de la solución ya que
las soluciones dadas por la matriz 퐴 no son únicas.
Por tanto, el modelo es único salvo rotaciones ortogonales, es decir, se pueden realizar rotaciones
de la matriz de las ponderaciones o cargas factoriales sin alterar el modelo.
Como se menciono antes, se debe seleccionar el método adecuado para la extracción de factores.
Estos métodos están descritos en la Fig. 3.2 2 y resumen su funcionamiento y complicaciones.
Cabe destacar que el aplicar alguno de los métodos, se debe considerar que no todos serán
efectivos, y la cuestión es poder analizar e interpretar los resultados, puesto que algunos tendrán
problemas al converger, y también tendrá que ver el número de variables que se analiza. En el
caso partículas de las componentes principales, es un método que siempre proporciona una
solución, pero en caso de que las variables sean bajos y las comunalidades sean pequeñas, pues
puede proporcionar diferencia con los demás métodos, con cargas factoriales mayores.
También es interesante decir que en caso de que las variables sean superiores a 30, el valor de las
comunalidades no influye tanto en el resultado obtenido y todos los métodos tienden a obtener la
misma solución
3.2 El análisis de factores
21
Fig. 3.2 2Métodos de Extracción de Factores
3.2.4. Determinación del número de factores
Para determinar el número adecuado de factores, existen varios criterios que se utilizan, y es que
la importancia radica en que los primeros factores explican la mayor parte de la información
analizada, y los que restan, describen una pequeña cantidad de información. Lo que se pretende
es descartar los factores que proporcionen poca información y por consiguiente el problema se
reduce a analizar sólo los factores que tienen información significativa. Los criterios se describen
en la Fig. 3.2.3.
MÉTODOS DE
EXTRACCIÓN DE
FACTORES
Componentes principales
Siempre proporciona una solución
No esta basado en análisis factorial
Puede llevar a estimadores muy sesgados
Ejes principales
Esta basado en el modelo factorial
Tiene buenas estimaciones
No garantiza su convergencia
Maxima verosimilitud
No depende de la escala de medida de los datos
Puede producir problemas de convegencia con datos no normales
Mínimos cuadrados no ponderados
Minimiza las diferencias de cuadrados
Matriz correlación observada
Matriz de correlación reproducida
Mínimos cuadrados
generalizado
Minimiza el mismo criterio
Aplica contraste de hipótesis para el número de factores.
Factorización por imagenes
Aplica el método de componentes principales a la matriz de correlación (predicción de regresión lineal a las variables)
Alfamiza el
alfaMaximiza el alfa de Cronbach para los factores.
CAPÍTULO 3
22
Fig. 3.2.3Criterios para determinar el número de factores
3.2.5. Rotación de factores
La rotación de factores tiene como fin obtener una interpretación más fácil que la solución inicial.
Para poder realiza la rotación la matriz de cargas factoriales debe cumplir los las tres
características siguientes.
1. Cada factor debe tener pocos pesos altos, y el resto deben ser cercanos a cero.
2. Para cada variable, no debe estar saturada más que un factor.
3. Los factores deben ser diferentes en el comportamiento, y esto hace referencia a que los
valores de cada factor tendrán que cambiar en las variables que se les asigna el peso de
cargas altas y bajas.
Existen diferentes métodos para hacer una rotación de factores, estos métodos se expresan en el
esquema de la Fig. 3.2.4. que expresa su funcionamiento.
CRITERIOS
A priori
Datos y variables bien elegidos y
situación conocida
Idea previa de cuantos factores
hay
Cuales son los factores
Prueba de Kaiser
Valores propios de la matriz de
correlación
Número de valores propios superiores a la
unidad
Porcentaje de la varianza
Número minimo necesario para un
porcentaje satisfactorio
75% 80%
Sedimentación
Representación gráfica
Factores en eje de las abscisas
Valores propios en las ordenadas
División a la mitad
Muestra se divide en dos partes al azar
Se toman los factores con alta correspondencia de cada muestra
3.2 El análisis de factores
23
Fig. 3.2.4Métodos para aplicar rotación de factores.
3.2.6. Interpretación de factores
Para hacer una interpretación de factores, lo que se debe hacer es analizar la correlación que
existe entre los factores obtenidos con las variables originales, y para hacer está interpretación se
cuenta con los pasos que se describen a continuación.
Identificar las correlaciones altas (en valor absoluto) entre las variables y los factores.
Darle una especificación de la correlación (negativa, positiva, inversa)
Graficar dos a dos, se grafica los ejes factoriales, y sobre este se proyecta las variables.
ROTACIÓN DE FACTORES
Oblicuas
No tiene que ser ortogonal
Debe ser una matriz singular
Factores en la población con correlaciones muy fuertes.
Ortogonal
Varimax
Maximiza el número de
variables con cargas altas en un factor
Quartimax
Maximiza la varianza de las cargas
factoriales al cuadrado de cada variable
en los factores.
Equamax
Maximiza la media de los criterios de Varimax y Quartimax
Oblimin
Minimiza la interpretabilidad y ortogonalidad de los factores
Promax
Se eleva a una potencia las
cargas factoriales
obtenidads en una rotacion
ortogonal
Los ejes se rotan de tal manera que se preserve la incorrelación entre
factores
CAPÍTULO 3
24
Cuando las variables se encuentran al final del factor, la correlación es alta con ese
factor.
Cuando las variables se encuentran cerca del origen, la correlación es reducida con
ambos factores.
Cuando no se encuentran cerca de ninguno de los ejes, tiene relación con ambos
factores.
Ordenar en una matriz de tal forma que las variables que tengan alta correlación con un
factor, aparezcan juntas.
Eliminar las cargas factoriales bajas, ya que suele ser información redundante.
3.2.7. Validación del modelo
Para realizar una validación del modelo, lo que se debe hacer es analizar la bondad de ajuste y
obtener la generalidad de los datos.
La Bondad de Ajuste es una suposición básica subyacente al Análisis Factorial es que la
correlación que se tiene entre las variables puede atribuirse a factores comunes. Entonces,
las correlaciones entre variables pueden deducirse a partir de las correlaciones estimadas entre las
variables y los factores.
Ahora bien, al estudiar los residuos, podemos decir que el modelo factorial es adecuado si los
residuos son pequeños. Se sabe que hay mayor estabilidad en los resultados si el número de
variables por caso es alto.
Para obtener la generalidad de los datos, lo conveniente es complementar el primer análisis con
otros nuevos para corroboran la información obtenida en ese primer análisis. Ya sea que se
modifique las variables consideradas (eliminar variables que no se relacionan o las de relaciones
más fuertes), realizar la prueba a grupos presentes en la muestra. Este análisis ayuda a comparar
los resultados obtenidos, y corroboran si con estas modificaciones los datos concuerdan.
3.3. Análisis por conglomerados
Para el análisis por conglomerado se tomó como referencia a (Zelterman, 2015), dicho análisis es
un método no paramétrico de organización, el cual busca formar grupos, los cuales tengan ciertas
similitudes. Esté método generalmente se expresa mediante un gráfico que ayude con la
interpretación de dichos grupos. El método estudia tres tipos de problemas (partición de datos,
construcción de jerarquías y construcción de variables), como lo muestra la Fig. 3.3.1., aunque el
análisis en el que se centrara la investigación será por construcción de jerarquías y k medias.
3.3 Análisis por conglomerados
25
Fig. 3.3.1Diagrama del método por conglomerados
Para realizar un análisis por conglomerado, ocupando “partición de datos”, tan sólo se necesita
tener una matriz de datos. En el caso de que el problema requiera una “construcción de
jerarquía”, lo que se necesita es una matriz de distancia o de similitud de elementos, y en el caso
de “clasificación de variables”, se comienza desde la matriz de relación entre variables. En el
caso de que nuestras variables sean continuas, es necesario la matriz de correlación, pero si las
variables resultan ser discretas, la matriz se construye con distancias ji-cuadrado.
3.3.1. k medias
El algoritmo de k-medias busca en principio un criterio de homogeneidad, la manera de
realizarlo básicamente es utilizando la suma de cuadrados dentro de los grupos, para cada una de
las variables. Equivalentemente se puede obtener haciendo la suma de las varianzas de cada
variable (3.3.1).
−푥̅ (3.3. 1)
Donde k se refiere a los k grupos prefijados, p son las variables involucradas y 푛 los elementos
que contienen cada grupo. Con lo cual podemos identificar que 푥 se refiere a cada variable 푗 en
el elemento 푖 dentro del grupo 푚, mientras que 푥̅ se refiere a la media que tiene la variable 푗
CONGLOMERADOS
PARTICIÓN DE DATOS
DATOS HETEROGÉNEOS
NÚMERO DE GRUPOS
PREFIJADOS
Cada elemento pertenezca
solamente a un grupo
Todo elemento este clasificado
Cada grupo sea homogéneo
CONSTRUCCIÓN DE JERARQUÍAS
Estructurar grupos jerarquicos por la
similitud que tienen los datos.
CLASIFICACIÓN DE VARIABLES
Estudio exploratorio para formar grupos de
todas las variables.
CAPÍTULO 3
26
dentro del grupo 푚. Ahora bien, el objetivo del criterio es minimizar esta varianza, como se
expresa en (3.3.2)
푚í푛 푛 푠 (3.3. 2)
En donde 푛 se refiere al número de elementos que contiene el grupo 푚, mientras que 푠 se
refiere a la varianza que existe en la variable 푗 del grupo 푚. Con lo anterior sólo se busca
encontrar la menor varianza dentro de los grupos, para que sean más homogéneos.
Existe otra forma de homogeneizar los grupos, esto es minimizando el cuadrado de la distancia
con la norma euclidiana, la cual se ha definido en el Capítulo 2. La distancia se refiere a obtener
en cada grupo la longitud que existe ente el centro del grupo, con los puntos contenidos en el
mismo. Para realizar lo anterior se tiene la siguiente ecuación.
푚í푛 (푥 − 푥̅ )′(푥 − 푥̅ ) = 푑 (푖,푚) (3.3. 3)
También se tiene el criterio de la traza, donde la traza se define como la suma de los elementos
de la diagonal principal el cual fue propuesto por Ward en 1963. El método se resuelve al aplicar
(3.3.4).
푡푟[푑 (푖,푚)] = 푚í푛푡푟 (푥 − 푥̅ )′(푥 − 푥̅ ) (3.3. 4)
Este algoritmo se reduce en llevar a cabo el proceso que se muestra en la Fig. 3.3. 2, por lo cual
podemos ver que el resultado depende de la asignación inicial y también de cuál es el orden de
los elementos.
Este último criterio tiene dos propiedades importantes.
No es invariante ante cambios de medida de las variables. Esto se ve ejemplificado
cuando las unidades de medida no son iguales, debido a esta propiedad es
recomendable estandarizar las unidades. En caso contrario, es recomendable no
estandarizar pues se puede ocultar información acerca de la formación de grupos.
3.4 Análisis de regresión estadística
27
Produce grupos aproximadamente esféricos
En el algoritmo de k-medias, lo primordial es generar número de grupos
3.3.2. Construcción de jerarquías.
Como se menciono con anterioridad, esté método genera gráficos que nos ayudan al interpretar
las agrupaciones generadas. El dendrograma es el gráfico que se utiliza para este caso en
particular, el cual no es más que un diagrama de jerarquía, en el cual los grupos formados se
pueden observar desde la parte más baja, y conforme se van uniendo estas líneas, serán como se
van relacionando con respecto a sus distancias.
En nuestros datos a analizar, tenemos que destacar que deben estar normalizados, pues de lo
contrario, las columnas con una gran varianza dominarán cualquier distancia razonable, y las
columnas con varianza pequeña, tenderá a ignorarse.
Cómo se ha mencionado recurrentemente, el análisis hace mención a la distancia que existe entre
los datos. La distancia que generalmente se utiliza para dicho análisis es la euclidiana descrita en
el Capítulo 2
3.4. Análisis de regresión estadística
La regresión es un proceso estadístico, el cual estima la relación que existe entre las variables. La
cuestión en este sentido será analizar la regresión multivariada, puesto que se busca ver si existe
dependencia entre los datos (ver (Ferre, 2014) )
En primera instancia se puede recurrir a un gráfico de dispersión, en el cual, se puede apreciar si
existe alguna relación entre la serie de puntos que se tiene. Si con dicho gráfico se nota una
Fig. 3.3. 2. Pasos del criterio de traza
Comprobar si al
cambiar algún
elemento se
reduce d2(i,m)
Asignación
inicial
Terminar
Mover
elemento
Recalcular las
medidas de los
grupos.
No se reduce
Se reduce
CAPÍTULO 3
28
dependencia entre los puntos graficados, entonces se puede avanzar en el análisis y modelar dicha
regresión. Luego de esto, se recurre a la modelación, que en breve se describe.
Ahora bien, el modelo se realiza con el fin de poder predecir, si es que hay una relación entre los
datos.
Para ello debe verificarse alguna de las siguientes condiciones
el valor de la predicción está dentro del rango de la variable original.
si el valor de la predicción está fuera del rango de la original, debemos asegurar que los
valores futuros mantendrán el modelo lineal propuesto.
Para está predicción se obtiene un intervalo de confianza, el cual dado un nuevo conjunto de
predicciones 푥 , debe evaluar la incertidumbre en esta predicción. Para tomar decisiones
racionales necesitamos algo más que puntos estimados. Si la predicción tiene intervalo de
confianza ancho entonces los resultados estarán lejos de la estimación puntual
Un caso particular es el análisis de regresión lineal, que es una técnica estadística que se utiliza
para poder medir la dependencia entre las variables. El modelo se describe mediante la ecuación
siguiente.
푌 = 훽 + 훽 푥 +⋯+ 훽 푥 (3.4.1)
En el caso particular de que 푛 = 1, se tiene una regresión lineal simple (푦 = 푚푥 + 푏). Pero si
no es así (푛 > 1), entonces se conoce como regresión lineal múltiple. Con el ajuste de esta recta
que aproxima el comportamiento que tienen los datos, se podrá predecir los valores de las
variables dependientes. Dicha ecuación se conoce como modelo de regresión y para determinar
que el ajuste que se hizo sea adecuado, se tiene que analizar los residuos (normalidad, varianza
constante y valores atípicos)
En síntesis se busca una asociación, donde el Análisis de Componentes Principales busca a las
variables tienen la mayor variabilidad, el Método de Factores busca encontrar grupos de
variables, en los que su funcionamiento parecería que actúan en paralelo, el Análisis por
Conglomerados que busca formar grupos con ciertas similitudes y este va acompañado de un
gráfico que represente está formación de grupos y por último se tiene el análisis por regresión
múltiple, en el cual se expresan las variables como un modelo lineal en la que se establece una
variable como combinación lineal de las otras. Estos métodos serán de utilidad más adelante.
Para mayor profundización ver (Husson, Lê, & Pagès, 2011) y (K. V., J. T., & J. M., 1979))
4.1 Análisis preliminar
29
CAPÍTULO 4
Aplicación de los métodos multivariados.
Los métodos que fueron descritos en el Capítulo 3 serán de ayuda para analizas algunos datos
sobre la diabetes, en los cuales se busca ver la relación entre estos. Las variables que serán
analizadas son las que se considero que pueden llegar a repercutir en la tendencia creciente de la
incidencia de diabetes y mortalidad por la misma.
Esta aplicación de los métodos se presenta en tres grupos de datos.
1. Variables asociadas a la diabetes en hombres mexicanos
2. Variables asociadas a la diabetes en mujeres mexicanas
3. Variables asociadas a la situación de los mexicanos por entidad federativa
En los cuales se empieza con un análisis preliminar que se refiere a lo visto en el Capítulo 2 y
después se prosigue a aplicar los métodos multivariados expuestos en el Capítulo 3, donde a los
datos de 1 y 2, se le aplicará método de componentes principales, análisis de factores y regresión
múltiple y a los datos de 3 se le aplicarán los métodos de análisis de componentes principales,
análisis de factores, y análisis de conglomerados. (ver (Baillo Moreno & Grané Chavéz, 2008))
4.1. Análisis preliminar
Como ya se menciono se va a realizar un análisis a tres casos particulares, y al necesitar hacer un
análisis preliminar a los tres casos particulares, primero se debe señalar que se va a realizar el
análisis estadístico descriptivo (matriz de datos, media, varianza, covarianza y correlación) y la
representación gráfica de los datos.
Los datos de las variables asociadas a la diabetes en hombres y mujeres mexicanos, se han
recabado en (INEGI, 2013), (Instituto Nacional de las Mujeres, 2015) y (INEGI, 2016) en donde
se tomaron las diferentes causas que se cree que puede influir en la tendencia de la incidencia de
diabetes. Mientras que las variables asociadas a la situación de los mexicanos por entidad
federativa, hace referencia a datos recabados del (INEGI). Cabe destacar que los datos son
porcentajes, para que no cause conflicto con el análisis que se llevara a cabo.
4.1.1. Variables asociadas a la diabetes en hombres mexicanos
La matriz de datos que se formo acerca de las variables que repercuten en el problema de diabetes
fue con base en lo descrito en el Capítulo 1, donde se considera la obesidad, sobrepeso, actividad
CAPÍTULO 4
30
física, mortalidad, letalidad, morbilidad, medidas preventivas e incidencia de diabetes, las cuales
se describen por rangos de edad. (Ver Apéndice A, Tabla A1)
Se obtiene la media de las ocho variables (Tabla 4.1.1) donde se aprecia que hay medias muy
pequeñas, como el caso de la morbilidad y la letalidad, mientras que otros están arriba del 40%
(sobrepeso y actividad física).
Tabla 4.1.1 Medias de las variables asociadas a la diabetes en hombres mexicanos
Incidencia diabetes 0.9044211
Sobrepeso 43.9730769
Obesidad 24.6884615
Morbilidad 0.2950323
Medidas preventivas 33.9153846
Letalidad 11.08
Mortalidad 0.1814223
Actividad Física 47.8884615
En la Tabla 4.1. 2 se tiene la matriz de varianza covarianza.
Tabla 4.1. 2 Matriz de varianza covarianza de las variables asociadas a la diabetes en hombres mexicanos
ID Sobrepeso Obesidad Morbilidad Mortalidad MP Letalidad AF
ID 0.3860046
Sobrepeso -1.7294769 53.34381
Obesidad 1.6402762 15.66716 22.087756
Morbilidad 0.1323848 -1.15297 0.2817715 0.0542851
Mortalidad 1.0281484 -1.74772 4.7285737 0.2799663 9.4222435
MP 2.8985560 -35.58897 2.0956458 1.3776817 3.4875416 40.01024
Letalidad 0.0859355 -1.24484 -0.0624564 0.0430868 0.0934926 1.25931 0.0406078
AF 0.0390561 15.95568 -4.0890865 -0.5432118 13.573942 -33.7227 -0.9295692 134.40173
Y para observar la relación de las variables, se obtiene la siguiente tabla de correlación
4.1 Análisis preliminar
31
Tabla 4.1.3 Matriz de correlación de las variables asociadas a la diabetes en hombres mexicanos
ID Sobrepeso Obesidad Morbilidad Mortalidad MP Letalidad AF
ID 1
Sobrepeso -0.38113296 1
Obesidad 0.56175242 0.4564282 1
Morbilidad 0.91453747 -0.677542 0.2573242 1
Mortalidad 0.53911625 -0.0779567 0.3277760 0.391460 1
MP 0.73756423 -0.7703496 0.070494 0.934808 0.179620 1
Letalidad 0.68639140 -0.8458041 -0.0659472 0.917697 0.1511456 0.987971 1
AF 0.00542245 0.1884391 -0.0750495 -0.201106 0.3814401 -0.459869 -0.3979004 1
Con esta información se busca cual es el comportamiento que tienen las diferentes causas
mediante comparación a pares, el cual busca mostrar la relación que tienen entre sí, lo cual se
observa mediante, en la cual que ve la tendencia que siguen las diferentes variables, y un detalle a
analizar es la tendencia que sigue la actividad física con las demás variables, que parece no seguir
una tendencia (Fig. 4.1.1).
Fig. 4.1.1 Matriz de las variables asociadas a la diabetes en hombres mexicanos
Al analizar las variables por el diagrama de caja, podemos notar que la variable que si tiene
valores atípicos es la Actividad Física (Ver Fig. 4.1.2), ya que se aprecian dos puntos fuera de los
brazos de la caja, los cuales, se refieren a los datos del Grupo de edad 20 – 24 años, y 80 y +.
CAPÍTULO 4
32
Fig. 4.1.2 Diagrama de caja de las variables asociadas a la diabetes en hombres mexicanos
Para realizar un análisis bivariante se establecen el par de variables que se van a analizar, en este
caso en particular, al notar en la matriz de correlación que la letalidad y la mortalidad diria que no
están correlacionados, pues su valor es muy cercano a cero, se nota que en la matriz de
dispersión, estos valores si parecieran tener una relación, por lo cual, se hace un analisis
bivariante (Fig. 4.1.3), para notar esta tendencia y si existen datos atipicos. Aquí se nota que el
valor que se encuentra al borde, es el Grupo de edad de 20 -24 años.
Fig. 4.1.3 Diagrama bivariante de las variables asociadas a la diabetes en hombres mexicanos
Aplicando el chi plot (Fig. 4.1.4) a este mismo par de datos, para ver si los valores son
independientes, se observa lo descrito en la Figura siguiente, en la que del lado izquierdo de ve el
diagrama de dispersión de la letalidad contra la mortalidad, y del lado derecho se observa que los
valores se posicionan en la parte superior derecha, fuera de las barras horizontales, y con lo cual
podemos decir que este par de variables tiene una relación altamente positiva.
4.1 Análisis preliminar
33
Fig. 4.1.4 Chi plot de las variables asociadas a la diabetes en hombres mexicanos
4.1.2. Variables asociadas a la diabetes en mujeres mexicanas
En la recopilación de los datos acerca de los porcentajes que se tiene en las mujeres con respecto
a las variables que forman parte del problema de diabetes, se puede notar cambios con respecto al
de los hombres (ver Apéndice A, Tabla A2), por ello el análisis es por separado.
Al obtener la media de cada variable, se observa que los valores más altos están arriba del 30%
(sobrepeso, obesidad y actividad física), y hay valores muy pequeños, y más adelante veremos
que repercusión tienen.
Tabla 4.2. 1 Media de las variables asociadas a la diabetes en mujeres mexicanas
Incidencia diabetes 1.0972036
Sobrepeso 35.115385
Obesidad 37.819231
Morbilidad 3.11
Medidas
preventivas 16.959231
Letalidad 11.438462
Mortalidad 0.1849231
Actividad Física 31.6
La matriz de varianza covarianza (Tabla 4.2.2) se puede notar, al igual que en la media, valores
con mucha diferencia entre los dígitos.
CAPÍTULO 4
34
Tabla 4.2.2 Matriz de varianza covarianza en las variables asociadas a la diabetes en mujeres mexicanas
Diabetes Obesidad Sobrepeso Morbilidad Medidas Preventivas
Letalidad Mortalidad Actividad Física
Diabetes 0.5045180
Obesidad 2.3006966 85.94939
Sobrepeso 0.0983251 24.359887 8.6901602
Morbilidad 0.1587063 -0.351529 -0.2861333 0.06771
Medidas Preventivas
0.6317029 5.038599 0.0573461 0.1453366 2.3548743
Letalidad 3.4272262 -16.683967 -9.3855993 1.6275016 2.1137153 42.83711
Mortalidad 0.0907638 -1.021799 -0.4282310 0.0524918 0.0318845 1.43417 0.0510434
Actividad Física
-3.0668662 63.361041 21.9035416 -2.3534 1.80912 -68.037 -2.5502235 137.78708
En la matriz de correlación(Tabla 4.2. 3) se puede observar que existe una alta correlación
positiva en la letalidad contra la morbilidad y la mortalidad, además de una correlación altamente
negativa con respecto a la Mortalidad con la Actividad Física.
Tabla 4.2. 3 Matriz de correlación en las variables asociadas a la diabetes en mujeres mexicanas
Diabetes Obesidad Sobrepeso Morbilidad Medidas Preventivas
Letalidad Mortalidad Actividad Física
Diabetes 1
Obesidad 0.3493812 1
Sobrepeso 0.0469583 0.89133 1
Morbilidad 0.8586574 -0.145714 -0.3730083 1
Medidas Preventivas
0.5795496 0.354164 0.0126767 0.363961 1
Letalidad 0.7372152 -0.274958 -0.4864497 0.955598 0.2104517 1
Mortalidad 0.5655939 -0.487836 -0.6429754 0.892865 0.0919659 0.96989 1
Actividad Física
-0.367834 0.582232 0.6329890 -0.770485 0.1004339 -0.885586 -0.9616215 1
En la Fig. 4.2.1 se muestra la relación que tienen todas las variables, y es aquí donde se observa
que las variables de obesidad y medidas preventivas son las que mayor problema de dispersión
tienen. Mientras que las variables de mortalidad, morbilidad y letalidad, muestran una gran
relación entre ellas, lo que se corrobora con los datos de la Matriz de correlación.
4.1 Análisis preliminar
35
Fig. 4.2.1 Matriz de dispersión en las variables asociadas a la diabetes en mujeres mexicanas
Al aplicar un diagrama de caja (Fig. 4.2.2) a cada variable, se puede observar que las variables
con datos atípicos son la que corresponde al Sobrepeso y la Actividad Física, ya que son los
únicos diagramas que tienen puntos fuera del rango permitido, al igual que se observa una gran
diferencia en los datos, pues las variables de diabetes, morbilidad y mortalidad, son valores muy
pequeños.
Fig. 4.2.2 Diagrama de caja para las variables asociadas a la diabetes en mujeres mexicanas
Debido a la alta correlación de las variables de Letalidad y Mortalidad, se decide hacer un
análisis de caja bivariante, para observar el comportamiento de las mismas, con lo que se obtiene.
En la Fig. 4.2.3, si bien, los valores están dentro del rango, existe un dato al borde de la segunda
elipse, y hay otros valores cercanos a la línea, lo que muestra que los datos de rango con mayor y
menor edad, son los que generan mayores problemas,
CAPÍTULO 4
36
Fig. 4.2.3 Caja bivariante para las variables asociadas a la diabetes en mujeres mexicanas
Para comprobar si los valores son independientes, se recurre a la prueba de chiplot (Fig. 4.2.4), en
ella se observa del lado izquierdo el gráfico de dispersión de las variables de comparación
(Mortalidad ~ Letalidad), y del lado derecho la aplicación del chiplot, en la cual se observa que
los datos tienen una relación altamente positiva, lo cual reafirma lo obtenido en los datos de la
matriz de correlación.
Fig. 4.2.4 Chi plot de las variables asociadas a la diabetes en mujeres mexicanas
4.1.3. Variables asociadas a la situación de los mexicanos por entidad federativa
Como se vio en el Capítulo 1, el problema de la mortalidad por diabetes se presenta en mayor
medida en países con ingresos medios y bajos. También se hizo hincapié en que es un problema
que debe considerarse a los servicios de salud como parte fundamental para atacar el problema ,
por ello parte importante del análisis de esta situación se hace al tener las variables por entidad
federativa de la mortalidad, los ingresos inferiores al bienestar mínimo, los ingresos inferiores al
4.1 Análisis preliminar
37
bienestar, la carencia de servicios de salud, los asegurados y los no asegurados. Además de estas
variables, se considero que un complemento a esta información, podría ser las carencias
alimentarias y el rezago educativo (ver Apéndice A, Tabla A3)
Con estos datos de la Tabla A3 se obtiene la media de cada una de las variables (Tabla 4.3.1). En
ella muestra las variables de a (asegurados), na (no asegurados), re (rezago educativo), css
(carencia de servicio de salud), ca (carencia alimentaria), iibm (ingresos inferiores al bienestar
mínimo), iib (ingresos inferiores al bienestar) y Morta (mortalidad).
Tabla 4.3.1 Media de las variables asociadas a la situación de los mexicanos por entidad federativa
Media
a 1.990625
na 9.290625
re 19.19375
css 19.409375
ca 24.13125
iibm 20.178125
iib 51.140625
Morta 11.4375
Ahora, se tiene la matriz de varianza covarianza (Tabla 4.3.2) de estos mismos datos.
Tabla 4.3.2 Matriz de varianza covarianza de las variables asociadas a la situación de los mexicanos por entidad federativa
a na re css ca iibm iib Morta
a 2.3634577
na 0.1050706 26.1957157
re -3.6097379 -4.1465121 26.836089
css 0.425252 0.9900907 10.035222 22.4176512
ca -3.0451815 -8.2377621 19.940524 10.4926008 34.6989919
iibm -6.0744052 -14.065373 40.642117 20.1644052 35.2132863 91.828861
iib -6.2628327 -16.0731552 44.79123 25.9315423 39.014496 98.576401 121.0199093
Morta 0.9668145 -0.7547984 -2.635242 5.0125403 0.6810484 -3.354637 0.05552419 5.31467742
Y para observar la relación que tienen las variables, se tiene la matriz de correlación (Tabla
4.3.3), en la cuales podemos notar que iibm e iib, están altamente correlacionadas, y también se
CAPÍTULO 4
38
puede notar que varias variables están muy cercanas a cero, que indica la poca o nula correlación
que tienen.
Tabla 4.3.3 Matriz de correlación de las variables asociadas a la situación de los mexicanos por entidad federativa
a na re css ca iibm Iib Morta
a 1
na 0.0133534 1
re -0.45325452 -0.15638972 1
css 0.05842213 0.04085684 0.4091403 1
ca -0.33626436 -0.27323459 0.6534593 0.37620942 1
iibm -0.41232555 -0.28677845 0.8187044 0.44442734 0.6238189 1
iib -0.37031259 -0.28546811 0.7859682 0.4978573 0.60205915 0.9350933 1
Morta 0.27279148 -0.06397015 -0.2206594 0.45922378 0.05015117 -0.1518509 0.002189351 1
Para ver como se relacionan las variables, se aplica la matriz de dispersión Fig. 4.3.1 en él se
pude notar que en la variable de asegurados parecen tener un valor atípico al compararse con
cada una de las variables. En las variables iibm e iib, se puede notar que existe una correlación
altamente positiva, lo que tiene sentido con lo encontrado en Tabla 4.3.3, pues se tiene que tienen
una correlación altamente positiva, con un valor de 0.93.
Fig. 4.3.1 Matriz de dispersión de las variables asociadas a la situación de los mexicanos por entidad federativa
4.1 Análisis preliminar
39
Al aplicar el diagrama de caja a cada variable (Fig. 4.3.2), podemos notar que las variables de a,
na, re, iibm y Morta, son las que contienen valores atípicos.
Fig. 4.3.2 Diagrama de caja aplicado a las variables asociadas a la situación de los mexicanos por entidad federativa
Cuando los datos se analizan mediante un gráfico estalactita (Fig. 4.3.3), se puede apreciar que
Yucatán y Guerrero son los estados que se deben considerar al presentar el mayor número de
asteriscos, pero también se puede apreciar un comportamiento extraño en los primeros estados,
pues se encuentran libres de asteriscos.
Fig. 4.3.3 Diagrama estalactita para las variables asociadas a la situación de los mexicanos por entidad federativa.
CAPÍTULO 4
40
4.2. Componentes principales
Para llevar a cabo este análisis, se uso el entorno R Studio, para realizar este análisis, con base en
(Zelterman, 2015) y (Jollife, 2002).
4.2.1. Datos sobre causas de diabetes en los hombres mexicanos
Al aplicar el método de las componentes principales se refleja que casi en su totalidad, la
variabilidad se debe a las primeras tres componentes (ver Fig. 4.1.5).
Fig. 4.1.5 Gráfico de variación de las componentes principales de las variables asociadas a la diabetes en hombres
mexicanos
Como se menciono con anterioridad, la variabilidad de los datos se encuentra expresado en las
primeras tres componentes según lo observado en el gráfico, pero numéricamente se puede
apreciar en la Tabla 4.14 donde se puede observar que la proporción de las tres primeras
componentes, es del 97% del total de la variabilidad, por lo que será suficiente con tomar sólo
estás componentes.
Tabla 4.14 Variación de las componentes principales de las variables asociadas a la diabetes en hombres mexicanos
Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 Comp.8
Desviación
estándar 11.89815 8.11592 5.08818 2.09596 1.42846 0.09254 0.01776 0.00027
Proporción
de la
varianza
0.59043 0.27472 0.10798 0.01832 0.00851 0.00004 0.00000 0.00000
Proporción
acumulada 0.59043 0.86515 0.97313 0.99145 0.99996 1.00000 1.00000 1.00000
Podemos ver mediante la Tabla 4.1.5 que describe la carga de los eigenvectores estimados, se
observa una correspondencia negativa entre la primera componente a la actividad física, además
4.2 Componentes principales
41
entre la segunda componente la obesidad es la que más proporción tiene y en la tercera
componente el sobrepeso es el que más la define.
Tabla 4.1.5 Carga de los eigen-vectores estimados de las variables asociadas a la diabetes en hombres mexicanos
Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 Comp.8
Incidencia de diabetes
0.100
0.960 0.254
Sobrepeso
-0.243 0.778 0.254 0.515
Obesidad -0.266 -0.760 0.143
-0.576
Morbilidad
0.247 -0.916 0.313
Medidas preventivas
0.114 0.360 -0.922
Letalidad 0.348 0.444 0.470 0.236 -0.629
Mortalidad
-0.309 -0.949
Actividad Física -0.896 0.390 0.112 0.165
Otro método gráfico útil para ayudar a interpretar los dos primeros componentes principales se
denomina biplot. En la Fig. 4.1.6 se representan las cargas estimadas de los dos primeros
componentes principales utilizando flechas para indicar su dirección, en la cual se puede notar lo
descrito por la Tabla 4.1.5, en la que la mayor parte de las variables de la primer componente es
la Actividad Física, pero en sentido negativo, al ser la variable que se desplaza al lado izquierdo
del origen. Mientras que la obesidad es la que más se separa del origen, pero desplazándose hacia
abajo. Además las variables que parecen no tener ninguna relación con las primeras dos
componentes, es la diabetes, la mortalidad, y la morbilidad, que son los datos que se observan de
porcentaje más pequeño en la matriz de datos.
Fig. 4.1.6 Gráfico del comportamiento de las cargas con dirección para las variables asociadas a la diabetes en hombres
mexicanos
CAPÍTULO 4
42
4.2.2. Datos sobre causas de diabetes en los mujeres mexicanas
Si nuestro análisis para seleccionar las componentes principales que aportan información de
nuestro análisis sería conveniente elegir las primeras dos componentes, que reflejan casi en su
totalidad la variabilidad que hay en nuestros datos como se puede observar en la Fig. 4.2.5Fig.
4.2.1 Matriz de dispersión en que se muestra en seguida.
Por el método de Kaiser, las componentes que se deberían considerar, serian solo las dos
primeras, ya que son las que son mayores al promedio = 0.125 , como podemos observar en
la Tabla 4.2.4 en el apartado de proporción de la varianza, las cuales tienen una proporción de
variabilidad del 97%, y por ello las demás componentes son poco significativas para este análisis.
Tabla 4.2.4 Variación de las componentes principales en las variables asociadas a la diabetes en mujeres mexicanas
Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 Comp.8
desviación estándar 14.007854 7.3303634 2.33912706 1.021245105 0.596216443 0.119896 0.01277406 0.0019446
Proporción de la
varianza
0.7639814 0.2092139 0.02130332 0.004060987 0.001384036 0.000055969 0.00000063 0.00000001
Proporción
acumulada
0.7639814 0.9731953 0.99449866 0.998559344 0.999943381 0.9999993 1.000000 1.000000
Ahora, en la Tabla 4.2.5 se refleja que peso tienen cada una de nuestras variables en las ocho
componentes formadas, y al tener nuestro interés en sólo las dos primeras, se puede apreciar que
Fig. 4.2.5 Gráfico de variación de las componentes principales en las variables asociadas a la diabetes en
mujeres mexicanas
4.2 Componentes principales
43
la mayor variabilidad en la primera componente es la actividad física, mientras que en la segunda
predomina la obesidad, con un valor de -0.813.
Tabla 4.2.5 Carga de los eigen-vectores estimados en las variables asociadas a la diabetes en mujeres mexicanas
Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 Comp.8
Diabetes
-0.129
0.202 0.900 0.343
Obesidad 0.472 -0.813 0.111 -0.116 -0.299
Sobrepeso 0.158 -0.176 0.468 0.170 0.822 -0.143
Morbilidad
0.339 -0.928 0.126
Medidas
preventivas -0.439 -0.804 0.379 -0.101
Letalidad -0.370 -0.441 -0.603 0.480 0.186 -0.199
Mortalidad
0.144 0.989
Actividad
Física 0.784 0.316 -0.440 0.278 0.100
En la Fig. 4.2.6 se aprecia que la cinco de las ocho variables totales, no tienen mucha relación
con respecto a las dos primeras componentes, las cuales demuestran que la mayor variabilidad de
los datos se representa por la actividad física, la obesidad y la letalidad. Por la inclinación de las
tres variables en su dirección, se refiere a que se representan en ambas componentes, aunque en
diferente medida. Al comparar con los datos obtenidos en la Tabla 4.2.3, se corrobora que en
efecto, estas son las únicas que intervienen en la variabilidad, y sólo el sobrepeso está presente,
pero muy sutilmente.
Fig. 4.2.6 Gráfico del comportamiento de las cargas con dirección para las variables asociadas a la diabetes en mujeres
mexicanas
CAPÍTULO 4
44
4.2.3. Datos sobre situación de los Mexicanos por estados
Para analizar los datos de la matriz de datos del Apéndice A, Tabla A3 que se representa en la
Fig. 4.3.4, se aplicar teoría descrita en el Capítulo 3, con ello se obtienen 8 componentes, en la
cual, se nota que la primer componente es la predominante en la variabilidad.
Fig. 4.3.4 Gráfico de variación de las componentes principales en las variables asociadas a la situación de los mexicanos
por entidad federativa
En la Tabla 4.3.4 se aprecian la varianza que existe en cada componente, en la cual, mediante la
prueba de Kaiser, notamos que sólo es significativa la primer componente, debido a que las otras,
están por debajo del promedio (0.125)
Tabla 4.3.4 Variación de las componentes principales de las variables asociadas a la situación de los mexicanos por entidad
federativa
Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 Comp.8
desviación estándar 15.5108095 5.08354399 4.52020663 4.16170625 2.71132037 2.33623659 1.37177530 1.212857838
Proporción de la
varianza
0.7510267 0.08067141 0.06378272 0.05406663 0.02294817 0.0703806 0.00587425 0.004592046
Proporción
acumulada
0.7510267 0.83169812 0.89548084 0.94954747 0.97249565 0.98953370 0.99540795 1.000000
Para ver el peso que tienen las variables en cada componente se tiene la Tabla 4.3. 5, en el que se
puede apreciar que las variables que más peso tienen en la primer componente son los ingresos
inferiores al bienestar y al bienestar mínimo con un valor de 0.683 y 0.592 respectivamente, y las
demás variables no influyen, o influyen muy poco.
4.2 Componentes principales
45
Tabla 4.3. 5 Carga de los eigen-vectores estimados de las variables asociadas a la situación de los mexicanos por entidad
federativa
Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 Comp.8
Asegurados
0.156
0.314 0.934
No asegurados -0.101 -0.877
-0.381 0.244
Rezago educativo 0.280
0.107 -0.346 -0.559 -0.643 -0.187 0.151
Carencia de Servicios de
Salud 0.155 -0.438 0.385 0.618 -0.393
0.229 -0.201
Carencia Alimentaria 0.261 0.157 0.828 -0.331 0.294 0.129
Ingresos Inferiores al
Bienestar Mínimo 0.592
-0.223 -0.159 -0.295 0.651 -0.234
Ingresos Inferiores al
Bienestar 0.683
-0.258 0.222 0.499 -0.354 0.193
Mortalidad
0.190 0.380 0.226
-0.843 0.225
Para poder apreciarse de manera visual, la Fig. 4.3. 5 las variables de iibm e iib son las variables
que representan en mayor medida a la primera componente, y especialmente al ver los datos en
las variables de iibm e iib, en los objetos de Gro, y Chis., se puede observar que los valores son
los más altos, por lo que estos son parte importante de la variabilidad en la primer componente.
Fig. 4.3. 5 Gráfico de las cargas con dirección de las variables asociadas a la situación de los mexicanos por entidad
federativa
CAPÍTULO 4
46
4.3. Análisis de factores
El análisis de factores se realizo con ayuda del Software SPSS, y con base en lo descrito en el
tema 3.1.1, se realizo el análisis en tres casos que se describen a continuación (ver (De la Fuente
Fernández, 2011)).
4.3.1. Datos de las variables asociadas a la diabetes en hombres mexicanos
Con el fin de poder observar la varianza total que existe entre los datos acerca de las causas por
las cuales los hombres son propensos a tener diabetes. Lo que se busca es reducir la dimensión de
los datos, perdiendo la menor cantidad posible de información y generar grupos entre las
variables analizadas, los cuales tienen similitudes en su comportamiento.
Ya teniendo claro el problema, se prosigue a hacer el análisis de la matriz de correlación descrita
en el apartado de análisis preliminar Tabla 4.1.3.en la que se puede observar que existe una alta
correlación entre las variables diabetes, morbilidad, mortalidad y letalidad. También existen
variables que tienen una correlación ligera como lo son la diabetes con la letalidad y sobrepeso
además de la morbilidad y letalidad con la obesidad.
Un análisis complementario para la correlación consta de dos pruebas conocidas como prueba de
KMO y prueba de Bartlett, y los resultados se expresan en la Tabla 4.1.6 en la que podemos notar
que el valor para el KMO > 0.5, lo cual nos indica que es aceptable, aunque se tendrá que
analizar otros aspectos ya que nuestra base de datos no es de gran tamaño. En el caso de la prueba
de Bartlett, podemos notar que el valor resultante es muy grande, lo que nos indica quese puede
proseguir con el análisis.
Tabla 4.1.6 Prueba de KMO y Bartlett para las variables asociadas a la diabetes en hombres mexicanos
Medida Kaiser-Meyer-Olkin de adecuación de muestreo .421
Prueba de esfericidad de Bartlett Aprox. Chi-cuadrado 209.450
Gl 28
Sig. .000
Por consiguiente, lo que se tiene que hacer es la extracción de factores (Tabla 4.1.7), y al aplicar
el análisis resulta la siguiente tabla, que describe las componentes formadas y su peso en el
análisis..
4.3 Análisis de factores
47
Tabla 4.1.7 Extracción de factores a las variables asociadas a la diabetes en hombres mexicanos
Factores Autovalores iniciales
Total % de varianza % acumulado
1 4.713 58.912 58.912
2 2.330 29.131 88.043
3 .772 9.651 97.694
4 .125 1.567 99.261
5 .052 .650 99.912
6 .006 .073 99.985
7 .001 .014 99.999
8 5.399E-5 .001 100.000
Luego se hace la determinación del número de factores adecuado, En este caso en particular, se
toman en cuenta las primeras tres componentes descritas en la Tabla 4.1.7, que tienen un 97% de
la varianza de los datos.
Para determinar si el número seleccionado es el adecuado, se tiene que analiza las comunalidades
(Tabla 4.1 8), las cuales deben estar cercanas a 1, para que el número de factores sea adecuado.
Tabla 4.1 8 Comunalidades de las variables asociadas a la diabetes en hombres mexicanos
Inicial Extracción
Incidencia de diabetes 1.000 .967
Sobrepeso 1.000 .972
Obesidad 1.000 .977
Morbilidad 1.000 .981
Medidas preventivas 1.000 .978
Letalidad 1.000 .991
Mortalidad 1.000 .995
Actividad Física 1.000 .955
Para que se mejore la visualización de los factores, se prosigue a aplicar la rotación de factores
mediante el método Varimax, y para estas tres primeras componentes se tiene lo descrito en la
Tabla 4.1.9.
CAPÍTULO 4
48
Tabla 4.1.9 Suma de rotación de cargas al cuadrado en las variables asociadas a la diabetes en hombres mexicanos
Total % de varianza % acumulado
4.075 50.933 50.933
2.354 29.429 80.363
1.387 17.332 97.694
Ahora, se tienen las cargas en cada componente, y como se puede visualizar en los datos de la
Tabla 4.1.10, los datos se destacan en las tres variables, pero sólo en una o dos componentes es
alto.
Tabla 4.1.10 Matriz de componentes aplicando factores a las variables asociadas a la diabetes en hombres mexicanos
1 2 3
Incidencia de diabetes .842 .503 -.044
Sobrepeso .154 .785 -.580
Obesidad -.761 .480 -.382
Morbilidad .983 .138 .009
Medidas preventivas .341 .705 .408
Letalidad .976 -.167 -.101
Mortalidad .964 -.251 .019
Actividad Física -.311 .482 .747
Ahora, se tiene la carga que tienen aplicando la rotación Varimax a las componentes (Tabla
4.1.11)
Tabla 4.1.11 Matriz de componentes rotados de las variables asociadas a la diabetes en hombres mexicanos
1 2 3
Incidencia de diabetes .629 .753 .059
Sobrepeso -.652 .600 .433
Obesidad -.462 .848 .213
Morbilidad .928 .338 .065
Medidas preventivas .198 .691 -.679
Letalidad .973 .159 .136
4.3 Análisis de factores
49
Mortalidad .990 -.069 .094
Actividad Física -.922 .249 -.209
En la Fig. 4.1.14, se visualiza el peso de las variables, con respecto a las primeras tres
componentes (factores).
Fig. 4.1.7 Gráfico de componentes en espacio rotado de las variables asociadas a la diabetes en hombres mexicanos
4.3.2. Factores para las variables asociadas a la diabetes en mujeres mexicanas
Para iniciar consultamos la matriz de correlación que se describe en el análisis preliminar, en el
cual se ve una alta correlación negativa entre la actividad física, contra la letalidad y la
mortalidad por diabetes (ver Tabla 4.2. 3), pero una alta correlación positiva de la morbilidad
con la letalidad, mortalidad y la incidencia de diabetes
Para disminuir la dimensión de estas variables, se usa la extracción de factores, que al realizar
dicho análisis se obtiene la Tabla 4.2.6.
Tabla 4.2.6 Extracción de factores de las variables asociadas a la diabetes en mujeres mexicanas
Factores Autovalores iniciales
Total % de varianza % acumulado
1 4.713 58.912 58.912
2 2.330 29.131 88.043
CAPÍTULO 4
50
3 .772 9.651 97.694
4 .125 1.567 99.261
5 .052 .650 99.912
6 .006 .073 99.985
7 .001 .014 99.999
8 5.399E-5 .001 100.000
Se decide por representar los datos con 3 factores, los cuales representan el 97% de la varianza
total de los datos como se muestra en la Tabla 4.2.6. Para decidir si es el número adecuado de
factores, se tiene que ver que comunalidades sean altas. Como se muestra en la Tabla 4.2.7, las
comunalidades son bastante altas, por lo que el análisis de tres factores es adecuado.
Tabla 4.2.7 Comunalidades de las variables asociadas a la diabetes en mujeres mexicanas
Inicial Extracción
Diabetes 1.000 .967
Sobrepeso 1.000 .972
Obesidad 1.000 .977
Morbilidad 1.000 .981
MP 1.000 .978
Letalidad 1.000 .991
Mortalidad 1.000 .995
AF 1.000 .955
Para facilitar la interpretación de los datos, se prosigue a un rotar las componentes con el método
Varimax, y con ello se obtiene la Tabla 4.2.8, en la que se ve que con la tercer componente, el
porcentaje de varianza es de 97.6%.
Tabla 4.2.8 Sumas de rotación de cargas al cuadrado de las variables asociadas a la diabetes en mujeres mexicanas
Sumas de rotación de cargas al cuadrado
Total % de varianza % acumulado
4.075 50.933 50.933
2.354 29.429 80.363
4.3 Análisis de factores
51
1.387 17.332 97.694
Para continuar este análisis se tiene la matriz de componentes Tabla 4.2.9, en la que se nota que
en la mayoría de las variables, las componentes predominan en dos de tres componentes.
Tabla 4.2.9 Matriz de componentes de las variables asociadas a la diabetes en mujeres mexicanas
1 2 3
Incidencia de diabetes .629 .753 .059
Sobrepeso -.652 .600 .433
Obesidad -.462 .848 .213
Morbilidad .928 .338 .065
Medidas preventivas .198 .691 -.679
Letalidad .973 .159 .136
Mortalidad .990 -.069 .094
Actividad Física -.922 .249 -.209
Pero también se tiene la matriz de componentes rotados, Tabla 4.2.10, al querer simplificar el
análisis, se nota a diferencia de la Tabla 4.2.9, que ahora los factores, sólo son altos en una de tres
componentes.
Tabla 4.2.10 Matriz de componentes rotados de las variables asociadas a la diabetes en mujeres mexicanas
1 2 3
Incidencia de diabetes .789 .337 .481
Sobrepeso -.276 .944 -.068
Obesidad -.114 .942 .278
Morbilidad .948 -.100 .267
Medidas preventivas .130 .100 .975
Letalidad .965 -.218 .109
Mortalidad .905 -.419 .009
Actividad Física -.834 .469 .198
Por último se tiene la Fig. 4.2.5, donde se visualiza la ubicación de los factores (componentes)
rotados, según el peso que tienen en cada componente
CAPÍTULO 4
52
Fig. 4.2.7 Gráfico de componentes en espacio rotado de las variables asociadas a la diabetes en mujeres mexicanas
4.3.3. Datos de situación de los mexicanos por estados
Matriz de correlación (Tabla 4.3.3) se tiene una alta correlación de los ingresos inferiores con el
rezago educativo y los ingresos inferiores al bienestar mínimo. Además se tiene las pruebas de la
Tabla 4.3.6, en la cual se puede observar que al tener en la prueba de Bartlett un valor alto en la
aproximación de chi-cuadrada y que la significancia es pequeña, entonces el análisis es adecuado
para el análisis de factores.
Tabla 4.3.6 Prueba de KMO y Bartlett para análisis por estados en México
Medida Kaiser-Meyer-Olkin de adecuación de muestreo .710
Prueba de esfericidad de Bartlett
Aprox. Chi-cuadrado 151.1
74Gl 28
Sig. .000
Primero se realiza la Extracción de factores (Tabla 4.3. 7)
Tabla 4.3. 7 Extracción de factores para análisis por estados en México.
Factores Autovalores iniciales
Total % de varianza % acumulado
1 3.794 47.424 47.424
4.3 Análisis de factores
53
2 1.590 19.874 67.298
3 1.027 12.837 80.135
4 .649 8.117 88.252
5 .462 5.772 94.024
6 .251 3.135 97.159
7 .178 2.222 99.382
8 .049 .618 100.000
Determinación de factores, se opta escoger cinco factores que explican el 94%. Ya seleccionando
los factores, se obtiene el valor en las comunalidades (Tabla 4.3.8), y ya que se obtienen valores
altos, se prosigue con el análisis.
Tabla 4.3.8 Comunalidades del análisis por estados de México
Inicial Extracción
asegurados 1.000 .986
No asegurados 1.000 .973
Rezago educativo 1.000 .871
Servicio salud 1.000 .880
Alimentación 1.000 .988
Ingresos inf 1.000 .945
Ingresos inf min 1.000 .929
Mortalidad 1.000 .952
Luego, al aplicar rotación de factores, se tiene la tabla siguiente
Tabla 4.3.9 Suma de rotación de cargas al cuadrado de "análisis por estados"
Total % de varianza % acumulado
3.794 47.424 47.424
1.590 19.874 67.298
1.027 12.837 80.135
.649 8.117 88.252
.462 5.772 94.024
CAPÍTULO 4
54
Al analizar la matriz de componentes Tabla 4.3. 10, se tiene que
Tabla 4.3. 10 Matriz de componentes de "análisis por estados"
1 2 3 4 5
Asegurados -.498 .538 -.193 .609 .201
No Asegurados -.311 -.039 .929 .034 .099
Rezago Educativo .900 -.145 .132 .132 .070
Servicio Salud .527 .701 .311 .096 -.065
Alimentación .781 .080 -.092 -.203 .567
Ingresos Inf .941 -.060 -.011 .176 -.154
Ingresos Inf Min .928 .070 -.013 .122 -.217
Mortalidad -.061 .878 -.058 -.405 -.100
Al analizar los componentes rotados Tabla 4.3. 11, con respecto a Tabla 4.3. 10, podemos decir
que a partir de la segunda componente, sólo una variable predomina.
Tabla 4.3. 11 Matriz de componentes rotados de "análisis por estados"
1 2 3 4 5
Asegurados -.249 .143 -.028 .941 -.129
No Asegurados -.149 -.022 .969 -.026 -.099
Rezago Educativo .817 -.139 .011 -.196 .381
Servicio Salud .601 .641 .224 .194 .144
Alimentación .424 .097 -.139 -.147 .870
Ingresos Inf .918 -.051 -.165 -.176 .201
Ingresos Inf Min .912 .098 -.177 -.174 .158
Mortalidad -.131 .959 -.090 .082 .018
En la Fig. 4.3.6 se observa el peso con el que se relacionan las variables con las tres primeras
componentes de factores rotados.
4.4 Conglomerados
55
Fig. 4.3.6 Gráfico de componentes en espacios rotados de “análisis por estado”
4.4. Conglomerados
El análisis de conglomerados se realizo con ayuda del Software R Studio, con el paquete
FactorMineR y también para poder obtener el mapa de la república, se obtuvo con ayuda del
formato Shapefiel que se puede obtener en "www.gadm.org/country".
4.4.1. Datos de la situación de loa mexicanos por estados
La situación de los mexicanos en cuestión económica y en salud, es bueno aplicar un análisis por
conglomerados, ya que al tener como objetos de la matriz de datos a los 32 estados, se podrá
analizar si existen grupos que puedan tener similitud entre estados. Para ello se llevara a cabo los
dos métodos descritos en el tema 3.3.1 y 3.3.2.
4.4.1.1. Análisis por k medias
Al realizar el análisis de conglomerados mediante k medias, se le aplican tres factores, y los
cuales quedaron formados como se muestra en la tabla siguiente.
Grupo 1 Camp, Dgo, Gto,Hgo,EdoMex, Mich, Mor, Nay, SLP, Tab, Tlax, Ver, Yuc, Zac
Grupo 2 Chis,Gro, Oax, Pue,
Grupo 3 Ags, BC, BCS, Chih, Coah, Col, DF, Jal, NL, Qro, QRoo, Sin, Son, Tamps,
Que al visualizar en el mapa de la republica mexicana los grupos formados serían.
CAPÍTULO 4
56
1 Grupo 1
2 Grupo 2
3 Grupo 3
Fig. 4.3. 7 Mapa de los grupos formados por las variables asociadas a la situación de los mexicanos por entidad federativa
por k medias
El comportamiento de estos grupos se puede expresar en la matriz de dispersión siguiente que se
pueden identificar de acuerdo al color.
Fig. 4.3.8 Método de k medias aplicado a la situación por estados
4.4.1.2. Por jerarquías
Para el análisis mediante jerarquías se tiene en primer lugar un gráfico jerárquico de los grupos
que se forman, divididos entre líneas. Al observar la Fig. se observa que se generan tres grupos,
4.4 Conglomerados
57
pero lo más significativo de este comportamiento es la diferencia en el número de estados que
presenta cada grupo.
Fig. 4.3.9 Dendograma generado por método de jerarquías a situación por estados
Para observar de manera bidimensional los datos, se considera el mapa factorial, el cual deja de
tomar en cuenta la altura, y deja apreciar de mejor medida la cercanía que tienen los grupos
formados.
Fig. 4.3. 10 Mapa Factorial de la agrupación por jerarquías a datos de situación por estados
Por último sólo se agrupan mediante colores, los estados para poder visualizar la formación de
estos grupos.
Grupo 1 BCN, CDMX, Jal, EdoMex, Mor
Grupo 2 Ags, BCS, Camp, Chih, Coah, Col, Dgo, Gto, Hgo, Nay, NL, Qro, Q. Roo, SLP, Sin, Son,
Tamps, Yuc, Zac.
CAPÍTULO 4
58
Grupo 3 Chis, Gro, Mich, Oax, Pue, Tab, Tlax, Ver.
Que al visualizar en el mapa de la republica mexicana los grupos formados serían.
1 Grupo 1
2 Grupo 2
3 Grupo 3
Fig. 4.3. 11 Mapa de los grupos formados por las variables asociadas a la situación de los mexicanos por entidad federativa
por jerarquia
4.5. Regresión múltiple
La regresión múltiple se busca expresan las variables como un modelo lineal de la incidencia de
diabetes, en combinación lineal con las variables restantes. Para la realización de este análisis se
uso R Studio (ver (King, 2016)).
4.5.1. Causas que pueden repercutir en padecer diabetes en hombres
Para este análisis se tendrá como variable dependiente a la incidencia de diabetes, y como primer
análisis se tendrá una primera interpretación, tomando en cuenta todas las variables.
퐼푛푐푖푑푒푛푐푖푎 푑푒 푑푖푎푏푒푡푒푠 ~ 퐸푑푎푑 + 푆표푏푟푒푝푒푠표 + 푂푏푒푠푖푑푎푑 + 푀표푟푏푖푙푖푑푎푑 + 푀푒푑푖푑푎푠 푃푟푒푣푒푛푡푖푣푎푠
+ 퐿푒푡푎푙푖푑푎푑 + 푀표푟푡푎푙푖푑푎푑 + 퐴푐푡푖푣푖푑푎푑 퐹í푠푖푐푎
En este análisis todas las variables son significativas.
Tabla 4.1. 12 Estimador por regresión múltiple a las variables asociadas a la diabetes en hombres mexicanos
Estimación Error estándar t valor Pr(>|t|)
INTERCEPTO 7.246081 0.772219 9.383 0.000232 ***
4.5 Regresión múltiple
59
Obesidad -0.018134 0.002523 -7.186 0.000812 ***
Sobrepeso -0.207271 0.020102 -10.311 0.000148 ***
Morbilidad 11.27151 0.717184 15.716 1.90E-05 ***
MP -0.075614 0.006502 -11.629 8.26E-05 ***
Letalidad 0.756739 0.061206 12.364 6.13E-05 ***
Mortalidad -33.903865 2.71072 -12.507 5.80E-05 ***
AF 0.004713 0.001077 4.378 0.00717 **
Por lo que la ecuación de este modelo sería
퐷푖푎푏푒푡푒푠 = 7.246081 − 0.018134x − 0.207271x + 11.27151x − 0.075614x
+ 0.756739x − 33.903865x + 0.004713x
En el análisis se obtiene un ajuste de 푅 , de 0.9994, lo cual es un buen ajuste, y considerando que
tanto el error residual estándar (0.0157) como el p – valor (1.255e-08), son muy pequeños, pues
podemos considerar aceptable el modelo.
4.5.2. Datos de causas de diabetes en mujeres mexicanas
En el análisis inicial se toma como variable dependiente la incidencia de diabetes, y como primer
análisis se tendrá una primera interpretación, tomando en cuenta todas las variables.
퐼푛푐푖푑푒푛푐푖푎 푑푒 푑푖푎푏푒푡푒푠 ~ 퐸푑푎푑 + 푆표푏푟푒푝푒푠표 + 푂푏푒푠푖푑푎푑 +푀표푟푏푖푙푖푑푎푑
+푀푒푑푖푑푎푠 푃푟푒푣푒푛푡푖푣푎푠 + 퐿푒푡푎푙푖푑푎푑 +푀표푟푡푎푙푖푑푎푑 + 퐴푐푡푖푣푖푑푎푑 퐹í푠푖푐푎
Tabla 4.2. 11 Estimador por regresión múltiple de las variables asociadas a la diabetes en mujeres mexicanas
Estimador Error estándar Valor t Pr(>|t|)
Intercepto -6.406016 1.593608 -4.02 0.010123 *
Obesidad 0.025662 0.00659 3.894 0.01148 *
Sobrepeso 0.074717 0.03018 2.476 0.056134 .
Morbilidad 1.949603 0.270532 7.207 0.000802 ***
Medidas Preventivas -0.003588 0.012676 -0.283 0.788459
Letalidad -0.103374 0.053659 -1.926 0.111992
Mortalidad 8.51846 2.869749 2.968 0.031216 *
Actividad Física 0.09403 0.02027 4.639 0.005639 **
CAPÍTULO 4
60
En este modelo se tiene un valor de ajuste de 푅2 de 0.9977, y como el error residual estándar
(0.03381) y el p – valor (2.968e-07) son pequeños, pues el modelo es aceptable
Buscando un mejor ajuste, es de considerar que existe dos variables que no son significativas, y
el valor de estimación de ambas, son muy pequeños, con esto en mente, se tiene el siguiente
modelo, en el cual, las medidas preventivas se descarta del modelo y con ello todas las variables
son significativas.
Tabla 4.2. 12 Estimador por regresión múltiple de algunas de las variables asociadas a la diabetes en mujeres mexicanas
Estimador Error estándar Valor T Pr(>|t|)
Intercepto -6.522267 1.416846 -4.603 0.003679 **
Obesidad 0.024423 0.004533 5.388 0.001683 **
Sobrepeso 0.077443 0.026318 2.943 0.025862 *
Morbilidad 1.918300 0.227188 8.444 0.000151 ***
Letalidad -0.099795 0.047984 -2.080 0.082766 .
Mortalidad 8.432132 2.625668 3.211 0.018334 *
Actividad Física 0.093754 0.018630 5.032 0.002375 **
Además los valores de el error residual estándar y el p – valor (0.03111 y 8.805e-9
respectivamente), disminuyen y el ajuste de 푅 aumenta a 0.9981, lo cual es lo que se pretendía.
Entonces el valor de predicción quedaría.
퐷푖푎푏푒푡푒푠 = −6.522267 + 0.024423 x + 0.077443x + 1.918300x − 0.099795x
+ 8.432132 x + 0.093754x
A la hora de hacer cada uno de los análisis para los diferentes casos analizados, se encuentra que
para encontrar un modelo, con el fin de comprobar que se puede aplicar el análisis. Es muy
importante realizar el análisis desde la estadística descriptiva, que nos revela situaciones
relevantes de los datos, y que en los métodos posteriores serán de gran uso Luego al aplicar los
métodos se encuentra información relevante que hay que considerar, pues la información
revelada por componentes principales, nos da una información las variables que generan más
variabilidad en el proceso, y hay que poner atención en ellas, para el caso de factores, vemos
cuales tienen mayor relación en busca de formar grupos que nos den información sobre su
interacción. Al analizar por conglomerados, se encuentra que existen varios estados cercanos que
se relacionan, aun sin tomar en cuenta la cercanía geográfica, lo que nos dice, que la situación
4.5 Regresión múltiple
61
que padecen los mexicanos suele ser de manera parecida en estados colindantes. Por último,
vemos que en la regresión, que una variable que es de las más altas en dependencia con la
incidencia de diabetes, es la mortalidad, lo cual tiene sentido, puesto que las personas que
fallecen por diabetes, necesariamente tienen que estar relacionadas con el número de diabéticos
que existen.
5.1 Regresión
63
CAPÍTULO 5
Pronóstico para la mortalidad por diabetes en México
En el desarrollo de este capítulo se busca dar una predicción de la mortalidad en México,
apoyado por dos métodos. En primera instancia se realizará un análisis por regresión local, como
su nombre lo indica, hace una estimación con respecto a una cierta área, en la que los datos tiene
relación, la cual ayuda a mejorar la tendencia de una regresión lineal simple. En un segundo caso,
los mismos datos se someten a un análisis de series de tiempo, en los cuales primero se busca que
sean estacionarios, para poder finalmente aplicar el modelo y obtener un pronóstico.
5.1. Regresión
El análisis por regresión se define tanto la regresión lineal, como la regresión local LOESS,
seguido de la realización del modelo de regresión lineal simple, y posteriormente se compara con
lo obtenido al modelar la regresión local. Para esté análisis se uso el Software R Studio, en donde
se expresa los datos obtenidos en las tablas, acompañado de un gráfico del pronóstico.
5.1.1. Regresión lineal simple
La regresión lineal simple es el caso de modelo de regresión más sencillo, es la construcción de
una recta que modele la relación que hay entre la variable respuesta 푦, y la variable predictora 푥.
El modelo tiene la forma siguiente.
푌 = 훽 + 훽 푋 + 휀 (5.1. 1)
donde 훽 y 훽 se conocen como coeficientes de regresión, en el que 훽 es la ordenada en el
origen (punto de corte con el eje Y) y 훽 es la pendiente de la recta del modelo de regresión. En la
ecuación 휀 es el error aleatorio, representa la diferencia entre el valor ajustado por la recta y el
valor real. Refleja la ausencia de dependencia perfecta entre las variables, la relación está sujeta a
incertidumbre.
Una recta que tiene una pendiente con valor positivo describe una relación positiva, mientras que
una recta con una pendiente negativa describe una relación negativa. Entonces tenemos
básicamente que la pendiente (훽 ) nos da la apariencia del modelo y la ordenada en el origen (훽 )
nos dice dónde se sitúa el modelo en el plano.
5.1 Regresión
65
2005 10.41859635
2006 10.96051814
2007 10.95485308
2008 11.21639879
2009 11.04446801
2010 11.20372185
2011 10.91893864
2012 11.43612707
2013 11.84821325
2014 12.23312578
2015 12.3940766
Al aplicar el análisis con ayuda del R Studio (ver (Quintana Romero & Mendoza Gonzáles,
2016)), se encuentra que el valor ajustado de 푅 (0.9092) es buena, también se tiene que los datos
son significativos al tener en Pr(>|t|) valores pequeños (ver Tabla 5.1. 2) y el valor p (5.825e-10)
que también es pequeño, es favorable para nuestro análisis.
Tabla 5.1. 2 Coeficientes de regresión lineal sobre datos de mortalidad
Estimador Error estándar Valor t Pr (>|t|)
Intercepto -558.33671 43.46005 -12.85 7.61e-10 ***
X 0.28338 0.02166 13.08 5.83e-10 ***
Por último se tiene el modelo de regresión para nuestros datos es
푌 = 0.28338푋 − 558.33671
Al aplicar la regresión local, se obtienen nuevos valores para los datos originales, a causa del
ajuste que se da a los datos, con el propósito de mejorar el posterior pronóstico.
Tabla 5.1. 3 Nuevos valores de mortalidad ajustando con LOESS
AÑO PREDICCIÓN
LOESS 1998 7.117094
1999 7.627707
2000 8.131774
2001 8.627061
2002 9.105070
CAPÍTULO 5
66
2003 9.593233
2004 10.057346
2005 10.471279
2006 10.809711
2007 10.986373
2008 11.090194
2009 11.087872
2010 11.175904
2011 11.309020
2012 11.515337
2013 11.770547
2014 12.088239
2015 12.461342
Estos datos de visualizan de la forma siguiente, donde 푦 son los datos de mortalidad en México
por Diabetes, y la línea negra, es el ajuste del modelo LOESS.
Fig. 5.1. 2 Ajuste de datos aplicando LOES
Ya con la modelación hecha, se tiene las predicciones de ambos modelos, dichos resultados están
plasmados en la Tabla 5.1. 4. En ellos se nota una diferencia desde la primera predicción de la
regresión lineal (que se obtiene de Y) y la regresión local (LOESS). En donde se nota que
LOESS comienza en una predicción menor para el año 2016, pero para los años siguientes, es
superior a lo predicho por la regresión lineal.
5.2 Series de Tiempo
67
Tabla 5.1. 4 Comparación de las predicciones obtenidas de los modelos de regresión lineal y local-
AÑO REGRESIÓN LINEAL REGRESIÓN LOCAL
LOESS ERROR PARA LOES
2016 12.9535 12.89674 0.1893541
2017 13.23688 13.39242 0.271063
2018 13.52026 13.94706 0.3712918
2019 13.80364 14.55994 0.4899225
2020 14.08702 15.23041 0.6270814
2021 14.3704 15.95791 0.782967
2022 14.65377 16.74197 0.9577861
2023 14.93715 17.58218 1.1517308
2024 15.22053 18.47821 1.3649719
2025 15.50391 19.42977 1.597658
La predicción de estos datos se plasma mediante la Fig. 5.1. 3, donde los círculos hacen
referencia a los valores que se obtuvieron al aplicar la regresión local, mientras que las líneas
azules, es el respectivo error de este análisis. Por otro lado se encuentra la línea negra, que es la
predicción de los datos por regresión lineal.
Fig. 5.1. 3 Comparación del ajuste de datos de ambos modelos.
5.2. Series de Tiempo
El análisis de datos de un sistema que tiene relación con el tiempo, se puede llevar a cabo
mediante series temporales (series de tiempo), en una manera práctica se puede decir que por
CAPÍTULO 5
68
series de tiempo se refiere a un conjunto de observaciones los cuales se obtienen al hacer
mediciones cronológicamente y cada dato tiene que tomarse en un periodo uniforme (semestral,
trimestral, anual, etc.).
5.2.1. Componentes
Para el análisis de series de tiempo clásico, se tiene la suposición de que la variables de
observación se compone de tres tipos de componentes (tendencia 푻풕, estacional 푬풕, y aleatoria
푨풕) y que la suma de estas tres da como resultado los valores que fueron medidos (ver (5.2. 1))
푿풕 = 푻풕 + 푬풕 + 푨풕 (5.2. 1)
donde 푻풕 y 푬풕 son deterministicas. Las componentes que se han mencionado tienen ciertas
características que se expresan en la Fig. 5.2.1
Fig. 5.2.1 Tipos de componentes
Además de esta característica, la serie de tiempo se clasifica en estacionaria (media y varianza
constantes), y no estacionaria (la tendencia cambia con el tiempo y su media cambia)
Componentes
Tendencia
Cambio a largo plazo de la media
Estacional
Peridiosidad de los datos
Aleatoria
Factores aislados que intervienen
en la serie
5.2 Series de Tiempo
69
5.2.2. Modelo ACF Y PACF
La función de autocorrelación parcial (PACF) proporciona la correlación parcial de una serie de
tiempo con sus propios valores rezagados. Esto contrasta con la función de autocorrelacion
(ACF), que no controla otros retrasos.
Este modelo está dada para una serie de tiempo 푋 , la PACF del retraso 푘, denotado 훼(푘), es la
autocorrelación entre 푋 y 푋, con la dependencia lineal de 푋 y 푋 mediante 푋 .
Equivalentemente, es la autocorrelación entre 푧 y 푧 . Además se tiene
훼(1) = Cor(푋 , 푋) (5.2. 2)
훼(푘) = Cor 푋 − 푃 , (푋 ), 푋 − 푃 , (푋 ) para 푘 ≥ 2 (5.2. 3)
Donde 푃 , (푥) denota la proyección x en el espacio abarcado por 푥 ,… , 푥 .
Estas funciones son herramientas comúnmente utilizadas para identificar el orden de un modelo
autorregresico. La PACF de un proceso 퐴푅(푝) es cero en el retraso 푝 + 1. Si el gráfico de ACF
demuestra que un modelo 퐴푅 puede ser apropiado, entonces se examina el gráfico de PACF para
ayudar a identificar el orden. Uno busca el punto en el diagrama donde las PACF donde los
rezagos superiores son esencialmente cero.
5.2.3. Modelo ARMA
Está compuesto por procesos auto regresivos AR(p) y procesos de medias móviles MA(q). Un
AR se basa en que el valor actual de la serie 푿풕puede ser explicado mediante p datos pasados
푿풕 ퟏ, 푿풕 ퟐ, … , 푿풕 풑 . El modelo AR(p) se definirá entonces en la ecuación siguiente
푿풕 = ɸퟎ + ɸퟏ푿풕 ퟏ + ɸퟐ푿풕 ퟐ +⋯+ɸ풑푿풕 풑 + 휺풕 (5.2. 4)
donde 휺풕 es el ruido blanco generado, mientras que ɸퟏ, ɸퟐ, … , ɸ풑,son los parámetros del modelo.
Ahora bien, el proceso MA(q) proviene de fuentes externas y suponen linealidad. Este modelo
esta dado por la ecuación siguiente
푿풕 = 휽ퟎ − 휽ퟏ휺풕 ퟏ − 휽ퟐ휺풕 ퟐ −⋯− 휽풒휺풕 풒 − 휺풕 = ퟏ − 휽ퟏ푳 − 휽ퟐ푳ퟐ −⋯− 휽풒푳 휺풕
= 휽풒(푳)휺풕 (5.2. 5)
CAPÍTULO 5
70
donde 휺풕 es el ruido blanco generado, mientras que 휽ퟏ, 휽ퟐ, … , 휽풑,son los parámetros del modelo.
Es muy probable que un modelo contenga a ambos procesos, por lo que se tendrá un ARMA.
Ahora nuestro 푿풕 se representara mediando (5.2. 4) y (5.2. 5). por lo que resulta la ecuación
(5.2.6).
푿풕 = ɸퟏ푿풕 ퟏ + ɸퟐ푿풕 ퟐ +⋯+ɸ풑푿풕 풑 + 휺풕 + 휽ퟏ휺풕 ퟏ + 휽ퟐ휺풕 ퟐ +⋯+ 휽풒휺풕 풒 (5.2.6)
o
ɸ풑(푳)푿풕 = 휽풒(푳)휺풕 (5.2.7)
5.2.4. Modelo ARIMA
Anteriormente se había mencionado que hay series de tiempo que no son estacionarias, a los
cuales se les conoce como procesos integradores. Para lograr que analizar este modelo no
estacionario, se debe diferenciar d veces, hasta convertirla en estacionaria. Para este caso se
ocupa un proceso ARIMA (p,d,q), donde d es el número de veces que se debe diferenciar el
modelo. Un proceso ARIMA (p, d, q) está integrado fraccionalmente por
(ퟏ − 푳)풅 ɸ (푳)푿풕 = 풄 + 휣 (푳) 휺풕, (5.2. 8)
con modelos causales. No le permitirá introducir un modelo para el que ퟏ − ɸퟏ풁 −⋯− ɸ풑풁풑
tenga un cero dentro o en el círculo unitario, ni genere modelos fijos con esta propiedad. Desde el
punto de vista de propiedades de segundo orden, esto no representa pérdida de generalidad.
Para realizar este análisis, se recurre a utilizar la metodología de Box Jenkins, (Smith, 1999)
donde consta de cuatro etapas fundamentales, que son la identificación, estimación verificación y
pronóstico (ver Fig. 5.2.2 )
CAPÍTULO 5
72
퐸 푋 − 푎 − 푎 푋 = 0, (5.2. 12)
퐸 푋 − 푎 − 푎 푋 푋 = 0, 푗 = 1,… , 푛
(5.2. 13)
Estas ecuaciones se pueden escribir más claramente en notación vectorial como
푎 = 휇 1 − 푎 (5.2.14)
y
훤 혢 = 훾 (ℎ)
(5.2.15)
donde 혢 = (푎 ,… , 푎 ) , 훤 = [훾(푖 − 푗)] , y 훾 (ℎ) = 훾(ℎ), 훾(ℎ + 1),… , 훾(ℎ + 푛 − 1) ′ y
donde γ se refiere a la covarianza.
por lo tanto
푃 푋 = 휇 + 푎 (푋 − 휇) (5.2.16)
5.2.6. Aplicación de Series de tiempo
Los datos que se analizaron con la regresión local, son los datos que se usarán en este análisis con
series de tiempo, con ayuda del programa itsm. En primera instancia tenemos la estadística
descriptiva, en el cual observamos cual es su media, varianza y su error.
5.2 Series de Tiempo
73
Media = 10.2614
Varianza = 2.363534
Error estándar = . 629959
Al graficar los datos como se muestra en la Fig. 5.2. 3 los datos claramente no son estacionarios,
pues siguen una tendencia creciente.
Fig. 5.2. 3 Gráfico de la tendencia de los datos
Lo primero es convertir la serie a estacionaria, logrando obtener la Fig. 5.2.4 después de
diferenciar una vez, y con ello observamos un cambio en el comportamiento de los datos.
Fig. 5.2.4 Gráfico de los datos ya estacionarios
Lo primero a analizar es aplicar ACF y PACF, en los que se observa que en el gráfico de la
izquierda de la Fig. 5.2. 5 (ACF) sólo se alcanzan a salir dos coeficientes de auto correlación, y
del lado derecho(PACF), se salen dos coeficientes de auto correlación parcial de las bandas, que
nos haría pensar que es un modelo que dependa de los dos valores anteriores (AR(2)).
CAPÍTULO 5
74
Fig. 5.2. 5 Gráfico del ACF y PACF de los datos
El comportamiento de los residuales resulta ser la Fig. 5.2. 6.
Fig. 5.2. 6 Gráfico de los residuos cuando ya se ha diferenciado
Al hacer el PACF y el ACF de los residuales (ver Fig. 5.2. 7) se obtiene que sólo el primer
coeficiente de ambos gráficos se sale de las bandas.
5.2 Series de Tiempo
75
Fig. 5.2. 7 ACF y PACF de los residuos
Entonces, el modelo se expresa como
푋(푡) = − .007304 푋(푡 − 1) + .4877 푋(푡 − 2) + 푍(푡)
Finalmente se obtiene la predicción que se visualiza en la Fig. 5.2. 8.
Fig. 5.2. 8 Predicción con Series de Tiempo
Con lo cual, se tienen la tabla siguiente, que si comparamos con lo obtenido en la regresión lineal
y local, se acerca bastante a ambos análisis, debido al rango de error tan grande que existe.
CAPÍTULO 5
76
Tabla 5.2.1 Datos de la predicción por Series de Tiempo
Año Prediccion sqrt(MSE) Predicción - error Predicción + error
2016 12.70136 .27276 12.16676 13.23596
2017 13.00864 .38574 12.25260 13.76468
2018 13.31592 .47243 12.38997 14.24187
2019 13.62320 .54552 12.55400 14.69240
2020 13.93048 .60991 12.73508 15.12588
2021 14.23776 .66812 12.92827 15.54726
2022 14.54505 .72166 13.13063 15.95946
2023 14.85233 .77148 13.34025 16.36440
2024 15.15961 .81828 13.55581 16.76341
2025 15.46689 .86254 13.77634 17.15744
Al comparar lo obtenido por la regresión lineal, la regresión local y por series de tiempo, se
encuentra que los datos de predicción, son cercanos en las tres predicciones. En el caso de series
de tiempo encontramos que tiene un gran rango de error, esto debido a que el tamaño de los datos
analizados son muy pequeños.
77
Conclusiones
El desarrollo en el trabajo, se puede resumir en cuatro resultados, los cuales son con base en:
1. Las variables asociadas a la diabetes en hombres mexicanos,
2. las variables asociadas a la diabetes en mujeres mexicanas,
3. las variables asociadas a la situación de los mexicanos por entidad federativa,
4. y la pronóstico de la mortalidad a causa de diabetes.
Al aplicar el análisis por componentes principales a 1, se obtuvo que la varianza total del
problema se puede reducir a sólo tres componentes, de las cuales, para la 1er componente, la que
tiene mayor variabilidad es la actividad física, para la 2da componente es la obesidad y la 3ra el
sobrepeso, y con ello se nota a pesar de lo importante que son estas variables para controlar la
diabetes, las estadísticas revelan que no es un comportamiento tan fácil de abordar.
En el análisis de factores a 1, también se agrupan los datos en 3 factores, y con ello se explica el
97% de los datos. En este análisis se encontró que las variables que tiene un mayor peso en el 1er
factor es la letalidad, morbilidad, actividad física, sobrepeso e incidencia de diabetes, en la 2da
está la obesidad, incidencia de diabetes, medidas preventivas y sobrepeso y en la 3ra está
representado por medidas preventivas, que nos resulta en el total de las variables analizadas, pero
nos arroja las medidas preventivas que parecen tener poca relación con el resto.
En el análisis de regresión múltiple para el caso 1, el problema parece tener mucha relación con
todas las variables, y el modelo para obtener la incidencia de diabetes es, y se observa un alto
valor que tiene la mortalidad para la predicción de la diabetes.
7.246081 − 0.018134x − 0.207271x + 11.27151x − 0.075614x + 0.756739x
− 33.903865x + 0.004713x
En componentes principales, pero ahora en el caso 2, se tiene que la mayor varianza significativa
de los datos, se puede expresar en dos componentes, las cuales son el 97% de la proporción de la
varianza. En la 1er componente se expresa por la actividad física, y la 2da, por la obesidad, que
nuevamente estas dos variables dependen de los hábitos que tienen las personas, por ello se
entiende que tengan gran variabilidad.
Al aplicar factores a 2, se forman tres factores, los cuales representan un 97% de los datos. En el
1er factor se destaca la letalidad, morbilidad, mortalidad, actividad física e incidencia de diabetes,
las cuales tienen una alta correlación, ya que son situaciones de salud que están directamente
relacionadas con la diabetes, a excepción de la actividad física. En el 2do factor esta el sobrepeso
y la obesidad, que también son variables que también tienen mucha relación, y en el último
Conclusiones
78
factor, está representado por las medidas preventivas, que parece tener poca correlación con las
demás variables.
En el análisis de regresión múltiple para el caso 2, se tuvo que el análisis de ajuste mejora al dejar
de lado la variable de medidas preventivas, y con esto se obtiene el modelo siguiente, en el que se
vuelve a destacar la mortalidad para la predicción de incidencia de diabetes.
−6.522267 + 0.024423 xOb + 0.077443xS + 1.918300xM − 0.099795xL + 8.432132 xMt+ 0.093754xAF
Para el caso 3, al aplicar método de componentes principales, se considera, según el método
Kaiser, que sólo con una componente se puede explicar la mayor variabilidad de los datos. Con
esta componente se representa el 75% y las variables que mayor carga tienen son los ingresos
inferiores al bienestar mínimo y los ingresos inferiores al bienestar. Con ello entendemos que la
situación de los mexicanos en nivel económico hay una gran desigualdad.
Cuando de analiza el caso 3 por análisis de factores, se agrupan en 5 factores las diferentes
variables. En el 1er factor, están las dos variables que tienen mayor variabilidad en esta base de
datos (iibm e iib), junto con el rezago educativo, que nos dan una idea de que el nivel de
educación suele estar ligado de manera importante con el nivel económico que se tenga. En el
2do factor solo está la mortalidad, en el 3ro los no asegurados, en el 4to los asegurados y en el
5to la alimentación. Con ello entendemos que sólo tienen una correlación alta las variables que
integran el 1er factor y la mortalidad por diabetes parece no tener mucha relación con las demás
variables analizadas.
Para ver como se relacionan los estados, al analizar el caso 3, se tienen dos resultados con
conglomerados, ya que la agrupación al aplicar k medias, es diferente que la agrupación por
jerarquías, y se percibe algunas similitudes en los métodos, además de que varias variables dentro
de su grupo, tienen fronteras en común. Lo que revela que la condición del país se enfrentar a
índices parecidos por la zona en donde se habita.
Para el análisis del caso 4, la regresión local resulta ajustarse mejor a los puntos que una
regresión simple, lo cual es bueno para el análisis de predicción, en el caso de series de tiempo, el
problema que resulta es que el rango de error es muy grande, y la predicción, entre el valor que se
desea saber, el dato predicho no puede ser de mucha ayuda.
79
Apéndice A
Tabla A1 Matriz de datos de variables asociadas a la diabetes en hombres mexicanos.
Grupo edad ID Sobrepeso Obesidad Morbilidad MP
preventivas
Letalidad Mortalidad AF
20 – 24 0.03466 33.9 20.4 0.01114 34.9 3.17 0.00067 68.5
25 – 29 0.0713004 38.8 25.75 0.023185 31.75 4.395 0.002895 51.9
30 – 34 0.1689696 43.7 31.1 0.03523 28.6 5.62 0.00512 46.7
35 – 39 0.3276676 44.4 32.7 0.074015 30.55 6.3 0.01716 41.4
40 – 44 0.597405 45.1 34.3 0.1128 32.5 6.98 0.0292 43.7
45 -49 0.82815 47.05 31.5 0.198715 35.85 8.355 0.06408 46
50 – 54 1.0365656 49 28.7 0.28463 39.2 9.73 0.09896 45.4
55 – 59 1.3060389 49.4 26.15 0.363945 35.85 10.95 0.150765 44.8
60 – 64 1.63657 49.8 23.6 0.44326 32.5 12.17 0.20257 54.35
65 – 69 1.7324589 46.6 22.05 0.54559 38 15.68 0.32113 63.9
70 – 74 1.6528457 43.4 20.5 0.58282 36 17.53 0.40096 53
75 – 79 1.3977303 41.3 14.9 0.62005 34 19.38 0.48079 42.1
80 y + 0.9671127 39.2 9.3 0.54004 31.2 23.78 0.58419 20.8
Apéndice A
80
Tabla A2 Matriz de datos de variables asociadas a la diabetes en mujeres mexicanas.
Grupo edad ID Sobrepeso Obesidad Morbilidad Medidas preventivas Letalidad Mortalidad Actividad Física
20 – 24 0.05802 30.6 24 0.011 17.45 3.46 0.00037 42
25 – 29 0.0969248 34.35 30.65 0.021 15.88 4.42 0.001715 38.6
30 – 34 0.2219032 38.1 37.3 0.031 14.3 5.38 0.00306 35.2
35 – 39 0.4329552 37.85 41.7 0.065 15.28 6.05 0.010875 36.75
40 – 44 0.8061825 37.6 46.1 0.098 16.25 6.71 0.01869 38.3
45 -49 1.11328 37.2 46.95 0.188 17.93 8.45 0.04978 39
50 – 54 1.4069789 36.8 47.8 0.277 19.6 10.18 0.08087 39.7
55 – 59 1.6772956 36.5 45.75 0.373 17.93 11.97 0.132825 38.45
60 – 64 1.92423 36.2 43.7 0.469 16.25 13.75 0.18478 37.2
65 – 69 1.9715187 35.6 43.7 0.582 19 16.58 0.3128 27.6
70 – 74 1.8544144 35 35.1 0.64 18 18.08 0.41314 20.3
75 – 79 1.5729171 31.9 28 0.697 17 19.58 0.51348 13
80 y + 1.1270267 28.8 20.9 0.591 15.6 24.09 0.68061 4.7
81
Tabla A3 Matriz de datos de las variables asociadas a la situación de los mexicanos por entidad federativa.
a na re css ca iibm iib Mortalidad
Aguascalientes 1.2 7.1 15.3 14.8 21.5 14.9 47.9 11.2
BCN 4.3 23.2 14.6 22.3 15.2 10.9 38.8 10.4
BCS 2.9 12.9 15.7 15.1 21.9 13.1 38 10.7
Campeche 0.5 7.1 19.2 12.2 18.7 20.6 50.2 11.2
Chiapas 0.6 1.9 33.5 24.9 24.7 46.7 76.4 8.7
Chihuahua 0.8 9.4 16.1 13.6 18.4 15.9 46 7.9
Coahuila 2.8 5.1 12.5 14.4 21.2 11.6 40.7 11.9
Colima 3.4 11.2 18.8 14.6 22.3 11.4 40.7 11.4
DF 7.4 6.1 9.2 23.4 13 6.9 35.5 16.5
Durango 4.1 4.7 16.1 17.8 21.4 25 61.2 9.5
Guanajuato 0.6 12.8 23.9 19 28.5 16.9 49.3 14.5
Guerrero 1.9 9.8 26.8 25.4 39.4 45.1 71.9 10
Hidalgo 0.5 15.9 20.6 18.7 25 23.8 55.8 12.2
Jalisco 2.5 19.1 18.4 23.7 20.6 16.3 47.9 11.6
México 2.2 17 15.4 25.3 17.7 15.9 53.1 15.6
Michoacán 1 8.9 26.1 28.6 32.2 24.2 57.9 12.7
Morelos 4.4 9.1 19.2 22.3 30.7 15 50.1 12.8
Nayarit 0.4 8.6 19.3 18.3 28.8 23.4 53.2 10.8
NL 1.8 7.7 12.7 15.5 17.6 8.8 31.7 10.4
Oaxaca 1.3 3.8 27.7 20.9 31.7 34.4 63.6 9.9
Puebla 1.1 2.6 24.1 29.6 30.1 32.9 68.7 13.8
Querétaro 3.1 3.5 17.5 15.5 19.8 14.7 43.3 11.4
Quintana Roo 1 9.6 17.6 21.2 18.6 16.6 45 9.7
Sinaloa 1.2 10.8 21.2 14 24.7 23.3 57.1 9
SLP 2 11 18.4 16.6 25.9 13.4 42.6 10.4
Sonora 0.4 10.9 13.6 17.1 26 10.2 33.8 8.9
Tabasco 2.9 1.3 19.1 18.2 33.4 23.6 52.7 13.5
Tamaulipas 1.6 6.8 15.5 15.8 19.2 14.9 47.2 11.3
Tlaxcala 1 4 15.8 24.2 28.4 24.4 63.9 17.5
Apéndice A
82
Veracruz 1.4 11.8 25.8 25.7 28.2 24 56.6 12.5
Yucatán 2.6 7.3 23.4 15.7 25.1 16.6 55.1 8.3
Zacatecas 0.8 16.3 21.1 16.7 22.3 30.3 60.6 9.8
83
Bibliografía
[1] Anderson, T. W. (1918). An Introduction to Multivariate Statistical Analysis. New Jersey:
Wiley Interscience.
[2] Baillo Moreno, A., & Grané Chavéz, A. (2008). 100 problemas resueltos de estadística
multivariante[implementados en MATLAB]. Madrid: Delta publicaciones.
[3] Brockwell, P. j., & Davis, R. A. (2002). Introduction to Time Series and Forecasting (Second
Edition). New York: Springer.
[4] Brokwell, P. J., & Davis, R. A. (2006). Time Series: Theory and Methods. New York:
Springer.
[5] De la Fuente Fernández, S. (2011). Análisis de Factores. Recuperado el 16 de Agosto de
2017, de
http://www.fuenterrebollo.com/Economicas/ECONOMETRIA/MULTIVARIANTE/FACTO
RIAL/analisis-factorial.pdf
[6] Everitt, B., & Hothorn, T. (2011). An Introduction to Applied Multivariate Analysis with R.
New York: Springer.
[7] Ferre, J. M. (2014). FEIR 40: Modelos de Regresión. Recuperado el 22 de Septiembre de
2017, de http://www.um.es/ae/FEIR/40/
[8] FUNSALUD. (Julio de 2015). Carga Económica de la Diabetes Mellitus en México, 2013.
Obtenido de http://funsalud.org.mx/portal/wp-content/uploads/2015/08/Carga-Economica-
Diabetes-en-Mexico-2013.pdf
[9] Husson, F., Lê, S., & Pagès, J. (2011). Exploratory Multivariate Analysis by Example using
R. Taylor & Francis Group.
[10] INEGI. (30 de Enero de 2013). diabetes 2013 INEGI. Obtenido de
http://fmdiabetes.org/wp-content/uploads/2014/11/diabetes2013INEGI.pdf
[11] INEGI. (s.f.). Indicadores de bienestar por entidad federativa. Recuperado el 13 de
Marzo de 2017, de http://www.beta.inegi.org.mx/app/bienestar/?ag=01
84
[12] INEGI. (28 de Enero de 2016). Módulo de práctica deportiva y ejercicio físico [Boletín de
prensa núm. 27/16]. Recuperado el 13 de Marzo de 2017, de
http://www.inegi.org.mx/saladeprensa/boletines/2016/especiales/especiales2016_01_08.pdf
[13] Instituto Nacional de las Mujeres. (Febrero de 2015). Recuperado el 23 de Marzo de
2017, de http://cedoc.inmujeres.gob.mx/documentos_download/101243_1.pdf
[14] Jollife, I. (2002). Principal Component Analysis. New York: Springer.
[15] K. V., M., J. T., K., & J. M., B. (1979). Multivariate Analysis. San Diego: Academic Press
Inc.
[16] King, W. B. (17 de Febrero de 2016). Tutotials. Obtenido de Multiple regression:
http://ww2.coastal.edu/kingw/statistics/R-tutorials/multregr.html
[17] Peña, D. (2002). Análisis de datos multivariados. MCGRAN HILL/
INTERAMERICANA DE ESPAÑA.
[18] Pla, L. E. (1986). Análisis multivariado: método de componentes principales.
Whashington, D.C.: Eva V. Chesneau.
[19] Quintana Romero, L., & Mendoza Gonzáles, M. Á. (2016). Econometría aplicada
utilizando R. D.F.: DGAPA.
[20] Smith, R. L. (11 de Mayo de 1999). Time Series.
[21] Zelterman, D. (2015). Applied Multivariate Statistics with R. New York: Springer.
f