b0 analisis multivariado ii
TRANSCRIPT
Análisis multivariante
Modesto Escobar
©RMEM
Introducción
• Variable y caso• Estudios de una variable: descripción• Estudios con dos variables: comparación y asociación• Estudios con más de dos variables:
• Asociación
• Control
• Interacción
• Factorización
• Representación espacial
• Distancia
• Clasificación
©RMEM
Asociación
Dos variables se consideran asociadas cuando existe variación conjunta de sus valores.
©RMEM
Variación conjunta de valores
PNB per cápita. 1995. PPA
400003000020000100000
Esp
era
nza
de
vid
a a
l na
ce
r (a
ño
s) 1
99
5/
80
75
70
65
Suecia
Rus ia
Rep ública Checa
Portugal
Luxemburgo
Islandia
Grecia
Georgia
ESPAÑA
Dinamarca
+
+
–
–
©RMEM
Matriz de correlaciones
Correlaciones
,106
,212 ,349
-,136 ,289 ,321
,474 ,121 ,090 ,923**
,130 ,054 ,662** ,116 -,027
-,331 -,225 -,854** -,906** -,025
,003 ,354 ,520** ,848** ,764** ,398* -,740**
1) Población x1000
2) Habitantes por Km2
3) Habitantes en ciudades (%)
4) Esperanza de vida femenina
5 )Esperanza de vida masculina
6) Alfabetización (%)
7) Mortalidad infantil (muertes por 1000 nacimientos vivos)
8) Producto interior bruto per-capita
(1) (2) (3) (4) (5) (6) (7) (8)
La correlación es significat iva al n ivel 0 ,01 (bi lateral ).**.
La correlación es signi ficante al nivel 0,05 (bi lateral ).*.
©RMEM
Control
• Consiste en mantener constantes los valores de una tercera variable que pudieran estar deformando las relaciones entre otras dos variables.
©RMEM
Correlaciones parciales
- - - P A R T I A L C O R R E L A T I O N C O E F F I C I E N T S - - -
Controlling for.. PIB_CAP
POBLAC DENSIDAD URBANA ESPVIDAF ESPVIDAM ALFABET MORTINF
POBLAC 1,0000 ,1211 ,2526 -,2610 -,3192 ,1450 ,4896
DENSIDAD ,1211 1,0000 ,2008 -,0213 ,1054 -,1063 ,0910
URBANA ,2526 ,2008 1,0000 -,2612 -,2403 ,5808 ,2950
ESPVIDAF -,2610 -,0213 -,2612 1,0000 ,8039 -,4507 ,6494
ESPVIDAM -,3192 ,1054 -,2403 ,8039 1,0000 -,5546 ,8089
ALFABET ,1450 -,1063 ,5808 -,4507 -,5546 1,0000 ,4548
MORTINF ,4896 -,0910 ,2950 -,6494 -,8089 ,4548 1,0000
©RMEM
Interacción
• Hay interacción cuando la asociación entre dos variables depende de los valores de una tercera.
©RMEM
Representación de la interacción
Coeficiente intelectual
Nivel de estudios
Clase social
©RMEM
Factorización
• Consiste en la creación de una(s) nueva(s) variable(s) en función de una combinación lineal de otras variables.
©RMEM
Factorización
...
6265254243232221212
6165154143132121111
XaXaXaXaXaXaZ
XaXaXaXaXaXaZ
+++++=
+++++=
©RMEM
Representación espacial
• Expresión de las variables en un conjunto reducido de dimensiones con el fin de comprender la pauta de distribución de una serie de datos.
©RMEM
Representación espacial de variables
Gráfico de saturaciones en espacio factorial rotado
intere s por lo que hFactor 2
intere s por lo que d
,81,0
intere s por lo que h
-,2
0,0
ir a un mitin
intere s por lo que h,2
,6,8
,4intere s cuestiones i
inter es activ idad si
ir a reun. polit. o
,6
,8
1,0
,4,6
votar en elecciones
Factor 3Factor 1
firma r una petic ion
,2,4
intere s por lo que o
ir a manifestacion
0,0,2
i r a una huelga
©RMEM
Distancia
• Medida de cuán semejantes puedan ser dos individuos en un conjunto de variables.
©RMEM
Representación geométrica de la distancia
0
1
2
3
4
5
6
7
8
9
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
Variable 1
Var
iab
le 2
Caso Y
∑=
−I
iii YX
1
)( Caso X
11 YX −
22 YX −
222
211 )()( YXYX −+−
©RMEM
Clasificación
• Técnica de agrupación de objetos homogéneos. Puede aplicarse tanto a las variables como a los casos.
©RMEM
Conglomerados* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * *
Dendrogram using Average Linkage (Between Groups)
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+
B2 7 -+ B3 8 -+-----+ A3 3 -+ +-------+ B4 9 -------+ +---------------------------------+ A1 1 -+---+ I I B1 6 -+ +---------+ I A2 2 -----+ I A4 4 -+-------+ I A5 5 -+ +---------------------------------------+ B5 10 ---------+
©RMEM
Clasificación de los análisis multivariantes
• Payne y 0’Muircheartaigh• Sánchez Carrión• Castelló i Vila• Martínez Arias
©RMEM
Payne y 0’Muircheartaigh
• Búsqueda de estructuras• Descubrimiento de regularidades en los datos.
• Ajuste de modelos• Prueba de que un determinada relación hipotética
se ajusta a los datos.
©RMEM
Sánchez Carrión
• Ajuste de modelos
• Búsqueda de estructuras• Técnicas de reducción• Técnicas de agrupaciones
©RMEM
Castelló y Vila
• Modelos de dependencia• Modelos de independencia
• Semejanza entre variables• Semejanza entre casos• Semejanza entre objetos
©RMEM
Martínez Arias
• Medidas de dependencia• Número y tipo de variables dependientes• Número y tipo de variables independientes
• Medidas de interdependencia• Número de variables• Tipo de variables
©RMEM
Métodos de dependencia
• Regresión lineal (1 cuant./p cuant.)• Análisis de varianza (p cuant./1 ó más cual./cuant.)• Análisis discriminante (1cual./p cuant.)• Correlaciones canónicas (p cuant./q cuant.)• AID (1 cuant./p cual.)• CHAID (1 cual./p cual.)• Regresión logística/Probit (1 dicot/p cuant.)• Kaplan-Meier/Cox (1 tiempo/0 ó p cuant.)
©RMEM
Métodos de interdependencia
• Análisis de conglomerados (Cuant.)• Escalamiento multidimensional (Ord./Cuant.)• Análisis factorial (Cuant.)• Modelos lineales-logarítmicos (Cual.)• Análisis de correspondencias (Cual.)
©RMEM
Modelos de relación entre tres variables
• Correlación espuria• Intervención.• Multicausalidad• Aparente no correlación• Confirmación
©RMEM
Correlación espuria
Edad (VC)
A. Liberal (VD)Estado civil (VI)
©RMEM
Condiciones de la espuriedad
• Existe relación bivariada.• Al controlar desaparece en cada una de las
condiciones de la variable de control.• La variable independiente es consecuencia
de la de control
©RMEM
Ejemplo de espuriedad (I)Tabla de contingencia Posición ante el aborto * Estado civil
% de Estado civil
24,1% 18,8% 12,1% 19,5%
70,4% 76,5% 79,8% 75,3%
5,5% 4,7% 8,1% 5,3%
100,0% 100,0% 100,0% 100,0%
Sí
No
NC
Posición ante el aborto
Total
Soltero Casado Viudo
Estado civil
Total
Pruebas de chi-cuadrado
10,856 4 ,028
.067
Chi-cuadrado de Pearson
V de Cramer
Valor glSig. asintótica
(bilateral)
©RMEM
Ejemplo de espuriedad (II)
Pruebas de chi-cuadrado
1,429 4 ,839
,033
5,974 4 ,201
,074
Chi-cuadrado de Pearson
V. de Cramer
Chi-cuadrado de Pearson
V. de Cramer
EDAD
<=45
>45
Valor glSig. asintótica
(bilateral)
Tabla de contingencia Posición ante el aborto * Estado civil * EDAD
% de Estado civil
27,1% 25,0% 28,6% 6,7% 13,2% 8,7%
66,9% 70,6% 66,7% 91,1% 81,8% 82,5%
6,0% 4,4% 4,8% 2,2% 5,0% 8,7%
100,0% 100,0% 100,0% 100,0% 100,0% 100,0%
Sí
No
NC
Posición anteel aborto
Total
Soltero Casado Viudo
Estado civil
Soltero Casado Viudo
Estado civil
<=45 >45
EDAD
©RMEM
Ejemplo de espuriedad (III)
Edad
Opinión sobre abortoEstado civil
©RMEM
Ejemplo de espuriedad (III)
©RMEM
Intervención
Práctica religiosa
Opinión ante el abortoGénero
©RMEM
Ejemplo de intervención (I)
Pruebas de chi-cuadrado
9,446 2 ,009
,09
Chi-cuadrado de Pearson
V de Cramer
Valor glSig. asintótica
(bilateral)
Tabla de contingencia Posición ante el aborto * SEXO
% de SEXO
23,3% 16,2% 19,6%
71,7% 78,3% 75,1%
5,0% 5,5% 5,3%
100,0% 100,0% 100,0%
Sí
No
NC
Posición ante el aborto
Total
Varón Mujer
SEXO
Total
©RMEM
Ejemplo de intervención (II.a)Tabla de contingencia Posición ante el aborto * SEXO * Práctica religiosa
% de SEXO
39,1% 33,6% 36,8%
60,9% 66,4% 63,2%
100,0% 100,0% 100,0%
15,0% 13,4% 14,1%
85,0% 86,6% 85,9%
100,0% 100,0% 100,0%
11,8% 3,8% 5,7%
88,2% 96,2% 94,3%
100,0% 100,0% 100,0%
Sí
No
Posición anteel aborto
Total
Sí
No
Posición anteel aborto
Total
Sí
No
Posición anteel aborto
Total
Práctica religiosa
No practicante
Practicante
Muy practicante
Varón Mujer
SEXO
Total
©RMEM
Ejemplo de intervención (II.b)
Pruebas de chi-cuadrado
,880 1 ,348
,06
,320 1 ,572
,02
3,051 1 ,081
,14
Chi-cuadrado de Pearson
V de Cramer
Chi-cuadrado de Pearson
V de Cramer
Chi-cuadrado de Pearson
V de Cramer
Práctica religiosa
Nada practicante
Practicante
Muy practicante
Valor glSig. asintótica
(bilateral)
©RMEM
Ejemplo de intervención (III)
Práctica religiosa
Posición ante abortoSexo
©RMEM
Condiciones de la intervención
• Existe relación bivariada.• Al controlar desaparece en cada una de las
condiciones de la variable de control.• La variable independiente influye en la de
control
©RMEM
Multicausalidad
Afición a salir
Asistencia al cineAfición al cine
©RMEM
Condiciones de la multicausalidad
• No existe relación entre la variable independiente y la de control
• Existe originalmente asociación entre independiente y dependiente.
• Al menos una de las asociaciones condicionadas es superior a la bivariada.
©RMEM
Ejemplo de multicausalidad (I)Tabla de contingencia Asistencia al cine * Afición al cine
% de Afición al cine
72,5% 32,5% 52,5%
27,5% 67,5% 47,5%
100,0% 100,0% 100,0%
Sí
No
Asistenciaal cine
Total
Sí No
Afición al cine
Total
Pruebas de chi-cuadrado
128,321 1 ,000
,40
Chi-cuadrado de Pearson
V de Cramer
Valor glSig. asintótica
(bilateral)
©RMEM
Ejemplo de multicausalidad (II)Tabla de contingencia Afición al cine * Afición a salir
% de Afición a salir
50,0% 50,0% 50,0%
50,0% 50,0% 50,0%
100,0% 100,0% 100,0%
Sí
No
Aficiónal cine
Total
Sí No
Afición a salir
Total
Pruebas de chi-cuadrado
,000 1 1,000
,00
Chi-cuadrado de Pearson
V de Cramer
Valor glSig. asintótica
(bilateral)
©RMEM
Ejemplo de multicausalidad (III)Tabla de contingencia Asistencia al cine * Afición al cine * Afición a salir
% de Afición al cine
80,0% 40,0% 50,0% 10,0%
20,0% 60,0% 50,0% 90,0%
100,0% 100,0% 100,0% 100,0%
Sí
No
Asistencia al cine
Total
Sí No
Afición al cine
Sí No
Afición al cine
Sí No
Afición a salir
Pruebas de chi-cuadrado
100,000 1 ,000
,41
38,095 1 ,000
,44
Chi-cuadrado de Pearson
V de Cramer
Chi-cuadrado de Pearson
V de Cramer
Afición a salir
Sí
No
Valor glSig. asintótica
(bilateral)
©RMEM
Aparente no correlación
Asociado
Asociado a A. sindicalAsociado a A. religiosa
©RMEM
Condiciones de la aparente no corr.
• No existe originalmente asociación entre independiente y dependiente.
• Cuando se controla por la tercera variable, al menos una de las asociaciones condicionadas es significativa.
©RMEM
Ej. Aparente no correlación (I)
Pruebas de chi-cuadrado
,011 1 ,917
,00
Chi-cuadrado de Pearson
V de Cramer
Valor glSig. asintótica
(bilateral)
Tabla de contingencia: Sindical*Religiosa
% de Una asociaci¢n religiosa o parroquial
7,6% 7,2% 7,3%
92,4% 92,8% 92,7%
100,0% 100,0% 100,0%
Sí
No
Sindical
Total
Sí No
Religiosa
Total
©RMEM
Ej. Aparente no correlación (II)
Pruebas de chi-cuadrado
,
5,564 1 ,018
,11
Chi-cuadrado de Pearson
Chi-cuadrado de Pearson
V de Cramer
ASOCIADO
No
Sí
Valor gl Sig. asintótica
Tabla de contingencia: Sindical* Religiosa* ASOCIADO
% de Una asociaci¢n religiosa o parroquial
7,6% 19,6%
100,0% 92,4% 80,4%
100,0% 100,0% 100,0%
Sí
No
Sindical
Total
No
Religiosa
Sí No
Religiosa
No Sí
ASOCIADO
©RMEM
Confirmación
Diversas
VotoClase
©RMEM
Condiciones de la confirmación
• Las asociaciones condicionadas son significativamente mayores que cero.
• Ninguna de ellas es mayor que la correlación originaria.
©RMEM
La tabla original de dos dimensiones
Tabla de contingencia DIPLOMA * S EXO
369 698 1067
81.3% 67.6% 71.8%
85 335 420
18.7% 32.4% 28.2%
454 1033 1487
100.0% 100.0% 100.0%
Recuento
% de SEXO
Recuento
% de SEXO
Recuento
% de SEXO
Licen
Dip l.
DIPLOMA
Total
Varón Mujer
SEXO
Total
©RMEM
Prueba de significación
Pruebas de chi-cuadrado
29.239 1 .000Chi-cuadrado de Pearson
Valor glSig. asint .(bilateral)
Medidas simétricas
.140 .000
.140 .000
1487
Phi
V de Cramer
Nominal pornominal
N de casos válidos
ValorSig.
aproximada
©RMEM
La tabla de tres dimensionesTabla de contingencia DIPLOMA * SEXO * Residencia
314 604 918
80.3% 67.0% 71.1%
77 297 374
19.7% 33.0% 28.9%
391 901 1292
100.0% 100.0% 100.0%
30 46 76
85.7% 64.8% 71.7%
5 25 30
14.3% 35.2% 28.3%
35 71 106
100.0% 100.0% 100.0%
Recuento
% de SEXO
Recuento
% de SEXO
Recuento
% de SEXO
Recuento
% de SEXO
Recuento
% de SEXO
Recuento
% de SEXO
Licen
Dipl.
DIPLOMA
Total
Licen
Dipl.
DIPLOMA
Total
Residencia
Salamanca
Resto
Varón Mujer
SEXO
Total
©RMEM
La tabla de tres dimensiones (I)
Tabla de contingencia DIPLOMA * SEXO * Residencia
314 604 918
80.3% 67.0% 71.1%
77 297 374
19.7% 33.0% 28.9%
391 901 1292
100.0% 100.0% 100.0%
Recuento
% de SEXO
Recuento
% de SEXO
Recuento
% de SEXO
Licen
Dip l.
DIPLOMA
Total
Residencia
Salamanca
Varón Mujer
SEXO
Total
©RMEM
La tabla de tres dimensiones (II)
Tabla de contingencia DIPLOMA * SEXO * Residencia
30 46 76
85.7% 64.8% 71.7%
5 25 30
14.3% 35.2% 28.3%
35 71 106
100.0% 100.0% 100.0%
Recuento
% de SEXO
Recuento
% de SEXO
Recuento
% de SEXO
Licen
Dipl.
DIPLOMA
Total
Residencia
Resto
Varón Mujer
SEXO
Total
©RMEM
Significación de dos tablasPruebas de chi-cuadrado
23.346 1 .000
5.059 1 .025
Chi-cuadrado de Pearson
Chi-cuadrado de Pearson
Residencia
Salamanca
Resto
Valor glSig. asint .(bilateral)
Medidas simétricas
.134 .000
.134 .000
1292
.218 .025
.218 .025
106
Phi
V de Cramer
Nominal pornominal
N de casos válidos
Phi
V de Cramer
Nominal pornominal
N de casos válidos
Residencia
Salamanca
Resto
ValorSig.
aproximada
©RMEM
Otro ejemplo (Act. Empresa)
Tabla de contingencia Actitud ante la empresa * S alud mental
% de Salud mental
52,9% 30,8% 39,5%
47,1% 69,2% 60,5%
100,0% 100,0% 100,0%
Negativa
Positiva
Actitud antela empresa
Total
Mala Buena
Salud mental
Total
Pruebas de chi-cuadrado
105,693 1 ,000
2150
Chi-cuadrado de Pearson
N de casos válidos
Valor glSig. asint .(bilateral)
©RMEM
Otro ejemplo (Espuria)
Tabla de contingencia Acti tud ante la empresa * S alud mental * Satisfacciónlaboral
% de Salud mental
66,7% 66,7% 66,7%
33,3% 33,3% 33,3%
100,0% 100,0% 100,0%
20,0% 20,0% 20,0%
80,0% 80,0% 80,0%
100,0% 100,0% 100,0%
Negativa
Positiva
Actitud antela empresa
T otal
Negativa
Positiva
Actitud antela empresa
T otal
Satisfacción laboral
Mala
Buena
Mala Buena
Salud mental
Total
©RMEM
Significación
Pruebas de chi -cuadrado
,000 1 1,000
900
,000 1 1,000
1250
Chi-cuadrado de Pearson
N de casos válidos
Chi-cuadrado de Pearson
N de casos válidos
Satisfacción laboral
Mala
Buena
Valor glSig. asint.(bilateral)
©RMEM
Relaciones causales
Educación padre
Clase del hijoClase del padre
Educación del hijo
©RMEM
Descomposición de las relaciones
• Causales• Directas• Indirectas
• Espurias