bayesian procedure for testing independence of two factors in rxs contingency tables beatriz...

32
Bayesian Procedure For Testing Independence of Two Factors in rxs Contingency Tables Beatriz González-Pérez, Juan Padilla 1 , and Luis Sanz Departamento de Estadística e Investigación Operativa, Facultad de Ciencias Matemáticas, Universidad Complutense de Madrid, Spain 1 Departamento de Administración y Dirección de Empresas, Facultad de CC. Jurídicas y Económicas, Universidad Camilo Jose Cela, Spain Beatriz González Pérez, Juan Padilla, Luis Sanz 1 WORKSHOP MÉTODOS BAYESIANOS, 2014 Madrid, 6 y 7 de Noviembre

Upload: clemente-pico

Post on 02-Apr-2015

108 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Bayesian Procedure For Testing Independence of Two Factors in rxs Contingency Tables Beatriz González-Pérez, Juan Padilla 1, and Luis Sanz Departamento

Beatriz González Pérez, Juan Padilla, Luis Sanz 1

Bayesian Procedure For Testing Independence of Two Factors in rxs Contingency Tables

Beatriz González-Pérez, Juan Padilla1, and Luis SanzDepartamento de Estadística e Investigación Operativa, Facultad de Ciencias

Matemáticas, Universidad Complutense de Madrid, Spain1 Departamento de Administración y Dirección de Empresas, Facultad de CC. Jurídicas

y Económicas, Universidad Camilo Jose Cela, Spain

WORKSHOP MÉTODOS BAYESIANOS, 2014Madrid, 6 y 7 de Noviembre

Page 2: Bayesian Procedure For Testing Independence of Two Factors in rxs Contingency Tables Beatriz González-Pérez, Juan Padilla 1, and Luis Sanz Departamento

Beatriz González Pérez, Juan Padilla, Luis Sanz 2

1.- INTRODUCCIÓN

Las tablas de contingencias son usadas en múltiples problemas de inferencia estadística y en diferentes contextos. Sobre todo cuando queremos contrastar la independencia

1.2- Tablas de Contingencia

Bayesian procedure for testing independence of two factors in rxs contingency tables

Page 3: Bayesian Procedure For Testing Independence of Two Factors in rxs Contingency Tables Beatriz González-Pérez, Juan Padilla 1, and Luis Sanz Departamento

Beatriz González Pérez, Juan Padilla, Luis Sanz 3

Una tabla de contingencia puede surgir en tres supuestos de muestreo:

• Las distribuciones marginales por filas y por columnas están fijadas y son conocidas. Es decir, conocemosNos encontramos en el caso del “Test Exacto de Fisher”.

• La distribución marginal de las filas es conocida. Es decir, conocemos . Nos encontramos en el test de homogeneidad.

• Únicamente se conoce el tamaño de la muestra n. Nos encontramos en el contraste típico de independencia.

Bayesian procedure for testing independence of two factors in rxs contingency tables

Page 4: Bayesian Procedure For Testing Independence of Two Factors in rxs Contingency Tables Beatriz González-Pérez, Juan Padilla 1, and Luis Sanz Departamento

Beatriz González Pérez, Juan Padilla, Luis Sanz 4

1.2- El Problema

El espacio paramétrico quedaría de la siguiente forma:

Y las distribuciones marginales de probabilidad:

Bayesian procedure for testing independence of two factors in rxs contingency tables

Page 5: Bayesian Procedure For Testing Independence of Two Factors in rxs Contingency Tables Beatriz González-Pérez, Juan Padilla 1, and Luis Sanz Departamento

Beatriz González Pérez, Juan Padilla, Luis Sanz 5

La Hipótesis general a contrastar quedaría:

Es decir, la probabilidad conjunta será igual al producto de las marginales.

[1]

Bayesian procedure for testing independence of two factors in rxs contingency tables

Page 6: Bayesian Procedure For Testing Independence of Two Factors in rxs Contingency Tables Beatriz González-Pérez, Juan Padilla 1, and Luis Sanz Departamento

Beatriz González Pérez, Juan Padilla, Luis Sanz 6

2.- APROXIMACIONES FRECUENTISTA Y BAYESIANA

2.1- El p-valor

Para contrastar la independencia en tablas de contingencia rxs, el test más utilizado es el de la de Pearson, donde el estadístico de contraste es:

Distinguiendo dos casos:• Cuando las distribuciones de probabilidad marginales por filas y por columnas son conocidas,

entonces los grados de libertad de la son rs-1• Cuando son desconocidas, entonces los grados de libertad de la son (r-1)(s-1)

Rechazando la hipótesis nula de independencia para p-valor < α, siendo α el nivel de significación.

[2]

Bayesian procedure for testing independence of two factors in rxs contingency tables

Page 7: Bayesian Procedure For Testing Independence of Two Factors in rxs Contingency Tables Beatriz González-Pérez, Juan Padilla 1, and Luis Sanz Departamento

Beatriz González Pérez, Juan Padilla, Luis Sanz 7

2.2- Probabilidad Final

Suponemos que X tiene función de distribución , donde es desconocido. La hipótesis nula será frente a

En el contexto del test de independencia en las tablas de contingencias para dos factores, será una multinomial

[3]

Bayesian procedure for testing independence of two factors in rxs contingency tables

Page 8: Bayesian Procedure For Testing Independence of Two Factors in rxs Contingency Tables Beatriz González-Pérez, Juan Padilla 1, and Luis Sanz Departamento

Beatriz González Pérez, Juan Padilla, Luis Sanz 8

Si además de , damos una probabilidad a priori sobre , y la denotamos

Desde un punto de vista bayesiano la hipótesis nula se rechazaría si 0,5.

[5]

Bayesian procedure for testing independence of two factors in rxs contingency tables

Sea una densidad sobre la alternativa, entonces el factor bayes de H1 frente a H0 sería:

[4]

Que se corresponde con la probabilidad a posteriori de la hipótesis nula puntual con una distribución a priori de tipo mixto.

Page 9: Bayesian Procedure For Testing Independence of Two Factors in rxs Contingency Tables Beatriz González-Pérez, Juan Padilla 1, and Luis Sanz Departamento

Beatriz González Pérez, Juan Padilla, Luis Sanz 9

2.3- Conflicto Frecuentista-Bayesiano

En los contrastes paramétricos unilaterales es posible encontrar acuerdo entre el método frecuentista y bayesiano utilizando determinadas clases de distribuciones iniciales como se puede ver en (G. Casella, R. L. Berger, 1987), se concluye en este caso que el p-valor puede está dentro del rango de las medidas de evidencia bayesianas.

Sin embargo se encuentra discrepancia entre ambos métodos cuando se contrasta una hipótesis nula puntual frente a una bilateral como se ve en (J. O. Berger, T. Sellke, 1987).

Cabe destacar que en general el estudio se hace buscando igualdad numérica entre el p-valor y la probabilidad a posteriori y utilizando un valor de =0,5.

(Gómez-Villegas, González-Pérez, 2005-2013) desarrollan un método bayesiano para contrastar la homogeneidad de poblaciones multinomiales independientes y lo comparan con el p-valor. La novedad de estos estudios es que la comparación entre ambos métodos se realiza en cuanto a la toma de la misma decisión y no a la igualdad numérica.

Bayesian procedure for testing independence of two factors in rxs contingency tables

Page 10: Bayesian Procedure For Testing Independence of Two Factors in rxs Contingency Tables Beatriz González-Pérez, Juan Padilla 1, and Luis Sanz Departamento

Beatriz González Pérez, Juan Padilla, Luis Sanz 10

3.- PROCEDIMIENTO BAYESIANO PARA CONTRASTAR LA INDEPENDENCIA EN TABLAS rxs

Para todo el desarrollo del epígrafe siguiente utilizaremos distribuciones a priori sobre la alternativa de Dirichlet con rxs hiperparámetros, que puede ser escrita como sigue:

[6]

En lo que sigue los vectores y denotan las distribuciones marginales de probabilidad para filas y columnas respectivamente.

Bayesian procedure for testing independence of two factors in rxs contingency tables

Page 11: Bayesian Procedure For Testing Independence of Two Factors in rxs Contingency Tables Beatriz González-Pérez, Juan Padilla 1, and Luis Sanz Departamento

Beatriz González Pérez, Juan Padilla, Luis Sanz 11

3.1.- Caso 1. Probabilidades marginales conocidas. Método I.1

Elegimos una Dirichlet como en [6] para H1, entonces la distribución mixta viene dada por:

[7]

La probabilidad final de la hipótesis nula obtenida a partir de [5]:

Donde

[8]

Los vectores y denotan las distribuciones marginales de probabilidad para filas y columnas respectivamente con

Bayesian procedure for testing independence of two factors in rxs contingency tables

Page 12: Bayesian Procedure For Testing Independence of Two Factors in rxs Contingency Tables Beatriz González-Pérez, Juan Padilla 1, and Luis Sanz Departamento

Beatriz González Pérez, Juan Padilla, Luis Sanz 12

3.2.- Caso II. Marginales desconocidas.

Sean , al igual que antes asignaremos una masa a la hipótesis nula y a la alternativa, proponemos dos métodos para estimar y .

Método II.1

Elegimos una Dirichlet como en [6] para H1, y además elegimos dos Dirichlet independientes para las filas y las columnas respectivamente una con r categorías como en y otra con s categorías como en , con hiperparámetros: para las filas y para las columnas.

[9]

Bayesian procedure for testing independence of two factors in rxs contingency tables

Page 13: Bayesian Procedure For Testing Independence of Two Factors in rxs Contingency Tables Beatriz González-Pérez, Juan Padilla 1, and Luis Sanz Departamento

Beatriz González Pérez, Juan Padilla, Luis Sanz 13

Entonces la distribución mixta quedará:

[10]

La probabilidad final de la hipótesis nula obtenida a partir de [5]:

Donde:

[11]

Bayesian procedure for testing independence of two factors in rxs contingency tables

Page 14: Bayesian Procedure For Testing Independence of Two Factors in rxs Contingency Tables Beatriz González-Pérez, Juan Padilla 1, and Luis Sanz Departamento

Beatriz González Pérez, Juan Padilla, Luis Sanz 14

Método II.2

En este método utilizamos los estimadores de máxima verosimilitud para estimar y , dados por

Obteniendo el supremo de la probabilidad final de la hipótesis nula obtenida a partir de [5]:

[12]

Donde:

Bayesian procedure for testing independence of two factors in rxs contingency tables

Page 15: Bayesian Procedure For Testing Independence of Two Factors in rxs Contingency Tables Beatriz González-Pérez, Juan Padilla 1, and Luis Sanz Departamento

Beatriz González Pérez, Juan Padilla, Luis Sanz 15

4.- APLICACIONES

4.1.- Un Caso Real, Cabras Sierra de Guadarrama.

De una población de 531 cabras de la sierra de Guadarrama, se ha obtenido una muestra aleatoria de 149 cabras para estudiar si la edad de las cabras está relacionado con el género.

Bayesian procedure for testing independence of two factors in rxs contingency tables

Page 16: Bayesian Procedure For Testing Independence of Two Factors in rxs Contingency Tables Beatriz González-Pérez, Juan Padilla 1, and Luis Sanz Departamento

Beatriz González Pérez, Juan Padilla, Luis Sanz 16

πo B0 B1 B2

0,1 0,0000 0,0002 0,2508

0,3 0,0000 0,0008 0,5635

0,5 0,0000 0,0019 0,7508

0,7 0,0000 0,0045 0,8754

0,9 0,0000 0,0172 0,9644

El p-valor obtenido a partir de [2], es 0,0000 tanto en con marginales conocidas como con desconocidas, es decir que se rechaza la independencia.

Computando la probabilidad final con los métodos desarrollados en este estudio para diferentes πo y con densidades uniformes, es decir asignado el valor 1 a todos los hiperparámetros de las Dirichlet utilizadas, nos quedaría:

Bayesian procedure for testing independence of two factors in rxs contingency tables

De la tabla 4 obtenemos que la distribución marginal de las filas es y la de las columnas .

Page 17: Bayesian Procedure For Testing Independence of Two Factors in rxs Contingency Tables Beatriz González-Pérez, Juan Padilla 1, and Luis Sanz Departamento

Beatriz González Pérez, Juan Padilla, Luis Sanz 17

4.2.- Independencia, Dependencia Estadística y Dependencia Funcional

Las tablas 6, 7, 8 muestran casos de Independencia, Dependencia Estadística y Dependencia Funcional para un ejemplo entre fumadores y enfermos de cáncer.

Bayesian procedure for testing independence of two factors in rxs contingency tables

Page 18: Bayesian Procedure For Testing Independence of Two Factors in rxs Contingency Tables Beatriz González-Pérez, Juan Padilla 1, and Luis Sanz Departamento

Beatriz González Pérez, Juan Padilla, Luis Sanz 18

Bayesian procedure for testing independence of two factors in rxs contingency tables

Page 19: Bayesian Procedure For Testing Independence of Two Factors in rxs Contingency Tables Beatriz González-Pérez, Juan Padilla 1, and Luis Sanz Departamento

Beatriz González Pérez, Juan Padilla, Luis Sanz 19

Bayesian procedure for testing independence of two factors in rxs contingency tables

Page 20: Bayesian Procedure For Testing Independence of Two Factors in rxs Contingency Tables Beatriz González-Pérez, Juan Padilla 1, and Luis Sanz Departamento

Beatriz González Pérez, Juan Padilla, Luis Sanz 20

4.3.- Análisis Exacto

Se han computado todas las tablas 2x2 de tamaño 40, seleccionando aquellas en cuyas celdas las frecuencias esperadas son superiores a 5, de tal manera que se pueda calcular sin problemas el estadístico Chi-2.

En el primer método dónde las marginales son conocidas (suponiendo ambas (0,5; 0,5)) se ha calculado la probabilidad final de la hipótesis nula y el p-valor.

Bayesian procedure for testing independence of two factors in rxs contingency tables

𝜑=0,9228

Page 21: Bayesian Procedure For Testing Independence of Two Factors in rxs Contingency Tables Beatriz González-Pérez, Juan Padilla 1, and Luis Sanz Departamento

Beatriz González Pérez, Juan Padilla, Luis Sanz 21

Se ha realizado el mismo estudio con el método II, ahora suponiendo marginales desconocidas:

Se ha comprobado el que le coeficiente de correlación lineal es alto y positivo en todos los casos (0,79, 0,68, 0,88) respectivamente.

Bayesian procedure for testing independence of two factors in rxs contingency tables

𝜑=0,8459

𝜑=0,8359

𝜑=1

Page 22: Bayesian Procedure For Testing Independence of Two Factors in rxs Contingency Tables Beatriz González-Pérez, Juan Padilla 1, and Luis Sanz Departamento

Beatriz González Pérez, Juan Padilla, Luis Sanz 22

Bayesian procedure for testing independence of two factors in rxs contingency tables

Page 23: Bayesian Procedure For Testing Independence of Two Factors in rxs Contingency Tables Beatriz González-Pérez, Juan Padilla 1, and Luis Sanz Departamento

Beatriz González Pérez, Juan Padilla, Luis Sanz 23

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.00.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

Posterior probability Method I

P-v

alu

e

Figura 2. p-valor frente a Probabilidad final,

Bayesian procedure for testing independence of two factors in rxs contingency tables

Page 24: Bayesian Procedure For Testing Independence of Two Factors in rxs Contingency Tables Beatriz González-Pérez, Juan Padilla 1, and Luis Sanz Departamento

Beatriz González Pérez, Juan Padilla, Luis Sanz 24

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.70.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

Posterior probability Method II.1

P-v

alu

e

Figura 3. p-valor frente a Probabilidad final,

Bayesian procedure for testing independence of two factors in rxs contingency tables

Page 25: Bayesian Procedure For Testing Independence of Two Factors in rxs Contingency Tables Beatriz González-Pérez, Juan Padilla 1, and Luis Sanz Departamento

Beatriz González Pérez, Juan Padilla, Luis Sanz 25

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.00.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

Posterior probability Method II.2

P-v

alu

e

Figura 4. p-valor frente a Probabilidad final,

Bayesian procedure for testing independence of two factors in rxs contingency tables

Page 26: Bayesian Procedure For Testing Independence of Two Factors in rxs Contingency Tables Beatriz González-Pérez, Juan Padilla 1, and Luis Sanz Departamento

Beatriz González Pérez, Juan Padilla, Luis Sanz 26

5.- COMPARACIÓN CON EL MÉTODO FRECUENTISTA

5.1- Caracterización del Teorema

Aplicando el teorema desarrollado en (Gómez-Villegas y González-Pérez, 2013), podemos encontrar para que valores de π0 existe acuerdo entre el p-valor y la probabilidad final.

Si y se elige un , se obtendría acuerdo en la decisión. Es decir, solo una de las dos situaciones sería verdad.

Bayesian procedure for testing independence of two factors in rxs contingency tables

Page 27: Bayesian Procedure For Testing Independence of Two Factors in rxs Contingency Tables Beatriz González-Pérez, Juan Padilla 1, and Luis Sanz Departamento

Beatriz González Pérez, Juan Padilla, Luis Sanz 27

5.1- Aplicación a las Tablas 2x2 de Tamaño 40

Bayesian procedure for testing independence of two factors in rxs contingency tables

Page 28: Bayesian Procedure For Testing Independence of Two Factors in rxs Contingency Tables Beatriz González-Pérez, Juan Padilla 1, and Luis Sanz Departamento

Beatriz González Pérez, Juan Padilla, Luis Sanz 28

Figura 5. Bars diagram: Pearson's statistic D versus Bayes factor Ƞ. Left to right:Method I, Method II.1, Method II.2, zoom Method II.1

Bayesian procedure for testing independence of two factors in rxs contingency tables

Page 29: Bayesian Procedure For Testing Independence of Two Factors in rxs Contingency Tables Beatriz González-Pérez, Juan Padilla 1, and Luis Sanz Departamento

Beatriz González Pérez, Juan Padilla, Luis Sanz 29

6.- CONCLUSIONES

1.- La primera conclusión que hemos obtenido es que el tamaño de la muestra n importa al calcular la probabilidad final.

Además se suele decir que el p-valor es más conservador que la probabilidad final, ya que rechaza cuando encuentra suficiente evidencia en contra de la hipótesis nula. En el caso de la dependencia estadística que se ha estudiado se ha podido comprobar que en algunos casos la probabilidad final rechaza y el p-valor acepta.

2.- Se ha comprobado que los métodos II.1 y II.2 discrepan más con el p-valor que el método I, sobre todo el método II.2, como se ha podido ver en las tablas 9 y 10. Siendo este el más conservador, teniendo sentido ya que está utilizando el supremo de la probabilidad final.

3.- Se ha visto que es posible, aplicando el teorema descrito en el apartado 5.1, alcanzar acuerdo para el p-valor y la probabilidad final. En este sentido nosotros lo hemos encontrado en el método II.1 con un α=0,01 y un π0=0,93.

Bayesian procedure for testing independence of two factors in rxs contingency tables

Page 30: Bayesian Procedure For Testing Independence of Two Factors in rxs Contingency Tables Beatriz González-Pérez, Juan Padilla 1, and Luis Sanz Departamento

Beatriz González Pérez, Juan Padilla, Luis Sanz 30

REFERENCIAS

Page 31: Bayesian Procedure For Testing Independence of Two Factors in rxs Contingency Tables Beatriz González-Pérez, Juan Padilla 1, and Luis Sanz Departamento

Beatriz González Pérez, Juan Padilla, Luis Sanz 31

Page 32: Bayesian Procedure For Testing Independence of Two Factors in rxs Contingency Tables Beatriz González-Pérez, Juan Padilla 1, and Luis Sanz Departamento

Beatriz González Pérez, Juan Padilla, Luis Sanz 32