contame algo que me guste escuchar -...

28
P-hacking Contame algo que me guste escuchar Marcelo A. Soria Facultad de Agronomía y Maestría de Explotación de datos FCEN-FI UBA

Upload: others

Post on 15-Oct-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Contame algo que me guste escuchar - datamining.dc.uba.ardatamining.dc.uba.ar/datamining/files/Charlas_y_Paneles/p3_2016_… · PowerPoint Presentation Author: marcelo Created Date:

P-hacking

Contame algo que me guste escuchar

Marcelo A. SoriaFacultad de Agronomía y

Maestría de Explotación de datos FCEN-FI

UBA

Page 2: Contame algo que me guste escuchar - datamining.dc.uba.ardatamining.dc.uba.ar/datamining/files/Charlas_y_Paneles/p3_2016_… · PowerPoint Presentation Author: marcelo Created Date:

Why Most Published Research Findings Are False. John P. A. Ioannidis, 2005, PLoS Med 2(8): e124.

Page 3: Contame algo que me guste escuchar - datamining.dc.uba.ardatamining.dc.uba.ar/datamining/files/Charlas_y_Paneles/p3_2016_… · PowerPoint Presentation Author: marcelo Created Date:

Uno de los componentes de esteproblema es la manipulación de lostests estadísticos.

Específicamente cómo se obtiene e informa la significancia estadística.

Esto se llama P-hacking

Page 4: Contame algo que me guste escuchar - datamining.dc.uba.ardatamining.dc.uba.ar/datamining/files/Charlas_y_Paneles/p3_2016_… · PowerPoint Presentation Author: marcelo Created Date:

Otro resultado preocupante es que la cantidad de resultadospositivos está aumentando en el tiempo

En la práctica esto significa que al no reportarse resultados nulos, otro grupopuede intentar reproducir el experimento, gastando tiempo y recursos

Page 5: Contame algo que me guste escuchar - datamining.dc.uba.ardatamining.dc.uba.ar/datamining/files/Charlas_y_Paneles/p3_2016_… · PowerPoint Presentation Author: marcelo Created Date:

Ginsel et al. BMC Res Notes (2015) 8:721 DOI 10.1186/s13104-015-1691-x

La distribución de los valores P en la literatura médica muestrauna diferencia muy marcada entre aquellos inmediatamenteinferiores y superiores a 0.05

Page 6: Contame algo que me guste escuchar - datamining.dc.uba.ardatamining.dc.uba.ar/datamining/files/Charlas_y_Paneles/p3_2016_… · PowerPoint Presentation Author: marcelo Created Date:

Estas tendencias son más marcadas enalgunas disciplinas,

…y paises !!

Page 7: Contame algo que me guste escuchar - datamining.dc.uba.ardatamining.dc.uba.ar/datamining/files/Charlas_y_Paneles/p3_2016_… · PowerPoint Presentation Author: marcelo Created Date:

The Extent and Consequences of P-Hacking in SciencePLOS Biology | DOI:10.1371/journal.pbio.1002106

Frecuencias de valores P en diferentes áreas que se ubican en el rango 0.045 < P < 0.05

Page 8: Contame algo que me guste escuchar - datamining.dc.uba.ardatamining.dc.uba.ar/datamining/files/Charlas_y_Paneles/p3_2016_… · PowerPoint Presentation Author: marcelo Created Date:

Fanelli y Ioannidis (2013) analizaron 1174 resultadosde investigaciones en salud publicados en 82 meta-análisis y encontraron:

http://www.pnas.org/cgi/doi/10.1073/pnas.1302997110

Los estudios sobre aspectos del comportamiento tienden a informarefectos más extremos que losbiológicos.

Los trabajos con al menos un autorbasado en Estados Unidos tienden a incluir resultados más extremos

Page 9: Contame algo que me guste escuchar - datamining.dc.uba.ardatamining.dc.uba.ar/datamining/files/Charlas_y_Paneles/p3_2016_… · PowerPoint Presentation Author: marcelo Created Date:

¿Fraude?

¿Más presión?

¿Más oportunidades?

¿Descuido / desconocimiento?

Page 10: Contame algo que me guste escuchar - datamining.dc.uba.ardatamining.dc.uba.ar/datamining/files/Charlas_y_Paneles/p3_2016_… · PowerPoint Presentation Author: marcelo Created Date:

http://fivethirtyeight.com/features/science-isnt-broken/

Page 11: Contame algo que me guste escuchar - datamining.dc.uba.ardatamining.dc.uba.ar/datamining/files/Charlas_y_Paneles/p3_2016_… · PowerPoint Presentation Author: marcelo Created Date:
Page 12: Contame algo que me guste escuchar - datamining.dc.uba.ardatamining.dc.uba.ar/datamining/files/Charlas_y_Paneles/p3_2016_… · PowerPoint Presentation Author: marcelo Created Date:

Algunos trucos con losque nos puede engañarun p-hacker

Page 13: Contame algo que me guste escuchar - datamining.dc.uba.ardatamining.dc.uba.ar/datamining/files/Charlas_y_Paneles/p3_2016_… · PowerPoint Presentation Author: marcelo Created Date:

Analizar muchas métricas, informar solo aquellas que “dan bien”

Dejar de recolectar datos cerca del valor crítico (asumamos Pc = 0.05)

Excluir casos (y llamarlos outliers) para alcanzar P < 0.05

Page 14: Contame algo que me guste escuchar - datamining.dc.uba.ardatamining.dc.uba.ar/datamining/files/Charlas_y_Paneles/p3_2016_… · PowerPoint Presentation Author: marcelo Created Date:

Transformar los datos para contar una“linda” historia, y significativa

Registrar muchas variables, informar solo aquellas con P < 0.05

Usar covariables para alterar los valoresde P

Algunos ejemplos …

Page 15: Contame algo que me guste escuchar - datamining.dc.uba.ardatamining.dc.uba.ar/datamining/files/Charlas_y_Paneles/p3_2016_… · PowerPoint Presentation Author: marcelo Created Date:

Nuestro P-hacker va a demostrar ese sesgo con algúntest de normalidad y no piensa buscar más datos

La distribución de la derecha tiene un sesgo leve a la derecha.

Pero la muestra eschica y la asimetríano se ve bien.

Page 16: Contame algo que me guste escuchar - datamining.dc.uba.ardatamining.dc.uba.ar/datamining/files/Charlas_y_Paneles/p3_2016_… · PowerPoint Presentation Author: marcelo Created Date:

P = 0.05

Hay tres medidas que le pueden servir.

¿Chequear supuestos? No… está bien así

Prueba varias medidas y se queda con la másconveniente:

Page 17: Contame algo que me guste escuchar - datamining.dc.uba.ardatamining.dc.uba.ar/datamining/files/Charlas_y_Paneles/p3_2016_… · PowerPoint Presentation Author: marcelo Created Date:

Nuestro P-hacker ahora enfrenta un desafioinverso.

Tiene dos poblaciones que son diferentes y esmás cómodo considerar que hay solo una.

Lo que va a hacer es calcular tests de t y jugarcon la potencia.

Prueba muestras de tamaño chico y las aumenta hasta que los valores P empiecen a ser significativos.

Page 18: Contame algo que me guste escuchar - datamining.dc.uba.ardatamining.dc.uba.ar/datamining/files/Charlas_y_Paneles/p3_2016_… · PowerPoint Presentation Author: marcelo Created Date:

0.0

0.2

0.4

0.6

250 500 750 1000

tamaño de la muestra

valo

r P

Zona de “confort” del P-hacker

Valores P obtenidos con muestras de tamaño creciente

Page 19: Contame algo que me guste escuchar - datamining.dc.uba.ardatamining.dc.uba.ar/datamining/files/Charlas_y_Paneles/p3_2016_… · PowerPoint Presentation Author: marcelo Created Date:

El P-hacker tiene este conjunto de datos:

• Una variable de respuesta que son datosextraidos al azar de una distribuciónuniforme

• Las variables explicatorias son 100, todasde tipo lógico (Verdadero / Falso). Y también son extracciones al azar de distribuciones binomiales

vresp feat1 feat2 feat3 feat4 feat5 feat6 feat7 feat8 feat9 feat10

46.05 0 1 1 1 1 0 0 1 0 0

74.82 1 0 0 0 0 0 0 1 0 0

86.19 1 0 0 0 0 0 1 1 1 0

14.90 1 0 0 0 0 1 0 1 1 0

3.76 1 0 0 0 1 1 1 1 0 0

79.89 0 1 0 0 0 0 1 1 1 0

Page 20: Contame algo que me guste escuchar - datamining.dc.uba.ardatamining.dc.uba.ar/datamining/files/Charlas_y_Paneles/p3_2016_… · PowerPoint Presentation Author: marcelo Created Date:

Al P-hacker le encargan encontrar variables asociadas con la respuesta.

¿Reconocerá nuestro P-hacker que está vez no puede hacer mucho?

Page 21: Contame algo que me guste escuchar - datamining.dc.uba.ardatamining.dc.uba.ar/datamining/files/Charlas_y_Paneles/p3_2016_… · PowerPoint Presentation Author: marcelo Created Date:

Ofrece aplicar “técnicas especiales de mining” para analizar la asociación con cada una de las variables binarias.

En realidad cualquier test que use con un Pc = 0.05, y sin hacer corrección por comparacionesmultiples, va a generar un 5% de falsos positivos

De ninguna manera …!

Page 22: Contame algo que me guste escuchar - datamining.dc.uba.ardatamining.dc.uba.ar/datamining/files/Charlas_y_Paneles/p3_2016_… · PowerPoint Presentation Author: marcelo Created Date:

O sea, cinco variables binarias de las 100 van a estar asociadas a la variable de respuesta

Page 23: Contame algo que me guste escuchar - datamining.dc.uba.ardatamining.dc.uba.ar/datamining/files/Charlas_y_Paneles/p3_2016_… · PowerPoint Presentation Author: marcelo Created Date:

No siempre las manipulaciones de datos son intencionales.

A veces ocurren por desconocimiento del dominio

Y otras por falta de conocimiento técnico del científico de datos

Page 24: Contame algo que me guste escuchar - datamining.dc.uba.ardatamining.dc.uba.ar/datamining/files/Charlas_y_Paneles/p3_2016_… · PowerPoint Presentation Author: marcelo Created Date:

Supongamos una variable que tiene una media de 35 en la población.

Para medirla se usa un equipo que para valores menores a 25 la mitad de las veces los registra como “por debajo del nivel de detección".

O sea, quedan registros con datos faltante con un patrón.

Page 25: Contame algo que me guste escuchar - datamining.dc.uba.ardatamining.dc.uba.ar/datamining/files/Charlas_y_Paneles/p3_2016_… · PowerPoint Presentation Author: marcelo Created Date:

Si no tenemos esto en cuenta, al usarmuestras cada vez mayores para estimar la media poblacional pasa algocurioso:

Page 26: Contame algo que me guste escuchar - datamining.dc.uba.ardatamining.dc.uba.ar/datamining/files/Charlas_y_Paneles/p3_2016_… · PowerPoint Presentation Author: marcelo Created Date:

34.8

35.1

35.4

35.7

36.0

a b c

muestras de tamaño creciente

estim

ad

or

+/-

in

t. co

nf. 9

5%

media poblacional

Page 27: Contame algo que me guste escuchar - datamining.dc.uba.ardatamining.dc.uba.ar/datamining/files/Charlas_y_Paneles/p3_2016_… · PowerPoint Presentation Author: marcelo Created Date:

Conclusiones y recomendaciones

Replicar

Registrar los proyectos

Fomentar la honestidad en los análisis

Documentar – Investigación reproducible

Ser competente en las técnicas

Page 28: Contame algo que me guste escuchar - datamining.dc.uba.ardatamining.dc.uba.ar/datamining/files/Charlas_y_Paneles/p3_2016_… · PowerPoint Presentation Author: marcelo Created Date:

Muchas gracias !