inferencia causal y métodos...

50
Inferencia causal y métodos quasi-experimentales DAVID EVANS BANCO MUNDIAL ieGovern Impact Evaluation Workshop Istanbul, Turkey January 27-30, 2015 : #ieGovern Esta presentación adapta varios diapositivas del Strategic Impact Evaluation Fund (SIEF) y de Sebastian Martinez.

Upload: others

Post on 18-Apr-2020

10 views

Category:

Documents


0 download

TRANSCRIPT

Inferencia causal y métodos

quasi-experimentales

DAVID EVANS BANCO MUNDIAL

ieGovern Impact Evaluation Workshop Istanbul, Turkey January 27-30, 2015

: #ieGovern

Esta presentación adapta varios diapositivas del Strategic Impact Evaluation Fund (SIEF) y de Sebastian Martinez.

Nuestro objetivo

Calcular el efecto causal de la intervención ____ en el resultado _____.

Ejemplos:

¿Cuál es el efecto de motivar a través de formas distintas (monetaria, elogios) en el desempeño

profesional?

¿Cuál es el efecto de las inspecciones en la velocidad de acabar con casos legales?

La solución

El efecto de dar incentivos a gobiernos locales para mejor los servicios públicos es…

El nivel de servicios públicos con incentivos

El nivel de servicios públicos sin incentivos

¡Gracias por su atención!

Disfruten su tiempo en Istanbul

(Alguien por favor deme un premio por ser el más eficaz al enseñar esto)

Pero esperen…

Si buscamos calcular

¿Alguien puede ver la dificultad al calcular esto?

El nivel de servicios públicos con incentivos

El nivel de servicios públicos sin incentivos

¡Sólo observamos uno!

Archibaldo con incentivo

Tod

a im

ágen

de

Pla

za S

ésam

o p

erte

nec

en a

ella

.

¡Sólo observamos uno!

Y entonces, ¿Qué hacemos?

Archibaldo sin incentivo

Tod

a im

ágen

de

Pla

za S

ésam

o p

erte

nec

en a

ella

.

La solución (de verdad) Calcular lo que hubiera sucedido a Archibaldo en la ausencia del incentivo.

Esto se llama escenario contrafactual.

Archibaldo con incentivo recoge basuras en 80% de los hogares.

Archibaldo sin incentivo recoge basuras de ?? de los hogares.

Otros ejemplos

• Calcular lo que hubiero sucedido con la tasa de impuestos en ausencia de la carta para incentivar el cumpliento de los impuestos

• CLQHS con la recolección de basura en ausencia de programas que fortalezcan los gobiernos sub-nacionales

El mejor escenario contrafactual

1. Usamos un «clon» perfecto

2. Damos el incentivo a uno

3. Esperamos un tiempo

4. Observamos la recolección de basura en cada clon

¿Cuál es el impacto?

Máquina para clonar 55% de hogares 80% de hogares

25% de hogares

En realidad, utilizamos estadísticas

El grupo de tratamiento El grupo control

Promedio de 80% de los hogares

Promedio de 55% de los hogares

¿Cuál es el impacto?

Desafortunadamente…

• No tenemos clones.

• Buscamos el grupo más parecido al clon posible

• El grupo de tratamiento y el contrafactual deben tener

– Las mismas características

– Con excepción de los beneficios

del programa

De nuevo

La única diferencia entre el grupo de tratamiento (o de programa) y el contrafactual (o grupo de control)

debe ser

que un grupo recibe el programa y el otro no

Damos el incentivo a este grupo ¿Cuál sería el mejor grupo de control?

Grupo A Grupo B

¿Qué sería un buen contrafactual para un municipio (Macondo) que se puso de voluntario para un nuevo programa de adquisición?

1. Un municipio que tiene el mismo tamaño pero el alcalde no quiere el programa de adquisición

2. Un municipio en el mismo estado pero con una población mucho mayor

3. Un municipio que se ve igual a Macondo inicialmente, pero después del programa tiene peores servicios

4. Ninguno

31%

0%

46%

23%

Un municipio que tiene el mismo tamaño pero el alcalde noquiere el programa de adquisición

Un municipio en el mismo estado pero con una población muchomayor

Un municipio que se ve igual a Macondo inicialmente, perodespués del programa tiene peores servicios

Ninguno

Estudio de caso

• Un programa en Pakistán da incentivos a los recaudadores de impuestos

• Es un programa voluntario

• Si recogen más de cierto nivel de impuestos, los recaudadores reciben una bonificación

• La pregunta: ¿Cuál es el impacto de ofrecer incentivos sobre la recolección de impuestos?

Inspirado por el estudio: “Tax Farming Redux: Experimental Evidence on Performance Pay for Tax Collectors”, por Adnan Q. Khan, Asim I. Khwaja, and Benjamin A. Olken, 2014, en Pakistan

Contrafactual #1: Inscritos y No inscritos

Si tenemos datos posteriores al tratamiento en :

o Los inscritos: El grupo de tratamiento

o Los no inscritos: El grupo de control (o “contrafactual”)

Los elegibles y los no elegibles al programa.

Los que optan por participar y los que optan por NO participar en el programa.

Sesgo de selección

o La no-inscripción está correlacionada con el resultado ¿Quién es más probable que se inscriba en un programa de este

tipo?

o El impacto estimado se confunde con otros factores.

Contrafactual #1: Inscritos y No Inscritos

¿Cuántos impuestos recolectaron un año después del programa?

Los recaudadores inscritos en el programa $94,000

Los recaudadores NO inscritos $75,000

Diferencia $19,000

¿Cuál es el impacto del programa?

($19,000)

En este caso, estamos usando el valor de los no inscritos como contrafactual.

¿Cómo vemos ese sesgo de selección?

• Los recaudadores que se inscriben son… – Los más capaces – Los más ambiciosos

• Los que no se inscriben son…

– Menos capaces – Menos ambiciosos

• Incluso sin incentivos, ¿quién recogería más

impuestos?

¿COMPARAR INSCRITOS Y NO INSCRITOS?

PORQUE NO SE TOMAN EN CUENTA LAS OTRAS DIFERENCIAS ENTRE LOS DOS GRUPOS

¿Cuál no es el problema con la comparación de inscritos / no inscritos?

1. Los inscritos pueden ser más motivados y crecer más hasta sin el programa

2. Los inscritos reciben el programa

3. Los inscritos pueden tener más necesidad del programa y tener peores resultados en la ausencia del programa

23%

62%

15%

Los inscritos pueden ser más motivados y crecer más hasta sin elprograma

Los inscritos reciben el programa

Los inscritos pueden tener más necesidad del programa y tenerpeores resultados en la ausencia del programa

Contrafactual #2: Regresión discontinua

Programas de lucha contra la pobreza

Pensiones

Becas para funcionarios

Muchos programas sociales seleccionan a los beneficiarios mediante un índice o un punto de referencia:

Destinados a hogares debajo de un determinado índice de pobreza

Destinadas a una población mayor a cierta edad

Destinadas a funcionarios con puntajes altos en pruebas

Ejemplo: Regresión discontinua – Situación inicial

No elegible

Elegible

Resultado

Puntaje

Ejemplo: Regresión Discontinua – Situación después de la intervención

IMPACTO

Resultado

Puntaje

Diseño por regresión discontinua

Tenemos un índice continuo de elegibilidad con un punto definido de corte de elegibilidad. o Localidades con índice ≤ punto de corte son elegibles

o Localidades con índice > punto de corte no son elegibles

o O vice-versa

Intuición para el método: o Unidades arriba del punto de corte son muy similares a las

que están justo abajo – buena comparación

o Comparar resultado Y para las unidades justo arriba y justo abajo del punto de corte

¡EJEMPLO!

Nuestro Caso: Incentivos para impuestos

• Todos los recaudadores toman una prueba de habilidad

• Todos aquellos que sacan menos de 50 están automáticamente inscritos en el programa de incentivos

• Eligibilidad para incentivos:

– Elegible = 1 si puntaje ≤ 50

– Elegible = 0 si puntaje > 50

Caso: Diseño de regresión discontinua Datos iniciales del impuestos antes del tratamiento

Fitte

d v

alu

es

puntaje estimado en focalizacion276 1294

153.578

379.224

Resultado de la prueba

Imp

ue

sto

s re

cole

ctad

os

$150,000

$0

100 0

Fitte

d v

alu

es

puntaje estimado en focalizacion276 1294

183.647

399.51

Caso: Diseño por regresión discontinuidad Datos iniciales del impuestos antes del tratamiento

Co

nsu

mo

V

alo

res

pre

dic

ho

s

$10,000

Impacto estimado sobre los impuestos

$150,000

$0

0 100 Resultado de la prueba

Imp

ue

sto

s re

cole

ctad

os

Para tener en mente (1)

Diseño de discontinuidad Diseño de discontinuidad Se requiere un índice continuo de elegibilidad con un punto de corte bien definido

Se obtiene una estimación sin sesgo del efecto del tratamiento para las observaciones alrededor del punto de corte de elegibilidad (que son comparables).

No se necesita excluir a ningún grupo de localidades o de individuos elegibles.

Se puede utilizar para evaluar programas que ya estén en curso.

!

Para tener en mente (2)

Diseño de discontinuidad Diseño de discontinuidad Se obtiene una estimación local : o Efecto del programa

alrededor del punto de corte

o No siempre generalizable

Poder : o Necesidad de muchas observaciones alrededor del punto de corte de elegibilidad.

!

Si tenemos un índice de pobreza para dar bolsas a municipios, el deseño de discontinuidad identifica el

impacto del programa para

1. El municipio promedio de beneficia del programa

2. El municipio cerca del corte del índice

3. El municipio entre los más pobres (más necesita el programa)

14%

86%

0%

El municipio promedio de beneficia del programa

El municipio cerca del corte del índice

El municipio entre los más pobres (más necesita el programa)

Contrafactual #3: Antes-Después

¿Cuántos impuestos recogieron?

El año después del programa $94,000

El año antes del programa $72,000

Diferencia $22,000

¿Cuál es el impacto del programa?

Contrafactual #3: Antes-Después

¿Cuántos impuestos recogieron?

El año después del programa $94,000

El año antes del programa $72,000

Diferencia $22,000

¿Cuál es el impacto del programa?

($22,000)

En este caso, estamos usando el valor de “antes” como contrafactual.

Otra forma de verlo

$22,000

$72,000

$94,000

2012 2014

¿Cuál es el problema? ¿Qué hubiera sucedido en ausencia del programa?

• Crecimiento económico: – En la ausencia del

programa, habría crecido hasta C

– Menor impacto

• Recesión económica: – En ausencia del programa,

hubiera diminuido hasta D

– Mayor impacto

• No controla por factores que cambian con el tiempo.

$22,000

$72,000

$94,000

2012 2014

C

D

¡Las cosas siempre cambian con el tiempo!

¿COMPARAR ANTES Y DESPUÉS?

PORQUE NO TOMA EN CUENTA TODO LO DEMÁS QUE CAMBIA A TRAVÉS DEL TIEMPO

Si usamos antes-después, el supuesto principal es…

1. No participantes son parecidos a los no participantes

2. El resultado de interés no cambiaría nada en la ausencia del programa

3. El programa es eficaz

15%

77%

8%

No participantes son parecidos a los no participantes

El resultado de interés no cambiaría nada en la ausencia delprograma

El programa es eficaz

Una alternativa mejor Diferencia en diferencia

Diferencia en diferencia: Impacto = (DespuesT-AntesT) – (DespuesC-AntesC)

La diferencia (antes-después) para el grupo de control nos dice “¿Qué hubiera pasado en ausencia del programa?”

¿Cuántos impuestos se recolectaron?

Recaudadores en el programa

Recaudadores de control

Diferencia

El año después del programa

$94,000 $75,000 $19,000

El año antes del programa

$72,000 $69,000 $3,000

Diferencia $22,000 $6,000 $16,000

Diferencia en diferencia Impacto=(A-B)-(C-D)=(A-C)-(B-D)

Can

tid

ad

de im

pu

est

os

T=0 T=1 Tiempo

No inscritos

Inscritos

Impacto=$16,000

¿Cuánto habría

aumentado para los

inscritos si no se

hubieran inscrito?

Nota: Las tendencias

son parecidas antes

del programa

Pre

sen

cia e

sco

lar

T=0 T=1 Tiempo

No

inscritos

Inscritos

Diferencia en diferencia Impacto=(A-B)-(C-D)≠(A-C)-(B-D)

Impacto<$16,000

Imagina si los

inscritos hubieran

crecido más rápido

sin programa

Ahora: Imagina que

no es así

Para tener en mente

Diferencia en diferencia

Diferencia en diferencia: combina antes y después con inscritos y no inscritos.

Tendencia (pendiente): Produce un contrafactual para el cambio en el resultado.

Supuesto Fundamental: Las pendientes son las mismas en los grupos de tratamiento y de control.

Para probar esto, se necesitan por lo menos 3 observaciones en el tiempo : o 2 observaciones antes o 1 observación después

!

¿Qué métodos tenemos hasta ahora?

Impacto del programa

Inscritos – No inscritos $19,000

Diseño de discontinuidad $10,000

Antes-Después $22,000

Diferencia en Diferencia $16,000

En este caso, inscritos-no inscritos y antes-después están sobre-estimando el

impacto por mucho

¿Por qué no nos quedamos con diferencias en diferencias?

• Recuerda el supuesto fundamental: Las tendencias son iguales entre los inscritos y los no inscritos

• Recuerdo: ¿Quién tiene mayor probabilidad de inscribirse en un programa de incentivos?

• ¿Es creíble que tengan la misma tendencia?

– Muchas veces, no

• Diferencias en diferencias solo es creíble en ciertos casos especiales

¿Lo resolvemos con matching?

• Idea: Para cada unidad tratada, escoger la mejor unidad de comparación (par) de una otra fuente de datos.

• ¿Cómo? Los pares son seleccionados con base en similitudes en sus características observables.

• ¿Problema? Si hay características no observables y estas « no-observables » influencían la participación: sesgo de selección!

• ¡EJEMPLO!

¿Lo resolvemos con matching?

• Idea: Para cada unidad tratada, escoger la mejor unidad de comparación (par) de una otra fuente de datos.

• ¿Cómo? Los pares son seleccionados en base de similitudes en las características observadas.

• ¿Problema? Si hay características no observadas y que estas « no-observables » influencian la participación: sesgo de selección!

• ¡EJEMPLO!

En la ausencia de clones

¿Cuál es el mejor escenario contrafactual? (osea, ¿Cuál se aproxima más a crear grupos idénticos?)

DISEÑO ALEATORIO (EXPERIMENTAL)

Diseño aleatorio y experimental

46

• Seleccionar individuos o localidades aleatoriamente para pertenecer al grupo de tratamiento o al de control

• Los grupos de tratamiento y de control tendrán las mismas características (observadas y no observadas), en promedio, así que

• Cualquier diferencia en resultado se debe al programa

¿Por qué funciona la aleatorización?

47

• La aleatorización con dos observaciones no funciona

• Pero las diferencias desaparecen en una muestra grande

• Por promedio, el mismo número de Kamis y Archibaldos – Características observables y no observables

• Resultado: Medir el impacto verdadero del programa

Control Tratamiento

Control Tratamiento

Caso: Aleatorización

El gobierno de Pakistán decide aleatorizar entre los recaudadores que deciden inscribirse

¿Cuántos impuestos recogieron?

Recaudadores en el programa

Recaudadores de control

Diferencia

El año después del programa

$76,000 $69,000 $7,000

El año antes del programa

$71,000 $71,000 $0

Diferencia $5,000 -$2,000 $7,000

Todos nuestros contrafactuales

Impacto del programa

Inscritos – No inscritos $19,000

Diseño de discontinuidad $10,000

Antes-Después $22,000

Diferencias en Diferencias $16,000

Aleatorización $7,000

Para mañana

• ¿En qué casos se puede aleatorizar? (En la mayoría.)

• ¿Cómo se puede implementar la aleatorización?

• ¿Crea problemas políticos?