Inferencia causal y métodos
quasi-experimentales
DAVID EVANS BANCO MUNDIAL
ieGovern Impact Evaluation Workshop Istanbul, Turkey January 27-30, 2015
: #ieGovern
Esta presentación adapta varios diapositivas del Strategic Impact Evaluation Fund (SIEF) y de Sebastian Martinez.
Nuestro objetivo
Calcular el efecto causal de la intervención ____ en el resultado _____.
Ejemplos:
¿Cuál es el efecto de motivar a través de formas distintas (monetaria, elogios) en el desempeño
profesional?
¿Cuál es el efecto de las inspecciones en la velocidad de acabar con casos legales?
La solución
El efecto de dar incentivos a gobiernos locales para mejor los servicios públicos es…
El nivel de servicios públicos con incentivos
El nivel de servicios públicos sin incentivos
¡Gracias por su atención!
Disfruten su tiempo en Istanbul
(Alguien por favor deme un premio por ser el más eficaz al enseñar esto)
Pero esperen…
Si buscamos calcular
¿Alguien puede ver la dificultad al calcular esto?
El nivel de servicios públicos con incentivos
El nivel de servicios públicos sin incentivos
¡Sólo observamos uno!
Archibaldo con incentivo
Tod
a im
ágen
de
Pla
za S
ésam
o p
erte
nec
en a
ella
.
¡Sólo observamos uno!
Y entonces, ¿Qué hacemos?
Archibaldo sin incentivo
Tod
a im
ágen
de
Pla
za S
ésam
o p
erte
nec
en a
ella
.
La solución (de verdad) Calcular lo que hubiera sucedido a Archibaldo en la ausencia del incentivo.
Esto se llama escenario contrafactual.
Archibaldo con incentivo recoge basuras en 80% de los hogares.
Archibaldo sin incentivo recoge basuras de ?? de los hogares.
Otros ejemplos
• Calcular lo que hubiero sucedido con la tasa de impuestos en ausencia de la carta para incentivar el cumpliento de los impuestos
• CLQHS con la recolección de basura en ausencia de programas que fortalezcan los gobiernos sub-nacionales
El mejor escenario contrafactual
1. Usamos un «clon» perfecto
2. Damos el incentivo a uno
3. Esperamos un tiempo
4. Observamos la recolección de basura en cada clon
¿Cuál es el impacto?
Máquina para clonar 55% de hogares 80% de hogares
25% de hogares
En realidad, utilizamos estadísticas
El grupo de tratamiento El grupo control
Promedio de 80% de los hogares
Promedio de 55% de los hogares
¿Cuál es el impacto?
Desafortunadamente…
• No tenemos clones.
• Buscamos el grupo más parecido al clon posible
• El grupo de tratamiento y el contrafactual deben tener
– Las mismas características
– Con excepción de los beneficios
del programa
De nuevo
La única diferencia entre el grupo de tratamiento (o de programa) y el contrafactual (o grupo de control)
debe ser
que un grupo recibe el programa y el otro no
Damos el incentivo a este grupo ¿Cuál sería el mejor grupo de control?
Grupo A Grupo B
¿Qué sería un buen contrafactual para un municipio (Macondo) que se puso de voluntario para un nuevo programa de adquisición?
1. Un municipio que tiene el mismo tamaño pero el alcalde no quiere el programa de adquisición
2. Un municipio en el mismo estado pero con una población mucho mayor
3. Un municipio que se ve igual a Macondo inicialmente, pero después del programa tiene peores servicios
4. Ninguno
31%
0%
46%
23%
Un municipio que tiene el mismo tamaño pero el alcalde noquiere el programa de adquisición
Un municipio en el mismo estado pero con una población muchomayor
Un municipio que se ve igual a Macondo inicialmente, perodespués del programa tiene peores servicios
Ninguno
Estudio de caso
• Un programa en Pakistán da incentivos a los recaudadores de impuestos
• Es un programa voluntario
• Si recogen más de cierto nivel de impuestos, los recaudadores reciben una bonificación
• La pregunta: ¿Cuál es el impacto de ofrecer incentivos sobre la recolección de impuestos?
Inspirado por el estudio: “Tax Farming Redux: Experimental Evidence on Performance Pay for Tax Collectors”, por Adnan Q. Khan, Asim I. Khwaja, and Benjamin A. Olken, 2014, en Pakistan
Contrafactual #1: Inscritos y No inscritos
Si tenemos datos posteriores al tratamiento en :
o Los inscritos: El grupo de tratamiento
o Los no inscritos: El grupo de control (o “contrafactual”)
Los elegibles y los no elegibles al programa.
Los que optan por participar y los que optan por NO participar en el programa.
Sesgo de selección
o La no-inscripción está correlacionada con el resultado ¿Quién es más probable que se inscriba en un programa de este
tipo?
o El impacto estimado se confunde con otros factores.
Contrafactual #1: Inscritos y No Inscritos
¿Cuántos impuestos recolectaron un año después del programa?
Los recaudadores inscritos en el programa $94,000
Los recaudadores NO inscritos $75,000
Diferencia $19,000
¿Cuál es el impacto del programa?
($19,000)
En este caso, estamos usando el valor de los no inscritos como contrafactual.
¿Cómo vemos ese sesgo de selección?
• Los recaudadores que se inscriben son… – Los más capaces – Los más ambiciosos
• Los que no se inscriben son…
– Menos capaces – Menos ambiciosos
• Incluso sin incentivos, ¿quién recogería más
impuestos?
¿COMPARAR INSCRITOS Y NO INSCRITOS?
PORQUE NO SE TOMAN EN CUENTA LAS OTRAS DIFERENCIAS ENTRE LOS DOS GRUPOS
¿Cuál no es el problema con la comparación de inscritos / no inscritos?
1. Los inscritos pueden ser más motivados y crecer más hasta sin el programa
2. Los inscritos reciben el programa
3. Los inscritos pueden tener más necesidad del programa y tener peores resultados en la ausencia del programa
23%
62%
15%
Los inscritos pueden ser más motivados y crecer más hasta sin elprograma
Los inscritos reciben el programa
Los inscritos pueden tener más necesidad del programa y tenerpeores resultados en la ausencia del programa
Contrafactual #2: Regresión discontinua
Programas de lucha contra la pobreza
Pensiones
Becas para funcionarios
Muchos programas sociales seleccionan a los beneficiarios mediante un índice o un punto de referencia:
Destinados a hogares debajo de un determinado índice de pobreza
Destinadas a una población mayor a cierta edad
Destinadas a funcionarios con puntajes altos en pruebas
Diseño por regresión discontinua
Tenemos un índice continuo de elegibilidad con un punto definido de corte de elegibilidad. o Localidades con índice ≤ punto de corte son elegibles
o Localidades con índice > punto de corte no son elegibles
o O vice-versa
Intuición para el método: o Unidades arriba del punto de corte son muy similares a las
que están justo abajo – buena comparación
o Comparar resultado Y para las unidades justo arriba y justo abajo del punto de corte
¡EJEMPLO!
Nuestro Caso: Incentivos para impuestos
• Todos los recaudadores toman una prueba de habilidad
• Todos aquellos que sacan menos de 50 están automáticamente inscritos en el programa de incentivos
• Eligibilidad para incentivos:
– Elegible = 1 si puntaje ≤ 50
– Elegible = 0 si puntaje > 50
Caso: Diseño de regresión discontinua Datos iniciales del impuestos antes del tratamiento
Fitte
d v
alu
es
puntaje estimado en focalizacion276 1294
153.578
379.224
Resultado de la prueba
Imp
ue
sto
s re
cole
ctad
os
$150,000
$0
100 0
Fitte
d v
alu
es
puntaje estimado en focalizacion276 1294
183.647
399.51
Caso: Diseño por regresión discontinuidad Datos iniciales del impuestos antes del tratamiento
Co
nsu
mo
V
alo
res
pre
dic
ho
s
$10,000
Impacto estimado sobre los impuestos
$150,000
$0
0 100 Resultado de la prueba
Imp
ue
sto
s re
cole
ctad
os
Para tener en mente (1)
Diseño de discontinuidad Diseño de discontinuidad Se requiere un índice continuo de elegibilidad con un punto de corte bien definido
Se obtiene una estimación sin sesgo del efecto del tratamiento para las observaciones alrededor del punto de corte de elegibilidad (que son comparables).
No se necesita excluir a ningún grupo de localidades o de individuos elegibles.
Se puede utilizar para evaluar programas que ya estén en curso.
!
Para tener en mente (2)
Diseño de discontinuidad Diseño de discontinuidad Se obtiene una estimación local : o Efecto del programa
alrededor del punto de corte
o No siempre generalizable
Poder : o Necesidad de muchas observaciones alrededor del punto de corte de elegibilidad.
!
Si tenemos un índice de pobreza para dar bolsas a municipios, el deseño de discontinuidad identifica el
impacto del programa para
1. El municipio promedio de beneficia del programa
2. El municipio cerca del corte del índice
3. El municipio entre los más pobres (más necesita el programa)
14%
86%
0%
El municipio promedio de beneficia del programa
El municipio cerca del corte del índice
El municipio entre los más pobres (más necesita el programa)
Contrafactual #3: Antes-Después
¿Cuántos impuestos recogieron?
El año después del programa $94,000
El año antes del programa $72,000
Diferencia $22,000
¿Cuál es el impacto del programa?
Contrafactual #3: Antes-Después
¿Cuántos impuestos recogieron?
El año después del programa $94,000
El año antes del programa $72,000
Diferencia $22,000
¿Cuál es el impacto del programa?
($22,000)
En este caso, estamos usando el valor de “antes” como contrafactual.
¿Cuál es el problema? ¿Qué hubiera sucedido en ausencia del programa?
• Crecimiento económico: – En la ausencia del
programa, habría crecido hasta C
– Menor impacto
• Recesión económica: – En ausencia del programa,
hubiera diminuido hasta D
– Mayor impacto
• No controla por factores que cambian con el tiempo.
$22,000
$72,000
$94,000
2012 2014
C
D
¡Las cosas siempre cambian con el tiempo!
Si usamos antes-después, el supuesto principal es…
1. No participantes son parecidos a los no participantes
2. El resultado de interés no cambiaría nada en la ausencia del programa
3. El programa es eficaz
15%
77%
8%
No participantes son parecidos a los no participantes
El resultado de interés no cambiaría nada en la ausencia delprograma
El programa es eficaz
Una alternativa mejor Diferencia en diferencia
Diferencia en diferencia: Impacto = (DespuesT-AntesT) – (DespuesC-AntesC)
La diferencia (antes-después) para el grupo de control nos dice “¿Qué hubiera pasado en ausencia del programa?”
¿Cuántos impuestos se recolectaron?
Recaudadores en el programa
Recaudadores de control
Diferencia
El año después del programa
$94,000 $75,000 $19,000
El año antes del programa
$72,000 $69,000 $3,000
Diferencia $22,000 $6,000 $16,000
Diferencia en diferencia Impacto=(A-B)-(C-D)=(A-C)-(B-D)
Can
tid
ad
de im
pu
est
os
T=0 T=1 Tiempo
No inscritos
Inscritos
Impacto=$16,000
¿Cuánto habría
aumentado para los
inscritos si no se
hubieran inscrito?
Nota: Las tendencias
son parecidas antes
del programa
Pre
sen
cia e
sco
lar
T=0 T=1 Tiempo
No
inscritos
Inscritos
Diferencia en diferencia Impacto=(A-B)-(C-D)≠(A-C)-(B-D)
Impacto<$16,000
Imagina si los
inscritos hubieran
crecido más rápido
sin programa
Ahora: Imagina que
no es así
Para tener en mente
Diferencia en diferencia
Diferencia en diferencia: combina antes y después con inscritos y no inscritos.
Tendencia (pendiente): Produce un contrafactual para el cambio en el resultado.
Supuesto Fundamental: Las pendientes son las mismas en los grupos de tratamiento y de control.
Para probar esto, se necesitan por lo menos 3 observaciones en el tiempo : o 2 observaciones antes o 1 observación después
!
¿Qué métodos tenemos hasta ahora?
Impacto del programa
Inscritos – No inscritos $19,000
Diseño de discontinuidad $10,000
Antes-Después $22,000
Diferencia en Diferencia $16,000
En este caso, inscritos-no inscritos y antes-después están sobre-estimando el
impacto por mucho
¿Por qué no nos quedamos con diferencias en diferencias?
• Recuerda el supuesto fundamental: Las tendencias son iguales entre los inscritos y los no inscritos
• Recuerdo: ¿Quién tiene mayor probabilidad de inscribirse en un programa de incentivos?
• ¿Es creíble que tengan la misma tendencia?
– Muchas veces, no
• Diferencias en diferencias solo es creíble en ciertos casos especiales
¿Lo resolvemos con matching?
• Idea: Para cada unidad tratada, escoger la mejor unidad de comparación (par) de una otra fuente de datos.
• ¿Cómo? Los pares son seleccionados con base en similitudes en sus características observables.
• ¿Problema? Si hay características no observables y estas « no-observables » influencían la participación: sesgo de selección!
• ¡EJEMPLO!
¿Lo resolvemos con matching?
• Idea: Para cada unidad tratada, escoger la mejor unidad de comparación (par) de una otra fuente de datos.
• ¿Cómo? Los pares son seleccionados en base de similitudes en las características observadas.
• ¿Problema? Si hay características no observadas y que estas « no-observables » influencian la participación: sesgo de selección!
• ¡EJEMPLO!
En la ausencia de clones
¿Cuál es el mejor escenario contrafactual? (osea, ¿Cuál se aproxima más a crear grupos idénticos?)
DISEÑO ALEATORIO (EXPERIMENTAL)
Diseño aleatorio y experimental
46
• Seleccionar individuos o localidades aleatoriamente para pertenecer al grupo de tratamiento o al de control
• Los grupos de tratamiento y de control tendrán las mismas características (observadas y no observadas), en promedio, así que
• Cualquier diferencia en resultado se debe al programa
¿Por qué funciona la aleatorización?
47
• La aleatorización con dos observaciones no funciona
• Pero las diferencias desaparecen en una muestra grande
• Por promedio, el mismo número de Kamis y Archibaldos – Características observables y no observables
• Resultado: Medir el impacto verdadero del programa
Control Tratamiento
Control Tratamiento
Caso: Aleatorización
El gobierno de Pakistán decide aleatorizar entre los recaudadores que deciden inscribirse
¿Cuántos impuestos recogieron?
Recaudadores en el programa
Recaudadores de control
Diferencia
El año después del programa
$76,000 $69,000 $7,000
El año antes del programa
$71,000 $71,000 $0
Diferencia $5,000 -$2,000 $7,000
Todos nuestros contrafactuales
Impacto del programa
Inscritos – No inscritos $19,000
Diseño de discontinuidad $10,000
Antes-Después $22,000
Diferencias en Diferencias $16,000
Aleatorización $7,000