amostragem para avaliações do impacto de programas
DESCRIPTION
Vincenzo di Maro. Amostragem para Avaliações do Impacto de Programas. Introdução. Como é que desenhamos uma amostra para detectar de uma forma credível um efeito significativo? Em que populações ou grupos estamos interessados e aonde é que conseguimos encontrá-los? - PowerPoint PPT PresentationTRANSCRIPT
Global Workshop onDevelopment Impact Evaluation
in Finance and Private SectorRio de Janeiro, June 6-10, 2011
Amostragem paraAvaliações do Impacto de Programas
Vincenzo di Maro
1
Introdução
Como é que desenhamos uma amostra para detectar de uma forma credível um efeito significativo?
Em que populações ou grupos estamos interessados e aonde é que conseguimos encontrá-los?
Quantas pessoas/empresas/unidades devem ser entrevistadas/analisadas dessa população?
De que forma é que o tamanho da amostra afecta o orçamento da avaliação?
2
Sumário
1. Base da amostragem Que populações ou grupos estamos
interessados Como é que conseguimos encontrá-los?
2. Tamanho da amostra Porque é tão importante: confiança nos
resultados Determinantes do tamanho apropriado da
amostra Outras questões Exemplos
3. Orçamentos3
Base de amostragem
Em quem é que estamos interessados?a) Todas as PMEs?b) Todas as PMEs formais?c) Todas as PMEs formais num sector específico?d) Todas as PMEs formais num sector específico numa
região em particular?
É preciso ter em consideração a validade externa Consegue-se com os resultados da população (c)
retirar ilações para programas de apoio a empresas informais noutro sector?
Consegue-se com os resultados da população (d) retirar ilações para as políticas públicas do país?
Mas é preciso ter em conta a viabilidade e o que queremos saber Pode não ser possível ou desejável fazer um piloto
muito genérico de um programa ou de uma política4
Base de amostragem: Encontrar as unidades em que estamos interessados
Depende do tamanho e do tipo de experiência Sorteio entre os aplicantes
Exemplo: Programa de Serviços de Apoio ao Desenvolvimento de Negócio entre empresas informais de uma área específica
Podemos utilizar unidades de tratamento e comparação da pool de aplicantes
Se não é possivel (50,000 recebem o tratamento), é necessário uma amostra para medir o impacto
Alteração de política Exemplo: Alteração em distritos seleccionados aleatoriamente
das regras de registro das empresas Para medir o impacto nos lucros, não se pode criar uma amostra
de todos os negócios informais nos distritos de tratamento e de comparação
É necessário uma amostra de empresas dentro dos distritos
Informação necessária antes da amostragem Listagem completa de todas as unidades de observação
disponíveis para amostragem em cada área ou grupo Pode ser complicado para unidades como seja o caso de
empresas informais, mas existem técnicas para resolver este problema 5
Sumário
1. Base da amostragem Que populações ou grupos estamos
interessados? Como é que conseguimos encontrá-los?
2. Tamanho da amostra Porque é tão importante: confiança nos
resultados Determinantes do tamanho apropriado da
amostra Outras questões Exemplos
3. Orçamentos6
Tamanho da amostra e confiança
Comece com uma questão mais simples que o impacto do programa
Digamos que queremos saber a média dos lucros anuais de uma PME em Rio Opção 1: Saímos à rua e procuramos 5
empresários, aos quais calculamos a média das suas respostas.
Option 2: Obtemos 1000 empresários e calculamos a média das suas respostas.
Que média estará mais perto da verdadeira média?
7
Tamanho da amostra e confiança:
5 empresas 1,000 empresas
8
Lucros No de empresas$0 - $1,000 1$ 1,001 -$5,000 2$5,001-10,000 1$10,001, - $15,000 0$15,001 + 1
Lucros No de empresas$0 - $1,000 70$ 1,001 -$5,000 150$5,001-10,000 650$10,001, - $15,000 125$15,001 + 5
Tamanho da amostra econfiança
Da mesma forma, quando calculamos o impacto do programa Necessitamos de muitas observações para dizermos com
confiança se o resultado médio do grupo de tratamento é superior/inferior ao do grupo de comparação
O que significa com confiança? Minimizar o erro estatístico
Tipos de erros Erro tipo 1: Dizemos que há um impacto do programa
quando na realidade não existe Erro tipo 1 : Existe um impacto do programa mas não
conseguimos detectá-lo
9
Tamanho da amostra econfiança
Erro tipo 1: Detectar um impacto do programa quando não existe Erro pode ser minimizado depois da recolha de dados, durante
a fase de análise estatística Necessário ajustar os níveis de significado das estimativas de
impacto (ex. Intervalos de confiança de 99% ou 95%)
Erro tipo 2: não se consegue detectar que de facto há um impacto do programa Na gíria: teste estatístico tem um poder baixo Erro tem de ser minimizado antes da recolha de dados Melhor forma de garantir isso: Assegurar que se tem uma
amostra suficientemente grande
O objetivo da avaliação do impacto do programa é aprender alguma coisa Ex-ante: não sabemos qual a dimensão do impacto do
programa Ex-post com poder baixo: Este programa pode ter aumentado
os lucros das empresas em 50%, mas não conseguimos distinguir com confiança a diferença entre um aumento de 50% de um aumento de zero
10
Calcular o tamanho da amostra
Na realidade, há uma formula. Mas não fique assustado.
Principais aspectos a ter em conta:1. Tamanho suficiente para detectar o
efeito2. Probabilidade de erros tipo 1 e tipo 23. Variância dos resultado(s)4. Unidades (empresas, bancos) por área
tratada
11
)1(1)(4
2
22/
2
H
D
zzN
Calcular o tamanho da amostra
Tamanho suficiente para detectar o efeito O efeito mínimo que queremos distinguir de zero
Aumento de 30% nas vendas, uma queda em 25% nos subornos
Amostras maiores mais fácil detectar efeitos menores
Trabalham as mulheres e os homens o mesmo número de horas? Hipótese: Em média, as mulheres trabalham 40 horas por
semana, enquanto que os homens trabalham 44 horas por semana
Se estes dados são resultado de uma amostra de 10 mulheres e 10 homens É díficil dizer que são diferentes Sería mais fácil dizer que são diferentes se as mulheres
trabalhassem 30 horas por semana e os homens 80 horas por semana
Mas se os dados resultam de uma amostra de 500 mulheres e 500 homens Mais provável que sejam de facto diferentes
12
Calcular o tamanho da amostra
Como é que escolhemos o tamanho do efeito detectável? O efeito mínimo que implicaría uma
resposta política O efeito mínimo que permitiria dizer que o
programa não foi um falhanço Este programa aumentou as vendas em 40% e
este efeito é significativo do ponto de vista estatístico Óptimo - Vamos pensar como é que conseguimos
expandi-lo Este programa aumentou as vendas em 10% e
este efeito é significativo do ponto de vista estatístico Óptimo….oops..espera aí: gastamos este dinheiro todo e
apenas aumentou as vendas 10%?
13
Calcular o tamanho da amostra
Erro tipo 1 e erro tipo 2 Tipo 1
Nível de significado das estimativas é normalmente estabelecido a 1% ou 5%
1% ou 5% é a probabilidade de não existir impacto no cenário em que acreditamos que encontrámos um efeito
Tipo 2 Poder normalmente colocado a 80% ou 90% 20% ou 10% é a probabilidade que haja um efeito
que não conseguimos detectar Amostras maiores maior poder
14
Calcular o tamanho da amostra
Variância dos resultado(s) Menor variância mais fácil detectar a diferença
pode-se ter uma amostra menor
15
Calcular o tamanho da amostra
Variância de resultados Como é que sabemos a variância dos
resultados antes de decidirmos o tamanho da amostra e recolhermos os dados? O ideal é dados prévios, mas normalmente
….são não-existentes Pode-se usar dados prévios de uma população
semelhante Exemplo: inquéritos a empresas, inquéritos ao
mercado laboral
Torna isto um pouco um trabalho de adivinhação, não exactamente uma ciência
16
Outras questões
1. Braços de tratamento múltiplos2. Resultados desagregados por grupos3. Adesão4. Qualidade dos dados
17
Outras questões
Braços de tratamento múltiplos Compara-se cada tratamento separadamente com o
grupo de comparação Comparar grupos de tratamento implica amostras
muito grandes Especialmente se os tratamentos forem parecidos, as
diferenças entre os grupos de tratamento serão provavelmente menores
De facto, é como corrigir um tamanho do efeito detectável muito pequeno
Resultados desagregados por grupos São os efeitos diferentes para homens e mulheres?
E para diferentes sectores? Se o sexos/sectores são esperados reagir de uma
forma semelhante, então estimar as diferenças no impacto do tratamento também requer amostras muito grandes 18
19
Quem é mais alto? Detectar diferenças menores é mais difícil
Outras questões
Resultados desagregados por grupos Para garantir equilíbrio entre os grupos de
tratamento e de comparação, é aconselhavel estratificar a amostra antes de alocar o grupo de tratamento
Estratos Sub-populações Estratos habituais: localização, sexo, sector,
valores iniciais do resultado de interesse Alocação ao grupo de tratamento(ou
amostragem) é efectuada dentro destes grupos 20
Porque é que necessitamosde estratos?
Exemplo de estratos com base na região
= T = C
Porque é que necessitamosde estratos?
Qual é o impacto numa região em particular? Por vezes é dificil de dizer com confiança
Porque é que necessitamosde estratos?
Randomização do tratamento dentro das unidades geográficas
Dentro de cada tratamento, ½ sera tratada, ½ será do grupo de comparação.
Lógica semelhante para sexos, sector, tamanho da empresa, etc
Outras questões
Adesão Adesão baixa aumenta o tamanho do efeito
detectável Só se consegue detectar um efeito se for
realmente grande Na prática diminui o tamanho da amostra
Exemplo: Oferecer subsídios a PMEs na forma de serviços de apoio ao desenvolvimento do negócio Oferta a 5,000 empresas Apenas 50 participam Provavelmente só se consegue dizer com
confiança que há um efeito nas vendas se elas se tornarem parte das empresas do Fortune 500 24
Outras questões
Qualidade dos dados Dados de pouca qualidade aumentam na
prática o tamanho da amostra necessário Observações em falta Aumento do ruído
Pode ser mitigado em parte com um coordenador no terreno a monitorizar a recolha de dados
25
Exemplo do Gana
Cálculos podem ser efectuados em vários pacotes estatísticos – e.g. STATA, OD
Experiência no Gana para aumentar os lucros de micro-empresas
Lucros base 50 cedi por mês. Dados dos lucros com ruído, o que leva a que o
coeficiente de variação maior >1 seja habitual.
Exemplo do código em STATA para detectar um aumento de 10% dos lucros: sampsi 50 55, p(0.8) pre(1) post(1) r1(0.5) sd1(50)
sd2(50) Ter dados antes e depois da intervenção diminui o
tamanho da amostra necessário (pre e post)26
Exemplo do Gana
Resultados Aumento de 10% (de 50 para 55): 1,178 empresas
em cada grupo Aumento de 20% (de 50 para 60): 295 empresas
em cada grupo Aumento de 50% (de 50 para 75): 48 firms in each
group (Mas este efeito não é realista)
E se a adesão for apenas de 50% Oferecemos formação que aumenta os lucros em
20%, mas apenas metade das empresas o cumprem.
Média para o grupo de tratamento = 0.5*50 + 0.5*60 = 55
Equivalente a detectar um aumento de 10% com uma adesão de 100% necessário 1,178 em cada grupo em vez de 295 em cada grupo
27
Sumário
1. Base da amostragem Que populações ou grupos estamos
interessados Como é que conseguimos encontrá-los?
2. Tamanho da amostra Porque é tão importante: confiança nos
resultados Determinantes do tamanho apropriado da
amostra Outras questões Exemplos
3. Orçamentos28
Orçamentos
O que é necessário?
Recolha de dados Empresa de inquéritos Entrada dos dados
Coordenador no terreno para garantir que o tratamento está de acordo com o protocolo de randomização e para monitorizar a recolha de dados
Análise de dados29
Orçamentos
Quanto é que tudo custa? Varia muito. Normalmente depende do
Tamanho da amostra Facilidade de encontrar inquiridos Dispersão geográfica dos inquiridos Questões de segurança Empresas formais vs informais Nível de formação do entrevistador Et cetera….
Dados para um inquérito a empresas:$40-350/empresa
Dados para um inquérito a lares: $40+/lar Coordenador no terreno: $10,000-$40,000/ano
Depende se se consegue um coordenador local Dados administrativos: Normalmente grátis
Por vezes tem resultados limitados, pode não ter informação sobre o sector informal
30
O dinheiro pode comprar o poder!
31
Budget $10,000 $25,000 $37,000 $49,000
Firms 8 7 8 7
Clusters 55 147 205 294
Total obs 440 1029 1640 2058
Power .3 .64 .8 .9
Orçamentos
Em resumo
O tamanho da amostra da avaliação do impacto do programa vai determinar quanto é que se pode aprender da experiência
Algum bom senso e adivinhação nos cálculos mas é importante despender tempo nestes cálculos Se a amostra é muito pequena: perda de
tempo e dinheiro porque não seremos capazes de detectar com confiança um impacto não-nulo
Se é posto pouco esforço na amostragem e na recolha de dados: Ver acima.
Questões? 32