opinión pública y análisis de encuestas david crow, associate director uc riverside, survey...

Opinión Pública y Análisis de Encuestas

David Crow, Associate DirectorUC Riverside, Survey Research Center

[email protected]

Módulo IV: Teoría y práctica de muestreomiércoles 7 de julio de 2010

Populations and Samples• Define the group of people to be studied

- Characteristics: geography? age? gender? - Should be population suited to study of research question

• Samples: Representative Subset of Population- Who should be interviewed? Population or sample? - How many interviews are necessary?

• Larger is more representative and gives a more precise estimate, but costs more

• Are subgroups important? oversampling• Depends on research question:

elections 900 to 1,500drug trials often as few as 200

• Modes of contact: 1) face-to-face; 2) SAQ (pencil and paper or on Web); 3) telephone

A Closer Look at Sampling (Weisberg, Chap. 3)

• Sampling: estimating a population quantity based on a subset of that population

• Sampling Frame: list of population elements (or units)

Coverage: the degree of correspondence between the population to be studied and the sampling frame

Coverage error: when not all population elements are in the sampling frame, or when the sampling frame includes some units not in the population

Probability vs. Non-Probability• Probability sample: when every element in the

population has a known probability of being selected into the sample

Equal probability (equiprobable, epsem) sample: every element in the population has an equal chance of being sampled

Non-equal probability: some elements might have a greater chance than others, e.g., “dual frame” samples where there is overlap between the two frames

• Non-probability sample: methods in which it is difficult or impossible to know a unit’s probability of being sampled less scientific

Non-Probability Sample• “Typical”: sample of units that the researcher considers especially

representative, according to census data no guarantee that these people’s attitudes are representative

• Purposive: deliberately selecting sample based on possession of characteristic under study; not necessarily representative, but important people e.g., elite decision-makers

• Volunteer (Convenience): people choose to participate in study possibility of “selection bias”; people who are interested or have strong opinions choose to participate

• Haphazard: Based on ease of contact, e.g., “intercept-point” sampling (contacting people at places where they work, shop, etc.) useful for sampling rare populations, but no guarantee of representativeness

• Quota: interviewers are assigned numerical targets based on demographic proportions

Probability Sample• Simple Random Sample (SRS): choose randomly from a listeasiest,

most straightforward, but need a good list

• Systematic: define interval n, choose random seed and select every nth person on list problems: 1) list might not correspond to population; 2) periodicity; 3) no sampling of adjacent units could omit important units

• Stratified: divide sample into subgroups (strata), sample randomly (or systematically from subgroups) not always possible to obtain lists for subgroups or to classify list elements into strata; advantage: increases accuracy

• Cluster Sample: multi-stage sampling; define primary sampling units (PSUs); first stage is sampling PSUs, then sample from within PSUs probability proportional to size (PPS): probability of PSU appearing in sample is proportional to the number of units in the first-stage units; advantage: decreases cost

Phone Surveys

• Random Digit Dialing (RDD): PSU is “phone exchange” (six digit combination of area code and prefix) select exchanges known to have working numbers, plus one or two digits OF “suffix” (last four numbers), then randomly sample from remaining digits (Waksberg method, “100” RDD: last two digits, “1000” RDD: last three digits).

• Call Dispositions: list of predefined outcomes (completed interview, busy, no answer, refusal, hang-up) interviewer records call disposition on answer sheet

• Computer-Aided Telephone Interview (CATI): software that manages sample, releases it to callers, and provides template for interviewing respondents

• Cell Phone Only Challenge: land line subscriptions are declining, people increasingly using cell phones as only method of phone contact (15% - 20%)

Problems & Challenges• Rare Populations: “needle in a haystack” problem; expensive

to reach solutions: 1) two-phase sampling (broad sample to screen for population, follow-up with people identified); 2) network, snowball, or chain referral sampling, interviewees recommend other people; 3) targeted cluster sampling of census tracts with high proportions of rare population

• Exit Polls: interview people leaving polling place, usually combination of quota and systematic sample “gold standard”, but there are problems; e.g., absentee ballots, self-selection bias

• Wrong Population Sampled: Population sampled from does not correspond to population under study e.g., college students vs. “college-age” people, probable voters vs. adult citizens

Muestreo simple aleatorio(Simple Random Sample, SRS)

• Marco muestral: enumeración de todos los elementos de la población que se quiere estudiar

• Tamaño de la población: N• Tamaño de la muestra: n• SRS: Como colocar papelitos para cada uno los N elementos de la

población y sacar de ellas los n elementos que saldrán en la muestraFormalmente, una muestra aleatoria simple es aquella en la que todos los posibles subconjuntos de n elementos distintos tienen una probabilidad igual de seleccionarse implica que cada elemento n tiene una probabilidad igual de resultar seleccionado

• Epsem: métodos en los que todos los elementos tienen una probabilidad igual de selección se conocen como “epsem” (equal probability selection method)

Estimadores para media y varianza bajo SRS

• Media: promedio aritmético

• Varianza (Var o V, variance): el cuadrado de la distancia promedio de un elemento típico de la media

• Desviación típica (sd, standard deviation): la distancia promedio de un elemento “típico” de la media; raíz cuadrada de varianza

Error estándar• Error estándar: la raíz cuadrada de la varianza de medias arrojadas por

muestras repetidas alrededor de la media de la población:

donde f = n/N (la fracción de muestreo) y (1 – f) es un factor de corrección para poblaciones finitas.

Margin de error• Margin de error (intervalo de confianza): intervalo alrededor de la media

de la población dentro del cual el x% (p.e., 95% o 99%) de las medias estimadas por una muestra caerán

• ¿Por qué 1.96? Este número corresponde a un nivel de confianza del 95% porque el 95% de la distribución normal (curva de campana) se ubica dentro de 1.96 desviaciones típicas alrededor de la media. Es decir, tenemos una confianza del 95% que la media de la población cae dentro del intervalo de confianza. Si el nivel de confianza deseado fuera 99%, el factor de multiplicación sería 2.58.

Ejemplo de margin de error• n = 1,200• media = 5.2• sd = 1.2• Var = 1.44

Propiedades de estimadores• Estimador se le dice a la fórmula que se usa para estimar una cantidad que

nos interesa y estimación, del resultado de la aplicación de esta fórmula• Muestreo Repetido: Las propiedades de estimadores estadísticos se

derivan teóricamente de muestras repetidos un número infinito de veces• Precisión (eficiencia): un estimador se dice precisa si arroja la menor

varianza posible• Consistencia: un estimador se dice consistente si al incrementar el

tamaño de la muestra hacia infinidad la estimación converge al valor de la población:

• No sesgado (unbiased): un estimador se dice no sesgado si el valor esperado de la estimación es igual al valor del parámetro de la población

Muestreo sistemático• Muestra sistemática: se selecciona cada ko elemento después de un

arranque aleatorio• Intervalo de muestreo: se divide el tamaño de la población entre el

tamaño de la muestra; el resultado es el intervalo de muestreo• Arranque aleatorio: número seleccionado aleatoriamente entre 1 y el

intervalo de muestreo

p.e. N = 2,000, n=200intervalo = 10arranque aleatorio = 7muestra = 7, 17, 27 …

• Ventajas: es fácil, garantiza que elementos contiguos no se seleccionarán, es epsem (aunque una vez seleccionado el primer elemento, no todos los conjuntos tienen la misma probabilidad de selección)

Muestreo estratificado• Estratificación: La población se divide en subgrupos basados en

características observables, como pueden ser sexo, categorías de edad, región, raza, etc.

• Muestra estratificada: – Se determinan los estratos– Se lleva a cabo una muestra (usualmente SRS) dentro de cada estrato por separado

• Ventaja: la investigadora controla no sólo el tamaño total de la muestra, pero también de subpoblaciones relevantes. Esto permite que pueda haber un número suficiente dentro de cada estrato para estimaciones precisas. Incluso, estimaciones globales son muchas veces más precisas que las arrojadas por SRS.

• Selección de estratos: para hacer una muestra estratificada, 1) las proporciones en la población deben ser conocidas para cada estrato y 2) debe ser posible realizar una muestra dentro de cada estrato

Fracción de muestreo• Fracción de muestreo: la proporción de cada estrato que será

seleccionada

donde h indexa el estrato

• Muestreo estratificado proporcional: la fracción de muestreo es igual entre todos los estratos

• Muestreo estratificado desproporcional: la fracción de muestreo no es igual entre todos los estratos; p.e., un sobremuestreo de una subpoblación pequeña que deseamos estudiar más a fondo

Estimadores para media y varianza bajo muestreo estratificado

• Media: suma ponderada de medias de cada estrato

donde y , o sea, el ponderador W es la proporción de la población en cada estrato h y los ponderadores suman 1.

• Varianza: suma de varianza ponderada de cada estrato

Muestreo por conglomerados (multietápico)(Multi-stage Cluster Sampling)

• Intuición: Así como en muestras estratificadas, se divide la población en grupos. A diferencia, los grupos usualmente son demarcaciones geográficas y se hace una selección de grupos además de una selección dentro de cada grupo

• Conglomerado (cluster): un grupo de personas que comparten cierta característica—en muestreo, ésa es que casi siempre viven en la misma área geográfica

• Unidad primaria de muestreo (UPM) (primary sampling unit, PSU): tipo de área geográfica que se selecciona en la primera etapa del muestreo

• Unidad última de muestreo (final sampling unit): elemento de muestra que se selecciona en la última etapa

• Probabilidad de selección: Pr(B|A)*Pr(A), donde B es, p.e., una persona y A es una sección electoral.

Aspectos de muestreo por conglomerados

• Costo: entrevistas en el hogar son muy caras de llevar a cabo; si se concentran en unas cuantas zonas geográficas

• Más complicado desde el punto de vista de estimación:– Las medias de cada conglomerado se distribuyen en torno a la media

global; a su vez, los valores para los elementos en cada conglomerado se distribuyen en torno a la media específica para ese conglomerado, de manera que la estimación debe dar cuenta de la variabilidad tanto entre conglomerados como dentro de cada conglomerado

• Puesto que hay dos fuentes de variabilidad (entre los conglomerados y al interior de ellos) los estimadores son casi siempre menos eficientes (precisos) que los de SRS.

Coeficiente de correlación intraclase(Intra-class Correlation Coefficient)

• Mide la variabilidad entre los conglomerados como proporción de la variabilidad total (esto es, variabilidad

donde σ es la desviación típica de medias de los conglomerados de la media global y τ es la desviación típica de y en torno a las medias de los conglomerados

p.e., 1.2 / 1.2+0.3 = 0.8 = 80%o sea, el 80% de la variabilidad es entre conglomerados

Media y varianza bajo muestreo por conglomerados

• Media:del conglomerado:

donde i indexa el sujeto y j, el conglomerado y nj es el numero de sujetos en conglomerado j

global: ,

que para conglomerados de tamaño igual se simplifica a: donde J es el número de conglomerados.

• Varianza para conglomerados de tamaño igual:

donde

Efecto de diseño(Design Effect)

• Muestreo por conglomerado aumenta la varianza, relativo a un diseño SRS.

• Efecto de diseño:

Muestreo probabilidad proporcional al tamaño (PPT)(Probabilidad Proportional to Size, PPS)

• Cuando los conglomerados son de tamaño desigual, un diseño común es seleccionar los conglomerados con una probabilidad proporcional a su tamaño, o sea, que conglomerados más grandes tienen una mayor probabilidad de selección

• Esto se efectúa– asignando números a cada conglomerado (o sea, si el primer conglomerado

tiene 100 elementos, se le asignan los números 1 a 100, si el segundo tiene 50, se le asignan 101 a 150, etc.)

– Luego se divide el tamaño total de la muestra entre el número de conglomerados que se seleccionarán para determinar un intervalo de muestreo

– Y se lleva a cabo un muestreo sistemático; los conglomerados seleccionados corresponden al número del sujeto que sale en la muestra sistemática

opinión pública y análisis de encuestas david crow, associate director uc riverside, survey...

Documents