estadÍstica descriptiva (medidas de tendencia …...(medidas de tendencia central y dispersión)...
TRANSCRIPT
TÉCNICAS DE ANÁLISIS ESTADÍSTICO
ESTADÍSTICA DESCRIPTIVA(Medidas de tendencia central y dispersión)
TABLA DE CONTINGENCIA Y ANÁLISIS PORCENTUALES (Diferencias porcentuales, perfiles y segmentos)
CIRCUITO DEL PROCESO DE INVESTIGACIÓN
PLANTEO DE PROBLEMAS (OBJETIVOS)
ESTRATEGIA DE INVESTIGACIÓN � MUESTRA
� DISEÑO
� RELEVAMIENTO DE INFORMACION
PROCESAMIENTO Y ANÁLISIS DE
DATOS
ELABORACIÓN DE RESULTADOS
REVISIÓN DE HALLAZGOS
Relevamiento de la información
Muestra / Organización / Trabajo de campo
Supervisión de la calidad de la información
Codificación y Análisis de datos e interpretación de resultados
Aplicación de Técnicas de Análisis
BASE DE DATOS
DADO UN DISEÑO DE INVESTIGACIÓNBASADO EN ENCUESTAS
FORMULACIÓN DE HIPÓTESIS, ELABORACIÓN DE LA MUESTRA Y EL INSTRUMENTODE LA MUESTRA Y EL INSTRUMENTO
APLICACIÓN DE CUESTIONARIO
CODIFICACIÓN, PROCESAMIENTO Y CARGA DE INFORMACIÓN
LOS TRES COMPONENTES DE UNA BASE DE DATOS
N° V1 V2 V3 V4 V5 V.n
1 20
Registro (casos) Atributo (variables)
1 20
2
3
4
5
6
Valor (categorías)
¿A qué se denomina Unidad de Análisis?
UNIDAD DE OBSERVACIÓN DEL ESTUDIO
(los registros pueden ser de diversa naturaleza, dependiendo de los objetivos del estudio)
REGISTROS: UNIDADES DE OBSERVACIÓN
Ej: personas, familias, empresas, escuelas, países, etc.
El número de registros está dado por el tamaño de lamuestra de la población objeto de estudio.
VARIABLES: ATRIBUTOS DE LA POBLACIÓN
Propiedades o atributos observables de la población o dimensión objeto de estudio.
Ej: edad, nivel socio-económico, preferencias,Ej: edad, nivel socio-económico, preferencias,hábitos de consumo, nivel educativo alcanzado,situación ocupacional, condición de pobreza, etc.
Las variables estadísticas pueden ser: causales o independientes, contextuales o intervinientes y descriptivas o dependientes. Los valores de una variable deben ser excluyentes y exhaustivos.
VALORES DE LAS VARIABLES
Representación conceptual cualitativa o cuantitativade una propiedad o atributo objeto de medición.
Ej: 54 años, joven, varón, ocupado, católico, 10000$ Ej: 54 años, joven, varón, ocupado, católico, 10000$ per cápita, 12 años de instrucción, etc.
LAS VARIABLES ESTADÍSTICAS
NIVEL DE MEDICIÓN DE LAS VARIABLES
VARIABLES NOMINALES
VARIABLES ORDINALES E NOMINALES ORDINALES E
INTERVALARES
Operaciones básicas: MTC (moda),
porcentajes, tasas, razones.
Medidas de tendencia central y de posición,
varianza, etc.
A cada valor de la variable se le asocian determinadosnúmeros que representan el número de veces que haaparecido, su proporción con respecto a otros valores de lavariable, etc.
Tabla de distribución de frecuencias
Estadística Descriptiva
Por tanto, llamaremos distribución de frecuencias a unagrupamiento de datos en clases acompañada de susfrecuencias: frecuencias absolutas, frecuencias relativa ofrecuencia acumuladas.
Definiremos como frecuencia de un dato el número de veces que esteaparece en el colectivo. Para efectos prácticos, asumiremos las siguientesdefiniciones de frecuencias:
a) frecuencias absolutas : es el número de veces que aparece dicho valorde la variable
La distribución de frecuencias. Primer paso del
análisis estadístico descriptivo
b) frecuencias relativas: es el cociente entre la frecuencia absoluta y eltamaño de la muestra.
c) frecuencias absoluta acumulada: es el número de veces que haaparecido en la muestra un valor menor o igual que el de la variable y lorepresentaremos
d) frecuencia relativa acumulada: al igual que en el caso anterior secalcula como el cociente entre la frecuencia absoluta acumulada dividido porel tamaño de la muestra (N)
La distribución de frecuencias.
Primer paso del análisis estadístico descriptivo
Nivel educativo
frecuencia
absoluta
frecuencia
relativa
frecuencia
acumulada
Sin estudios/primario incompleto 50 21,6 73,3
Primario completo/secundario incompleto 120 51,7 94,9Primario completo/secundario incompleto 120 51,7 94,9
Secundario completo 50 21,6 99,2
Terciario/universitario incompleto 10 4,3 100
Terciario/universitario completo 2 0,9
Total 232 100
Tipo de colegio al que
asiste el alumno
62%
38%
Bachiller
Escuela
Técnica/Agro
técnica
Gráficos
Nivel educativo familiar *
31,6%
26,6%
41,8%
Alto
Medio
Bajo
28,3%
49,2%38,5%
71,7%
50,8%61,5%
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Río Negro La Pampa Neuqén
Técnico/Agraria Bachiller
Modo o moda
•Es el valor o categoría de la variable que presenta la mayor frecuencia.
•El modo se puede usar como MTC de distribuciones cuyas observaciones
se han medido en cualquier nivel –nominal/ordinal/intervalar, sin embargo
es la única MTC que se puede calcular para variables nominales.
•La desventaja del modo es que tiene poco caudal de información. Puede
presentarse el caso de distribuciones bimodales o más. El modo no se
calcula mediante un procedimiento aritmético, ya que es el valor que mas
MEDIDAS DE TENDENCIA CENTRAL
Ventajas Desventajas
Sirve para datos
nominales, ordinales o
intervalares
Si la distribución presenta
mas de una moda, la
interpretación es dificultosa.
No se ve afectada por
valores extremos
Si presentan mas de una
moda la pregunta que surge
es cual es el valor
representativo de la serie de
datos
calcula mediante un procedimiento aritmético, ya que es el valor que mas
se repite en el conjunto de datos.
MEDIDAS DE TENDENCIA CENTRAL
MEDIANA
Es la categoría o valor de la distribución que posee el orden medio, cuando las
observaciones se han ordenado de acuerdo con los valores de la categoría de la variable.
•El valor de la mediana se determina de la siguiente manera. Primero conviene ver si los
datos están agrupados y que nivel de medición tienen.
•Para datos sin agrupar con nivel de medición ordinal, si el número de observaciones es
impar, se ordenan los datos de mayor a menor o viceversa y la categoría de la
observación que ocupa el orden medio es la mediana. Si el número de observaciones esobservación que ocupa el orden medio es la mediana. Si el número de observaciones es
par, se toma la observación cuya categoría es mayor de las dos observaciones centrales y
su valor es la mediana.
Ventajas Desventajas
Los valores extremos no
afectan la mediana
Complejidad de
procedimientos estadisticos
que usan la mediana
Se calcula en distribuciones
con nivel de medicion ordinal
e intervalar
MEDIDAS DE TENDENCIA CENTRAL
La media o promedio de una distribución
•El cálculo de la media implica el conocimiento de todos los
valores de las observaciones de la distribución.
•Para calcular la media se suman todos los valores de una variable
y se lo divide por el número de observaciones (total de casos). La
media se aplica para variables con nivel de medición de intervalo o
razón ya que solo este nivel de medición permite operaciones
matemáticas.
Ventajas Desventajas
Es fácil de calcular Es afectada por valores
extremos
Es útil para comparar
medias de varios conjuntos
de datos
Todos los valores son
incluidos en el computo de la
media
matemáticas.
MEDIDAS DE DISPERSION
Los índices de variabilidad o dispersión indican si las puntuaciones son muy parecidas o muy distintas entre sí.
Desvío estandar o desviación típicaPropiedadesMide la dispersión respecto a la media. Debe emplearse sólo cuando se escoge la media como medida de centro. Se interpreta como cuánto se desvía, en promedio, de la media un conjunto de puntuaciones.desvía, en promedio, de la media un conjunto de puntuaciones.s = 0 sólo cuando no hay dispersión. Esto ocurre únicamente cuando todas las observaciones tiene el mismo valor. De lo contrario s mayor a 0. A medida que las observaciones están más dispersas respecto de su media, s se hace mayor.s, al igual que X (media) está fuertemente influenciada por las observaciones extremas. Unas pocas observaciones atípicas pueden hacer que s sea muy grande.
Coeficiente de variación Se utiliza para comparar la dispersión entre dos o más distribuciones
Una tabla de contingencia es el resultado del cruce de dos o másvariables.
Es la forma de presentación de los datos típica de la investigaciónen ciencias sociales, que se caracteriza por un uso predominantede variables (o atributos) definidas en los niveles de medición
La tabla de contingencia.
Análisis de relación entre dos variables
de variables (o atributos) definidas en los niveles de mediciónnominal y ordinal.
La tabla de contingencia consiste en un cierto número de celdasen las que, como resultado de un proceso de tabulación, sevuelcan las frecuencias (número de casos) correspondientes acada combinación de valores de varias variables.
Cuando se analizan relaciones bivariadas lo importante es determinar si existe alguna relación entre las dos variables
COMPONENTES DE UNA TABLA DE CONTINGENCIA
Distribuciones marginales
Distribuciones condicionales
Un total poblacional o muestral
La tabla de contingencia.
Análisis de relación entre dos variables
TIPO DE ANÁLISIS QUE PERMITE UNA TABLA DE CONTINGENCIA
Análisis de perfiles o características poblacionales
Análisis descriptivo de grupos o segmentos de población
¿Qué significa analizar una tabla asimétricamente?La variable independiente incide sobre la variable dependiente. Losporcentajes se calculan en función de la variable independiente.
Cuadro: Misiones, 1980 - Pertenencia de la población por condición de pobreza según tipo de asentamiento (%)
La tabla de contingencia.
Análisis de relación entre dos variables
Condición Tipo de asentamiento
Condición de pobreza
Tipo de asentamiento
URBANO RURAL TOTAL
NO POBRE
66,8194397
42,4122701
54,6317098
POBRE33,2
96610 57,6
16681445,4
263424
Total 100291007
100289515
100 (580522)
Frecuencias
marginales
Frecuencias
marginales
Como se lee una tabla de manera asimétrica:
Habiendo tomado ‘Tipo de asentamiento’ comovariable independiente, se calcularon losporcentajes “en el sentido de esta variable, nuestro“factor causal”. Ello quiere decir que las bases parael cálculo porcentual están dadas por el total deel cálculo porcentual están dadas por el total decasos para cada valor de la variable independiente.
Como se lee una tabla de manera asimétrica:
En la celda superior izquierda de la tabla observamos‘66,8’, y sabemos -por el título - que la cifracorresponde a un porcentaje. La lectura correcta deesta cifra tiene lugar en dos pasos, cada uno de losesta cifra tiene lugar en dos pasos, cada uno de loscuáles supone responder a una pregunta.
Como se lee una tabla de manera asimétrica:
Lo primero que debemos responder es: “ 66,8% de qué? (o¿de quiénes?)”. La única respuesta correcta es: “del 100%constituido por los 291.007 habitantes urbanos”; es decir,buscamos primero en la tabla dónde está el 100% —en laprimera hilera—, y dirigimos luego nuestra vista hacia elprimera hilera—, y dirigimos luego nuestra vista hacia elencabezamiento de dicha hilera leyendo: ‘Urbano’. Despuésnos preguntamos
Como se lee una tabla de manera asimétrica:
¿Qué sucede con este 66,8%?”, y podremosresponder: “viven en hogares sin NBI”. A estasegunda pregunta respondimos simplementedirigiendo nuestra atención hacia elencabezamiento de la columna: ‘No’. Así, elsignificado de la primera celda puede expresarse:significado de la primera celda puede expresarse:«De todos los habitantes urbanos de Misiones, hayun 66,8% que pertenece a hogares sin NBI».
Si intentamos reducir al mínimo la redundancia enla lectura de la tabla, podemos considerar que loesencial de la información está contenido en losenunciados 2 y 4 (o, indiferentemente, en los 1 y3). De este modo, destacaremos el sentidofundamental que queremos prestarle a los datos:en estas dos cifras -33,2% y 57,6%- estáresumido lo que la tabla significa para nosotros.resumido lo que la tabla significa para nosotros.Comparando estos dos porcentajes, nuestralectura pone en evidencia la relación entre las dosvariables postulada por nuestra hipótesis:
«Mientras que en la población urbana hay un33,2% de habitantes en hogares con NBI, entrelos pobladores rurales este porcentaje asciende al57,6%».
Se corrobora por lo tanto la existencia de unaSe corrobora por lo tanto la existencia de unaprobabilidad diferencial de pertenecer a un hogarcon NBI en función del tipo de asentamiento de lapoblación.
Problemas comunes en la lectura decuadros
1. La lectura del cuadro puede estar mal hecha sino se considera cual fue la base sobre la que secalculo el porcentaje. En cualquier tabla de dobleentrada hay tres bases sobre las que se puedencalcular los porcentajes.calcular los porcentajes.el total de la columnael total de la filael total (N)
Problemas comunes en la lectura de cuadros
Se comete un error lógico cuando un porcentaje es leídosobre una base que no fue la utilizada para el cálculo.Ejemplo: si del cuadro anterior leyera un 66,8% de loshabitantes de Misiones son urbanos y viven en hogares sinNBI, la lectura da a entender que el porcentaje fue calculadoNBI, la lectura da a entender que el porcentaje fue calculadosobre el total de la población provincial, con lo cual elenunciado pasa a ser una proposición falsa. El porcentajeque corresponde a dicha expresión es 33,5%.
Problemas comunes en la lectura de cuadros
Igualmente erróneo sería escribir «En Misiones, un 66,8 %de las personas pertenecientes a hogares sin NBI residen enasentamientos urbanos». La construcción de esta frasesupone que el 66,8% fue calculado sobre el total desupone que el 66,8% fue calculado sobre el total depersonas pertenecientes a hogares sin NBI, con lo que elenunciado es también falso (para esta redacción, elporcentaje correcto sería ‘61,3’).
Problemas comunes en la lectura de cuadros
2. Pero también se presentan problemas pragmáticos.Sucede que diferentes redacciones son susceptibles decomunicar distintos significados. Comparemos lossiguientes enunciados:
a.-«Más de dos tercios de los habitantes urbanos viven enhogares que no presentan NBIhogares que no presentan NBI
b.-« Solamente un 66,8% de los habitantes urbanospertenece a hogares sin NBI ».
Problemas comunes en la lectura de cuadros
Tanto ‘a’ como ‘b’ expresan correctamente elporcentaje, desde una perspectiva puramente lógica.Sin embargo, es evidente que ambos enunciados notienen el mismo significado: ciertamente ‘a’ trasuntauna visión de la situación más optimista que ‘b’.una visión de la situación más optimista que ‘b’.
Problemas comunes en la lectura de cuadros
Podemos probar de eliminar los adverbios ennuestros enunciados ‘a’ y ‘b’, con lo queobtenemos expresiones cuyo valor lingüístico esmuy similar:a.« Dos tercios de los habitantes urbanos viven enhogares que no presentan NBI´b.« Un 66,8% de los habitantes urbanosb.« Un 66,8% de los habitantes urbanospertenece a hogares sin NBI»
Grado de participación política según conocimiento político
La diferencia porcentual. Una medida de la asociación
Conocimiento político
Participación Bajo Alto TotalParticipación política
Bajo Alto Total
Alto 6 13 19
Bajo 59 43 102
Total 65 56 121
La diferencia porcentual se calcula en la dirección en que se realiza la comparación
Grado de participación política según conocimiento político
La diferencia porcentual. Una medida de la asociación
Conocimiento político
Participación política
Bajo Alto Diferencia porcentual
Alto 9 23 14
Bajo 91 77 -14Bajo 91 77 -14
Total 100 100 N= 121
Mientras que en los alumnos de bajo conocimiento sólo hay un 9% con alta participación, entre los de alto conocimiento hay un 23%, es decir, hay un 14% más de alta participación política
O se pueden comparar los porcentajes de baja participación:
Diciendo que entre en los alumnos de alto conocimiento hay un 14% menos de baja participación respecto a los alumnos de bajo conocimiento