estadÍstica descriptiva (medidas de tendencia …...(medidas de tendencia central y dispersión)...

35
TÉCNICAS DE ANÁLISIS ESTADÍSTICO ESTADÍSTICA DESCRIPTIVA (Medidas de tendencia central y dispersión) TABLA DE CONTINGENCIA Y ANÁLISIS PORCENTUALES (Diferencias porcentuales, perfiles y segmentos)

Upload: others

Post on 08-Jul-2020

14 views

Category:

Documents


0 download

TRANSCRIPT

TÉCNICAS DE ANÁLISIS ESTADÍSTICO

ESTADÍSTICA DESCRIPTIVA(Medidas de tendencia central y dispersión)

TABLA DE CONTINGENCIA Y ANÁLISIS PORCENTUALES (Diferencias porcentuales, perfiles y segmentos)

CIRCUITO DEL PROCESO DE INVESTIGACIÓN

PLANTEO DE PROBLEMAS (OBJETIVOS)

ESTRATEGIA DE INVESTIGACIÓN � MUESTRA

� DISEÑO

� RELEVAMIENTO DE INFORMACION

PROCESAMIENTO Y ANÁLISIS DE

DATOS

ELABORACIÓN DE RESULTADOS

REVISIÓN DE HALLAZGOS

Relevamiento de la información

Muestra / Organización / Trabajo de campo

Supervisión de la calidad de la información

Codificación y Análisis de datos e interpretación de resultados

Aplicación de Técnicas de Análisis

BASE DE DATOS

DADO UN DISEÑO DE INVESTIGACIÓNBASADO EN ENCUESTAS

FORMULACIÓN DE HIPÓTESIS, ELABORACIÓN DE LA MUESTRA Y EL INSTRUMENTODE LA MUESTRA Y EL INSTRUMENTO

APLICACIÓN DE CUESTIONARIO

CODIFICACIÓN, PROCESAMIENTO Y CARGA DE INFORMACIÓN

LOS TRES COMPONENTES DE UNA BASE DE DATOS

N° V1 V2 V3 V4 V5 V.n

1 20

Registro (casos) Atributo (variables)

1 20

2

3

4

5

6

Valor (categorías)

¿A qué se denomina Unidad de Análisis?

UNIDAD DE OBSERVACIÓN DEL ESTUDIO

(los registros pueden ser de diversa naturaleza, dependiendo de los objetivos del estudio)

REGISTROS: UNIDADES DE OBSERVACIÓN

Ej: personas, familias, empresas, escuelas, países, etc.

El número de registros está dado por el tamaño de lamuestra de la población objeto de estudio.

VARIABLES: ATRIBUTOS DE LA POBLACIÓN

Propiedades o atributos observables de la población o dimensión objeto de estudio.

Ej: edad, nivel socio-económico, preferencias,Ej: edad, nivel socio-económico, preferencias,hábitos de consumo, nivel educativo alcanzado,situación ocupacional, condición de pobreza, etc.

Las variables estadísticas pueden ser: causales o independientes, contextuales o intervinientes y descriptivas o dependientes. Los valores de una variable deben ser excluyentes y exhaustivos.

VALORES DE LAS VARIABLES

Representación conceptual cualitativa o cuantitativade una propiedad o atributo objeto de medición.

Ej: 54 años, joven, varón, ocupado, católico, 10000$ Ej: 54 años, joven, varón, ocupado, católico, 10000$ per cápita, 12 años de instrucción, etc.

LAS VARIABLES ESTADÍSTICAS

NIVEL DE MEDICIÓN DE LAS VARIABLES

VARIABLES NOMINALES

VARIABLES ORDINALES E NOMINALES ORDINALES E

INTERVALARES

Operaciones básicas: MTC (moda),

porcentajes, tasas, razones.

Medidas de tendencia central y de posición,

varianza, etc.

A cada valor de la variable se le asocian determinadosnúmeros que representan el número de veces que haaparecido, su proporción con respecto a otros valores de lavariable, etc.

Tabla de distribución de frecuencias

Estadística Descriptiva

Por tanto, llamaremos distribución de frecuencias a unagrupamiento de datos en clases acompañada de susfrecuencias: frecuencias absolutas, frecuencias relativa ofrecuencia acumuladas.

Definiremos como frecuencia de un dato el número de veces que esteaparece en el colectivo. Para efectos prácticos, asumiremos las siguientesdefiniciones de frecuencias:

a) frecuencias absolutas : es el número de veces que aparece dicho valorde la variable

La distribución de frecuencias. Primer paso del

análisis estadístico descriptivo

b) frecuencias relativas: es el cociente entre la frecuencia absoluta y eltamaño de la muestra.

c) frecuencias absoluta acumulada: es el número de veces que haaparecido en la muestra un valor menor o igual que el de la variable y lorepresentaremos

d) frecuencia relativa acumulada: al igual que en el caso anterior secalcula como el cociente entre la frecuencia absoluta acumulada dividido porel tamaño de la muestra (N)

La distribución de frecuencias.

Primer paso del análisis estadístico descriptivo

Nivel educativo

frecuencia

absoluta

frecuencia

relativa

frecuencia

acumulada

Sin estudios/primario incompleto 50 21,6 73,3

Primario completo/secundario incompleto 120 51,7 94,9Primario completo/secundario incompleto 120 51,7 94,9

Secundario completo 50 21,6 99,2

Terciario/universitario incompleto 10 4,3 100

Terciario/universitario completo 2 0,9

Total 232 100

Tipo de colegio al que

asiste el alumno

62%

38%

Bachiller

Escuela

Técnica/Agro

técnica

Gráficos

Nivel educativo familiar *

31,6%

26,6%

41,8%

Alto

Medio

Bajo

28,3%

49,2%38,5%

71,7%

50,8%61,5%

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

Río Negro La Pampa Neuqén

Técnico/Agraria Bachiller

Gráficos

Desempleo entre jóvenes

Modo o moda

•Es el valor o categoría de la variable que presenta la mayor frecuencia.

•El modo se puede usar como MTC de distribuciones cuyas observaciones

se han medido en cualquier nivel –nominal/ordinal/intervalar, sin embargo

es la única MTC que se puede calcular para variables nominales.

•La desventaja del modo es que tiene poco caudal de información. Puede

presentarse el caso de distribuciones bimodales o más. El modo no se

calcula mediante un procedimiento aritmético, ya que es el valor que mas

MEDIDAS DE TENDENCIA CENTRAL

Ventajas Desventajas

Sirve para datos

nominales, ordinales o

intervalares

Si la distribución presenta

mas de una moda, la

interpretación es dificultosa.

No se ve afectada por

valores extremos

Si presentan mas de una

moda la pregunta que surge

es cual es el valor

representativo de la serie de

datos

calcula mediante un procedimiento aritmético, ya que es el valor que mas

se repite en el conjunto de datos.

MEDIDAS DE TENDENCIA CENTRAL

MEDIANA

Es la categoría o valor de la distribución que posee el orden medio, cuando las

observaciones se han ordenado de acuerdo con los valores de la categoría de la variable.

•El valor de la mediana se determina de la siguiente manera. Primero conviene ver si los

datos están agrupados y que nivel de medición tienen.

•Para datos sin agrupar con nivel de medición ordinal, si el número de observaciones es

impar, se ordenan los datos de mayor a menor o viceversa y la categoría de la

observación que ocupa el orden medio es la mediana. Si el número de observaciones esobservación que ocupa el orden medio es la mediana. Si el número de observaciones es

par, se toma la observación cuya categoría es mayor de las dos observaciones centrales y

su valor es la mediana.

Ventajas Desventajas

Los valores extremos no

afectan la mediana

Complejidad de

procedimientos estadisticos

que usan la mediana

Se calcula en distribuciones

con nivel de medicion ordinal

e intervalar

MEDIDAS DE TENDENCIA CENTRAL

La media o promedio de una distribución

•El cálculo de la media implica el conocimiento de todos los

valores de las observaciones de la distribución.

•Para calcular la media se suman todos los valores de una variable

y se lo divide por el número de observaciones (total de casos). La

media se aplica para variables con nivel de medición de intervalo o

razón ya que solo este nivel de medición permite operaciones

matemáticas.

Ventajas Desventajas

Es fácil de calcular Es afectada por valores

extremos

Es útil para comparar

medias de varios conjuntos

de datos

Todos los valores son

incluidos en el computo de la

media

matemáticas.

MEDIDAS DE DISPERSION

Los índices de variabilidad o dispersión indican si las puntuaciones son muy parecidas o muy distintas entre sí.

Desvío estandar o desviación típicaPropiedadesMide la dispersión respecto a la media. Debe emplearse sólo cuando se escoge la media como medida de centro. Se interpreta como cuánto se desvía, en promedio, de la media un conjunto de puntuaciones.desvía, en promedio, de la media un conjunto de puntuaciones.s = 0 sólo cuando no hay dispersión. Esto ocurre únicamente cuando todas las observaciones tiene el mismo valor. De lo contrario s mayor a 0. A medida que las observaciones están más dispersas respecto de su media, s se hace mayor.s, al igual que X (media) está fuertemente influenciada por las observaciones extremas. Unas pocas observaciones atípicas pueden hacer que s sea muy grande.

Coeficiente de variación Se utiliza para comparar la dispersión entre dos o más distribuciones

Una tabla de contingencia es el resultado del cruce de dos o másvariables.

Es la forma de presentación de los datos típica de la investigaciónen ciencias sociales, que se caracteriza por un uso predominantede variables (o atributos) definidas en los niveles de medición

La tabla de contingencia.

Análisis de relación entre dos variables

de variables (o atributos) definidas en los niveles de mediciónnominal y ordinal.

La tabla de contingencia consiste en un cierto número de celdasen las que, como resultado de un proceso de tabulación, sevuelcan las frecuencias (número de casos) correspondientes acada combinación de valores de varias variables.

Cuando se analizan relaciones bivariadas lo importante es determinar si existe alguna relación entre las dos variables

COMPONENTES DE UNA TABLA DE CONTINGENCIA

Distribuciones marginales

Distribuciones condicionales

Un total poblacional o muestral

La tabla de contingencia.

Análisis de relación entre dos variables

TIPO DE ANÁLISIS QUE PERMITE UNA TABLA DE CONTINGENCIA

Análisis de perfiles o características poblacionales

Análisis descriptivo de grupos o segmentos de población

¿Qué significa analizar una tabla asimétricamente?La variable independiente incide sobre la variable dependiente. Losporcentajes se calculan en función de la variable independiente.

Cuadro: Misiones, 1980 - Pertenencia de la población por condición de pobreza según tipo de asentamiento (%)

La tabla de contingencia.

Análisis de relación entre dos variables

Condición Tipo de asentamiento

Condición de pobreza

Tipo de asentamiento

URBANO RURAL TOTAL

NO POBRE

66,8194397

42,4122701

54,6317098

POBRE33,2

96610 57,6

16681445,4

263424

Total 100291007

100289515

100 (580522)

Frecuencias

marginales

Frecuencias

marginales

Como se lee una tabla de manera asimétrica:

Habiendo tomado ‘Tipo de asentamiento’ comovariable independiente, se calcularon losporcentajes “en el sentido de esta variable, nuestro“factor causal”. Ello quiere decir que las bases parael cálculo porcentual están dadas por el total deel cálculo porcentual están dadas por el total decasos para cada valor de la variable independiente.

Como se lee una tabla de manera asimétrica:

En la celda superior izquierda de la tabla observamos‘66,8’, y sabemos -por el título - que la cifracorresponde a un porcentaje. La lectura correcta deesta cifra tiene lugar en dos pasos, cada uno de losesta cifra tiene lugar en dos pasos, cada uno de loscuáles supone responder a una pregunta.

Como se lee una tabla de manera asimétrica:

Lo primero que debemos responder es: “ 66,8% de qué? (o¿de quiénes?)”. La única respuesta correcta es: “del 100%constituido por los 291.007 habitantes urbanos”; es decir,buscamos primero en la tabla dónde está el 100% —en laprimera hilera—, y dirigimos luego nuestra vista hacia elprimera hilera—, y dirigimos luego nuestra vista hacia elencabezamiento de dicha hilera leyendo: ‘Urbano’. Despuésnos preguntamos

Como se lee una tabla de manera asimétrica:

¿Qué sucede con este 66,8%?”, y podremosresponder: “viven en hogares sin NBI”. A estasegunda pregunta respondimos simplementedirigiendo nuestra atención hacia elencabezamiento de la columna: ‘No’. Así, elsignificado de la primera celda puede expresarse:significado de la primera celda puede expresarse:«De todos los habitantes urbanos de Misiones, hayun 66,8% que pertenece a hogares sin NBI».

Si intentamos reducir al mínimo la redundancia enla lectura de la tabla, podemos considerar que loesencial de la información está contenido en losenunciados 2 y 4 (o, indiferentemente, en los 1 y3). De este modo, destacaremos el sentidofundamental que queremos prestarle a los datos:en estas dos cifras -33,2% y 57,6%- estáresumido lo que la tabla significa para nosotros.resumido lo que la tabla significa para nosotros.Comparando estos dos porcentajes, nuestralectura pone en evidencia la relación entre las dosvariables postulada por nuestra hipótesis:

«Mientras que en la población urbana hay un33,2% de habitantes en hogares con NBI, entrelos pobladores rurales este porcentaje asciende al57,6%».

Se corrobora por lo tanto la existencia de unaSe corrobora por lo tanto la existencia de unaprobabilidad diferencial de pertenecer a un hogarcon NBI en función del tipo de asentamiento de lapoblación.

Problemas comunes en la lectura decuadros

1. La lectura del cuadro puede estar mal hecha sino se considera cual fue la base sobre la que secalculo el porcentaje. En cualquier tabla de dobleentrada hay tres bases sobre las que se puedencalcular los porcentajes.calcular los porcentajes.el total de la columnael total de la filael total (N)

Problemas comunes en la lectura de cuadros

Se comete un error lógico cuando un porcentaje es leídosobre una base que no fue la utilizada para el cálculo.Ejemplo: si del cuadro anterior leyera un 66,8% de loshabitantes de Misiones son urbanos y viven en hogares sinNBI, la lectura da a entender que el porcentaje fue calculadoNBI, la lectura da a entender que el porcentaje fue calculadosobre el total de la población provincial, con lo cual elenunciado pasa a ser una proposición falsa. El porcentajeque corresponde a dicha expresión es 33,5%.

Problemas comunes en la lectura de cuadros

Igualmente erróneo sería escribir «En Misiones, un 66,8 %de las personas pertenecientes a hogares sin NBI residen enasentamientos urbanos». La construcción de esta frasesupone que el 66,8% fue calculado sobre el total desupone que el 66,8% fue calculado sobre el total depersonas pertenecientes a hogares sin NBI, con lo que elenunciado es también falso (para esta redacción, elporcentaje correcto sería ‘61,3’).

Problemas comunes en la lectura de cuadros

2. Pero también se presentan problemas pragmáticos.Sucede que diferentes redacciones son susceptibles decomunicar distintos significados. Comparemos lossiguientes enunciados:

a.-«Más de dos tercios de los habitantes urbanos viven enhogares que no presentan NBIhogares que no presentan NBI

b.-« Solamente un 66,8% de los habitantes urbanospertenece a hogares sin NBI ».

Problemas comunes en la lectura de cuadros

Tanto ‘a’ como ‘b’ expresan correctamente elporcentaje, desde una perspectiva puramente lógica.Sin embargo, es evidente que ambos enunciados notienen el mismo significado: ciertamente ‘a’ trasuntauna visión de la situación más optimista que ‘b’.una visión de la situación más optimista que ‘b’.

Problemas comunes en la lectura de cuadros

Podemos probar de eliminar los adverbios ennuestros enunciados ‘a’ y ‘b’, con lo queobtenemos expresiones cuyo valor lingüístico esmuy similar:a.« Dos tercios de los habitantes urbanos viven enhogares que no presentan NBI´b.« Un 66,8% de los habitantes urbanosb.« Un 66,8% de los habitantes urbanospertenece a hogares sin NBI»

Grado de participación política según conocimiento político

La diferencia porcentual. Una medida de la asociación

Conocimiento político

Participación Bajo Alto TotalParticipación política

Bajo Alto Total

Alto 6 13 19

Bajo 59 43 102

Total 65 56 121

La diferencia porcentual se calcula en la dirección en que se realiza la comparación

Grado de participación política según conocimiento político

La diferencia porcentual. Una medida de la asociación

Conocimiento político

Participación política

Bajo Alto Diferencia porcentual

Alto 9 23 14

Bajo 91 77 -14Bajo 91 77 -14

Total 100 100 N= 121

Mientras que en los alumnos de bajo conocimiento sólo hay un 9% con alta participación, entre los de alto conocimiento hay un 23%, es decir, hay un 14% más de alta participación política

O se pueden comparar los porcentajes de baja participación:

Diciendo que entre en los alumnos de alto conocimiento hay un 14% menos de baja participación respecto a los alumnos de bajo conocimiento