datos categoriales apunteudp

2
Facultad de Psicología Estadística Universidad Diego Portales Ayudante: Roberto García Guía : Chi-Cuadrado 1. Tablas de contingencia. Si queremos mirar la relación entre dos variables categóricas (cualitativas) entonces no podemos utilizar la media o cualquier estadístico similar (como en el caso de la correlación) porque las variables no han sido medidas de forma continua. No tiene sentido promediar o sacar varianzas de los valores de las variables cualitativas, ya que estos son arbitrarios. Por lo tanto, cuando hemos medido variables categóricas, se analizan las frecuencias. Es decir, se analizan el número de cosas (observaciones) que caen en cada combinación de categorías. Para esto es util construir una tabla de doble entrada con las combinaciones de categorías y sus recuentos: Si queremos ver si hay una relación entre dos variables categóricas, por ejemplo si existe relación entre “si un gato baila o no en función de si se motivo con alimento o afecto”, podemos usar la prueba de chi-cuadrado de Pearson. Esta es una estadística basada en la sencilla idea de comparar las frecuencias que usted observa en ciertas categorías (recuento o frecuencias observadas) con las frecuencias que se podrían esperar en esas categorías si es que no estuvieran relacionadas (modelo de frecuencia esperada). Las frecuencias esperadas se calculan a partir de los valores de la tabla de contingencia: Diseñamos un modelo esperado para cada combinación a partir de los valores totales de filas y columnas de los recuentos (en amarillo). Por ejemplo para calcular el modelo de frecuencia esperada de la combinación de categorías de “gatos que si bailaron y usaron alimento de recompensa”, se realiza de la siguiente forma:

Upload: roberto-garcia

Post on 25-Sep-2015

212 views

Category:

Documents


0 download

DESCRIPTION

chi cuadrado, tablas de contingencia

TRANSCRIPT

  • Facultad de PsicologaEstadstica Universidad Diego Portales

    Ayudante: Roberto Garca Gua : Chi-Cuadrado

    1. Tablas de contingencia.

    Si queremos mirar la relacin entre dos variables categricas (cualitativas) entonces no podemos utilizar la media o cualquier estadstico similar (como en el caso de la correlacin) porque las variables no han sido medidas de forma continua. No tiene sentido promediar o sacar varianzas de los valores de las variables cualitativas, ya que estos son arbitrarios. Por lo tanto, cuando hemos medido variables categricas, se analizan las frecuencias. Es decir, se analizan el nmero de cosas (observaciones) que caen en cada combinacin de categoras.

    Para esto es util construir una tabla de doble entrada con las combinaciones de categoras y sus recuentos:

    Si queremos ver si hay una relacin entre dos variables categricas, por ejemplo si existe relacin entre si un gato baila o no en funcin de si se motivo con alimento o afecto, podemos usar la prueba de chi-cuadrado de Pearson. Esta es una estadstica basada en la sencilla idea de comparar las frecuencias que usted observa en ciertas categoras (recuento o frecuencias observadas) con las frecuencias que se podran esperar en esas categoras si es que no estuvieran relacionadas (modelo de frecuencia esperada).

    Las frecuencias esperadas se calculan a partir de los valores de la tabla de contingencia:

    Diseamos un modelo esperado para cada combinacin a partir de los valores totales de filas y columnas de los recuentos (en amarillo). Por ejemplo para calcular el modelo de frecuencia esperada de la combinacin de categoras de gatos que si bailaron y usaron alimento de recompensa, se realiza de la siguiente forma:

  • De la misma forma se calculan los modelos de frecuencia esperada para el resto de combinaciones, creando una tabla con los recuentos y frecuencias esperadas para cada combinacin de celdas.

    Dado que ahora tenemos estos valores modelo, todo lo que necesitamos hacer es tomar cada valor en cada celda de nuestro tabla de contingencia, restar los recuentos observados con el correspondiente modelo de frecuencia esperada, elevarlo al cuadrado, y luego dividir por el valor correspondiente modelo de frecuencia esperada. La suma de todos estos valores constituyen el estadstico chi-cuadrado:

    Este estadstico se puede comprobar con una distribucin con propiedades conocidas. Todo lo que necesitamos saber son los grados de libertad, los cuales se calculan como (f-1)*(c-1) en la que f es el nmero de filas y c es el nmero de columnas.

    En conjunto con el estadstico Chi-cuadrado, tambin es importante observar algunas medidas de fuerza de asociacin. Estas medidas se basan en la modificacin del estadstico de chi-cuadrado y tratan de restringir el alcance del estadstico de prueba de 0 a 1, algo similar a lo que ocurre en los coeficientes de correlacin de Pearson, dndonos una idea de la magnitud del efecto.

    Existen variados coeficientes de fuerza de asociacin: Coeficiente de contingencia, Phi, V de Cramer, Lambda (para variables nominales) o gama, d de Somers, tau de Kendall (para variables ordinales). Sin embargo el mas utilizado es el V de Cramer.

    2 = (observadoij modeloij)2

    modeloij

    modeloij =total filai total columnaj

    n

    modeloAlimento, Si =total filaSi total columnaAlimento

    n

    =76 38

    200= 14.44