tema 3: an alisis de datos bivariantes - est.uc3m.es · 2 tema 3: an alisis de datos bivariantes...

35
1 Tema 3: An´ alisis de datos bivariantes Contenidos 3.1 Tablas de doble entrada. I Datos bivariantes. I Estructura de la tabla de doble entrada. I Distribuciones de frecuencias marginales. I Distribuci´ on conjunta de frecuencias relativas. I Distribuciones de frecuencias condicionadas. I Tabla de doble entrada para variables cuantitativas. 3.2 Correlaci´ on. I Diagrama de dispersi´ on. I Tipos de relaci´on entre dos variables cuantitativas. I Medidas de dependencia lineal. I Correlaci´ on y heterogeneidad. I Correlaci´ on y datos at´ ıpicos. I Correlaci´ on y causalidad. Estad´ ıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3

Upload: trinhngoc

Post on 04-Oct-2018

215 views

Category:

Documents


0 download

TRANSCRIPT

1

Tema 3: Analisis de datos bivariantes

Contenidos

3.1 Tablas de doble entrada.I Datos bivariantes.I Estructura de la tabla de doble entrada.I Distribuciones de frecuencias marginales.I Distribucion conjunta de frecuencias relativas.I Distribuciones de frecuencias condicionadas.I Tabla de doble entrada para variables cuantitativas.

3.2 Correlacion.I Diagrama de dispersion.I Tipos de relacion entre dos variables cuantitativas.I Medidas de dependencia lineal.I Correlacion y heterogeneidad.I Correlacion y datos atıpicos.I Correlacion y causalidad.

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3

2

Tema 3: Analisis de datos bivariantes

3.3 Recta de regresion.I Definicion de la recta.I Estimacion de los coeficientes.I Interpretacion de los coeficientes.I Valores predichos, residuos y varianza residual.I Bondad del ajuste.I Analisis de residuos.I Los datos de Anscombe.

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3

3

Lecturas recomendadasI Pena, D. y Romo, J., Introduccion a la Estadıstica para las Ciencias

Sociales.I Capıtulos 7, 8 y 9.

I Newbold, P. Estadıstica para los Negocios y la Economıa.I Secciones 2.5 y 12.1–12.4.

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3

4

Datos bivariantes

Ejemplo Nivel educativo (X ) y situacion laboral (Y ) de 10 Madrilenos.

Nivel educativo (1=Primaria o menos, 2=Secundaria, 3=Post-secundaria)Situacion laboral (1=Empleado, 2=Desempleado, 3=Inactivo)

Individuo 1 2 3 4 5 6 7 8 9 10Nivel educativo (X ) 2 3 2 3 2 2 1 1 3 2Situacion laboral (Y ) 3 1 1 3 3 3 3 3 1 3

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3

5

Datos bivariantes

I Datos bivariantes: provienen de la observacion simultanea de dos variables(X ,Y ) en una muestra de n individuos. Los datos bivariantes son parejasde valores, numericos o no, de la forma:

(x1, y1), (x2, y2), . . . , (xn, yn)

I Se usan para describir las dos variables conjuntamente o una variable enfuncion de la otra.

I A menudo se intenta describir el comportamiento de una de las variables,que se llama la variable dependiente y se denota por Y , en funcion de laotra variable, que se llama la variable independiente o explicativa, y sedenota por X .

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3

6

Estructura de la tabla de doble entrada

I Representamos los valores de una de las variables (p.ej. X ) en lascabeceras de las filas de una tabla, y los valores de la otra variable (p.ej.Y ) en las cabeceras de las columnas de la tabla.

I En la casilla correspondiente a cada par de valores de X e Y , se escribe lafrecuencia absoluta o numero de individuos en cada combinacion devalores.

I Cuando al menos alguna de las dos variables es cualitativa, la tabla dedoble entrada tambien se denomina tabla de contingencia.

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3

7

Estructura de la tabla de doble entrada/tabla decontingencia

Ejemplo Datos de 1508 madrilenos (Encuesta de Condiciones de Vida). X :Nivel educativo, Y : Situacion laboral

YEmpleado Desempleado Inactivo

Primaria 95 6 315X Secundaria 393 28 257

Post-secundaria 317 8 89

I Se denomina distribucion conjunta de (X ,Y ) al conjunto formado por losvalores observados en forma de pares, junto con las frecuencias absolutascorrespondientes a cada par.

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3

8

Estructura de la tabla de doble entrada

I Tabla de doble entrada con k filas y m columnas

Yy1 · · · yj · · · ym Total

x1 n11 · · · n1j · · · n1m n1�...

......

......

X xi ni1 · · · nij · · · nim ni�...

......

......

xk nk1 · · · nkj · · · nkm nk�

Total n�1 · · · n�j · · · n�m n��I Notacion:

nij frecuencia absoluta en la casilla (i , j)Total de fila i : ni� = ni1 + ni2 + · · ·+ nim

Total de columna j : n�j = n1j + n2j + · · ·+ nkj

n·· tamano muestral n·· = n

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3

9

Distribuciones de frecuencias marginales

I Los totales de las filas (columnas) se llaman frecuencias absolutasmarginales de las filas (columnas).

I Estas son las frecuencias univariantes de X y de Y .

Ejemplo Distribuciones de frecuencias marginales:

Nivel educativo (X ) Primaria Secundaria Post-secundaria Totalni� 416 678 414 1508

Situacion laboral (Y ) Empleado Desempleado Inactivo Totaln�j 805 42 661 1508

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3

10

Distribuciones de frecuencias marginales

I Se denomina distribucion marginal de X al conjunto de valores que tomaX junto con sus frecuencias absolutas marginales.

I Analogamente se define la distribucion marginal de Y .

I Observacion: Si en lugar de tener dos variables (X ,Y ) tuvieramos tres(X ,Y ,Z ) tendrıamos tres distribuciones marginales.

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3

11

Distribucion conjunta de frecuencias relativasI fij = nij/n·· frecuencia relativa en la casilla (i , j)

Yy1 · · · yj · · · ym Total

x1 f11 · · · f1j · · · f1m f1�...

......

......

X xi fi1 · · · fij · · · fim fi�...

......

......

xk fk1 · · · fkj · · · fkm fk�Total f�1 · · · f�j · · · f�m 1

I Frecuencia relativa marginal de la fila i :

fi� = fi1 + · · ·+ fij + · · ·+ fim

I Frecuencia relativa marginal de la columna j :

f�j = f1j + · · ·+ fij + · · ·+ fkj

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3

12

Distribucion de frecuencias condicionadas

I Dada la distribucion conjunta de (X ,Y ), se denomina distribucioncondicionada a la distribucion de frecuencias absolutas de una de lasvariables, suponiendo conocido y fijado el valor de la otra variable.Ejemplo Distribucion de frecuencias de la situacion laboral (Y ) parapersonas con un nivel educativo (X ) de Primaria o menos.

Y |X = Primaria Empleado Desempleado Inactivo Totaln1j 95 6 315 416

I Distribucion de frecuencias de Y condicionado a X = xi : Es ladistribucion de frecuencias de la variable Y , de entre los individuos quehan tomado el valor xi de X .

I observa que se restringe al conjunto total de individuos que toman el valorxi de X .

I Notacion: Y |X = xi .

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3

13

Distribucion de frecuencias condicionadas

Ejemplo Distribucion de frecuencias del nivel educativo para inactivos.

X |Y = Inactivo Primaria Secundaria Post-secundaria Totalni3 315 257 89 661

Distribucion de frecuencias del nivel educativo para desempleados.

X |Y = Desemp. Primaria Secundaria Post-secundaria Totalni2 6 28 8 42

Se ha visto, ası, la definicion mas sencilla de distribucion condicionada. Puedecondicionarse tambien al hecho de que la variable tome varios valores, porejemplo: X |(Y = Inactivo) ∪ (Y = Desempleado).

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3

14

Tabla de doble entrada para variables cuantitativas

Ejemplo 43 alumnos encuestadosX : Num. de veces que han ido al teatro en el ultimo mesY : Num. de veces que han ido al cine en el ultimo mes

Y0 1 2 3 4 Total

0 12 5 4 2 1 241 4 3 2 1 0 10

X 2 3 3 2 0 0 83 1 0 0 0 0 1

Total 20 11 8 3 1 43

I Si X e Y son cuantitativas discretas tomando un numero pequeno devalores, la tabla se construye de la misma forma que para el caso devariables cualitativas.

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3

15

Tabla de doble entrada para variables cuantitativas

Ejemplo Empresas americanasX : Num. de trabajadores, Y : Volumen de ventas

X[1,25) [25,50) [50,75) [75,99] Total

[1,100) 0.293 0.122 0.098 0.049 0.561Y [100,200) 0.098 0.073 0.049 0.024 0.244

[200,300] 0.073 0.073 0.049 0.000 0.195Total 0.463 0.268 0.195 0.073 1.000

I Si X e Y son, bien cuantitativas discretas tomando un numero grande devalores o bien continuas, es habitual agrupar los valores de las variables enintervalos.

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3

16

Diagrama de dispersionI La representacion grafica mas comun para dos variables cuantitativas es el

diagrama de dispersion

Ejemplo m2 habitables y Precio de 15 viviendas.

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3

17

Tipos de relacion entre variables cuantitativas

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3

18

Medidas de dependencia lineal para variables cuantitativasI La covarianza es una medida de variacion conjunta de las dos variables.

Cuantifica la informacion existente en un grafico de dispersion sobre laasociacion lineal entre dos variables.x y

1 0.81186553 1.719030422 0.98151318 1.771815093 1.86964664 3.110278374 1.67494569 2.80400635 1.67159679 3.134033546 2.06896883 4.822315857 2.07458768 3.774396388 2.1276676 3.989949179 2.0867583 4.6670687

10 3.01682761 4.472385411 2.21807301 4.8772188912 1.31836091 3.5270388513 0.94868813 2.4457487514 3.71304211 8.19843302

5

6

7

8

9 Y

xi>media(x)yi>media(y)

14 3.71304211 8.1984330215 1.50010914 2.4945486116 3.08738201 5.4329960117 1.3694318 0.9241207318 1.86684042 3.8005790219 1.24087921 1.5577054720 2.07104626 4.7039160921 0.71226336 0.2664213622 1.44547522 3.0170783823 2.44837446 4.8679519824 3.38040178 6.1744001325 0.69995779 0.8548704826 0.93002587 0.0091339927 2.53962691 5.7971757628 3.00173124 5.2616040329 2.99222302 6.0049200130 2.78137228 3.5740901631 2.83313549 6.2447274932 1.21334859 1.78724959

0

1

2

3

4

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5

X

xi<media(x)yi<media(y)

Covarianza:

sxy =1

n − 1

( ∑ni=1 xiyi − nx y︷ ︸︸ ︷

n∑i=1

(xi − x)(yi − y)

)−∞ < sxy <∞

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3

19

Medidas de dependencia lineal

I sxy >> 0⇒ Relacion lineal positiva.

I sxy << 0⇒ Relacion lineal negativa.

I sxy ≈ 0⇒ No existe relacion lineal o existe relacion no lineal.

I Inconvenientes de la covarianza:I No esta acotada ni superior ni inferiormente. Por lo tanto no se sabe

cuando es sxy suficientemente grande o pequena.I Depende de las unidades de medida de las variables:

Si sxy es la covarianza de X e Y , y a, b ∈ R, b 6= 0 y T = a + bY ,entonces:sxt = bsxy

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3

20

Medidas de dependencia lineal

I Coeficiente de correlacion lineal de Pearson:

r(x,y) =sxy

sxsy

I ¿Ventajas?

I Esta acotado: −1 ≤ r(x,y) ≤ 1

I Es adimensional.I Interpretacion del coeficiente de correlacion de Pearson:

I r(x,y) > 0 Dependencia Directa.I r(x,y) < 0 Dependencia Indirecta.I |r(x,y)| = 1 Relacion Lineal Perfecta.I r(x,y) = 0 X e Y estan Incorreladas (ausencia de relacion lineal).

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3

21

Correlacion y heterogeneidad

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3

22

Correlacion y datos atıpicos

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3

23

Correlacion 6= Causalidad

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3

24

Recta de regresion

Ejemplo Diagrama de dispersion de Y : Ingresos netos frente a X : Anos deestudio para 1508 madrilenos.

●●

● ●

●●

●●●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

● ●

●●

● ●●

●●

●●

● ●

●●

●●

●●

● ●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

● ●

● ●

●●

● ●

●●

● ●

●●

●●

●●

●●

● ●

●●

●● ●●

● ●

●●

●●

● ●

● ●

●●

●●

●●

●●

● ●

●●

●●

● ●

●●

●●

●●

●●●

●●

●●

● ●

●●

●●

● ●

●●

● ●

●●

●●

● ●

● ●

●●

●●

●●

●●

●●

●●

● ●

● ●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

5 10 15 20 25

050

000

1000

0015

0000

2000

00

Años estudio

Ingr

esos

net

os

I Los ingresos netos medios para cada valor de anos de estudio (medias deY condicionadas a cada valor de X ) forman aproximadamente una lınearecta.

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3

25

Definicion de la recta de regresionI Dada una muestra de n puntos (xi , yi ) queremos encontrar la recta

y = a + bx que mejor se ajuste a la nube de puntos.I Ecuacion de la recta de regresion:

y = a + bx

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3

26

Estimacion de los coeficientes

I Calculamos la ordenada en origen a y la pendiente b minimizando losresiduos al cuadrado (metodo de mınimos cuadrados):

mına,b

n∑i=1

(

residuo︷ ︸︸ ︷yi − yi )2 = mın

a,b

n∑i=1

(yi − (a + bxi ))2

I Estimadores de b y a:

b =sxys2x

a = y − bx

I Propiedad: b = r(x,y)sysx

porque b =sxys2x

sysy

= r(x,y)sysx

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3

27

Interpretacion de los coeficientes

I Ecuacion de la recta de regresion:

y = a + bx

I a ordenada en el origen: valor medio de y cuando x = 0:

x = 0 −→ y = a + b(0) = a

I b pendiente de la recta: incremento medio en y cuando se aumenta x unaunidad:

x2 = x1 + 1 −→ y2 − y1 = a + b(x1 + 1)− (a + bx1) = b

Algunas veces el parametro a carece de interpretacion.

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3

28

Interpretacion de los coeficientes

Ejemplo: Recta de regresion ajustada para Ingresos netos (Y ) en funcion deAnos de estudio (X ):

y = 7667,9 + 5474,9x

I La renta neta media (anual) para individuos con 0 anos de estudios es7667.9 euros. En este caso, NO tiene sentido interpretar este parametro.

I La renta neta media (anual) aumenta 5474.9 euros por cada ano extra deestudios.

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3

29

Valores predichos, residuos y varianza residualI Valores predichos (siempre que R2 sea elevado y no se este extrapolando:

yi = a + bxi , i = 1, . . . , n

I Residuos:ei = yi − yi , i = 1, . . . , n

e = 0 porque y = y .

I Varianza residual: Es una medida del error cometido en la prediccion delos datos. Divides entre n − 2 porque se han estimado a y b (menos dosgrados de libertad).

s2e =

1

n − 2

n∑i=1

e2i

I Relacion fundamental de la Regresion: La variabilidad total de la variabledependiente se puede explicar como la suma de la variabilidad del modelomas la variabilidad residual (como sumas de cuadrados):SCT = SCR + SCE.

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3

30

Propiedades de la recta de regresion

I Existen dos rectas distintas porque provienen de dos problemas deoptimizacion diferentes:∑n

i=1(yi − yi )2

∑ni=1(xi − xi )

2

b =sxys2x

a = y − bx d =sxys2y

c = x − dy

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3

31

Bondad del ajuste

I El coeficiente de determinacion R2 mide el porcentaje de la varianzatotal (o informacion) recogido por el modelo:

R2 =SCR

SCT= 1− SCE

SCT

I En el modelo de regresion lineal simple, el Coeficiente de determinacion esigual al coeficiente de correlacion al cuadrado R2 = r 2

(x,y)

I 0 ≤ R2 ≤ 1: Mayor R2 indica un mejor ajuste.

I Interpretacion:I R2 = 1 ⇒ Ajuste perfecto (SCE = 0) todos los residuos son 0I R2 = 0 ⇒ Ajuste muy malo (SCE = SCT )I R2 < 0,6 ⇒ Modelo con escasa fiabilidad: Buscar otro modelo mejor...

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3

32

Analisis de los residuos

I Para ver si el modelo de regresion es adecuado, se hace un diagrama dedispersion de residuos frente a valores predichos.

I Un grafico de residuos en el que los puntos parecen aleatorios indica quela recta de regresion se ajusta correctamente.

Ejemplo Grafico de residuos para la recta de ingresos netos:

●●

●●

● ●

●●

●●

●●

●●

●●

● ●

● ●

● ●

●●

●●

●●

● ●

●●

● ●

●●

●●

●●

●●

● ●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

● ●

●●●

●●

●●

●●

●●

●●

●●

● ●

●● ●

●●

●●

●●●

●●

●●

●●

●●

●●

●● ●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●●

● ●

●●

●●

●●

●●

20000 40000 60000 80000 100000 120000 140000

−500

000

5000

0

Valores ajustados

Res

iduo

s

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3

33

Los datos de Anscombe

Ejemplo Los datos de Anscombe

Datos 1 Datos 2 Datos 3 Datos 4i x y x y x y x y

1 10 8,04 10 9,14 10 7,46 8 6,582 8 6,95 8 8,14 8 6,77 8 5,763 13 7,58 13 8,74 13 12,74 8 7,714 9 8,81 9 8,77 9 7,11 8 8,845 11 8,33 11 9,26 11 7,81 8 8,476 14 9,96 14 8,1 14 8,84 8 7,047 6 7,24 6 6,13 6 6,08 8 5,258 4 4,26 4 3,1 4 5,39 19 12,59 12 10,84 12 9,13 12 8,15 8 5,56

10 7 4,82 7 7,26 7 6,42 8 7,9111 5 5,68 5 4,74 5 5,73 8 6,89

I Los datos de Anscombe son cuatro conjuntos de datos de dos variablescada uno. Estos conjuntos de datos son distintos pero la recta deregresion que determinan es la misma.

I Nos muestran la necesidad de observar los datos antes de interpretar larecta de regresion.

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3

34

Los datos de Anscombe

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3

35

Los datos de Anscombe

I Recta ajustada:y = 3 + 0,5x

I Interpretacion de la pendiente: un incremento de una unidad en la variableX produce, en promedio, un incremento de 0.5 unidades en la variable Y .

I Prediccion para x = 7,5 (dentro del rango de X )

y = 3 + 0,5(7,5) = 6,75

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3