estad istica descriptiva y analisis de datos con la … · esquema de la semana: sesion 4 1...
TRANSCRIPT
ESTADISTICA DESCRIPTIVA Y ANALISIS DE
DATOS CON LA HOJA DE CALCULO EXCEL
Organiza:INSTITUTO CANTABRO DE ESTADISTICA
http://www.icane.es
Responsable: Francisco Parra RodrıguezJefe de Servicio de Estadısticas Economicas y Sociodemograficas
parra [email protected]
Colabora: Ma Paz Moral ZuazoAnalista de coyuntura
moral [email protected], [email protected]
(Sesion 4) Estadıstica Descriptiva con EXCEL CEARC, Marzo 2010 1 / 27
ESQUEMA DE LA SEMANA: SESION 4
1 Introduccion2 Analisis de una variable:
I Descripcion grafica de datos de una variable cualitativa
I Descripcion grafica de datos de una variable cuantitativa
I Descripcion numerica de un conjunto de datos
I Medidas de desigualdad
3 Analisis de dos variables. Correlacion
(Sesion 4) Estadıstica Descriptiva con EXCEL CEARC, Marzo 2010 2 / 27
ESQUEMA DE LA SEMANA: SESION 4
5. ANALISIS DE DOS VARIABLES: DISTRIBUCION CONJUNTA
5.1 Analisis estadıstico de dos o mas variables.5.2 Variables cualitativas: distribucion conjunta, distribuciones marginales y
distribuciones condicionadas.5.3 Variables cuantitativas: distribucion conjunta, distribuciones marginales
y distribuciones condicionadas. Media de la distribucion condicionada.Representacion grafica.
5.4 Independencia estadıstica.
6. MEDIDAS DE ASOCIACION ENTRE DOS VARIABLES
6.1 El grafico de dispersion y la relacion lineal entre variables.6.2 La covarianza entre dos variables cuantitativas.6.3 El coeficiente de correlacion entre dos variables cuantitativas.6.4 Independencia e incorrelacion.
(Sesion 4) Estadıstica Descriptiva con EXCEL CEARC, Marzo 2010 3 / 27
Analisis de dos variables: distribucion conjunta
Conjunto de informacion: datos de dos caracterısticas o variables, X e Y ,para cada individuo. Por tanto, disponemos de un conjunto de N pares:
(x1, y1), (x2, y2), . . . , (xN , yN)
Ejemplos: de una encuesta realizada el primer dıa de clase:
Sexo y ser fumador.
Altura del estudiante y altura de su padre.
Gasto mensual en cine y gasto semanal total.
Sexo y altura.
(Sesion 4) Estadıstica Descriptiva con EXCEL CEARC, Marzo 2010 4 / 27
5.2 Variables cualitativas: distribucion conjunta.
Ejemplo: sexo y ser fumador
X = Ser fumador (dos categorıas: fuma o no fuma).
Y = Genero (dos categorıas: hombre o mujer).
Hombre Mujer
Fuma 3 6(no fumadores) (no fumadoras en el grupo)
No Fuma 16 7(no no fumadores) (no no fumadoras)
Tabla A. Distribucion conjunta de genero-fumador (grupo 16).Suma: 3+6+16+7 = 32 (total encuestados)
(Sesion 4) Estadıstica Descriptiva con EXCEL CEARC, Marzo 2010 5 / 27
5.2 Variables cualitativas: distribuciones marginales
Obtener la distribucion de una variable a partir de la conjunta.
Hombre Mujer Total (fila)
Fuma 3 6 9(no de fumadores-as)
No Fuma 16 7 23(no de no fumadores-as)
Total 19 13(Columna) (n0 de hombres) (no de mujeres)
Tabla B. Distribuciones marginales de genero y fumador.
Sumas: 19 + 13 = 9 +23 = 32 (no encuestados)
(Sesion 4) Estadıstica Descriptiva con EXCEL CEARC, Marzo 2010 6 / 27
5.2 Variables cualitativas: distribucion de frecuenciasrelativas
Se obtienen dividiendo la tabla B por el numero de observaciones.
Tabla C. Distribuciones de frecuencias relativasHombre Mujer Total (fila)
Fuma 0,09375 0,1875 0,28125
No Fuma 0,5 0,21875 0,71875
Total 0,59375 0,40625(Columna)
con: 0,09375 + 0,1875+0,5 + 0,21875 =0,28125 + 0,71875=0,59375 + 0,40625 = 1
(Sesion 4) Estadıstica Descriptiva con EXCEL CEARC, Marzo 2010 7 / 27
5.2 Variables cualitativas: distribucion de frecuenciascondicionadas
Tabla D. Distribuciones condicionadas segun genero
Hombre Mujerni |Y=Hombre fi |Y=Hombre ni |Y=Mujer fi |Y=Mujer
Fuma 3 = n11 0,158= n11n•1
6 = n12 0,462= n12n•2
No Fuma 16 = n12 0,842= n21n•1
7 = n22 0,538= n22n•2
Suma 19 = n•1 1 12 = n•2 1
Por ejemplo, distribucion entre fumadores y no fumadores en grupo demujeres: ni |Y=Mujer , fi |Y=Mujer , i = 1, 2.
(Sesion 4) Estadıstica Descriptiva con EXCEL CEARC, Marzo 2010 8 / 27
5.2 Variables cualitativas: distribuciones condicionadas
Tabla E. Distribuciones condicionadas segun sea fumador o no
Hombre Mujer Suma
nj |X=Fuma 3 = n11 6 = n12 9 = n1•
fj |X=Fuma 0,33= n11n1•
0,67= n12n1•
1
nj |X=No fuma 16 = n21 7 = n22 23 = n2•
fj |X=No fuma 0,70= n21n2•
0,30= n22n2•
1
Distribucion segun genero en el grupo de fumadores: nj |X=Fuma, fj |X=Fuma,j = 1, 2.Distribucion segun genero en el grupo de no fumadores:
nj |X=No fuma, fj |X=No fuma, j = 1, 2.
(Sesion 4) Estadıstica Descriptiva con EXCEL CEARC, Marzo 2010 9 / 27
5.2 Variables cualitativas: distribuciones condicionadas
Otra forma de presentar las distribuciones condicionadas:
Tabla F. Distribuciones condicionadas segun sea fumador o no.Nota: x1 = fumador; x2 = no fumador.
Condicionada a X = x1 Condicionada a X = x2Categorıa nj |X=x1 fj |X=x1 Categorıa nj |X=x2 fj |X=x2
Hombre 3 0,33 Hombre 16 0,70
Mujer 6 0,67 Mujer 7 0,30
(Sesion 4) Estadıstica Descriptiva con EXCEL CEARC, Marzo 2010 10 / 27
5.3 Variables cuantitativas
Las definiciones de
distribucion conjunta,
distribuciones marginales y
distribuciones condicionadas.
se aplican tambien al caso de variables cuantitativas, siendo x1, x2, . . . , xk(o y1, y2, . . . , y`):
1 con variable discreta: los valores que toma la variable X (o Y ).
2 con variable continua: las marcas de clase de los intervalos en que seha dividido el rango de X (o Y ).
(Sesion 4) Estadıstica Descriptiva con EXCEL CEARC, Marzo 2010 11 / 27
5.3 Variables cuantitativas: Representacion grafica
El conjunto de datos se representa graficamente mediante el diagrama dedispersion o nube de puntos.
Representacion de los N pares de puntos:
(x1, y1), (x2, y2), . . . , (xN , yN)
Representacion de los valores que aparecen en la tabla decontingencia:
(x1, y1), . . . (x1, y`), (x2, y1), . . . , (xk , y`)
(Sesion 4) Estadıstica Descriptiva con EXCEL CEARC, Marzo 2010 12 / 27
5.3 Variables cuantitativas: medias condicionadas
Los valores tıpicos de posicion, dispersion o forma vistos para variablescuantitativas pueden aplicarse al caso de las distribuciones condicionadas.
Ejemplo: media de las distribuciones condicionadas del no de hermanos en
funcion del grupo. Fijamos
X = no hermanos
Y = Grupo
Grupo 1 Grupo 2 Grupo 16 Grupo 31 Total
(y1) (y2) (y3) (y4) (Marginal)
x |yj 1,12 1,3571 1,19 1,11 1,201
(Sesion 4) Estadıstica Descriptiva con EXCEL CEARC, Marzo 2010 13 / 27
5.4 Independencia estadıstica
¿Estan relacionadas las variables X e Y ?Se dice que la variable variable Y se distribuye de manera independiente aX si las distribuciones marginales de Y condicionadas a cada valor de Xcoinciden entre sı y coinciden con la distribucion marginal de la variable Y .Es decir, si
fj |X=x1 = fj |X=x2 = . . . = fj |X=xk = f•j ∀j = 1, . . . , `
Se dice que la variable variable X se distribuye de manera independiente aY si las distribuciones marginales de X condicionadas a cada valor de Ycoinciden entre sı y coinciden con la distribucion marginal de la variable X .Es decir, si
fi |Y=y1 = fi |Y=y2 = . . . = fi |Y=y` = fi•, ∀i = 1, . . . , k
Se demuestra que: fi |Y=yj = fi• ⇔ fj |X=xi = f•j , ∀i ∀j .
(Sesion 4) Estadıstica Descriptiva con EXCEL CEARC, Marzo 2010 14 / 27
5.4 Independencia estadıstica
Se dice que la variables X e Y se distribuyen independientemente, lasdistribuciones de las variables X e Y son independientes o que X ,Y sonvariables independientes.Una condicion necesaria y suficiente para que dos variables se distribuyande forma independiente viene dada por la expresion:
fij = fi• × f•j , ∀i = 1, . . . , k ∀j = 1, . . . , `
Ejemplo: Distribuciones de frecuencias relativas.Hombre Mujer Total (fila)
Fuma 0,168 0,112 0,28
No Fuma 0,432 0,288 0,72
Total 0,60 0,40(Columna)
(Sesion 4) Estadıstica Descriptiva con EXCEL CEARC, Marzo 2010 15 / 27
6. Medidas de asociacion entre dos variables
El grafico de dispersion y la relacion lineal entre variables.
La covarianza entre dos variables cuantitativas.
El coeficiente de correlacion entre dos variables cuantitativas.
Independencia e incorrelacion.
(Sesion 4) Estadıstica Descriptiva con EXCEL CEARC, Marzo 2010 16 / 27
6.1 El grafico de dispersion
El grafico de dispersion permite distinguir la posible relacion, lineal o no,que existe entre las variables. Se dice que hay
relacion lineal positiva entre ambas variables cuando, al aumentar x ,aumenta en promedio el valor de y .
100
200
300
400
500
600
700
800
900
1000
1100
1200
50 100 150 200 250
pre
cio
Superficie (m2
precio con respecto a m2 (con ajuste mínimo-cuadrático)
100
200
300
400
500
600
700
800
900
1000
1100
1200
50 100 150 200 250
pre
cio
Superficie
precio con respecto a m2 (con ajuste mínimo-cuadrático)
Y = 55.8 + 3.38X
(Sesion 4) Estadıstica Descriptiva con EXCEL CEARC, Marzo 2010 17 / 27
6.1 El grafico de dispersion
El grafico de dispersion permite distinguir la posible relacion, lineal o no,que existe entre las variables. Se dice que hay
relacion lineal negativa entre ambas variables cuando observamos queal aumentar x disminuye en promedio el valor de y .
100
200
300
400
500
600
700
800
900
1000
1100
1200
-110 -100 -90 -80 -70 -60 -50 -40 -30 -20
pre
cio
xx
precio con respecto a xx (con ajuste mínimo-cuadrático)
100
200
300
400
500
600
700
800
900
1000
1100
1200
-110 -100 -90 -80 -70 -60 -50 -40 -30 -20
pre
cio
xx
precio con respecto a xx (con ajuste mínimo-cuadrático)
Y = 121. - 6.82X
(Sesion 4) Estadıstica Descriptiva con EXCEL CEARC, Marzo 2010 18 / 27
6.1 El grafico de dispersion
El grafico de dispersion tambien refleja si:
No relacion lineal entre ambas variables.
Hay no relacion entre ambas variables.
100
200
300
400
500
600
700
800
900
1000
1100
1200
8.5 9 9.5 10 10.5 11 11.5
pre
cio
ruido
0
5000
10000
15000
20000
25000
30000
35000
50 100 150 200 250
Y
X
Relación no lineal
(Sesion 4) Estadıstica Descriptiva con EXCEL CEARC, Marzo 2010 19 / 27
6.1 El grafico de dispersion
Ejemplos de relacion no lineal:
-5000
0
5000
10000
15000
20000
25000
30000
35000
50 100 150 200 250
Y
X
cc2 con respecto a m2 (con ajuste mínimo-cuadrático)
Y = -8.90e+003 + 147.X
0
5000
10000
15000
20000
25000
30000
35000
50 100 150 200 250
Y
X
cc2 con respecto a m2 (con ajuste cuadrático)
Y = -11.7 - 0.0364X + 0.501X^2
-2
-1
0
1
2
3
4
-1.5 -1 -0.5 0 0.5 1 1.5
y3
ruido
Relación no lineal
-2
-1
0
1
2
3
4
-1.5 -1 -0.5 0 0.5 1 1.5
y3
ruido
y3 con respecto a ruido (con ajuste cuadrático)
(Sesion 4) Estadıstica Descriptiva con EXCEL CEARC, Marzo 2010 20 / 27
6.2 La covarianza entre dos variables cuantitativas
La covarianza es una medida del grado de asociacion lineal entre dosvariables.Si se tienen N pares de datos de dos variables, (x1, y1) . . . (xN , yN), lacovarianza se denota por Sxy y se define:
Sxy = cov(x , y) =(x1 − x)(y1 − y) + . . . (xN − x)(yN − y)
N
siendo x e y las medias aritmeticas de las variables. Interpretacion:
Su valor no depende del orden de las variables.
Si es mayor que 0, hay relacion lineal positiva entre X e Y .
Si es menor que cero, hay relacion lineal negativaa entre X e Y .
Si es cero, no hay relacion lineal.
(Sesion 4) Estadıstica Descriptiva con EXCEL CEARC, Marzo 2010 21 / 27
6.3 El coeficiente de correlacion entre dos variablescuantitativas
La covarianza depende de las unidades de medida de las variables, lo queno permite comparar la relacion entre distintos pares de variables medidasen unidades diferentes. En estos casos se utiliza el coeficiente decorrelacion lineal entre x e y , que se define:
rxy = corr(x , y) =Sxy
Sx Sy
Interpretacion. Comparte con la covarianza:
Su valor no depende del orden de las variables.
Tiene el mismo signo que la varianza.
I Si es mayor que 0, hay relacion lineal positiva entre X e Y .
I Si es menor que cero, hay relacion lineal negativaa entre X e Y .
I Si es cero, no hay relacion lineal.
(Sesion 4) Estadıstica Descriptiva con EXCEL CEARC, Marzo 2010 22 / 27
6.3 El coeficiente de correlacion entre dos variablescuantitativas
rxy = corr(x , y) =Sxy
Sx Sy
Interpretacion. Ademas, a diferencia de la covarianza:
Su valor maximo es 1 y su valor mınimo es -1.
Un coeficiente de correlacion igual a uno en valor absoluto indica quelas variables estan relacionadas linealmente de forma exacta y losdatos se situan sobre una lınea.
I Si el valor del coeficiente de correlacion es igual a +1, los datos sesituan sobre una lınea de pendiente positiva.
I Si el valor del coeficiente de correlacion es igual a -1, los datos sesituan sobre una lınea de pendiente negativa.
(Sesion 4) Estadıstica Descriptiva con EXCEL CEARC, Marzo 2010 23 / 27
6.3 El coeficiente de correlacion entre dos variables
100
200
300
400
500
600
700
800
900
1000
1100
1200
50 100 150 200 250
pre
cio
Superficie
precio con respecto a m2 (con ajuste mínimo-cuadrático)
Y = 55.8 + 3.38X
100
200
300
400
500
600
700
800
900
1000
1100
1200
-110 -100 -90 -80 -70 -60 -50 -40 -30 -20
pre
cio
xx
precio con respecto a xx (con ajuste mínimo-cuadrático)
Y = 121. - 6.82X
cov(precio, superf) = 12.126,6 cov(x, superf) = -6.005,96
corr(precio, superf) = 0,854 corr(x, superf) = -0,852
100
200
300
400
500
600
700
800
900
1000
1100
1200
8.5 9 9.5 10 10.5 11 11.5
pre
cio
ruido
-2
-1
0
1
2
3
4
-1.5 -1 -0.5 0 0.5 1 1.5
y3
ruido
y3 con respecto a ruido (con ajuste cuadrático)
cov(precio, Y) = 57,32 cov(ruido, Y3) = -0,105
corr(precio, Y) = 0,23 corr(ruido, Y3) = -0,09 y corr(ruido2, Y3) = 0,86
(Sesion 4) Estadıstica Descriptiva con EXCEL CEARC, Marzo 2010 24 / 27
6.3 El coeficiente de correlacion entre dos variables
. Correlacion y causalidadPena y Romo (1997), pag. 129-30, miden la correlacion entre:
No de matrimonios en Madrid y Temperatura media en Madrid.Con observaciones mensuales del ano 1992.Obtienen un coeficiente de correlacion entre ambas variables igual a 0,67.Este fenomeno se conoce como correlacion espuria: dos variables estanrelacionadas a traves de su correlacion con una tercera variable.Cuando se mide la relacion lineal controlando el efecto de la terceravariable, la correlacion disminuye.
(Sesion 4) Estadıstica Descriptiva con EXCEL CEARC, Marzo 2010 25 / 27
6.3 El coeficiente de correlacion entre dos variables
Ejemplo 2: En el ano 1926, Jule estudio la relacion entre:
matrimonios en la Iglesia de Inglaterra (o/oo sobre total dematrimonios) y
tasa de mortalidad (o/oo sobre poblacion)
en Inglaterra y Gales, en los anos 1866-1911.
(Sesion 4) Estadıstica Descriptiva con EXCEL CEARC, Marzo 2010 26 / 27
6.4 Independencia e incorrelacion
(Sesion 4) Estadıstica Descriptiva con EXCEL CEARC, Marzo 2010 27 / 27