estadistica i, unidad 2

Upload: ssergy

Post on 01-Mar-2016

9 views

Category:

Documents


0 download

DESCRIPTION

esadistica unidad 2

TRANSCRIPT

  • Tema(s) a desarrollar Repaso general medidas descriptivas

    Subtemas 1. Introduccin

    1.1 Variable discreta

    1.2 Variable continua

    2. Estadsticos de tendencia central

    2.1. La media

    2.2. La mediana.

    2.3. La moda

    2.4. Relacin entre media, mediana y moda

    3. Estadsticos de posicin

    3.1. Percentiles

    3.2. Deciles

    3.3. Cuartiles

    4. Medidas de variabilidad o dispersin

    4.1. Rango

    4.2. Rango Intercuartilico

    4.3. Varianza

    4.4. Desviacin tpica o estndar

    4.5. Coeficiente de variacin

    4.6. Diagrama de Tukey

    5. Asimetra y apuntamiento

    5.1. Estadsticos de asimetra

    5.2. Estadsticos de apuntamiento Contenido complementario Taller sobre la Unidad

    No. de semanas que se le dedicarn a esta unidad 3 Semanas

    1

    Unidad N 2 Estadstica descriptiva

  • 2

    1. Introduccin

    1.1 Variable discreta

    1.2 Variable continua

  • 3

    2. Estadsticos de centralizacin Son medidas que buscan posiciones (valores) con respecto a los cuales los datos

    muestran tendencia a agruparse.

    2.1 Media (mean) Es la media aritmtica (promedio) de los valores de una variable. Suma de los valores dividido por el tamao muestral.

    Media de 2,2,3,7 es (2+2+3+7)/4=3,5

    Conveniente cuando los datos se concentran simtricamente con respecto a ese valor. Muy sensible a valores extremos.

    Centro de gravedad de los datos

  • Tema 2: Estadsticos 4

    2. Estadsticos de centralizacin Son medidas que buscan posiciones (valores) con respecto a los cuales los datos

    muestran tendencia a agruparse.

    2.2 Mediana (median) Es un valor que divide a las observaciones en dos grupos con el mismo nmero de individuos (percentil 50).

    Mediana de 1,2,4,5,6,6,8 es 5

    Si el nmero de datos es par, se elige la media de los dos datos centrales.

    Mediana de 1,2,4,5,6,6,8,9 es (5+6)/2=5,5

    Es conveniente cuando los datos son asimtricos. No es sensible a valores extremos. Mediana de 1,2,4,5,6,6,800 es 5. La media es 117,7!

    Altura mediana

  • 2.3 Moda (mode) Es cualquier valor de la variable que pose una frecuencia mayor que su anterior y posterior (valor de la variable que mas se repite).

    Ventajas:

    No requiere clculos.

    Puede usarse para datos tanto cuantitativos como cualitativos.

    Fcil de interpretar.

    No se ve influenciada por valores extremos.

    Desventajas:

    Para conjuntos pequeos de datos su valor no tiene casi utilidad, si es que de hecho existe.

    No utiliza toda la informacin disponible.

    No siempre existe, si los datos no se repiten.

    En ocasiones, el azar hace que una sola observacin sea no representativa se el

    valor ms frecuente del conjunto de datos.

    Difcil de interpretar si los datos tiene 3 o ms modas.

  • Relacin entre la media, la mediana y la moda

    Cuando los datos son sesgados es mejor emplear la Md

  • 7

    3. Estadsticos de posicin

    CUANTILES

    Se define el cuantil de orden a como un valor de la variable por debajo del cual se encuentra una frecuencia acumulada a.

    Casos particulares son los percentiles, deciles, cuartiles quintiles,...

    3.1 PERCENTILES

    Percentil Pk: de orden k = cuantil de orden k/100 El percentil de orden 15 deja por debajo al 15% de las observaciones. Por encima queda el 85%.

    3.2 DECILES Dividen a la muestra en 10 grupos con frecuencias similares.

  • 8

    3. Estadsticos de posicin

    3.3 CUARTILES Dividen a la muestra en 4 grupos con frecuencias

    Similares.

    Q1: Primer cuartil = Percentil 25 = Cuantil 0,25

    Q2: Segundo cuartil = Percentil 50 = Cuantil 0,5 = mediana

    Q3: Tercer cuartil = Percentil 75 = cuantil 0,75

  • Tema(s) a desarrollar Repaso general medidas descriptivas

    Subtemas 1. Introduccin

    1.1 Variable discreta

    1.2 Variable continua

    2. Estadsticos de tendencia central

    2.1. La media

    2.2. La mediana.

    2.3. La moda

    2.4. Relacin entre media, mediana y moda

    3. Estadsticos de posicin

    3.1. Percentiles

    3.2. Deciles

    3.3. Cuartiles

    4. Meidas de variabilidad o dispersin

    4.1. Rango

    4.2. Rango Intercuartilico

    4.3. Varianza

    4.4. Desviacin tpica o estndar

    4.5. Coeficiente de variacin 4.6. Diagrama de Tukey

    5. Asimetra y apuntamiento

    5.1. Estadsticos de asimetra

    5.2. Estadsticos de apuntamiento Contenido complementario Taller sobre la Unidad

    No. de semanas que se le dedicarn a esta unidad 3 Semanas

    9

    Donde estamos:

    Unidad N 2 Estadstica descriptiva

  • 4. Estadisticos de dispersin, variacin o

    variabilidad.

    Son importantes debido a que dos muestras de

    observaciones con el mismo valor central pueden tener una

    variabilidad muy distinta. Rango, Rango intercuartilico,

    Varianza, Desviacin tpica, coefiente de variacin.

  • Tema 2: Estadsticos 11

    Variabilidad o dispersin

    Los estudiantes de Estadstica de la UCO reciben diferentes calificaciones en la asignatura (variabilidad). A qu puede deberse?

    Diferencias individuales en el conocimiento de la materia.

    Podra haber otras razones (fuentes de variabilidad)?

    Por ejemplo supongamos que todos los alumnos poseen el mismo nivel de conocimiento. Las notas seran las mismas en todos?

    Seguramente No.

    Dormir poco el da del examen, el croissant estaba envenenado... Diferencias individuales en la habilidad para hacer un examen.

    El examen no es una medida perfecta del conocimiento.

    Variabilidad por error de medida.

    En alguna pregunta difcil, se duda entre varias opciones, y al azar se elige la mala Variabilidad por azar, aleatoriedad.

  • Miden el grado de dispersin (variabilidad) de los datos, independientemente de su causa.

    4.1 Amplitud o Rango (range): Diferencia entre observacines extremas.

    2,1,4,3,8,4. El rango es 8-1=7

    Es muy sensible a los valores extremos.

    No proporciona una medida de variabilidad de las observaciones con respecto al centro de la distribucin.

    4.2 Rango intercuartlico (interquartile range):

    Es la distancia entre primer y tercer cuartil.

    Rango intercuartlico = P75 - P25

    Parecida al rango, pero eliminando las observaciones ms extremas inferiores y superiores.

    No es tan sensible a valores extremos.

    Tema 2: Estadsticos 12

    150 160 170 180 190

    0.0

    00

    .01

    0.0

    20

    .03

    0.0

    40

    .05

    150 160 170 180 190

    25% 25% 25% 25%

    Mn. P25 P50 P75 Mx.

    Rango intercuartlico

    Rango

    Medidas de dispersin

  • 13

    4.3 Varianza S2 (Variance): Mide el promedio de las desviaciones (al cuadrado) de las observaciones con respecto a la media.

    Si la varianza de un conjunto de observaciones es grande se dice que los Datos tiene una mayor variabilidad que un conjunto de datos que tenga un varianza menor.

    Sus unidades son el cuadrado de las de la variable. De interpretacin difcil para un principiante. Siempre es mayor o igual a cero y menor que infinito.

    Ventajas:

    Es til cuando se compara la variabilidad de dos o ms conjuntos de datos.

    Utiliza toda la informacin disponible.

    Desventajas:

    No proporciona ayuda inmediata cuando se estudia la dispersin de un solo conjunto de datos.

    Difcil de interpretar por tener sus unidades elevadas al cuadrado.

    Es sensible a valores extremos (alejados de la media).

  • Tema 2: Estadsticos 14

    4.4 Desviacin tpica (standard deviation) Es la raz cuadrada de la varianza

    Tiene las misma dimensionalidad (unidades) que la variable. Versin esttica de la varianza.

    Ventajas:

    Esta expresada en las mismas

    unidades que la variable en estudio.

    Utiliza todas las observaciones en su

    clculo.

    Fcil de interpretar.

    Desventajas:

    No tiene.

    2SS

  • Tema 2: Estadsticos 15

    4.5 Coeficiente de variacin (Pearson)

    Es la razn entre la desviacin tpica y la media.

    Mide la desviacin tpica en forma de qu tamao tiene con respecto a la media

    Tambin se la denomina variabilidad relativa.

    Es frecuente mostrarla en porcentajes Si la media es 80 y la desviacin tpica 20 entonces CV=20/80=0,25=25% (variabilidad relativa)

    Es una cantidad adimensional. Interesante para comparar la variabilidad de diferentes variables. Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos presentan ms

    dispersin en peso que en altura.

    No debe usarse cuando la variable presenta valores negativos o donde el valor 0 sea una cantidad fijada arbitrariamente

    Por ejemplo 0C 0F

    x

    SCV

  • 4.5 Coeficiente de variacin (Pearson)

    Ventajas:

    Es la nica MD que permite comparar el nivel de

    dispersin de dos muestras de variables diferentes.

    Emplea toda la informacin disponible en su clculo.

    Fcil de calcular.

    Desventaja:

    Ninguna significativa

    x

    SCV

  • Tema 2: Estadsticos 17

    4.6 Diagramas de Tukey

    Resumen con 5 nmeros: Mnimo, cuartiles y mximo.

    Suelen dar una buena idea de la distribucin.

    La zona central, caja, contiene al 50% central de las observaciones. Su tamao se llama rango

    intercuartlico (R.I.)

    Es costumbre que los bigotes, no lleguen hasta los extremos, sino hasta las observaciones que se separan de la caja en no ms de 1,5 R.I. Ms all de esa distancia se

    consideran anmalas, y as se marcan.

    Diagrama de cajas de Tukey: Resumen en 5 nmeros

    Velocidad (Km/h) de 200 vehculos en ciudad

    de

    nsid

    ad

    40 45 50 55 60 65

    0.0

    00

    .02

    0.0

    40

    .06

    0.0

    8

    40 45 50 55 60 65

    Mn. P25 P50 P75 Mx.

    Diagrama de cajas de Tukey: Resumen en 5 nmeros

    Velocidad (Km/h) de 200 vehculos en autova

    de

    nsid

    ad

    80 90 100 110 120 130 140

    0.0

    00

    .01

    0.0

    20

    .03

    0.0

    4

    80 90 100 110 120 130 140

    Mn. P25 P50 P75 Mx.

  • Las discrepancias entre las medidas de centralizacin son indicacin de asimetra.

    5. Estadsticos de Forma: Asimetra y Apuntamiento

  • Estadsticos de Forma: Estadsticos para detectar

    asimetra y apuntamiento.

    Son medidas numricas que permiten determinar la

    forma que tiene la curva de los datos, por lo tanto,

    sirven para corroborar lo que los grficos muestran.

    Medidas de forma

    -Asimetra

    -Kurtosis o apuntamiento

    Coeficiente de Pearson

    Coeficiente de Fisher

  • 5.1 Estadsticos de Forma: Asimetra

    Coeficiente de Asimetra de Pearson:

    Fcil de calcular e interpretar.

    Clculo:

    s

    MdXASP

    3

    Si AP > 0, la distribucin es asimtrica positiva o a la derecha.

    Si AP = 0, la distribucin es simtrica. Si AP < 0, la distribucin es asimtrica negativa o a la izquierda.

  • 21

    Estadsticos para detectar asimetra

    Coeficiente de Asimetra de Pearson:

    x

    8 10 12 14 16 18 20

    0.0

    00.0

    50.1

    00.1

    50.2

    0

    8 10 12 14 16 18 20

    x s

    78 %

    x

    -2 -1 0 1 2 3

    0.0

    0.1

    0.2

    0.3

    0.4

    0.5

    -2 -1 0 1 2 3

    x s

    66 %

    x

    0 2 4 6 8 10 12 14

    0.0

    00.0

    50.1

    00.1

    50.2

    0

    0 2 4 6 8 10 12 14

    x s

    78 %

    Si AP < 0, la distribucin es asimtrica negativa o a la izquierda. Si AP = 0, la distribucin es simtrica. Si AP > 0, la distribucin es asimtrica positiva o a la derecha.

  • Coeficiente de Asimetra de Fisher:

    No es de fcil clculo, pero si su interpretacin.

    3

    1

    3

    ns

    fxM

    ASF

    k

    i

    ii

    Interpretacin:

    ASF

    = 0, Simtrica

    > 0, Asimtrica Positiva

    < 0, Asimtrica Negativa

    Estadsticos de Forma: Asimetra

  • 5.2 Estadsticos de Forma: Kurtosis o apuntamiento

    Miden si los valores de la distribucin estn ms o menos

    concentrados alrededor de los valores medios de la muestra (zona

    central de la distribucin).

    Se definen tres tipos de distribucin segn su grado de Kurtosis

    Leptocrtica: grado de concentracin elevado. curtosis > 0

    Mesocrtica: grado de concentracin medio alrededor de los

    valores centrales de la variable. curtosis = 0

    Platicrtica: grado de concentracin reducido. curtosis < 0

  • En el curso sern de especial inters las mesocrticas

    y simtricas (parecidas a la normal). 24

    Platicrtica (aplanada): curtosis < 0

    Mesocrtica (como la normal): curtosis = 0

    Leptocrtica (apuntada): curtosis > 0

    Aplanada

    0.0 0.2 0.4 0.6 0.8 1.0

    0.0

    0.5

    1.0

    1.5

    2.0

    0.0 0.2 0.4 0.6 0.8 1.0

    x s

    57 %

    Apuntada como la normal

    -3 -2 -1 0 1 2 3

    0.0

    0.1

    0.2

    0.3

    -3 -2 -1 0 1 2 3

    x s

    68 %

    Apuntada

    -2 -1 0 1 2

    0.0

    0.2

    0.4

    0.6

    0.8

    -2 -1 0 1 2

    x s

    82 %

    3

    3

    4

    1

    4

    4

    1

    4

    ns

    fXM

    CK

    ns

    Xx

    CK

    k

    i

    ii

    n

    i

    i

    Datos No Agrupados

    Datos Agrupados

    Estadsticos de Forma: Kurtosis o apuntamiento (pc)

  • 25

    Un brevsimo resumen sobre estadsticos 1. Centralizacin

    Indican valores con respecto a los que los datos parecen

    agruparse.

    Media, mediana y moda

    2. Posicin

    Dividen un conjunto ordenado de datos en grupos con la

    misma o diferente cantidad de individuos.

    Cuantiles: percentiles, cuartiles, deciles,...

    3. Dispersin

    Indican la mayor o menor concentracin de los datos

    con respecto a las medidas de centralizacin.

    Desviacin tpica, coeficiente de variacin, rango

    intercuartilico, varianza. RANGO

    4. Forma

    Asimetra

    Apuntamiento o curtosis

  • 26

    Ejercicios Para Practicar (variable discreta) Ejercicios Para Practicar (variable continua)

  • Tema(s) a desarrollar Repaso general medidas descriptivas

    Subtemas 1. Introduccin

    1.1 Variable discreta

    1.2 Variable continua

    2. Estadsticos de tendencia central

    2.1. La media

    2.2. La mediana.

    2.3. La moda

    2.4. Relacin entre media, mediana y moda

    3. Estadsticos de posicin

    3.1. Percentiles

    3.2. Deciles

    3.4. Cuartiles

    4. Medidas de variabilidad o dispersin

    4.1. Rango

    4.2. Rango Intercuartilico

    4.3. Varianza

    4.4. Desviacin tpica o estndar

    4.5. Coeficiente de variacin 4.6. Diagrama de Tukey

    5. Asimetra y apuntamiento

    5.1. Estadsticos de asimetra

    5.2. Estadsticos de apuntamiento Contenido complementario Taller sobre la Unidad

    No. de semanas que se le dedicarn a esta unidad 3 Semanas

    27

    Lo que vimos: Unidad N 2 Estadstica descriptiva