universidad central de venezuela facultad de agronomía cátedra de estadística 1
TRANSCRIPT
1
ESTADÍSTICA I2013
Universidad Central de Venezuela
Facultad de AgronomíaCátedra de Estadística
M. Sc. Raquel Mayela [email protected]
2
OBJETIVO 1-TEMA 1 IMPORTANCIA DE LA
ESTADÍSTICA
Universidad Central de Venezuela
Facultad de AgronomíaCátedra de Estadística
Raquel Mayela [email protected]
3
OBJETIVO 1- TEMA 1 IMPORTANCIA DE LA ESTADÍSTICA
Definición de Estadística. Importancia de la Estadística en el campo agronómico. Conceptos básicos. Escalas de medición. Análisis Exploratorio de datos: Recolección, Tabulación y Representación Gráficas de datos univariados. Métodos de agrupación de datos: Diagramas de Tallo y Hoja. Distribución de Frecuencias para datos numéricos continuos y discretos. Histogramas y Polígonos de frecuencias. Formas, Simetría y Curtosis. Interpretación de las representaciones gráficas.
Objetivos EspecíficosAplicar e interpretar las diferentes formas de recolectar, organizar y presentar datos de acuerdo a la escala de medición.
4
DEFINICIONES DE ESTADÍSTICA
Es una rama de la matemática aplicada, que tiene por objeto la recolección, organización, interpretación, análisis y presentación de datos numéricos sujetos a variación.
La Estadística se ocupa de los métodos y procedimientos para recoger, clasificar, resumir, hallar regularidades y analizar los datos, siempre y cuando la variabilidad e incertidumbre sea una causa intrínseca de los mismos; así como de realizar inferencias a partir de ellos, con la finalidad de ayudar a la toma de decisiones y en su caso formular predicciones.
5
ESTADÍSTICA
RECOPILAR ANALIZAR
ORGANIZARINTERPRETAR
6
DEFINICIONES DE ESTADÍSTICA
Podríamos por tanto clasificar la Estadística en: DESCRIPTIVA, cuando los resultados del
análisis no pretenden ir más allá del conjunto de datos, e
INFERENCIAL cuando el objetivo del estudio es derivar las conclusiones obtenidas a un conjunto de datos más amplio,
7
DEFINICIONES DE ESTADÍSTICA
Es decir que, La Estadística DESCRIPTIVA: Describe, analiza y
representa un grupo de datos utilizando métodos numéricos y gráficos que resumen y presentan la información contenida en ellos.
La Estadística INFERENCIAL: Apoyándose en el cálculo de probabilidades y a partir de datos muestrales, efectúa estimaciones, decisiones, predicciones u otras generalizaciones sobre un conjunto mayor de datos.
8
CONCEPTOS BÁSICOS
Conjunto de elementos con características similares presentes en un espacio definido y en un tiempo determinado.
POBLACIÓN O CONJUNTO UNIVERSAL
POBLACIÓN ESTADÍSTICA
Conjunto de DATOS numéricos que corresponden a la medición o conteo de alguna característica de los elementos de una población en un espacio definido y en un tiempo determinado.
9
CONCEPTOS BÁSICOS
Si el valor de una variable toma igual valor para todos los elementos de una población, este se denomina constante.
CONSTANTE
MUESTRA
Subconjunto representativo de una población.
10
CONCEPTOS BÁSICOS
Características que le son comunes a los elementos de una población y que varían de uno a otro.
Por ejemplo: el peso de cada uno de nosotros, el promedio de calificaciones de los integrantes de esta sección de clase, el número de horas que le dedicamos a leer la prensa semanalmente, el número de horas que le dedicamos a navegar en internet.
VARIABLE
OBSERVACIÓN
El valor que toma la variable en un momento determinado.
11
CONCEPTOS BÁSICOS
Función definida sobre los valores numéricos de características medibles de una población. Valor que caracteriza a una población como un todo.
PARÁMETRO
ESTADÍSTICO
Función definida sobre los valores numéricos de una muestra. Valor que caracteriza a una muestra.
Los PARÁMETROS son constantes y los ESTADÍSTICOS son variables.
12
ESTADÍSTICA
RECOPILAR ANALIZAR
ORGANIZARINTERPRETAR
13
DEFINICIONES DE ESTADÍSTICA
CENSOS: Cuando se estudia TODA la
población.
MUESTREO: cuando se estudian porciones representativas de una población .
RECOPILAR
14
CONCEPTOS BÁSICOS
Es aquella que se selecciona cuando a cada elemento de la población se le asigna la misma probabilidad de formar parte de la muestra.
MUESTRA AL AZAR SIMPLE
En un galpón de conejos para engorde se desea de un lote de 50 animales tomar el 16% para estudiar su peso. Se procede dándole a cada una de los animales la misma probabilidad de ser parte de la muestra.
POR EJEMPLO:
15
MUESTRA AL AZAR SIMPLE
16
MUESTRA AL AZAR SIMPLE12
3
4
5
6
78
17
MUESTRA AL AZAR SIMPLE
1 2
3
45
6
78
18
CONCEPTOS BÁSICOS
Es aquella que se selecciona cuando los elementos de la población se clasifican en función de los objetivos mismos del muestreo y luego de cada estrato se selecciona una muestra al azar simple.
Es importante señalar que no considerar el o los criterios de estratificación podría afectar el comportamiento de la variable bajo estudio.
MUESTRA ESTRATIFICADA
19
CONCEPTOS BÁSICOS
Se desea estudiar la producción de leche de un rebaño compuesto por varias razas.
Supongamos que de un rebaño de 200 animales debemos extraer una muestra de 20 animales.
MUESTRA ESTRATIFICADAPOR EJEMPLO:
20
MUESTRA ESTRATIFICADAPOBLACIÓN
23
27
2720
23
3017
33
14
7
92
6
103
8
11
14 15
1712
16
5 13
12
34
5 6 78
910
111213
14 1516 1718
192021
2223
242526 2
7
12 3
4567 8 910
11121314 15
1617
1819
20212223
12
3 45
67
8910 11
1213
1415
1617
18192021
23 2425
26
27
28
29
3022
13
15
1619
81
2
4
6
9
10
171823
2221
2014
1211
7
5 3
8 12
34
65
7119
1013
14
1512
1718
1620
19
22
7
8
11
18
199
1029
2827
26
25
24
64
3
16
15
33
1
1721
2032
31
305
2
14
1312
23
109
87
65
4
3
1
2
14
1516 17 18
1920
21
22
23
2425
26
27
1312
11
21 21
23
27 2720
2330
17
33
14
7
926
103
8
11
14 151712
16
5 13
12
34 5 6 78
910
111213
141516171819
202122 2
3
242526 2
7
12 3
4567 8 910
11121314 15
1617
1819
20212223
123 4
567 8
91011
121314
1516
171819
20212324
2526
27
2829
3022
13
15
16 198
12
4
6
9
101718
23
2221
2014
1211
7
5 3
8 12
3 465
7119
1013
14
1512
1718
16 20 19
22
7
8
11
18
199
1029
2827
26
25
24
64
3
16
15
33
1
1721
2032
31
305
2
14
1312
23
109
87
65
4
3
1
2
14
1516 17 18
1920
21
22
23
2425
26
27
1312
11
MUESTRA
22 22
23
27 2720
2330
17
33
14
7
926
103
8
11
14 151712
16
5 13
12
34 5 6 78
910
111213
141516171819
202122 2
3
242526 2
7
12 3
4567 8 910
11121314 15
1617
1819
20212223
123 4
567 8
91011
121314
1516
171819
20212324
2526
27
2829
3022
13
15
16 198
12
4
6
9
101718
23
2221
2014
1211
7
5 3
8 12
3 465
7119
1013
14
1512
1718
16 20 19
22
7
8
11
18
199
1029
2827
26
25
24
64
3
16
15
33
1
1721
2032
31
305
2
14
1312
23
109
87
65
4
3
1
2
14
1516 17 18
1920
21
22
23
2425
26
27
1312
11
MUESTRA
23 23
23
27 2720
2330
17
33
14
7
926
103
8
11
14 151712
16
5 13
12
34 5 6 78
910
111213
141516171819
202122 2
3
242526 2
7
12 3
4567 8 910
11121314 15
1617
1819
20212223
123 4
567 8
91011
121314
1516
171819
20212324
2526
27
2829
3022
13
15
16 198
12
4
6
9
101718
23
2221
2014
1211
7
5 3
8 12
3 465
7119
1013
14
1512
1718
16 20 19
22
7
8
11
18
199
1029
2827
26
25
24
64
3
16
15
33
1
1721
2032
31
305
2
14
1312
23
109
87
65
4
3
1
2
14
1516 17 18
1920
21
22
23
2425
26
27
1312
11
MUESTRA
24
COMPOSICIÓN DE UNA MUESTRA ESTRATIFICADA REPRESENTATIVA del 10%N; n=20
12
15
13
9
22
# DE ANIMALES
RAZA POBLACION MUESTRA
23 2
17 2
20 2
30 3
23 2
33 3
27 3
27 3
6
8
17
8
15
11
23
5
8
27
20
13
307
1
25
ESTADÍSTICA
RECOPILAR ANALIZAR
ORGANIZARINTERPRETAR
26
ESCALAS DE MEDICIÓN
Medir una variable trae como consecuencia
directa el pensar que tipo de respuesta tenemos bajo estudio.
En el nivel más bajo de abstracción,
podemos pensar que cualquier variable puede ser clasificada en cualitativa o cuantitativa. Es decir que, puede medirse como datos categóricos o como datos métricos.
ORGANIZAR
27
ESCALAS DE MEDICIÓN
Estado de ánimo
Estado del tiempo
Dirección del viento
VARIABLES CUALITATIVAS-DATOS CATEGÓRICOS
Color de las flores
28
ESCALAS DE MEDICIÓN
Concentraciones
Tiempo (Duración)
TemperaturaCaudal
VARIABLES CUANTITATIVAS-DATOS MÉTRICOS
29
Sin embargo a un nivel de abstracción más
elevado podemos decir que cualquier medición puede clasificarse como medida en cuatro tipos de escalas, a saber:
30
Escala nominal
En este tipo de escala, sólo se le asigna un nombre a
cada una de las posibles categorías de medición que se realiza.
Por ejemplo: cuando se evalúa el color de las flores de una especie, rojo, rosado, moteado y blanco, en este caso no existe ningún tipo de relación de jerarquía entre las distintas categorías.
Podríamos decir que con este tipo de escala lo que hacemos es los asignar valores de la respuesta en clases o categorías.
31
Escala ordinal
En este tipo de escala también se le asigna un nombre a cada una de las posibles categorías de medición que se realiza, pero en este caso existe una relación de jerarquía, un cierto orden, entre las distintas categorías. Razón por la cual hay una relación de importancia entre categorías.
Por ejemplo: El grado de recuperación de un paciente al aplicarle un tratamiento, en el que podemos tener como respuesta Nada, Poco, Moderado, Bueno, Muy Bueno.
A veces se representan este tipo de variables en escalas numéricas, por ejemplo, puntuar el dolor en una escala de 1 a 5. Debemos evitar sin embargo realizar operaciones algebraicas con estas cantidades, ¡Un dolor de intensidad 4 no duele el doble que otro de intensidad 2!
32
Escala de intervalo
En este tipo de escala las respuestas no sólo pueden ser ordenadas según una relación de importancia entre categorías, sino también se pueden establecer entre clases medidas de distancia, sin embargo para este tipo de medición tanto el cero como las medidas de distancia son arbitrarios.
Por ejemplo: El caso de la variable temperatura, donde según la escala que se utilice el cero grados tiene diferente significado.
33
Escala de proporción o razón
En este tipo de escala las respuestas corresponden a los números reales. Entre los valores observados de este tipo de mediciones no sólo pueden establecer relaciones de igualdad, orden o jerarquía, distancia y razón; en este caso el cero es real.
Por ejemplo: El caso del área, el rendimiento y el peso.
34
ESTADÍSTICA
RECOPILAR ANALIZAR
ORGANIZARINTERPRETAR
35
ANÁLISIS EXPLORATORIO DE DATOS
Aplicación de herramientas de observación exploratorias e informales a los datos con el fin de obtener una primera impresión de los mismos.
ANALIZARE INTERPRETAR
ANÁLISIS
GRÁFICO
ANÁLISIS
NUMÉRICO
36
ANÁLISIS EXPLORATORIO DE DATOS
Importancia del AED:
Proporciona métodos sencillos para organizar sistemáticamente los datos, prepararlos para su posterior análisis.
Permite la detección de fallos en el diseño y recogida de los mismos.
Permite detectar y evaluar el impacto de datos faltantes (missing) y atípicos (outliers).
Incluye la comprobación de los supuestos subyacentes en la mayor parte de las técnicas de análisis estadístico de datos (normalidad, linealidad, homocedasticidad).
37
ANÁLISIS EXPLORATORIO DE DATOS
Etapas del AED:
1. Preparación y organización de los datos. 2. Análisis gráfico y numérico
unidimensional. 3. Análisis gráfico y numérico bidimensional. 4. Evaluación de supuestos (normalidad,
linealidad, homocedasticidad).5. Identificación y evaluación de impacto de
datos atípicos (outliers).6. Evaluación del impacto potencial de datos
faltantes.
38
TÉCNICAS DE AGRUPACIÓN DE DATOS
Construcción e interpretación de Tablas de Distribución de Frecuencias (TDF) y Diagramas
39
TABULACIÓN DE DATOS-TABLAS DE DISTRIBUCIÓN DE FRECUENCIAS
En el caso de variables cualitativas o cuantitativas con pocos datos:
Clase fi
Tigres 55
Magallanes
35
Leones 45
Caribes 25
Cardenales
25
Tiburones 20
Aguilas 30
40
TABULACIÓN DE DATOS-TABLAS DE DISTRIBUCIÓN DE FRECUENCIAS
En el caso de variables cuantitativas:Consumo de agua (m3) de 40 familias de un
barrio ubicado en la zona urbana durante el mes de octubre.
Consumo de agua (m3)
4 8 8 13 15 20 10 19
9 18 17 16 16 29 17 23
3 17 25 10 18 29 6 23
11 23 10 21 21 6 22 18
13 23 12 23 17 22 18 27
41
TABULACIÓN DE DATOS-TABLAS DE DISTRIBUCIÓN DE FRECUENCIAS
Ordenar los valores de menor a mayor
Consumo de agua (m3)
3 4 6 6 8 8 9 10
10 10 11 12 13 13 15 16
16 17 17 17 17 18 18 18
18 19 20 21 21 22 22 23
23 23 23 23 25 27 29 29
42
CONSTRUCCIÓN DE LA TDF
1. Calcular la Amplitud de VariaciónAV=VMax-Vmin
2. Determinar el número de clasesK=(5,20)
3. Calcular el Intervalo de ClasesIC=AV/K
4. Construir la tabla siguiente:
43
Título: Tabla de distribución de frecuencias del consumo de agua (m3) de 40 familias de un barrio ubicado en la zona urbana durante el mes de octubre.
k Li CC Ls fi fr Fi Fr
1
2
3
4
5
CONSTRUCCIÓN DE LA TDF
44
REPRESENTACIONES GRÁFICAS
El aserto “una imagen vale más que mil palabras” se puede aplicar al ámbito de la estadística descriptiva diciendo que “un gráfico bien elaborado vale más que mil tablas de frecuencias”.
ANALIZARE INTERPRETAR
45
HISTOGRAMA Y POLÍGONO DE FRECUENCIAS
46
SIMETRIA DE LA DISTRIBUCIÓN DE UN CONJUNTO DE DATOS
Simétrica
47
SIMETRIA DE LA DISTRIBUCIÓN DE UN CONJUNTO DE DATOS
Asimétrica positiva
48
SIMETRIA DE LA DISTRIBUCIÓN DE UN CONJUNTO DE DATOS
Asimétrica negativa
49
KURTOSIS DE LA DISTRIBUCIÓN DE UN CONJUNTO DE DATOS
Platicúrtica
50
KURTOSIS DE LA DISTRIBUCIÓN DE UN CONJUNTO DE DATOS
Mesocúrtica
51
KURTOSIS DE LA DISTRIBUCIÓN DE UN CONJUNTO DE DATOS
Leptocúrtica
52
POLÍGONO DE FRECUENCIAS ACUMULADAS U OJIVA
53
POLÍGONO DE FRECUENCIAS ACUMULADAS U OJIVA
Polígono de frecuencias acumuladas ojiva menos
que.
Polígono de frecuencias acumuladas ojiva menos
que.
Polígono de frecuencias acumuladas ojiva más
que.
Polígono de frecuencias acumuladas ojiva más
que.
54
Gráficos para variables cuantitativas
Diagrama de tallo y hoja
TALLO HOJA FRECUENCIA
34557
7370050348020559313
120340626379731455580
4085962575
94708581482
55
OTRAS REPRESENTACIONES GRÁFICAS UNIVARIADAS
56
Gráficos para variables cualitativas
Diagrama de sectores (torta)
57
Gráficos para variables cualitativas
Diagrama de sectores (torta)
58
Gráficos para variables cualitativas
Diagrama de barras
59
Gráficos para variables cualitativas
Pictogramas
60
Gráficos para variables cuantitativas
Casos en los que NO se deben utilizar los Gráficos de dispersión XY o scatterplots
1 2 3 40
50
100
150
200
250
158 162 168195
55 52 6080
Estatura y peso de 4 estudiantes de Estadística
Estatura (cm) Peso (kg)
Estudiante
61
Gráficos para variables cuantitativas
Casos en los que NO se deben utilizar los Gráficos de dispersión XY o scatterplots
1 2 3 40
50
100
150
200
250
158 162 168195
55 52 6080
Estatura y peso de 4 estudiantes de Estadística
Estatura (cm) Peso (kg)
EstudianteX
62
Gráficos para variables cuantitativas
Gráficos de barras
1 2 3 40
50
100
150
200
250
158 162 168195
55 52 6080
Estatura y peso de 4 estudiantes de Estadística
Estatura (cm) Peso (kg)
Estudiante
63
Gráficos para variables cuantitativas
Diagrama de caja o box-plot
Valores Atípicos Outliers
Promedio
Límite superior admisible
Límite inferior admisible
Mediana (P50% o Q2)
Tercer cuartil ( P75% o Q3)
Primer cuartil ( P25% o Q1)
64
ALGUNAS REPRESENTACIONES GRÁFICAS BIVARIADAS
Gráficos para variables cual.-cuant.
65
Gráficos para variables cual.-cuant.
66
Gráficos para variables cual.-cuant.
Diagrama de caja o box-plot por categoría
N =
ESTACIÓN
Convencional
Automática
TM
IN
28
26
24
22
20
18
16
14
12
10
67
Gráficos para variables cuant.-cuant.
Gráficos de dispersión XY o scatterplots
20 40 60 80 100
0
1
0 2
0 3
0 40
Con
cen
tració
n d
e o
zon
o
Temperatura
Y=f(X)
.
.
..
68
Especializados:Gráficos para variables cual.-cuant.
69
EJEMPLO -ESTUDIO CONJUNTO DE DOS VARIABLES
Altura ( cm) Peso ( kg)
162 61
154 60
180 78
158 62
171 66
169 60
166 54
176 84
163 68
... ...
En cada fila tenemos los datos de un individuo, cada columna representa los valores que toma una variable sobre cada individuo.
Dichas observaciones pueden ser representadas en un diagrama de dispersión (‘scatterplot’). En ellos, cada individuo es un punto cuyas coordenadas son los valores de las variables.
Nuestro objetivo será intentar reconocer a partir del mismo si hay relación entre las variables, de qué tipo, y si es posible predecir el valor de una de ellas en función de la otra.
70
OBS ALTURA
PESO OBS PESO ALTURA
OBS ALTURA
PESO
1 160 95 11 96 178 21 190 120
2 183 88 12 99 166 22 169 81
3 162 123 13 64 170 23 175 90
4 184 100 14 49 168 24 184 50
5 180 66 15 66 185 25 166 79
6 183 98 16 87 175
7 165 43 17 89 180
8 189 90 18 42 156
9 168 50 19 150 167
10 150 44 20 180 190
71
DIAGRAMA DE PUNTOS
140
160
180
200
0 20 40 60
ESTUDIANTE
AL
TU
RA
(cm
)
DIAGRAMA DE PUNTOS
30
80
130
180
0 20 40 60
ESTUDIANTE
PE
SO
(K
g)
72
120
140
160
180
200
1 6 11 16 21 26
ALTURA (cm
)
ESTUDIANTE
ALTURA DE LOS ESTUDIANTES DE LA SECCION 03
PESO DE LOS ESTUDIANTES DE LA SECCION 03
20
70
120
170
220
0 5 10 15 20 25 30
ESTUDIANTE
PE
SO
(kg)
¿Será lo correcto unir esos puntos?
73
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
DIAGRAMAS DE DISPERSIÓN O NUBE DE PUNTOS
Mid
e 1
87 c
m.
Mide 161 cm.
Pesa 76 kg.
Pesa 50 kg.
Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de dispersión.
74
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
RELACIÓN ENTRE VARIABLES.Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de dispersión.
Parece que el peso aumenta con la
altura
75
No correlación
30
80
130
180
230
280
330
140 150 160 170 180 190 200
CÓMO RECONOCER RELACIÓN DIRECTA E INVERSA.
Fuerte relacióndirecta.
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
Cierta relacióninversa
0
10
20
30
40
50
60
70
80
140 150 160 170 180 190 200
Para valores de X por encima de la media tenemos valores de Y por encima y por debajo en proporciones similares. No correlación.
Para los valores de X mayores que la media le corresponden valores de Y menores. Esto es relación inversa o decreciente.
•Para los valores de X mayores que la media le corresponden valores de Y mayores también.
•Para los valores de X menores que la media le corresponden valores de Y menores también.
•Esto se llama relación directa o creciente entre X e Y.
76
A REPASAR!!!