microsoft word - cursobioestad_i_cap1 copia
TRANSCRIPT
Bioestadística I -G.Cavada Ch. 1
MAGISTER E EPIDEMIOLOGIA
BIOESTADISTICA I
GABRIEL CAVADA CHACO
SATIAGO – CHILE 2009
Bioestadística I -G.Cavada Ch. 2
Bioestadística I -G.Cavada Ch. 3
1. Introducción a la Estadística
¿Qué es Estadística?, etimológicamente el vocablo
deriva de Estado y significa "contar los bienes del Estado", los
albores de esta disciplina se encuentran en la Antigüedad, las
autoridades del Egipto faraónico contaban sus bienes y
registraban la profundidad del río Nilo en cada estación del
año, recuérdese también que Jesucristo nace en Belén,
porque un edicto del emperador romano ordena un censo,
para conocer el número y características de los habitantes del
Imperio, así las personas debían reportarse a sus lugares de
nacimiento y San José es nacido en Belén de Judá.
Sin embargo la disciplina, desde aquellos lejanos
tiempos hasta nuestros días ha ampliado su quehacer,
perfeccionado tanto sus métodos, que hoy es la disciplina
mas usada por el resto de las Ciencias, lo que ha conllevado
su vertiginoso desarrollo, sobretodo en el siglo XX.
Así, hoy decimos que la Estadística es la disciplina que
se ocupa de:
1) la recolección, organización y procesamiento de
datos, y
2) la obtención de inferencias a partir de un volumen de
datos cuando se observa sólo una parte.
Bioestadística I -G.Cavada Ch. 4
1.1.- Método Científico y Estadístico.
El hombre busca en forma inclaudicable una explicación
racional a los fenómenos que lo rodean. El Método Científico
le ayuda a organizar adecuadamente la observación de los
hechos y a enunciar las leyes que los rigen. En la gran
mayoría de los casos reales el enunciado de las leyes se
complica porque el fenómeno estudiado tiene una
multicausalidad y esta contingencia se trata de superar con el
Método Estadístico.
Método Científico es un procedimiento que se aplica al
ciclo completo de la investigación, desde el enunciado del
problema hasta la evaluación de los resultados obtenidos. Al
aplicar el Método Científico se distinguen las siguientes
etapas:
1) Detección y Enunciado del Problema: Es la
descripción de una situación problema o es el
planteamiento de una pregunta.
2) Formulación de la Hipótesis: Es una respuesta o
explicación al problema enunciado, que se hace en
base al conocimiento científico existente.
Bioestadística I -G.Cavada Ch. 5
3) Deducción de una consecuencia verificable: Como la
hipótesis es una explicación general, a menudo ocurre
que no se puede investigar directamente, luego se
procede a deducir, lógicamente, consecuencias
particulares de la hipótesis.
4) Verificación de la consecuencia: En ciencias exactas
esto se realiza usando lógica pura, sin embargo en
ciencias no exactas la verificación se hace a través de
la recolección de información o la observación de los
fenómenos, lo que hace necesario la aplicación de
Procedimientos Estadísticos.
5) Conclusión: Consiste en la aceptación, modificación o
total rechazo de la hipótesis planteada.
Método Estadístico es el que proporciona las técnicas
necesarias para
Recolectar y Analizar la información requerida. El Método
Estadístico distingue dos etapas: la Planificación y la
Ejecución.
En la Planificación se deben considerar los siguientes
aspectos:
1) Definición de objetivos: es la descripción formal del
problema que da origen a la investigación. Se debe
Bioestadística I -G.Cavada Ch. 6
señalar detalladamente lo que se va a investigar, el
qué, cómo, dónde, cuándo y por qué.
2) Universo del estudio: es la definición del conjunto
desde el cual se extraerá la información y hacia el
que se generalizarán las conclusiones obtenidas.
3) Diseño de la muestra: la Teoría de Muestreo
garantiza que la información que generaremos nos
permita proyectar válidamente las conclusiones al
Universo de interés.
4) Definición de las unidades de observación (que
objetos observaremos), las escalas de clasificación y
las unidades de medida.
5) Preparación del Plan de Tabulación y Análisis de la
información: aquí se determinan las formas de
presentar y analizar la información recolectada.
En la fase de Ejecución se pueden reconocer los
siguientes aspectos:
1) Recolección de la información.
2) Elaboración de la información.
3) Análisis de los resultados.
Bioestadística I -G.Cavada Ch. 7
1.2.- Unidad de análisis, atributos, variables, escalas de
medida, población y muestra.
Unidad de análisis: Una vez definido el problema que
se va a investigar, se definen naturalmente los objetos que
serán observados (seres humanos, consultorios, hígados,
etc.), los que llamaremos en lenguaje técnico unidades de
análisis.
Atributos: Teniendo definidas las unidades de análisis,
obviamente ellas presentan características que nos importan
para nuestro estudio: Por ejemplo, si es de nuestro interés
analizar antropométricamente un grupo de personas,
podemos consignar algunas características esenciales tales
como:
- Sexo
- Edad
- Peso
- Estatura
- Nivel socio económico
- Estado civil, etc.
Estas características las denominaremos atributos.
Bioestadística I -G.Cavada Ch. 8
Variables: Cuando se han definido los atributos a
estudiar, podemos ya observar unidades de análisis
especificadas y los atributos quedan consignados como
características únicas del objeto que estamos estudiando. Por
ejemplo si observamos una persona definida podemos
consignar:
- Sexo: Femenino
- Edad: 40 años cumplidos
- Peso: 66 kilos.
- Estatura: 1.65 metros
- Nivel socio económico: bajo
- Estado civil: casada
Cuando los atributos ya han sido evaluados, reciben el
nombre de Variables del estudio.
Escalas de medida: Cuando procedemos a medir las
variables del estudio, debemos tener presente que estamos
consignando valores con unidades de medida y por
consiguiente introduciendo unidades de medida. Estas
escalas de medidas pueden ser: Nominales, Ordinales o
Intervalares (o de Razón). Estas escalas tienen diferente
Poder de Clasificación. Presentemos el siguiente esquema:
Bioestadística I -G.Cavada Ch. 9
Escala de
Medida
Poder de Clasificación
Nominal Sólo es capaz de nombrar o etiquetar la unidad
de análisis. Por ejemplo: Sexo, Estado civil
Ordinal Es capaz de nombrar pero además introduce una
jerarquía en las unidades observadas. Por
ejemplo: Nivel socioeconómico
Intervalar Es capaz de nombrar, jerarquizar pero además
permite hacer comparaciones matemáticas entre
las unidades de análisis. Por ejemplo: Edad,
Peso, Estatura
Estas escalas de medida son inherentes a la variable
que se mide. Puntualicemos en las variables de escala
intervalar, pues debido a su naturaleza numérica estas se
pueden clasificar en variables Discretas o Continuas. Las
variables discretas, formalmente están relacionadas con los
números Naturales (0,1,2,3,....) es decir, su función es Contar,
como ejemplo tenemos: Cantidad de Hijos, Cantidad de
caries, Días trabajados etc. Las variables continuas,
formalmente están relacionadas con los números Reales, su
función es medir, en el sentido físico, como ejemplo tenemos:
la Masa, la longitud, el Tiempo, etc...
Bioestadística I -G.Cavada Ch. 10
Una importante observación es que una variable
inherentemente continua, por razones operativas se
discretiza, esto es: si a Ud. le preguntan por su Edad, su
respuesta estará en Años Cumplidos (30 años, 23 años,..),
sin embargo la Edad de una persona es una variable que
indica tiempo de vida, si se quisiera ser exacto se tendría que
contestar 30.213 años (30 años con 2 meses, 16 días, 16
horas y 19 minutos) lo que parece impracticable. La precisión
con que se mide una variable va de acuerdo al interés de la
investigación, como se señaló en el párrafo de Método
Estadístico.
Población: Llamamos Población al Conjunto Universo
de las unidades de análisis, la población puede ser de
tamaño finito o infinito. Por ejemplo, si se desea averiguar el
tamaño de las células hepáticas de un paciente, la población
en estudio son Todas las células del hígado de dicho
paciente, esta población en la práctica es infinita. Si se desea
analizar los egresos hospitalarios del Hospita Dr. Sótero del
Río correspondientes al año 2008, la población es finita.
Muestra: Como se puede apreciar, en muchos casos
trabajar con una población completa puede resultar muy
costoso o simplemente impracticable, de aquí la necesidad de
Bioestadística I -G.Cavada Ch. 11
tomar una Muestra de la Población, formalmente una muestra
es un SUBCONJUNTO FINITO de la Población, que debe
cumplir características ineludibles para lograr que las
conclusiones estadísticas sean válidas, así las características
de una "buena muestra" son:
1) Aleatoria: garantiza que los elementos que
componen la muestra fueron escogidos
completamente al azar, es decir no hay predilección
alguna por incluir o excluir determinada unidad de
análisis.
2) El tamaño de la muestra, que es el número de
unidades de análisis que se deben escoger, debe
ser lo suficientemente grande como para garantizar
la generalidad de los resultados.
La determinación del tamaño de una muestra no es un
problema trivial y constituye una especialización de la
estadística llamada Teoría de Muestreo.
Bioestadística I -G.Cavada Ch. 12
2. Estadística Descriptiva
Se llama estadística descriptiva, al conjunto de técnicas
que permiten ordenar, resumir y representar la información
recolectada, como su nombre lo indica, sólo pretende hacer
una descripción cuantitativa del fenómeno sin proyectar, aún,
sus resultados a la universalidad del fenómeno.
2.1.- Recolección, ordenación y representación de datos:
Obtenida la información que se desea analizar es necesario:
Ordenarla, para ello utilizaremos técnicas que dependen de la
naturaleza de la variable y su escala de medida;
Representarla en tablas y/o gráficos que nos permitan una
primera impresión de la muestra en análisis, también los
gráficos y tablas se adecuan a la naturaleza de la variable y
su escala de medida. El detalle de este tema lo trataremos a
continuación con ejemplos prácticos:
Bioestadística I -G.Cavada Ch. 13
2.2.- Datos en escalas nominales y ordinales, tablas de
frecuencia, gráfico de barras y circular.
Consideremos la siguiente situación: Para saber la
apreciación que tienen 30 usuarios de un consultorio, acerca
de la atención recibida se indaga lo siguiente:
Notemos que la variable sexo está medida en escala
NOMINAL y calidad de atención ORDINAL y la edad en
escala intervalar (de razón). Los datos recogidos se muestran
a continuación:
Atributo Etiqueta
Sexo 0: masculino 1:femenino
Edad En años cumplidos
Calidad de atención 1: mala
2: regular
3: buena
4: muy buena
Bioestadística I -G.Cavada Ch. 14
persona sexo calaten edad persona sexo calaten edad 1 0 3 45 16 1 4 31 2 1 4 44 17 0 2 39 3 1 4 31 18 1 4 57 4 1 4 22 19 0 2 48 5 1 4 32 20 1 4 19 6 0 1 32 21 0 2 16 7 1 4 35 22 0 3 33 8 0 1 27 23 0 3 37 9 1 4 23 24 1 4 36
10 1 4 27 25 1 4 42 11 0 2 45 26 0 3 26 12 0 1 45 27 0 3 35 13 0 3 58 28 1 4 51 14 1 4 35 29 0 1 32 15 1 4 35 30 1 4 46
Al tabular la variable Sexo, es decir contabilizar las
mujeres y los hombres vaciando el resultado en una tabla se
obtiene:
. tab sexo
0:mascu |
1:femen | Freq. Percent Cum.
------------+-----------------------------------
0 | 14 46.67 46.67
1 | 16 53.33 100.00
------------+-----------------------------------
Total | 30 100.00
La información que contiene es la siguiente: de las 30
personas encuestadas: 14 o bien el 46.7% son hombres y 16
Bioestadística I -G.Cavada Ch. 15
o bien el 53.3% son mujeres. La columna Cum. No tiene
interpretación en esta tabla.
Esta información se puede representar en un gráfico de
barras o en un gráfico circular, como se muestra a
continuación:
. tab sexo, gen(Sexo)
0:mascu |
1:femen | Freq. Percent Cum.
------------+-----------------------------------
0 | 14 46.67 46.67
1 | 16 53.33 100.00
------------+-----------------------------------
Total | 30 100.00
. graph bar (mean) Sexo1 (mean) Sexo2
0
.05
.1
.15
.2
.25
.3
.35
.4
.45
.5
.55
.6
Hombres Mujeres
Bioestadística I -G.Cavada Ch. 16
. graph pie Sexo1 Sexo2, plabel(_all percent)
46.67%
53.33%
Hombres Mujeres
Notemos que el gráfico circular presenta una gran
ventaja visual frente al gráfico de barras, por esta razón se
prefiere para representar variables medidas en escala
nominal.
Bioestadística I -G.Cavada Ch. 17
Al tabular la Calidad de la atención, sin distinguir el Sexo
del encuestado, se obtiene la siguiente tabla:
. tab calaten
1:mala 2: |
regu 3:buen |
4: muy bu | Freq. Percent Cum.
------------+-----------------------------------
1 | 3 10.00 10.00
2 | 4 13.33 23.33
3 | 6 20.00 43.33
4 | 17 56.67 100.00
------------+-----------------------------------
Total | 30 100.00
La información que contiene es la siguiente: 3 p o bien el
10% de las personas encuestadas encuentran mala la
atención, 4 personas o bien el 13.3% de las personas estiman
que la atención es regular, 6 o bien el 20% cree que la
atención es buena y 17 o bien el 56.7% de los encuestados
encuentra la atención muy buena.. Notemos que la forma de
la tabla es idéntica a la anterior, sin embargo ahora los
números que contiene la columna Cum tienen significado,
esto se debe a que la variable está medida en escala ordinal,
es decir aparece una jerarquía en la percepción de la "calidad
de la atención" que se refleja en su codificación, así el 43.3%,
destacado en negritas y cursiva cree que la atención es “a lo
más Buena” o bien es “Buena o menos que buena”. Esta
información también se puede representar en un gráfico de
Bioestadística I -G.Cavada Ch. 18
barras o en un gráfico circular, sin embargo en un gráfico
circular se pierde la jerarquía establecida por la escala de
medición de la variable: . histogram calaten, discrete percent gap(5)
0
5
10
15
20
25
30
35
40
45
50
55
60
Pe
rcen
t
1 2 3 41:mala 2: regu 3:buen 4: muy bu
10%
13.33%
20%
56.67%
Mala Regular
Buena Muy buena
Bioestadística I -G.Cavada Ch. 19
2.3.- Datos en escala intervalar, diagrama de Tallo y hoja,
tablas e histograma.
La ordenación de datos en escala intervalar, actualmente
se realiza usando el algoritmo llamado Diagrama de tallo y
hoja, inventado por Tukey en 1977, consiste en mantener la
decena del dato y clasificar la unidad numérica, si se desea
clasificar los números 58, 67, 42, 57, 59 y 45 se procede
como sigue:
4 2 5
5 7 8 9
6 7
Notemos que las unidades, por cada decena, han sido
puestas en orden, así observamos que los números
ordenados ascendentemente son 42, 45, 57, 58, 59 y 67.
Veamos el ejemplo: Se tienen las edades, en años
cumplidos, de las 30 personas encuestadas se muestran a
continuación:
Bioestadística I -G.Cavada Ch. 20
45 45 16 44 45 33 31 58 37 22 35 36 32 35 42 32 31 26 35 39 35 27 57 51 23 48 32 27 19 46
Si ordenamos estos datos usando el diagrama de Tallo y
hoja se obtiene:
. stem edad, line(1)
Stem-and-leaf plot for edad (años cumplidos)
1* | 69
2* | 23677
3* | 1122235555679
4* | 2455568
5* | 178
Ahora es fácil observar, por ejemplo que:
1) la persona con menor edad tiene 16 años
2) la persona de mayor edad tiene 58 años
3) existen tres personas con 45 años, etc.
Bioestadística I -G.Cavada Ch. 21
La información anterior se puede representar en una
tabla, pero como se
verá la pérdida de información que se produce es bastante
considerable, pues se debe agrupar la información. La tabla
para las Edades se muestra a continuación:
Edad | Freq. Percent Cum.
------------+-----------------------------------
10-20 | 2 6.67 6.67
20-30 | 5 16.67 23.33
30-40 | 13 43.33 66.67
40-50 | 7 23.33 90.00
50-60 | 3 10.00 100.00
------------+-----------------------------------
Total | 30 100.00
Como se observa, la pérdida de información radica en
que, si bien sabemos que hay 5 individuos con edad entre 20
y 29 años, no es posible al observar la tabla cuál es la edad
exacta de estas personas. Volvemos a observar que la
tabulación es similar a la hecha para variables ordinales, las
columnas Percent y Cum tienen igual significado que antes,
pero además se pueden hacer otras comparaciones
numéricas.
La información de la tabla puede representarse
gráficamente, a este gráfico se le llama Histograma:
Bioestadística I -G.Cavada Ch. 22
0
5
10
15
20
25
30
Pe
rcen
t
10 20 30 40 50 60años cumplidos
Bioestadística I -G.Cavada Ch. 23
Al graficar las frecuencias acumuladas se obtiene un
gráfico llamado OJIVA, que se muestra a continuación:
6.67
23.33
66.67
90100
0
20
40
60
80
100
10-20 20-30 30-40 40-50 50-60
Edad
Fre
c.
Ac
um
ula
da
en
%
Bioestadística I -G.Cavada Ch. 24
• Frecuencias ajustadas: Cuando se desea construir un
histograma en que la tabulación presenta intervalos
de clase de distinta longitud, es necesario ajustar por
dichos largos usando la siguiente fórmula:
k
kk l
ff =
*
Revisemos el siguiente ejemplo: La siguiente tabla
muestra la frecuencia de accidentes caseros por rango de
edad:
Edad frec. largo frec.*
0 - 3 30 3.0 10.00
3 - 5 50 2.0 25.00
5 - 10 40 5.0 8.00
10 - 30 60 20.0 3.00
30 - 60 40 30.0 1.33
60 - 95 35 35.0 1.00
Bioestadística I -G.Cavada Ch. 25
30
50
40
60
4035
0
10
20
30
40
50
60
70
0 - 3 3 - 5 5 - 10 10 - 30 30 - 60 60 - 95
Edad en años
Nº
de
ac
cid
en
tes
10.00
25.00
8.00
3.001.33 1.00
0.00
5.00
10.00
15.00
20.00
25.00
30.00
0 - 3 3 - 5 5 - 10 10 - 30 30 - 60 60 - 95
Edad en años
fre
cu
en
cia
aju
sta
da