microsoft word - cursobioestad_i_cap1 copia

25
Bioestadística I -G.Cavada Ch. 1 MAGISTER E EPIDEMIOLOGIA BIOESTADISTICA I GABRIEL CAVADA CHACO SATIAGO – CHILE 2009

Upload: nhgg33322

Post on 02-Jan-2016

5 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Microsoft Word - Cursobioestad_i_cap1 Copia

Bioestadística I -G.Cavada Ch. 1

MAGISTER E EPIDEMIOLOGIA

BIOESTADISTICA I

GABRIEL CAVADA CHACO

SATIAGO – CHILE 2009

Page 2: Microsoft Word - Cursobioestad_i_cap1 Copia

Bioestadística I -G.Cavada Ch. 2

Page 3: Microsoft Word - Cursobioestad_i_cap1 Copia

Bioestadística I -G.Cavada Ch. 3

1. Introducción a la Estadística

¿Qué es Estadística?, etimológicamente el vocablo

deriva de Estado y significa "contar los bienes del Estado", los

albores de esta disciplina se encuentran en la Antigüedad, las

autoridades del Egipto faraónico contaban sus bienes y

registraban la profundidad del río Nilo en cada estación del

año, recuérdese también que Jesucristo nace en Belén,

porque un edicto del emperador romano ordena un censo,

para conocer el número y características de los habitantes del

Imperio, así las personas debían reportarse a sus lugares de

nacimiento y San José es nacido en Belén de Judá.

Sin embargo la disciplina, desde aquellos lejanos

tiempos hasta nuestros días ha ampliado su quehacer,

perfeccionado tanto sus métodos, que hoy es la disciplina

mas usada por el resto de las Ciencias, lo que ha conllevado

su vertiginoso desarrollo, sobretodo en el siglo XX.

Así, hoy decimos que la Estadística es la disciplina que

se ocupa de:

1) la recolección, organización y procesamiento de

datos, y

2) la obtención de inferencias a partir de un volumen de

datos cuando se observa sólo una parte.

Page 4: Microsoft Word - Cursobioestad_i_cap1 Copia

Bioestadística I -G.Cavada Ch. 4

1.1.- Método Científico y Estadístico.

El hombre busca en forma inclaudicable una explicación

racional a los fenómenos que lo rodean. El Método Científico

le ayuda a organizar adecuadamente la observación de los

hechos y a enunciar las leyes que los rigen. En la gran

mayoría de los casos reales el enunciado de las leyes se

complica porque el fenómeno estudiado tiene una

multicausalidad y esta contingencia se trata de superar con el

Método Estadístico.

Método Científico es un procedimiento que se aplica al

ciclo completo de la investigación, desde el enunciado del

problema hasta la evaluación de los resultados obtenidos. Al

aplicar el Método Científico se distinguen las siguientes

etapas:

1) Detección y Enunciado del Problema: Es la

descripción de una situación problema o es el

planteamiento de una pregunta.

2) Formulación de la Hipótesis: Es una respuesta o

explicación al problema enunciado, que se hace en

base al conocimiento científico existente.

Page 5: Microsoft Word - Cursobioestad_i_cap1 Copia

Bioestadística I -G.Cavada Ch. 5

3) Deducción de una consecuencia verificable: Como la

hipótesis es una explicación general, a menudo ocurre

que no se puede investigar directamente, luego se

procede a deducir, lógicamente, consecuencias

particulares de la hipótesis.

4) Verificación de la consecuencia: En ciencias exactas

esto se realiza usando lógica pura, sin embargo en

ciencias no exactas la verificación se hace a través de

la recolección de información o la observación de los

fenómenos, lo que hace necesario la aplicación de

Procedimientos Estadísticos.

5) Conclusión: Consiste en la aceptación, modificación o

total rechazo de la hipótesis planteada.

Método Estadístico es el que proporciona las técnicas

necesarias para

Recolectar y Analizar la información requerida. El Método

Estadístico distingue dos etapas: la Planificación y la

Ejecución.

En la Planificación se deben considerar los siguientes

aspectos:

1) Definición de objetivos: es la descripción formal del

problema que da origen a la investigación. Se debe

Page 6: Microsoft Word - Cursobioestad_i_cap1 Copia

Bioestadística I -G.Cavada Ch. 6

señalar detalladamente lo que se va a investigar, el

qué, cómo, dónde, cuándo y por qué.

2) Universo del estudio: es la definición del conjunto

desde el cual se extraerá la información y hacia el

que se generalizarán las conclusiones obtenidas.

3) Diseño de la muestra: la Teoría de Muestreo

garantiza que la información que generaremos nos

permita proyectar válidamente las conclusiones al

Universo de interés.

4) Definición de las unidades de observación (que

objetos observaremos), las escalas de clasificación y

las unidades de medida.

5) Preparación del Plan de Tabulación y Análisis de la

información: aquí se determinan las formas de

presentar y analizar la información recolectada.

En la fase de Ejecución se pueden reconocer los

siguientes aspectos:

1) Recolección de la información.

2) Elaboración de la información.

3) Análisis de los resultados.

Page 7: Microsoft Word - Cursobioestad_i_cap1 Copia

Bioestadística I -G.Cavada Ch. 7

1.2.- Unidad de análisis, atributos, variables, escalas de

medida, población y muestra.

Unidad de análisis: Una vez definido el problema que

se va a investigar, se definen naturalmente los objetos que

serán observados (seres humanos, consultorios, hígados,

etc.), los que llamaremos en lenguaje técnico unidades de

análisis.

Atributos: Teniendo definidas las unidades de análisis,

obviamente ellas presentan características que nos importan

para nuestro estudio: Por ejemplo, si es de nuestro interés

analizar antropométricamente un grupo de personas,

podemos consignar algunas características esenciales tales

como:

- Sexo

- Edad

- Peso

- Estatura

- Nivel socio económico

- Estado civil, etc.

Estas características las denominaremos atributos.

Page 8: Microsoft Word - Cursobioestad_i_cap1 Copia

Bioestadística I -G.Cavada Ch. 8

Variables: Cuando se han definido los atributos a

estudiar, podemos ya observar unidades de análisis

especificadas y los atributos quedan consignados como

características únicas del objeto que estamos estudiando. Por

ejemplo si observamos una persona definida podemos

consignar:

- Sexo: Femenino

- Edad: 40 años cumplidos

- Peso: 66 kilos.

- Estatura: 1.65 metros

- Nivel socio económico: bajo

- Estado civil: casada

Cuando los atributos ya han sido evaluados, reciben el

nombre de Variables del estudio.

Escalas de medida: Cuando procedemos a medir las

variables del estudio, debemos tener presente que estamos

consignando valores con unidades de medida y por

consiguiente introduciendo unidades de medida. Estas

escalas de medidas pueden ser: Nominales, Ordinales o

Intervalares (o de Razón). Estas escalas tienen diferente

Poder de Clasificación. Presentemos el siguiente esquema:

Page 9: Microsoft Word - Cursobioestad_i_cap1 Copia

Bioestadística I -G.Cavada Ch. 9

Escala de

Medida

Poder de Clasificación

Nominal Sólo es capaz de nombrar o etiquetar la unidad

de análisis. Por ejemplo: Sexo, Estado civil

Ordinal Es capaz de nombrar pero además introduce una

jerarquía en las unidades observadas. Por

ejemplo: Nivel socioeconómico

Intervalar Es capaz de nombrar, jerarquizar pero además

permite hacer comparaciones matemáticas entre

las unidades de análisis. Por ejemplo: Edad,

Peso, Estatura

Estas escalas de medida son inherentes a la variable

que se mide. Puntualicemos en las variables de escala

intervalar, pues debido a su naturaleza numérica estas se

pueden clasificar en variables Discretas o Continuas. Las

variables discretas, formalmente están relacionadas con los

números Naturales (0,1,2,3,....) es decir, su función es Contar,

como ejemplo tenemos: Cantidad de Hijos, Cantidad de

caries, Días trabajados etc. Las variables continuas,

formalmente están relacionadas con los números Reales, su

función es medir, en el sentido físico, como ejemplo tenemos:

la Masa, la longitud, el Tiempo, etc...

Page 10: Microsoft Word - Cursobioestad_i_cap1 Copia

Bioestadística I -G.Cavada Ch. 10

Una importante observación es que una variable

inherentemente continua, por razones operativas se

discretiza, esto es: si a Ud. le preguntan por su Edad, su

respuesta estará en Años Cumplidos (30 años, 23 años,..),

sin embargo la Edad de una persona es una variable que

indica tiempo de vida, si se quisiera ser exacto se tendría que

contestar 30.213 años (30 años con 2 meses, 16 días, 16

horas y 19 minutos) lo que parece impracticable. La precisión

con que se mide una variable va de acuerdo al interés de la

investigación, como se señaló en el párrafo de Método

Estadístico.

Población: Llamamos Población al Conjunto Universo

de las unidades de análisis, la población puede ser de

tamaño finito o infinito. Por ejemplo, si se desea averiguar el

tamaño de las células hepáticas de un paciente, la población

en estudio son Todas las células del hígado de dicho

paciente, esta población en la práctica es infinita. Si se desea

analizar los egresos hospitalarios del Hospita Dr. Sótero del

Río correspondientes al año 2008, la población es finita.

Muestra: Como se puede apreciar, en muchos casos

trabajar con una población completa puede resultar muy

costoso o simplemente impracticable, de aquí la necesidad de

Page 11: Microsoft Word - Cursobioestad_i_cap1 Copia

Bioestadística I -G.Cavada Ch. 11

tomar una Muestra de la Población, formalmente una muestra

es un SUBCONJUNTO FINITO de la Población, que debe

cumplir características ineludibles para lograr que las

conclusiones estadísticas sean válidas, así las características

de una "buena muestra" son:

1) Aleatoria: garantiza que los elementos que

componen la muestra fueron escogidos

completamente al azar, es decir no hay predilección

alguna por incluir o excluir determinada unidad de

análisis.

2) El tamaño de la muestra, que es el número de

unidades de análisis que se deben escoger, debe

ser lo suficientemente grande como para garantizar

la generalidad de los resultados.

La determinación del tamaño de una muestra no es un

problema trivial y constituye una especialización de la

estadística llamada Teoría de Muestreo.

Page 12: Microsoft Word - Cursobioestad_i_cap1 Copia

Bioestadística I -G.Cavada Ch. 12

2. Estadística Descriptiva

Se llama estadística descriptiva, al conjunto de técnicas

que permiten ordenar, resumir y representar la información

recolectada, como su nombre lo indica, sólo pretende hacer

una descripción cuantitativa del fenómeno sin proyectar, aún,

sus resultados a la universalidad del fenómeno.

2.1.- Recolección, ordenación y representación de datos:

Obtenida la información que se desea analizar es necesario:

Ordenarla, para ello utilizaremos técnicas que dependen de la

naturaleza de la variable y su escala de medida;

Representarla en tablas y/o gráficos que nos permitan una

primera impresión de la muestra en análisis, también los

gráficos y tablas se adecuan a la naturaleza de la variable y

su escala de medida. El detalle de este tema lo trataremos a

continuación con ejemplos prácticos:

Page 13: Microsoft Word - Cursobioestad_i_cap1 Copia

Bioestadística I -G.Cavada Ch. 13

2.2.- Datos en escalas nominales y ordinales, tablas de

frecuencia, gráfico de barras y circular.

Consideremos la siguiente situación: Para saber la

apreciación que tienen 30 usuarios de un consultorio, acerca

de la atención recibida se indaga lo siguiente:

Notemos que la variable sexo está medida en escala

NOMINAL y calidad de atención ORDINAL y la edad en

escala intervalar (de razón). Los datos recogidos se muestran

a continuación:

Atributo Etiqueta

Sexo 0: masculino 1:femenino

Edad En años cumplidos

Calidad de atención 1: mala

2: regular

3: buena

4: muy buena

Page 14: Microsoft Word - Cursobioestad_i_cap1 Copia

Bioestadística I -G.Cavada Ch. 14

persona sexo calaten edad persona sexo calaten edad 1 0 3 45 16 1 4 31 2 1 4 44 17 0 2 39 3 1 4 31 18 1 4 57 4 1 4 22 19 0 2 48 5 1 4 32 20 1 4 19 6 0 1 32 21 0 2 16 7 1 4 35 22 0 3 33 8 0 1 27 23 0 3 37 9 1 4 23 24 1 4 36

10 1 4 27 25 1 4 42 11 0 2 45 26 0 3 26 12 0 1 45 27 0 3 35 13 0 3 58 28 1 4 51 14 1 4 35 29 0 1 32 15 1 4 35 30 1 4 46

Al tabular la variable Sexo, es decir contabilizar las

mujeres y los hombres vaciando el resultado en una tabla se

obtiene:

. tab sexo

0:mascu |

1:femen | Freq. Percent Cum.

------------+-----------------------------------

0 | 14 46.67 46.67

1 | 16 53.33 100.00

------------+-----------------------------------

Total | 30 100.00

La información que contiene es la siguiente: de las 30

personas encuestadas: 14 o bien el 46.7% son hombres y 16

Page 15: Microsoft Word - Cursobioestad_i_cap1 Copia

Bioestadística I -G.Cavada Ch. 15

o bien el 53.3% son mujeres. La columna Cum. No tiene

interpretación en esta tabla.

Esta información se puede representar en un gráfico de

barras o en un gráfico circular, como se muestra a

continuación:

. tab sexo, gen(Sexo)

0:mascu |

1:femen | Freq. Percent Cum.

------------+-----------------------------------

0 | 14 46.67 46.67

1 | 16 53.33 100.00

------------+-----------------------------------

Total | 30 100.00

. graph bar (mean) Sexo1 (mean) Sexo2

0

.05

.1

.15

.2

.25

.3

.35

.4

.45

.5

.55

.6

Hombres Mujeres

Page 16: Microsoft Word - Cursobioestad_i_cap1 Copia

Bioestadística I -G.Cavada Ch. 16

. graph pie Sexo1 Sexo2, plabel(_all percent)

46.67%

53.33%

Hombres Mujeres

Notemos que el gráfico circular presenta una gran

ventaja visual frente al gráfico de barras, por esta razón se

prefiere para representar variables medidas en escala

nominal.

Page 17: Microsoft Word - Cursobioestad_i_cap1 Copia

Bioestadística I -G.Cavada Ch. 17

Al tabular la Calidad de la atención, sin distinguir el Sexo

del encuestado, se obtiene la siguiente tabla:

. tab calaten

1:mala 2: |

regu 3:buen |

4: muy bu | Freq. Percent Cum.

------------+-----------------------------------

1 | 3 10.00 10.00

2 | 4 13.33 23.33

3 | 6 20.00 43.33

4 | 17 56.67 100.00

------------+-----------------------------------

Total | 30 100.00

La información que contiene es la siguiente: 3 p o bien el

10% de las personas encuestadas encuentran mala la

atención, 4 personas o bien el 13.3% de las personas estiman

que la atención es regular, 6 o bien el 20% cree que la

atención es buena y 17 o bien el 56.7% de los encuestados

encuentra la atención muy buena.. Notemos que la forma de

la tabla es idéntica a la anterior, sin embargo ahora los

números que contiene la columna Cum tienen significado,

esto se debe a que la variable está medida en escala ordinal,

es decir aparece una jerarquía en la percepción de la "calidad

de la atención" que se refleja en su codificación, así el 43.3%,

destacado en negritas y cursiva cree que la atención es “a lo

más Buena” o bien es “Buena o menos que buena”. Esta

información también se puede representar en un gráfico de

Page 18: Microsoft Word - Cursobioestad_i_cap1 Copia

Bioestadística I -G.Cavada Ch. 18

barras o en un gráfico circular, sin embargo en un gráfico

circular se pierde la jerarquía establecida por la escala de

medición de la variable: . histogram calaten, discrete percent gap(5)

0

5

10

15

20

25

30

35

40

45

50

55

60

Pe

rcen

t

1 2 3 41:mala 2: regu 3:buen 4: muy bu

10%

13.33%

20%

56.67%

Mala Regular

Buena Muy buena

Page 19: Microsoft Word - Cursobioestad_i_cap1 Copia

Bioestadística I -G.Cavada Ch. 19

2.3.- Datos en escala intervalar, diagrama de Tallo y hoja,

tablas e histograma.

La ordenación de datos en escala intervalar, actualmente

se realiza usando el algoritmo llamado Diagrama de tallo y

hoja, inventado por Tukey en 1977, consiste en mantener la

decena del dato y clasificar la unidad numérica, si se desea

clasificar los números 58, 67, 42, 57, 59 y 45 se procede

como sigue:

4 2 5

5 7 8 9

6 7

Notemos que las unidades, por cada decena, han sido

puestas en orden, así observamos que los números

ordenados ascendentemente son 42, 45, 57, 58, 59 y 67.

Veamos el ejemplo: Se tienen las edades, en años

cumplidos, de las 30 personas encuestadas se muestran a

continuación:

Page 20: Microsoft Word - Cursobioestad_i_cap1 Copia

Bioestadística I -G.Cavada Ch. 20

45 45 16 44 45 33 31 58 37 22 35 36 32 35 42 32 31 26 35 39 35 27 57 51 23 48 32 27 19 46

Si ordenamos estos datos usando el diagrama de Tallo y

hoja se obtiene:

. stem edad, line(1)

Stem-and-leaf plot for edad (años cumplidos)

1* | 69

2* | 23677

3* | 1122235555679

4* | 2455568

5* | 178

Ahora es fácil observar, por ejemplo que:

1) la persona con menor edad tiene 16 años

2) la persona de mayor edad tiene 58 años

3) existen tres personas con 45 años, etc.

Page 21: Microsoft Word - Cursobioestad_i_cap1 Copia

Bioestadística I -G.Cavada Ch. 21

La información anterior se puede representar en una

tabla, pero como se

verá la pérdida de información que se produce es bastante

considerable, pues se debe agrupar la información. La tabla

para las Edades se muestra a continuación:

Edad | Freq. Percent Cum.

------------+-----------------------------------

10-20 | 2 6.67 6.67

20-30 | 5 16.67 23.33

30-40 | 13 43.33 66.67

40-50 | 7 23.33 90.00

50-60 | 3 10.00 100.00

------------+-----------------------------------

Total | 30 100.00

Como se observa, la pérdida de información radica en

que, si bien sabemos que hay 5 individuos con edad entre 20

y 29 años, no es posible al observar la tabla cuál es la edad

exacta de estas personas. Volvemos a observar que la

tabulación es similar a la hecha para variables ordinales, las

columnas Percent y Cum tienen igual significado que antes,

pero además se pueden hacer otras comparaciones

numéricas.

La información de la tabla puede representarse

gráficamente, a este gráfico se le llama Histograma:

Page 22: Microsoft Word - Cursobioestad_i_cap1 Copia

Bioestadística I -G.Cavada Ch. 22

0

5

10

15

20

25

30

Pe

rcen

t

10 20 30 40 50 60años cumplidos

Page 23: Microsoft Word - Cursobioestad_i_cap1 Copia

Bioestadística I -G.Cavada Ch. 23

Al graficar las frecuencias acumuladas se obtiene un

gráfico llamado OJIVA, que se muestra a continuación:

6.67

23.33

66.67

90100

0

20

40

60

80

100

10-20 20-30 30-40 40-50 50-60

Edad

Fre

c.

Ac

um

ula

da

en

%

Page 24: Microsoft Word - Cursobioestad_i_cap1 Copia

Bioestadística I -G.Cavada Ch. 24

• Frecuencias ajustadas: Cuando se desea construir un

histograma en que la tabulación presenta intervalos

de clase de distinta longitud, es necesario ajustar por

dichos largos usando la siguiente fórmula:

k

kk l

ff =

*

Revisemos el siguiente ejemplo: La siguiente tabla

muestra la frecuencia de accidentes caseros por rango de

edad:

Edad frec. largo frec.*

0 - 3 30 3.0 10.00

3 - 5 50 2.0 25.00

5 - 10 40 5.0 8.00

10 - 30 60 20.0 3.00

30 - 60 40 30.0 1.33

60 - 95 35 35.0 1.00

Page 25: Microsoft Word - Cursobioestad_i_cap1 Copia

Bioestadística I -G.Cavada Ch. 25

30

50

40

60

4035

0

10

20

30

40

50

60

70

0 - 3 3 - 5 5 - 10 10 - 30 30 - 60 60 - 95

Edad en años

de

ac

cid

en

tes

10.00

25.00

8.00

3.001.33 1.00

0.00

5.00

10.00

15.00

20.00

25.00

30.00

0 - 3 3 - 5 5 - 10 10 - 30 30 - 60 60 - 95

Edad en años

fre

cu

en

cia

aju

sta

da