construcción de modelos con regresión y correlación miles, j. & shevlin, m. applying...

Post on 25-Jan-2016

213 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Construcción de modeloscon

regresión y correlación

Miles, J. & Shevlin, M. Applying regression & correlation: a guide for strudents and researchers. Los Angeles: Sage. Cap. 1

Temas1. Modelos2. Modelo de mínimos cuadrados3. Error estándar de la media4. Modelamiento de relaciones5. Modelo de regresión lineal

a) La línea del mejor ajusteb) Utilización del modelo estimado para predecirc) Intervalo de confianza para βd) β estandarizado

6. Correlación7. Varianza explicada

1. Modelos

MODELORepresentación parsimoniosa o

simple de un fenómeno.

Comúnmente, no es una representación perfecta.

Modelos en estadística

= 1.72

ENRIQUE PEÑA NIETO

1,72CM

DATOS

MODELOCON UN PARÁMETRO

Modelos

DATOS = MODELO + ERROR

= +

Modelos

PARÁMETROS: Números que integran el modelo

DATOS = MODELO + ERROR

Perfecta representación de los datos o parámetros.

= Duplicado

Modelo ≠ Los datos

“Modelo perfecto”que no resume los datos

2. Modelo de mínimos cuadrados

MEDIA: Modelo simple

Modelo de los datos en un parámetro.

Con un solo número se obtiene una idea general del conjunto total de números.

Modelo de mínimos cuadrados

MEDIA

Modelo con la menor probabilidad de error.

Puntaje de una persona = Media +(-) error

Modelo de mínimos cuadrados

Modelo de mínimos cuadrados

MEDIA

Puntaje = Media +(-) error

X1- e1 =

X2- e2 =

X3

-

e3 =

Xiei =

-

i : la ecuación se repite para cada uno de los individuos. (Muchas veces se omite la i).

La diferencia entre el

modelo y los datos es el

error

Modelo de mínimos cuadrados

14 20 -6

15 20 -5

15 20 -5

15 20 -5

16 20 -4

20 20 0

23 20 3

23 20 3

25 20 5

34 20 14

DATOS = MODELO + ERROR

RESIDUALES: Error o

diferencia

entre

el puntaje predicho por

el modelo

y

el puntaje obtenido

Modelo de mínimos cuadrados

14 20 -6 36

15 20 -5 25

15 20 -5 25

15 20 -5 25

16 20 -4 16

20 20 0 0

23 20 3 9

23 20 3 9

25 20 5 25

34 20 14 196

∑ 0 366

2( )

Cálculo del error total

Modelo de mínimos cuadrados

= 36.60 Media del erroral cuadradopor persona

√ 36.60 = 6.05 Media del error

Media de las desviacionesrespecto de la media

¿𝟑𝟔𝟔𝟏𝟎

Modelo de mínimos cuadrados

Desviación estándar(de, ds, sd, s): Medida de error

Medida de qué tanto varían los puntajes

respecto de la media

Modelo de mínimos cuadrados

Err

or

(DE)

Media

Media verdadera

¿Por qué la media es un modelo de mínimos cuadrados?

Archivo de Excel

Modelo de mínimos cuadrados

Suma de los residuales al cuadrado

DATOS = MODELO + ERRORMedia

Da el valor de error más bajo posible

Estimador demínimos cuadrados

MEDIA: Método para modelar (resumir, describir) un conjunto de datos,

que minimiza el error (desviación estándar).

3. Error estándar de la media

Valor de losparámetrosdel modelo

para la muestra

Estimaciónpara la población

Error estándar de

la media:

De la media de la población

Qué tan cerca está la media de la muestra

Error estándar de la media

Muchas muestras posibles, muchas medias posibles

1.2 1.4 1.6 1.8 2.0average mean attachment level (mm)

means from samples of 100 patients

Nivel de apego al tratamiento

Error estándar de la mediaDistribución muestral de medias

100 muestras de 50 pacientes cada una

0 2 4 6 8 10

mean = 1.78

0 2 4 6 8 10

mean = 1.55

0 2 4 6 8 10

mean = 1.45

0 2 4 6 8 10

mean = 1.6

0 2 4 6 8 10

mean = 1.73

0 2 4 6 8 10

mean = 1.6

0 2 4 6 8 10

mean = 1.56

0 2 4 6 8 10

mean = 1.67

0 2 4 6 8 10

mean = 1.44

0 2 4 6 8 10

mean = 1.7

0 2 4 6 8 10

mean = 1.53

0 2 4 6 8 10

mean = 1.62

0 2 4 6 8 10

mean = 1.66

0 2 4 6 8 10

mean = 1.38

0 2 4 6 8 10

mean = 1.45

0 2 4 6 8 10

mean = 1.7

0 2 4 6 8 10

mean = 1.64

0 2 4 6 8 10

mean = 1.61

0 2 4 6 8 10

mean = 1.59

0 2 4 6 8 10

mean = 1.72

Sólo vemos una

Error estándar de la media

Desviación estándar de la distribución muestral=

Error estándar de la media

Error estándar de la media

ES( ) = o

Error estándar de la media

1 ES

3 ES

IC: Intervalo de confianza1 ES _ 68%2 ES _ 95%3 ES _ 99%

Error estándar de la media

Intervalo de confianza

Error estándar de la media

Límite superior

Límite inferiorEn tabla de puntajes Z:90/2 = 45%Z para .4500 = 1.645

En tabla de puntajes Z:99/2 = 49.5%Z para .4950 = 2.575

Intervalo de confianza

Error estándar de la media

Intervalo de confianza al 95%

El número promedio de libros leídos por los estudiante en la siguiente muestra que tomemos de la población de la cual tomamos nuestra muestra (cuya media fue 2) será entre 1.45 a 2.55; sólo tendremos 5% de probabilidades de estar equivocados.

CI 95% = 1.96 x ES±CI 95% superior = 2 + (1.96 x 0.23) = 2.45

CI 95% inferior = 2 - (1.96 x 0.23) = 1.55

Datos: = 2 libros leídosES = 0.2395%: Z = 1.96

4. Modelamiento de relaciones

Interés: Modelar la relación entre 2 o más variables.Técnica: Análisis de regresión.

Objetivo: Estimar encuánto aumenta la calificación con cada libro leído.

Modelamiento de relaciones

xInteligencia

YActitud hacia el

estudio

110 2.6

120 3.0

100 2.5

90 1.5

130 3.2

110 3.4Ac

titud

hac

ia e

l est

udio

Y

InteligenciaX

Estimar en cuánto se incrementa el puntaje de actitud con cada punto de inteligencia.

Modelamiento de relaciones

y = mx + c

x, y: variablesm: pendiente de la líneac: intercepto de y

• valor de y cuando x = 0• punto donde la línea cruza el

eje de las x

Modelamiento de relaciones

y = mx + c

Para representar una relación (lineal) entre dos variables

se requieren dos parámetros

m, cPermiten saber cómo es la líneaque relaciona las dos variables

y = a + bx

a , b

5. Modelo de regresión lineal

Para variables que posiblemente están asociadas (X y Y) asumimos el modelo:

Y = α + β·X + ε

• α y β son coeficientes desconocidos.• X y Y son las variables que observamos.• ε es la parte de Y que X no explica. Es el error aleatorio que define los valores de la vida real.

Regresión lineal

y = bx + c + e

x

ε

Y = α + βX

(x, y)

Análisis de regresión: Encontrar la línea de mejor ajuste

α

β

Y = α + β·X + ε

c = b0 = a = α = intercepto y

m = b = β = pendiente = línea de regresión

a) La línea del mejor ajusteEncontrar la línea de mejor ajuste

self-reported cigarettes smoked/daym

ea

n a

tta

ch

me

nt

leve

l (m

m)

10 20 30

12

34

56

smoking amount and attachment level (28 smokers)

Estimación de losmínimos cuadrados de la línea

self-reported cigarettes smoked/day

me

an

att

ach

me

nt

leve

l (m

m)

10 20 30

12

34

56

smoking amount and attachment level (28 smokers)

Con un parámetro: Con dos parámetros:a y b

self-reported cigarettes smoked/day

me

an

att

ach

me

nt

leve

l (m

m)

10 20 30

12

34

56

smoking amount and attachment level (28 smokers)

Consumo de tabaco y pérdida de fijación dental (28 fumadores)

Número de cigarros fumados por día (autorreporte)

Pérd

ida

med

ia d

e fij

ació

n de

ntal

(m

m)

La línea del mejor ajuste¿Qué tan cercanamente se ajusta cada una de las posibles líneas a los datos observados?

La línea del mejor ajuste

x

La línea de mejor ajuste se define como aquélla en la que la suma de los cuadrados

de los residuales es mínima.

Residuales:Distancias verticales de todos los puntos (x,y) a la línea.

Error

Ejemplo

¿Cuál es la asociación entre:

Consumo de tabaco Pérdida de fijación dental?y

EjemploLínea de ajuste de la asociación entreel consumo de tabaco (número de cigarros fumados por día) y la pérdida de fijación dental (en mm).N = 28 fumadores.

self-reported cigarettes smoked/day

me

an

att

ach

me

nt

leve

l (m

m)

10 20 30

12

34

56

smoking amount and attachment level (28 smokers)

Número de cigarros fumados por día (autorreporte)

Pérd

ida

med

ia d

e fij

ació

n de

ntal

(m

m)

Ejemplo: Pérdida de fijación dental y cigarros fumados por día

self-reported cigarettes smoked/day

me

an

att

ach

me

nt

leve

l (m

m)

10 20 30

12

34

56

smoking amount and attachment level (28 smokers)

Consumo de tabaco y pérdida de fijación dental (28 fumadores)

Número de cigarros fumados por día (autorreporte)

Pérd

ida

med

ia d

e fij

ació

n de

ntal

(m

m)

Ejemplo: Pérdida de fijación dental y cigarros fumados por día

Este resultado de SPSS dice que:

a = 2.319, b = 0.067

La línea de mejor ajuste es:

Co effi ci en tsa

2. 319 . 635 3. 653 . 001

. 067 . 032 . 380 2. 098 . 046

(Const ant )

ci garet t es sm oked/ day

Model

1

B St d. Er r or

Unst andardi zedCoef f i ci ent s

Bet a

St andardi zedCoef f i ci ent s

t Si g.

Dependent Var i abl e: m ean at t achm ent l evela.

α

β

Nivel promedio de fijación dental Cigarros fumados por día

Y = 2.319 + 0.067 × X

• Y = 2.319 + 0.067 × X puede interpretarse como:

Ejemplo: Pérdida de fijación dental y cigarros fumados por día

También :“Cada paquete fumado al día (20 cigarros) se asocia con una pérdida adicional de 0.067 × 20 = 1.34 mm de fijación dental."

“Cada cigarro fumado extra por día se asocia con una pérdida adicional de 0.067 mm de fijación dental."

Este resultado de SPSS dice que:

a = 2.319, b = 0.067

La línea de mejor ajuste es: Y = 2.319 + 0.067 × X

Donde Y = nivel promedio de fijación y

X = cigarros fumados por día.

Co effi ci en tsa

2. 319 . 635 3. 653 . 001

. 067 . 032 . 380 2. 098 . 046

(Const ant )

ci garet t es sm oked/ day

Model

1

B St d. Er r or

Unst andardi zedCoef f i ci ent s

Bet a

St andardi zedCoef f i ci ent s

t Si g.

Dependent Var i abl e: m ean at t achm ent l evela.

α

β

La línea del mejor ajuste

¿Qué nivel de fijación dental tendrá alguien que fuma 30 cigarros al día?

La mejor estimación del nivel de pérdida de fijación dental promedio de las personas que fuman 30 cigarrillos

/ día es:

Y = 2.319 + 0.067 × X

Y = 2.319 + (0.067 x 30) = 4.329 mm

b) Utilización del modelo estimadopara predecir

c) Intervalo de confianza para β

Un intervalo de confianza de 1-α para β es:

IC = b ± 1.96 X ES

b: Pendiente de la línea de regresión% de confianza: 95%ES: Error estándar

Rango de valores entre los cuales es probable encontrar el valor verdadero de β (el de la población).

Intervalo de confianza para βEjemplo: Cigarros fumados por día y pérdida de fijación dental

ESbIC 96.1%95

032.0056.2067.0 IC

IC Límite inferior: 0.001

El intervalo de confianza de 95% para β es:0.001 - 0.133

b = 0.067

SE = 0.032

666.0067.0 IC

IC Límite superior: 0.133

d) β estandarizadoProblema!!

La estimación de β depende de la métrica utilizada.No es posible comparar con otros estudios.

Solución Estandarizar las métricas, utilizar puntaje z.Ya se pueden hacer comparaciones, independientemente de cómo se hayan medido la variables.**Sólo en regresión múltiple, no en regresión múltiple.

Estandarización

Puntajes originales o brutosX

Puntaje Z: Número de desviaciones estándar en el que se encuentra ubicado un puntaje en relación con la media de la distribución.

Puntajes estandarizadosZ

En SPSS: Analizar – Descriptivos – Guardar valores tipificados como variables

β estandarizado

Distribución de puntajes Z

Distribución depuntajes originales o brutos

X

Distribución depuntajes estandarizados

Z

Media = 0Desviación estándar = 1

β estandarizado

Puntaje X

Puntaje Z

De Z a X D

e X

a Z

β estandarizado

Tabla de Z

Los estadísticos han construido tablas que indica el valor de estas proporciones para cada posible puntaje Z.

Calculadoras electrónicas de puntajes Z y áreas bajo la curva:• http://davidmlane.com/hyperstat/normal_distribution.html• http://psych.colorado.edu/~mcclella/java/normal/normz.html

Z %%Z

Z

% Z

β estandarizado

β estandarizadoCon variables estandarizadas: el intercepto (a) siempre será cero.Si se elimina, el modelo queda más sencillo.

Lo que importa es la pendiente (b).

Un incremento en una unidad

en el eje de las Xse asocia con un incremento de

___ en el eje de las Y.

B estandariza

do = .49

β estandarizado¡¡¡Sorpresa!!!

Casi todas las pruebas estadísticas se basan en principios similares y están muy relacionadas entre sí.

b estandarizado = r

6. Correlación

Cuantificación lineal de la relación entre dos variables.• Cuantificación porque convierte la relación en un número.

Mientras más fuerte sea la relación, mayor será el valor absoluto de la correlación.

• Lineal porque asume que la relación forma una línea recta.• Entre dos variables porque describe qué tanto cambia una

variable (X) dado un cambio en una segunda variable (Y).

Un índice de correlación (r) es un número entre -1.00 y +1.00 que describe la relación entre dos variables.

Correlación negativa No correlación Correlación positivaCuando una variable sube

la otra bajaCuando un cambio en una de las variables no afecta

a la otra

Cuando una variable sube, la otra también sube y

viceversa

Número negativo -

Cero Número positivo+

DIRECCIÓN DE LA RELACIÓN

Máxima posible: 1 (o -1)

Correlación

Dispersigramas

Correlación no linealCorrelación lineal

Correlación

El índice de correlación de Pearson es el coeficiente más utilizado para estudiar el grado de relación lineal existente entre dos variables cuantitativas.

A finales del siglo XIX, Sir Francis Galton introdujo el concepto de correlación.

De aquí partió el desarrollo del coeficiente de correlación creado por Karl Pearson y otros científicos biométricos.

Correlación

Covarianza

= Covarianza de la variable X con Y

= Diferencia de cada uno de los puntajes de X en relación con su media

= Diferencia de cada uno de los puntajes de Y en relación con su media

= Covarianza de la variable x con y

= Desviación estándar de la variable x

= Desviación estándar de la variable y

= Correlación de la variable x con y

Como una medida de asociación, la r está basada en la covarianza.

Correlación

𝑟 𝑥𝑦=𝑆𝑥𝑦

𝑆𝑥𝑆 𝑦

𝑟 𝑥𝑦

𝑆𝑥𝑦

𝑆𝑥

𝑆 𝑦

Correlación

Ejemplo

r =9.27

14 - 1

a) Dirección de la relación: Positivab) Magnitud de la relación: de moderada a fuertec) Una variable no causa la otra

Correlación

(zx zy)r = N - 1

= 0.71

Con puntajes estandarizados

7. Varianza explicada

s = de2

Varianza: medida de la variabilidad de una variable,qué tanto se desvían de la media.

Media

Varianza total:Promedio de las desviaciones cuadradas de los puntajes respecto de la línea.

SCtotal:Suma de cuadrados total

Varianza explicadaLínea de mejor ajuste de mínimos cuadrados(con a y b)

Calificación predicha

Calificación real

Residual

Desviación del modeloResidual = Valor real - Valor predicho Media Desviación

estándarVarianza

Valores predichos

Valores residuales

Varianza explicada

Varianza de los valores

predichos

Varianza de los residuales

Varianza no explicada por

el modelo

Varianza total+ =

Varianza explicada por

el modelo

Varianza explicada

Varianza de los valores predichos

Varianza de los valores reales

Proporción de la varianza de Y explicada por X=

Proporción de la varianza de Y explicada por X

= r

top related