3. regresión lineal - etsii.upm.es · 3. regresión lineal curso 2011-2012 estadística regresión...

68
3. Regresión lineal Curso 2011-2012 Estadística 2 Regresión Lineal Regresión simple consumo y peso de automóviles Núm. Obs. Peso Consumo (i) kg litros/100 km 1 981 11 2 878 12 3 708 8 4 1138 11 5 1064 13 6 655 6 7 1273 14 8 1485 17 9 1366 18 10 1351 18 11 1635 20 12 900 10 13 888 7 14 766 9 15 981 13 16 729 7 17 1034 12 18 1384 17 19 776 12 20 835 10 21 650 9 22 956 12 23 688 8 24 716 7 25 608 7 26 802 11 27 1578 18 28 688 7 29 1461 17 30 1556 15 0 5 10 15 20 25 500 700 900 1100 1300 1500 1700 Peso (Kg) Consumo (litros/100 Km)

Upload: doandiep

Post on 19-Sep-2018

231 views

Category:

Documents


0 download

TRANSCRIPT

3. Regresión lineal

Curso 2011-2012

Estadística

2 Regresión Lineal

Regresión simple consumo y peso de automóviles

Núm. Obs. Peso Consumo(i) kg litros/100 km

1 981 11

2 878 12

3 708 8

4 1138 11

5 1064 13

6 655 6

7 1273 14

8 1485 17

9 1366 18

10 1351 18

11 1635 20

12 900 10

13 888 7

14 766 9

15 981 13

16 729 7

17 1034 12

18 1384 17

19 776 12

20 835 10

21 650 9

22 956 12

23 688 8

24 716 7

25 608 7

26 802 11

27 1578 18

28 688 7

29 1461 17

30 1556 15

0

5

10

15

20

25

500 700 900 1100 1300 1500 1700

Peso (Kg)

Consu

mo (litros/100 Km)

3 Regresión Lineal

ix

iy

x10

Modelo

osdesconocid parámetros:,, 2

10

),0(, 210 Nuuxy iiii

4 Regresión Lineal

Hipótesis del modelo

Linealidad yi = 0+ 1xi + ui

Normalidad yi|xi N ( 0+ 1xi,

2)

Homocedasticidad Var [yi|xi] =

2

Independencia Cov [yi, yk] = 0

2

1

0

Parámetros

5 Regresión Lineal

Modelo

),0(, 210 Nuuxy iiii

yi : Variable dependiente

xi : Variable independiente

ui : Parte aleatoria

0

6 Regresión Lineal

Estimación

xyx

yx

n

xx

n

xxyy

nxxnyx

xy

xxyxxxyd

dM

xnyxyd

dM

xyM

i

ii

n

i

i

n

i

ii

i

n

i

ii

iiii

n

i

iii

ii

n

i

ii

n

i

ii

101

1

2

11

2

10

1

10

2

10

1

10

0

10

1

10

0

1

2

1010

;)var(

),cov(

)())((

0)(

0)(

)(),(

7 Regresión Lineal

Estimación: máxima verosimilitud

xyx

yx

n

xx

n

xxyy

nxxnyx

xy

xxyxxxyd

dL

xnyxyd

dL

xynn

lL

xyl

i

ii

n

ii

n

iii

i

n

iii

iiii

n

iiii

ii

n

iii

n

iii

n

iiinn

101

1

2

11

210

1

10

210

1102

0

101

1020

1

2102

2

210

210

1

21022/

210

;)var(

),cov(

)())((

0)(1

0)(1

)(2

1log

2)2log(

2

),,(log),,(

)(2

1

2

1),,( exp

8 Regresión Lineal

Estimación 2 : máxima verosimilitud

n

xy

xyn

d

dL

xynn

L

n

iii

n

iii

n

iii

1

210

2

1

210422

1

2102

2210

)(

0)(2

11

2

)(2

1log

2)2log(

2),,(

20

01

2

2

1

1

10

n

e

s

xe

e

xye

n

i

i

Rn

i

ii

n

i

i

iii

9 Regresión Lineal

Estimación

n

i i

n

i ii

i

ii

xx

yyxx

x

yx

xy

1

2

11

10

)(

))((

)var(

),cov(

n

iii xy

1

2

10 )(Mín

Mínimos cuadrados

n

iiinnxyMax

1

2

1022/)(

2

1

2

1exp

Máxima verosimilitud

10 Regresión Lineal

xy 10

Recta de regresión

x

y

xy 10

Pendiente

1

11 Regresión Lineal

ResiduoPrevistoValor observadoValor

10 iii exy

ix

iy

ii xy 10

ie

Residuos

12 Regresión Lineal

Ejemplo: estimación Núm. Obs. Peso Consumo Predicción Residuos

(i) kg litros/100 km

1 981 11 11,44 -0,44

2 878 12 10,23 1,77

3 708 8 8,23 -0,23

4 1138 11 13,28 -2,28

5 1064 13 12,41 0,59

6 655 6 7,61 -1,61

7 1273 14 14,86 -0,86

8 1485 17 17,35 -0,35

9 1366 18 15,95 2,05

10 1351 18 15,78 2,22

11 1635 20 19,11 0,89

12 900 10 10,49 -0,49

13 888 7 10,35 -3,35

14 766 9 8,91 0,09

15 981 13 11,44 1,56

16 729 7 8,48 -1,48

17 1034 12 12,06 -0,06

18 1384 17 16,16 0,84

19 776 12 9,03 2,97

20 835 10 9,72 0,28

21 650 9 7,55 1,45

22 956 12 11,14 0,86

23 688 8 8,00 0,00

24 716 7 8,33 -1,33

25 608 7 7,06 -0,06

26 802 11 9,34 1,66

27 1578 18 18,44 -0,44

28 688 7 8,00 -1,00

29 1461 17 17,07 -0,07

30 1556 15 18,18 -3,18

0

5

10

15

20

25

500 700 900 1100 1300 1500 1700

Peso (Kg)

Consu

mo (litros/100 Km)

;0117.0071.0 ii xy 38.22Rs

13 Regresión Lineal

Propiedades de 1

nn

n

ii

x

i

n

ii

x

n

iii

x

n

iii

xx

ii

ywywywyns

xx

yxxns

yxxns

yyxxnss

yx

22111

2

12

12

1221

11

1),cov(

0

21

2

2

21

2

1

2

21212121

121

11

11111

01

x

n

i i

x

n

i i

n

i i

x

n

i i

x

n

i ii

x

n

i ii

x

i

n

i i

n

i i

x

n

i i

nsxx

nsw

xxns

xxxns

xxxns

xxxns

xw

xxns

w

2

x

ii

ns

xxw

14 Regresión Lineal

son v.a. independientes 1,y

0)var(),cov(

111111

1

2

1

2

1

2122111

2

1

21

n

i

i

T

T

n

nnn

T

n

n

wn

y

y

y

y

wwwywywyw

y

y

y

nnny

ny

ny

ny

wYa

Yw

Ya

15 Regresión Lineal

Distribución de 1

2

22

1

2

22

2

2

21

2

1

22111

110

102211

22111

22111

2

10

)(

)][(][][][

][][

)()(

)][(][][][

][][

normales de lineal Comb.

),(

x

n

ii

inn

nn

iii

iinn

nn

nn

ii

nsw

yVarywyVarwyVarw

ywywywVarVar

xww

xyEyEwyEwyEw

ywywywEE

ywywyw

xNy

2

2

11 ,xns

N

16 Regresión Lineal

Modelo en diferencias a la

media

)(

)(

)(

1

1

1

10

10

xxyy

exxyy

exxyyxy

exy

ii

iii

iiiiii

17 Regresión Lineal

Distribución de 0

2

22

00

2

22

0

010

10

1

2

2

11

2

10

1,

1]var[

][][][

ntesindependieson ,

),(

),(

x

x

x

s

x

n

s

x

n

ExyEE

Normalxy

y

nsN

nxNy

N

18 Regresión Lineal

R 2

222

2

21

2

)2(

nR

n

ii

sne

0

0

),0(

222

12

2

21

2

21010

ii

in

ni i

n

ni i

i

iiiiii

xe

eeu

Nu

exyuxy

19 Regresión Lineal

Contraste principal de regresión:

¿depende y de x?

0:

0:

11

10

H

H

ix

iy

ix

iy

iii uxy 10 ii uy 0

H0 es falso

x e y están relacionados

H0 es cierto

x e y no están relacionados

20 Regresión Lineal

ii xy 100:

0:

11

10

H

H

Ho rechaza Se;

)1,0(

),(

2/;211

1

21111

2

2

11

n

x

R

n

x

R

x

x

tt

sn

st

t

sn

sN

sn

nsN

Contraste sobre la pendiente

1

21 Regresión Lineal

ii xy 100:

0:

01

00

H

H

Ho rechaza Se

;

1

))1(,(

2/;20

2

2

00

2

22

00

n

x

R

x

tt

s

x

n

st

s

x

nN

Contraste: ordenada en el origen

22 Regresión Lineal

Descomposición de la

variabilidad en regresión

VNEVEVT

iy

iyy

iyyy

iy

iyy

iyyy

yiy

iy

iyy

iy

iy

e

iy

xy

uxy

n

i

n

i

n

ii

i

i

iii

iii

1

2

1

2

1

2

10

10

)()()(

sumando)y cuadrado al elevando()()()(

) restando()(

23 Regresión Lineal

Coeficiente de determinación R2

221

1

2211 )(:)( x

n

i

iii nsxxVExxyy

VNEVEVT

VT

VER2

regresor elpor explicado está

que VT de porcentaje el Mide

10 2Rn

i

i

n

i

ii

n

i

i

yyVT

yyVNE

yyVE

1

2

1

2

1

2

)(

)(

)(

24 Regresión Lineal

Coef. determinación

12R 80.02R

50.02R 02R

25 Regresión Lineal

ii xy 100:

0:

11

10

H

H

Contraste F

1

ntesindependieson ,

)2(

cierto) es H (Si

22

222

2

21

2

2

o212

VNEVE

sneVNE

VE

nR

ni i

2122n,

R

Fs

VE

)VNE/(n-

VEF

0H rechaza Se FF

Regresión con R

26 Regresión Lineal

ARCHIVO TEXTO: coches.txt

Regresión con R: Estimación

27 Regresión Lineal

Gráfico en R

28 Regresión Lineal

29 Regresión Lineal

Ejemplo regresión múltiple

Consumo = 0 + 1 CC + 2 Pot + 3 Peso + 4 Acel + Error

Y X1 X2 X3 X4

Consumo Cilindrada Potencia Peso Aceleraciónl/100Km cc CV kg segundos

15 4982 150 1144 12

16 6391 190 1283 9

24 5031 200 1458 15

9 1491 70 651 21

11 2294 72 802 19

17 5752 153 1384 14

... ... ... ... ...

Var. Independientes

o regresores

Var. dependientes

o respuesta

30 Regresión Lineal

Modelo regresión múltiple

osdesconocid parámetros:,,,,, 2210 k

),0(

,

2

22110

Nu

uxxxy

i

ikikiii

Linealidad E[yi] = 0+ 1x1i+ + kxki

Normalidad yi| x1 ,...,xk Normal

Homocedasticidad Var [yi|x1 ,...,xk] =

2

Independencia Cov [yi, yk] = 0

31 Regresión Lineal

Notación matricial

nkknnn

k

k

n u

u

u

xxx

xxx

xxx

y

y

y

2

1

1

0

21

22212

12111

2

1

1

1

1

),( 2I0U

UXY

N

32 Regresión Lineal

Estimación mínimo-cuadrática

eXY

donde el vector e cumple

mínimo esn

i

ie1

22e

nkknnn

k

k

n e

e

e

xxx

xxx

xxx

y

y

y

2

1

1

0

21

22212

12111

2

1

1

1

1

33 Regresión Lineal

Para que ||e||2 sea mínimo, e tiene que ser

perpendicular al espacio vectorial generado las

columnas de X

nkii

nii

ni

nknnn

k

k

xe

xe

e

e

ee

xxx

xxxxxx

1

1 1

1

2

1

21

22212

12111

0

0

0

,

1

11

0eX

eX

T

34 Regresión Lineal

Mínimos cuadrados

YXXXXXYX

eXXXYX

0eX

TTTT

TTT

T

1)(

x1

Y

XY

YYe

x2

x2

x1

Y Solución MC

35 Regresión Lineal

Matriz de proyección V

1

x1

VYY

V)Y(IeY

VYY

YXX)X(XY

XYT1T

Prev istos Val.

V)Y(IVYYXYe

ResiduosTTXXX(XV

1)

Simétrica V=VT

Idempotente VV=V

36 Regresión Lineal

Distribución de probabilidad

de

1T

1TT1T

T1TT1T

T

T1T

T1TT1T

X)(X

X)X(XXX)(X

XX)(XIXX)(X

CYCCY

XXX)(XCXYC

XX)(XCCYYXX)(X

IXY

2

2

2

2

))()((

][][][

][][

) siendo(

),(

T

VarVarVar

EE

Normal

N

37 Regresión Lineal

Distribución de probabilidad

de

kkkk

k

k

T

kk

qqq

qqq

qqq

10

11110

00100

11

0

1

0

)( XXQ

),(

),(

2

2

iiii qN

N 1TX)(X

)1()1()dim( kkQ

38 Regresión Lineal

Residuos

)( 110 kikiii xxye

nkknnn

k

k

n e

e

e

xxx

xxx

xxx

y

y

y

2

1

1

0

21

22212

12111

2

1

1

1

1

ResiduosPrevistosObservados

eXY

39 Regresión Lineal

Varianza Residual

212

21

2

212

12

2

]1

[

1][

kn

eE

kne

E

e

ni i

ni i

kn

ni iee

T

212

2

12

2

)1(

1

knR

ni i

R

skn

kn

es

40 Regresión Lineal

0:

0:

1

0

i

i

H

H

Ho rechaza Se2/;1

111

2

;

)1,0(

),(

kniiiR

ii

kniiRii

ii

iiii

ttqs

t

tqs

Nq

qN

Contraste individual i

ikikii uxxy 110

41 Regresión Lineal

Descomposición de la

variabilidad en regresión

VNEVEVT

eyyyy

eyyyy

yeyy

exxy

ni i

ni i

ni i

iii

iii

ikikii

12

12

12

110

)()(

)()(

)( Restando

42 Regresión Lineal

Modelo en diferencias a la

media

kkknnn

kk

kk

n

kkikii

kikii

kk

ikikii

xxxxxx

xxxxxx

xxxxxx

yy

yy

yy

xxxxyy

xxy

xxy

exxy

)()(

2

1

2211

2222112

1221111

2

1

111

110

110

110

0

111110

1

n

ii

n

ikik

n

ii

n

ii exxny

bXYY~

ebXYY~

43 Regresión Lineal

Modelo en diferencias a la

media

UbXY~~

))~~

(,( 12XXbb

TN

kknnn

kk

kk

kkn

xxxxxx

xxxxxx

xxxxxx

y

y

y

yy

yy

yy

2211

2222112

1221111

2

1

2

1

2

1

~

,,,~

X

bbYY

YX)XX(b~~~~ 1 TT

44 Regresión Lineal

0:0:

1210

de distinto es algunoHH k

Contraste general de regresión.

ntesindependie son

cierto) es H (Si o

22

212

2

2

2

2

,

)1(

VNEVE

sknVNE

VE

knR

k

11

/kn,kF

)VNE/(n-k

kVEF

0H rechaza Se FF

ikikii uxxy 110

45 Regresión Lineal

Coeficiente de determinación R2

VNEVEVT

VT

VER2

regresores los por explicado está

que VTde porcentaje el Mide

10 2Rn

i

i

n

i

ii

n

i

i

yyVT

yyVNE

yyVE

1

2

1

2

1

2

)(

)(

)(

)~~

()~~

()(

1

2YXbbXXb)YY()YY(

TTTTTn

ii yyVE

46 Regresión Lineal

Coef. determinación corregido

2

2

2

)1(

)1(11

y

R

sn

skn

VT

VNE

VT

VNEVT

VT

VER

1

)(

1

2

2

n

yy

s

n

ii

y

)1/(

)1/(11

2

22

nVT

knVNE

s

sR

y

R

2R

Regresión con R

48 Regresión Lineal

Interpretación (inicial)

Contraste F=438 (p-valor=0.0000) Alguno de los regresores influye significativamente en el consumo.

Contrastes individuales: La potencia y el peso influyen significativamente (p-valor=0.0000)

Para =0.05, la cilindrada y la aceleración también tienen efecto significativo (p-valor < 0.05)

El efecto de cualquier regresor aumentar cualquiera de ellos aumenta la variable respuesta: consumo.

Los regresores explican el 82 % de la variabilidad del consumo (R2 = 0.8197)

49 Regresión Lineal

Multicolinealidad

Cuando la correlación entre los

regresores es alta.

Presenta graves inconvenientes: Empeora las estimaciones de los efectos de

cada variable i: aumenta la varianza de las

estimaciones y la dependencia de los

estimadores)

Dificulta la interpretación de los parámetros

del modelo estimado (ver el caso de la

aceleración en el ejemplo).

50 Regresión Lineal

Identificación de la multicolinealidad: Matriz de correlación de los regresores.

51 Regresión Lineal

Gráficos consumo - xi

peso

cons

umo

500 1000 1500 2000

0

4

8

12

16

20

24

potencia

cons

umo

0 40 80 120 160 200 240

0

4

8

12

16

20

24

cilindrada

cons

umo

0 2 4 6 8(X 1000)

0

4

8

12

16

20

24

aceleracion

cons

umo

8 11 14 17 20 23 26

0

4

8

12

16

20

24

52 Regresión Lineal

Consumo y aceleración

53 Regresión Lineal

Multicolinealidad: efecto en la

varianza de los estimadores

)1(

1

)1(

)1()1(

1

)1(||

~~~~var

22110

212

22

21221

12

21221

122

122112

1222

21

222112

211221

2212

122121

2

1

rsrss

r

rss

r

rsrss

sssr

ssrs

ss

ssn

iuixixy

XXXX

XXXXTT

i

SS

SSXXXX

)1()1(

)1()1(var

212

22

2

21221

212

21221

212

212

21

2

2

1

rnsrsns

r

rsns

r

rns

54 Regresión Lineal

Consecuencias de la

multicolinealidad

Gran varianza de los estimadores

Cambio importante en las

estimaciones al eliminar o incluir

regresores en el modelo

Cambio de los contrastes al eliminar

o incluir regresores en el modelo.

Contradicciones entre el contraste F

y los contrastes individuales.

55 Regresión Lineal

Consumo Cilindrada Potencia Peso Aceleración Origenl/100Km cc CV kg segundos

15 4982 150 1144 12 Europa

16 6391 190 1283 9 Japón

24 5031 200 1458 15 USA

9 1491 70 651 21 Europa

11 2294 72 802 19 Japón

17 5752 153 1384 14 USA

12 2294 90 802 20 Europa

17 6555 175 1461 12 USA

18 6555 190 1474 13 USA

12 1147 97 776 14 Japón

16 5735 145 1360 13 USA

12 1868 91 860 14 Europa

9 2294 75 847 17 USA

... ... ... ... ... ...

Variables cualitativas como

regresores

Consumo = 0 + 1 CC + 2 Pot + 3 Peso +

+ 4 Acel + JAP ZJAP + USA ZUSA + Error

USAJapónEuropa

Origen

EUROPA siEUROPA si

USA siUSA si

JAPON siJAPON si

i

iiZ

i

iiZ

i

iiZ

EUR

USA

JAP

1

0

1

0

1

0

56 Regresión Lineal

Consumo Cilindrada Potencia Peso Aceleración ZJAP ZUSA ZEURl/100Km cc CV kg segundos

15 4982 150 1144 12 0 0 116 6391 190 1283 9 1 0 0

24 5031 200 1458 15 0 1 0

9 1491 70 651 21 0 0 111 2294 72 802 19 1 0 0

17 5752 153 1384 14 0 1 0

12 2294 90 802 20 0 0 117 6555 175 1461 12 0 1 0

18 6555 190 1474 13 0 1 0

12 1147 97 776 14 1 0 0

16 5735 145 1360 13 0 1 0

12 1868 91 860 14 0 0 19 2294 75 847 17 0 1 0

... ... ... ... ... ... ... ...

Variables cualitativas

Consumo = 0 + 1 CC + 2 Pot + 3 Peso +

+ 4 Acel + JAP ZJAP + USA ZUSA + Error

57 Regresión Lineal

Interpretación var. cualitativa

Consumo = 0 + 1 CC + 2 Pot + 3 Peso +

+ 4 Acel + JAP ZJAP + USA ZUSA + Error

Coches europeos: ZJAP = 0 y ZUSA = 0 REFERENCIA

Consumo = 0 + 1 CC + 2 Pot + 3 Peso + 4 Acel + Error

Coches japoneses: ZJAP =1 y ZUSA = 0

Coches americanos: ZJAP =0 y ZUSA = 1

Consumo = 0 + JAP + 1 CC + 2 Pot + 3 Peso + 4 Acel + Error

Consumo = 0 + USA + 1 CC + 2 Pot + 3 Peso + 4 Acel + Error

58 Regresión Lineal

Interpretación del modelo

0 + JAP

0

0 +

USA

Europeos

Japoneses

Americanos

xi

y

Ref.

59 Regresión Lineal

60 Regresión Lineal

Interpretación

El p-valor del coeficiente asociado a ZJAP es 0.1956>.05, se concluye que no existe diferencia significativa entre el consumo de los coches Japoneses y Europeos (manteniendo constante el peso, cc, pot y acel.)

La misma interpretación para ZUSA. Comparando R2 =0.821 de este modelo con el anterior R2=0.8197, se confirma que el modelo con las variables de Origen no suponen una mejora sensible.

61 Regresión Lineal

Modelo de regresión con

variables cualitativas

En general, para considerar una variable

cualitativa con r niveles, se introducen en

la ecuación r-1 variables ficticias

Y el nivel r no utilizado es el que actúa de

referencia

11

10,,

21

20,

11

10121 ri

riz

i

iz

i

iz irii nivel

nivelnivelnivel

nivelnivel

iirrii

kikii

uzzzxxy

acualitativ variable

,112211

110

62 Regresión Lineal

Predicción

hx

hy

Media mh|xh Nueva Observ. yh|xh

hx

hm

hm

hy

hx

63 Regresión Lineal

Predicción de la media mh (Regresión simple)

hh

hh

xm

xNy

10

210 ),(

hx

hm

hx

hy

2

22

2

12

1

1010

110

)

]var[)]

)]

[

)

(

(var[

(var[]var[

][]

(

x

h

h

hh

hhhh

hhh

nsxx

n

xxy

xxyy

xxyE

xxyxy

mE

2

2)(1

2,

xs

xhx

nhmNyh

64 Regresión Lineal

Predicción de la media mh (Regresión múltiple)

h

T

khkhh

hh

xxm

mNy

'

),(

110

2

x

hx

hm

h'x

hy

hTT

hhh

hhhTT

h

hTT

hhT

h

hT

hT

hT

h

khhhT

hT

h

v

y

yE

y

v

EE

xxxh

'

'

']'var[]var[

''][]'[]

),,,,1(','

1

221

21

)('

)('

var[']

[

x

x

xx

xxx

xx

XXx

XXx

x

hhhh vmNy 2,

65 Regresión Lineal

Expresión alternativa para vhh

))()(1(

)

~~

(,)()~~

()(

)](var[)(]var[)](var[]var[

)(

12

212

xxSxx

XXSxxXXxx

xxbxxxxb

xxb

hx

T

h

T

xh

TT

h

h

T

hh

T

h

h

T

h

n

nn

yyy

yy

))()(1(1 1

xxSxx hx

T

hhhn

vnv

nv

hhh

hhh

/1

/1

xx

xx

66 Regresión Lineal

Intervalos de confianza para la media mh

1

2

)1,0(

,

kn

hhR

hh

hh

hh

hhh

tvs

m

Nv

m

y

y

vhmNy

hx

hy

))(

1(1

2

2

x

hhh

s

xx

nv

hhR vsthy

hm 2/

))()(1(1 1

xxSxx hh x

T

hhn

v

Regresión simple

67 Regresión Lineal

Predicción de una nueva observación yh (Reg.Simple)

hh

hh

xm

mNy

10

2 ),(hx hx

hy

hh

hhh

hhh

hhh

hhhh

hh

v

yye

yEyEeE

yye

vmNy

xy

22

2

10

]var[]var[]~var[

0][][]~[

~

),(

))1(,0(~ 2

hhh vNe

hm

hy

68 Regresión Lineal

Predicción de una nueva observación yh (Reg. Múltiple)

hx

hm

hx

hy

)1(]var[]var[]~var[

0][][]~[~

),(

2

2

hhhhh

hhh

hhh

hhhhh

T

h

vyye

yEyEeEyye

vmNyyy xb

))1(,0(~ 2

hhh vNe

hy

69 Regresión Lineal

Intervalos de predicción para una nueva observación yh

1

2

1

)1,0(1

~)1(,0~

kn

hhR

hh

hh

hh

hhh

hhh

tvs

y

Nv

yy

y

yye

vNe

hhR vsthy

hy 12/

hx

hy

70 Regresión Lineal

kkxxy 110

Límites de predicción

x

y hhR vsthy

hy 12/

hhR vsthy

hm 2/

71 Regresión Lineal

Diagnosis: Residuos

)( 110 kikiii xxye

nkknnn

k

k

n e

e

e

xxx

xxx

xxx

y

y

y

2

1

1

0

21

22212

12111

2

1

1

1

1

ResiduosPrevistosObservados

eXY

72 Regresión Lineal

Distribución de los residuos

V)(IV)(Y)(IV)(Ie

0V)X(IYV)(Iee

XX)X(XV

V)Y(IeIXY

T1T

2

2

var]var[

][][

),(

EE

N

Normal

))1(,0(

),(

2iii vNe

N V)(I0e2

73 Regresión Lineal

Distancia de Mahalanobis

0

0

.()()(

2

2

12

i

i

ixT

ii

D

D

D

xx

xxxx

xxSxx

i

ii

a de distancia la Mide

s)Mahalanobi de Dist

TT

ii v

XX)X(XV1

Vmatriz la de diagonales elementos los son

11

0)1(,1

22

,1

2

1

ii

n

ijj

ijiiiiii

n

ijj

ijji

n

j

ijii vn

vvvvvvvv

))()(1(1

')(' 11xxSxxxXXx ix

Tii

TTiii

nv

74 Regresión Lineal

Residuos estandarizados

iivRs

ieir

eev

env

ve

iiiii

iiii

iii

1

adosestandariz Residuos

00)var(1 de lejos está Cuando

)var(/1 a próximo está Cuando

)1()var(

2

2

xx

xx

))1(,0( 2iii vNe

75 Regresión Lineal

Hipótesis de normalidad

Herramientas de comprobación:

Histograma de residuos

Gráfico de probabilidad normal (Q-Q plot)

Contrastes formales (Kolmogorov-Smirnov)

Ejemplo de coches

-6 -4 -2 0 2 4 6

Residuos

0,1

1

5

20

50

80

95

99

99,9

pro

bab

ilid

ad

76 Regresión Lineal

Comprobación de la linealidad

y homocedasticidad

Ambas hipótesis se comprueban

conjuntamente mediante gráficos de los residuos

Frente a valores previstos

Frente a cada regresor.

En muchas ocasiones se corrige la falta

de linealidad y la heterocedasticidad

mediante transformación de las variables.

ikikii

ikikii

uxxy

uxxy

logloglog

log

110

110

77 Regresión Lineal

Residuos - Valores previstos

0

iy

ie

0

iy

ie

0

iy

ieLineal y homocedástico No lineal y homocedástico

Lineal y no homocedástico

0

iy

ie

No lineal y no homocedástico

78 Regresión Lineal

Funciones R relacionadas

79 Regresión Lineal

80 Regresión Lineal

Ejemplo 1: Cerezos Negros

Se desea construir un modelo de regresión para obtener el volumen de

cerezo en función de la

altura del tronco y del diámetro del mismo a un metro sobre el suelo. Se ha tomado una muestra de 31 árboles. Las unidades de longitudes son pies y de volumen pies cúbicos.

81 Regresión Lineal

Cerezos negros: Datos

Árbol Diametro Altura Volumen Árbol Diametro Altura Volumen

1 8,3 70 10,30 17 12,9 85 33,80

2 8,6 65 10,30 18 13,3 86 27,40

3 8,8 63 10,20 19 13,7 71 25,70

4 10,5 72 16,40 20 13,8 64 24,90

5 10,7 81 18,80 21 14,0 78 34,50

6 10,8 83 19,70 22 14,2 80 31,70

7 11,0 66 15,60 23 14,5 74 36,30

8 11,0 75 18,20 24 16,0 72 38,30

9 11,1 80 22,60 25 16,3 77 42,60

10 11,2 75 19,90 26 17,3 81 55,40

11 11,3 79 24,20 27 17,5 82 55,70

12 11,4 76 21,00 28 17,9 80 58,30

13 11,4 76 21,40 29 18,0 80 51,50

14 11,7 69 21,30 30 18,0 80 51,00

15 12,0 75 19,10 31 20,6 87 77,00

16 12,9 74 22,20

82 Regresión Lineal

Gráficos x-y

83 Regresión Lineal

Primer modelo:cerezos negros

ErrorAlturaDiametroVolumen 210

84 Regresión Lineal

Diagnosis

85 Regresión Lineal

Transformación

errordiámetro)altura)vol)

diámetroalturakvol

20

2

log(log(log( 1

86 Regresión Lineal

Diagnosis (modelo transformado)

87 Regresión Lineal

Interpretación

Se comprueba gráficamente que la distribución de los residuos es compatible con las hipótesis de normalidad y homocedasticidad.

El volumen está muy relacionada con la altura y el diámetro del árbol (R2= 97.77%)

El modelo estimado

log(Vol) = -6.6 + 1.12 log(Alt) + 1.98 log(Diam.) + Error

es compatible con la ecuación vol=k Alt Diam2

La desviación típica residual es sR=0.081 que indica que el error relativo del modelo en la predicción del volumen es del 8.1%.

Modelos de regresion lineal

1. La tabla muestra los mejores tiempos mundiales en Juegos Olımpicos hasta 1976 en carreramasculina para distintas distancias.

y: tiempo (sg) 9.9 19.8 44.26 103.5 214.9 806.4 1658.4 7795x: distancia (m) 100 200 400 800 1500 5000 10000 42196

(a) Estimar la regresion lineal de y sobre x y calcular la varianza residual y el coeficientede correlacion.

(b) Obtener intervalos de confianza para la pendiente y varianza residual (α = 0.01).

(c) Analizar si la relacion lineal es adecuada, transformando las variables si es necesario.

(d) Supongase que en aquellas Olimpiadas hubiera existido una carrera de 500 metros.Estimar el tiempo previsto para el record olımpico en dicha carrera, dando un intervalode confianza con α = 0.05.

2. Estimar por mınimos cuadrados los parametros a y b de la ecuacion y = a + bx2 con lamuestra de tres puntos siguientes (y, x) : (3, -1); (4, 0); (6,1).

3. Dada la recta de regresion y = 3 + 5(x − 2) con r = 0.8, sR = 1, construir un intervalo deconfianza del 95% para la pendiente si n = 100.

4. Dado el modelo estimado con n = 25 datos, y = 2 + 3(x− 4), sR = 5, con desviacion tıpicadel coeficiente de regresion S(β1) = 0.5, calcular la desviacion tıpica de la prediccion delvalor medio de y cuando x = 20.

5. Sir Francis Galton (1877) estudio la relacion entre la estatura de una persona (y) y la estaturade sus padres (x) obteniendo las siguientes conclusiones:

(a) Existıa una correlacion positiva entre las dos variables.

(b) Las estaturas de los hijos cuyos padres medıan mas que la media era, en promedio,inferior a la de sus progenitores, mientras que los padres con estatura inferior a lamedia en promedio tenıan hijos mas altos que ellos, calificando este hecho como de”regresion” a la media.

Contrastar (α = 0.05) estas dos conclusiones con la ecuacion y = 17.8 + 0.91x resultante deestimar un modelo de regresion lineal entre las variables (en cm.) descritas anteriormentepara una muestra de tamano 100 si la desviacion tıpica (estimada) de β1 es 0.04.

6. La ley de Hubble sobre la expansion del universo establece que dadas dos galaxias la ve-locidad de desplazamiento de una respecto a la otra es v = Hd, siendo d su distancia y Hla constante de Hubble. La tabla proporciona la velocidad y la distancia de varias galaxiasrespecto a la Via Lactea. Se pide:

1

Galaxia Distancia Velocidad(millones anos luz) (103Km/s)

Virgo 22 1.21Pegaso 68 3.86Perseo 108 5.15Coma Berenices 137 7.56Osa Mayor 1 255 14.96Leo 315 19.31Corona Boreal 390 21.56Geminis 405 23.17Osa Mayor 2 700 41.83Hidra 1100 61.14

Tabla: Distancia y velocidad de desplazamiento de las distintas galaxias a la Via Lactea.

Nota: Observese que segun el modelo de Hubble la regresion debe pasar por el origen.Tomese 1 ano luz = 300 000 Km/seg x 31 536 000 seg = 9.46 1012 Km.

(a) Estimar por regresion la constante de Hubble.

(b) Como T = d/v = d/Hd = 1/H , la inversa de la constante de Hubble representa laedad estimada del Universo. Construir un intervalo de confianza del 95% para dichaedad .

9. Para establecer la relacion entre el alargamiento en mm (Y ) producido en un cierto materialplastico sometido a traccion y la fuerza aplicada en toneladas por cm2 (X) se realizaron 10experimentos cuyos resultados se muestran en la tabla

xi 0.20 0.50 0.60 0.70 0.90 1.00 1.20 1.50 1.60 1.70yi 23 20 33 45 67 52 86 74 98 102

Tabla: Alargamiento yi (mm) producidos por la fuerza xi (Tm/cm2).

(a) Ajustar el modelo de regresion lineal E(Y |x) = β0 + β1x y contrastar (α = 0.01) lahipotesis de que, en promedio, por cada Tm/cm2 de fuerza aplicada es de esperar unalargamiento de 50 milımetros, sabiendo que la desviacion tıpica residual vale 10.55.

(b) Si el lımite de elasticidad se alcanza cuando x = 2.2 Tm/cm2, construir un intervalode confianza al 95% para el alargamiento medio esperado en ese punto.

(c) Teniendo en cuenta que el alargamiento esperado cuando la fuerza aplicada es nuladebe ser nulo tambien, estimar el nuevo modelo E [Y |x] = βx con los datos anteriores¿Cual es el sesgo del estimador del parametro de la pendiente si se estima segun elmodelo del apartado 1?

2

10. La ecuacion de regresion entre las ventas de un producto y y su precio x es y = 320− 1.2x,sR = 2 y sy = 4. Si el numero de datos ha sido n = 50, contrastar H0 : β1 = −1 frente a laalternativa H1 : β1 < −1.

11. Se estudia la relacion entre el tiempo de reparacion (minutos) de ordenadores personales yel numero de unidades reparadas en ese tiempo por un equipo de mantenimiento con losresultados mostrados en la siguiente tabla

unidades reparadas 1 3 4 6 7 9 10tiempo de reparacion 23 49 74 96 109 149 154

Se pide:

(a) Construir la recta de regresion para prever el tiempo de reparacion y utilizarla paraconstruir un intervalo de confianza (α = 0.01) para el tiempo medio de reparacion de8 unidades.

(b) Construir un intervalo de confianza (α = 0.01) del tiempo de reparacion para un lotede 14 unidades.

(c) Si los tiempos de reparacion fuesen medias de 10 datos. ¿Cual serıa la recta de regresion?

13. Se realiza una regresion multiple con tres regresores y se encuentra un coeficiente de cor-relacion de 0.5 entre los residuos de la regresion y uno de los regresores. Interpretar esteresultado.

14. La matriz de varianzas de tres variables estandarizadas es la siguiente

1 0.8 0.60.8 1 0.20.6 0.2 1

Calcular la ecuacion de regresion de la primera variable respecto a las otras dos.

15. Dos variables x1 y x2 tienen la siguiente matriz de varianzas(

1 0.50.5 1

)

y las regresiones simples con y son y = 0.75x1 ; y = 0.6x2. Calcular la regresion multipleentre y y las dos variables x1, x2 sabiendo que la variable y tiene media cero y varianzaunidad.

16. Se realiza la regresion entre la variable dependiente y y tres regresores x1, x2 y x3. Posterior-mente se decide realizar la regresion entre la variable y y los tres regresores estandarizados.Explicar cuales son las diferencias entre los resultados de una regresion y otra en cuanto alos coeficientes estimados βi, los residuos y el coeficiente de determinacion, justificando larespuesta.

3

17. La matriz de varianzas de las variables X1, X2 e Y es

25 27 1427 36 19.214 19.2 16

Siendo X1 = 30, X2 = 40, Y = 100 y el numero de datos n = 10.

Se pide:

(a) Realizar la regresion simple entre Y (variable dependiente) y X1, dando el intervalo deconfianza para la pendiente de la recta con α = 0.05. Hacer lo mismo con Y y X2.

(b) Realizar la regresion multiple entre Y (variable dependiente) y X1, X2, en desviacionesa la media.

(c) Indicar si los coeficientes de la regresion anterior son significativos.

(d) Calcular R2 para los tres modelos, comentar los resultados obtenidos e indicar quemodelo eligirıa y por que.

18. Para establecer la relacion entre el voltaje de unas baterıas y la temperatura de fun-cionamiento se han hecho unos experimentos cuyos resultados se muestran en la siguientetabla

Baterıa 1 2 3 4 5 6 7 8Temperatura 10 10 20 20 30 30 40 40

Voltaje 7.2 7.7 7.3 7.4 7.7 9.4 9.3 10.8

Se pide:

(a) Contrastar la hipotesis (α = 0.05) de que no existe relacion lineal entre el voltaje y latemperatura.

(b) Las lecturas 1,3,5 y 7 fueron realizadas con unas baterıas de Cadmio y las 2,4, 6 y 8 conbaterıas de Zinc. Introducir en el analisis anterior una variable cualitativa que tengaen cuenta los dos tipos de baterıas y contrastar si es significativa al 95%.

(c) Dar un intervalo de confianza para el voltaje de una baterıa de Cadmio que va a trabajara 35◦ centıgrados. (Utilizar el modelo estimado en el apartado 2).

(d) Comprobar que se cumplen las hipotesis del modelo construido en los apartados ante-riores.

19. ¿Como disminuira la varianza teorica de los estimadores β en el modelo de regresion linealal replicar las observaciones? (Por replicar se entiende el obtener un nuevo vector Y de lavariable respuesta manteniendo las X fijas).

4

20. Se ha estimado un modelo de regresion para la estatura (y) de un grupo de adultos y susestaturas a los 7 (x1) y 14 (x2) anos. La desviacion tıpica residual obtenida es 5 cm y ladesviacion tıpica del coeficiente de x1 (estatura a los 7 anos) resulta 2.4, siendo este efectono significativo al 95%. Sin embargo, un segundo modelo de regresion que incluya solo aesta variable (x1) conduce a una desviacion tıpica residual de 7 cm y a un coeficiente deregresion de 2 con desviacion tıpica de 1. ¿Que podemos concluir con estos resultados de lacorrelacion entre x1 y x2?

21. Se dispone de una muestra de 100 automoviles con informacion respecto a su consumo(litros/100 km), peso (kg), potencia (CV), tipo de motor (I=inyeccion, NI=no inyeccion) ynacionalidad (1=USA, 2=Alemania, 3=Japon, 4=Francia). Escribir la ecuacion del modelode regresion lineal del consumo respecto al resto de las variables e interpretar el significadode cada uno de los parametros del modelo. Indicar como contrastar si la nacionalidad delvehıculo influye en el consumo.

22. Teniendo en cuenta que mediante variables cualitativas cualquier modelo de diseno experi-mental puede escribirse como un modelo de regresion, determinar la matriz V = X(XTX)−1XT

de proyeccion y la varianza de un residuo eij para el modelo basico de analisis de la varianza

yij = µi + uij, i = 1, ..., I ; j = 1, ..., ni

Aplicarlo al caso de 3 grupos (I = 3), con 5 observaciones en el primer grupo, 4 en el segundoy 3 en el tercero.

23. La variable y se relaciona con las variables x1 y x2 segun el modelo E(y) = β0+β1x1+β2x2;no obstante se estima el siguiente modelo de regresion que no incluye la variable x2

yi = β0 + β1x1i.

Justificar en que condiciones el estimador β1 es centrado.

24. Se efectua una regresion con dos variables explicativas E[y] = β0 + β1x1 + β2x2. La matrizde varianzas de x1 y x2 es

[2 11 3

]

¿Cual de los dos estimadores β1 y β2 tendra menor varianza?

25. Se estudia la relacion entre los costes de fabricacion totales en miles de pesetas (Y ), de 25libros tecnicos, la tirada en miles de ejemplares producidos (T ) y el numero de paginas dellibro (N), encontrandose la relacion

Y = 1400 + 900T + 4N

5

(a) Sabiendo que las desviaciones tıpicas (sin corregir por grados de libertad) de T y Nson 1.5 miles de ejemplares y 200 paginas respectivamente, y sR = 600, calcular unintervalo de confianza del 90% para los efectos de T y N suponiendo que las variablesestan incorreladas. Interpretar el resultado.

(b) Si el coeficiente de correlacion entre las variables T y N es −0.5, ¿Puede admitirse lahipotesis de que el coste asociado a la tirada es de 1.100.000 ptas. cada mil unidades?(α = 0.05).

(c) Sabiendo que la desviacion tıpica (sin corregir por grados de libertad) de los costes defabricacion es 2200 miles de pesetas, calcular el coeficiente de correlacion multiple y elestadıstico F para contrastar que ambas variables no influyen. Interpretar el resultado.

(d) Para estudiar cuanto encarecen los graficos el precio se introduce en el modelo unavariable ficticia Z que toma el valor 1 en libros con graficos y 0 en el resto, obteniendoseel nuevo modelo estimado siguiente (desviaciones tıpicas entre parentesis)

Y = 1080 + 520Z + 840T + 3.8N(100) (16) (0.97)

Interpretar el resultado.

26. Demostrar que el coeficiente de correlacion multiple en el modelo general de regresion esigual al coeficiente de correlacion lineal entre la variable observada y y la prevista y.

27. Para 11 provincias espanolas se conocen los siguientes datos:

Y = numero de mujeres conductoras dividido por el numero de hombres conductores.

X1 = porcentaje de mujeres que trabajan sobre el total de trabajadores de la provincia.

X2 = porcentaje de poblacion que trabaja en el sector agrıcola.

Si se denomina X = (1 X1 X2) a la matriz de regresores (1 es un vector de unos) se sabe que

(XTX)−1 =

5.1 −0.12 −0.05−0.12 30.8 0.08−0.05 0.08 0.001

(XTY ) =

−0.060.05−9.45

sR = 0.03;n∑

i=1

(yi − y)2 = 0.0645

Se pide:

(a) Estimar el modelo de regresion y realizar los contrastes individuales (α = 0.05). Inter-pretar la regresion.

(b) Calcular el coeficiente de determinacion R2 y realizar el contraste de que las dos vari-ables no influyen mediante el test F (α = 0.05).

6

(c) Se introducen dos nuevas variables en la regresion: X3 que representa el porcentajede poblacion que trabaja en los servicios, y X4 el porcentaje de poblacion que trabajaen otras actividades distintas de agricultura y servicios. Explicar razonadamente comosera la regresion al introducir estas dos nuevas variables y los efectos de cada una deellas.

28. Con los datos de la tabla, se pide:

x -2 -2 -1 -1 0 0 1 1 2 2 3 3y 1.1 1.3 2.0 2.1 2.7 2.8 3.4 3.6 4.0 3.9 3.8 3.6

(a) Estimar un modelo de regresion simple con y como variable dependiente y x comoregresor. Indicar si el modelo es apropiado, justificando la respuesta.

(b) Estimar el modeloyi = β0 + β1xi + β2x

2

i + ui

y realizar el contraste H0 : β2 = 0.

(c) El resultado de la estimacion del modelo que incluye el termino x3 es,

yi = 2.81 + 0.80xi - 0.06x2i - 0.035x3

i

(0.05) (0.048) (0.019) (0.010)

con sR = 0.113 (entre parentesis las desviaciones tıpicas de los estimadores). Realizarel contraste general de regresion con α = 0.01. Seleccionar entre los tres el modelo masadecuado, justificando la respuesta.

29. En un modelo de regresion simple se ha obtenido un coeficiente de correlacion igual a −0.8.Si el numero de observaciones es n = 150, y = 22 y la variabilidad total es 320. Construirun intervalo de confianza al 95% para el valor medio de la variable dependiente (y) cuandox (regresor) es igual a x. (Aproximar la distribucion t de Student correspondiente por unadistribucion normal, si Z N(0, 1), P (Z ≤ 1.96) = 0.975).

30. En una planta piloto se obtiene un nuevo producto mediante un proceso quımico. Con elfin de mejorar el rendimiento se emplean dos catalizadores distintos y se trabaja con trestemperaturas diferentes. Los resultados del experimento son

Temperatura

Catalizador 200 300 400

A 115 125 130 140 110 120B 115 105 135 145 100 110

(a) Contrastar si los factores Temperatura y Catalizador tienen efectos significativos. (α =0.05)

(b) ¿Que tratamiento se debe utilizar para obtener el mayor rendimiento, si se desea garan-tizar una probabilidad de error tipo I total, αT = 0.03?

7

(c) Estimar y contrastar el modelo de regresion simple entre el rendimiento y la tempera-tura. ¿Que conclusiones obtiene? Proponga un modelo de regresion que subsane lasdeficiencias encontradas.

31. El modelo de regresion multiple se puede escribir en notacion matricial

Y = Xβ + U

donde U es el vector de variables aleatorias que cumple las hipotesis de normalidad, inde-pendencia y homocedasticidad. Deducir razonadamente la distribucion, media y matriz devarianzas del vector de residuos e = Y −Xβ.

32. La empresa de bebidas gaseosas CIBELES quiere determinar la influencia sobre la presioninterna (yi) en los botes de refresco de dos variables continuas (x1, x2) y del tipo de bebida(NARANJA=1, LIMON=2 y COLA=3). Para distintos valores de x1 y x2 y 20 botes decada sabor, ha medido la presion interna. El tipo de bebida se representa por las variables z1,z2 y z3 que identifican el sabor NARANJA, LIMON y COLA, respectivamente. El modeloestimado de regresion de y con respecto a x1, x2, z2 y z3 es:

y = 19.4 + 77.2x1 − 50.8x2 + 2.95z2 + 5.52z3; hatsR = 4.32

donde

(XTX)−1 =

0.1772 −0.6909 −0.5043 −0.0605 −0.0896−0.6909 5.8085 0.2541 0.1478 0.2444−0.5043 0.2541 5.0070 −0.0680 0.1216−0.0605 0.1478 −0.0680 0.1049 0.0546−0.0896 0.2444 0.1216 0.0546 0.1127

(a) Realizar los contrastes individuales con α = 0.01, indicando las variables que influyensignificativamente en la presion. Interpretar el resultado explicando el significado decada parametro.

(b) Si se realiza una regresion entre la presion interna (yi) y las dos variables continuas x1

y x2 se obtiene el siguiente modelo de regresion

y = 23.86 + 65.1x1 − 56.3x2; sR = 4.78.

Contrastar (α = 0.01) conjuntamente que el tipo de bebida no influye. (H0 : α2 = α3 =0 frente a H1 : α2 o α3 es distinto de cero).

(c) ¿Existe diferencia significativa en las presiones internas de los botes de LIMON yCOLA? (α = 0.01)

33. Estimar por maxima verosimilitud los parametros β1 y β2 del modelo

yi = β1x1i + β2x2

2i + ui ; ui N(0, σ).

¿En que condiciones los estimadores obtenidos por maxima verosimilitud son iguales que losobtenidos por mınimos cuadrados?

8

34. Obtener la relacion entre el coeficiente de determinacion R2 y el coeficiente de determinacion

corregido R2. ¿ Que ventajas presenta el segundo frente al primero ?

35. Con el fin de reducir el tiempo de secado se han realizado 20 ensayos con cementos dedistintas caracterısticas. El ajuste por mınimos cuadrados de la ecuacion de regresion entreel tiempo de secado y una de las variables x1 es

y = 17.1 + 2.9x1, sR = 12.8, R2 = 0.37

(a) Obtener el intervalo de confianza al 95% para el parametro de la pendiente de la rectae indicar si su efecto es significativo.

(b) Incluir en el modelo de regresion otra variable independiente x2, sabiendo que su var-ianza muestral es s22 = 9.2, la covarianza entre las dos variables independientes ess12 = −3.35 y la covarianza entre el tiempo de secado y la nueva variable s2y = 9.55.Realizar los contrastes individuales para los parametros de x1 y x2.

(c) Un estudio teorico del problema indica que el efecto de las dos variables es igual y quepor tanto, la ecuacion de regresion deberıa ser

y = b0 + b1(x1 + x2).

Con la informacion de los apartados anteriores, obtener b1 y contrastar si la pendientede la recta es significativamente distinta de cero.

36. Explicar como contrastar que dos o mas coeficientes en un modelo de regresion multiple sonsimultananeamente nulos.

37. En el analisis de regresion simple entre dos variables, se considera como importante desdeel punto de vista practico, una correlacion entre las dos variables igual o superior a r = 0.1.Determinar el numero mınimo de observaciones con las que se debe estimar el modelo deregresion para que una correlacion igual a 0.1, implique que el regresor tiene un efectosignificativo sobre la variable dependiente. (Aproximar la distribucion t de Student corre-spondiente por una distribucion normal, si Z N(0, 1), P (Z ≤ 1.96) = 0.975).

38. Interpretar geometricamente el problema de estimacion por mınimos cuadrados en regresionmultiple. Demostrar que los residuos del modelo se obtienen mediante la expresion e =PY , donde Y es el vector correspondiente a la variable dependiente y P es una matriz dedimension n × n. Determinar P en terminos de la matriz X de los regresores. A partir dela expresion anterior, obtener la distribucion de probabilidad de los residuos, la media y lamatriz de varianzas.

39. Una de las etapas de fabricacion de circuitos impresos requiere perforar las placas y recubrirlos orificios con una lamina de cobre mediante electrolisis. Una caracterıstica esencial delproceso es el grosor de la capa de cobre. Se han realizado 12 experimentos para evaluarel efecto de 7 variables, X1: Concentracion de Cobre, X2: Concentracion de Cloruro, X3:Concentracion de Acido, X4: Temperatura, X5: Intensidad, X6: Posicion y X7: Superficiede la placa. Cada variable se ha estudiado a dos niveles. Las condiciones experimentales ylos resultados de cada experimento se muestran en la tabla.

9

X1 X2 X3 X4 X5 X6 X7 Y1 1 -1 1 1 1 -1 2.131 -1 1 1 1 -1 -1 2.15-1 1 1 1 -1 -1 -1 1.671 1 1 -1 -1 -1 1 1.531 1 -1 -1 -1 1 -1 1.491 -1 -1 -1 1 -1 1 1.78-1 -1 -1 1 -1 1 1 1.80-1 -1 1 -1 1 1 -1 1.93-1 1 -1 1 1 -1 1 2.191 -1 1 1 -1 1 1 1.61-1 1 1 -1 1 1 1 1.70-1 -1 -1 -1 -1 -1 -1 1.43

Responder a las siguientes preguntas aplicando el modelo de regresion multiple, teniendo encuenta que XTX = 12I8, donde I8 es la matriz identidad de 8× 8.

(a) Estimar el modelo de regresion multiple

yi = β0 + β1x1i + β2x2i + β3x3i + β4x4i + β5x5i + β6x6i + β7x7i + ui.

Obtener la descomposicion de la variabilidad del modelo y realizar el contraste

H0 : β1 = β2 = β3 = β4 = β5 = β6 = β7 = 0

frente a la hipotesis alternativa H1: algun βj es distinto de cero.(NOTA.: XTY = (21.41, −0.03, 0.01, −0.23, 1.69, 2.35, −0.09, −0.19)T )

(b) Realizar cada uno de los contrastes individuales e indicar que variables tienen efectosignificativo.

(c) Eliminar del modelo del apartado 1 todas las variables no significativas. Estimar elmodelo y contrastar sus coeficientes. Interpretar los resultados del experimento.

40. Una medida crıtica de calidad en la fundicion de llantas de aluminio por inyeccion es laporosidad. Se ha realizado un diseno experimental para analizar la porosidad (Y ) en funcionde la temperatura (T ) del aluminio lıquido y de la presion (P ) con que este se inyecta almolde. Se han realizado n=16 experimentos y el modelo obtenido ha sido

y = 2.84 + 0.59 T - 0.031 P(.048) (.048) (.048)

+ 0.26 T 2 + 0.30 P 2 - 0.22 TP(.048) (.048) (.068)

Entre parentesis se proporciona la desviacion tıpica estimada para cada uno de las estima-

ciones de los parametros del modelo. Ademas sR = 0.137 y R2= 0.9267. Las condiciones

experimentales se eligieron de forma que los cinco regresores utilizados en el modelo estanincorrelados.

10

(a) Realizar el contraste F general de regresion y los contrastes individuales de todos loscoeficientes del modelo, indicando cual es significativamente distinto de cero.

(b) Demostrar que si los regresores estan incorrelados, al eliminar alguno del modelo,las estimaciones de los restantes no varıan. Ademas, si se elimina el regresor j, conparametro estimado βj , la variabilidad no explicada del nuevo modelo V NE1 es igual

a V NE0 + ns2j β2

j , donde V NE0 es la variabilidad no explicada del modelo con todos

los regresores. Obtener sR y R2para el modelo que unicamente incluye los parametros

significativos.

(c) Determinar en que condiciones de presion y temperatura la porosidad es mınima segunel modelo anterior y dar un intervalo para prediccion de la porosidad media en estascondiciones. (Si t es la temperatura medida en grados centıgrados (0C) y p la presionen kg/cm2,T = (t − 650)/10 y P = (p − 975)/25. En estas unidades se cumple que

∑n

i=1Ti = 0,∑n

i=1Pi = 0,

∑n

i=1T 2i = 8,

∑n

i=1P 2i = 8,

∑n

i=1TiPi = 0)

41. Demostrar que cuando todos los regresores estan incorrelados, el coeficiente de determinacionde un modelo de regresion multiple cumple R2 =

∑k

j=1r2j , donde k es el numero de regresores

y rj el coeficiente de correlacion entre el regresor j y la variable dependiente.

42. Explicar el concepto de multicolinealidad en regresion multiple, como se identifica y cualesson sus efectos sobre (a) los estimadores βi, (b) los residuos y (c) las predicciones.

43. Demostrar que en un modelo de regresion simple y y el estimador de la pendiente β1 sonindependientes. Utilizar esta propiedad para calcular la varianza de β0 = y − β1x.

44. La masa M de un cristal de hielo depositado en una camara a temperatura (-5oC) y humedadrelativa constante crece segun la ecuacion M = αT β, donde T es el tiempo y α y β sonparametros desconocidos. La relacion anterior se linealiza con la transformacion logarıtmica,estimandose el siguiente modelo

logM = logα + β log T + u

donde el termino anadido u son los errores experimentales, que se consideran aleatorios eindependientes con distribucion normal, N(0,σ2). Diez cristales del mismo tamano y forma seintrodujeron en una camara, extrayendose secuencialmente segun unos tiempos previamenteestablecidos. Para determinar la influencia del tipo de camara, se repitio exactamente elexperimento en una segunda camara. Los valores de sR para la camara 1 y 2 son 0.64 y0.50, respectivamente. Los modelos estimados para cada camara, XTX y (XTX)−1 son:

logM1 = −7.30 + 2.40 log TlogM2 = −5.74 + 2.03 log T

XTX =

(10.00 46.6646.66 218.9

)

(XTX)−1 =

(18.27 −3.89−3.89 0.835

)

11

(a) Contrastar con nivel de significacion 0.05 si los dos modelos tienen la misma pendiente.Lo mismo para la ordenada en el origen. (NOTA.- Aceptar que la varianza de losdos modelos es la misma y estimarla como el promedio de las dos varianzas residualescalculadas.)

(b) Un modelo de regresion multiple Y = Xβ + U , se replica, es decir se obtienen dosvectores de variables respuesta Y1, Y2, para los mismo regresores (matriz X). Demostrarque si β1 y β2 son los resultados de la estimacion de β utilizando por separado la variableY1 e Y2; entonces el estimador de β con todos los datos es (β1 + β2)/2.

(c) Estimar un unico modelo con los datos de las dos camaras. Sabiendo que Y TY = 306.8,donde Y = logM , dar un intervalo de confianza al 99% para los dos parametros.

45. El molibdeno se anade a los aceros para evitar su oxidacion, pero en instalaciones nuclearespresenta el inconveniente de ser el causante de gran parte de los productos radioactivos. Seha realizado un experimento para determinar el grado de oxidacion del acero en funcion delporcentaje de molibdeno. Ademas se ha tenido en cuenta el efecto del tipo de refrigeranteutilizado (R1, R2). Los resultados se muestran en la tabla.

Molibdeno (%)Refrig. 0.5% 1% 1.5% 2% MediasR1 26.2 23.4 20.3 23.3 23.3R2 34.8 31.7 29.4 26.9 30.7R1 33.2 31.3 28.6 29.3 30.6R2 43.0 40.0 31.7 33.3 37.0

Media 34.3 31.6 27.5 28.2 30.4

(a) Escribir un modelo de regresion que incluya el porcentaje de molibdeno y el tipo de re-frigerante como regresores; estimar el modelo e indicar que parametros son significativos(α = 0.05)).

(b) Los experimentos relativos a las dos primeras filas se realizaron en un tipo de instalaciony los correspondientes a las dos ultimas en otra distinta. Escribir un nuevo modelo queincluya este aspecto. Comprobar que este nuevo regresor esta incorrelado con los dosanteriores. Estimar el nuevo modelo.

(c) Demostrar que en un modelo con los regresores incorrelados, la eliminacion de unode ellos no influye en el valor de los estimadores βi, (i 6= 0) restantes. ¿ Influye enla varianza residual y en los contrastes ? Explicar este efecto en funcion de que elparametro β del regresor eliminado sea o no nulo.

46. Demostrar que en un modelo de regresion multiple estimado por maxima verosimilitud, losresiduos cumplen

n∑

j=1

ejxij= 0,

donde [xi1,xi2,..., xin,] es cualquier regresor del modelo. Obtener la distribucion conjuntadel vector de residuos. Si σ2 es la varianza teorica de la componente aleatoria del modelo,indicar en que circuntancias la varianza de un residuo es mayor que σ2.

12

47. Se dispone de una muestra de 86 vehıculos, de los cuales 31 son japoneses (J), 41 norteame-ricanos (N) y 14 europeos (E). La media y desviacion tıpica del consumo de gasolina (en litroscada 100 Km) para los coches japoneses es yJ = 9.1781, sJ = 1.42, para los norteamericanosyN = 9.7274, sN = 1.25 y para los europeos yE = 10.64, sE = 1.36.

(a) Suponiendo que los vehıculos escogidos son muestras aleatorias independientes y quepueden aplicarse las hipotesis de normalidad y homocedasticidad, contrastar la hipotesisde que el lugar de fabricacion no influye en el consumo de combustible. ¿Existe algungrupo con un consumo significativamente menor que los otros dos?

(b) Los coches tienen caracterısticas muy diferentes (peso, potencia,...) que deben sertenidas en cuenta para hacer la comparacion anterior. Con esa finalidad, se ha ajustadoel siguiente modelo de regresion:

y = 3.305 + 0.843 Pot + 3.829 Peso + 0.440 ZJ + 1.127 ZE s2

R = 0.506, R2 = 75.7%

donde (XTX)−1 es:

4.791e− 1 5.054e− 2 −3.794e− 1 −9.157e− 2 −4.682e− 25.054e− 2 1.595e− 1 −1.931e− 1 −3.443e− 3 −1.262e− 2

−3.794e− 1 −1.931e− 1 4.646e− 1 5.210e− 2 2.865e− 2−9.157e− 2 −3.443e− 3 5.210e− 2 6.667e− 2 2.744e− 2−4.682e− 2 −1.262e− 2 2.865e− 2 2.744e− 2 9.759e− 2

donde la variable dependiente es el consumo, Pot (potencia) esta expresada en unidadesde 100 Cv, el Peso en Toneladas, ZJ toma el valor 1 si el coche es japones y cero enlos demas, y ZE toma el valor 1 para los coches europeos y cero en los demas. Realizarel contraste general de regresion para el modelo anterior e interpretar los coeficientesestimados.

(c) Con el modelo de regresion anterior realizar los tres contrastes siguientes:

(c.1) No existe diferencia en el consumo de los coches japoneses y europeos.

(c.2) No existe diferencia en el consumo de los coches japoneses y norteamericanos.

(c.3) No existe diferencia en el consumo de los coches europeos y norteamericanos.

Comparar los resultados con los obtenidos en el apartado 1, explicar a que se deben lasdiferencias y justificar cual es el modelo mas adecuado para hacer las comparaciones.

48. El modelo de regresion multiple con n observaciones y k + 1 variables independientes (in-cluyendo la constante β0) se puede escribir en notacion matricial como

Y = Xβ +U,

donde U es el vector de variables aleatorias que cumple las hipotesis de normalidad, inde-pendencia y homocedasticidad y la matriz de los regresores X es de dimension n× (k + 1).Demostrar que si se transforma linealmente la matriz X, esto es, W = XA, donde A escualquier matriz cuadrada de dimension (k + 1) × (k + 1) y rango maximo, entonces laregresion de Y con la nueva W proporciona las mismas predicciones y los mismos residuos.Justificar geometricamente este resultado.

13

49. La resistencia a la traccion (y) de una aleacion metalica en funcion de la temperatura detemplado (x) se ha ajustado con una ecuacion de regresion para 30 observaciones resultando:

y = 276.1 + 1.9x, sR = 15.7, R2 = 0.43

Se puede concluir con una confianza del 95% que la temperatura de templado tiene efectosignificativo en la resistencia a la traccion.

50. En Cosby Creek, una ciudad al sur de las montanas Apalaches, se ha hecho un estudio paradeterminar como el pH y otras medidas de acidificacion del agua se ven afectadas durantelas tormentas. En concreto se han obtenido 17 datos durante cada una de las tres tormentasmonitorizadas para un total de 19 variables, aunque en este analisis se analizaran solo 2, elpH y el denominado Weak Acidity (WA). Se ha estimado el modelo de regresion multipledel valor pH con respecto a la variable WA y para cada una de las tres tormentas. Lastormentas se representan con las variables ficticias z1, z2 y z3 que identifican respectivamentela tormenta 1, 2 y 3. El modelo estimado de regresion de y con respecto a WA, z1, z2 y z3es:

pH = 5.77− 0, 00008WA(0,000727)

+ 0, 998z1(0,4664)

+ 1, 65z2(0,4701)

− 0, 005z1WA(0,0014)

− 0, 008z2WA(0,0016)

, R2 = 0, 866

Entre parentesis las deviaciones tıpicas estimadas de los estimadores de los parametros cor-respondientes.

(a) Realice el contraste general de regresion y los contrastes individuales con α = 0, 05indicando las variables que influyen significativamente en el pH. Interprete el significadode cada parametro.

(b) Proporcione sendos intervalos de confianza al 95% para los parametros de las interac-ciones z1WA y z2WA. ¿Que conclusiones pueden extraerse? ¿Se puede simplificar elmodelo?

51. Dos becarios del Departamento de Ciencias Sociales estan interesados en el estudio de laTasa de Mortalidad Infantil (TMI). Para ello, han recogido en 107 paıses dicha magnitudası como la alfabetizacion (A), el PIB y la poblacion (Pob) en cada uno de ellos.

Las medias y desviaciones tıpicas corregidas de estas 4 variables son:

TMI A PIB Pob

Media 42.67 78.34 5831.4 48501DT corregida 38.3 22.88 6537.24 147.991

(a) Si el coeficiente de correlacion entre TMI y A vale -0.9005 estime el modelo de regresionsimple en el que TMI es la variable respuesta y A la variable explicativa y contraste sila pendiente estimada es significativa.

(b) Los becarios han estimado un modelo de regresion multiple en que la variable depen-diente es TMI y las variables independientes son A, PIB y Pob. Observando que ladiagnosis del modelo es inadecuada. Estime el modelo de regresion multiple entre TMI(variable dependiente) y los regresores A, log(PIB) y log(Pob). Para ello se proporciona:

14

(X ′X)−1 = 10−3

0.0259 −0.0499 0.0001−0.0499 0.3186 0.00070.0001 0.0007 0.0004

(X ′Y ) = 104

−8.3651−1.70075.1293

siendo X la matriz de estos 3 ultimos regresores en desviaciones a la media e Y el vectorrespuesta en desviaciones a la media. ¿Son significativos los coeficientes estimados?

c. Para el modelo del apartado anterior realice el contraste general de regresion. ¿En-cuentra contradicciones entre el resultado de los contrastes individuales del apartado 2y el del apartado 3? Justifique la respuesta.

d. Los paıses objeto del estudio se pueden clasificar en desarrollados y no desarrollados.Para ello se introduce la variable cualitativa Z que toma valor 0 si el paıs es desarrolladoy 1 si no lo es. El modelo resultante se presenta a continuacion:

TMI = 138.2− 1.1A− 9.6 log(PIB) + 3.3Z con s2R = 196.3

Todos los coeficientes estimados resultan significativos. Interprete dichos coeficientes y elijade manera razonada el mejor modelo de entre los propuestos en el segundo y cuarto apartados

NOTA: Utilice α = 0.05 para todos los contrastes que sean necesarios.

52. Se ha realizado la regresion entre la anchura y la longitud del pie en centımetros con datosde chicos y chicas de cuarto curso de la ensenanza secundaria. En la tabla se proporciona elresultado de la regresion. En el modelo se ha incluido una variable cualitativa que toma elvalor 1 si la observacion corresponde a una chica y 0 si es a un chico. Interpreta el resultadodel analisis.

Multiple Regression Analysis

-----------------------------------------------------------------------------

Dependent variable: Anch

-----------------------------------------------------------------------------

Standard T

Parameter Estimate Error Statistic P-Value

-----------------------------------------------------------------------------

CONSTANT 4,29977 1,12692 3,81551 0,0005

Long 0,21311 0,048554 4,38913 0,0001

Chica -0,272394 0,127844 -2,13067 0,0402

-----------------------------------------------------------------------------

Analysis of Variance

15

-----------------------------------------------------------------------------

Source Sum of Squares Df Mean Square F-Ratio P-Value

-----------------------------------------------------------------------------

Model 4,60164 2 2,30082 16,41 0,0000

Residual 4,90599 35 0,140171

-----------------------------------------------------------------------------

Total (Corr.) 9,50763 37

R-squared = 48,3994 percent

53. Segun la ecuacion de los gases ideales, la presion ejercida por un gas a volumen y temperaturaconstante es proporcional a la masa. Se puede utilizar el siguiente procedimiento para estimarel peso molecular de un gas. Se almacena el gas en un recipiente de volumen constante, y se vasoltando poco a poco gas, variando la presion, pero manteniendo la temperatura constante.En la tabla adjunta se proporcionan mediciones de la presion (con respecto a la atmosferica)y de la masa del gas para el argon.

Presion (psi) Masa (g)52 1, 02849 0, 95644 0, 8839 0, 79334 0, 72529 0, 64525 0, 59321 0, 52619 0, 519 0, 44211 0, 3730 0, 21

(a) Para estimar el peso molecular del argon a partir de los datos, se propone el siguientemodelo de regresion

Pi = αmi + ui, con ui ∼ N(0, σ2).

Obtener el estimador de maxima verosimilitud del parametro α

(b) Realizar el contraste H0 : α = 50 frente a H1 : α 6= 50 con nivel de significacion 0.05.

(c) Para el modelo del apartado 1, obtener un intervalo de prediccion para la presion cuandola masa es igual a 1 gramo.

(d) Se considera tambien el modelo alternativo

Pi = β0 + β1mi + ui con ui ∼ N(0, σ2).

16

Obtener la varianza del estimador de E[Ph|mh], es decir del valor medio de la presion Ph

para una masa dada mh con ambos modelos. Si el modelo verdadero fuese el del primerapartado, ¿que efecto tendrıa sobre la prediccion adoptar el modelo alternativo?

54. Se ha estimado un modelo de regresion con dos variables independientes y 150 observacionesobteniendose la siguiente ecuacion:

yi = −1.17 + 0.025 logx1 + 0.59 log x2, s2R = 2.48

La matriz de varianzas estimada de b = [β1, β2]T para el modelo propuesto es

(XT X

)−1

s2R =

(.253 .201.201 .288

).

realiza el contraste general de regresion con α = 0.05:

H0 : β1 = β2 = 0

H1 : algun βi es distinto de cero

55. En el modelo de regresionyi = β0 + β1X1i + β2X2i + ui

con las hipotesis habituales, explicar como se contrasta

H0 : β1 = β2

H1 : β1 6= β2

56. Demostrar que en el modelo de regresion multiple con k regresores y constante, el estadısticoque contrasta H0 : β0 = β1 = β2 = · · · = βk = 0 frente a H1 : algun βi 6= 0, si H0 es ciertaes:

F =Y TV Y

Y T (I − V )Y

n− k − 1

k + 1 Fk+1,n−k−1

donde V = X(XTX)−1XT e I es la matriz identidad de dimension n× n.

57. En la tabla siguiente se muestra el resultado de un experimento para relacionar el calorgenerado en el proceso de endurecimiento del 13 muestras de cemento en funcion de sucomposicion. Los regresores Xi corresponden al porcentaje de 4 componentes de la mezcla.

17

Fila Regresores Calor Modelo II

X1 X2 X3 X4 Y Residuo vii

1 7 26 6 60 78.5 -1.574 0.25

2 1 29 15 52 74.3 1.049 0.26

3 11 56 8 20 104.3 -1.515 0.12

4 11 31 8 47 87.6 -1.658 0.24

5 7 52 6 33 95.9 -1.393 0.08

6 11 55 9 22 109.2 4.048 0.11

7 3 71 17 6 102.7 -1.302 0.36

8 1 31 22 44 72.5 -2.075 0.24

9 2 54 18 22 93.1 1.825 0.18

10 21 47 4 26 115.9 1.362 0.55

11 1 40 23 34 83.8 3.264 0.18

12 11 66 9 12 113.3 0.863 0.20

13 10 68 8 12 109.4 -2.893 0.21

Modelo I Modelo IIDesv. Tıp.

Parametros Estimacion Estimadas t

Constante 62.4 70.1 0.89

X1 1.55 0.74 2.08

X2 0.51 0.72 0.70

X3 0.10 0.75 0.13

X4 -0.14 0.71 -0.20

Desv. Tıp.

Parametros Estimacion Estimadas t

Constante 52.6 2.28 23.0

X1 1.46 0.12 12.1

X2 0.66 0.045 14.4

Analisis de la Varianza

Varia- GradosFuentes bilidad Lib. Var. FExplic. 2667.9 4 667.0 111.5

Residual 47.8 8 5.98

Total 2715.7 12

Analisis de la Varianza

Varia- GradosFuentes bilidad Lib. Var. FExplic. 2657.8 2 1328.9 229.5

Residual 57.9 10 5.8

Total 2715.7 12

En las tablas se proporcionan dos modelos de regresion lineal, con las estimaciones de losparametros, las desviaciones tıpicas estimadas de estos y los estadısticos t de los contrastesindividuales. Debajo se incluyen las tablas de analisis de la varianza de cada modelo.

(a) Realizar los contrastes H0 : βi = 0 frente H1 : βi 6= 0 para los distintos parametros enlos dos modelos. Realizar el contraste conjunto H0 : β3 = β4 = 0 frente H1 : alguno delos dos es 6= 0. ¿Se puede concluir con estos datos que X4 no influye significativamenteen el calor Y ?

(b) Estimar el modelo de regresion simple del calor Y y la variable explicativa X4 ¿Influyesignificativamente X4 en el calor Y ? Analizar este resultado e interpretarlo teniendoen cuenta el resultado del apartado anterior.

(c) En la tabla superior se muestran los residuos del modelo II y los elementos de ladiagonal de la matriz V = X(XTX)−1XT . Indicar los residuos con mayor y menorvarianza, justificando la respuesta. Si se vuelve a repetir los experimentos en estas dos

18

condiciones, dar un intervalo para la prediccion de los nuevos valores de la variabledependiente (usar α = 0.05).

58. En un estudio de regresion simple con 35 observaciones ha resultado el siguiente modelo

y = 0.12 + 7.6 log(x), sR = 1.2, R2 = 0.37

Obtener el intervalo de confianza al 95% para el parametro de la pendiente e indicar si suefecto es significativo.(El percentil 0.975 de la distribucion t de Student con 33 grados delibertad es 2.03)

59. Los datos siguientes corresponden a la perdida (P) por abrasion en gr/h y su medida dedureza (D) en grados Shore para 15 gomas de caucho de alta resistencia a la tension (A) yotras 15 gomas de caucho con resistencia a la tension baja (B):

A D 75 55 61 66 71 71 81 86A D 53 60 64 68 79 81 56A P 128 206 175 154 136 112 55 45A P 221 166 164 113 82 32 228

B D 45 68 83 88 59 71 80 82B D 89 51 59 65 74 81 86B P 372 196 97 64 249 219 186 155B P 114 341 340 283 267 215 148

Escribir el modelo estadıstico, indicar los parametros y explicar el procedimiento de esti-macion para estudiar con estos datos simultaneamente el efecto de la dureza y de la resisten-cia a la tension (alta o baja) en las perdidas por abrasion. Indicar como contrastar con elmodelo propuesto que “las gomas de caucho con baja resistencia a la traccion tienen por

termino medio mayor perdida que las gomas con resistencia a la traccion baja.” (Nota.- Nose pide ningun calculo numerico, los datos se presentan para ilustrar y describir el problemade forma precisa).

60. Sea x1 la altura del tronco de un arbol y x2 el diametro del mismo en su parte inferior. Elvolumen y del tronco de arbol puede ser calculado aproximadamente con el modelo

yi = αx1ix2

2i + ui,

segun el cual, el volumen del tronco es proporcional al volumen de un cono con las medidasx1i, x2i, siendo α el parametro (desconocido) de proporcionalidad, mas una componentede error aleatorio ui. La tabla siguiente contiene los datos (en metros y metros cubicos)correspondientes a una muestra aleatoria de 15 troncos de una variedad de pino.

19

Obs. x1i x2i x1ix22i yi Obs. x1i x2i x1ix

22i yi

1 10,1 0,117 0,14 0,062 9 19,8 0,297 1,75 0,8212 11,3 0,13 0,19 0,085 10 26,8 0,328 2,90 1,2803 20,4 0,142 0,41 0,204 11 21 0,351 2,60 1,0344 14,9 0,193 0,56 0,227 12 27,4 0,376 3,90 1,6795 23,8 0,218 1,13 0,47 13 29 0,389 4,40 2,0736 19,5 0,236 1,09 0,484 14 27,4 0,427 5,00 2,0227 21,6 0,257 1,43 0,623 15 31,7 0,594 11,2 4,6308 22,9 0,269 1,66 0,722

(a) Estimar α por maxima verosimilitud suponiendo que las variables ui tienen distribucionnormal de media cero, con la misma varianza e independientes.

(b) Un tronco tiene una altura de 20 metros y un diametro de 0.25 metros, dar un intervalode prediccion de su volumen (95% de confianza). La varianza residual del modelo es0,0058.

(c) En el analisis de los residuos se observa que la varianza de los errores crece con elvolumen del tronco. Para obtener homocedasticidad se propone el siguiente modelotransformado utilizando logaritmos neperianos,

log yi = β0 + β1 log x1i + β2 log x2i + ui

El resultado de la estimacion es:

Parametro Estimacionβ0 -1,45β1 1,14β2 1,86

y Mβ=

0, 1250 0, 0212 −0, 03170, 0212 0, 0082 −0, 0051

−0, 0317 −0, 0051 0, 0042

siendo Mβ= s2R(X

TX)−1 (X es la matriz de los regresores transformados segun el

modelo) La transformacion logarıtmica del modelo inicial (αx1ix22i) implicarıa que β1 =

1 y β2 = 2. Contrastar (nivel de significacion 0.05) si estos dos valores son aceptables.

(d) Con este modelo, dar un intervalo de prediccion (95% de confianza) para el volumendel tronco del apartado 2 si la varianza residual es 0,0031.

61. La cantidad maxima yi de cierto compuesto disuelta en un litro de agua a temperatura xi

sigue el modelo de regresion simple,

yi = β0 + β1xi + ui,

donde ui cumple las hipotesis de normalidad, homocedasticidad (Var(ui) = σ2) e indepen-dencia. Una muestra de n disoluciones diferentes han proporcionado los valores (yi, xi).Ademas se han medido las cantidades disueltas y′1, y

2, ..., y′

m en otra muestra de m disolu-ciones que se encontraban a la misma temperatura x0. El valor x0 es desconocido. Estimarpor maxima verosimilitud los parametros β0, β1, σ

2 y x0 utilizando las n+m observaciones.

20

62. Explicar en que consiste el problema de la multicolinealidad en el modelo de regresion: comose detecta, como se puede corregir y cuales son sus efectos.

63. Ciertas propiedades del acero se mejoran sumergiendolo a alta temperatura (T0 = 1525oF ) en un bano templado de aceite (t0 = 95 oF ). Para determinar la influencia de lastemperaturas del acero y del bano de aceite en las propiedades finales del material se hanelegido tres valores de la temperatura del acero y tres del bano de aceite,

Temperatura acero (T )

1450 oF1525 oF1600 oF

Temperatura aceite (t)

70 oF95 oF120 oF

y se han realizado los siguientes experimentos:

x1i 0 0 0 0 -1 1 -1 1 0 0 -1 1x2i 0 0 0 0 -1 -1 1 1 -1 1 0 0yi 49.2 49.4 47.0 49.5 28.2 88.6 54.9 31.3 59.2 43.6 41.9 58.0

donde se ha utilizado la siguiente transformacion (para simplificar calculos)

x1i =Ti − 1525

75y x2i =

ti − 95

25.

Estimar el modelo de regresion

yi = β0 + β1x1i + β2x2i + β3x1ix2i + ui

e indicar que parametros son significativos para nivel de significacion 0.05, teniendo encuenta que la desviacion tıpica residual es sR = 9.6. Estimar y contrastar el modelo anteriorempleando las variables originales Ti y ti.

64. Se ha ajustado un modelo de regresion para estudiar el efecto de la velocidad de corte (x1)y el caudal de refrigerante (x2) en la duracion (y) de una herramienta de corte. Las tresvariables se han transformado mediante el logaritmo neperiano y el modelo estimado ha sido:

log y = 18, 30 − 5, 050 log x1 − 3, 750 log x2

(1,65) (0,19) (0,34)

(entre parentesis se proporcionan las desviaciones tıpicas estimadas de los coeficientes estima-dos del modelo). El numero de observaciones es 32 y la desviacion tıpica residual sR = 0, 24.Obtener los intervalos de confianza (99%) para los tres parametros de la ecuacion de re-gresion. El coeficiente de determinacion es R2 = 0, 96, realizar el contraste conjunto de losparametros correspondientes a las dos variables explicativas.

65. Se ha ajustado el siguiente modelo de regresion multiple con una muestra de 86 vehıculos, delos cuales 31 son japoneses , 41 norteamericanos y 14 europeos, donde la variable dependientees el consumo, y los regresores: Pot (potencia) esta expresada en unidades de 100 Cv, el

21

Peso en Toneladas, ZJ toma el valor 1 si el coche es japones y cero en los demas, y ZE tomael valor 1 para los coches europeos y cero en los demas.

y = 3.305 + 0.843 Pot + 3.829 Peso + 0.440 ZJ + 1.127 ZE s2R = 0.506, R2 = 75.7%

(XTX)−1 =

4.791e− 1 5.054e− 2 −3.794e− 1 −9.157e− 2 −4.682e− 25.054e− 2 1.595e− 1 −1.931e− 1 −3.443e− 3 −1.262e− 2

−3.794e− 1 −1.931e− 1 4.646e− 1 5.210e− 2 2.865e− 2−9.157e− 2 −3.443e− 3 5.210e− 2 6.667e− 2 2.744e− 2−4.682e− 2 −1.262e− 2 2.865e− 2 2.744e− 2 9.759e− 2

Dar el intervalo de confianza para el consumo previsto de un coche norteamericano con unapotencia de 120 Cv y 1600 Kg de peso.

66. El modelo de regresion multiple que relaciona el calor generado en el proceso de endurec-imiento (variable dependiente) de 13 muestras de cemento en funcion de su composicionx1, x2, x3 y x4, es

yi = 62.4 + 1.55 x1i + 0.51 x2i + 0.10 x3i − 0.14 x4i

(70.1) (0.74) (0.72) (0.75) (0.71)

(entre parentesis la desviacion tıpica estimada de las estimaciones de los parametros). Abajose proporciona el coeficiente de determinacion R2 de los 15 modelos de regresion diferentesque se obtienen segun los regresores elegidos.

R2 Variables en el Modelo53.3948 x1

66.6268 x2

28.5873 x3

67.4542 x4

97.8678 x1, x2

54.8167 x1, x3

97.2471 x1, x4

84.7025 x2, x3

68.0060 x2, x4

93.5290 x3, x4

98.2285 x1, x2, x3

98.2335 x1, x2, x4

98.1281 x1, x3, x4

97.2820 x2, x3, x4

98.2376 x1, x2, x3, x4

¿Que variables influyen significativamente en el calor generado? Justificar la respuesta. ¿Quemodelo seleccionarıas para predecir el calor generado?

67. Se desea estudiar la relacion entre el sueldo de 100 personas, en funcion del numero deanos que llevan trabajando y el sector al que pertenecen, pudiendose dividir el sector en

22

S=servicios, I=industria, A=agricultura. Escribir el modelo de regresion entre el sueldo(variable respuesta) y el resto de las variables. Se estima este modelo de regresion obteniendouna varianza residual s2R = 0.25. Con el objetivo de contrastar si el sector influye en el sueldose estima otro modelo de regresion que no contiene ninguna variable de sector, para estemodelo se obtiene una varianza residual s

′ 2R = 0.4. Contrastar si el sector influye en el sueldo

que perciben los empleados (α = 0.05).

68. En un modelo de regresion multiple Y = Xβ+U se realiza la transformacion de los regresoresZ = XA, donde X es la matriz de los regresores, y A una matriz cuadrada de rango maximo.Calcular la estimacion de los coeficientes del nuevo modelo Y = ZβN + U en funcion de losantiguos.

10.64. (S-00) Se ha estimado el siguiente modelo de regresion entre la variable y y los regresoresx1, x2 y x3,

y = 61.1 + 46.1 log x1 + 83.1 logx2 + 27.9 log x3, sR = 5.49

Teniendo en cuenta que el numero de observaciones es n = 60 y que

(XTX)−1 =

0.1939 −0.0892 −0.0887 −0.1534−0.0892 0.1924 −0.0125 0.0010−0.0887 −0.0125 0.2093 −0.0066−0.1534 0.0010 −0.0066 0.2613

Dar un intervalo de confianza para los 4 parametros de la ecuacion de regresion y para la varianzadel modelo (α = 0.05).

69. Se ha estimado un modelo de regresion multiple para explicar el consumo de combustiblede automoviles en funcion del peso, la potencia y el lugar de fabricacion. La muestra es de86 vehıculos, de los cuales 31 son japoneses (J), 41 norteamericanos (N) y 14 europeos (E).

y = 3.305 + 0.843 Pot + 3.829 Peso + 0.440 ZJ + 1.127 ZE, s2R = 0.506, R2 = 75.7%

(XTX)−1 =

4.791e− 1 5.054e− 2 −3.794e− 1 −9.157e− 2 −4.682e− 25.054e− 2 1.595e− 1 −1.931e− 1 −3.443e− 3 −1.262e− 2

−3.794e− 1 −1.931e− 1 4.646e− 1 5.210e− 2 2.865e− 2−9.157e− 2 −3.443e− 3 5.210e− 2 6.667e− 2 2.744e− 2−4.682e− 2 −1.262e− 2 2.865e− 2 2.744e− 2 9.759e− 2

La variable dependiente, el consumo, esta medida en litros cada 100 km, Pot es la potenciay esta expresada en unidades de 100 Cv, el Peso en Toneladas, ZJ toma el valor 1 si el cochees japones y cero en los demas, y ZE toma el valor 1 para los coches europeos y cero enlos demas. Realizar el contraste general de regresion y los contrastes individuales para elmodelo anterior. Interpretar el resultado.

70. En una muestra de 31 arboles se ha medido la altura (x1i), el diametro del arbol a un metrode altura sobre el suelo (x2i) y el volumen de madera del tronco (yi) y se ha estimado elsiguiente modelo de regresion

log(yi) = β0 + β1 log(x1i) + β2 log(x2i) + ui.

Los resultados se muestran en las tablas siguientes:

23

Analisis de regresion multiple

Variable dependiente: Log(Volumen)Regresor Estimacion Desviacion tıpica Estadıstico t Nivel crıticoOrdenada en el origen -6,63162 0,79979 -8,2917 0,0Log(Altura) 1,11712 0,20444 -5,4644 0,0Log(Diametro) 1,98265 0,07501 26,4316 0,0

Analisis de la varianza

Fuente Suma de cuadrados G. de L. Varianzas Cociente F Nivel crıticoModelo 8,12323 2 4,06161 613,19 0,0Residual 0,18546 28 0,00662Total 8,30869 30

Aproximando el volumen del arbol por el de un tronco conico, el volumen debe ser proporcionala kx1ix

22i y tomando logaritmos

log(k) + log(x1i) + 2 log(x2i).

Realizar los siguientes contrastes de hipotesis con nivel de significacion 0,05:{H0 : β1 = 1H1 : β1 6= 1

{H ′

0 : β2 = 2H ′

1 : β2 6= 2.

71. Una medida crıtica de calidad en la fundicion de llantas de aluminio por inyeccion es laporosidad. Se ha realizado un diseno 22 replicado (n = 16 experimentos) para analizar laporosidad (Y ) en funcion de la temperatura (T ) del aluminio lıquido y de la presion (P ) conque este se inyecta al molde. El modelo obtenido ha sido

y = 2.84 + 0.59 T - 0.031 P - 0.22 TP

y sR = 0.137 . Indica que efectos son significativos (α = 0.05) y las condiciones optimas defabricacion

72. En la tabla siguiente se presenta la estimacion de la regresion entre el resultado en la pruebadel salto de longitud de 34 atletas y los tiempos de estos mismos atletas en las pruebas de100 metros lisos, 110 metros valla, 400 metros y 1500 metros.

Coeficientes

βi Desv. T. t p-valorConstante 17.9 2.12 8.45 0.000X1 (100 m) -.462 .266 -1.73 0.093X2 (110 m) -.181 .124 -1.45 0.155X3 (400 m) -3.39E-02 .070 -.485 0.631X4 (1500 m) -4.47E-03 .004 -1.03 0.312

La variabilidad total de los datos es 4.613, la variabilidad explicada 2.199 y la variabilidadresidual 2.413. Realizar el contraste general de regresion, e interpretar el resultado delcontraste y los contrastes individuales de la tabla.

24