regresión lineal simple y multiple · 2019. 6. 5. · 2 v y x v x( ) ( )= + + =β β ε σ 0 1 la...

26
Regresión Lineal simple El análisis de regresión es una técnica estadística para investigar y modelar la relación entre variable. Sus aplicaciones son diversas en casi cualquier campo, entre ellas la ingeniería, ciencias físicas y químicas, economía, administración, etc. El modelo de regresión lineal simple, es un modelo con un solo represor x que tiene relación con una variable respuesta y , cuya relación es una línea recta dada por: 2 0 1 , (0, ) y x N β β ε ε σ = + + modelo poblacional de regresión Gráficamente, el modelo de regresión lineal es el siguiente: Donde la ordenada al origen es 0 β y la pendiente 1 β son constantes conocidas, y ε es un componente aleatorio de error. Se supone que los errores no están correlacionados (independientes) tienen media 0 y varianza 2 σ desconocida. El regresor x está controlado por el analista de datos, y se puede medir con error despreciable, mientras que la respuesta y es una variable aleatoria. Esto es, hay una distribución de probabilidades de y para cada valor de x . La media de esta distribución es 0 1 ( ) Eyx x β β = + , es decir, la media de y es una función lineal de x . La varianza es Variable respuesta Variable regresora o predictora (Coeficientes de regresión: intercepto y pendiente) Error aleatorio

Upload: others

Post on 21-Jan-2021

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Regresión Lineal simple y multiple · 2019. 6. 5. · 2 V y x V x( ) ( )= + + =β β ε σ 0 1 La cual es constante (no depende de x) y como los errores no están correlacionados

Regresión Lineal simple

El análisis de regresión es una técnica estadística para investigar y modelar la relación entre variable. Sus

aplicaciones son diversas en casi cualquier campo, entre ellas la ingeniería, ciencias físicas y químicas, economía,

administración, etc. El modelo de regresión lineal simple, es un modelo con un solo represor x que tiene relación con

una variable respuesta y , cuya relación es una línea recta dada por:

2

0 1 , (0, )y x Nβ β ε ε σ= + + ∼ modelo poblacional de regresión

Gráficamente, el modelo de regresión lineal es el siguiente:

Donde la ordenada al origen es 0β y la pendiente 1β son constantes conocidas, y ε es un componente

aleatorio de error. Se supone que los errores no están correlacionados (independientes) tienen media 0 y

varianza 2σ desconocida. El regresor x está controlado por el analista de datos, y se puede medir con error despreciable, mientras que la respuesta y es una variable aleatoria. Esto es, hay una distribución de

probabilidades de y para cada valor de x . La media de esta distribución es

0 1( )E y x xβ β= +

, es decir, la media de y es una función lineal de x . La varianza es

Variable respuesta

Variable regresora o predictora

(Coeficientes de regresión: intercepto y pendiente)

Error aleatorio

Page 2: Regresión Lineal simple y multiple · 2019. 6. 5. · 2 V y x V x( ) ( )= + + =β β ε σ 0 1 La cual es constante (no depende de x) y como los errores no están correlacionados

2

0 1( ) ( )V y x V xβ β ε σ= + + =

La cual es constante (no depende de x ) y como los errores no están correlacionados tampoco lo están las

respuestas.

Los parámetros 0

β y 1

β , se denominan coeficientes de regresión y tienen una interpretación simple y útil. La

pendiente 1

β es el cambio de la media de la distribución de y producida por un cambio en una unidad de x . Si

los datos incluye 0x = , entonces la ordenada al origen,0

β , es la media de la distribución de la respuesta y

cuando 0x = . Si no incluye al cero, 0

β no tiene interpretación práctica.

Estimación de los parámetros por mínimos cuadrados

Los parámetros 0

β y 1

β son desconocidos, y se deben estimar con los datos de la muestra. Supongamos que

hay n pares de datos ( ) ( ) ( )1 1 2 2, , , ,.., ,

n nx y x y x y obtenido de un experimento controlado, estudio

observacional o de registros históricos.

Para estimar los parámetros 0

β y 1

β se usa el método de mínimos cuadrados. Esto es, se estiman 0

β y 1

β

tales que la suma de los cuadrados de las diferencias entre las observaciones i

y y la línea recta sea mínima,

entonces el modelo muestral de regresión para los n pares de datos lo podemos escribir como

2

0 1 , (0, ), 1,..,i i i i

y x iid N i nβ β ε ε σ= + + =∼

El método de mínimos cuadrados consiste en minimizar

( )22

0 1 0 1

1 1

( , )n n

i i i

i i

L y xβ β ε β β= =

= = − −

Luego, se obtienen las derivadas parciales respecto a los parámetros

( )0 1

10

2 0n

i i

i

Ly xβ β

β =

∂ = − − − =∂

( )0 1

11

2 0n

i ii i

i

Ly x xβ β

β =

∂ = − − − =∂

Simplificando las ecuaciones se obtiene las ecuaciones normales de mínimos cuadrados

0 1

1 1

2

0 1

1 1 1

ˆ ˆ

ˆ ˆ

n n

i i

i i

n n n

i i i i

i i i

n x y

x x y x

β β

β β

= =

= = =

+ =

+ =

Donde 0β y 1β son las estimaciones de los parámetros 0β y 1β , respectivamente, que satisfacen las

ecuaciones normales. Entonces, la solución viene dada por

0 1ˆ ˆy xβ β= −

Page 3: Regresión Lineal simple y multiple · 2019. 6. 5. · 2 V y x V x( ) ( )= + + =β β ε σ 0 1 La cual es constante (no depende de x) y como los errores no están correlacionados

y

1ˆ xy

xx

s

sβ =

Con ( ) ( )22 2

1 1 1 1

1 1, , ,

n n n n

i i xy i i xx i

i i i i

x x y y s y x x s nx nx x xn n= = = =

= = = − = − = − .

La diferencia entre el valor observado i

y y el valor ajustado ˆi

y se llama residual, esto es

( )0 1ˆ , 1,..,

i i i i ie y y y x i nβ β= − = − + = .

Estos residuales son de gran importancia para analizar la adecuación del modelo de regresión ajustado, y para

detectar diferencias respecto a los supuestos básicos.

Ejemplo:

Un motor de cohete se forma pegando entre sí un propelente de ignición y uno de sostenimiento dentro de una

caja metálica. La resistencia el corte de la pegadura entre los dos propelentes es una característica importante

de la calidad. Se cree que la resistencia la corte se relacione con la edad, en semanas, del lote del propelente de

sostenimiento. Se hicieron 20 observaciones de resistencia al corte y la edad del lote del propelente las cuales

se registran en la siguiente tabla.

i i

y = Resist. al corte (psi) i

x = Edad propelente (semanas)

1 2.158,70 15,50

2 1.678,15 23,75

3 2.316,00 8,00

4 2.061,30 17,00

5 2.207,50 5,50

6 1.708,30 19,00

7 1.784,70 24,00

8 2.575,00 2,50

9 2.357,90 7,50

10 2.256,70 11,00

11 2.165,20 13,00

12 2.399,55 3,75

13 1.779,80 25,00

14 2.336,75 9,75

15 1.765,30 22,00

16 2.053,50 18,00

17 2.414,40 6,00

18 2.200,50 12,50

19 2.654,20 2,00

20 1.753,70 21,50

Page 4: Regresión Lineal simple y multiple · 2019. 6. 5. · 2 V y x V x( ) ( )= + + =β β ε σ 0 1 La cual es constante (no depende de x) y como los errores no están correlacionados

El diagrama de dispersión muestra una fuerte relación estadística entre la resistencia al cortante y la edad del

propelente, y que parece razonable utilizar un modelo de línea recta 0 1y xβ β ε= + + .

Luego,

1.106,56xx

s = 41.112,65xys = − , entonces 1

41.112,65ˆ 37.151.106,56

xy

xx

s

sβ −= = = − y

0 1ˆ ˆ 2.131,3575-(-37,15) 13,3625 = 2.627,82y xβ β= − = ⋅ .

El ajuste de mínimos cuadrados es ˆ 2.627,82 37,15y x= −

Donde 0 3 ,15ˆ 7β = − es la disminución semanal promedio de resistencia del propelente al corte por cada cambio

unitario en la edad. La ordenada del origen es 2.627.82 y representa la resistencia al corte de un lote de propelente inmediatamente después de ser fabricado, puesto que está cerca del origen.

Nota: verificar que ( )1

ˆ 0i

n

i

i

y y=

− = .

Propiedades de los estimadores por mínimos cuadrados

El teorema de Gauss-Markov establece que para el modelo de regresión cuyos errores no están correlacionados

tienen media 0 y varianza constante 2σ , los estimadores por mínimos cuadrados son insesgados y tienen

varianza mínima. Por lo tanto, los estimadores obtenidos por mínimos cuadrados 0β y 1β son insesgados y de

varianza mínima. Luego, se puede demostrar que

( )0 0ˆE β β= , ( )

22

0

xx

xV

n sβ σ

= +

tal que 0 0

0 22

ˆ(0,1)

1

xx

Z Nx

n s

β β

σ

−=

+

Y

1.600

1.700

1.800

1.900

2.000

2.100

2.200

2.300

2.400

2.500

2.600

2.700

0 5 10 15 20 25 30

Res

iste

nci

a a

l co

rte

Edad del propelente

Page 5: Regresión Lineal simple y multiple · 2019. 6. 5. · 2 V y x V x( ) ( )= + + =β β ε σ 0 1 La cual es constante (no depende de x) y como los errores no están correlacionados

( )1 1ˆE β β= , ( )

2

xx

Vs

σβ = tal que 1 11 2

ˆ(0,1)

xx

Z N

s

β βσ−= ∼

Estimación de 2σ

Además de estimar 0β y 1β se requiere un estimado de 2σ para probar hipótesis y formar intervalos pertinentes

al modelo de regresión. Un estimador insesgado para la varianza es

2 2

Reˆ( ) ( )

sE E MSσ σ= = , ya que

( ) Re 2

22

2s

n

n MSχ

σ −

−∼

Donde ( )2 2

Re 1

1

ˆˆi

n

s i xy

i

y ySS ny sβ=

= − = − .

La cantidad Re sMS se denomina cuadrado medio residual. La raíz cuadrada de 2σ ,σ , se denomina error

estándar de la regresión y tiene las mismas unidades que la variable de respuesta y .

Estimación de intervalos de confianza en regresión lineal

Como generalmente 2σ no se conoce debemos estimarlo, luego el estadístico

0 00 2

0

ˆ

ˆ( )n

t tse

β ββ −−= ∼ , donde

2

0 Re

1ˆ( )s

xx

xse MS

n sβ

= +

.

En forma similar

1 10 2

1

ˆ

ˆ( )n

t tse

β ββ −

−= ∼ , donde Re1

ˆ( ) s

xx

MSse

sβ = ,

Donde 0ˆ( )se β se denomina error estándar del intercepto y 1

ˆ( )se β error estándar de la pendiente.

Entonces, el intervalo de confianza de (1 ) 100%xα− para el intercepto 0β está dada por:

0 2,1 /2 0 0 0 2,1 /2 0ˆ ˆ ˆ ˆ( ) ( )

n nt se t seα αβ β β β β− − − −− ⋅ ≤ ≤ + ⋅ .

El intervalo de confianza de (1 ) 100%xα− para el intercepto 1β está dada por:

1 2,1 /2 1 1 1 2,1 /2 1ˆ ˆ ˆ ˆ( ) ( )

n nt se t seα αβ β β β β− − − −− ⋅ ≤ ≤ + ⋅

Estos intervalos de confianza tienen la interpretación usual, esto es, si hubiese que tomar muestras repetidas del mismo tamaño a los mismos valores de x , y formar, por ejemplo, intervalos de confianza de 95% de la

pendiente para cada muestra, entonces el 95% de esos intervalos contendrán el verdadero valor de 1β .

Por otra parte, el intervalo de confianza de (1 ) 100%xα− para la varianza 2σ es:

Page 6: Regresión Lineal simple y multiple · 2019. 6. 5. · 2 V y x V x( ) ( )= + + =β β ε σ 0 1 La cual es constante (no depende de x) y como los errores no están correlacionados

2Re Re

2 2

1 /2, 2 /2, 2

( 2) ( 2)s s

n n

n MS n MS

α α

σχ χ− − −

− −≤ ≤

Ejemplo

Establecerlos intervalos de confianza de 95% para 1β y 2σ con los datos del propelente de cohetes.

Tenemos que 1ˆ 37,15β = − , 1

ˆ( ) 2,88se β = y 2,1 /2 18;0,025 2,101nt tα− − = =

143, 22 31,08β− ≤ ≤ −

Para 2σ se tiene que 2

Reˆ 9.236,38sMSσ = = , 2 2

1 /2, 2 0,025;18 31,5nαχ χ− − = = 2 2

1 /2, 2 0,975;18 8, 23nαχ χ− − = =

25.277,93 20.201,07σ≤ ≤

Estimación de intervalos de la respuesta media

Una aplicación importante de un modelo de regresión es estimar la respuesta media, ( )E y , para determinado

valor de la variable regresora x . Sea 0x el valor de la variable regresora para el que se desea estimar la respuesta

media 0( )E y x . Se supone que 0x es cualquier valor de la variable regresora dentro del intervalo de los datos

originales de x que se usaron para ajustar el modelo. Un estimador insesgado de 0( )E y x se determina a partir

del modelo ajustado como sigue:

�0

0 0 1 0ˆ ˆˆ( )

y xE y x xµ β β= = +

Nota: 0

ˆy x

µ es una variable aleatoria normalmente distribuida, puesto que es una combinación lineal de las

observaciones i

y .

Donde

( )0

2

02 1ˆ( )

y x

xx

x xV

n sµ σ

−= +

Luego

( )0

2

0

2

0

Re

ˆ ( )

1n

y x

s

xx

E y xt

x xMS

n s

µ−

−+

Entonces, un intervalo de confianza de (1 ) 100%xα− para la respuesta media en el punto 0x x= es

( ) ( )0 0

2 2

0 0

2,1 /2 Re 0 2,1 /2 Re

1 1ˆ ˆ( )

n s n sy x y x

xx xx

x x x xt MS E y x t MS

n s n sα αµ µ− − − −

− −− ⋅ + ≤ ≤ + ⋅ +

Page 7: Regresión Lineal simple y multiple · 2019. 6. 5. · 2 V y x V x( ) ( )= + + =β β ε σ 0 1 La cual es constante (no depende de x) y como los errores no están correlacionados

Note que el ancho del intervalo de confianza para 0( )E y x es una función de 0x . Este es mínimo cuando 0x x=

, y crece a medida que aumenta 0x x− . Entonces es de esperar que las mejores estimaciones de y se logran

cuando los valores de x cerca del centro de los datos, y que la precisión de la estimación se reduce al moverse hacia la frontera del espacio de x .

Ejemplo

Calcular un intervalo de confianza para la respuesta media cuando 0 13,3625x = .

Tenemos que0 0 0 1 0

ˆ ˆ 2.131,4ˆ 0ˆy x

y xµ β β= = + = , entonces el intervalo de confianza es

0(2.086, 2 )3 2.176,53E y x≤ ≤

Predicción de nuevas observaciones

Una aplicación importante del modelo de regresión es predecir nuevas observaciones y que correspondan a un

nivel especificado de la variable regresora x . Si 0x es el valor de interés de la variable regresora, entonces

0 0 1 0ˆ ˆy xβ β= +

Luego, 0y es la estimación puntual del nuevo valor de la respuesta 0y .

Notar que la variable aleatoria

( )2

02

0 0

1ˆ 0, 1

xx

x xy y N

n sψ σ

− = − + +

, puesto que la observación futura 0y es independiente de 0y .

Así, el intervalo de predicción (1 ) 100%xα− de confianza para una observación futura en 0y es

1.600

1.700

1.800

1.900

2.000

2.100

2.200

2.300

2.400

2.500

2.600

2.700

0 5 10 15 20 25 30

Res

iste

nci

a a

l co

rte

Edad del propelente

Page 8: Regresión Lineal simple y multiple · 2019. 6. 5. · 2 V y x V x( ) ( )= + + =β β ε σ 0 1 La cual es constante (no depende de x) y como los errores no están correlacionados

( ) ( )2 2

0 0

0 2,1 /2 Re 0 0 2,1 /2 Re

1 1ˆ ˆ1 1

n s n s

xx xx

x x x xy t MS y y t MS

n s n sα α− − − −

− −− ⋅ + + ≤ ≤ + ⋅ + +

La longitud del intervalo de predicción es mínimo cuando 0x x= , y crece a medida que aumenta 0x x− .

Ejemplo

Determinar un intervalo de predicción de 95% para el valor futuro de la resistencia al corte del propelente, en un motor fabricado con un lote de propelente que tiene 10 semanas de edad.

02.048,40 2.464,19y≤ ≤

Nota: Al comparar los intervalos de respuesta media y predicción en 0x , este último siempre es más ancho que

porque el intervalo de predicción depende tanto del error del modelo ajustado como del error asociado con observaciones futuras.

Se puede generalizar el intervalo de predicción de (1 ) 100%xα− para la media de m observaciones futuras de

la respuesta en 0x x= . Sea 0y la media de m observaciones futuras en 0x x= . Un estimador puntual de 0y es

0 0 1 0ˆ ˆy xβ β= + . El intervalo de predicción (1 ) 100%xα− de confianza para 0y es

( ) ( )2 2

0 0

0 2,1 /2 Re 0 0 2,1 /2 Re

1 1 1 1ˆ ˆ

n s n s

xx xx

x x x xy t MS y y t MS

m n s m n sα α− − − −

− −− ⋅ + + ≤ ≤ + ⋅ + +

Coeficiente de determinación

La cantidad

2 ReR 1 s

T T

SSSSR

SS SS= = − , 20 1R≤ ≤ ,

se denomina coeficiente de determinación.

Los valores de 2

R cercanos a 1 implican que la mayor parte de la variabilidad de y está explicada por el modelo

de regresión.

El estadístico 2

R se debe usar con precaución, porque siempre es posible conseguir que 2

R sea grande agregando términos suficientes al modelo.

En general, 2

R aumenta a medida que aumenta la dispersión de las x o viceversa, siempre y cuando sea correcta la forma supuesta del modelo (Hahn, 1973).

Si 2

R es grande, no necesariamente implica que el modelo de regresión sea un predictor exacto. Para el modelo de regresión con los datos del propelente de reacción tenemos que

2 R 1.527.334,95 0,9018

1.693.737,60T

SSR

SS= = =

por tanto, el 90.18% de la variabilidad de la resistencia queda explicada por el modelo de regresión.

Page 9: Regresión Lineal simple y multiple · 2019. 6. 5. · 2 V y x V x( ) ( )= + + =β β ε σ 0 1 La cual es constante (no depende de x) y como los errores no están correlacionados

Pruebas de hipótesis para la pendiente y ordenada en el origen

Pruebas de hipótesis para ordenada

Supongamos que se desea probar la hipótesis que la pendiente es igual a una constante, esto es:

Plantear Hipótesis: 0 0 00:H β β= v/s 1 0 00:H β β≠

Estadístico de prueba: 0 000 2

0

ˆ

ˆ( )n

t tse

β ββ −

−= ∼

Región de rechazo de 0H : ( ) ( )1 /2, 2 1 /2, 2, ,n n

R t tα α− − − −= −∞ − ∪ ∞

En particular nos interesa probar la hipótesis para 00 0β = .

Prueba de hipótesis para la pendiente

Esta hipótesis se relaciona con la significancia de la regresión, puesto que al no rechazar 0 1 10:H β β= implica

que no hay relación lineal entre x y y . La prueba es:

Hipótesis: 0 1 10:H β β= v/s 1 1 10:H β β≠

Estadístico de prueba: 1 100 2

1

ˆ

ˆ( )n

t tse

β ββ −

−= ∼

Región de rechazo de 0H : ( ) ( )1 /2, 2 1 /2, 2, ,n n

R t tα α− − − −= −∞ − ∪ ∞

El procedimiento de prueba para 0 1 10:H β β= se puede establecer con dos métodos. El primero es el

mencionado anteriormente y el otro es usando el método de análisis de varianza. Ejemplo Probar la significancia de la regresión en el modelo del propelente de reacción. Luego, el estadístico de prueba es

1 100

1

ˆ 37.15

9.235,64

1.1

12,85ˆ( )

06,55

tse

β ββ

− −= = = −

Por consiguiente, si se escoge 0,05α = , el valor crítico de 0,025,18 2,101t = Así, se rechazaría 0 1: 0H β = y se

llegaría a la conclusión que hay una relación lineal entre la resistencia al corte y la edad del propelente.

Análisis de varianza

También se puede usar un método de análisis de varianza para probar el significado de la regresión. Este análisis se basa en una partición de la variabilidad total de la variable y de respuesta. Para obtener esta partición se

comienza con la identidad fundamental del análisis de varianza para un modelo de regresión

Page 10: Regresión Lineal simple y multiple · 2019. 6. 5. · 2 V y x V x( ) ( )= + + =β β ε σ 0 1 La cual es constante (no depende de x) y como los errores no están correlacionados

( ) ( ) ( )ˆ ˆi ii i i i

y y y y y y− + −− =

Elevando al cuadrado la expresión anterior, sumando y resolviendo, se tiene

( ) ( ) ( )2 2

1 1

R

2

1

e

ˆ ˆn n n

i i

i

i i i

i

T R

i

i

s

y y y y y

SS SS SS

y= = =

− + −

= +

− =

La cantidad de grados de libertad se determina como sigue. La suma total de cuadrados, T

SS tiene 1T

df n= −

grados de libertad, porque se perdió un grado de libertad como resultado de la restricción ( )1

n

i

i iy y

=− para las

desviaciones ( )i iy y− . La suma de cuadrados del modelo, o de la regresión es

RSS y tiene grado de libertad

1R

df = , porque R

SS queda completamente determinado por el parámetro 1β . Por último, Re sSS tiene

Re 2s

df n= − grados de libertad, porque se imponen dos restricciones a las desviaciones ( )ˆi i

y y− como

resultado de estimar 0β y 1β . En resumen

(

2)1 1

T R Resdf df df

n n

= +− = + −

Se puede aplicar la prueba F en el análisis de varianza para probar la hipótesis 0 1: 0H β = como sigue.

Análisis de varianza para probar el significado de la regresión

Fuente de variación Suma de cuadrados g.l. Cuadrado medio 0F

Regresión 1ˆ

xR ySS sβ=

1 R

MS Re/

R sMS MS

Residual e 1R

ˆTs xy

S sS SS β= −

2n − Re sMS

Total 2 2

TSS ny ny= − 1n −

Por consiguiente, para probar la hipótesis 0 1: 0H β = , se calcula el estadístico 0F y se rechaza si

0 ,1, 2nF Fα −> .

Nota: La utilidad real del análisis de varianza está en los modelos de regresión múltiple.

Modelo de regresión lineal múltiple

Un modelo de regresión lineal con k regresores, o variables predictoras se llama modelo lineal de regresión múltiple y se representa por:

2

0 1 1 2 2 .. , (0, )k k

y x x x Nβ β β β ε ε σ= + + + + + ∼

Los parámetros jβ con 1,..,j k= se llaman coeficientes de regresión. Este modelo describe a un hiperplano

en el espacio de k dimensiones de las variables regresoras jx . El parámetro j

β representa el cambio esperado

Page 11: Regresión Lineal simple y multiple · 2019. 6. 5. · 2 V y x V x( ) ( )= + + =β β ε σ 0 1 La cual es constante (no depende de x) y como los errores no están correlacionados

en la respuesta y por cambio unitario en jx cuando todas las demás variables regresoras

ix ( i j≠ ) se

mantienen constantes. Por esta razón, a los parámetros jβ , 1,..,j k= se les llama con frecuencia coeficientes

de regresión parcial.

Estimación de los coeficientes de regresión por mínimos cuadrados

El modelo de regresión múltiple es conveniente representarlo en forma matricial, esto es

2, (0, )Y X Nβ ε ε σ= + ∼

Donde

1

2

.

.

n

y

y

Y

y

=

,

11 12 1

21 22 2

1 2

1 . .

1 . .

. . . . . .

. . . . . .

1 . .

k

k

n n nk

x x x

x x x

X

x x x

=

,

0

1

.

.

n

ββ

β

β

=

y

1

2

.

.

n

εε

ε

ε

=

Se desea determinar el vector de estimadores, 0 1ˆ ˆ ˆ ˆ( , ,.., )kβ β β β= , de mínimos cuadrados que minimice

( ) ( )2

0 1

1

( , ,.., )n

T

k i

i

L Y X Y Xβ β β ε β β=

= = − −

Luego, derivando L con respecto al vector de parámetros β , igualando a cero y resolviendo se obtiene las

ecuaciones normales de mínimos cuadrados

T TX X X Yβ =

El vector estimador para β por de mínimos cuadrados que está dado por

( ) 1ˆ T TX X X Yβ−

=

Siempre y cuando exista la matriz inversa ( ) 1TX X

−. La matriz ( ) 1

TX X−

siempre existe si los regresores son

linealmente independientes. Observación:

1 2

1 1 1

2

1 1 1 2 1

1 1 1 1

2

1 2

1 1 1 1

. .

. .

. . . . . .

. . . . . .

. .

n n n

i i ik

i i i

n n n n

i i i i i ik

i i i iT

n n n n

ik ik i ik i ik

i i i i

n x x x

x x x x x x

X X

x x x x x x

= = =

= = = =

= = = =

=

El vector de valores ajustados ˆi

y que corresponden a los valores observados i

y es

Page 12: Regresión Lineal simple y multiple · 2019. 6. 5. · 2 V y x V x( ) ( )= + + =β β ε σ 0 1 La cual es constante (no depende de x) y como los errores no están correlacionados

( ) 1ˆˆ T TY X X X X X Y HYβ−

= = =

La matriz ( ) 1T TH X X X X

−= , cuadrada de n, se suele llamar matriz ajustada o estimada.

La diferencia entre el valor observado i

y y el valor ajustado ˆi

y es el residual, y escrito en forma matricial es

( )ˆi

e Y Y I H Y= − = − .

Estos residuales son de gran importancia para analizar la adecuación del modelo de regresión ajustado, y para

detectar diferencias respecto a los supuestos básicos.

Propiedades de los estimadores de mínimos cuadrados

Haciendo un análisis similar al caso de regresión lineal, tenemos que el estimador β es insesgado y

( )( )12ˆ , T

N X Xβ β σ−

De lo cual se deprende que si ( ) 1T

C X X−

= la varianza de jβ es 2

jjCσ , y la covarianza entre

iβ y j

β es 2

ijCσ

.

Estimación de 2σ

Similar al caso de regresión simple se puede demostrar que el estimador

2 2

Reˆ( ) ( )

sE E MSσ σ= = , ya que

( ) Re 2

2

s

n p

n p MSχ

σ −

−∼

, donde ReˆT T T

sSS Y Y X Yβ= − , tal que ( )2 2ˆE σ σ= .

Ejemplo (Datos del tiempo de entrega)

Un embotellador de bebidas gaseosas analiza las rutas de servicio de las máquinas expendedoras en su sistema de distribución. Le interesa predecir el tiempo necesario para que el representante de ruta atienda las máquinas expendedoras en una tienda. Esta actividad de servicio consiste en abastecer la máquina con productos embotellados, y algo de mantenimiento o limpieza. El ingeniero industrial responsable del estudio ha sugerido que las dos variables más importantes que afectan el tiempo de entrega y son la cantidad de cajas de producto

abastecido, 1x y la distancia caminada por el representante 2x . El ingeniero ha reunido 25 observaciones de

tiempo de entrega que se ven en la tabla

Page 13: Regresión Lineal simple y multiple · 2019. 6. 5. · 2 V y x V x( ) ( )= + + =β β ε σ 0 1 La cual es constante (no depende de x) y como los errores no están correlacionados

TABLA: Datos de tiempo de entrega

Observación número

Tiempo de entrega (min)

y

Cantidad de cajas

1x

Distancia (pies)

2x

1 16,68 7 560

2 11,5 3 220

3 12,03 3 340

4 14,88 4 80

5 13,75 6 150

6 18,11 7 330

7 8 2 110

8 17,83 7 210

9 79,24 30 1460

10 21,5 5 605

11 40,33 16 688

12 21 10 215

13 13,5 4 255

14 19,75 6 462

15 24 9 448

16 29 10 776

17 15,35 6 200

18 19 7 132

19 9,5 3 36

20 35,1 17 770

21 17,9 10 140

22 52,32 26 810

23 18,75 9 450

24 19,83 8 635

25 10,75 4 150

( ) 1

2,341

1,615

0,014

ˆ T TX X X Yβ−

= =

Luego, el modelo lineal por mínimos cuadrados es

1 22,341 1,615 0,01ˆ 4y x x= + +

Prueba de la significancia de la regresión

La prueba de la significancia de la regresión es para determinar si hay una relación lineal entre la respuesta Y

y cualquiera de las variables regresoras 1 2, ,..,k

x x x . Este procedimiento suele considerarse como una prueba

general o global de la adecuación del modelo. La hipótesis pertinente es:

Page 14: Regresión Lineal simple y multiple · 2019. 6. 5. · 2 V y x V x( ) ( )= + + =β β ε σ 0 1 La cual es constante (no depende de x) y como los errores no están correlacionados

0 1 2: .. 0k

H β β β= = = = v/s 1 : 0j

H β ≠ para al menos un j .

El rechazo de la hipótesis nula implica que al menos uno de los regresores 1 2, ,..,k

x x x contribuye al modelo en

forma significativa. Entonces, utilizando el análisis de varianza

Fuente de variación Suma de cuadrados g.l. Cuadrado medio 0F

Regresión 1ˆT T

R

TX YS Y YS

nβ −= k R

MS Re/

R sMS MS

Residual Re

ˆ T

s

T TY YSS X Yβ−= 1n k− − Re s

MS

Total ( )211T T

TSS Y Y Y

n= − 1n −

Por consiguiente, para probar la hipótesis 0 1 2: .. 0k

H β β β= = = = , se calcula el estadístico 0F y se rechaza

si

0 , , 1k n kF Fα − −> .

Ejemplo

Análisis de varianza para los datos de tiempo de entrega

Fuente Suma de cuadrados g.l. Cuadrado medio 0F

Regresión 5.51ˆ 50,81T T

R

TX Y Y Y

nSS β − == 2 2.775, 40

RMS = Re 261, 2/ 3

R sMS MS =

Residual Re 233,73ˆT T

s

TY Y X YSS β− == 22 Re 10,62

sMS =

Total ( )2

5.784, 41

51T T

TSS Y Y Y

n= − = 24

Por consiguiente, se rechaza la hipótesis 0 1 2: 0H β β= = , puesto que

0 0,95;2,22261, 2 3,43 4F F= > = .

Es decir, el tiempo de entrega se relaciona con el volumen de entrega y/o con la distancia.

2R y

2R ajustada

Otras dos maneras de evaluar la adecuación general del modelo son los estadísticos 2

R y 2

R ajustada, ésta

última se representa por 2

AdjR y se define como

2 Re / ( )1

/ ( 1)

s

T

SS n pR

SS n

−= −−

Para el ejemplo, tenemos que 2 233,73

0,95785.7

/ 231

/ 2484,54R = − = , es decir el 95,78% de la variación de la

respuesta es explicado por el modelo de regresión.

Page 15: Regresión Lineal simple y multiple · 2019. 6. 5. · 2 V y x V x( ) ( )= + + =β β ε σ 0 1 La cual es constante (no depende de x) y como los errores no están correlacionados

Pruebas sobre coeficientes individuales de regresión

Los pasos para realizar la prueba de hipótesis para cualquier coeficiente individual de regresión, son

Plantear Hipótesis: 0 : 0j

H β = v/s 1 : 0j

H β ≠

Estadístico de prueba: 0 1

ˆ

ˆ( )

j j

n k

j

t tse

β ββ − −

−= ∼

Donde 2ˆ ˆ( )j jj

se Cβ σ= , jj

C es la j-ésima entrada de la diagonal de ( ) 1TX X

− y se denomina error estándar

del coeficiente de regresión ˆj

β .

Región de rechazo de 0H : ( ) ( )1 /2, 1 1 /2, 1, ,n k n kR t tα α− − − − − −= −∞ − ∪ ∞

Si no se rechaza 0 : 0jH β = , quiere decir que se puede eliminar el regresor jx del modelo.

Para el ejemplo anterior, 1 /2, 1 0,975,22 2,074n kt tα− − − = = , 2

Re 10,6ˆ 2sMSσ = =

( ) 1

0,113215 0,004449 0,000084

0,004449 0,002744 0,000048

0,000084 0,000048 0,000001

TC X X−

= =

− −− −

− −

Entonces

10

2

22

20

2

33

1,619,464421

ˆ 0

ˆ

ˆ 0

ˆ

3810,62 0,002744

0,0143,98

10,62 0,000001

tC

tC

βσ

βσ

−= = =

−= = =

Cada uno de las pruebas se rechaza, por lo que cada regresor contribuye en forma significativa al modelo.

Intervalos de confianza de los coeficientes de regresión

Se puede definir un intervalo de confianza de (1 ) 100%xα− para el coeficiente de regresión jβ , 0, 1,...,j k=, como sigue:

1 /2, 1 /2,ˆ ˆ ˆ ˆ( ) ( )j n p j j j n p jt se t seα αβ β β β β− − − −− ≤ ≤ +

Para el ejemplo de datos de tiempo de entrega, considerando 0,05α = , 1 /2, 1 0,975,22 2,074n kt tα− − − = = ,

2

Re 10,6ˆ 2sMSσ = = y

2,341

1,615

0, 14

ˆ

0

β =

. Entonces

Page 16: Regresión Lineal simple y multiple · 2019. 6. 5. · 2 V y x V x( ) ( )= + + =β β ε σ 0 1 La cual es constante (no depende de x) y como los errores no están correlacionados

11,61 10,62 0,002744 1,61 10,62 0,002742,074 ,0 42 74β≤ ≤− ⋅ + ⋅

11,26 1,96β≤ ≤

Y el intervalo de confianza de 95% para 2β , es

20,006 0,021β≤ ≤

De lo anterior, se desprende que ambos parámetros son significativos puesto que los intervalos no contienen el cero.

Estimación del intervalo de confianza de la respuesta media Se puede establecer un intervalo de confianza para la respuesta media en determinado punto, como

01 02 0, ,..,k

x x x Definamos el vector 0x como sigue:

01

0

0

1

.

.

k

x

X

x

=

Por consiguiente, un intervalo de confianza de (1 ) 100%xα− de la respuesta media en el punto 01 02 0, ,..,k

x x x

es

( ) ( )1 12 2

0 ,1 /2 0 0 0 0 ,1 /2 0 0ˆ ˆˆ ˆ( )T T T T

n p n pY t X X X X E Y X Y t X X X Xα ασ σ− −

− − − −− ⋅ ≤ ≤ + ⋅

Considerando el ejemplo anterior, suponga que el embotellador de gaseosas quiere establecer un intervalo de

confianza de 95% para el tiempo medio de entrega, para una tienda donde se requieran 1 8x = cajas, y donde

la distancia es 2 275x = pies. Entonces,

0

1

8

275

x

=

, luego [ ]0 0

2,341

1 8 275 1,615

0

ˆˆ 1

,0

22

4

9,

1

TY X β = = =

( ) [ ]12

0 0

0,113215 0,004449 0,000084 1

10,62 1 8 275 0,004449 0,002744 0,000048 8

0,000084 0,000048 0,

ˆ 0,56

00000

7

1 275

T TX X X Xσ−

= = −

− −− −

Reemplazando en

( ) ( )1 12 2

0 ,1 /2 0 0 0 0 ,1 /2 0 0ˆ ˆˆ ˆ( )T T T T

n p n pY t X X X X E Y X Y t X X X Xα ασ σ− −

− − − −− ⋅ ≤ ≤ + ⋅

Tenemos que el intervalo de confianza de 95% para el tiempo medio de entrega es

017,66 ( ) 20,78E Y X≤ ≤

Intervalos simultáneos de confianza para coeficientes de regresión

Anteriormente establecimos intervalos en forma individual, esto es intervalos de uno por uno, esto es, son los tipos usuales de intervalo de confianza o de predicción, en donde el coeficiente de confianza 1 α− indica la proporción de estimaciones correctas que resulta cuando se seleccionan muestras aleatorias repetidas, y para cada muestra se establece la estimación adecuada del intervalo. Ahora queremos construir varios intervalos de confianza o de predicción con los mismos datos de muestra. En esos casos, puede ser interés en la especificación de un coeficiente de confianza que se aplique en forma simultánea a todo el conjunto de estimados de intervalo.

Page 17: Regresión Lineal simple y multiple · 2019. 6. 5. · 2 V y x V x( ) ( )= + + =β β ε σ 0 1 La cual es constante (no depende de x) y como los errores no están correlacionados

Un conjunto de intervalos de confianza o de predicción que son todos ciertos en forma simultánea, con 1 α− de probabilidad, se llama conjunto de intervalos simultáneos o conjuntos de confianza o de predicción.

En consecuencia, una región de confianza conjunta de (1 ) 100%xα− , para todos los parámetros en una

regresión lineal múltiple es

( ) ( )( ), ,

Re

ˆ ˆT

T

p n p

s

X XF

pMSα

β β β β−

− −∼

La región de confianza conjunta, si bien es cierto es fácil de obtener, su interpretación no es práctica, por ello es conveniente obtener intervalos de confianza individual para cada parámetro.

Método de Bonferroni

El intervalo de confianza de Bonferroni está dado por

1 / , 1 /2,ˆ ˆ ˆ ˆ( ) ( )j p n p j j j n p jt se t seα αβ β β β β− − − −− ≤ ≤ +

Los intervalos de confianza de Bonferroni se parecen algo a los intervalos ordinarios de uno por uno, basados

en la distribución t, pero cada intervalo de Bonferroni tiene un coeficiente de confianza de1 / pα− , en lugar de

1 α− .

Predicción de nuevas observaciones

Con el modelo de regresión se pueden predecir observaciones futuras de y que correspondan a determinados

valores de las variables regresoras, por ejemplo 01 02 0, ,..,k

x x x . Si [ ]0 01 02 01, , ,..,T

kX x x x= , entonces una

estimación puntual de la observación futura 0Y en el punto 01 02 0, ,..,k

x x x es

0 0ˆˆ T

Y X β=

Un intervalo de predicción de (1 ) 100%xα− para esta futura observación es

( )( ) ( )( )1 12 2

0 ,1 /2 0 0 0 0 ,1 /2 0 0ˆ ˆˆ ˆ1 1T T T T

n p n pY t X X X X Y Y t X X X Xα ασ σ− −

− − − −− ⋅ + ≤ ≤ + ⋅ +

Verificación de supuestos

Las principales premisas que se han hecho hasta ahora al estudiar el análisis de regresión son las siguientes:

• La relación entre la respuesta y y los regresores es lineal, al menos en forma aproximada.

• El término de error ε tiene media cero.

• El término de error tiene varianza 2σ constante.

• Los errores no están correlacionados.

• Los errores tienen distribución normal.

Se presentarán algunos métodos de utilidad para diagnosticar violaciones de las premisas básicas de regresión. Esos métodos de diagnóstico se basan principalmente en el estudio de los residuales del modelo. Los residuos estandarizados están dados por

Page 18: Regresión Lineal simple y multiple · 2019. 6. 5. · 2 V y x V x( ) ( )= + + =β β ε σ 0 1 La cual es constante (no depende de x) y como los errores no están correlacionados

( )*

2

Re

1,..,

11

i

i

i

s

xx

ee i n

x xMS

n s

= = −

− −

Gráficas de diagnóstico

Las gráficas básicas que se recomiendan para una evaluación de la validez de un modelo son las siguientes:

1. *

ie (o ie ) sobre el eje vertical contra ix en el eje horizontal.

2. *

ie (o ie ) sobre el eje vertical contra ˆiy en el eje horizontal.

3. ˆiy sobre el eje vertical contra iy en el eje horizontal.

4. Una gráfica de probabilidad normal de los residuos estandarizados

Las gráficas 1 y 2 se denominan gráficas de residuos (contra la variable independiente y valores ajustados, respectivamente), en tanto que la gráfica 3 está ajustada contra valores observados. Si la gráfica 3 da puntos cercanos a la recta de 45° (pendiente +1 que pasa por (0, 0)), entonces la función de regresión estimada da predicciones precisas de los valores que se observan en realidad. Así, la gráfica 3 proporciona una evaluación visual de la efectividad del modelo para hacer predicciones. Siempre que el modelo sea correcto, ninguna gráfica de residuos debe exhibir formas distintas. Los residuos deben estar distribuidos al azar alrededor de 0 según una distribución normal, de manera que con excepción de unos cuantos, todos los residuos estandarizados deben encontrarse entre -2 y +2 (es decir, todos excepto unos cuántos a no más de dos desviaciones estándares

de su valor esperado de 0). La gráfica de residuos estandarizados contra ˆiy es en realidad una combinación de

las otras dos gráficas, mostrando implícitamente la forma en que varían los residuos con x y cómo se comparan los valores ajustados con valores observados. Esta última gráfica es la que se recomienda con más frecuencia para análisis de regresión múltiple. La gráfica 4 permite al analista evaluar la factibilidad de la suposición de que ε tiene una distribución normal.

Page 19: Regresión Lineal simple y multiple · 2019. 6. 5. · 2 V y x V x( ) ( )= + + =β β ε σ 0 1 La cual es constante (no depende de x) y como los errores no están correlacionados
Page 20: Regresión Lineal simple y multiple · 2019. 6. 5. · 2 V y x V x( ) ( )= + + =β β ε σ 0 1 La cual es constante (no depende de x) y como los errores no están correlacionados

Ejercicios

1) En la tabla aparecen datos sobre el desempeño de los 26 equipos de la Liga Nacional de Futbol en 1976. Se

cree que la cantidad de yardas ganadas por tierra por los contrarios ( )8x tiene un efecto sobre la cantidad

de juegos que gana un equipo ( )y .

a) Ajustar un modelo de regresión lineal simple que relacione los juegos ganados, y, con las yardas ganadas

por tierra por los contrarios 8x .

b) Formar la tabla de análisis de varianza y probar el significado de la regresión. c) Determinar un intervalo de confianza de 95% para la pendiente. d) ¿Qué porcentaje de variabilidad total da y , y explica este modelo?

e) Determinar un intervalo de confianza de 95% para la cantidad promedio de juegos ganados, si la distancia ganada por tierra por los contrarios se limita a 2.000 yardas.

Desempeño de los equipos de la Liga Nacional de Futbol en 1976

Equipo y 1x 2x 3x 4x 5x 6x 7x 8x 9x

Washington 10 2113 1985 38,9 64,7 4 868 59,7 2205 1917

Minnesota 11 2003 2855 38,8 61,3 3 615 55 2096 1575

New England 11 2957 1737 40,1 60 14 914 65,6 1847 2175

Oakland 13 2285 2905 41,6 45,3 -4 957 61,4 1903 2476

Pittsburgh 10 2971 1666 39,2 53,8 15 836 66,1 1457 1866

Baltimore 11 2309 2927 39,7 74,1 -8 786 61 1848 2339

Los Ángeles 10 2528 2341 38,1 65,4 12 754 66,1 1564 2092

Dalias 11 2147 2737 37 78,3 -1 761 58 1821 1909

Atlanta 4 1689 1414 42,1 47,6 -3 714 57 2577 2001

Buffalo 2 2566 1838 42,3 54,2 -1 797 58,9 2476 2254

Chicago 7 2363 1480 37,3 48 19 984 67,5 1984 2217

Cincinnati 10 2109 2191 39,5 51,9 6 700 57,2 1917 1758

Cleveland 9 2295 2229 37,4 53,6 -5 1037 58,8 1761 2032

Denver 9 1932 2204 35,1 71,4 3 986 58,6 1709 2025

Detroit 6 2213 2140 38,8 58,3 6 0,819 59,2 1901 1686

Green Bay 5 1722 1730 36,6 52,6 -19 -791 54,4 2288 1835

Houston 5 1498 2072 ·35.3 59,3 -5 776 49,6 2072 1914

Kansas City 5 1873 2929 41,1 55,3 10 789 54,3 2861 2496

Miami 6 2118 2268 38,2 69,6 6 582 58,7 2411 2670

Nueva Orleans 4 1775 1983 39,3 78,3 7 901 51,7 2289 2202

Nueva York Giants 3 1904 1792 39,7 38,1 -9 734 61,9 2203 1988

Nueva York Jets 3 1929 1606 39,7 68,8 -21 627 52,7 2592 2324

Phi1ade1phia 4 2080 1492 35,5 68,8 -8 722 57,8 2053 2550

St. Louis 10 2301 2835 35,3 74,1 2 683 59,7 1979 2110

San Diego 6 2040 2416 38,7 50 0 576 54,9 2048 2628

San Francisco 8 2447 1638 39,9 57,1 -8 848 65,3 1786 1776

Seatt1e 2 1416 2649 37,4 56,3 -22 684 43,8 2876 2524

Tampa Bay 0 1503 1503 39,3 47 -9 875 53,5 2560 2241

Page 21: Regresión Lineal simple y multiple · 2019. 6. 5. · 2 V y x V x( ) ( )= + + =β β ε σ 0 1 La cual es constante (no depende de x) y como los errores no están correlacionados

y : Juegos ganados (por temporada de 14 juegos).

1x : Yardas por tierra (temporada).

2x : Yardas por aire (temporada).

3x : Promedio de pateo (yardas/patada).

4x : Porcentaje de goles de campo (GC hechos/GC intentados, temporada).

5x : Diferencia de pérdidas de balón (pérdidas ganadas/pérdidas perdidas).

6x : Yardas de castigo (temporada).

7x : Porcentaje de carreras (jugadas por tierra/jugadas totales).

8x : Yardas por tierra del contrario (temporada).

9x : Yardas por aire del contrario (temporada) 2) Supóngase que se quiere usar el modelo desarrollado en el problema 1) para pronosticar la cantidad de

juegos que ganará un equipo si puede limitar los avances por tierra de sus contrarios a 1.800 yardas.

Determinar un estimado de punto de la cantidad de juegos ganados cuando 8 1.800x = . Determinar un

intervalo de predicción de 90% para la cantidad de juegos ganados. 3) La tabla dada contiene datos reunidos durante un proyecto de energía solar en el Tecnológico de Georgia.

a) Ajustar un modelo de regresión lineal simple que relacione el flujo total de calor y (kilowatts) con la

deflexión radial de los rayos desviados 4x (milirradianes).

b) Formar la tabla de análisis de varianza y probar la significancia de la regresión. c) Determinar un intervalo de confianza de 99% para la pendiente.

d) Calcular 2

R . e) Determinar Un intervalo de confianza de 95% para el flujo promedio de calor, cuando la deflexión radial

es 16.5 milirradianes.

Datos de pruebas de energía solar térmica

y 1x 2x 3x 4x 5x

271,8 783,35 33,53 40,55 16,66 13,20

264,0 748,45 36,50 36,19 16,46 14,11

238,8 684,45 34,66 37,31 17,66 15,68

230,7 827,80 33,13 32,52 17,50 10,53

251,6 860,45 35,75 33,71 16,40 11,00

257,9 875,15 34,46 34,14 16,28 11,31

263,9 909,45 34,60 34,85 16,06 11,96

266,5 905,55 35,38 35,89 15,93 12,58

229,1 756,00 35,85 33,53 16,60 10,66

239,3 769,35 35,68 33,79 16,41 10,85

258,0 793,50 35,35 34,72 16,17 11,41

257,6 801,65 35,04 35,22 15,92 11,91

267,3 819,65 34,07 36,5 16,04 12,85

Page 22: Regresión Lineal simple y multiple · 2019. 6. 5. · 2 V y x V x( ) ( )= + + =β β ε σ 0 1 La cual es constante (no depende de x) y como los errores no están correlacionados

267,0 808,55 32,20 37,6 16,19 13,58

259,6 774,95 34,32 37,89 16,62 14,21

240,4 711,85 31,08 37,71 17,37 15,56

227,2 694,85 35,73 37,00 18,12 15,83

196,0 638,10 34,11 36,76 18,53 16,41

278,7 774,55 34,79 34,62 15,54 13,10

272,3 757,90 35,77 35,40 15,70 13,63

267,4 753,35 36,44 35,96 16,45 14,51

254,5 704,70 37,82 36,26 17,62 15,38

224,7 666,8 35,07 36,34 18,12 16,10

181,5 568,55 35,26 35,90 19,05 16,73

227,5 653,10 35,56 31,84 16,51 10,58

253,6 704,05 35,73 33,16 16,02 11,28

263,0 709,60 36,46 33,83 15,89 11,91

265,8 726,90 36,26 34,89 15,83 12,65

263,8 697,15 37,20 36,27 16,71 14,06

y : Flujo total de calor (kwatts).

1x : Insolación (watts/ 2m ).

2x : Posición del foco en dirección este (pulgadas).

3x : Posición del foco en dirección sur (pulgadas).

4x : Posición del foco en dirección norte (pulgadas).

5x : Hora del día.

4) La tabla presenta los datos sobre el rendimiento de la gasolina, en millas, de 32 automóviles diferentes.

a) Ajustar un modelo de regresión lineal simple que relacione el rendimiento de la gasolina y (millas por

galón) y la cilindrada del motor 1x ( 3lgpu )

b) Formar la tabla de análisis de varianza y prueba de significancia de la regresión. c) ¿Qué porcentaje de la variabilidad total del rendimiento de la gasolina explica la relación lineal con la

cilindrada del motor? d) Determinar un intervalo de confianza de 95% para el rendimiento promedio de gasolina, si el

desplazamiento del motor es 275 3lgpu .

e) Suponer que se desea pronosticar el rendimiento de gasolina que tiene un coche con motor de 275 3lgpu . Determine un estimado puntual para el rendimiento. Determinar un intervalo de predicción de

95% para el rendimiento. f) Comparar los dos intervalos obtenidos en las partes d) y e). Explicar la diferencia entre ellos. ¿Cuál es más

amplio y por qué?

Rendimiento de la gasolina para 32 automóviles

Automóvil y 1x 2x 3x 4x 5x 6x 7x 8x 9x 10x 11x

Apollo 18,9 350 165 260 8.0:1 2.56:1 4 3 200,3 69,9 3910 A

Omega 17 350 170 275 8.5:1 2.56:1 4 3 199,6 72,9 2860 A

Nova 20 250 105 185 8.25:1 2.73:1 1 3 196,7 72,2 3510 A

Page 23: Regresión Lineal simple y multiple · 2019. 6. 5. · 2 V y x V x( ) ( )= + + =β β ε σ 0 1 La cual es constante (no depende de x) y como los errores no están correlacionados

Monarch 18,25 351 143 255 8.0:1 3.00:1 2 3 199,9 74 3890 A

Duster 20,07 225 95 170 8.4:1 2.76:1 1 3 194,1 71,8 3365 M

Jenson Conv. 11,2 440 215 330 8.2:1 2.88:1 4 3 184,5 69 4215 A

Skyhawk 22,12 231 110 175 8.0:1 2.56:1 2 3 179,3 65,4 3020 A

Monza 21,47 262 110 200 8.5:1 2.56:1 2 3 179,3 65,4 3180 A

Scirocco 34,7 89,7 70 81 8.2:1 3.90:1 2 4 155,7 64 1905 M

Corolla SR-5 30,4 96,9 75 83 9.0:1 4.30:1 2 5 165,2 65 2320 M

Camaro 16,5 350 155 250 8.5:1 3.08:1 4 3 195,4 74,4 3885 A

Datsun B210 36,5 85,3 80 83 8.5:1 3.89:1 2 4 160,6 62,2 2009 M

Capri n 21,5 171 109 146 8.2:1 3.22:1 2 4 170,4 66,9 2655 M

Pacer 19,7 258 110 195 8.0:1 3.08:1 1 3 171,5 77 3375 A

Babcat 20,3 140 83 109 8.4:1 3.40:1 2 4 168,8 69,4 2700 M

Granada 17,8 302 129 220 8.0:1 3.0:1 2 3 199,9 74 3890 A

Eldorado 14,39 500 190 360 8.5:1 2.73:1 4 3 224,1 79,8 5290 A

Imperial 14,89 440 215 330 8.2:1 2.71:1 4 3 231 79,7 5185 A

Nova LN 17,8 350 155 250 8.5:1 3.08:1 4 3 196,7 72,2 3910 A

Valiant 16,41 318 145 255 8.5:1 2.45:1 2 3 197,6 71 3660 A

Starfire 23,54 231 110 175 8.0:1 2.56:1 2 3 179,3 65,4 3050 A

Cordoba 21,47 360 180 290 8.4:1 2.45:1 2 3 214,2 76,3 4250 A

TransAM 16,59 400 185 NA 7.6:1 3.08:1 4 3 196 73 3850 A

Corolla E-5 31,9 96,9 75 83 9.0:1 4.30:1 2 5 165,2 61,8 2275 M

Astre 29,4 140 86 NA 8.0:1 2.92:1 2 4 176,4 65,4 2150 M

MarkIV 13,27 460 223 366 8.0:1 3.00:1 4 3 228 79,8 5430 A

Celica GT 23,9 133,6 96 120 8.4:1 3.91:1 2 5 171,5 63,4 2535 M

Charger SE 19,73 318 140 255 8.5:1 2.71:1 2 3 215,3 76,3 4370 A

Cougar 13,9 351 148 243 8.0:1 3.25:1 2 3 215,5 78,5 4540 A

Elite 13,27 351 148 243 8.0:1 3.26:1 2 3 216,1 78,5 4715 A

Matador 13,77 360 195 295 8.25:1 3.15:1 4 3 209,3 77,4 4215 A

Corvette 16,5 350 165 255 8.5:1 2.73:1 4 3 185,2 69 3660 A

y : Millas/galón

1x : Cilindrada ( 3lgpu )

2x : Potencia (Hp)

3x : Par de torsión (pies-lb)

4x : Relación de compresión X

5x : Relación de eje trasero

6x : Carburador (gargantas)

7x : Número de velocidades en la transmisión

8x : Longitud total ( lgpu )

9x : Ancho ( lgpu )

10x : Peso (lb)

Page 24: Regresión Lineal simple y multiple · 2019. 6. 5. · 2 V y x V x( ) ( )= + + =β β ε σ 0 1 La cual es constante (no depende de x) y como los errores no están correlacionados

11x : Tipo de transmisión (A = automática, M = manual)

5) Acerca de los datos sobre rendimiento de gasolina, repetir el problema 4) (partes a, b y e) usando el peso del

vehículo, 10x como la variable regresora. Con base en una comparación entre los dos modelos, ¿se puede

llegar a la conclusión de que 1x es mejor opción como regresor que 10x ?

6) La tabla presenta datos de 27 casas vendidas en Erie, Pennsylvania.

a) Ajustar un modelo de regresión lineal simple que relacione el precio de venta de la casa con los impuestos

actuales ( 1x ).

b) Probar la significancia de la regresión. c) ¿Qué porcentaje de la variabilidad total del precio de venta queda explicado con este modelo?

d) Determinar un intervalo de confianza de 95% para 1β .

e) Determinar un intervalo de confianza de 95% para el precio promedio de venta de una casa, para la cual los impuestos actuales son $750.

Datos de avalúo de propiedades

y 1x 2x 3x 4x 5x 6x 7x 8x 9x

25,9 5 1 3,47 1 1 7 4 42 0

29,5 5 1 3,53 1,5 2 7 4 62 0

27,9 5 1 2,28 1,18 1 6 3 40 0

25,9 5 1 4,05 1,23 1 6 3 54 0

29,9 5 1 4,46 1,21 1 6 3 42 0

29,9 4 1 4,46 0,99 1 6 3 56 0

30,9 6 1 5,85 1,24 1 7 3 51 1

28,9 6 1 9,52 1,5 0 6 3 32 0

35,9 6 1 6,44 1,23 2 6 3 32 0

31,5 5 1 4,99 1,55 1 6 3 30 0

31 6 1 5,52 0,98 1 5 2 30 0

30,9 6 1 6,67 1,21 2 6 3 32 0

30 5 1 5 1,02 0 5 2 46 1

36,9 8 1,5 5,15 1,66 2 8 4 50 0

41,9 7 1,5 6,9 1,49 1,5 7 3 22 1

40,5 8 1,5 7,1 1,38 1 6 3 17 0

43,9 9 1 7,8 1,5 1,5 7 3 23 0

37,5 6 1 5,52 1,26 2 6 3 40 1

37,9 8 1,5 5 1,69 1 6 3 22 0

44,5 9 1,5 9,89 1,82 2 8 4 50 1

37,9 6 1,5 6,73 1,65 1 6 3 44 0

38,9 8 1,5 9,15 1,78 2 8 4 48 1

36,9 8 1 8 1,5 2 7 3 3 0

45,8 9 1,5 7,33 1,83 1,5 8 4 31 0

Page 25: Regresión Lineal simple y multiple · 2019. 6. 5. · 2 V y x V x( ) ( )= + + =β β ε σ 0 1 La cual es constante (no depende de x) y como los errores no están correlacionados

y : Precio de venta de la casa/1.000

1x : Impuestos (locales, escuela, municipal)/1.000

2x : Cantidad de baños

3x : Tamaño del terreno ( 2pies x 1.000)

4x : Superficie construida ( 2pies x 1.000)

5x : Cantidad de cajones en cochera

6x : Cantidad de habitaciones

7x : Cantidad de recámaras

8x : Edad de la casa (años)

1) Para los datos de la Liga Nacional de Futbol:

a) Ajustar un modelo de regresión lineal múltiple que relacione la cantidad de juegos ganados con las yardas

por aire del equipo ( 2x ) el porcentaje de jugadas por tierra ( 7x ) y las yardas por tierra del contrario ( 8x

). b) Formar la tabla de análisis de varianza y probar el significado de la regresión.

c) Calcular el estadístico t para probar las hipótesis 0 2: 0H β = , y 0 7: 0H β = 0 8: 0H β = . ¿Qué

conclusiones se pueden sacar acerca del papel de las variables 2x , 7x y 8x en el modelo?

d) Calcular 2R y 2

AdjR para este modelo.

2) Con los resultados del problema 1), demostrar en forma numérica que el cuadrado del coeficiente de

correlación simple entre los valores observados iy y los valores ajustados ˆiy es igual a 2

R .

. 3) De acuerdo al problema 1), Calcular:

a) Un intervalo de confianza de 95% para 7β .

b) Un intervalo de confianza de 95% para la cantidad media de juegos ganados por un equipo cuando

2 2.300x = , 7 56x = y 8 2.100x = .

4) Para los datos de la Liga Nacional de Futbol del problema 1), ajustar un modelo a esos datos, usando sólo

7x y 8x como regresores.

a) Probar la significancia de la regresión.

b) Calcular 2R y 2

AdjR . ¿Cómo se comparan esas cantidades con las calculadas para el modelo del problema

1), que tenía un regresor más ( 2x )?

c) Calcular un intervalo de confianza de 95% para 7β . También, un intervalo de confianza de 95% para la

cantidad media de juegos ganados por un equipo cuando 7 56x = y 8 2.100x = . Comparar la longitud de

esos intervalos de confianza con las longitudes de los correspondientes en el problema 3). d) ¿Qué conclusiones se pueden sacar de este problema, acerca de las consecuencias de omitir un regresor

importante de un modelo?

5) Véanse los datos de rendimiento de gasolina.

Page 26: Regresión Lineal simple y multiple · 2019. 6. 5. · 2 V y x V x( ) ( )= + + =β β ε σ 0 1 La cual es constante (no depende de x) y como los errores no están correlacionados

a) Ajustar un modelo de regresión lineal múltiple, que relacione el rendimiento de la gasolina y, en millas

por galón, la cilindrada del motor 1x y la cantidad de gargantas del carburador 6x .

b) Formar la tabla de análisis de varianza, y probar la significancia de la regresión.

c) Calcular 2R y 2

AdjR para este modelo. Compararlas con la 2

R y 2

AdjR para el modelo de regresión lineal

simple, que relacionaba las millas con la cilindrada en el problema 4).

d) Determinar un intervalo de confianza de 95% para 1β .

e) Calcular el estadístico t para probar 0 1: 0H β = 0 6: 0H β = . ¿Qué conclusiones se pueden sacar?

f) Determinar un intervalo de confianza de 95% para el rendimiento promedio de la gasolina, cuando3

1 275 lgx pu= y 6 2x = gargantas.

g) Determinar un intervalo de predicción de 95% para una nueva observación de rendimiento de gasolina

cuando 3

1 275 lgx pu= y 6 2x = gargantas.

6) En el problema 4) se pidió establecer un intervalo de confianza de 95% para el rendimiento promedio de

gasolina, y un intervalo de predicción de 95% para el rendimiento cuando la cilindrada del motor es 3

1 275 lgx pu= . Comparar las longitudes de esos intervalos con las de los intervalos de confianza y de

predicción, para el problema anterior, 5). ¿Dice algo acerca de las ventajas de agregar 6x al modelo?

7) Viendo los datos sobre precios de viviendas.

a) Ajustar un modelo de regresión múltiple que relacione el precio de venta con los nueve regresores. b) Probar la significancia de la regresión. ¿Qué conclusiones se pueden sacar? c) Usar pruebas t para evaluar la contribución de cada regresor al modelo.