angel francisco arvelo lujanarvelo.com.ve/pdf/resumen-de-regresion-lineal-arvelo.pdf · a) obtenga...

27
ANGEL FRANCISCO ARVELO LUJAN Angel Francisco Arvelo Luján es un Profesor Universitario Venezolano en el área de Probabilidad y Estadística, con más de 40 años de experiencia en las más reconocidas universidades del área metropolitana de Caracas. Universidad Católica “Andrés Bello”: Profesor Titular Jubilado 1970 a 2003 Universidad Central de Venezuela: Profesor por Concurso de Oposición desde 1993 al presente Universidad Simón Bolívar: Profesor desde 2005 al presente Universidad Metropolitana: Profesor desde 1973 a 1987 Universidad Nacional Abierta: Revisor de contenidos, desde 1979 hasta 2004 Sus datos personales son : Lugar y Fecha de Nacimiento: Caracas, 16-02-1947 Correo electrónico: [email protected] Teléfono: 58 416 6357636 Estudios realizados: Ingeniero Industrial. UCAB Caracas 1968 Máster en Estadística Matemática CIENES, Universidad de Chile 1972 Cursos de Especialización en Estadística No Paramétrica Universidad de Michigan 1982 Doctorado en Gestión Tecnológica: Universidad Politécnica de Madrid 2006 al Presente El Profesor Arvelo fue Director de la Escuela de Ingeniería Industrial de la Universidad Católica “Andrés Bello” (1974-1979) , Coordinador de los Laboratorios de esa misma Universidad especializados en ensayos de Calidad, Auditor de Calidad, y autor del libro “Capacidad de Procesos Industriales” UCAB 1998. En numerosas oportunidades, el Profesor Arvelo ha dictado cursos empresariales en el área de “Estadística General” y “Control Estadístico de Procesos”. Otras publicaciones del Prof. Arvelo pueden ser bajadas de su página web: www.arvelo.com.ve , en la sección PDFS.

Upload: others

Post on 25-Mar-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: ANGEL FRANCISCO ARVELO LUJANarvelo.com.ve/pdf/resumen-de-regresion-lineal-arvelo.pdf · a) Obtenga la ecuación de la Regresión Lineal . b) Obtenga un intervalo del 95% de confianza,

ANGEL FRANCISCO ARVELO LUJAN Angel Francisco Arvelo Luján es un Profesor Universitario Venezolano en el área de Probabilidad y Estadística, con más de 40 años de experiencia en las más reconocidas universidades del área metropolitana de Caracas. Universidad Católica “Andrés Bello”: Profesor Titular Jubilado 1970 a 2003 Universidad Central de Venezuela: Profesor por Concurso de Oposición desde 1993 al presente Universidad Simón Bolívar: Profesor desde 2005 al presente Universidad Metropolitana: Profesor desde 1973 a 1987 Universidad Nacional Abierta: Revisor de contenidos, desde 1979 hasta 2004 Sus datos personales son : Lugar y Fecha de Nacimiento: Caracas, 16-02-1947 Correo electrónico: [email protected] Teléfono: 58 416 6357636 Estudios realizados: Ingeniero Industrial. UCAB Caracas 1968 Máster en Estadística Matemática CIENES, Universidad de Chile 1972 Cursos de Especialización en Estadística No Paramétrica Universidad de Michigan 1982 Doctorado en Gestión Tecnológica: Universidad Politécnica de Madrid 2006 al Presente El Profesor Arvelo fue Director de la Escuela de Ingeniería Industrial de la Universidad Católica “Andrés Bello” (1974-1979) , Coordinador de los Laboratorios de esa misma Universidad especializados en ensayos de Calidad, Auditor de Calidad, y autor del libro “Capacidad de Procesos Industriales” UCAB 1998. En numerosas oportunidades, el Profesor Arvelo ha dictado cursos empresariales en el área de “Estadística General” y “Control Estadístico de Procesos”. Otras publicaciones del Prof. Arvelo pueden ser bajadas de su página web: www.arvelo.com.ve , en la sección PDFS.

Page 2: ANGEL FRANCISCO ARVELO LUJANarvelo.com.ve/pdf/resumen-de-regresion-lineal-arvelo.pdf · a) Obtenga la ecuación de la Regresión Lineal . b) Obtenga un intervalo del 95% de confianza,

Angel F. Arvelo [email protected] Resumen de Regresión Lineal 1

RESUMEN DE REGRESION LINEAL

Resumen Teórico Objetivos: Los objetivos de un modelo de regresión lineal son dos:

1. Predecir el valor de una variable dependiente “Y” conocido el valor de otras variables independientes X1, X2,….,Xn, llamadas variables predictivas o variables regresoras.

2. Identificar el tipo y grado de asociación entre la variable dependiente “Y” y cada una de las variables regresoras, y descartar aquellas que no ejerzan una influencia significativa sobre la variable dependiente.

Supuestos del Modelo: El modelo supone que la relación entre “Y” y las “k” variables regresoras es de la forma lineal Y = β0+β1X1+β2X2+…+βkXk + e ; en donde “e” representa el error, y el cual cumple con los siguientes tres axiomas conocidos como axiomas de Gauss:

1. La distribución del error es normal con una media cero 2. La varianza del error es la misma, para cualquier valor de las variables regresoras

(Homocedasticidad) 3. Los diferentes errores son independientes entre sí.

Así por ejemplo, en el modelo simple Y = β0+β1X+e , el error representa la distancia vertical entre el valor verdadero de Y , y su valor estimado, es decir e = Y- Y

El primer supuesto equivale a decir que si se hicieran infinitas observaciones de “Y” con un valor fijo de “X”, la media de esas infinitas observaciones de “Y” caería exactamente sobre la recta de regresión, y por lo tanto la media de esos errores sería cero; es decir: E(Y|x) = Y xµ = β0+β1x

El supuesto de homocedasticidad establece que la varianza de esos errores es la misma para todos los valores de X. Es importante aclarar que estos supuestos deben ser verificados una vez que el modelo ha sido construido. La validación de estos supuestos se conoce bajo el nombre de “Análisis de Residuos” Estimación de los parámetros: Los coeficientes beta se estiman por el método de mínimos cuadrados, el cual establece que la mejor estimación es aquella que minimiza a la suma de

cuadrados de los errores,dado por: S.C.E = 2i n

i ii 1

y y= ∧

=

∑ =i n

2i o 1 1i 2 2i k ki

i 1(y x x x )

=

=

− β − β − β − − β∑

Con el objeto de minimizar esta S.C.E es necesario derivar parcialmente respecto de los coeficientes beta, igualar a cero, formar un sistema conocido como “Ecuaciones Normales de la Regresión”, y despejar los estimadores. Una vez resuelto el sistema, se obtiene la siguiente solución: Caso Simple Y = β0+β1X +e. En este caso se obtiene:

i n i n i n

i i i ii 1 i 1 i 1

1 2i n i n21 i

i 1 i 1

n x y x yˆ

n x x

= = =

= = =

= =

= =

− β =

∑ ∑ ∑

∑ ∑ ;

i n i n i n i n21 i i i i

i 1 i 1 i 1 i 10 12i n i n

21 i

i 1 i 1

x y x x yˆ ˆY X

n x x

= = = =

= = = =

= =

= =

−β = = − β

∑ ∑ ∑ ∑

∑ ∑

Page 3: ANGEL FRANCISCO ARVELO LUJANarvelo.com.ve/pdf/resumen-de-regresion-lineal-arvelo.pdf · a) Obtenga la ecuación de la Regresión Lineal . b) Obtenga un intervalo del 95% de confianza,

Angel F. Arvelo [email protected] Resumen de Regresión Lineal 2

Caso Múltiple: Y = β0+β1X1+β2X2+…+βkXk + e. En este caso es necesario adoptar la notación matricial para estimar a los coeficientes beta, y se obtiene: ( ) 1T Tˆ X X (X Y)

−β = en donde:

β representa la matriz de coeficientes beta, es de dimensión (k+1)x1 =

o

1

k

ˆ

ˆˆ....ˆ

β β

β = β

X es la matriz de observaciones, de dimensión (k+1) x n=

11 21 k1

12 22 k2

1n 2n kn

1 x x x1 x x x......................1 x x x

Y es la matriz de respuestas, de dimensión nx1 =

1

2

n

yy....y

Una propiedad importante que tiene la recta obtenida por el método de mínimos cuadrados, es que la suma algebraica de los errores se anula, es decir que la suma de los errores por exceso se compensa con la suma de los errores por defecto. Esta propiedad también se cumple en el caso del modelo lineal múltiple. El otro parámetro que debe ser estimado es la varianza común del error σ2, cuyo estimador

insesgado es la varianza muestral del error dada por: 2 2e

S.C.ES ˆn k 1

= σ =− −

El coeficiente de correlación muestral “r”: Se usa sólo en el caso simple, y cumple dos funciones: 1º) Señalar el tipo de asociación existente entre las variables “X” y “Y” r >0 ⇒ Correlación directa ⇒ Pendiente Positiva r <0 ⇒ Correlación inversa ⇒ Pendiente Negativa r =0 ⇒ No existe correlación lineal (Es incorrecto decir que son independientes) Pendiente Nula 2º) Medir el grado de asociación lineal entre las variables r2 =1 ⇔ r = 1 ó r = -1 ⇔ S.C.E = 0 ⇔ La recta es perfecta es decir pasa por todos los puntos r= 0 ⇔ 1

ˆ 0β = ⇒ Recta de ecuación Y = Y ⇒ X no interviene en la regresión Otras propiedades importantes del coeficiente de correlación son: Su valor es adimensional y se ubica siembre en el intervalo [-1 ; +1] ⇒ -1 ≤ r ≤ +1 Se puede calcular mediante cualquiera de las siguientes dos expresiones equivalente

i n i n i n

i i i ii 1 i 1 i 1

2 2i n i n i n i n2 21 i 1 i

i 1 i 1 i 1 i 1

n x y x yr

(n x x ) (n y y )

= = =

= = =

= = = =

= = = =

− =

− −

∑ ∑ ∑

∑ ∑ ∑ ∑=

2i n i n21 i

i 1 i 11 2i n i n

2i i

i 1 i 1

n x xˆ

n y y

= =

= =

= =

= =

− β

∑ ∑

∑ ∑

Es importante aclarar que correlación no significa causalidad, y que además el valor de “r” debe ser visto como una variable aleatoria, debido a que varía de una muestra a otra, y lo correcto es llamarlo “coeficiente de correlación muestral” El coeficiente de correlación poblacional se suele designar por ρ

Page 4: ANGEL FRANCISCO ARVELO LUJANarvelo.com.ve/pdf/resumen-de-regresion-lineal-arvelo.pdf · a) Obtenga la ecuación de la Regresión Lineal . b) Obtenga un intervalo del 95% de confianza,

Angel F. Arvelo [email protected] Resumen de Regresión Lineal 3

El Coeficiente de Determinación R2: Se usa tanto en el caso simple como en el múltiple, y representa la proporción de variabilidad que las variables regresoras en su conjunto, explican de la variabilidad total. Así por ejemplo, un valor R2 = 0,86 significa que el 86% de la variabilidad en “Y” es explicado por las variables regresoras. La variabilidad total en “Y”, llamada también “Suma Total de Cuadrados”, se calcula siempre como la suma de cuadrados de los desvíos de Y con relación a su media; es decir:

Variabilidad Total = S.T.C = i n

2i

i 1(y Y)

=

=

−∑

En el caso simple, es fácil demostrar la fórmula ANOVA para la Regresión Lineal Simple:

i n i n i n2 2 2 2

i 1 i ii 1 i 1 i 1

(y Y) (x X) + e= = =

= = =

− = β −∑ ∑ ∑

El término i n

2 2i

i 1(x X)

=

=

β −∑

se suele llamar “Variabilidad Explicada” o “Variabilidad debida a la

Regresión; mientras que el otro i n

2i

i 1e

=

=∑ ”Variabilidad Residual” o “Suma de Cuadrados del Error”

i n i n2 2 2

1 i i2 2i 1 i 1

i n i n2 2

i ii 1 i 1

(x X) eVariabilidad ExplicadaR 1 r

Variabilidad Total(y Y) (y Y)

= =

= == =

= =

β −= = − = =

− −

∑ ∑

∑ ∑

En el caso múltiple, la descomposición ANOVA de la suma total de cuadrados es más compleja, pero se mantiene el mismo concepto: Variabilidad Total = Variabilidad debida a la Regresión + Variabilidad Residual

ò : S.T.C = S.C.R + S.C.E ⇒ 2 Variabilidad debida a la Regresión S.C.R S.C.ER 1 - Variabilidad Total S.T.C S.T.C

= = =

En el caso múltiple, pueden existir variables X que presenten correlación positiva con la variable dependiente Y, y otras que presenten una correlación negativa; el valor de R2 jamás es negativo, mide la proporción de variabilidad explicada por todas las variables consideradas en conjunto, y se verifica 0 ≤ R2 ≤ 1 Es importante aclarar que cuando R2 = 1, entonces S.C.E = 0, lo que significa que no hay error En algunos casos, la ausencia de error puede deberse a que se dispone de una muestra insuficiente. Así por ejemplo, si tenemos una muestra de apenas dos puntos, el ajuste lineal sería perfecto con R2 = 1, no porque realmente la relación lineal lo sea, si no porque la muestra es muy pequeña. Por ese motivo, para comparar la precisión entre distintos modelos, es muy frecuente que se utilice el R2 ajustado, el cual toma en cuenta el número “n” de puntos en la muestra para cada modelo, y también el número “k” de variables explicativas o regresoras utilizadas.

2 2ajustado

n 1R 1 (1 R )n k 1

− = − − − −

Estimación por intervalos en la recta de regresión : Mediante las técnicas de regresión lineal simple, no solamente se puede estimar puntualmente el valor de la variable "Y" , cuando la variable "X" toma un valor particular X= xo , sino también pueden darse un intervalo, en donde se encontrará el valor de "Y" con una probabilidad previamente establecida . El intervalo del (1 -α) de confianza para una observación individual de Y, cuando X= xo viene dado por la expresión :

2o

o 1 0 /2 ; n-2 e i n2

ii 1

(x X)1( x ) t S 1n

(x X)α =

=

−β + β ± + +

−∑

Page 5: ANGEL FRANCISCO ARVELO LUJANarvelo.com.ve/pdf/resumen-de-regresion-lineal-arvelo.pdf · a) Obtenga la ecuación de la Regresión Lineal . b) Obtenga un intervalo del 95% de confianza,

Angel F. Arvelo [email protected] Resumen de Regresión Lineal 4

mientras que el intervalo del (1 -α) de confianza, para E(Y|xo) = Y xoµ media de las observaciones de

Y , cuando X= xo , por : 2

oo 1 0 /2 ; n-2 e i n

2i

i 1

(x X)1( x ) t S n

(x X)α =

=

−β + β ± +

−∑

El coeficiente /2 ; n-2tα , debe buscarse en la Distribución t- Student, con n-2 grados de libertad. Ejemplo: Antes de iniciar un determinado curso, se somete a los participantes a un examen de conocimientos previos, y luego se compara la calificación obtenida en el curso con los de aquella prueba. Los resultados obtenidos en una muestra fueron: Prueba Previa: 65 50 55 65 55 70 65 70 55 70 50 55 Curso: 85 74 76 90 85 87 94 98 81 91 76 74 a) Obtenga la ecuación de la Regresión Lineal b) Obtenga un intervalo del 95% de confianza, para la media de las calificaciones en el curso, para aquellos alumnos que obtuvieron 60 puntos en prueba previa. c) Obtenga un intervalo del 95% de confianza, para la calificación en el curso, de un alumno que obtuvo 60 puntos en la prueba previa. Respuesta: a) Y = 30.056 + 0.897 X b) [81.106 ; 86.646] . c) [73.903 ; 93.849] Pruebas de Hipótesis en la Regresión Lineal Simple : Debido a que los coeficientes de la recta de regresión se obtienen a partir de una muestra, los valores estimados tanto para "β0" , como para "β1", deben ser vistos como valores particulares de las variables aleatorias 0β y 1β , y por lo tanto cabe preguntarse si es posible en base a esa muestra, aceptar que el verdadero valor de cada uno de esos parámetros coincide con una valor previamente establecido. Son varias las Pruebas de Hipótesis, que pueden hacerse en la Regresión Lineal Simple. He aquí algunas de ellas:

• Pruebas para el coeficiente β1: Estas pruebas se basan en que, bajo los supuestos de las

regresión, la variable: i n

21 1i

e i 1

ˆ(x X)

S

=

=

β − β−∑ ∼ t(n-2)

Caso 1: Bilateral: o 1 10

1 1 10

H :H :

β = β β ≠ β

Se calcula el valor de t=i n

21 10i

e i 1

ˆ(x X)

S

=

=

β − β−∑

Si -tα/2,n-2 ≤ t ≤ + tα/2,n-2 ⇒ Aceptar H0

También puede hacerse con el intervalo de confianza para β1, que resulta ser: e

1 /2;;n 2 i n2

ii 1

Sˆ t

(x X)α −

=

=

β ±

−∑

Si β10 cae dentro del intervalo de confianza ⇒ Aceptar H0; de lo contrario rechazar H0

Caso 2: Unilateral derecha : o 1 10

1 1 10

H : H : >

β ≤ β β β

Se calcula el valor de t=i n

21 10i

e i 1

ˆ(x X)

S

=

=

β − β−∑

Si t ≤ + tα,n-2 ⇒ Aceptar H0

Caso 3: Unilateral izquierda : o 1 10

1 1 10

H : H : <

β ≥ β β β

Se calcula el valor de t=i n

21 10i

e i 1

ˆ(x X)

S

=

=

β − β−∑

Si t ≥ - tα,n-2 ⇒ Aceptar H0

Page 6: ANGEL FRANCISCO ARVELO LUJANarvelo.com.ve/pdf/resumen-de-regresion-lineal-arvelo.pdf · a) Obtenga la ecuación de la Regresión Lineal . b) Obtenga un intervalo del 95% de confianza,

Angel F. Arvelo [email protected] Resumen de Regresión Lineal 5

• Pruebas para el coeficiente de correlación poblacional ρ Un caso particular de la pruebas para el coeficiente β1 es el caso β10= 0, debido cuando β10= 0 lo que se está probando en realidad es que no existe una correlación significativa entre las variables X y Y

Estas pruebas pueden hacerse calculando el valor del estadístico “t” haciendo β10= 0

i n21

i 2e i 1

ˆ r n 2t (x X)S 1 r

=

=

β −= − =

−∑

Caso 1: Bilateral: o 1

1 1

H : 0H : 0

β =

β ≠ equivale a o

1

H : 0 No existe correlación significativaH : 0 Existe correlación significativa

ρ = ⇒

ρ ≠ ⇒

Si -tα/2,n-2 ≤ t ≤ + tα/2,n-2 ⇒ Aceptar H0

Caso 2: Derecha o 1

1 1

H : 0H : 0

β ≤

β > equivale a o

1

H : 0 No existe correlación directaH : 0 Existe una significativa correlación directa

ρ ≤ ⇒

ρ > ⇒

Si t ≤ tα,n-2 ⇒ Aceptar H0

Caso 3: Derecha o 1

1 1

H : 0H : 0

β ≥

β < equivale a o

1

H : 0 No existe correlación inversaH : 0 Existe una significativa correlación inversa

ρ ≥ ⇒

ρ < ⇒

Si t ≥- tα,n-2 ⇒ Aceptar H0

Ejemplo: Las materias primas empleadas en la producción de una fibra sintética, son almacenadas en un lugar en donde no se tiene control sobre la humedad. Las mediciones de la humedad relativa en el lugar de almacenamiento X, y la humedad en una muestra de las materias primas Y (ambas en porcentaje) en 12 días dieron los siguientes resultados: Humedad (X): 42 35 50 43 48 62 31 36 44 39 55 48 Contenido de Humedad (Y): 12 8 14 9 11 16 7 9 12 10 13 11 A un nivel de significación del 5% ¿considera Ud. que existe una correlación positiva entre las dos variables? En algunos se quiere contrastar el valor del coeficiente de correlación poblacional “ρ” no contra el valor ρ= 0, sino contra un valor predeterminado ρo En este caso, el procedimiento cambia sustancialmente, y se toma como estadístico de prueba a la

llamada “Transformación Z de Fisher” definida por la expresión: z= o

o

(1 r)(1 )n 3 ln2 (1 r)(1 )

+ − ρ−− + ρ

Caso 1: Bilateral: o o

1 o

H :H :

ρ = ρ ρ ≠ ρ

Aceptar Ho si -zα/2 ≤ z ≤ + zα/2

Caso 2: Derecha: o o

1 o

H :H :

ρ ≤ ρ ρ > ρ

Aceptar Ho si z ≤ + zα

Caso 2: Izquierda: o o

1 o

H :H :

ρ ≥ ρ ρ < ρ

Aceptar Ho si z ≥ -zα

Mediante la transformación arco tangente hiperbólica Z de Fisher, y aplicando el procedimiento de pivote, es posible obtener un intervalo del (1-α) de confianza para el coeficiente de correlación poblacional “ρ”:

Page 7: ANGEL FRANCISCO ARVELO LUJANarvelo.com.ve/pdf/resumen-de-regresion-lineal-arvelo.pdf · a) Obtenga la ecuación de la Regresión Lineal . b) Obtenga un intervalo del 95% de confianza,

Angel F. Arvelo [email protected] Resumen de Regresión Lineal 6

/2 /2z ztanh(arctanh(r) ) ; tanh(arctanh(r) )

n 3 n 3α α

− + − −

Esta misma transformación puede ser utilizada para validar la hipótesis de que entre dos coeficientes de correlación existen diferencias significativas.

• Pruebas para el coeficiente βo: Estas pruebas se basan en que, bajo los supuestos de las

regresión, la variable: i n

2o oii n

i 12e i

i 1

ˆn (x X)

S x

=

==

=

β − β−∑

∑∼ t(n-2)

Caso 1: Bilateral: o o oo

1 o oo

H :H :

β = β β ≠ β

Se calcula el valor de t=i n

2o ooii n

i 12e i

i 1

ˆn (x X)

S x

=

==

=

β − β−∑

Si -tα/2,n-2 ≤ t ≤ + tα/2,n-2 ⇒ Aceptar H0

También puede hacerse con el intervalo de confianza para β1, que resulta ser: i n

2e i

i 1o /2;;n 2 i n

2i

i 1

S xˆ t

n (x X)

=

=α −

=

=

β ±

Si βoo cae dentro del intervalo de confianza ⇒ Aceptar H0; de lo contrario rechazar H0

Caso 2: Unilateral derecha : o o oo

1 0 oo

H : H : >

β ≤ β β β

Se calcula el valor de t= i n

2o ooii n

i 12e i

i 1

ˆn (x X)

S x

=

==

=

β − β−∑

Si t ≤ + tα,n-2 ⇒ Aceptar H0

Caso 3: Unilateral izquierda : o o oo

1 o 00

H : H : <

β ≥ β β β

Se calcula el valor de t=i n

2o ooii n

i 12e i

i 1

ˆn (x X)

S x

=

==

=

β − β−∑

Si t ≥ - tα,n-2 ⇒ Aceptar H0

• La importancia de esta prueba radica en que en la mayoría de los casos prácticos, especialmente cuando se trabaja con datos experimentales de laboratorio, es de esperar que la recta de regresión pase por el origen (βoo=0), y el rechazo por ejemplo, de la prueba bilateral, permite detectar fallas en la calibración de los equipos, que pueden ser en cualquiera de los dos sentidos. Ejemplo para resolver en clase: En la tabla siguiente, "X" representa la fuerza de tensión aplicada a una probeta de acero en miles de libras, e "Y" la elongación resultante en milésimas de pulgada: X: 1 2 3 4 5 6 Y: 14 33 40 63 76 85 Probar a un nivel de significación del 5%, que la recta de regresión pasa por el origen; e interpretar el resultado.

Regresión Curvilínea No siempre el ajuste lineal da resultados satisfactorios, y por este motivo, con frecuencia se plantea la necesidad de ajustarle a los datos una curva, dando lugar a la Regresión Curvilínea.

Page 8: ANGEL FRANCISCO ARVELO LUJANarvelo.com.ve/pdf/resumen-de-regresion-lineal-arvelo.pdf · a) Obtenga la ecuación de la Regresión Lineal . b) Obtenga un intervalo del 95% de confianza,

Angel F. Arvelo [email protected] Resumen de Regresión Lineal 7

Para todos los casos curvilíneos, incluso el lineal, la bondad del ajuste se mide mediante el "Coeficiente de Determinación", dado por la siguiente expresión:

n2

i ii2 i 1

n2

ii 1

(y y )y Valor verdadero de Y en el i-ésimo punto

R 1 ; donde y Valor estimado de Y en el i-ésimo punto

(y Y)

=

=

−=

= − =−

Este "Coeficiente de determinación", esta siempre comprendido entre 0 y 1; y cuanto más próximo se encuentre de 1, mejor es el ajuste. Los ajustes curvilíneos podrían ser clasificados en dos grupos: a) Reducibles a la forma lineal: Dentro de esta categoría caen todos aquellos que mediante algún artificio algebraico, pueden conducir a una relación lineal. Los más importantes son: a.1 Ajuste Exponencial: Es un ajuste de la forma Y = A ekX , que puede ser reducido a la forma lineal, tomando logaritmos: lnY = ln A + kX , que plantea una relación lineal entre el logaritmo de "Y" , y "X" ,que permite utilizar las ecuaciones de mínimos cuadrados, teniendo en cuenta que la variable dependiente es "ln Y" , y que "ln A " está representando el papel de la ordenada en el origen βo.

El ajuste exponencial es muy usado en la proyección de variables que presentan un crecimiento geométrico; y una forma práctica de saber si es satisfactorio, es graficar los datos en "papel semilogarítmico", en donde deben quedar alineados, en caso de que se ajusten bien a la curva .

Ejemplo: Las siguientes cifras representan el porcentaje de cauchos radiales producidos por un cierto fabricante, que aún pueden usarse, después de haber recorrido un cierto número de kilómetros "X" (miles de Km recorridos): 1 2 5 10 20 30 40 50 "Y" (Porcentaje útil): 98.2 91.7 81.3 64.0 36.4 32.6 17.1 11.3

Page 9: ANGEL FRANCISCO ARVELO LUJANarvelo.com.ve/pdf/resumen-de-regresion-lineal-arvelo.pdf · a) Obtenga la ecuación de la Regresión Lineal . b) Obtenga un intervalo del 95% de confianza,

Angel F. Arvelo [email protected] Resumen de Regresión Lineal 8

Usar el papel semilogarítmico, para advertir si es razonable suponer una relación exponencial entre las variables; y en caso de que lo sea, obtener su ecuación, y usarla para estimar el porcentaje de cauchos que durarán 25.000 Km por lo menos Respuesta: Y = 100.00 (0.96)X; 33.9% a.2 Ajuste a la función potencial : Este ajuste plantea entre "X" e "Y", una relación de la forma : Y = A Xk ; y da lugar a curvas de la siguiente forma:

El ajuste potencial puede ser también llevado a la forma lineal, mediante el empleo de logaritmos, obteniendo una relación de la forma: ln Y = ln A + k ln X que permite utilizar las fórmulas obtenidas por mínimos cuadrados para el caso lineal. El uso del papel logarítmico, es una forma práctica y rápida de determinar si este ajuste es adecuado. a.3 Ajuste a la función recíproca: Este es una ajuste de la forma

o 1

1YX

=β + β

; y puede ser llevado

a la forma lineal, al invertir ambos lados de la expresión, obteniendo: o 11 XY= β + β

en donde, pueden ser aplicadas las fórmulas de mínimos cuadrados para el ajuste lineal.

b) Ajustes no reducibles a la forma lineal: Dentro de esta categoría, caen aquellos ajustes, en donde no es posible obtener relaciones lineales entre alguna función de "Y", con otra función de "X", y por lo tanto hay que deducir para cada caso, sus correspondientes fórmulas de mínimos cuadrados. Los más importantes son: b.1 El ajuste polinómico : En donde la ecuación de la curva de regresión es de la forma:

Y = β0+β1X+β2X2+…+βkXk

Page 10: ANGEL FRANCISCO ARVELO LUJANarvelo.com.ve/pdf/resumen-de-regresion-lineal-arvelo.pdf · a) Obtenga la ecuación de la Regresión Lineal . b) Obtenga un intervalo del 95% de confianza,

Angel F. Arvelo [email protected] Resumen de Regresión Lineal 9

La determinación de los coeficientes beta, se hace aplicando el criterio de mínimos cuadrados, para

lo cual es necesario definir la S.C.E =n

2i i

i 1(y y )

=−∑ , y luego derivar parcialmente respecto de los

coeficientes beta, para obtener el siguiente sistema de (k+1) ecuaciones, con (k+1) incógnitas:

n n i n i n2 k

o 1 i 2 i k i ii 1 i 1 i 1 i 1

n n n i n i n2 3 k 1

o i 1 i 2 i k i i ii 1 i 1 i 1 i 1 i 1n n n i n i n

2 3 4 k 2 2o i 1 i 2 i k i i i

i 1 i 1 i 1 i 1 i 1

n x x x y

x x x x x y

x x x x x y

.............................

= =

= = = == =

+

= = = = == =

+

= = = = =

β + β + β + + β =

β + β + β + + β =

β + β + β + + β =

∑ ∑ ∑ ∑

∑ ∑ ∑ ∑ ∑

∑ ∑ ∑ ∑ ∑

n n n i n i nk k 1 k 2 2k k

o i 1 i 2 i k i i ii 1 i 1 i 1 i 1 i 1

.................................................

x x x x x y= =

+ +

= = = = =

β + β + β + + β =

∑ ∑ ∑ ∑ ∑

Ejemplo: Los siguientes datos, representan el tiempo de secado en horas, de una cierta pintura, cuando se le añaden diversas cantidades de un aditivo, con el que se intenta reducir el tiempo: "X" (Gramos del Aditivo): 0 1 2 3 4 5 6 7 8 "Y" (Tiempo de Secado): 12.0 10.5 10.0 8.0 7.0 8.0 7.5 8.5 9.0 Ajustar una parábola de segundo grado, y predecir el tiempo de secado cuando se le añaden 6.5 gramos del aditivo. Solución: Haciendo los cálculos, se obtiene que el sistema de ecuaciones correspondiente es: 80.5 = 9 βo + 36 β1 + 204 β2 299.0 = 36 βo + 204 β1 + 1296 β2 1697.0= 204 βo + 1296 β1 + 8772 β2 resolviendo se obtiene: βo =12.185 ; β1 = -1.847 ; β2 = 0.183

de donde se deduce que cuando se usen 6.5 gramos del aditivo, el tiempo estimado de secado será de 7.9 horas . b.2 Curvas de Gompertz: Estas son curvas que se utilizan fundamentalmente, en el análisis de Series Cronológicas, para proyectar la demanda futura de un determinado artículo; ya que presentan tres zonas de diferente comportamiento; la inicial, en donde el crecimiento, es muy brusco, la intermedia, en donde se desacelera el crecimiento, y la fase estable, en donde la curva se hace asintótica a un recta horizontal.

Page 11: ANGEL FRANCISCO ARVELO LUJANarvelo.com.ve/pdf/resumen-de-regresion-lineal-arvelo.pdf · a) Obtenga la ecuación de la Regresión Lineal . b) Obtenga un intervalo del 95% de confianza,

Angel F. Arvelo [email protected] Resumen de Regresión Lineal 10

La ecuación de las curvas de Gompertz es: xbY C A=

La forma de estas curvas es muy variable, según sea el signo y el valor de los coeficientes A, b y C; pero la situación más frecuente es C > 0 0<A<1 y 0<b<1 dando lugar a una curva de la siguiente forma:

Existen varios procedimientos para obtener los coeficientes A, b y c , los cuales pueden ser consultados en textos que hagan referencia a métodos estadísticos utilizados en el pronóstico con series de tiempo.

REGRESION LINEAL MULTIPLE En todos los ajustes anteriores, se trata de explicar el comportamiento de una variable dependiente "Y", a través de los diferentes valores de otra única variable independiente "X"; sin embargo, en la práctica suele suceder que una sola variable independiente, no basta para describir satisfactoriamente el comportamiento de la variable dependiente, y por este motivo, es necesario incorporar en el modelo, a “k” variables independientes; dando lugar a la Regresión Múltiple, en donde, para el caso lineal, se establece entre la variable dependiente "Y' , y variables independientes una relación de la forma: Y = β0+β1X1+β2X2+…+βkXk + e La estimación de los coeficientes beta, se hace aplicando el criterio de mínimos cuadrados, para lo

cual es necesario definir la S.C.E =n

2i i

i 1(y y )

=−∑ , y luego derivar parcialmente respecto de los

coeficientes beta, para obtener el siguiente sistema de (k+1) ecuaciones, con (k+1) incógnitas:

n n i n i n

o 1 1i 2 2i k ki ii 1 i 1 i 1 i 1

n n n i n i n2

o i 1 1i 2 1i 2i k 1i ki 1i ii 1 i 1 i 1 i 1 i 1n n n i n i n

2o 2i 1 1i 2i 2 2i k 2i ki 2i i

i 1 i 1 i 1 i 1 i 1

n x x x y

x x x x x x x y

x x x x x x x y

..................

= =

= = = == =

= = = = == =

= = = = =

β + β + β + β =

β + β + β + + β =

β + β + β + + β =

∑ ∑ ∑ ∑

∑ ∑ ∑ ∑ ∑

∑ ∑ ∑ ∑ ∑

n n n i n i nk 2 2

o ki 1 1i ki 2 i k ki ki ii 1 i 1 i 1 i 1 i 1

............................................................

x x x x x x y= =

+

= = = = =

β + β + β + + β =

∑ ∑ ∑ ∑ ∑

La notación matricial señalada en la página 2, es la más conveniente para resolver este sistema. Ejemplo: Los datos siguientes representan el número de torsiones necesarias para romper una barra, hecha con cierto tipo de aleación, en donde se han modificado los porcentajes de los metales que la integran:

Page 12: ANGEL FRANCISCO ARVELO LUJANarvelo.com.ve/pdf/resumen-de-regresion-lineal-arvelo.pdf · a) Obtenga la ecuación de la Regresión Lineal . b) Obtenga un intervalo del 95% de confianza,

Angel F. Arvelo [email protected] Resumen de Regresión Lineal 11

Nº de Torsiones: 38 40 85 59 40 60 68 53 31 35 42 59 18 34 29 42 % Elemento "A" 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 % Elemento "B" 5 5 5 5 10 10 10 10 15 15 15 15 20 20 20 20 Tomando como variables independientes al porcentaje de cada elemento; obtenga la ecuación de la regresión múltiple; y estime el número de torsiones requeridas para romper una barra que tenga 2.5% del elemento "A" y 12% del elemento "B" . Solución: Haciendo los cálculos, se obtiene el siguiente sistema: 733 = 16 βo + 40β 1 + 200 β2 1989 = 40 βo + 120 β1 + 500 β2 8285= 200 βo + 500 β1 + 3000 β2 y resolviendo, se obtiene: βo =48.2 ; β1 = 7.83 ; β2 = -1.76 ; y por lo tanto, la ecuación de la Regresión Múltiple es: Y = 48.2 + 7.83 X1 -1.76 X2 ; de donde se deduce que cuando X1 =2.5 ,y X2 = 12, el número esterado de torsiones será de 46.7 . Coeficiente de determinación múltiple, y parciales: En la regresión múltiple, el grado de asociación de todas las variables independientes en conjunto, con la variable dependiente, se mide a través del coeficiente de determinación múltiple, el cual se calcula de la misma forma que en el caso simple, mediante la expresión:

n2

i ii2 i 1

n2

ii 1

(y y )y Valor verdadero de Y en el i-ésimo punto

R 1 ; donde y Valor estimado de Y en el i-ésimo punto

(y Y)

=

=

−=

= − =−

Así por ejemplo, un coeficiente de determinación múltiple de 0,85 por ejemplo, debe ser interpretado como que el 85% de la variabilidad en "Y", es explicado a través de todas las variables independientes en conjunto, dejando el 15% restante a otras causas, o bien, al azar. El coeficiente de determinación parcial mide el grado de asociación entre la variable dependiente "Y", y una sola de las variables independientes; considerando la cantidad relativa en que se reduce la variación no explicada, al incluir esta variable en la ecuación de regresión. Así por ejemplo, un coeficiente de determinación parcial de 0,60 debe interpretarse como que al incluir a esta variable en la regresión, la variabilidad no explicada se reduce en un 60% Pruebas de Hipótesis en la Regresión Múltiple: La primera prueba importante es la que se refiere a la validez de la regresión en su conjunto.

Esta prueba es : 0 1 2 k

1 i

H : 0H : Algún 0

β = β = = β =

β ≠

Resulta obvio que si la Hipótesis Nula Ho resulta aceptada, el investigador está totalmente desorientado en la selección de la variables regresoras, mientras que en caso de rechazarla, por lo menos una de ellas resulta significativa. Esta prueba se apoya en la descomposición ANOVA S.T.C = S.C.R + S.C.E

Variabilidad Total (S.T.C)= Variabilidad debida a la Regresión (S.C.R) + Variabilidad Residual (S.C.E)

y utiliza como estadístico de contraste : S.C.R / kFS.C.E / n k 1

=− −

∼ F( k,n-k-1)

Si. F ≤ Fα;k,n-k-1 ⇒ Aceptar Ho La tabla ANOVA refleja la descomposición de la suma total de cuadrados Ejemplo: En un experimento, un investigador cree que el tiempo de una cierta reacción (Y) , depende de la temperatura de un ingrediente "A" (X1) , de la temperatura de otro ingrediente "B" (X2) ,y de una tasa de flujo (X3) ; planteándose una relación lineal entre las tres variables, de la forma:

Page 13: ANGEL FRANCISCO ARVELO LUJANarvelo.com.ve/pdf/resumen-de-regresion-lineal-arvelo.pdf · a) Obtenga la ecuación de la Regresión Lineal . b) Obtenga un intervalo del 95% de confianza,

Angel F. Arvelo [email protected] Resumen de Regresión Lineal 12

Y = βo + β

1 X1 + β

2 X

2 + β

3 X3 + e

Un conjunto de observaciones de las cuatro variables, dio el siguiente resultado: X1 X2 X3 Y 11 58 11 126 32 21 13 92 15 22 28 107 26 55 27 120 9 41 21 103 31 18 20 84 12 56 20 113 29 40 27 110 13 57 30 104 10 21 12 83 33 40 19 85 31 58 29 104 Obtenga la ecuación de la regresión múltiple, obtenga su coeficiente de determinación, y analice si se necesitan a todas las variables, a un nivel de significación del 5% . Solución: Analizado mediante la computadora, se obtuvo:

Conclusión: La prueba Ho: β1=β2=β3= 0 resulta acepta porque F = 3.262 < F0.05; 3,8 = 5,42, con un p-valor > 0,05. Esto significa que la regresión no resulta significativa con ninguna de las tres variables. Es recomendable entonces, que el investigador seleccione otras nuevas variables que puedan explicar más satisfactoriamente en la variable “Y” tiempo de reacción. La otra prueba importante, es la bilateral referente a la nulidad de alguno de los coeficientes de la

regresión, en donde las Hipótesis a probar son: o i

1 i

H : 0H : 0

β =

β ≠

La importancia de esta prueba radica en el hecho, de que a la hora de armar el modelo de regresión múltiple, el investigador no sabe a ciencia cierta, cuales son las variables influyentes, y cuáles no; y por este motivo, una vez armado el modelo, cabe preguntarse si realmente se necesitan a todas las variables, o si algunas de ellas pueden ser eliminadas. La aceptación de la hipótesis Ho, conlleva a la eliminación de la variable correspondiente del modelo; mientras que su rechazo, decide la permanencia de dicha variable dentro del modelo. La metodología de cálculo para probar esta hipótesis es bastante compleja, pues necesita encontrar la llamada “matriz de covarianzas” que resulta de multiplicar ( ) 1TX X

−por el escalar Se

2 “Varianza muestral del error”

Multiple - Y : Y Three X variables

DF: 11

R-squared:.55

Std. Err.:11.094

Coef. Var.: 10.815

Analysis of Variance TableDF: 3 8 11

Sum Squares:1204.318984.598 2188.917

Mean Square:401.439 123.075

F-test: 3.262 .05 < p .10

SourceREGRESSIONRESIDUALTOTAL

Page 14: ANGEL FRANCISCO ARVELO LUJANarvelo.com.ve/pdf/resumen-de-regresion-lineal-arvelo.pdf · a) Obtenga la ecuación de la Regresión Lineal . b) Obtenga un intervalo del 95% de confianza,

Angel F. Arvelo [email protected] Resumen de Regresión Lineal 13

Los términos de la diagonal principal de esta matriz representan las varianzas de los estimadores de

los diferentes coeficientes beta, y a partir de ella, y se calcula el estadístico "t-Student": t = ii

ˆiSe C

β

siendo Cii= Termino (i,i) en la matriz ( ) 1TX X−

Si -tα/2,n-k-1 ≤ t ≤ + tα/2,n-k-1 ⇒ Aceptar H0 i 0β =

La mayoría de los paquetes computarizados para la Regresión Múltiple, arroja una tabla llamada “Taba de coeficientes” en donde se puede leer el valor de este estadístico “t” para cada uno de los coeficientes Otra manera de hacer esta prueba es a través del intervalo de confianza para β i:

i /2,;n k 1 e iiˆ t S Cα − −β ±

Coeficientes BETA estandarizados: En caso de que dos ó más variables resulten significativas, una pregunta obvia que se plantea el investigado es ¿Cuál es su orden de importancia? Esta pregunta puede responderse a través del p-valor en la tabla de coeficientes beta, pues a menor p-valor más influyente es la variable. Otra manera de responder esta pregunta, es a través de los llamados coeficientes beta estandarizados. Para explicar el significado de estos coeficientes, es necesario aclarar que en el modelo de regresión o 1 1 2 2 k k

ˆ ˆ ˆ ˆ ˆY X X X ,= β + β + β +…+ β el valor numérico de los coeficientes beta no es comparable, pues sus unidades son diferentes. Así por ejemplo, no podemos decir que porque 1β > 2β entonces X1 es más influyente que X2. Esta comparación es incorrecta porque los coeficientes no tienen las mismas unidades. Existe un artificio para reducir la ecuación de regresión, y escribirla con coeficientes beta libres de unidades, y por lo tanto comparables. Este artificio es el siguiente: De la primera ecuación normal, obtenida por el método de mínimos cuadrados al derivar parcialmente respecto de βo se tiene:

n n i n i n

o 1 1i 2 2i k ki ii 1 i 1 i 1 i 1

ˆ ˆ ˆ ˆn x x x y= =

= = = =β + β + β + β =∑ ∑ ∑ ∑ ⇒ o 1 1 2 2 k k

ˆ ˆ ˆ ˆY X X Xβ = − β − β − − β

Reemplazando oβ en la ecuación del modelo, y reordenando algunos términos resulta:

1 1 1 2 2 2 k k kˆ ˆ ˆ ˆY Y (X X ) (X X ) (X X )− = β − + β − + + β −

Cada uno de los sumandos de esta expresión puede ser multiplicada y dividida por la desviación de las observaciones correspondientes, y resulta:

Y X1 X2 Xk1 1 1 2 2 2 k k k

Y X1 x2 Xk

S S S Sˆ ˆ ˆ ˆ(Y Y) (X X ) (X X ) (X X )S S S S

− = β − + β − + + β −

Para llegar finalmente a: X1 1 1 X2 2 2 Xk k k1 2 k

Y Y X1 Y X2 Y xk

ˆ S (X X ) S (X X ) S (X X )(Y Y) ˆ ˆ ˆS S S S S S S

− − −−= β + β + + β

La expresión j j

Xj

(X X )S−

representa el valor estandarizado de la variable Xj y es un número real sin

unidades, al igual que Xj *j j

Y

Sˆ ˆS

β = β que recibe el nombre de coeficiente beta estandarizado para la

variable Xj.

Page 15: ANGEL FRANCISCO ARVELO LUJANarvelo.com.ve/pdf/resumen-de-regresion-lineal-arvelo.pdf · a) Obtenga la ecuación de la Regresión Lineal . b) Obtenga un intervalo del 95% de confianza,

Angel F. Arvelo [email protected] Resumen de Regresión Lineal 14

* *j iˆ ˆβ > β ⇒ La variable Xj es más influyente que la variable Xi

Intervalos de Predicción en la Regresión Lineal Múltiple Cuando las variables independientes toman cada una un valor particular X1 = X10 X2 = X20 …… Xk = Xko , el modelo permite realizar un pronóstico por intervalos para el valor que tomará Y , tanto para una observación individual, como para la media de esos valores. El intervalo de confianza para una observación individual de Y viene dado por:

T T 10 1 10 2 20 k k0 /2;n k 1 e 0 0ˆ ˆ ˆ ˆ( X X X ) t S 1 X (X X) X−

α − −β + β + β + + β ± + Mientras que el intervalo para la media

OY Xµ resulta:

T T 10 1 10 2 20 k k0 /2;n k 1 e 0 0ˆ ˆ ˆ ˆ( X X X ) t S X (X X) X−

α − −β + β + β + + β ±

Siendo X0 la matriz (k+1) x1: 10

o 20

k0

1X

X X......X

=

, y T0X su transpuesta

Análisis de Residuos: La teoría de la Regresión Lineal Simple está apoyada sobre los Axiomas de Gauss, los cual deben ser verificados una vez construido el modelo, y este es el objetivo del análisis de residuos. Para comenzar este análisis, es necesario calcular para cada punto de la muestra, el error cometido por el modelo: i i ï i o 1 1i 2 2i k ki

ˆ ˆ ˆ ˆ ˆe Y Y Y X X X= − = − β − β − β −…− β Una vez calculados estos “n” errores, y verificado que se cumple la condición de que su suma algebraica resulta igual a cero, hay que hacer las siguientes verificaciones:

• Prueba de Normalidad: Persigue como objetivo verificar que se cumple el supuesto de normalidad.

En la práctica, esta prueba se suele hacer con el papel probabilístico. Una explicación más detallada sobre el uso de este papel, puede encontrarse en el texto “Capacidad de Procesos” disponible en mi página web arvelo.com,ve sección PDF´s.

• Pruebas de Homocedasticidad : Tienen como objetivo validar el supuesto de varianza común. Los más importantes son el contraste de Bartlett ,el de Hartley y el de Levene

• Pruebas de Autocorrelación: Tienen como objetivo verificar el supuesto de independencia entre los errores, que equivale a probar la ausencia de autocorrelación. La más conocida de estas pruebas es la de Durbin Watson.

Si alguno de estos supuestos no se cumple, es necesario introducir algunas correcciones dentro del modelo. Una explicación mucho más detallada sobre todos los temas tratados en este resumen puede, encontrarse en los siguientes textos:

• Regression Wonnacott & Wonnacott Editorial John Wiley

• Applied Regression Analysis Draper & Smith Wiley Series in Probability and Mathematical Statistics

Page 16: ANGEL FRANCISCO ARVELO LUJANarvelo.com.ve/pdf/resumen-de-regresion-lineal-arvelo.pdf · a) Obtenga la ecuación de la Regresión Lineal . b) Obtenga un intervalo del 95% de confianza,

Angel F. Arvelo [email protected] Resumen de Regresión Lineal 15

• Probabilidad y Estadistica aplicadas a la Ingenieria

Montgomery & Runger Editorial Mac Graw Hill

• Estadistica Basica en Administración Berenson & Levine Editorial Prentice Hall

EJERCICIOS PROPUESTOS 1º) En un determinado proceso industrial, se piensa que la producción “Y” en toneladas, está linealmente relacionada con la temperatura “X” . Se toman dos observaciones de producción para cada nivel de temperatura, obteniendo los siguientes datos: Temperatura (°C) 0 0.5 1.5 2.0 2.5

Producción 7.2 ; 6.9 8.1 ; 8.4 9.8 ; 10.1 11.3 ; 11.7 12.9 ; 13.2 a) Obtenga la ecuación de regresión y su coeficiente correlación lineal b) ¿Es significativa la regresión?. Use α= 0 0,01 c) Obtenga un intervalo del 90% de confianza para un valor particular de la producción, cuando la

temperatura sea de 1°C . Solución : a) y = 6,96 + 2,31 x b) F = 376,66 Si es significativa 2º) El número de bacterias por unidad de volumen en un cultivo tras “X” horas, viene dado en la siguiente tabla: X( Horas) 0 1 2 3 4 5 6 Y (Bac/Vol) 32 47 65 92 132 190 275 a) Ajústeles una curva de la forma Y = a bX. b) Estime el valor de Y cuando X = 7 Solución: a = 32,14 , b = 1,427 Y = 387

Page 17: ANGEL FRANCISCO ARVELO LUJANarvelo.com.ve/pdf/resumen-de-regresion-lineal-arvelo.pdf · a) Obtenga la ecuación de la Regresión Lineal . b) Obtenga un intervalo del 95% de confianza,

Angel F. Arvelo [email protected] Resumen de Regresión Lineal 16

3º) Doce láminas de acero trabajadas en frío, que tienen diferente contenido de Cobre (%) , y diferentes temperaturas de recocido (°F) , tuvieron la siguiente Dureza ( Rockwell) : Dureza 78.8 65.1 55.4 56.2 80.9 69.5 57.4 55.2 85.6 71.8 60.2 58.7 %Cobre 0.02 0.02 0.02 0.02 0.10 0.10 0.10 0.10 0.18 0.18 0.18 0.18 Temp 1000 1100 1200 1300 1000 1100 1200 1300 1000 1100 1200 1300 Estos datos fueron procesados con el programa SPPS opción Regresión Lineal Múltiple.

ANOVA

Sum of Squares df Mean Square

F Sig.

Regression ? ? 40,607 ?

Residual ? 14,432

Total ?

a Predictors: (Constant), TEMP, COBRE b Dependent Variable: DUREZA Coefficients

Coefficients t Sig. Beta Std. Error

(Constant) ? 11,457 14,163 ? COBRE ? 16,789 ? ,085 TEMP -8,633E-02 ,010 ? ?

a Dependent Variable: DUREZA a) Complete los valores que faltan, y calcule el coeficiente de determinación del modelo. b) Redacte un informe con sus conclusiones. ¿Cuáles son las variables más influyentes, y como lo hacen?. ¿cómo es la precisión del modelo? c) Construya un intervalo del 95% de confianza, para el incremento en resistencia, cuando la temperatura de recocido se incrementa en 1°F ?. Solución:

ANOVA

Sum of Squares

df Mean Square

F Sig.

Regression

1172,097 2 586,048 40,607 ,000

Residual 129,890 9 14,432

Total 1301,987 11

Page 18: ANGEL FRANCISCO ARVELO LUJANarvelo.com.ve/pdf/resumen-de-regresion-lineal-arvelo.pdf · a) Obtenga la ecuación de la Regresión Lineal . b) Obtenga un intervalo del 95% de confianza,

Angel F. Arvelo [email protected] Resumen de Regresión Lineal 17

4º) Suponga que al aplicar un modelo de regresión lineal simple, Ud. obtuvo la siguiente ecuación: Y= 3.72 + 0,25 X; en donde "Y" representa una longitud expresada en pulgadas, y "X" una temperatura expresada en º F, y Ud. desea pasar dicha ecuación a centímetros y º C. ¿Considera Ud., que al hacer esta conversión, se altera el coeficiente de correlación del modelo? Justifique y demuestre su respuesta Solución: No se altera 5º) En la regresión lineal simple : Y = β0 + β1

.X , cuando se quiere probar la Hipótesis Ho: β1 = 0 vs. H1: β1 ≠0 , el procedimiento es mediante una t- Student con (n -2) grados de libertad, dada por

la siguiente expresión:

^i n

21i

i 1e

t (X X)S

=

=

β= ⋅ −∑ ; y cuando se quiere probar la Hipótesis: Ho: ρ = 0

vs. H1: ρ≠0 , se aplica otra t- Student , también con (n-2) grados de libertad, dada por la expresión:

tr n

r=

⋅ −

2

1 2 .

Explique la importancia práctica de dichas pruebas, y diga justificadamente si son equivalentes. Solución: Son equivalentes. 6º) Se tiene un conjunto de puntos: (X1,Y1) (X2,Y2)........., (Xn,Yn) a los cuales se les quiere ajustar una línea recta. Suponga que la ecuación de la recta de regresión de "Y" sobre "X", obtenida por el método de mínimos cuadrados es de la forma: Y = a1+ b1 X , y que la recta de regresión de "X" sobre "Y" , es de la forma : X = a2+ b2Y a) ¿Considera Ud. que ambas rectas son idénticas? Justifique b) ¿Tienen ambas rectas el mismo coeficiente de correlación? Justifique c) Demuestre que el coeficiente de determinación viene dado por: r2= b1 b2 para ambos casos. Solución: Las rectas no son idénticas, mientras que “r” si. 7°) El objetivo de un estudio es identificar cuáles son los factores más influyentes en el consumo de combustible por los vehículos. En el estudio en cuestión, se consideraron 25 modelos diferentes, y se seleccionaron las siguientes variables:

X1 X2 X3 X4 X5 X6 X7 Y 350 165 260 4 200.3 69.9 3910 18.90 X1 = Cilindraje (in3) 250 105 185 1 196.7 72.2 3510 20.00 351 143 255 2 199.9 74.0 3890 18.25 X2 = Caballos de fuerza 225 95 170 1 194.1 71.8 3365 20.07 440 215 330 4 184.5 69.0 4215 11.20 X3 = Momento de torsión 231 110 175 2 179.3 65.4 3020 22.12 89.7 70 81 2 155.7 64.0 1905 34.70 X4 =Carburador

gargantas) 96.9 75 83 2 165.2 65.0 2320 30.40 350 155 250 4 195.4 74.4 3885 16.50 X5 = Longitud (pies) 85.3 80 83 2 160.6 62.2 2009 36.50 171 109 146 2 170.4 66.9 2655 21.50 X6 = Ancho ( pies) 258 110 195 1 171.5 77.0 3375 19.70 302 129 220 2 199.9 74.0 3890 17.80 X7 = Peso ( libras ) 500 190 360 4 224.1 79.8 5290 14.39 440 215 330 4 231.0 79.7 5185 14.89 Y = Consumo de combustible

350 155 250 4 196.7 72.2 3910 17.80 ( millas /galón)

Page 19: ANGEL FRANCISCO ARVELO LUJANarvelo.com.ve/pdf/resumen-de-regresion-lineal-arvelo.pdf · a) Obtenga la ecuación de la Regresión Lineal . b) Obtenga un intervalo del 95% de confianza,

Angel F. Arvelo [email protected] Resumen de Regresión Lineal 18

231 110 175 2 179.3 65.4 3050 23.54 360 180 290 2 214.2 76.3 4250 21.47 400 185 300 4 196.0 73.0 3850 16.59 96.9 75 83 2 165.2 61.8 2275 31.90 460 223 366 4 228.0 79.8 5430 13.27

133.6 96 120 2 171.5 63.4 2535 23.90 318 140 255 2 215.3 76.3 4370 19.73 351 148 243 2 215.5 78.5 4540 13.90 350 165 255 4 185.2 69.0 3660 16.50

Esta información fue procesada con el programa SPSS, obteniendo los siguientes resultados:

a) Complete los valores que faltan. b) Redacte un informe detallado con las conclusiones del modelo. c) Encuentre un intervalo del 95% de confianza para β1 , e interprete el resultado. d) Pruebe la hipótesis: Ho: β0 = 0 contra H1: β0 ≠ 0

SOLUCION Model Summary

Model R Square

Std. Error of the

Estimate ? ?

ANOVA

Sum of Squares

df Mean Square

F Sig.

Regression ? ? ? ? ? Residual 135,530 ? ? Total 1032,898 ?

a Predictors: (Constant), X7, X4, X6, X2, X5, X1, X3 b Dependent Variable: Y Coefficients

Coefficients

t

Sig.

B Std. Error (Constant) 7,114 ? ,350 ?

X1 ? ,048 -2,426 ?

X2 -6,571E-02 ? -,839 ,413

X3 ,140 ,090 ? ?

X4 ? 1,111 ? ,092

X5 ? ,109 ? ,188

X6 ,206 ? ? ,493 X7 -6,360E-03 ,005 ? ?

a Dependent Variable: Y

Page 20: ANGEL FRANCISCO ARVELO LUJANarvelo.com.ve/pdf/resumen-de-regresion-lineal-arvelo.pdf · a) Obtenga la ecuación de la Regresión Lineal . b) Obtenga un intervalo del 95% de confianza,

Angel F. Arvelo [email protected] Resumen de Regresión Lineal 19

8º) Suponga que se quiere construir un modelo de regresión múltiple, con una superficie de respuesta de ecuación: Y = β0+ β1X1 + β2X2 + β3X1 X2+ e. Se dispone de un conjuntos de “n” datos {(x11, x21,y1) {(x12, x22,y2) ......... {(x1n, x2n,yn)} . Aplique el método de mínimos cuadrados, para obtener las ecuaciones normales de la regresión, que permitan despejar los estimadores para los coeficientes: β0, β1, β2 y β3. 9º) En un modelo de regresión lineal simple Y = β0+ β1 X + e., suponga que se realizan "k" observaciones de Y cuando X =X1, "k" observaciones de Y cuando X = X2, ....,"k" observaciones de Y cuando X = Xm.

Demuestre que la recta de regresión es idéntica a la determinada por los puntos 11(X ,Y ) 22(X ,Y )

........ mm(X ,Y ) . ¿Se puede decir lo mismo si el número de observaciones para cada valor de “X” es diferente? ¿Se altera el coeficiente de correlación?

10°) La presión “P” de un gas que corresponde a varios volúmenes V, se registra como sigue:

V (in3) 54.3 61.8 72.4 88.7 118.6 194.0

P (psi) 61.2 49.5 37.6 28.4 19.2 10.1 La ley de los gases ideales establece: PV

γ = C ,donde “γ” y “C” son constantes para cada gas.

Estime las constantes “γ” y “C” de este gas. Estime P cuando V = 100 Solución: C = 4,20 γ= -1,40 P = 25.1

Model Summary Model R R

Square Std. Error

of the Estimate

,932 ,869 2,8235 ANOVA

Sum of Squares

df Mean Square

F Sig.

Regression 897,368 7 128,195 16,080 ,000 Residual 135,530 17 7,972 Total 1032,898 24

a Predictors: (Constant), X7, X4, X6, X2, X5, X1, X3 b Dependent Variable: Y Coefficients

Coefficients

t

Sig.

95% Confidence

Interval for B

B Std. Error Lower Bound Upper Bound

(Constant) 7,114 20,304 ,350 ,730 -35,723 49,951

X1 -,117 ,048 -2,426 ,027 -,218 -,015

X2 -6,571E-02 ,078 -,839 ,413 -,231 ,100

X3 ,140 ,090 1,558 ,138 -,049 ,329

X4 1,983 1,111 1,786 ,092 -,360 4,326

X5 ,150 ,109 1,372 ,188 -,081 ,380

X6 ,206 ,294 ,701 ,493 -,415 ,827 X7 -6,360E-03 ,005 -1,340 ,198 -,016 ,004

a Dependent Variable: Y

Page 21: ANGEL FRANCISCO ARVELO LUJANarvelo.com.ve/pdf/resumen-de-regresion-lineal-arvelo.pdf · a) Obtenga la ecuación de la Regresión Lineal . b) Obtenga un intervalo del 95% de confianza,

Angel F. Arvelo [email protected] Resumen de Regresión Lineal 20

11º) Al frenar un vehículo en marcha, la distancia “Y” recorrida hasta detenerse, depende de su velocidad “X”. La siguiente tabla representa valores conjuntos de X y Y. X (millas/hr) 20 30 40 50 60 70

Y ( pies) 54 90 138 206 292 396

a) Encuentre una relación cuadrática de la forma Y= βo+β1X+β2X2 entre X y Y b) Estime Y cuando X = 45 Solución: βo= 41,77 β1=-1,096 β2= 0,08786; Y = 170 12º) Se tomó una muestra de 21 estudiantes y se observó la calificación de cada uno de ellos tanto en Matemáticas como en Física, encontrando un coeficiente de correlación muestral r = 0,75 Encuentre un intervalo del 95 % de confianza para el coeficiente de correlación poblacional ρ, y pruebe la hipótesis de que existe una correlación positiva entre las calificaciones obtenidas en estas dos asignaturas. Solución: [0,4904 ; 0,9155] Se rechaza ρ≤0 a favor de ρ>0. 13°) Se lleva a cabo un experimento para determinar si el peso de un animal “Y”, se puede predecir después de un tiempo dado, sobre la base de su peso inicial X1, y la cantidad de alimento que consume X2. Se registraron los datos siguientes en kilogramos;

Y 95 77 80 100 97 70 50 80 92 84 X1 42 33 33 45 39 36 32 41 40 38 X2 272 226 259 292 311 183 173 236 230 235

Con el propósito de utilizar un modelo lineal de la forma: Y= β0+ β1X1 +β2X2 + e, se utilizó un programa estadístico que arrojó los siguientes resultados:

ANOVA Sum of

Squares df Mean

Square F p value.

Regression ? ? 882,108 24,093 ,001

Residual 256,284 ? ?

Total ? ?

Coefficients: Estimate Std.Error t value Pr(>|t|)

(Intercept) -22,993 ? -1,294 0,237 X1 ? 0,583 2,396 0,048 X2 0,218 0,058 ? 0,007

a) Complete los valores que faltan. b) Encuentre el coeficiente de determinación del modelo. c) Obtenga sus conclusiones acerca de la precisión del modelo, identifique las variables que

ejercen una influencia significativa y clasifíquelas en orden de importancia. Utilice una significancia del 5%.

d) Obtenga un intervalo del 95 % de confianza para el coeficiente β0, e interprete el resultado. e) Calcule el residuo correspondiente al primer punto.

Page 22: ANGEL FRANCISCO ARVELO LUJANarvelo.com.ve/pdf/resumen-de-regresion-lineal-arvelo.pdf · a) Obtenga la ecuación de la Regresión Lineal . b) Obtenga un intervalo del 95% de confianza,

Angel F. Arvelo [email protected] Resumen de Regresión Lineal 21

14°) En un modelo lineal con “k” variables explicativas, la prueba 0 1 2 k

1 i

H :H : Algún 0

β = β = = β

β ≠

se realiza con el estadístico:

S.S.Regresiónk F S.S.Residual

n k 1

=

− −

a)¿Cuál es el objetivo de esta prueba?. ¿Cómo se interpreta la aceptación de H0? b) ¿Permite esta prueba identificar a las variables más influyentes? c) Demuestre que el estadístico F, también puede ser calculado mediante la expresión:

2

2

RkF

1 Rn k 1

=−− −

d) Considere un modelo con n= 25 , k = 6 . ¡Cual es el valor más pequeño de R2 , que permite concluir a un nivel de significación del 5% , que existe una correlación significativa?

Nota: Este ejercicio corresponde a un examen parcial USB tomado el 26-03-2010, para estudiantes de Ingeniería de Producción Solución: a) El objetivo de la prueba es validar el modelo de manera integral, con el objeto de comprobar que por lo menos una de las variables explicativas seleccionadas es influyente en la respuesta. La aceptación de Ho trae como consecuencia el rechazo total del modelo, pues eso significa que ninguna de las variables explicativas seleccionadas presenta correlación con la variable de respuesta. En ese caso, el investigador debe seleccionar otro modelo incluyendo nuevas variables explicativas. b) La prueba no permite identificar a las variables más influyentes; sólo permite validar la presencia de por lo menos una de las variables explicativas dentro del modelo, pero sin señalar cuál o cuáles son las más influyentes. c) Dividiendo numerador y denominador de la expresión entre la “Suma Total de Cuadrados S.T.C”

se obtiene:

S.S.Regresiónk (S.T.C)F S.S.Residual

(n k 1) (S.T.C)

=

− −

Teniendo en cuenta que: 2 S.S.Regresión S.T.C S.S.Residual S.S.ResidualR 1

S.T.C S.T.C S.T.C−

= = = −

Se obtiene:

2

2

RkF

1 Rn k 1

=−− −

Page 23: ANGEL FRANCISCO ARVELO LUJANarvelo.com.ve/pdf/resumen-de-regresion-lineal-arvelo.pdf · a) Obtenga la ecuación de la Regresión Lineal . b) Obtenga un intervalo del 95% de confianza,

Angel F. Arvelo [email protected] Resumen de Regresión Lineal 22

d) Para el caso n= 25 k = 6, se concluirá que la regresión es significativa cuando la relación F resulte

mayor que F0.05;6,18= 2,66 ; es decir

2

2

R6F 2,66

1 R18

= >−

Resolviendo la inecuación se obtiene R2 > 0,47 Por tanto, sólo es posible concluir que la regresión es significativa cuando R2 > 0,47 15°) En un estudio de producción, se observó el tiempo en producir un lote (Y) expresado en horas, en función de las siguientes variables: X1 = Tamaño del lote (en unidades de producción) X2 = Número de Operarios dedicados a su preparación X3 = Velocidad de giro de una cierta máquina (r.p.m) X4 = Temperatura promedio del proceso (°C) Se tomaron las siguientes observaciones:

Y X1 X2 X3 X4 456 1400 5 3000 18 529 1600 4 3200 20 600 1600 3 2800 17 500 1400 4 2500 15 700 2000 2 2500 22 637 1500 2 2800 20 510 1400 3 3000 15 725 2000 2 2600 18 484 1200 5 3500 15 510 1500 4 3000 17 428 1600 5 4000 15 450 1650 5 3800 16 629 1900 3 3200 20 740 2200 3 3500 18 575 1600 4 3900 15

Estos datos fueron procesados con el programa SPSS, opción “Regresión Lineal Múltiple”, obteniendo los siguientes resultados: Analysis of Variance DF Sum of Squares Mean Square F p-value Regression ? ? 32738,28 20.32 0.0001 Residual ? ? ?

Page 24: ANGEL FRANCISCO ARVELO LUJANarvelo.com.ve/pdf/resumen-de-regresion-lineal-arvelo.pdf · a) Obtenga la ecuación de la Regresión Lineal . b) Obtenga un intervalo del 95% de confianza,

Angel F. Arvelo [email protected] Resumen de Regresión Lineal 23

a) Complete los valores que faltan. b) Encuentre el coeficiente de determinación del modelo. c) Obtenga sus conclusiones acerca de la precisión del modelo, identifique las variables que

ejercen una influencia significativa y clasifíquelas en orden de importancia. Utilice una significancia del 5%.

d) Utilizando sólo a las variables significativas, haga un pronóstico puntual valor de “Y” , cuando X1 = 1800 , X2 = 4 X3 = 2700 X4 = 19

Nota: Este ejercicio corresponde a un examen parcial USB tomado el 26-03-2010 para estudiantes de Ingeniería de Producción Solución. a) n = 15 Los grados de libertad son en consecuencia 4 para la regresión y 15- 4- 1= 10 para el error. La suma de cuadrados para la regresión es: 32738,28 x 4 = 130.953,12 El cuadrado medio para el error es: 32738,28 / 20,32 = 1.611,14 La suma de cuadrados para el error es en consecuencia: 1611,14 x 10 = 16.111,36 La suma total de cuadrados = 130.953,12 + 16.111,36 = 147.064,48 La tabla ANOVA queda entonces. DF Sum of Squares Mean Square F p-value Regression 4 130.953,12 32.738,28 20.32 0.0001 Residual 10 16.111,36 1.611,14 b) El coeficiente de determinación: R2 = 130953,12 / 147064,48= 0,8904 c) La hipótesis Ho: β1 = β2 = β3 = β4 resulta ampliamente rechazada porque F = 20,32 con un p-valor = 0,0001 ; lo que se interpreta como una correlación muy significativa entre la variable de respuesta (Tiempo de producción) y por lo menos una de las cuatro variables explicativas seleccionadas. A esta misma conclusión se llega cuando se analiza R2 = 0,8904, lo que significa que las cuatro variables seleccionadas explican en un 89,04 % la variabilidad en la respuesta. Esto no significa sin embargo que las 4 variables explicativas sean todas necesarias ni importantes. Hay que pasar entonces a analizar la influencia de cada una de las variables individualmente. De la tabla de coeficientes Beta se derivan las siguientes conclusiones: 1. La hipótesis βo = 0 resulta rechazada (p-valor = 0,01 < 0,05), lo que significa que la superficie de regresión no pasa por el origen. Esto se interpreta como un tiempo inicial de preparación del lote en el cual se incurre aunque todas las variables sean iguales a 0. Este tiempo de preparación se estima en 497,44 horas con un intervalo de confianza entre 148,93 y 845,957 horas. 2 Las variables X1 y X2 resultan ambas significativas con un p-valor < 0,05. (Se rechaza β1 = 0 y también β2 = 0)

497,443 156,415 3,180 ,010 148,930 845,957,165 ,058 ,441 2,821 ,018 ,035 ,295

-58,545 16,922 -,640 -3,460 ,006 -96,251 -20,8405,165E-03 ,033 ,025 ,155 ,880 -,069 ,079

-,466 6,466 -,010 -,072 ,944 -14,874 13,942

(Constant)X1X2X3X4

Model1

B Std. Error

UnstandardizedCoefficients

Beta

Standardized

Coefficients

t Sig.LowerBound

UpperBound

95% ConfidenceInterval for B

Coefficientsa

Dependent Variable: Ya.

Page 25: ANGEL FRANCISCO ARVELO LUJANarvelo.com.ve/pdf/resumen-de-regresion-lineal-arvelo.pdf · a) Obtenga la ecuación de la Regresión Lineal . b) Obtenga un intervalo del 95% de confianza,

Angel F. Arvelo [email protected] Resumen de Regresión Lineal 24

La variable X1 presenta una correlación directa porque su intervalo de confianza cae todo del lado positivo, mientras que la variable X2 una correlación inversa, porque su intervalo de confianza cae todo del lado negativo, 3. En cuanto a la importancia de estas dos variables, en la tabla se aprecia que la variable X2 es la más influyente. A esta conclusión es posible llegar porque su p-valor es menor que el de la variable X1, y además su coeficiente beta estandarizado es mayor en valor absoluto que el de la variable X1. 4. Las variables X3 y X4 resultan poco significativas con un p-valor > 0,05 , se acepta β3 = 0 y también β4 = 0 , y además sus intervalos de confianza contienen al cero. Estas variables pueden ser eliminadas del modelo. d) En consecuencia, el modelo quedó de la forma: Y = 497,443 + 0,165 X1 – 58,545 X2 + e Para X1= 1800 y X2 = 4 se obtiene: Y = 560,26 16°) Se lleva a cabo un experimento para determinar si el peso de un animal “Y”, se puede predecir después de un tiempo dado, sobre la base de su peso inicial X1, y la cantidad de alimento que consume X2. Se registraron los datos siguientes en kilogramos;

Y 95 77 80 100 97 70 50 80 92 84 X1 42 33 33 45 39 36 32 41 40 38 X2 272 226 259 292 311 183 173 236 230 235

Con el propósito de utilizar un modelo lineal de la forma: Y= β0+ β1X1 +β2X2 + e, se utilizó un programa estadístico que arrojó los siguientes resultados:

ANOVA Sum of

Squares df Mean

Square F p value.

Regression ? ? 882,108 24,093 ,001

Residual 256,284 ? ?

Total ? ?

Coefficients: Estimate Std.Error t value Pr(>|t|)

(Intercept) -22,993 ? -1,294 0,237 X1 ? 0,583 2,396 0,048 X2 0,218 0,058 ? 0,007

a) Complete los valores que faltan. b) Encuentre el coeficiente de determinación del modelo. c) Obtenga sus conclusiones acerca de la precisión del modelo, identifique las variables que

ejercen una influencia significativa y clasifíquelas en orden de importancia. Utilice una significancia del 5%.

d) Obtenga un intervalo del 95 % de confianza para el coeficiente β0, e interprete el resultado e) Calcule el residuo correspondiente al primer punto.

17°) La familia de rectas que pasa por el origen tiene por ecuación; y = mx. Se tiene un conjunto de “n” puntos: (x1,y1) (x2,y2)........., (xn,yn) , y se les quiere ajustar una recta que pase por el origen, Aplique el método de mínimos cuadrados para deducir una fórmula, que permita encontrar el mejor valor de “m”

Page 26: ANGEL FRANCISCO ARVELO LUJANarvelo.com.ve/pdf/resumen-de-regresion-lineal-arvelo.pdf · a) Obtenga la ecuación de la Regresión Lineal . b) Obtenga un intervalo del 95% de confianza,

Angel F. Arvelo [email protected] Resumen de Regresión Lineal 25

Solución:

i n

i ii 1i n

ii 1

x ym

x

=

==

=

=∑

18º) Un ingeniero especialista en avalúo de inmuebles, está interesado en desarrollar un modelo de regresión lineal múltiple que le permita estimar el valor de las casas ubicadas en una determinada zona de la ciudad. Para armar el modelo seleccionó las siguientes variables: X1 = Area del terreno (pies2 x100) X2 = N° de dormitorios X3 = N° de baños X4 = Puestos de estacionamiento; X5 = Años de construida Y = Precio de venta (x $10.000). El referido ingeniero hace una investigación en el registro mercantil, y toma las últimas 30 casas vendidas en el sector. Los resultados se dan a continuación:

Y X1 X2 X3 X4 X5 10,2 10,5 11,1 15,3 15,8 16,3 17,2 17,7 18,0 18,1 18,4 18,4 18,9 19,3 19,5 19,9 20,3 20,8 20,8 21,0 21,5 22,0 22,1 22,5 27,8 28,5 33,8 37,5 39,0 55,0

8,0 9,5 9,1 9,5 12,0 10,0 11,8 10,0 13,8 12,5 15,0 12,0 16,0 16,5 16,0 16,8 15,0 17,9 16,4 19,0 17,6 20,5 18,0 17,0 24,5 23,5 25,0 27,5 31,0 40,0

2 3 3 3 3 3 3 2 3 3 3 3 3 3 3 2 3 3 2 3 3 3 3 4 4 3 4 3 5 6

2 2 2 3 2 2 2 2 2 2 2 2 3 2 3 2 3 2 2 2 3 2 3 3 3 3 5 4 5 8

1 1 2 3 2 2 2 2 2 3 2 3 2 3 3 2 4 2 2 3 3 2 3 4 4 3 4 5 6 8

5 8 2 6 5 11 7 15 10 11 12 7 8 14 6 1 2 10 1 17 0 6 4 5 11 2 1 0 10 14

Al procesar esta información con el programa SPSS, se obtiene el siguiente resultado:

ANOVA Sum of Squares df Mean Square F Sig. Regression ? ? 483,103 ? ? Residual ? ? ? Total 2472,739 ?

Page 27: ANGEL FRANCISCO ARVELO LUJANarvelo.com.ve/pdf/resumen-de-regresion-lineal-arvelo.pdf · a) Obtenga la ecuación de la Regresión Lineal . b) Obtenga un intervalo del 95% de confianza,

Angel F. Arvelo [email protected] Resumen de Regresión Lineal 26

a) Complete los valores que faltan, y el coeficiente de determinación b) Redacte un informe con sus conclusiones sobre el modelo. ¿Cuáles son las variables más influyentes y como lo hacen?. c) Establezca un intervalo del 99% de confianza para el valor de 100 pies2 de terreno en esta zona. d) ¿En cuánto avalúa este modelo a una casa de 2000 pies2 de terreno, con 4 dormitorios, 2 baños, 3 puestos de estacionamiento y 8 años de construida? Solución:

ANOVAb

2415,514 5 483,103 202,613 ,000a

57,225 24 2,3842472,739 29

RegressionResidualTotal

Model1

Sum ofSquares df

MeanSquare F Sig.

Predictors: (Constant), X5, X3, X1, X2, X4a.

Dependent Variable: Yb.

Coefficientsa

2,742 1,351 2,030 ,054 -,046 5,530,840 ,082 ,652 10,295 ,000 ,672 1,008

-1,766 ,765 -,157 -2,308 ,030 -3,346 -,1871,938 ,586 ,274 3,310 ,003 ,730 3,1471,506 ,520 ,238 2,896 ,008 ,433 2,579

8,535E-02 ,068 ,044 1,262 ,219 -,054 ,225

(Constant)X1X2X3X4X5

Model1

B Std. Error

UnstandardizedCoefficients

Beta

Standardized

Coefficients

t Sig.LowerBound

UpperBound

95% ConfidenceInterval for B

Dependent Variable: Ya.