b rayan

19
Regresión lineal Para otros usos de este término, véase Función lineal (desambiguación) . Ejemplo de una regresión lineal con una variable dependiente y unavariable independiente . En estadística la regresión lineal o ajuste lineal es un método matemático que modela la relación entre una variable dependiente Y, las variables independientes X i y un término aleatorio ε. Este modelo puede ser expresado como: : variable dependiente, explicada o regresando. : variables explicativas, independientes o regresores. : parámetros, miden la influencia que las variables explicativas tienen sobre el regresando. donde es la intersección o término "constante", las son los parámetros respectivos a cada variable independiente, y es el número de parámetros independientes a tener en cuenta en la regresión. La regresión lineal puede ser contrastada con la regresión no lineal . Índice [ocultar ] 1 Historia o 1.1 Etimología 2 El modelo de regresión lineal

Upload: brayan-aquino

Post on 25-Nov-2015

10 views

Category:

Documents


1 download

TRANSCRIPT

Regresin lineal

Para otros usos de este trmino, vaseFuncin lineal (desambiguacin).

Ejemplo de una regresin lineal con unavariable dependientey unavariable independiente.Enestadsticalaregresin linealoajuste lineales unmtodomatemticoquemodelala relacin entre unavariable dependienteY, lasvariables independientesXiy un trminoaleatorio. Este modelo puede ser expresado como:

: variable dependiente, explicada o regresando.: variables explicativas, independientes o regresores.: parmetros, miden la influencia que las variables explicativas tienen sobre el regresando.dondees la interseccin o trmino "constante", lasson los parmetros respectivos a cada variable independiente, yes el nmero de parmetros independientes a tener en cuenta en la regresin. La regresin lineal puede ser contrastada con laregresin no lineal.ndice[ocultar] 1Historia 1.1Etimologa 2El modelo de regresin lineal 3Hiptesis modelo de regresin lineal clsico 4Supuestos del modelo de regresin lineal 5Tipos de modelos de regresin lineal 5.1Regresin lineal simple 5.1.1Anlisis 5.2Regresin lineal mltiple 6Rectas de regresin 7Aplicaciones de la regresin lineal 7.1Lneas de tendencia 7.2Medicina 7.3Informtica 8Vase tambin 9Referencias 10Bibliografa 11Enlaces externosHistoria[editareditar cdigo]La primera forma de regresiones lineales documentada fue elmtodo de los mnimos cuadrados, el cual fue publicado porLegendreen1805,1y en dnde se inclua una versin delteorema de Gauss-Mrkov.Etimologa[editareditar cdigo]El trminoregresinse utiliz por primera vez en el estudio devariablesantropomtricas: al comparar la estatura de padres e hijos, result que los hijos cuyos padres tenan una estatura muy superior alvalor mediotendan a igualarse a ste, mientras que aquellos cuyos padres eran muy bajos tendan a reducir su diferencia respecto a la estatura media; es decir, "regresaban" alpromedio.2La constatacinempricade esta propiedad se vio reforzada ms tarde con la justificacin terica de ese fenmeno.El trminolinealse emplea para distinguirlo del resto de tcnicas deregresin, que emplean modelos basados en cualquier clase defuncin matemtica. Los modelos lineales son una explicacin simplificada de la realidad, mucho ms gil y con un soporte terico por parte de lamatemticay laestadsticamucho ms extenso.Pero bien, como se ha dicho, podemos usar el trmino lineal para distinguir modelos basados en cualquier clase de aplicacin.El modelo de regresin lineal[editareditar cdigo]El modelo lineal relaciona lavariable dependienteYconKvariables explicativas(k = 1,...K), o cualquiertransformacinde stas, que generan unhiperplanodeparmetrosdesconocidos:(2)dondees laperturbacinaleatoriaque recoge todos aquellos factores de la realidad no controlables u observables y que por tanto se asocian con elazar, y es la que confiere al modelo su carcterestocstico. En el caso ms sencillo, con una sola variable explicativa, elhiperplanoes unarecta:(3)El problema de la regresin consiste en elegir unosvaloresdeterminados para los parmetros desconocidos, de modo que laecuacinquede completamente especificada. Para ello se necesita un conjunto de observaciones. En una observacin cualquiera i-sima(i= 1,... I)se registra el comportamiento simultneo de lavariable dependientey las variables explicativas (las perturbacionesaleatoriasse suponen no observables).(4)Los valores escogidos comoestimadoresde los parmetros,, son loscoeficientesde regresin, sin que se pueda garantizar que coinciden con parmetros reales del proceso generador. Por tanto, en(5)Los valoresson por su parteestimacionesde la perturbacin aleatoria o errores.Hiptesis modelo de regresin lineal clsico[editareditar cdigo]1. Esperanza matemtica nula.

Para cada valor de X la perturbacin tomar distintos valores de forma aleatoria, pero no tomar sistemticamente valores positivos o negativos, sino que se supone que tomar algunos valores mayores que cero y otros menores, de tal forma que su valor esperado sea cero.2. Homocedasticidadpara todo tTodos los trminos de la perturbacin tienen la misma varianza que es desconocida. La dispersin de cadaen torno a su valor esperado es siempre la misma.3. Incorrelacin.para todo t,s con t distinto de sLas covarianzas entre las distintas pertubaciones son nulas, lo que quiere decir que no estn correlacionadas o autocorrelacionadas. Esto implica que el valor de la perturbacin para cualquier observacin muestral no viene influenciado por los valores de la perturbacin correspondientes a otras observaciones muestrales.4. Regresores no estocsticos.5. No existen relaciones lineales exactas entre los regresores.6.Suponemos que no existen errores deespecificacinen el modelo ni errores de medida en las variables explicativas7. Normalidad de las perturbacionesSupuestos del modelo de regresin lineal[editareditar cdigo]Para poder crear un modelo de regresin lineal, es necesario que se cumpla con los siguientes supuestos:31. La relacin entre las variables es lineal.2. Los errores en la medicin de las variables explicativas son independientes entre s.3. Los errores tienen varianza constante. (Homocedasticidad)4. Los errores tienen una esperanza matemtica igual a cero (los errores de una misma magnitud y distinto signo son equiprobables).5. El error total es la suma de todos los errores.Tipos de modelos de regresin lineal[editareditar cdigo]Existen diferentes tipos de regresin lineal que se clasifican de acuerdo a sus parmetros:Regresin lineal simple[editareditar cdigo]Slo se maneja unavariable independiente, por lo que slo cuenta con dosparmetros. Son de la forma:4(6)dondees el error asociado a la medicin del valory siguen los supuestos de modo que(media cero,varianzaconstante e igual a unycon).Anlisis[editareditar cdigo]Dado el modelo de regresin simple, si se calcula laesperanza(valor esperado) del valorY, se obtiene:5(7)

Derivandorespecto aye igualando a cero, se obtiene:5(9)(10)Obteniendo dos ecuaciones denominadasecuaciones normalesque generan la siguientesolucinpara ambos parmetros:4(11)(12)La interpretacin del parmetroes que un incremento en Xi de una unidad, Yi incrementar enRegresin lineal mltiple[editareditar cdigo]La regresin lineal nos permite trabajar con una variable a nivel de intervalo o razn, as tambin se puede comprender la relacin de dos o ms variables y nos permitir relacionar mediante ecuaciones, una variable en relacin a otras variables llamndose Regresin mltiple. Constantemente en la prctica de la investigacin estadstica, se encuentran variables que de alguna manera estn relacionados entre si, por lo que es posible que una de las variables puedan relacionarse matemticamente en funcin de otra u otras variables.Maneja variasvariables independientes. Cuenta con varios parmetros. Se expresan de la forma:6(13)dondees el error asociado a la medicindel valory siguen los supuestos de modo que(media cero,varianzaconstante e igual a unycon).Rectas de regresin[editareditar cdigo]Las rectas de regresin son lasrectasque mejor se ajustan a la nube de puntos (o tambin llamadodiagrama de dispersin) generada por unadistribucin binomial. Matemticamente, son posibles dos rectas de mximo ajuste:7 La recta de regresin deYsobreX:(14) La recta de regresin deXsobreY:(15)Lacorrelacin("r") de las rectas determinar la calidad del ajuste. Sires cercano o igual a 1, el ajuste ser bueno y las predicciones realizadas a partir del modelo obtenido sern muy fiables (el modelo obtenido resulta verdaderamente representativo); sires cercano o igual a 0, se tratar de un ajuste malo en el que las predicciones que se realicen a partir del modelo obtenido no sern fiables (el modelo obtenido no resulta representativo de la realidad). Ambas rectas de regresin se intersecan en un punto llamado centro de gravedad de ladistribucin.Aplicaciones de la regresin linealLECCION 13Regresin linealRepresentamos en un grfico los pares de valores de una distribucin bidimensional: la variable "x" en el eje horizontal o eje de abcisa, y la variable "y" en el eje vertical, o eje de ordenada. Vemos que la nube de puntos sigue una tendencia lineal:

Elcoeficiente de correlacin linealnos permite determinar si, efectivamente, existe relacin entre las dos variables. Una vez que se concluye que s existe relacin, laregresinnos permite definir la recta que mejor se ajusta a esta nube de puntos.

Una recta viene definida por la siguiente frmula:y = a + bx

Donde "y" sera la variable dependiente, es decir, aquella que viene definida a partir de la otra variable "x" (variable independiente). Para definir la recta hay que determinar los valores de los parmetros "a" y "b":Elparmetro "a"es el valor que toma la variable dependiente "y", cuando la variable independiente "x" vale 0, y es el punto donde la recta cruza el eje vertical.Elparmetro "b"determina la pendiente de la recta, su grado de inclinacin.Laregresin linealnos permite calcular el valor de estos dos parmetros, definiendo la recta que mejor se ajusta a esta nube de puntos.Elparmetro "b"viene determinado por la siguiente frmula:

Es la covarianza de las dos variables, dividida por la varianza de la variable "x".Elparmetro "a"viene determinado por:a = ym- (b * xm)

Es la media de la variable "y", menos la media de la variable "x" multiplicada por el parmetro "b" que hemos calculado.Ejemplo: vamos a calcular la recta de regresin de la siguiente serie de datos de altura y peso de los alumnos de una clase. Vamos a considerar que la altura es la variable independiente "x" y que el peso es la variable dependiente "y" (podamos hacerlo tambin al contrario):AlumnoEstaturaPesoAlumnoEstaturaPesoAlumnoEstaturaPeso

xxxxxxxxx

Alumno 11,2532Alumno 111,2533Alumno 211,2533

Alumno 21,2833Alumno 121,2835Alumno 221,2834

Alumno 31,2734Alumno 131,2734Alumno 231,2734

Alumno 41,2130Alumno 141,2130Alumno 241,2131

Alumno 51,2232Alumno 151,2233Alumno 251,2232

Alumno 61,2935Alumno 161,2934Alumno 261,2934

Alumno 71,3034Alumno 171,3035Alumno 271,3034

Alumno 81,2432Alumno 181,2432Alumno 281,2431

Alumno 91,2732Alumno 191,2733Alumno 291,2735

Alumno 101,2935Alumno 201,2933Alumno 301,2934

Elparmetro "b"viene determinado por:b =(1/30) * 1,034

-----------------------------------------=40,265

(1/30) * 0,00856

Y elparmetro "a"por:a =33,1 - (40,265 * 1,262) = -17,714

Por lo tanto, larectaque mejor se ajusta a esta serie de datos es:y =-17,714 + (40,265 *x)

Esta recta define un valor de la variable dependiente (peso), para cada valor de la variable independiente (estatura):atemticasfinitastema en-lnea:regresin lineal y exponencial

Note:Las matemticas en esta pgina han sido mecanografiado porjsMath. Para verjsMatha su mejor expresin, debe instalar las fuentesjsMathTeX. Haga clic en el botn dejsMathen la parte inferior derecha de la pagina para ver ms detalles.Ya hemos visto como ajustar una recta a un conjunto de dos puntos de datos: Se calcula la ecuacin de la recta que pasa por dos puntos dados. (Vea laresumen de funcionespara algunos ejemplos.) Sin embargo, por lo general se tiene ms que dos puntos de datos, y raras veces estn todos en una sola recta. El problema es que hallar la recta que ajusta los datostan estrechamenteque posible.1. Recta de mejor ajuste (Recta de regresin)Empezamos intentando construir unafuncin lineal de demanda. Suponga que su investigacin de mercado muestra las siguientes estadsticas de venta para casas de varios precios durante el ao pasado:Precio (Miles de dlares)160180200220240260280

Ventas de nueva casas este ao1261038275824020

Queremos utilizar estos datos para construir una funcin de demanda para el mercado de los bienes races. (Recuerde que una funcin de demanda especifica la demanda,y, medida aqu por ventas anual, como una funcin del precio,x.) Aqu est una traza deycontrax:

Los datos sugiera una recta, ms o menos, y entonces una relacin lineal entreyyx. Aqu son varias rectas que se acercan a los puntos:

PCul recta ajusta los puntos lo ms estrechamente que posible?RNos gustara que las ventas que pronosticara la recta (losvalores pronosticados) estuvieran tan cerca como fuera posible de las ventas reales (losvalores observados). Las diferencias entre los valores esperados y los valores pronosticados, que son loserrores residuales,son las distancias verticales que se marcan in la figura ms abajo.Error residual = Valor observado-Valor pronosticado

PEntonces como podemos hacerlo?RSumamos primero todos loscuadradosde los errores residuales para obtener un solo error que se llama elsuma de los errores al cuadrado(SSE-- siglas en ingls de "Sum of Squares Error") y escogemos la recta que se da el ms pequeo valor de SSE. Esta recta se llama larecta de mejor ajuste,recta de regresin,orecta de mnimos cuadradosasociada a los datos.Ejemplo 1: Calculando SSE para una recta dadaSupngase que nos gustara calcular SSE para una recta especifica, comoy=x+300como mostrada ms abajo:

Tenemos la siguiente tabla de valores:Principio del formularioxyObservadoyyPronosticadoy=x+300Error residualyy

160 126140-14

180103120-17

20082100-18

22075

24082

26040

28020

Final del formularioEntonces, para la rectay=x+300SSE=Suma de los valores de errores residuales

=-14-17-18-5 + 22 + 0 + 0

=-32

PMuy bien. Ahora sabemos como se calcula el valor de SSE para una rectaya dada. Como hallamos la rectade mejor ajuste;es decir, la recta para que SSE es lo menor?RPresentaremos aqu la formula que la determina. Justificarla necesita clculo; puede consultar el capitulo de funciones de varias variables enClculo Aplicadopara una explicacin detallada.Recta de regresin (o mejor ajuste)La recta que se ajusta mejor a losnpuntos(x1y1)(x2y2)(xnyn)tiene la formay=mx+bdondePendiente=m=n(x2)x2nxyxy

Interseccin=b=nymxAqu,significa "la suma de." As,xy=suma del productos=x1y1+x2y2++xnynx=suma del valores dex=x1+x2++xny=suma del valores dey=y1+y2++ynx2=suma del valores dex2=x21+x22++x2n

El uso de las formulas as bastante fcil, como se muestra el siguiente ejemplo.Ejemplo 2: Calculando la recta de regresin a manoDetermine la recta de regresin asociada a los siguientes datos:xx1234

yy1.51.62.13.0

SolucinPara aplicar las formulas, es mejor organizar los datos en forma de tabla como sigue: (Cuando ha rellenado los valores dexyyx2correctamente, pulse "Sumas" para obtener la suma de cada columna.)Principio del formularioxxyyxyxyx2x2

11.5

21.6

32.1

43.0

x=10y=8.2xy= x2=

Final del formularioSustituyendo los valores correctos de la tabla ms arriba en las formulas, obtenemosPendiente=m=n(x2)x2nxyxy=4(30)1024(23)(10)(82)=05Interseccin=b=nymx=482(05)(10)=08Por lo tanto, la recta de regresin esy=05x+08Antes de seguir...Aqu esta una traza de los pontos de dados y la recta de regresin.

Observe que ni siquiera pasa la recta por uno de los puntos, pero es la recta que se ajusta mejor a los puntos.

Regresamos a los datos sobre la demanda para el mercado de los bienes races con la que empezamos este tema.Ejemplo 3: Funcin de demandaObtenga la ecuacin de demanda que se ajusta mejor a los siguientes datos, y sela para pronosticar ventas anuales de casas preciadas a $140,000.Precio (Miles de dlares)160180200220240260280

Ventas de nueva casas este ao1261038275824020

SolucinAqu esta una tabla como la que usamos ms arriba para organizar las calculaciones:xxyyxyxyx2x2

16012620,16025,600

18010318,54032,400

2008216,40040,000

2207516,50048,400

2408219,68057,600

2604010,40067,600

280205,60078,400

x=1540y=528xy=107280x2=350000

Sustituyendo estos valores en la formula (conn=7), obtenemosPendiente=m=n(x2)x2nxyxy=7(350000)154027(107280)(1540)(528)07929Interseccin=b=nymx7528(07928571429)(1540)2499Observe que usamos el valor ms exacto que pudimos obtener en la calculadora,m07928571429, en lugar del valor redondeado(07929)en la calculacin deb. Eso ilustra la sigiuente regla general:Al calcular, no redondee los resultados intermedios; en vez de eso, utilice los resultados ms exactos que puede obtener, usando los valores guardados en su computadora o calculadora si es posible.Por lo tanto, la recta de regresin esy=07929x+2499Ahora podemos utilizar esta ecuacin pronosticar las ventas anuales de casa cuyo precio es $140,000:Principio del formularioVentas anuales de casas preciadas a $140,000 redondee al nmero entero ms cercano

Final del formularioAntes de seguir...Ms abajo est una traza de la recta de regresin.

PSi mis puntos estn en una recta, est la recta de mejor ajuste?RS. Si los puntos estn en una recta, el valor mnimo posible de SSE es cero, y eso sucede si se usa la recta que pasa por todos los puntos. Una consecuencia de este hecho es que se puede usar la herramienta regresin en su graficadora ola herramienta regresin en este sitiopara calcular la ecuacin de la recta que pasa por dos puntos especificados.PSi no todos los untos estn en una recta, cmo puedo saber cunto se acercan a una recta?RHay un nmero que mide la "bondad de ajuste" de la recta de regresin llamadocoeficiente de correlacin.Este nmero, que se representa porr, est entre1y1. Cuanto ms se acercara1o1, el ajuste es mejor. Si el ajuste es malo, se acercara0. Si el ajusto es exacto,r=1para una recta con pendiente negativa, or=1para una recta de pendiente positiva. La figura ms abajo muestra varios conjuntos de puntos con sus rectas de regresin, y los valores correspondientes der.

El coefficiente de correlacin se puede calcular con la siguiente formula. Para obtener la se requieren buenos conocimientos de estadstica.Coeficiente de correlacinCoeficiente de correlacin=r=nxyxynx2x2ny2y2

2. Curva exponencial de mejor ajuste (Curva exponencial regresin)PAhora sabemos como ajustar una recta a un conjunto de datos. Que hay una curva exponencial de la formay=Arx?RLa idea es convertir una curva exponencial a una recta por medio de logaritmos, como sigue:Empiece con la funcin exponencialy=Arxy tome el logaritmo de ambos lados:logy=log(Arx)Las propiedades de logaritmos nos dan entonceslogylogy=logA+logrxo=logA+xlogrEsto expresalogycomo una funcin lineal dex, conPendiente=m=logrInterseccin=b=logAPor lo tanto, si calculamos la recta de mejor ajuste usandologycomo una funcin dex, entonces la pendiente y la interseccin enyseran dados como ms arriba, y despus podemos obtener los coeficientesryAporrA=10m=10bPara resumir,Regresin exponencialPara obtener la curva exponencial de mejor ajuste de la formay=Arx1. Obtenga la recta de regresin usando los datos(xlogy).2. Los coeficientes deseadosAyrson entoncesrA=10m=10bdondemybson la pendiente y interseccin de la recta de regresin.

Ejemplo 4: Ventas de CompaqIngresos de ventas de computadores Compaq (una marca ahora extinguida) son mostrados en la siguiente tabla, dondetrepresenta aos desde 1990.* Obtenga el modelo exponencial de regresin para los datos.tt= Ao (1990 = 0)0247

RR= Ingreso ($ billn)341125

* Datos son redondeados. Fuente: Informes de compaa/The New York Times,Enero 27, 1998, p. D1.SolucinPues necesitamos modelarlogRcomo una funcin lineal det, primero construimos una tabla conx=tyy=logR, y entonces calculamos la recta de regresin,y=mx+b.x(=t)x(=t)0247

y(=logR)y(=logR)0.4771210.6020601.041391.39794

En lugar de hacer la calculacin a mano como hicimos ms arriba, podemos utilizarla herramienta regresin en este sitiopara hacerlo automticamente. Simplemente ingrese los valores dexyyy pulse el botn "y=mx+b". (S, la herramienta puede hacer regresin exponencial directamente, pero preferimos que sabe usted como funciona!)La recta de regresin que obtenemos esy=013907x+042765Por lo tanto, el modelo exponencial deseado esR=Art,donder=10m=1001390713774, yA=1004276526770.Nuestra modelo de ingresos es, por lo tanto,R=26770(13774)t.Antes de seguir...Vaya a laherramienta regresin, ingrese los datos originales (sin tomar logaritmos) y pulse el botn "y=a(bx)". Qu encuentra?Note:Pues hemos tomado logaritmos antes de hacer la regresin lineal, se puede decir que la curva de regresin exponencial no es la curva que minimiza SSE para los datosoriginales, esta curva minimiza SSE para los datostranformados--- es decir, para los datos(xlogy). Por lo tanto, la curva de regresin exponencial no es la curva exponencial de mejor ajuste en el sentido "estricto." Vea los libros de texto "Applied Calculus" para un mtodo obtener esta curva.

3. Otras formas de regresinA la herramienta de regresin se puede encontrar tambin curvas de regresin de las siguientes formas:y=ax2+bx+cy=ax3+bx2+cx+dy=axb(Regresin cuadrtica)( Regresin cbica)(Regresin potencia)En la calculadora TI-83/84, se puede encontrar todos estos y tambin los siguientes:y=ax4+bx3+cx2+dx+ey=asin(bx+c)(Regresin curtica)(Regresin seno)

Ultima actualizacin: Enero 2008