anvendt statistik lektion 7

Download Anvendt Statistik Lektion 7

If you can't read please download the document

Upload: najwa

Post on 06-Jan-2016

39 views

Category:

Documents


1 download

DESCRIPTION

Anvendt Statistik Lektion 7. Simpel Lineær Regression. Er der en sammenhæng?. Plot af mordraten ( y ) mod fattigdomsraten ( x ): Afhænger mordraten af fattigdomsraten?. Scatterplot. Scatterplot. Y. Et scatterplot er et plot af to variable: - PowerPoint PPT Presentation

TRANSCRIPT

Statistik II 1. Lektion

Anvendt StatistikLektion 7Simpel Liner Regression1Er der en sammenhng?Plot af mordraten (y) mod fattigdomsraten (x):

Afhnger mordraten af fattigdomsraten?

Scatterplot2ScatterplotEt scatterplot er et plot af to variable:x : forklarende variabel (fattigdomsraten)y : respons-variabel (mordraten)For den ite observation har vixi (fattigdomsraten for ite stat)yi (mordraten for ite stat)Data:(x1,y1), (x2,y2),, (xn,yn)

xYxiyi(xi,yi)3Forventet respons: En ret linjeDen rette linje a + bx beskriver den forventede (dvs. middel) respons:E[y] = a + bxEksempel:E[y] = 210 + 25xFortolkning:Antag x = 4 (fattigdomsraten), s er det forventede mordrate 210 + 254 = 310.Hvis x ges med 1, s ges den forventede vrdi af y med 25.

xybE[y] = a + bxaHvis x = 0 , s er den forventede vrdi af y = 210. UK: Expected14FejlleddetDe enkelte datapunkter (xi,yi) ligger typisk ikke prcist p regressionslinjen.Afvigelsen mellem punkt og linjen betegnes fejlleddet ei.

Regressionsmodel:yi = a + bxi+ ei

Bemrk: n fejlled e1, e2, ..., en. xyxiyi(xi,yi)eiFlere detaljer og antagelser p nste slide

a + bx5Simpel liner regressionsmodelY- afhngige/respons variabel.X- uafhngige/forklarende variabel faste tala- skringspunkt med y-aksenb- det grske bogstav betab1- hldningskoefficientiid- UK: independent, identically distributed= uafhngig, identisk fordeltee- det grske bogstav epsilonei- fejlled - det eneste stokastiske element i modellen6

Liner regressionsmodel: FigurModel:yi = a + bxi+ ei

Om fejlledene ei antager vi:NormalfordeltMiddelvrdi nulKonstant standard-afvigelse s

Dvs. punkterne ligger usystematisk spredt omkring en ret linje, hvor variationen er konstant.XYiid normalfordelte fejlledFordelingen af yi omkring regressionslinjen.x1x3x2x4x5

Kontinuert forklarende variabel x77Forudstninger for SLR (1/3)Der er en liner sammenhng mellem X og Y.Indledende tjek: Scatter plot af (x,y) ser punkterne ud til at ligge langs en ret linje?

x

y

yyy8Forudstninger for SLR (2/3)Vrdierne af de uafhngige variable x antages at vre faste dvs. ikke stokastiske. Mao. Antages x at vre kendt eller mlt uden stj/mlefejlIndledende tjek: Logisk sans.

9Forudstninger for SLR (3/3)Fejledene ei antages vre uafhngige og normalfordelte med middelvrdi 0 og konstant standardafvigelse s.Indledende tjek: Se efter indlysende problemer i scatter plot af (x,y).

x

y

yyy1011

Er der en sammenhng?Graphs Chart builder Scatter/Dot Simple Scatter

Er antagelserne opfyldt?

Scatterplot12

OutlierSamme plot uden outliereren

En tilnrmet linjeEn estimeret regressionslinje er givet ved:

Her era et estimat af ab et estimat af by hat er estimat af E(y)

Afstanden fra punktet til den estimerede regressionslinje kaldes residualet ei = yi - .xyxiyi(xi,yi)E[y] = a + bx = a + bx

ei = a + bx

1313Mindste kvadraters metodeSummen af de kvadrede residualer betegnes:

UK: Sum of Squared Errors.

SSE kan skrives som

xyxiyi(xi,yi)E[y] = a + bx = a + bx

ei

Vi vlger a og b, s SSE er mindst mulig.Dette kaldes mindste kvadraters metode. 1414Estimater af a , b og sMindste kvadraters metode giver flgende estimaterEstimatet for b er

Estimatet for a er

Estimat for s er

15Mere om liner regressionPrdiktion:For en ny vrdi x kan vi prdiktere vrdien af y:

Skring i middel:Regressionslinjen skrer i :

Summen af residualer:Summen af alle residualer er nul:xyx = a + bx

1616Simpel liner regression i SPSSAnazyze Regression Linear

yx17Den estimerede regressionslinje er alts:

FortolkningHver gang fattigdomsraten stiger et point stiger den forventede mordrate med 1,323 mord pr 100.000.Hvis der er nul procent fattige, s er den forventede mordrate -10,136 Hvis procent fattige er 16.2, s er den prdikterede mordrate: -10.136 + 1.32316.2 = 11.30.

SPSS: Resultat

ab = -10,136 + 1,323 x

18Regressionslinje i SPSSGraphs Chart builder Scatter/Dot Simple Scatter

Efterflgende dobbelt-klik p plottet og vlg: Elements Fit line at total

Outlier19Estimat af sSimpel liner regression i SPSS giver ogs flgende resultater:

Estimat af s :

Dvs. vi forventer at ca. 95% af punkterne ligger hjst 28.9 enheder fra regressionslinjen.

SSEn--2SSE/(n-2)

20Hypotesetest af bNul-hypoteser:H0: b = 0Alternativ-hypoteser:Ha: b 0Ha: b > 0Ha: b < 0

Teststrrelse

hvor se er standardfejlen:

,hvorHvis H0 er sand, s flger t en t-fordeling med df = n-2 frihedsgrader21Fortolkning af H0: = 0Er der en liner sammenhng mellem X og Y?

H0: = 0 ingen liner sammenhngHa: 0 liner sammenhng

Flgende er eksempler, hvor H0 accepteres.YXYXYXKonstant YUsystematisk variationIkke-liner sammenhng22H0: b = 0vs Ha: b 0

Iflge SPSS er P-vrdien < 0.0005Dvs. vi afviser H0.Dvs. er er en liner sammenhng ml. fattigdoms- og mordraten.Hypotesetest i SPSS

P-vrdi4.804-4.804t-fordeling med df = n-22323

Konfidensintervaller for bKonfidensintervallet for b flger det sdvanlige mnster:b tn-2,a/2 se Standardfejlen se udregnes som fr, og udregnes i praksis af SPSS.

I dialogboksen for liner regression tilvlges konfidensintervaller under statistics

95% konf. int.: 1.323 2.01 0.275 = [ 0.770 ; 1.876 ] t49,0.025 = 2.0124Korrelationen rGraden af liner sammenhng mellem x og y kan mles ved korrelation r .

Korrelationen kan udregnes som

Hvor sx og sy standardafvigelserne for hhv. x og y:

og

25Korrelationen: EgenskaberEgenskaber ved korrelationen:-1 r 1r har samme fortegn som br = 0 : ingen liner sammenhngr = 1 : perfekt liner sammenhngJo strre absolut vrdi, jo strkere liner sammenhng

26Illustration af korrelationYXr = 0YXr = -.8YXr = .8YXr = 0YXr = -1YXr = 127Korrelation i SPSSSom en del af outputet for liner regression fr man bl.a. flgende kasse:

Korrelationen er her r = 0.565, dvs. en middel liner sammenhng.

Korrelationen r28Forklaret og uforklaret afvigelseYis afvigelse fra kan opdeles i to:Yx

Forklaret afvigelseTotale afvigelseUforklaret afvigelse

KvadratsummerSums of squares:Total sum of squares:TSS er den totale variation i yierne.

Sum of squared errors: SSE er den uforklarede del af variationen i yierne.

SSE TSS

TSS SSE 0 den forklarede variation.

30Total og uforklaret variation - illustration

Den totale variation ses nr vi kigger langs x-aksen.Den uforklarede variation ses nr vi kigger langs regressionslinjen. TSSSSE3131Determinationskoefficienten r 2TSS Den totale variationTSS SSE Den forklarede variation

Determinationskoefficienten

Fortolkningr2 er andelen af den totale variation i yierne der er forklaret af xierne.Fx: Hvis r2 = 0.62, s er 62% af variation i y forklaret af x.

32Determinationskoefficienten i SPSSSom en del af outputet for liner regression fr man bl.a. flgende kasse:

Determinationskoefficienten er her r2 = 0.320, dvs. 32% af variationen i mordraten er forklaret af fattigdomsraten.

Determinationskoefficienten r233Determinationskoefficienten i SPSSGraphs Chart builder Scatter/Dot Simple Scatter

r234