regresn í a korela ční analýza - cvut.cz · 2012-04-08 · 1 regresn í a korela ční analýza...

18
1 Regresn Regresní a korela a korelačanalýza analýza Závislost příčinná (kauzální). Závislostí pevnou se označuje případ, kdy výskytu jednoho jevu nutně odpovídá výskyt druhé jevu (a často i naopak). Z pravděpodobnostního hlediska jde o vztah, který se projeví s jistotou. Průběh závislosti (v určitém intervalu) lze přesně charakterizovat určitou matematickou funkcí. Volná závislost je závislost, při níž jeden jev podmiňuje jev jiný jen s určitou pravděpodobností a v různé intenzitě. Určité hodnotě jedné veličiny odpovídá celá řada různých hodnot druhé veličiny. U této závislosti lze charakterizovat teoretický průběh závislosti a její těsnost. Regresní analýza se zabývá jednostrannými závislostmi. Jedná se o situaci, kdy proti sobě stojí vysvětlující (nezávisle) proměnná v úloze „příčin“ a vysvětlovaná (závisle) proměnná v úloze „následků“. Korelační analýza se zabývá vzájemnými (většinou lineárními) závislostmi, kdy se klade důraz především na intenzitu (sílu) vzájemného vztahu než na zkoumání veličin ve směru příčina – následek.

Upload: others

Post on 21-May-2020

4 views

Category:

Documents


0 download

TRANSCRIPT

1

RegresnRegresníí a korelaa korelaččnníí analýzaanalýza

Závislost příčinná (kauzální).Závislostí pevnou se označuje případ, kdy výskytu jednoho jevu nutněodpovídá výskyt druhé jevu (a často i naopak). Z pravděpodobnostního hlediska jde o vztah, který se projeví s jistotou. Průběh závislosti (v určitém intervalu) lze přesně charakterizovat určitou matematickou funkcí.

Volná závislost je závislost, při níž jeden jev podmiňuje jev jiný jen s

určitou pravděpodobností a v různé intenzitě. Určité hodnotě jedné veličiny

odpovídá celá řada různých hodnot druhé veličiny. U této závislosti lze

charakterizovat teoretický průběh závislosti a její těsnost.

Regresní analýza se zabývá jednostrannými závislostmi. Jedná se o situaci, kdy

proti sobě stojí vysvětlující (nezávisle) proměnná v úloze „příčin“ a vysvětlovaná

(závisle) proměnná v úloze „následků“.

Korelační analýza se zabývá vzájemnými (většinou lineárními) závislostmi, kdy

se klade důraz především na intenzitu (sílu) vzájemného vztahu než na zkoumání

veličin ve směru příčina – následek.

2

DvourozmDvourozměěrnrnéé rozdrozděělenleníí ččetnostietnosti

x

-6 -4 -2 0 2 4 6

y

-6

-4

-2

0

2

4

6

Dvourozměrné rozdělení četnostíPři zkoumání závislosti mezi dvěma statistickými znaky X a Y je možno podle

zásad třídění sestavit tabulku dvourozměrného rozdělení četností. Tato tabulka

se označuje jako korelační (kontingenční).

Y

X y1 y2 … yj … ym ni.

x1 n11 n12 … n1j … n1m n1.

x2 n21 n22 … n2j … n2m n2.

.

.

.

… … … … … .

.

. xi ni1 ni2 … nij … nim ni.

.

.

.

… … … … … .

.

. xk nk1 nk2 … nkj … nkm nk.

n.j n.1 n.2 … n.j … n.m n..

3

• Řádek korelační tabulky obsahuje rozdělení četností znaku Y za

podmínky, že znak X nabyl určité konkrétní hodnoty (příp. hodnot určitého

intervalu). - podmíněné rozdělení četností znaku Y.

Součtový řádek – nepodmíněné rozdělení četností znaku Y.

•Sloupec korelační tabulky obsahuje rozdělení četností znaku X za

podmínky, že znak Y nabyl určité konkrétní hodnoty (hodnot z určitého

intervalu), - podmíněné rozdělení četností znaku X.

•Součtový sloupec – nepodmíněné rozdělení četností znaku X.

Četnosti v součtovém řádku a součtovém sloupci nazýváme okrajovými

(marginálními) četnostmi.

KontingenKontingenččnníí tabulkatabulka

KontingenKontingenččnníí tabulka v tabulka v ExceluExcelu

4

Uspořádání četností v pásu kolem hlavní úhlopříčky tabulky (obr)

nasvědčuje přímé závislosti (růst X vyvolává růst Y či navzájem)

Uspořádání četnosti kolem vedlejší úhlopříčky (od nejvyšších hodnot X k

nejvyšším hodnotám Y) nasvědčuje nepřímé závislosti (růst X vyvolává

pokles Y či navzájem).

KontingenKontingenččnníí tabulkatabulka

99

87

87

98

44

11

22

76

32

11

10

87

32

21

76

54

44

11

65

65

Y

X 170 – 174,9 175 – 179,9 180 – 184,9 185 – 189,9 190 a více ni.

164 – 168,9 2 1 3

169 – 173,9 2 2 3 1 8

174 – 178,9 2 3 8 1 1 15

179 – 183,9 3 6 9

184 – 188,9 3 5 8

189 a více 1 1 2

n.j 6 6 11 14 8 45

Při sledování tělesné výšky chlapců byl vysloven předpoklad, že výška dítěte je

do značné míry ovlivněna výškou rodičů. Následné šetření bylo provedeno

celkem u 45 chlapců a jejich otců. Z výsledků šetření byla sestavena korelační

tabulka pro znaky „výška otce v cm (X)“ a „výška syna v cm (Y)“:

PPřřííklad 1klad 1

5

Bodový korelační graf pro znázornění závislosti mezi

výškou otce a výškou syna

160

165

170

175

180

185

190

195

200

205

160 165 170 175 180 185 190 195

Výška otce (cm)

ška

syn

a (c

m)

PPřřííklad 1klad 1

6

Podmíněná rozdělení četností jsou jednorozměrná rozdělení četností, které lze popsat známými statistickými charakteristikami- podmíněné charakteristiky.

Podmíněný průměr znaku Y, který odpovídá i-té hodnotě znaku X

.i

m

1j

ijj

in

ny

y

∑=

=

Podmíněný rozptyl znaku Y, který odpovídá i-té hodnotě znaku X

,n

n)yy(

si

m

1j

ij

2

ij

2

i

=

∑ ⋅−

=

xi ni. iy 2

is

166,5 3 174,167 5,4394443

171,5 8 181,875 52,734375

176,5 15 181,167 24,768111

181,5 9 185,833 5,6794443

186,5 8 190,625 5,8593750

191,5 2 190,000 6,2500000

Výsledky ukazují, že vyšší výška otce má za následek vyšší výšku syna – při zvyšujících se hodnotách nezávisle proměnné, rostou podmíněné průměry závisle

proměnné (volná závislost se projevuje tak, že se mění podmíněné průměry

závisle proměnné).

PPřřííklad 1klad 1

7

Nejjednodušším způsobem vystižení průběhu korelační závislosti je čára podmíněných průměrů (empirická regrese), která ukazuje tendenci závislosti.

Emprirická regresní čára pro závislost výšky syna na

výšce otce

165

170

175

180

185

190

195

166,5 171,5 176,5 181,5 186,5 191,5

Výška otce (cm)

Po

dm

íněn

é p

růměr

y v

ýšk

y

syn

a (c

m)

Hlavním úkolem regresní analýzy je vystihnout pomocí regresní funkce průběh závislosti

mezi proměnnými, což nám umožní provádět odhad hodnot závisle proměnné na základězvolených hodnot nezávisle proměnné.

Postup při stanovení nejvhodnější funkcelogické posouzení daného vztahu – které proměnné a funkce přicházejí v

úvahu, využití zkušeností z podobných analýz apod.

vytvoření bodového korelačního grafu (scatter plot)

jako nejvhodnější zvolíme tu funkci, která má nejvyšší hodnotu

koeficienty determinace, příp. lze využít dalších matematicko-

statistických kritérií (F test).

8

Empirickou regresní funkci můžeme považovat za odhad teoretickéregresní funkce.

Základní model regresní závislosti s jednou nezávisle proměnnou X vyjadřuje libovolnou hodnotu závisle proměnné Y jako:

,e)x(fy iii +=′

kde f(xi) je tzv. regresní funkce a ei je náhodná (reziduální) odchylka i-téhopozorování proměnné Y.

Náhodné chyby ei – jde o nezávislé náhodné veličiny, které mají normální

rozdělení N(0; σ2).

Parametry regresnParametry regresníí funkcefunkce

160

165

170

175

180

185

190

195

200

205

160 165 170 175 180 185 190

Parametry funkce hledáme tak, aby součet čtverců chyb ei byl minimální.

Pro danou regresní funkci tento součet nazýváme reziduální součet čtverců.

min.=′−== ∑∑==

2

11

2)(

n

i

ii

n

i

irez yyeS

LineLineáárnrníí regreseregrese

Metoda nejmenMetoda nejmenšíších ch ččtverctvercůů

ii bxay +=′

ie

[ ]ii yx ,

[ ]ii yx ′,

9

Jednostranná závislost – proměnná X je nezávisle proměnná a Y pak závisle proměnná.

Oboustranná závislost – nelze přesně rozhodnout, která proměnná je závislá a která nezávislá.

ixyxyi

iyxyxi

ybax

xbay

⋅+=′

⋅+=′

V tomto případě se hovoří o sdružených regresních přímkách.

)var(

),cov(

1

2

1

2

1 1 1

y

yx

yyn

yxyxn

bn

i

n

i

ii

n

i

n

i

n

i

iiii

xy =

=

∑ ∑

∑ ∑ ∑

= =

= = =

ybxa xy ⋅−=

LineLineáárnrníí regreseregreseZ podmínky minimálnosti čtverců jsou vyvozeny normální rovnice, ze kterých se jejich řešením vypočtou neznámé parametry a a b.

573047442,0534895538830

54705348976275302

=−⋅

⋅−⋅=yxb

17807535,80266667,178573047442,033,182a yx =⋅−=

Regresní přímka pro závislost výšky syna na výšce otce má tvar:

y´ = 80,178 + 0,573 xi

Podle regresního koeficientu byx lze v případě zvýšení výšky otce o 1 cm

očekávat zvýšení výšky syna o 0,573 cm.

Stanovené funkce se používají také k odhadům.

Pokud otec bude mít výšku 182 cm, tak podle regresní funkce bude mít syn

výšku 184,5 cm.

y´i = 80,178 + 0,573 · 182 = 184,5

10

Korelační pole pro závislost výšky syna na výšce otce

y = 0,573x + 80,178

160

165

170

175

180

185

190

195

200

160 165 170 175 180 185 190 195 200 205

Výška otce (cm)

ška

syn

a (c

m)

=LINREGR

ESE

11

NelineNelineáárnrníí regreseregrese

Funkci hledám v předepsaném tvaru (exponenciální, polynomiální,…)

parametry nalezneme metodou nejmenších čtverců

Koeficient determinace – popisná míra vhodnosti použití regresní

rovnice pro predikování. Hodnoty blízké nule naznačují, že zvolená

funkce není vhodná. Naopak, hodnoty blízké 1 naznačují, že rovnice je

velmi vhodná pro extrapolaci.

Malá hodnota ale nemusí znamenat nízký stupeň závislosti mezi

proměnnými, ale může signalizovat špatně zvolenou regresní funkce

( )

( )∑

=

=′

′−′

==N

i

i

N

i

i

y

y

yy

yy

s

sr

1

2

1

2

2

2

NelineNelineáárnrníí regreseregrese

12

NelineNelineáárnrníí regrese v regrese v ExceluExcelu

Graf > přidat spojnici trendu

koeficient spolehlivosti R2 je

koeficient determinace

NelineNelineáárnrníí regrese v regrese v ExceluExcelu

Graf > přidat spojnici trendu

koeficient spolehlivosti R2 je

koeficient determinace

yy

reg

S

SR =2

13

Testy korelaTesty korelaččnníí analýzyanalýzy

Kontingenční tabulky umožňují testování různých statistických

hypotéz:

– hypotéza o nezávislosti znaků - oba znaky se vzájemněneovlivňují (výška rodičů nemá vliv na výšku dětí)

– hypotéza o shodnosti struktury (homogenitě) - očekávané

četnosti jsou v políčcích každého řádku ve stejném vzájemném

poměru bez ohledu na konkrétní volbu řádku (rozložení výšky je

stejné u otců i u synů)

Klasický test nezávislosti nebo homogenity je založen na testu dobré

shody, tedy porovnání očekávaných četností v jednotlivých políčcích

tabulky za předpokladu, že hodnoty obou sledovaných znaků na soběnezávisí, a skutečných četností

ChChíí--kvadrkvadráát test v t test v ExceluExcelu

H0 – náhodné výběry pocházejí ze stejného rozdělené

CHITEST(aktuální;očekávané)

aktuální četnosti – získáné použitím funkce

četnosti(data, hodnoty).

očekávané jak by četnosti vypadaly pro teoretické rozdělení – sestejným

počtem pozorování a stejnými hodnotami.

funkce CHITEST vrací p-hodnotu. Pro p<α zamítáme hypotézu, že jsou

rozdělení stejná

ChChíí--kvadrkvadráát test v t test v MatlabuMatlabu (procedury I.(procedury I.NagyNagy))

chisquare_test.m

chisquare_test_h.m H0:obě rozdělení jsou shodná

chisquare_test_i.m H0:rozdělení jsou nezávislá

14

TestovTestováánníí linelineáárnrníí regreseregrese

T test korelačního koeficientu (Pearsonův test)

H0: data nejsou vhodná k lineární regresi

F test poměru vysvětleného a nevysvětleného rozptylu

H0: data nejsou vhodná k lineární regresi

t_test_reg.m

f_test_reg.m

=LINREGRESE(pole_y;pole_x;PRAVDA;PRAVDA)

=INTERCEPT(pole_y;pole_x) absolutní člen q

=SLOPE(pole_y;pole_x) směrnice k

qkxy +=

x

-6 -4 -2 0 2 4 6

y

-6

-4

-2

0

2

4

6

Korelace náhodných proměnných

ρ(x,y) = 0.0

x

-6 -4 -2 0 2 4 6

y

-6

-4

-2

0

2

4

6

ρ(x,y) = 0.7

N = 10000

15

Korelace náhodných proměnných

ρ(x,y) = -0.7 ρ(x,y) = 0.96

x

-6 -4 -2 0 2 4 6

y

-6

-4

-2

0

2

4

6

x

-6 -4 -2 0 2 4 6

y

-6

-4

-2

0

2

4

6

N = 10000

Korelace náhodných proměnných

16

Odhad kovariance a korelace

– výběrový lineární korelační koeficient

náhodné proměnné x, y

• naměříme x1, x2,… xN; y1, y2,… yN

[ ] [ ] [ ]yExExyEyx −=),cov(

( )( )

( )( )∑=

−−−

=

−=n

i

ii yyxxn

yxyxyx

11

1

),(vco)

=PEARSON(dat

a1;data2)

=CORREL(data

1;data2)

ReziduReziduáálnlníí a regresna regresníí sousouččet et ččtverctvercůů

Reziduální součet čtverců odchylek od predikcí

Regresní součet čtverců odchylek predikcí od průměru

Celkový součet = součet čtverců odchylek dat od průměru

2

11

2)(∑∑

==

′−==n

i

ii

n

i

irez yyeS

2

1

)(∑=

−′=n

i

ireg yyS

2

1

)(∑=

−=n

i

iyy yyS

rezregyy SSS +=Regresní identita

Koeficient determinaceyy

reg

S

SR =2

17

Kvadratická regrese

y = 1,9733x2 - 0,0103x + 0,5794

R2 = 0,9898

0

1

2

3

4

5

6

7

8

9

10

-2 -2 -1 -1 0 1 1 2 2

x

y

Koeficient determinaceKoeficient determinace

´=PEARSON(data_x;data_y)-0,2146-0,214597Pearsonův korel. Koeficient R

`=R^2=Sreg/(Srez+Sreg)0,046050,989762Koeficient determinace R2

=Srez/(n-2)0,075357Reziduální rozptyl Se

`=VAR(y)*n=Srez+Sreg353,292353,3079Celkový součet čtverců Syy

`=VAR(x)*n56,75074Sxx

2,8292,829průměr y

`=VAR(f(x))*n349,6751Sreg

3,617Srez

F test pomF test poměěru vysvru vysvěětlentlenéého a nevysvho a nevysvěětlentlenéého ho

rozptylurozptylu

H0: Data nejsou vhodná pro regresi

pravostranný test

)2,1()2(

−≈−

= nFSrez

SregnF

( )0hodnotap FFP ≥=

1320,7061126,6159regresni a rezidualni součet čtverců

Sreg, Srez

4840,945939F statistika, df

5,2454470,4603464Koef. Determinace R2,st. Chyba odhadu y

0,7494960,4244274st.chyba koeficientů

7,5346892,7158689směrnice k, q

LINREGRESE y=kx+q=LINREGR

ESE

18

Interval spolehlivosti pro predikciInterval spolehlivosti pro predikci

PPáás spolehlivostis spolehlivosti

Lineární regrese y=2x y = 2,0072x + 2,3778

R2 = 0,6973

-6

-4

-2

0

2

4

6

8

10

-2 -2 -1 -1 0 1 1 2 2

x

y

KorelaKorelaččnníí analýza ordinanalýza ordináálnlníích velich veliččinin

Je důležité odlišit případy, kdy je ordinálního charakteru pouze jedna

proměnná a kdy obě.

V případech, kdy jsou obě sledované proměnné ordinálního

charakteru, můžeme použít testování, založené na pořadí.

– Wilcoxonův test

– Mann-Whitney test

– Kendallův korelační koeficient τk - tau k

– Goodman-Kruskalův koeficient γ je variantou kendallova τk

Pokud je ordinální jen jedna, pak:

– Kruskal-Wallisův test