4.1 单因素试验的方差分析 - ustchome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 ·...

Post on 06-Jul-2020

34 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

第四章 方差分析与回归分析

中国科大 13 November 2015

第2页

§4.1 单因素试验的方差分析

4.1.1 问题的提出

实际工作中我们经常碰到多个正态总体

均值的比较问题,处理这类问题通常采

用所谓的方差分析方法。

第四章 方差分析与回归分析

中国科大 13 November 2015

第3页

例4.1.1 在饲料养鸡增肥的研究中,某研究

所提出三种饲料配方:A1是以鱼粉为主的

饲料,A2是以槐树粉为主的饲料,A3是以

苜蓿粉为主的饲料。为比较三种饲料的效

果,特选 24 只相似的雏鸡随机均分为三

组,每组各喂一种饲料,60天后观察它们

的重量。试验结果如下表所示:

第四章 方差分析与回归分析

中国科大 13 November 2015

第4页

表4.1.1 鸡饲料试验数据

饲料A 鸡 重(克)

A1 1073 1009 1060 1001 1002 1012 1009 1028

A2 1107 1092 990 1109 1090 1074 1122 1001

A3 1093 1029 1080 1021 1022 1032 1029 1048

第四章 方差分析与回归分析

中国科大 13 November 2015

第5页

本例中,我们要比较的是三种饲料对鸡的增肥

作用是否相同。为此,把饲料称为因素,记为A,

三种不同的配方称为因子A的三个水平,记为A1,

A2, A3,使用配方Ai下第 j 只鸡60天后的重量用

Xij表示,i=1, 2, 3, j=1, 2,, 10。我们的目的是

比较三种饲料配方下鸡的平均重量是否相等,

为此,需要做一些基本假定,把所研究的问题

归结为一个统计问题,然后用方差分析的方法

进行解决。

第四章 方差分析与回归分析

中国科大 13 November 2015

第6页

4.1.2 单因素方差分析的统计模型

在例4.1.1中我们只考察了一个因素,称其

为单因素试验。

通常,在单因素试验中,记因素为 A, 设其

有r个水平,记为A1, A2,…, Ar,在每一水平

下考察的指标可以看成一个总体 ,现有 r

个水平,故有 r 个总体, 假定:

第四章 方差分析与回归分析

中国科大 13 November 2015

第7页

1) 每一总体均为正态总体,记为 N(i , i 2),

i=1, 2,…, r ;

2) 各总体的方差相同: 1 2= 2

2=…= r2 =

2 ;

3) 从每一总体中抽取的样本是相互独立的,

即所有的试验结果 Xij 都相互独立。

第四章 方差分析与回归分析

中国科大 13 November 2015

第8页

我们要比较各水平下的均值是否相同,

即要对如下的一个假设进行检验:

H0 :1 =2 =…=r (4.1.1)

备择假设为

H1 :1, 2, …, r 不全相等

在不会引起误解的情况下, H1 通常可省略不写。

如果H0成立,因素A的r个水平均值相同,称因素A的r

个水平间没有显著差异,简称因素A不显著;反之,当

H0不成立时,因素A的r个水平均值不全相同,这时称

因素A的不同水平间有显著差异,简称因素A显著。

第四章 方差分析与回归分析

中国科大 13 November 2015

第9页

为对假设(4.1.1)进行检验,需要从每一水

平下的总体抽取样本,设从第i个水平下的总

体获得m个试验结果,记 Xij 表示第i个总体的

第j次重复试验结果。共得如下n=rm个试验

结果:

Xij, i=1, 2,…, r , j=1, 2, …, m,

其中r为水平数,m为重复数,i为水平编号,

j 为重复编号。

第四章 方差分析与回归分析

中国科大 13 November 2015

第10页

在水平Ai下的试验结果Xij与该水平下的指标均值

i 一般总是有差距的,记 ij = Xiji,

ij 称为随机误差。于是有

Xij = i +ij (4.1.2)

(4.1.2)式称为试验结果 Xij 的数据结构式。

第四章 方差分析与回归分析

中国科大 13 November 2015

第11页

单因素方差分析的统计模型:

(4.1.3)

总均值与效应:

称 为总平均.

称第 i 水平下的均值 i 与总均值 的差:

ai=i - 为 Ai 的效应。

2

, 1,2,..., , 1,2,...,

(0, )

ij i ij

ij

X i r j m

N

诸 相互独立,且都服从

1 1

1

1 1( ... )

r

r r i i

i

n n nn n

第四章 方差分析与回归分析

中国科大 13 November 2015

第12页

模型(4.1.3)可以改写为

(4.1.4)

假设(4.1.1)可改写为

H0 :a1 =a2 =…=ar =0 (4.1.5)

1

2

, 1,2,..., , 1,2,...,

0

N(0, )

ij i ij

r

i i

i

ij

X a i r j m

n a

相互独立,且都服从

第四章 方差分析与回归分析

中国科大 13 November 2015

第13页

4.1.3 平方和分解

一、试验数据

通常在单因素方差分析中可将试验数据列成

如下页表格形式。

表4.1.2中的最后二列的和与平均的含义如下:

.

1

1

1,2, ,m

iii ij

j

r

i

i

TT X X i r

m

T TT T X

r m n

n r m

总试验次数

第四章 方差分析与回归分析

中国科大 13 November 2015

第14页

表4.1.2 单因素方差分析试验数据

因素水平 试 验 数 据 和 平均

A1 X11 X12 … X1m T1

A2 X21 X22 … X2m T2

┆ ┆ ┆ ┆

Ar Xr1 Xr2 … Xrm Tr

T

1X

2X

X

rX

第四章 方差分析与回归分析

中国科大 13 November 2015

第15页

数据间是有差异的。数据Xij与总平均 间

的偏差可用Xij 表示,它可分解为二个

偏差之和:

(4.1.6)

二、组内偏差与组间偏差

. .( ) ( )i iij ijX X X X X X

. .

1 1 1 1

1 1 1,

m r r m

i ij i ij

j i i jm r n

X

X

第四章 方差分析与回归分析

中国科大 13 November 2015

第16页

由于

(4.1.7)

所以Xij - 仅反映组内数据与组内平均的随机

误差,称为组内偏差;而

(4.1.8)

除了反映随机误差外,还反映了第i个水

平的效应,称为组间偏差。

. ( ) ( )iij i ij i i ij iX X

ijX

. . .( ) ( )i i i i iX X a

.iX X

第四章 方差分析与回归分析

中国科大 13 November 2015

第17页

在统计学中,把k个数据X1 , X2 , …, Xk分别对其

均值 =(X1+ …+ Xk )/k 的偏差平方和:

称为k个数据的偏差平方和,它常用来度量若

干个数据分散的程度。

三、偏差平方和及其自由度

X

2 2 2

1

1

( ) ( ) ( )k

k i

i

Q X X X X X X

第四章 方差分析与回归分析

中国科大 13 November 2015

第18页

在构成偏差平方和Q的k个偏差X1 , …, Xk

间有一个恒等式 ,这说明在Q中独

立的偏差只有k1个。

在统计学中把平方和中独立偏差个数称为该平

方和的自由度,常记为f,如Q的自由度为

fQ=k1。自由度是偏差平方和的一个重要参数。

X X

1

( ) 0k

i

i

X X

第四章 方差分析与回归分析

中国科大 13 November 2015

第19页

各Xij间总的差异大小可用总偏差平方和

表示,其自由度为fT=n1;

四、总平方和分解公式

仅由随机误差引起的数据间的差异可以用

组内偏差平方和 表示,

也称为误差偏差平方和,其自由度为 fe=nr ;

2

1 1

( )r m

T ij

i j

S X X

2

.

1 1

( )r m

ie ij

i j

S X X

第四章 方差分析与回归分析

中国科大 13 November 2015

第20页

由于组间差异除了随机误差外,还反映了

效应间的差异,故由效应不同引起的数据

差异可用组间偏差平方和

表示,也称为因子A的偏差平方和,其自

由度为 fA=r1;

2.

1

( )r

iA

i

S m X X

第四章 方差分析与回归分析

中国科大 13 November 2015

第21页

定理4.1.1 在上述符号下,总平方和ST可以

分解为因素平方和SA与误差平方和Se之和,

其自由度也有相应分解公式,具体为:

ST =SA +Se , fT =fA +fe (4.1.9)

(4.1.9)式通常称为总平方和分解式。

第四章 方差分析与回归分析

中国科大 13 November 2015

第22页

偏差平方和Q的大小与自由度有关,为了便于

在偏差平方和间进行比较,统计上引入了均方

和的概念,它定义为MS=Q/fQ ,其意为平均每

个自由度上有多少平方和,它比较好地度量了

一组数据的离散程度。

如今要对因子平方和 SA 与误差平方和 Se 之间进

行比较,用其均方和 MSA= SA /fA , MSe= Se /fe

进行比较更为合理,故可用 作

为检验H0的统计量。

4.1.4 检验方法

/

/

A A A

e e e

MS S fF

MS S f

第四章 方差分析与回归分析

中国科大 13 November 2015

第23页

定理4.1.2 在单因素方差分析模型及前述符号

下,有:

(1) Se / 2 ~

2(nr) ,从而E(Se ) =(nr) 2

,进一步,若H0成

立,则有SA/ 2 ~

2(r1)

(2) SA与Se独立。

2 2

1

( ) ( 1)r

A i

i

E S r m a

第四章 方差分析与回归分析

中国科大 13 November 2015

第24页

由定理4.1.2,若H0成立,则检验统计量F服从自由度

为fA和fe的F分布,因此拒绝域为W={FF (fA ,fe)},通

常将上述计算过程列成一张表格,称为方差分析表。

表4.1.3 单因素方差分析表

来源 平方和 自由度 均方和 F比

因素 SA fA=r1 MSA= SA/fA F= MSA/ MSe

误差 Se fe=nr MSe= Se/fe

总和 ST fT=n1

第四章 方差分析与回归分析

中国科大 13 November 2015

第25页

对给定的,可作如下判断:

若F F (fA ,fe) ,则说明因子A不显著。

该检验的p值也可利用统计软件求出,若

以Y记服从F(fA ,fe)的随机变量,则检验的

p 值为 p=P(YF)。

如果 F >F (fA ,fe),则认为因子A显著;

第四章 方差分析与回归分析

中国科大 13 November 2015

第26页

常用的各偏差平方和的计算公式如下:

(4.1.10)

一般可将计算过程列表进行。

22

1 1

22

1

1

r m

T ij

i j

r

A i

i

e T A

TS X

n

TS T

m n

S S S

第四章 方差分析与回归分析

中国科大 13 November 2015

第27页

例4.1.2 采用例4.1.1的数据,将原始数据减去1000,

列表给出计算过程:

表4.1.4 例4.1.2的计算表

水平

数据(原始数据-1000) Ti Ti

2

A1 73 9 60 1 2 12 9 28 194 37636 10024

A2 107 92 -10 109 90 74 122 1 585 342225 60355

A3 93 29 80 21 22 32 29 48 354 125316 20984

1133 505177 91363

2

1

m

ij

j

X

第四章 方差分析与回归分析

中国科大 13 November 2015

第28页

利用(4.1.10),可算得各偏差平方和为:

把上述诸平方和及其自由度填入方差分析表

2

2

113391363 37876.0417, 24 1 23

24

505177 11339660.0833, 3 1 2

8 24

37876.0417 9660.0833 28215.9584, 3(8 1) 21

T T

A A

e T A e

S f

S f

S S S f

第四章 方差分析与回归分析

中国科大 13 November 2015

第29页

表4.1.5 例4.1.2的方差分析表

来源 平方和 自由度 均方和 F比

因素 9660.0833 2 4830.0417 3.5948

误差 28215.9584 21 1343.6171

总和 37876.0417 23

若取=0.05,则F0.05 (2 ,21)=3.47 ,由于

F=3.5948>3.47,故认为因素A(饲料)是显著的,

即三种饲料对鸡的增肥作用有明显的差别。

第四章 方差分析与回归分析

中国科大 13 November 2015

第30页

4.1.5 参数估计

在检验结果为显著时,我们可进一步求出

总均值 、各主效应ai和误差方差 2的估计。

第四章 方差分析与回归分析

中国科大 13 November 2015

第31页

一、点估计

由模型(4.1.4)知诸Xij相互独立,且Xij ~N(+ ai , 2) ,因此

可使用极大似然方法求出一般平均 、各主效应ai和误差

差 2的估计:

由极大似然估计的不变性,各水平均值i的极大似然估计

为 ,由于 不是 2的无偏估计,可修偏: .ˆ ii X

2ˆM 2ˆ

eMS

.

2 2

1 1

,

, 1, ,

1( )

ii

r me

M ij

i j

X

a X X i r

SX X

n n

第四章 方差分析与回归分析

中国科大 13 November 2015

第32页

由于 ,可给出Ai的水平均值i

的1- 的置信区间为:

其中 。

.( )~ ( )

/

i ie

e e

m Xt f

S f

二、置信区间

. ./ 2 /2( ) / , ( ) /i ie eX t f m X t f m

2ˆeMS

第四章 方差分析与回归分析

中国科大 13 November 2015

第33页

例4.1.3 继续例4.1.2,此处我们给出诸水平均

值的估计。因素A的三个水平均值的估计分

别为:

从点估计来看,水平2(以槐树粉为主的饲

料)是最优的。

1

2

3

1941000 1024.25,

8

5851000 1073.125,

8

3541000 1044.25,

8

第四章 方差分析与回归分析

中国科大 13 November 2015

第34页

误差方差的无偏估计为

可以给出诸水平均值的置信区间。此

处, ,若取=0.05 ,则:

t /2( fe )=t0.025( 21 )=2.0796,

,于是三个水平均值的

0.95置信区间分别为:

2ˆ 1343.6171eMS

ˆ 1343.6171 36.6554

0.025ˆ (21) / 8 26.9509t

1

2

3

:1024.25 26.9509 = [997.2891, 1051.2109],

:1073.125 26.9509 = [1046.1741, 1100.0759],

:1044.25 26.9509 = [1017.2891, 1071.2109].

第四章 方差分析与回归分析

中国科大 13 November 2015

第35页

在单因素试验的数据分析中可得到如下三个

结果:

因素是否显著;

试验的误差方差 2的估计;

诸水平均值i的点估计与区间估计。

在因素A显著时,通常只需对较优的水平均

值作参数估计,在因子A不显著场合,参数

估计无需进行。

第四章 方差分析与回归分析

中国科大 13 November 2015

第36页

§4.2 一元线性回归

4.2.1 变量间的两类关系

十九世纪,英国生物学家兼统计学家高尔顿研究

发现:

其中x表示父亲身高, y 表示成年儿子的身高

(单位:英寸,1英寸=2.54厘米)。这表明子代

的平均高度有向中心回归的意思,使得一段时

间内人的身高相对稳定。之后回归分析的思想

渗透到了数理统计的其它分支中。

ˆ 33.73 0.516y x

第四章 方差分析与回归分析

中国科大 13 November 2015

第37页

回归分析便是研究变量间相关关系的一门学科。

它通过对客观事物中变量的大量观察或试验获得

的数据,去寻找隐藏在数据背后的相关关系,给

出它们的表达形式——回归函数的估计。

变量间的相关关系不能用完全确切的函数形式表

示,但在平均意义下有一定的定量关系表达式,寻

找这种定量关系表达式就是回归分析的主要任务。

回归分析处理的是变量与变量间的关系。变量

间常见的关系有两类:确定性关系与相关关系。

第四章 方差分析与回归分析

中国科大 13 November 2015

第38页

4.2.2 一元线性回归模型 设y与x间有相关关系,称x为自变量(预报变量),

y为因变量(响应变量),在知道x取值后,y有一个

分布p(yx),我们关心的是y的均值E(Yx):

(4.2.1)

这便是y关于x的理论回归函数——条件期望,也

就是我们要寻找的相关关系的表达式。

通常,相关关系可用下式表示

y =f (x)+

其中是随机误差,一般假设 ~N(0, 2)。

( ) ( | ) ( | )f x E Y x yp y x dy

第四章 方差分析与回归分析

中国科大 13 November 2015

第39页

例4.2.1 合金的强度y (×107Pa) 与合金中碳的

含量x (%) 有关。为研究两个变量间的关系。

首先是收集数据,我们把收集到的数据记为

(xi,yi),i=1,2,,n。本例中,我们收集到12组数

据,列于表4.2.1中

进行回归分析首先是回归函数形式的选择。

当只有一个自变量时,通常可采用画散点图

的方法进行选择。

第四章 方差分析与回归分析

中国科大 13 November 2015

第40页

表4.2.1 合金钢强度y与碳含量x的数据 序号 x(%) y (×10

7Pa) 序号 x(%) y (×10

7Pa)

1 0.10 42.0 7 0.16 44.0

2 0.11 43.0 8 0.17 53.0

3 0.12 45.0 9 0.18 50.0

4 0.13 45.0 10 0.20 55.0

5 0.14 45.0 11 0.21 55.0

6 0.15 47.5 12 0.23 60.0

第四章 方差分析与回归分析

中国科大 13 November 2015

第41页

为找出两个量间

的回归函数,可

以画一张图:把

每一对数(xi,yi)看

成直角坐标系中

的一个点,在图

上画出n个点,

称这张图为散点

图,见左图 0.10 0.15 0.20

40

50

60

碳 含 量

合金

钢强

图 8.4.1 合 金 钢 强 度 及 碳 含 量 的 散 点 图

第四章 方差分析与回归分析

中国科大 13 November 2015

第42页

从散点图我们发现12个点基本在一条直线附近,这说

明两个变量之间存在线性相关关系,可以表示为:

y =0+ 1x+ (4.2.2)

这便是y关于x的一元线性回归的数据结构式。通常假

E() =0, Var() = 2 (4.2.3)

在对未知参数作区间估计或假设检验时,还需要假定

误差服从正态分布,即

y ~N(0+ 1x, 2 ) (4.2.4)

显然,假定(4.2.4) 比 (4.2.3) 要强。

第四章 方差分析与回归分析

中国科大 13 November 2015

第43页

由于 0, 1均未知,我们需要从收集到的数

据(xi,yi),i=1,2,…,n,出发进行估计。在收

集数据时,我们一般要求观察独立地进行,

即假定y1, y2,, yn,相互独立。综合上述诸项

假定,我们可以给出最简单、常用的一元线

性回归的数学模型:

(4.2.5) 0 1

2

1,2,

(0, )

i i i

i

y x i n

N

各 独立同分布,其分布为

第四章 方差分析与回归分析

中国科大 13 November 2015

第44页

由数据(xi,yi),i=1,2,…,n,可以获得0, 1的估

计 ,称

(4.2.6)

为y关于x的经验回归函数,简称为回归方程,

其图形称为回归直线。给定x=x0后,

称 为回归值(在不同场合也称其

为拟合值、预测值)。

0 1ˆ ˆ,

0 1ˆ ˆy x

0 0 1 0ˆ ˆy x

第四章 方差分析与回归分析

中国科大 13 November 2015

第45页

4.2.3 回归系数的最小二乘估计

一般采用最小二乘方法估计模型(4.2.5)中的0,

1 :令:

应该满足

称这样得到的 称为0, 1的最小二乘估计,

记为LSE。

0 1ˆ ˆ,

0 1ˆ ˆ,

2

0 1 0 1

1

( , ) ( )n

i i

i

Q y x

10 1 0 1

,

ˆ ˆ( , ) min ( , )Q Q

第四章 方差分析与回归分析

中国科大 13 November 2015

第46页

最小二乘估计可以通过求偏导数并命其为0而

得到:

(4.2.7)

这组方程称为正规方程组,经过整理,可得

(4.2.8)

0 1

10

0 1

11

2 ( ) 0

2 ( ) 0

n

i i

i

n

i i i

i

Qy x

Qy x x

0 1

2

0 1

ˆ ˆ

ˆ ˆi i i

n nx ny

nx x x y

第四章 方差分析与回归分析

中国科大 13 November 2015

第47页

解(4.2.8)可得

(4.2.9)

这就是参数的最小二乘估计,其中

1

0 1

ˆ /

ˆ ˆ

xy xxS S

y x

22 2 2 2

22 2 2 2

1 1,

1( )( )

1( )

1( )

i i

xy i i i i i i i i

xx i i i i

yy i i i i

x x y yn n

S x x y y x y nx y x y x yn

S x x x nx x xn

S y y y ny y yn

第四章 方差分析与回归分析

中国科大 13 November 2015

第48页

表4.2.2 例4.2.2的计算表 xi=1.90 n=12 yi=590.5

xi

2=0.3194 xi yi =95.9250 yi

2=29392.75

Sxx=0.0186 Sxy=2.4292 Syy=335.2292

由此给出回归方程为: 28.5340 130.6022y x

例4.2.2 使用例4.2.1种合金钢强度和碳含量

数据,我们可求得回归方程,见下表.

0.1583x 49.2083y

2 0.3008nx 93.4958n x y 2 29057.5208ny

1 / 130.6022xy xxS S

0 1 28.5340y x

第四章 方差分析与回归分析

中国科大 13 November 2015

第49页

定理4.2.1 在模型(4.2.5)下,有

(1)

(2)

(3)对给定的x0,

2 22

0 0 1 1

1ˆ ˆ~ , ~ ,xx xx

xN N

n S S

2

0 1ˆ ˆCov

xx

x

S ,

220

0 0 1 0 0 1 0

( )1ˆ ˆˆ ~xx

x xy x N x

n S

关于最小二乘估计的一些性质罗列在如下定

理之中:

第四章 方差分析与回归分析

中国科大 13 November 2015

第50页

定理4.2.1 说明

分别是0, 1的无偏估计; 0 1ˆ ˆ,

是E(y0)=0+ 1 x0的无偏估计; 0y

除 外, 与 是相关的; 0x 10

要提高 的估计精度(即降低它们的方

差)就要求n大,Sxx大(即要求x1, x2,, xn

较分散)。

0 1ˆ ˆ,

第四章 方差分析与回归分析

中国科大 13 November 2015

第51页

4.2.4 回归方程的显著性检验 在使用回归方程作进一步地分析前,首先应对回归方

程是否有意义进行判断。

如果1=0,那么不管x如何变化,E(y)不随x的变化作

线性变化,那么这时求得的一元线性回归方程就没有

意义,称回归方程不显著。如果10,E(y)随x的变化

作线性变化,称回归方程是显著的。

综上,对回归方程是否有意义作判断就是要作如下的

显著性检验:H0:1=0 vs H1: 10

拒绝H0表示回归方程是显著的。

第四章 方差分析与回归分析

中国科大 13 November 2015

第52页

一、t 检验

对H0 : 1 =0的检验也可基于t分布进行。

由于 ,

因此在H0为真时,有 ,其中

,它可用来检验假设H0。对给定

的显著性水平 ,拒绝域为 .

由于 ,称 为 的标准误

差,即 的标准差的估计。

22

1 1 12ˆ ˆ~ , , ~ ( 2),e

xx

SN n

S

且与 相互独立

~ ( 2)ˆ / xx

t t nS

ˆ / ( 2)eS n

/ 2{ ( 2)}W t t n

1ˆ / xxS

1ˆˆ ˆ / xxS

1

1

第四章 方差分析与回归分析

中国科大 13 November 2015

第53页

注意到t2=F,因此,显著性检验也可以采用F

检验法。

以例4.2.2中数据为例,可以计算得到

若取 =0.01,则由于13.2872>3.1698,因此,

在显著性水平0.01下回归方程是显著的。

130.602213.2872

1.7970 / 0.0186t

第四章 方差分析与回归分析

中国科大 13 November 2015

第54页

在一元线性回归场合,二种检验方法等价;

即在相同的显著性水平下,要么都拒绝原假设,要么都接受原假设,不会产生矛盾。

第四章 方差分析与回归分析

中国科大 13 November 2015

第55页

4.2.5 估计与预测

当回归方程经过检验是显著的后,可用来做估计和预测。

这是二个不同的问题:

(1)当x=x0时,寻求均值E(y0)=0+ 1 x0的点估计与区间

估计(注意这里E(y0)是常量)是估计问题;

(2)当x=x0时,y0的观察值在什么范围内?由于y0是随机

变量,为此只能求一个区间,使y0落在这一区间的概

率为1- ,即要求,使

称区间 为y0的概率为1- 的预测区间,

这是预测问题。

0 0ˆ( ) 1P y y

0 0,y y

第四章 方差分析与回归分析

中国科大 13 November 2015

第56页

一、 E(y0)的估计

在x=x0时,其对应的因变量y0是一个随机变量,

有一个分布,我们经常需要对该分布的均值

给出估计。由于E(y0)=0+ 1 x0,一个直观的

估计应为

我们习惯上将上述估计记为 (注意这里

表示的是E(y0)的估计,而不表示y0的估计,

因为y0是随机变量,它是没有估计的)。由

于 分别是0, 1的无偏估计,因此,

也是E(y0)的无偏估计。

0y 0y

0y0 1ˆ ˆ,

0 0 1 0( )E y x

第四章 方差分析与回归分析

中国科大 13 November 2015

第57页

为得到E(y0)的区间估计,我们需要知道 的

分布。由定理4.2.1,

又由定理4.2.3知, Se / 2 ~ 2(n-2),且与

相互独立,故 0 1 0

ˆˆ ( )y y x x

220

0 0 1 0 0 1 0

( )1ˆ ˆˆ ~xx

x xy x N x

n S

2

00 0

0 0

2

02

( )1ˆ( ) /

ˆ~ ( 2)

( )1/( 2) ˆ

xx

e

xx

x xy Ey

n S y Eyt n

S x xn

n S

0y

第四章 方差分析与回归分析

中国科大 13 November 2015

第58页

于是E(y0)的1 的置信区间(CI)是

(4.2.13)

其中

(4.2.14)

2

00 / 2

( )1( 2)

xx

x xt n

n S

0 0 0 0[ , ]y y

第四章 方差分析与回归分析

中国科大 13 November 2015

第59页

二、 y0的预测区间

实用中往往更关心x=x0时对应的因变量y0的取

值范围。 y0的最可能取值为 ,于是,我们

可以使用以 为中心的一个区间

作为y0的取值范围。经推导, 的表达式为:

(4.2.15)

上述预测区间(PI)与E(y0)的置信区间的差

别就在于根号里多个1。

0y

0y 0 0( , )y y

2

00 / 2

( )1ˆ( ) ( 2) 1

xx

x xx t n

n S

第四章 方差分析与回归分析

中国科大 13 November 2015

第60页

预测区间的长度2与样本量n、x的偏差平方和

Sxx、 x0 到 的距离 有关。

当 时,预测精度可能变得很差,在这

种情况下的预测称作外推。另外,若x1, x2,, xn

较为集中时,那么Sxx就较小,也会导致预测精

度的降低。因此,在收集数据时要使x1, x2,, xn

尽量分散,这对提高精度有利。

当n较大时(如n >30), t分布可以用正态分布

近似,进一步,若x0与 相差不大时, 可以近

似取为 。

0| |x xx

0 (1) ( )[ , ]nx x x

x

/ 2u

第四章 方差分析与回归分析

中国科大 13 November 2015

第61页

例4.2.4 在例4.2.2中,如果x0=0.16,则得预

测值为

若取 =0.05,则t0.025(10)=2.2281,

又 ,应用(4.2.14),

故x0=0.16对应因变量y0的均值E(y0)的0.95置信

区间为(44.4328-1.0480, 44.4328+1.0480)

=(48.3488, 50.5168)

0 28.5364 130.6022 0.16 49.4328y

17.9703 / (12 2) 1.3405

2

0

1 (0.16 0.19)1.3405 2.2281 1.0840

12 0.0186

第四章 方差分析与回归分析

中国科大 13 November 2015

第62页

应用(4.2.15),

从而y0的概率为0.95的预测区间为:

E(y0)的0.95置信区间比y0的概率为0.95的预测区

间窄很多,这是因为随机变量的均值相对于随

机变量本身而言要更容易估计出来。

21 (0.16 0.19)1.3405 2.2281 1 3.1774

12 0.0186

(49.4328 3.1774,49.4328 3.1774) (46.2554,52.6102)

第四章 方差分析与回归分析

中国科大 13 November 2015

第63页

§4.3 小结

基本概念:

单因素试验方差分析的数学模型、一元线性回归的

数学模型、回归直线;

计算公式:

单因素试验方差分析与计算;

一元线性回归的相关计算与应用;

第四章 方差分析与回归分析

中国科大 13 November 2015

第64页

2, 4;

作 业

top related