第十讲结构方程模型 -...

37
第十讲 结构方程模型 1 1 x 2 x f 1 2020.11.25 1 y 3 x 2 y f 2 但可以测量其替代指标 不可直接测量, 是我们关心的变量。 因子 潜变量 s y s x f f f f ' ' / 2 1 2 1 多元统计分析B (017163)http://staff.ustc.edu.cn/~ynyang/matrix 存在因果关系? 是否与 2 1 f f

Upload: others

Post on 23-Mar-2021

17 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 第十讲结构方程模型 - USTCstaff.ustc.edu.cn/~ynyang/matrix/MA10.pdf第十讲结构方程模型 1 x 1 x 2 f 1 2020.11.25. y. 1. x. 3. 2. y. f. 2 但可以测量其替代指标

第十讲结构方程模型

1

1x

2x f1

2020.11.25

1y

3x 2yf2

。,但可以测量其替代指标

不可直接测量,,

是我们关心的变量。,因子潜变量

sysxff

ff

''

/

21

21

多元统计分析B (017163):http://staff.ustc.edu.cn/~ynyang/matrix

存在因果关系?是否与 21 ff

Page 2: 第十讲结构方程模型 - USTCstaff.ustc.edu.cn/~ynyang/matrix/MA10.pdf第十讲结构方程模型 1 x 1 x 2 f 1 2020.11.25. y. 1. x. 3. 2. y. f. 2 但可以测量其替代指标

2

• 结构方程模型(SEM) 用一组方程表示各个变量(包括可以测量到的指标以及不可直接测量的潜变量)之间的因果关系。 SEM在社会学、经济学、行为科学、心理、教育学中应用广泛。

• 结构方程模型所表达的因果关系都是假定的(putative)模型。如果模型能够较

好地拟合数据,只能对方程所表达的因果关系给予支持,而不能确定是真正的因果关系。

• 协方差矩阵是SEM的基础:类似于因子分析,SEM通过一系列关系方程对样本的协方差矩阵结构给予限制,是一种协方差矩阵结构分析方法。

• SEM模型以路径图(path diagram)表达。SEM模型主要包括如下3种模型

结构方程模型(SEM:Structural Equation Models)

− 确认性的因子分析(确认因子分析的结果)− 线性回归模型, 路径分析(无潜变量)− 一般结构方程模型(包含上述两种)

Page 3: 第十讲结构方程模型 - USTCstaff.ustc.edu.cn/~ynyang/matrix/MA10.pdf第十讲结构方程模型 1 x 1 x 2 f 1 2020.11.25. y. 1. x. 3. 2. y. f. 2 但可以测量其替代指标

3

• Sewall Wright (1889-1988,遗传学家):提出路径分析path analysis,通过研究相关系数矩阵研究因果关系

• Charles Spearman (1863-1945,心理学家):提出单因子分析• Louis Thurstone (1887-1955,心理学家),Herman Wold(1908-1992,经

济学家,统计学家): 多因子分析• Herbert Simon (1916-2001, 经济学家):Under certain assumptions

correlation is an index of causality.• Hubert Blalock (1926-1991, 社会学家):Simon-Blalock technique• Otis Duncan (1921-2004,社会学家):path analysis and causal models• Karl Joreskog (统计学家):协方差结构分析,LISREL

SEM发展历史

Page 4: 第十讲结构方程模型 - USTCstaff.ustc.edu.cn/~ynyang/matrix/MA10.pdf第十讲结构方程模型 1 x 1 x 2 f 1 2020.11.25. y. 1. x. 3. 2. y. f. 2 但可以测量其替代指标

4

SEM商业软件• LISREL (70’s Karl Joreskog):应用最广泛的软件• EQS (80’s Peter Bentler)• AMOS (90’s James Arbuckle)• Mplus (00’s Bengt Muthen)• SAS: proc Calis

R Package:• sem (2001-,John Fox): 模型设定格式比较复杂,可画path diagram• lavaan (2010-, Yves Rosseel): latent variable analysis, 格式简单,仍在开发阶

段,尚不能画path diagram。

• Lava (2012-Klaus Holst):

SEM软件

Page 5: 第十讲结构方程模型 - USTCstaff.ustc.edu.cn/~ynyang/matrix/MA10.pdf第十讲结构方程模型 1 x 1 x 2 f 1 2020.11.25. y. 1. x. 3. 2. y. f. 2 但可以测量其替代指标

5

例1. 消费者对商品(或服务)的哪些感觉或认知(perception)最能影响购买兴趣、满意度?同一个商品是否存在具有不同认知/评价的顾客群?SEM试图回答此类问题,SEM寻找商品中隐含的影响顾客认知的因素(factor, latent variable, dimension),据此判断商品的属性,区分不同的商品。

Imagine if you wanted to better understand which consumer perceptions are most strongly associated with Liking, Purchase Interest or Satisfaction in your product or service category, and also see if there are latent segments (clusters) of consumers with different perceptions of the category or features they are seeking. Though not a simple modeling task, SEM would be appropriate for these objectives, and the images of brands could also be mapped to help us understand how the dimensions underlying brand perceptions distinguish the brands.

满意度指标:Liking, Buy Again,Recommend商品属性的评价:Prestigious, Big Brand, Reliable, Sophisticated, Stylish, Adultlike

市场调查:调查消费者对各种商品的满意度以及商品属性的认知评价

来源:https://www.kdnuggets.com/2017/03/structural-equation-modeling.htmlBy Kevin Gray, Cannon Gray.

Page 6: 第十讲结构方程模型 - USTCstaff.ustc.edu.cn/~ynyang/matrix/MA10.pdf第十讲结构方程模型 1 x 1 x 2 f 1 2020.11.25. y. 1. x. 3. 2. y. f. 2 但可以测量其替代指标

6

建立满意度与商品属性评价的测量指标之间的方程关系,即回归模型:回归分析

但测量到的商品属性的各种指标之间存在重叠,含义不明确等问题。我们可以应用因子分析,探索发现测量指标变量后面的潜在因子。

箭头从解释变量(外生变量,因)出发,指向响应变量(内生变量,果) , 红色箭头表示模型(1), 黑色箭头表示模型(2)

error StylishgtedsophisticaReliable sPrestigiou Recommend(2)errortedsophisticaBrand Big sPrestigiou Liking (1)

+×+×+×+×=+×+×+×=

fedcba

Page 7: 第十讲结构方程模型 - USTCstaff.ustc.edu.cn/~ynyang/matrix/MA10.pdf第十讲结构方程模型 1 x 1 x 2 f 1 2020.11.25. y. 1. x. 3. 2. y. f. 2 但可以测量其替代指标

7

通过探索因子分析发现属性指标背后所代表的因子,比如我们发现三个因子能很好地解释指标间的关系:

探索因子分析

Traditional:第一个因子只在 Prestigious,Big Brand,Relible上有非0载荷;Stylish:第二个因子在 Sophictigated,Stylish,Adultlike上有非0载荷;Equity(品牌价值):第三个因子在Liking,Buy Again,Recommend上有载荷

路径图(path diagram): 以椭圆框表示因子(潜变量),以方框表示观察变量(显变量),比如 Prestigious,Big Brand,Relible只与Traditional相连。

与探索因子分析不同,确认因子分析通常需要假设因子之间的相关性(三条红色双向箭头),称为确认因子模型。

确认因子分析

方框中的数字是参数的估计值。共有21个参数:9个载荷,9个特性方差,以及3个因子间的相关系数。

Page 8: 第十讲结构方程模型 - USTCstaff.ustc.edu.cn/~ynyang/matrix/MA10.pdf第十讲结构方程模型 1 x 1 x 2 f 1 2020.11.25. y. 1. x. 3. 2. y. f. 2 但可以测量其替代指标

8

结构方程模型

我们有理由认为(假设),商品属性因子Traditional和Stylish都影响品牌价值Brand Equity, 即存在因果关系,这体现在路径模型中因子Traditional和Stylish单箭头指向 Equity,而Traditional和 Stylish之间只是关联关系(双箭头)

双箭头表示关联, 单箭头表示因果.单箭头指向的是内生(endogenous)变量,无单箭头指向的是外生(exogenous)变量

Prestigious与Liking 有什么关系?Prestigious是Traditional的一种表达,Traditional通过影响Equity进而影响Liking

Page 9: 第十讲结构方程模型 - USTCstaff.ustc.edu.cn/~ynyang/matrix/MA10.pdf第十讲结构方程模型 1 x 1 x 2 f 1 2020.11.25. y. 1. x. 3. 2. y. f. 2 但可以测量其替代指标

9

• In the path diagram, ovals represent factors (latent variables, unobserved variables) in SEM lingo. These are theoretical concepts which can be inferred but not directly measured.

• Rectangles are used to represent attributes, also called measured variables, observed variables, or manifest variables. In this example, the Traditional factor is represented by, or measured by, the attributes Prestigious, Big Brand and Reliable.

• Single-headed arrows pointing from one latent variable to another depict hypothetical causal relationships, for instance the impact of Traditional on Brand Equity, the dependent variable in this analysis. These can be likened to regression coefficients. The single-headed arrows running from the latent variables to the attributes are equivalent to loadings in Factor Analysis.

• The double-headed arrow is the correlation between the latent exogenous (independent) variables in this example.

• The numbers adjacent the arrows are the regression coefficients, correlation coefficients and factor loadings.

Path diagram 细节

Page 10: 第十讲结构方程模型 - USTCstaff.ustc.edu.cn/~ynyang/matrix/MA10.pdf第十讲结构方程模型 1 x 1 x 2 f 1 2020.11.25. y. 1. x. 3. 2. y. f. 2 但可以测量其替代指标

10

因子分析探索发现潜在的因子,用于解释观察变量之间的相关关系,是一种探索性分析工具,称为探索因子分析(EFA:exploratory FA) 。对EFA的结论进行严格验证,即为确认因子分析(CFA: confirmative FA).

6262161

5252151

4242141

3232131

2222121

1212111

lgεεεεεε

++=++=++=++=++=++=

FlFlGeometryFlFlebraAFlFlArithmeticFlFlHistoryFlFlEnglishFlFlGaelic

例2. 上节课例4中我们拟合了两因子模型,经过旋转得到如下载荷

方框之外的载荷接近0,从而我们判定F1代表数学能力,F2语文能力。确认性因子分析模型严格地检验该结论是否成立。

1. 确认因子分析

EFA

CFA

Page 11: 第十讲结构方程模型 - USTCstaff.ustc.edu.cn/~ynyang/matrix/MA10.pdf第十讲结构方程模型 1 x 1 x 2 f 1 2020.11.25. y. 1. x. 3. 2. y. f. 2 但可以测量其替代指标

11

( )

).(2/)1(||);(2/)1(

),P(value-p, ||/|~~~| log

chisquare) fit/model of goodness(

00

1

012

数因子模型假设下参数个

参数个数不假设结构情形时

:拟合优度

−++=

Σ+=

−=>=

+=

mmpLvppv

vvdfWSΨLLnW

dfχ

T

确认性因子模型(CFA:confirmatory FA) :因子模型中假设某些载荷为0,即明确假设哪些变量与哪个因子有关。

CFA模型的假设基于探索性因子分析的结果或基于问题背景。与探索性因子分析不同,CFA通常需要假设因子之间是相关的。

确认因子分析模型(CFA)

.2/)1(||.

2/)1(),,/(,

,0||0,

)()(

00

0

−++=

=

+=Σ

×

mmpL

mmmpΨ

LLLΨLL

m

mp

ν通常,参数总数为

某些因子不相关)或回归系数(有时假设

个相关系数参数共即结构方程模型回归关系有因果

或存在相关的个因子之间通常假设是个数为特殊方差

元素个数非,记中有些元素假设为其中载荷矩阵

的协方差矩阵显变量假设下,观察变量个因子确认因子模型T

Page 12: 第十讲结构方程模型 - USTCstaff.ustc.edu.cn/~ynyang/matrix/MA10.pdf第十讲结构方程模型 1 x 1 x 2 f 1 2020.11.25. y. 1. x. 3. 2. y. f. 2 但可以测量其替代指标

12

6161

5151

4141

3232

2222

1212

GeometryAlgebraArithmeticHistoryEnglishGaelic

εεεεεε

+=+=+=+=+=+=

FlFlFlFlFlFl

.F1GeometryAlgebra,,ArithmeticF2HistroyEnglish,Gaelic,,EFA ).2

有关只和有关,只和

认性因子模型结果,我们假设如下确基于(续例

1

1,

00

~

:,),(

),,0(~,...,

2

1

21

21

61

ρρ

ρ

θεεε

NFF

FFFF

N ii

相关,相关系数为假设

独立。它们与

独立,其中假设

符。个变量独立,与实际不个变量与后上例中前子之间独立比如,如果假设潜在因

变量之间的相关性,否则不能完整刻画观察相关通常假设潜在因子之间注

33,,FA . C

Page 13: 第十讲结构方程模型 - USTCstaff.ustc.edu.cn/~ynyang/matrix/MA10.pdf第十讲结构方程模型 1 x 1 x 2 f 1 2020.11.25. y. 1. x. 3. 2. y. f. 2 但可以测量其替代指标

13

.,)(

;)( .

,)(, ./ );( :

,diagram)path (

曲双箭头有时省略单个变量上弯不标记误差为了简化,特有因子

头的标记为方差单个变量上的弯曲双箭

,标记为协方差但无因果方程相关双箭头指向的两个变量

标记为载荷线上的

,起点为因果箭头所指为响应关系单箭头代表直接的因果

潜变量圆框是公共因子显变量方框是可观测的变量节点代表变量

其中果关系表达多个变量之间的因路径图

的下显变量潜变量,其它为可观察 , 21 FF

路径图(path diagram)

ρψε

εεεεεε

=

+=+=+=+=+=+=

),cov(),1,0(~,),,0(~

GeometryAlgebraArithmeticHistoryEnglishGaelicCFA

2121

6161

5151

4141

3232

2222

1212

FFNFFN

FlFlFlFlFlFl

ii

模型:

路径图:

的路径图(续例 CFA).2

Page 14: 第十讲结构方程模型 - USTCstaff.ustc.edu.cn/~ynyang/matrix/MA10.pdf第十讲结构方程模型 1 x 1 x 2 f 1 2020.11.25. y. 1. x. 3. 2. y. f. 2 但可以测量其替代指标

14

lavaan:方便使用,仍在开发, 主要函数sem()sem:早期开发,可绘制路径图,主要函数sem()

R程序包laanva

> install.packages(“lavaan”)> library(lavaan)#分两步1. 指定模型/结构方程

mymodel = ' # latent variable definitions (潜变量/因子定义)

factor1 = ~x1+x2.. # 显变量x1,x2 与因子factor1 有关# regressions (显变量之间或因子之间的线性回归关系)

factor1~factor2 # factor2=b*factor1+errorx1 ~ x2 # x1 = b*x2+error

# residual correlations (方差,协方差)factor1~~factor2 #factor1与factor2相关

2. 调用sem()函数

sem(model=mymodel, sample.cov=, sample.nobs=, std.lv= )#sample.cov: 样本协方差,另一种数据指定方式为 data=原始数据矩阵)#当不提供原始数据矩阵时,需指定样本量lv.std=TRUE: 因子的方差设定为1

f=~ w: Factor f is manifested as wy~x: x cause y, regressionu~~v : correlation

Page 15: 第十讲结构方程模型 - USTCstaff.ustc.edu.cn/~ynyang/matrix/MA10.pdf第十讲结构方程模型 1 x 1 x 2 f 1 2020.11.25. y. 1. x. 3. 2. y. f. 2 但可以测量其替代指标

15

> library(lavaan)#指定模型:> model <- ' # latent variable definitions

F1 =~ Arithmetic + Algebra+Geometry # “=~”read as “is manifested by”F2=~ Gaelic +English+History

# residual correlations (方差,协方差)F1~~F2

> fit <- sem(model=model, sample.cov=r ,sample.nobs=220 , std.lv=TRUE ) #std.lv=T 因子方差为1

> summary(fit)

例2(续)

Page 16: 第十讲结构方程模型 - USTCstaff.ustc.edu.cn/~ynyang/matrix/MA10.pdf第十讲结构方程模型 1 x 1 x 2 f 1 2020.11.25. y. 1. x. 3. 2. y. f. 2 但可以测量其替代指标

16

> summary(fit) #输出结果(参数估计和方差协方差估计)

Model Test User Model:

Test statistic 7.990Degrees of freedom 8P-value (Chi-square) 0.434

Latent Variables:Estimate Std.Err z-value P(>|z|)

F1 =~ Arithmetic 0.765 0.067 11.406 0.000Algebra 0.767 0.067 11.436 0.000Geometry 0.614 0.069 8.963 0.000

F2 =~ Gaelic 0.685 0.075 9.096 0.000English 0.671 0.075 8.920 0.000History 0.531 0.075 7.060 0.000

Covariances:Estimate Std.Err z-value P(>|z|)

F1 ~~ F2 0.597 0.072 8.332 0.000

Variances:Estimate Std.Err z-value P(>|z|)

.Arithmetic 0.411 0.068 6.071 0.000

.Algebra 0.408 0.068 6.025 0.000

.Geometry 0.618 0.071 8.712 0.000

.Gaelic 0.526 0.082 6.437 0.000

.English 0.545 0.081 6.723 0.000

.History 0.713 0.081 8.754 0.000F1 1.000 F2 1.000

Page 17: 第十讲结构方程模型 - USTCstaff.ustc.edu.cn/~ynyang/matrix/MA10.pdf第十讲结构方程模型 1 x 1 x 2 f 1 2020.11.25. y. 1. x. 3. 2. y. f. 2 但可以测量其替代指标

17

2. 线性回归,路径分析(无潜因子)

一元线性回归

变量中心化或标准化。没有截距项?假设所有

可以有一个或多个或外生变量自变量

只有一个或内生变量,方程左端模型的的响应变量线性回归一元

p

pp

xxyNxaxaxay

++

++++=

...~:lavaan),0(~,....

:)(,)()(

1

22111 σεε

线性回归和路径分析中所有变量(除了误差项)都是可以观察的显变量。

结构方程模型中的回归方程描述响应变量(果)和自变量(因)之间的线性因果关系,结构方程模型由先验知识决定。

SEM分析中的回归主要用于确认模型对于数据的拟合程度,并估计回归系数。

.,),...,(

),var(),,cov(),var(,),...,(121

1

1

yyyyyT

p

yyyT

p

aa

yyxx

xxxxxxx

xxx xxx

ΣΣΣ−Σ=ΣΣ=

=Σ=Σ=Σ=−− σ

则假设

Page 18: 第十讲结构方程模型 - USTCstaff.ustc.edu.cn/~ynyang/matrix/MA10.pdf第十讲结构方程模型 1 x 1 x 2 f 1 2020.11.25. y. 1. x. 3. 2. y. f. 2 但可以测量其替代指标

18

分。增加分,则增加如果

它因素。的与文科成绩独立的其代表影响

足线性的关系受文科成绩的影响,满中,假设数学成绩例

1

2321

Arithmetic1GaelicArithmetic

),,0(~,History*English*Gaelic*ArithmeticcArithemeti2

a

Naaaε

σεε+++=

model <- ‘ Arithmetic ~ Gaelic + English +History '

fit <- sem(model, sample.cov=r ,sample.nobs=220 )

Page 19: 第十讲结构方程模型 - USTCstaff.ustc.edu.cn/~ynyang/matrix/MA10.pdf第十讲结构方程模型 1 x 1 x 2 f 1 2020.11.25. y. 1. x. 3. 2. y. f. 2 但可以测量其替代指标

19

多元线性回归

model <- ‘ Arithmetic ~ Gaelic + English +HistoryAlgebra ~ Gaelic + English +HistoryGeometry ~ Gaelic + English +History

# Arithmetic ~~Algebra + Geometry#具有相同自变量的响应之间自动计算协方差

# Algebra ~~ Geometry ‘fit <- sem(model, sample.cov=r ,sample.nobs=220 )

),0(~),,(~),,(,History*English*Gaelic*Geometry,History*English*Gaelic*Algebra,History*English*Gaelic*Arithmetic

2

321

3321

2321

1321

iiiT NN

cccbbbaaa

σεεεε

εεε

Σ

+++=+++=+++=

0

模型:(续)多元线性回归例

ppp

mppm

pp

xxyxxyxxy

xbxbxby

xaxaxay

++++++

++++=

++++=

...~..,.,...~...~:lavaan

.......

....

1m1211

2111

121111

ε

ε

Page 20: 第十讲结构方程模型 - USTCstaff.ustc.edu.cn/~ynyang/matrix/MA10.pdf第十讲结构方程模型 1 x 1 x 2 f 1 2020.11.25. y. 1. x. 3. 2. y. f. 2 但可以测量其替代指标

20

路径分析模型中没有潜变量,只有显变量,显变量之间存在因果链关系时通过一系列回归方程表达。

Son.occ Son.1job Son.edu Dad.occ Dad.edu

Son.occ 1 0.541 0.596 0.405 0.322Son.1job 0.541 1 0.538 0.417 0.332Son.edu 0.596 0.538 1 0.438 0.453Dad.occ 0.405 0.417 0.438 1 0.516Dad.edu 0.322 0.332 0.453 0.516 1

例3. Blau and Duncan (1967) 研究了社会分层的过程,特别地,研究了家庭背景以及学校教育对一个人社会地位的影响。该项研究调查了20000个年轻人的

职业Son.occ、第一个工作Son.1job、教育程度Son.edu,以及其父亲的

职业Dad.occ 、教育Dad.edu 相关系数如下表.

路径分析(path analysis)

errorbzyerroraxz

yzx

+=+=

→→因果链:

Page 21: 第十讲结构方程模型 - USTCstaff.ustc.edu.cn/~ynyang/matrix/MA10.pdf第十讲结构方程模型 1 x 1 x 2 f 1 2020.11.25. y. 1. x. 3. 2. y. f. 2 但可以测量其替代指标

21

.Dad.occDad.edu,),0(~,Dad.edu*Dad.occ*Son.edu

: )3(

),0(~,Son.edu*eDad.occ*Son.1job : , )2(

),0(~,Dad.occ*Son.edu*Son.1job* Son.occ , 1

.

1.

.

ρεε

εε

εε

的协方差为是外生变量,假设它们

业和教育背景的影响儿子的教育受父亲的职

教育背景有关并和自己的亲的职业影响儿子的第一份工作受父

第一份工作有关:也与自己的教育背景和业的影响儿子的职业受父亲的职)(

图:假设如下因果关系路径

eduSoneduedu

jobSonjobjob

occSonoccocc

vNVgf

vNd

vNcba

++=

++=

+++=

Page 22: 第十讲结构方程模型 - USTCstaff.ustc.edu.cn/~ynyang/matrix/MA10.pdf第十讲结构方程模型 1 x 1 x 2 f 1 2020.11.25. y. 1. x. 3. 2. y. f. 2 但可以测量其替代指标

22

x=c(0.541,0.596,0.405,0.322, 0.538,0.417,0.332,0.438,0.453,0.516)R=matrix(0,5,5)R[lower.tri(R)]=xR=R+t(R)+diag(5)rownames(R)=colnames(R)=c("Son.occ", "Son.1job", "Son.edu","Dad.occ","Dad.edu")

model = ‘Son.occ ~ Son.1job+Son.edu+Dad.occSon.1job ~Son.edu+Dad.occSon.edu~Dad.occ+Dad.eduDad.occ~~Dad.edu '

fit <- sem(model, sample.cov=R ,sample.nobs=20000 )summary(fit)# 拟合优度test=1.751,df=2,p=0.417,拟合效果很好

Page 23: 第十讲结构方程模型 - USTCstaff.ustc.edu.cn/~ynyang/matrix/MA10.pdf第十讲结构方程模型 1 x 1 x 2 f 1 2020.11.25. y. 1. x. 3. 2. y. f. 2 但可以测量其替代指标

23

Model Test User Model:

Test statistic 1.751Degrees of freedom 2P-value (Chi-square) 0.417

Regressions:Estimate Std.Err z-value P(>|z|)

Son.occ ~ Son.1job 0.281 0.021 13.654 0.000Son.edu 0.395 0.021 18.980 0.000Dad.occ 0.115 0.019 5.972 0.000

Son.1job ~ Son.edu 0.440 0.020 21.599 0.000Dad.occ 0.224 0.020 11.023 0.000

Son.edu ~ Dad.occ 0.278 0.022 12.414 0.000Dad.edu 0.309 0.022 13.796 0.000

Covariances:Estimate Std.Err z-value P(>|z|)

Dad.occ ~~ Dad.edu 0.516 0.025 20.507 0.000

Variances:Estimate Std.Err z-value P(>|z|)

.Son.occ 0.566 0.018 31.623 0.000

.Son.1job 0.670 0.021 31.623 0.000

.Son.edu 0.738 0.023 31.623 0.000Dad.occ 0.999 0.032 31.623 0.000Dad.edu 0.999 0.032 31.623 0.000

Page 24: 第十讲结构方程模型 - USTCstaff.ustc.edu.cn/~ynyang/matrix/MA10.pdf第十讲结构方程模型 1 x 1 x 2 f 1 2020.11.25. y. 1. x. 3. 2. y. f. 2 但可以测量其替代指标

24

结构方程模型

CFA模型中如果假设潜因子之间的因果关系,即潜因子之间建立回归方程,即得到结构方程模型

3. 结构回归/结构方程模型

结构回归模型结合了只有显变量的路径分析回归模型和包含潜变量(因子)的确认性因子分析模型,表达显变量,潜变量的各种因果关系的方程组称为结构方程模型。包含了• 显变量与潜变量的因子载荷关系;• 因子变量之间的回归关系或相关关系;• 以及可能的某些观测变量之间的回归关系。

δ

:)( , .4

1

12

的其它因素代表影响系表示它们之间的因果关

我们以路径图直接影响数学能力假如我们认为语文能力(续)例

FFF

δ

2F 1F独立与

的因果关系

221

21

, :

FFFFF

δδρ +=

Page 25: 第十讲结构方程模型 - USTCstaff.ustc.edu.cn/~ynyang/matrix/MA10.pdf第十讲结构方程模型 1 x 1 x 2 f 1 2020.11.25. y. 1. x. 3. 2. y. f. 2 但可以测量其替代指标

25

,..,,))1(,0(~

),1,0(~),1,0(~),,0(~

61

221

独立与与独立

独立假设误差

εεδβδ

θε

−NNFNF

N ii

δβεεεεεε

+=+=+=+=+=+=+=

21

6161

5151

4141

3232

2222

1212

GeometryAlgebraArithmeticHistoryEnglish

/2

FFFlFlFlFlFlFlGaelic

CFA 结构方程模型:模型续)(例

⇔ 路径图:

注意,假设因子之间的因果关系是非常困难的或者很可能是不正确的,容易引起争议。这里我们假设语文影响数学只是为了演示的目的。通常争议不大的大多是有时间次序的因子因果链。

Page 26: 第十讲结构方程模型 - USTCstaff.ustc.edu.cn/~ynyang/matrix/MA10.pdf第十讲结构方程模型 1 x 1 x 2 f 1 2020.11.25. y. 1. x. 3. 2. y. f. 2 但可以测量其替代指标

26

极大似然方法拟合得到结果如下

> summary(mysem)

Model Chisquare = 7.95328 Df = 8 P值=0.43,拟合效果很好。

Page 27: 第十讲结构方程模型 - USTCstaff.ustc.edu.cn/~ynyang/matrix/MA10.pdf第十讲结构方程模型 1 x 1 x 2 f 1 2020.11.25. y. 1. x. 3. 2. y. f. 2 但可以测量其替代指标

27

例4. 工业化与政治民主 (数据集:PoliticalDemocracy in lavaan package) . 1960年和1965年75个国家的4个政治民主度量 (两年共8个) 以及3个工业化度量:

60年民主化指标:Press60:出版自由; Oppo60: 政见自由; Elect60: 选举公平性; Legis60: 立法有效性

65年民主化指标: Press65, Oppo65, Elect65,Legis65

60年工业化指标:GNP60:人均国民生产总值; Energy60: 人均能量消耗; Labor60: 产业工人比例

Press60 Oppo60 Elect60 Legis60 Press65 Oppo65 Elect65 Legis65 GNP60 Energy60 Labor601 2.5 0 3.33 0 1.25 0 3.73 3.33 4.44 3.64 2.562 1.25 0 3.33 0 6.25 1.1 6.67 0.74 5.38 5.06 3.573 7.5 8.8 10 9.2 8.75 8.09 10 8.21 5.96 6.26 5.224 8.9 8.8 10 9.2 8.91 8.13 10 4.62 6.29 7.57 6.275 10 3.33 10 6.67 7.5 3.33 10 6.67 5.86 6.82 4.576 7.5 3.33 6.67 6.67 6.25 1.1 6.67 0.37 5.53 5.14 3.897 7.5 3.33 6.67 6.67 5 2.23 8.27 1.49 5.31 5.08 3.328 7.5 2.23 10 1.5 6.25 3.33 10 6.67 5.35 4.85 4.269 2.5 3.33 3.33 3.33 6.25 3.33 3.33 3.33 5.52 5.24 4.12

10 10 6.67 10 8.9 8.75 6.67 10 10 5.83 5.37 4.4511 7.5 3.33 10 6.67 8.75 3.33 10 6.67 5.92 6.42 3.7912 7.5 3.33 6.67 6.67 8.75 3.33 6.67 6.67 5.4 6.25 4.5413 7.5 3.33 10 6.67 7.5 3.33 6.67 10 6.62 7.87 4.91…

Page 28: 第十讲结构方程模型 - USTCstaff.ustc.edu.cn/~ynyang/matrix/MA10.pdf第十讲结构方程模型 1 x 1 x 2 f 1 2020.11.25. y. 1. x. 3. 2. y. f. 2 但可以测量其替代指标

28

Press60 Oppo60 Elect60 Legis60 Press65 Oppo65 Elect65 Legisl65 GNP60 Energy60 Labor60Press60 1 0.6 0.68 0.69 0.74 0.65 0.67 0.67 0.38 0.32 0.25Oppo60 0.6 1 0.45 0.72 0.54 0.71 0.58 0.61 0.21 0.25 0.21Elect60 0.68 0.45 1 0.61 0.58 0.43 0.65 0.53 0.33 0.31 0.23Legis60 0.69 0.72 0.61 1 0.65 0.66 0.68 0.74 0.47 0.44 0.39Press65 0.74 0.54 0.58 0.65 1 0.56 0.68 0.63 0.56 0.52 0.43Oppo65 0.65 0.71 0.43 0.66 0.56 1 0.61 0.75 0.34 0.35 0.33Elect65 0.67 0.58 0.65 0.68 0.68 0.61 1 0.71 0.39 0.4 0.35Legis65 0.67 0.61 0.53 0.74 0.63 0.75 0.71 1 0.46 0.46 0.37GNP60 0.38 0.21 0.33 0.47 0.56 0.34 0.39 0.46 1 0.89 0.8Energy60 0.32 0.25 0.31 0.44 0.52 0.35 0.4 0.46 0.89 1 0.85Labor60 0.25 0.21 0.23 0.39 0.43 0.33 0.35 0.37 0.8 0.85 1

相关系数矩阵

Page 29: 第十讲结构方程模型 - USTCstaff.ustc.edu.cn/~ynyang/matrix/MA10.pdf第十讲结构方程模型 1 x 1 x 2 f 1 2020.11.25. y. 1. x. 3. 2. y. f. 2 但可以测量其替代指标

29

dem65dem60,dem65dem60,ind60

:/Legis65Elect65,Oppo65,Press65,65dem65Legis60Elect60,Oppo60,Press60,60dem60

;Labor60Energy60,GNP60,60ind60dem65,dem60,ind60,3

影响

也影响影响

回归方程因果关系假设因子之间满足如下

上在显变量年的民主化程度,体现代表

上在显变量年的民主化程度,体现代表

上在显变量年的工业化程度,体现代表

含义如下:个因子假设

+×+×=+×=

+×=+×=+×=+×=+×=+×=+×=+×=+×=+×=

2

1

44332211

332211

332211

eind60dem60dem65,eind60dem60

~ind6565Legis,~ind6565Elect,~ind65Oppo65,~ind65Press65,ind6060Labor,ind60Energy60,ind60GNP60,ind6060Labor,ind60Energy60,ind60GNP60

,

γβα

δδδδεεεεεε

回归模型

因子模型

:假设如下结构方程模型具体地

bbbbLLLLLL

Page 30: 第十讲结构方程模型 - USTCstaff.ustc.edu.cn/~ynyang/matrix/MA10.pdf第十讲结构方程模型 1 x 1 x 2 f 1 2020.11.25. y. 1. x. 3. 2. y. f. 2 但可以测量其替代指标

30

#R代码:library(lavaan)#指定模型:model <- ' # latent variable definitions

ind60 =~ GNP60 + Energy60 + Labor60 dem60 =~ Press60+Oppo60+Elect60+Legis60dem65 =~ Press65+Oppo65+Elect65+Legis65

# regressionsdem60 ~ ind60dem65 ~ ind60 + dem60

# residual correlationsPress60 ~~ Press65Oppo60 ~~Legis60 +Oppo65Elect60 ~~ Elect65Legis60 ~~ Legis65Oppo65 ~~ Legis65

R=cor(PoliticalDemocracy)

fit <- sem(model, sample.cov=R ,sample.nobs=75,std.lv=T)#std.lv=T: 潜变量(lv: latent variable)的方差设定为1

summary(fit)

Page 31: 第十讲结构方程模型 - USTCstaff.ustc.edu.cn/~ynyang/matrix/MA10.pdf第十讲结构方程模型 1 x 1 x 2 f 1 2020.11.25. y. 1. x. 3. 2. y. f. 2 但可以测量其替代指标

31

#输出结果> summary(fit)

Model Test User Model:

Test statistic 38.125Degrees of freedom 35P-value (Chi-square) 0.329

Latent Variables:Estimate Std.Err z-value P(>|z|)

ind60 =~ GNP60 0.914 0.088 10.346 0.000Energy60 0.967 0.085 11.424 0.000Labor60 0.866 0.091 9.480 0.000

dem60 =~ Press60 0.758 0.088 8.589 0.000Oppo60 0.633 0.094 6.740 0.000Elect60 0.641 0.094 6.833 0.000Legis60 0.751 0.089 8.476 0.000

dem65 =~ Press65 0.159 0.099 1.606 0.108Oppo65 0.146 0.092 1.584 0.113Elect65 0.162 0.101 1.599 0.110Legis65 0.162 0.102 1.596 0.111

主要结果:

模型的拟合优度检验统计量=38.125,自由度35,p-value=0.329>0.1,表明拟合很好。

第一列为载荷估计,其它列分别是标准差,检验统计量z, 以及p值P值<0.05表明载荷显著非0

dem65的载荷都不显

著,说明我们或许不应该引入该因子。

Page 32: 第十讲结构方程模型 - USTCstaff.ustc.edu.cn/~ynyang/matrix/MA10.pdf第十讲结构方程模型 1 x 1 x 2 f 1 2020.11.25. y. 1. x. 3. 2. y. f. 2 但可以测量其替代指标

32

Regressions:Estimate Std.Err z-value P(>|z|)

dem60 ~ ind60 0.499 0.144 3.460 0.001

dem65 ~ ind60 0.923 0.628 1.469 0.142dem60 4.010 2.617 1.533 0.125

Variances:Estimate Std.Err z-value P(>|z|)

.GNP60 0.152 0.036 4.184 0.000

.Energy60 0.052 0.031 1.718 0.086

.Labor60 0.236 0.046 5.177 0.000

.Press60 0.275 0.065 4.256 0.000

.Oppo60 0.473 0.088 5.366 0.000

.Elect60 0.471 0.088 5.324 0.000

.Legis60 0.281 0.066 4.261 0.000

.Press65 0.344 0.070 4.895 0.000

.Oppo65 0.436 0.080 5.419 0.000

.Elect65 0.318 0.066 4.814 0.000

.Legis65 0.309 0.066 4.685 0.000ind60 1.000

.dem60 1.000

.dem65 1.000

65年的民主化程度与60年的工业化和民主化关系不显著(p值> 0.05)

Covariances:Estimate Std.Err z-value P(>|z|)

.Press60 ~~ .Press65 0.091 0.052 1.741 0.082

.Oppo60 ~~ .Legis60 0.099 0.053 1.871 0.061.Oppo65 0.162 0.055 2.934 0.003

.Elect60 ~~ .Elect65 0.074 0.056 1.308 0.191

.Legis60 ~~ .Legis65 0.032 0.041 0.787 0.431

.Oppo65 ~~ .Legis65 0.124 0.052 2.386 0.017

Page 33: 第十讲结构方程模型 - USTCstaff.ustc.edu.cn/~ynyang/matrix/MA10.pdf第十讲结构方程模型 1 x 1 x 2 f 1 2020.11.25. y. 1. x. 3. 2. y. f. 2 但可以测量其替代指标

33

本图由 sem 程序包中的函数pathDiagram() 绘制,程序包sem 的主要函数是: sem(), pathDiagram()

下页给出R代码的例子,与lavaan类似,需要先指定模型,再用sem()函数分析,画图用 pathDiagram()

Page 34: 第十讲结构方程模型 - USTCstaff.ustc.edu.cn/~ynyang/matrix/MA10.pdf第十讲结构方程模型 1 x 1 x 2 f 1 2020.11.25. y. 1. x. 3. 2. y. f. 2 但可以测量其替代指标

34

> library(sem)> mod <- c( "ind60 -> GNP60, L1, NA", #表示GNP60= L1*ind60+error

“ind60 -> Energy60, L2, NA”, #NA位置可以设置参数初值,不设为NA“ind60 -> Labor60, L3, NA”, "dem60 -> Press60, a1, NA","dem60 -> Oppo60, a2, NA",

"dem60 -> Elect60, a3, NA",“dem60 -> Legis60, a4, NA”, "dem65 -> Press65, b1, NA","dem65 -> Oppo65, b2, NA",

"dem65 -> Elect65, b3, NA","dem65 -> Legis65, b4, NA",

"ind60 ->dem60,alpha,NA","dem60 ->dem65,beta,NA”,"ind60 ->dem65,gamma,NA",

"ind60 <-> ind60 , NA, 1", #表示factor的方差已知,为1"dem60 <-> dem60, NA, 1","dem65 <-> dem65, NA, 1" ,"Press60 <->Press60 , psi1, NA", "Oppo60 <-> Oppo60 , psi2, NA", "Elect60 <-> Elect60 , psi3, NA", "Legis60 <-> Legis60 , psi4, NA",

"Press65 <->Press65 , psi5, NA", "Oppo65 <-> Oppo65 , psi6, NA", "Elect65 <-> Elect65 , psi7, NA", "Legis65 <-> Legis65 , psi8, NA", "GNP60<->GNP60,psi9,NA","Energy60<->Energy60,psi10,NA",

“Labor60<->Labor60,psi11,NA” )

> mymodel =specifyModel(text=mod)> mysem <- sem(model=mymodel, S=R, N=75)

#R 是相关系数矩阵或协方差矩阵,样本量N>pathDiagram(mysem,ignore.double=FALSE,edge.labels="values",rank.direction="TB")

绘制路径图

Page 35: 第十讲结构方程模型 - USTCstaff.ustc.edu.cn/~ynyang/matrix/MA10.pdf第十讲结构方程模型 1 x 1 x 2 f 1 2020.11.25. y. 1. x. 3. 2. y. f. 2 但可以测量其替代指标

35

1f 2f

x y

++=+=+=

δfffεfyεfx

122

222

111

BA

LL

1L 2L

B

2211

1

)var(,)var()var( ;)var(

Θ=Θ=Φ=Ψ=

εεfδ

: ,,

).,,(

//

21

211

21

1

11

SEM

mk

pq

即的因果关系与我们需要研究潜变量确的

或不正的因果关系是不恰当的和直接研究并不是真正的因和果,和观察数据中

的测量的替代指标,或带误差称为是有时的某种测量或外在展示和

量果),它们分别是潜变因和响应变量(分别相当于自变量和假设有显变量

ffyxyx

ffyxff

yx

××

××

1Θ 2Θ

A

Φ Ψ

一般的结构方程模型(SEM/LISREL)

虑其方差。无弯曲双箭头,即不考单向箭头指向的变量)内生变量

头表示方差,外生变量附有弯曲双箭

(

Page 36: 第十讲结构方程模型 - USTCstaff.ustc.edu.cn/~ynyang/matrix/MA10.pdf第十讲结构方程模型 1 x 1 x 2 f 1 2020.11.25. y. 1. x. 3. 2. y. f. 2 但可以测量其替代指标

36

独立;与独立与独立;

可逆。,对角元为单箭头关系的某些分量之间有因果第一项表示

有影响对右边第二项表示中其中关于潜变量的模型

模型具体形式和假设

121

211

2

21121

122

21

221

11

111

; ,,0)(,)var(,0)( ;)var(,0)( ;)var(,0)(

0,/,,

:)ationshipsRel tructuralSnear Li(SEM/LISREL

fδfεδεεfffδδεε

fffδfff

δfff

εfy

εfx

ii

iii

kkmm

mmpp

kkqq

EEEEAIA

BA

BA

L

L

=Φ==Ψ==Θ==−

++=

++=

+=

+=

××

×××

×××

))((tr))((logdet

))(,0(~

1−Σ+Σ

Σ

θθ

yx

θyx

S

S

N

小化数矩阵,极大似然法极的协方差矩阵或相关系为

变量从多元正态分布,则显假设各个误差和因子服

Page 37: 第十讲结构方程模型 - USTCstaff.ustc.edu.cn/~ynyang/matrix/MA10.pdf第十讲结构方程模型 1 x 1 x 2 f 1 2020.11.25. y. 1. x. 3. 2. y. f. 2 但可以测量其替代指标

37

的路径图下图为因子例 TT ),(,),,(.5 2122211 ηηξξξ == ff

的关系方程为TT ),(,),,( 2122211 ηηξξξ == ff

==Ψ

2

1

00

)var(Ψ

Ψζ

==Φ

11

1)var( 2

31

φφφ

ξ