方差分析与回归分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第八章方差分析与回归分析

§1单因素试验的方差分析

试验指标:研究对象的某种特征。 例各人的收入。

因素:与试验指标相关的条件。

例各人的学历,专业,工作经历等与工资有关的特征。

因素水平:因素所在的状态

例学历是因素,而高中,大学,研究生等,就是学历因素水平;数学,物理等就是专业的水平。

问题:各因素水平对试验指标有无显着的差异? 单因素试验方差分析模型 假设

1)影响试验指标的因素只有一个,为A ,其水平有r 个:1,,r A A L ; 2)每个水平i A 下,试验指标是一个总体i X 。各个总体的抽样过程是独立的。 3)2~(,)i i i X N μσ,且22i j σσ=。

问题:分析水平对指标的影响是否相同

1)对每个总体抽样得到样本{,1}ij i X j n ≤≤,由其检验假设: 原假设0:i j H μμ=,,i j ∀;备选假设:1:i j H μμ≠,,i j ∃; 2)如果拒绝原假设,则对未知参数21,,,r μμσL 进行参数估计。 注

1)接受假设即认为:各个水平之间没有显着差异,反之则有显着差异。 2)在水平只有两个时,问题就是双正态总体的均值假设检验问题和参数估计问题。

检验方法

数据结构式:ij i ij i ij X μεμδε=+=++,偏差2~(0,)ij N εσ是相互独立的,

11r

i i i n n μμ==∑。不难验证,1

0r

i k δ==∑。

各类样本均值

水平i A 的样本均值:1

1i

n i ij

j i

X X

n ==

∑g ;

水平总样本均值:11111i n r r

ij i i i j i X X n X n n =====∑∑∑,1

r

i i n n ==∑;

偏差平方和与效应 组间偏差平方和:

2

221

1

()r

r

A i i i i i i S n X X n X nX ===-=-∑∑g g ;(衡量由不同水平产生的差异)

组内偏差平方和:

2

2

211

1

1

()()i

i

n n r

r

E ij i ij i i i j i j S X X X n X =====-=-∑∑∑∑g g ;(衡量由随机因素在同一水平上产生

的差异) 总偏差平方和:

2

2211

1

()i

n r

r

T ij i ij i j i S X X n X nX ====-=-∑∑∑;(综合衡量因素,水平之间,随机因素的

差异)

定理1(总偏差平方和分解定理)T A E S S S =+。

即2

2

211

11

11

()()()i

i

i

n n n r

r

r

ij ij i i i j i j i j X X X X X X ======-=-+-∑∑∑∑∑∑g g ,或直接证明。

注:利用11

()()0i

n r ij i i i j X X X X ==--=∑∑即可证明。

定理2(统计特性)

2

()E ES n r σ=-,2

2

1(1)r

A i i

i ES r n σδ==-+∑,2

21

(1)r

T i i i ES n n σδ==-+∑。

证2222221

1

1

1

()(())i i

n n r r E ij

i i i i i i j i j ES EX n EX n σμσμ=====-=+--∑∑∑∑g

定理3

1)22/~()E S n r σχ-,且E S 与A S 独立;

2)如果假设0H 成立,那么,22/~(1)T S n σχ-;且如果假设i n m =,1i r ≤≤,则还有,22/~(1)A S r σχ-。

证1)由于不同水平的样本间的独立性,E S 较易处理。对固定的i , 2~(,)ij i i X N μσ,1,,i j n =L ,且独立,所以由第五章定理2的结论,

2

2

2

11()~(1)i

i

n n ij i ij i i i i j j X X X X n μμχσσ==⎛⎫⎛⎫----=- ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭∑∑g g , 利用2

χ可加性,即得22

21

/~()()r

E i i S n r n r σχχ=-=-∑,且i X g 与E S 独立。

注意到1

1r

i i i X n X n ==∑g ,因此X 也与E S 独立,从而A S 也与E S 独立。

注这里只需方差假设相同,不需要假设均值相同。 2)

~(0,1)ij i

X N μσ

-,且独立,同样利用第五章定理2,

22,,1(

)~(1)ij i

i j i i j

i j X X n n μμχσσ

'''''----∑∑。 但在假设成立时,222,,,11(

)()ij i

i j i ij i j

i j i j

X X X X n μμσ

σσ'''''---=-∑∑∑,即得结论。且X 与T S 独立。

同时,2

22

1()()/~(1)r

i A i X X S r μμσχσ=⎛⎫---=- ⎪⎝⎭

∑g 。

注此处结论证明利用了i n 都相等,即利用:1,11

r k ij k i j

X X r n ==∑∑g 。但上述结论在组

样本容量不同时,直接利用正交变换仍可类似证明。 从统计角度看,如果假设0H 成立,那么

2111

E A ES ES n r r σ==--,而在假设不成立时,2

1

111111r A E i i E

i ES ES n ES r n r r n r δ==+>----∑,即统计量/(1)/()A E S r F S n r -=-将有偏大的趋势。那么,大到何值可以采信为推翻假设的反例,就回到前面的假设检验问题了。

定理置信度为α时,假设0H 的检验问题的拒绝域为{(1,)}W F F r n r α=≥--。 参数估计问题

如果各因素有显着差异,即对某些水平i j μμ≠,那么就需要估计这些参数的值和2σ。

1.最大似然估计

总体2~(,)i i X N μσ

22

()2i x μσ--

,所以最大似然函数为

2

2

()221,(,,,)ij i x r i j

L μσμμσ--=L ,

一般,我们把i μ分成两部分:i i μμδ=+,其中1

i i

r μμ=∑。 所以i δ即表示了各水平的差异,有0i i i

n δ=∑。

由此最大似然函数可表示为,

2

2

()221,(,,,,)ij i x r i j

L μδσμδδσ---

=L 。

相关文档
最新文档