单因素试验的方差分析——概率论与数理统计(李长青版)

合集下载

《数理统计》第9章§1单因素试验的方差分析

《数理统计》第9章§1单因素试验的方差分析

S A nj n 118515 114720.5 3794.5 j 1
S E ST - S A 3972.5 3794.5 178方差分析及回归分析 第九章
§1 单因素试验的方差分析
14/14
2
第九章 方差分析及回归分析
第九章 方差分析及回归分析
§1 单因素试验的方差分析 记
n nj
j 1 s
7/14
样本总容量 总均值 第 j 组样本均值
1
s
s j
1
s
1 Xj n j
j 1 nj
X ij i 1
s nj nj
Xn
1
X ij s X j j 1 j 1i 1 ( X ij X j )2 i 1
只有当 H 0 : 1 2 s成立时,统计量
S A SA s 1 S A ~ 2 ( s 1) ;当 才是 2的无偏估计,且 H 0 不真时, S A有 2
偏大于 2的趋势 SE , S A相互独立 对于给定的显著性水平 , H 0的拒绝域是
SA S A /( s 1) F ( s 1, n s) S E /(n s ) SE
90 56 55 92 75 88 62 48 99 72 87 95 81 94 91 252 359 118 103 377 228 ( 0.01) 21194 32249 ( 6980 5329 35571 17370 j) 2 X 59~ N51.5 ( j , ) ( j76 1, 2, , 6) 84 89.75 94.25
j 1
S j2 nj 1 1
X j 是 j的无偏估计 S j2 是 2的无偏估计

概率论与数理统计第九章方差分析与回归分析

概率论与数理统计第九章方差分析与回归分析

版权所有 BY 张学毅
2019/7/25
21
【例9.2】 某市消费者协会为了评价该地旅游业、居民服务业、
公路客运业和保险业的服务质量,从这4个行业中分别抽取了不 同数量的企业。经统计,最近一年消费者对这23家企业投诉的 次数资料如下表所示。这4个行业之间服务质量是否有显著差异? 如果有,究竟是在哪些行业之间?
2
二、单因素方差分析的数据结构

2019/7/25
版权所有 BY 统计学课程组
3
因素A 水平A1 水平A2…水平As
1 2 :
2019/7/25
版权所有 BY 张学毅
4
表中: X i j 为第 i个水平的第j个观测值。 记第j个水平观测值的均值为X .j ,则有
nj
X ij
X .j

2019/7/25
版权所有 BY 张学毅
31
【例9.4】 某种火箭使用了四种燃料,三种推进 器做试验。每种燃料和每种推进器的组合各做一 次试验,得火箭射程数据如下表所示。试问不同 的燃料、不同的推进器分别对火箭射程有无显著 影响?
2019/7/25
版权所有 BY 张学毅
32
列方差分析表:
2019/7/25
版权所有 BY 张学毅
19
从未采 1年前采 8年前采
伐过
伐过
伐过
27
12
18
22
12
4
29
15
22
21
9
15
19
20
18
33
18
19
16
17
22
20
14
12
24
14

第4.3节 协方差与相关系数——概率论与数理统计(李长青版)讲解

第4.3节 协方差与相关系数——概率论与数理统计(李长青版)讲解

XY 0
X ,Y 相互独立
X , Y 不相关
cov( X ,Y ) 0
E(XY ) EX EY D(X Y) DX DY
X , Y 不相关
当 XY 1 时,X 与 Y 之间以概率1存在线性关系; XY 越接近于0时, X 与 Y 之间的线性关系越弱;
当 XY 0 时,X 与 Y 之间不存在线性关系(不相关).
EY EX 7, EY 2 EX 2 5 .
6
3
cov(X ,Y ) E(XY ) EX EY 4 49 1 , 3 36 36
DY DX EX 2 (EX )2 5 (7)2 11, 3 6 36
D(X Y ) DX DY 2cov(X ,Y ) 5, 9

0 08
6
EX 2 x2 f (x, y)dxdy 2 2 x2 (x y)dxdy 5,

0 08
3

2 2 xy
4
E(XY)
xyf (x, y)dxdy
(x y)dxdy .

0 08
3
由x,y 在f (x,y)的表达式中的对称性, 可知
时, 等式成立.
协方差的数值虽然在一定程度上反映了X和Y 相互间的联系, 但其值还受X和Y本身取值大小的 影响, 比如X和Y同时增大到k倍, 即X1= kX, Y1= kY, 这时X1和Y1间的相互联系与X和Y间的相互联系是 相同的, 然而协方差却增大到了k2倍, 即
cov(X1 ,Y1) k 2 cov(X,Y ).
33 8
88
E(XY )
xi yi pij

概率论与数理统计第九章方差分析与回归分析

概率论与数理统计第九章方差分析与回归分析

七、 SA,SE 的统计特征P228
根据概率论与数理统计学知识 : 1) MSE 是总体方差 2 的无偏估计量,且与原假设成
立与否无关。
即 E MSE 2
2) MSA 是否是总体方差 2的无偏估计量,与原假设
成立与否有关 。当且仅当原假设成立时,MSA才是
总体方差 2 的无偏估计量。
1/11/2020
版权所有 BY 张学毅
33
1/11/2020
版权所有 BY 张学毅
34
1/11/2020
版权所有 BY 张学毅
35
二、有交互作用的双因素方差分析

所谓交互作用,简单来说就是不同因素对
试验指标的复合作用,因素A和B的综合效应
不是二因素效应的简单相加。为了能分辨出两
个因素的交互作用,一般每组试验至少作两次。
1/11/2020
版权所有 BY 张学毅
36
有交互作用的双因素方差分析数据结构
1/11/2020
版权所有 BY 张学毅
37
2.建立假设
1/11/2020
版权所有 BY 张学毅
38
这就是有交互作用的双因素方差分析的数学模 型。
版权所有 BY 张学毅
1/11/2020
21
【例9.2】 某市消费者协会为了评价该地旅游业、居民服务
业、公路客运业和保险业的服务质量,从这4个行业中分别抽取 了不同数量的企业。经统计,最近一年消费者对这23家企业投 诉的次数资料如下表所示。这4个行业之间服务质量是否有显著 差异?如果有,究竟是在哪些行业之间?
1/11/2020
版权所有BY 张学毅
22
解(1) 建立假设

第9.1节 单因素试验的方差分析——概率论与数理统计(李长青版)

第9.1节 单因素试验的方差分析——概率论与数理统计(李长青版)

ES A ( s 1) 2 n j 2 j
j 1
s
由此得
Se 2 E , ns
1 s SA 2 2 E n j j s 1 s 1 j 1
在 H0 为真时, 即 1 2 s 0 时, 有
S A ( s 1) 将 从而在 H0 不真时, 比值 S ( n s ) 有偏大的趋势, 其 e
S A ( s 1) . 记为 F, 即 F Se (n s )
则 F 可以作为检验 H0 的统
计量. 将 Se 写成如下分项相加的形式
Se ( xi1 x1 ) 2 ( xi 2 x2 ) 2 ( xis xs ) 2
的 影响.
种子品种代 号 (水平) 重复试验序号及作物实测产量
1 128 125 148 2 126 137 132 3 139 125 139 4 130 117 125 5 142 106 151 133 122 139
A1 A2
A3
这里试验的指标是作物产量, 作物是因素, 三种种 子品种代表三个不同的水平. 首先,形成数据差异的直接原因是种子的不同品 种.因此, 每个品种下产量的均值差异检验是我们的主 要任务.这种由因素(种子品种)造成的差异称为条件(系
s nj
从而有
Se ( ij j ) ,
2 j 1 i 1
s
nj
S A n j ( j j ) 2
j 1
s
由此知, Se 反映了误差的波动, 称其为误差的偏差 平方和(或称为组内平方和), 它集中反映了试验中与因 素及其水平无关的全部随机误差. 在 H0 为真时, SA 反 映误差的波动, 在 H0 不真时, SA 反映因子A 的不同水

概率论难与数理统计(91 单因素试验的方差分析)

概率论难与数理统计(91 单因素试验的方差分析)
《概率论与数理统计》
*****大学理学院数学系
伯努利(Bernoulli) 柯尔莫哥洛夫(Kolmogorov)
2020年4月14日星期二
1
目录
上页
下页
返回
第九章 方差分析与回归分析
§9.1 单因素试验的方差分析 §9.2 双因素试验的方差分析 §9.3 一元线性回归 §9.4 多元线性回归
2020年4月14日星期二
13
目录
上页
下页
返回
二、平方和的分解
ST 分解成
其中
ST SE SA ,
s nj
SE
( Xij X gj )2 ,
j1 i1
s nj
s
s
SA
(Xgj X )2
nj (Xgj X )2 Leabharlann nj X2 gjnX
2
j1 i1
j 1
j 1
SE 为组内平方和或误差平方和(error sum of squares)
A1
A2

As
X 11
X 12

X 1s
X 21
X 22

X 2s
M
M
M
X n11
X n2 2

X nss
样本总和
Tg1
Tg2

Tg s
样本均值
X g1
X g2

X gs
总体均值
1
2

s
2020年4月14日星期二
8
目录
上页
下页
返回
二、平方和的分解
从例 1 中可以看出,同一种饲料喂养的小鸡体重的 增加存在着差异,这种差异看作试验过程中各种随机因 素的干扰和测量误差造成的,这部分差异称为试验误差 (test error),它反映了因素同一水平下的差异.而不 同饲料喂养的小鸡体重的增量也不同,引起这部分差异 的原因除了试验误差之外,更主要的原因是饲料的配方 不同,这部分差异称为系统误差(system error),它主 要反映了不同水平的影响.

概率论与数理统计李长青版答案第一

概率论与数理统计李长青版答案第一

概率论与数理统计李长青版答案第一p(a)=a所含样本点数/总体所含样本点数。

实用中经常采用“排列组合”的方法计算。

用数理统计方法去解决一个实际问题时,一般有如下几个公式:p(a)\ue0,p(b|a)=p(ab)/p(a) 、p(ab)=p(a)×p(b|a)=p(b)×p(a|b) 、p(a∪b)=p(a)+p(b)-p(ab)。

p(a)=a所含样本点数/总体所含样本点数。

实用中经常采用“排列组合”的方法计算·条件概率当p(a)\ue0,p(b|a)=p(ab)/p(a)乘法公式p(ab)=p(a)×p(b|a)=p(b)×p(a|b)计算方法“排列组合”的方法计算记法p(a)=a乘法法则p(a∪b)=p(a)+p(b)-p(ab)用数理统计方法回去化解一个实际问题时,通常存有如下几个步骤:创建数学模型,收集整理数据,展开统计数据推测、预测和决策。

这些环节无法截然分离,也不一定按上述次序,有时就是互相交叠的。

①模型的选择和建立。

在数理统计学中,模型是指关于所研究总体的某种假定,一般是给总体分布规定一定的类型。

建立模型要依据概率的知识、所研究问题的专业知识、以往的经验以及从总体中抽取的样本(数据)。

②数据的搜集。

存有全面观测、样本观测和精心安排特定的实验3种方式。

全面观测又称普查,即为对总体中每个个体都予以观测,测量所须要的指标。

样本观测又称抽检,就是所指从总体中提取一部分,测量其有关的指标值。

这方面的研究内容形成数理统计的一个分支学科。

叫做抽样调查。

③安排特定实验以收集数据,这些特定的实验要有代表性,并使所得数据便于进行分析。

这里面所包含的数学问题,构成数理统计学的又一分支学科,即实验设计的内容。

④数据整理。

目的就是把涵盖在数据中的有价值信息提取出。

一种形式就是制订适度的图表,例如图表,以充分反映暗含在数据中的粗略的规律性或通常趋势。

另一种形式就是排序若干数字特征,以刻画样本某些方面的性质,例如样本均值、样本方差等直观描述性统计数据量。

概率论与数理统计第九章 方差分析

概率论与数理统计第九章 方差分析

第九章方差分析在生产过程和科学实验中,我们经常遇到这样的问题:影响产品产量、质量的因素很多.例如,在化工生产中,影响结果的因素有:配方、设备、温度、压力、催化剂、操作人员等.我们需要通过观察或试验来判断哪些因素对产品的产量、质量有显著的影响.方差分析(Analysis of variance)就是用来解决这类问题的一种有效方法.它是在20世纪20年代由英国统计学家费舍尔首先使用到农业试验上去的.后来发现这种方法的应用范围十分广阔,可以成功地应用在试验工作的很多方面.第一节单因素试验的方差分析在试验中,我们将要考察的指标称为试验指标,影响试验指标的条件称为因素.因素可分为两类,一类是人们可以控制的;一类是人们不能控制的.例如,原料成分、反应温度、溶液浓度等是可以控制的,而测量误差、气象条件等一般是难以控制的.以下我们所说的因素都是可控因素,因素所处的状态称为该因素的水平.如果在一项试验中只有一个因素在改变,这样的试验称为单因素试验,如果多于一个因素在改变,就称为多因素试验.本节通过实例来讨论单因素试验.1.数学模型例9.1某试验室对钢锭模进行选材试验.其方法是将试件加热到700℃后,投入到20℃的水中急冷,这样反复进行到试件断裂为止,试验次数越多,试件质量越好.试验结果如表9-1.表9-1试验的目的是确定4种生铁试件的抗热疲劳性能是否有显著差异.这里,试验的指标是钢锭模的热疲劳值,钢锭模的材质是因素,4种不同的材质表示钢锭模的4个水平,这项试验叫做4水平单因素试验.例9.2考察一种人造纤维在不同温度的水中浸泡后的缩水率,在40℃,50℃, (90)的水中分别进行4次试验.得到该种纤维在每次试验中的缩水率如表92.试问浸泡水的温度对缩水率有无显著的影响?表9-2 (%)单因素试验的一般数学模型为:因素A 有s 个水平A 1,A 2,…,A s ,在水平A j (j =1,2,…,s )下进行n j (n j ≥2)次独立试验,得到如表9-3的结果:表9-3x 11 x 12 … x 1s x 21 x 22 … x 2s … … … … 11n x 22n x … s n s xT ·1 T ·2 … T ·s1x • 2x • … s x •μ1 μ2 … μs假定:各水平A j (j =1,2,…,s )下的样本x ij ~N (j ,),i =1,2,…,n j ,j =1,2,…,s ,且相互独立. 故x ij -μj 可看成随机误差,它们是试验中无法控制的各种因素所引起的,记x ij -μj =εij ,则⎪⎩⎪⎨⎧==+=.,),0(~,,,2,1;,,2,1,2相互独立各ij ij j ij j ij N s j n i x εσεεμ (9.1) 其中μj 与σ2均为未知参数.(9.1)式称为单因素试验方差分析的数学模型.方差分析的任务是对于模型(9.1),检验s 个总体N (μ1,σ2),…,N (μs ,σ2)的均值是否相等, 即检验假设012112:;:,,,s s H H μμμσσσ===⎧⎨⎩不全相等. (9.2) 为将问题(9.2)写成便于讨论的形式,采用记号μ=11sj j j n n μ=∑,其中n =1sjj n=∑,μ表示μ1,μ2,…,μs 的加权平均,μ称为总平均.δj =μj -μ, j =1,2,…,s ,δj 表示水平Aj 下的总体平均值与总平均的差异.习惯上将δj 称为水平A j 的效应.利用这些记号,模型(9.1)可改写成:x ij =μ+δj +εij ,x ij 可分解成总平均、水平A j 的效应及随机误差三部分之和120,~(0,),.1,2,,;1,2,,.sj j j ijij j n N i n j s δεσε=⎧=⎪⎨⎪==⎩∑各相互独立 (9.1)′假设(9.2)等价于假设012112:0;:,,,s s H H δδδδδδ====⎧⎨⎩不全零.(9.2)′ 2.平方和分解我们寻找适当的统计量,对参数作假设检验.下面从平方和的分解着手,导出假设检验(9.2)′的检验统计量.记S T =211()jn sijj i xx ==-∑∑, (9.3)这里111jns ij j i x x n ===∑∑,S T 能反应全部试验数据之间的差异.又称为总变差.A j 下的样本均值 11jn j iji jx xn •==∑. (9.4)注意到2222()()()()2()()ij ij j j ij j j ij j j x x x x x x x x x x x x x x ••••••-=-+-=-+-+--,而 1111()()()()jj n n ssij j j j ij j j i j i x x x x x x x x ••••====⎡⎤--=--⎢⎥⎣⎦∑∑∑∑=11()0.j n sj ij j j j i x x x n x ••==⎛⎫--= ⎪ ⎪⎝⎭∑∑记 S E =211()jn sijj j i xx •==-∑∑, (9.5)S E 称为误差平方和;记 S A =22111()()jn ssjj j j i j xx n x x ••===-=-∑∑∑, (9.6)S A 称为因素A 的效应平方和.于是S T =S E +S A . (9.7)利用εij 可更清楚地看到S E ,S A 的含义,记111jns ij j i n εε===∑∑为随机误差的总平均,11jn j iji jn εε•==∑, j =1,2,…,s .于是S E =221111()()jjn n ssijj ij j j i j i xx εε••====-=-∑∑∑∑; (9.8)S A =2211()()ssj jj j j j j n xx n δεε••==-=+-∑∑. (9.9)平方和的分解公式(9.7)说明.总平方和分解成误差平方和与因素A 的效应平方和.(9.8)式说明S E 完全是由随机波动引起的.而(9.9)式说明S A 除随机误差外还含有各水平的效应δj ,当δj 不全为零时,S A 主要反映了这些效应的差异.若H 0成立,各水平的效应为零,S A 中也只含随机误差,因而S A 与S E 相比较相对于某一显著性水平来说不应太大.方差分析的目的是研究S A 相对于S E 有多大,若S A 比S E 显著地大,这表明各水平对指标的影响有显著差异.故需研究与S A /S E 有关的统计量.3.假设检验问题当H 0成立时,设x ij ~N (μ,σ2)(i =1,2,…,n j ;j =1,2,…,s )且相互独立,利用抽样分布的有关定理,我们有22~(1)AS s χσ-, (9.10) 22~()ES n s χσ-, (9.11)F =()(1)AEn s S s S -- ~F (s -1,n -s ). (9.12)于是,对于给定的显著性水平α(0<α<1),由于P {F ≥F α(s -1,n -s )}=α, (9.13)由此得检验问题(9.2)′的拒绝域为F ≥F α(s -1,n -s ).(9.14)由样本值计算F 的值,若F ≥F α,则拒绝H 0,即认为水平的改变对指标有显著性的影响;若F <F α,则接受原假设H 0,即认为水平的改变对指标无显著影响. 上面的分析结果可排成表9-4的形式,称为方差分析表.当F ≥F 0.05(s -1,n -s )时,称为显著, 当F ≥F 0.01(s -1,n -s )时,称为高度显著.在实际中,我们可以按以下较简便的公式来计算S T ,S A 和S E .记T ·j =1jn iji x=∑, j =1,2,…,s ,T ··=11jn sijj i x==∑∑,即有22221111222211,,.j jn n s s T ij ij j i j i s s j A j j j j j E T AT S x nx x n T T S n x nx n n S S S ••====••••==⎧=-=-⎪⎪⎪⎪=-=-⎨⎪⎪=-⎪⎪⎩∑∑∑∑∑∑ (9.15) 例9.3 如上所述,在例9.1中需检验假设H 0:μ1=μ2=μ3=μ4;H 1:μ1,μ2,μ3,μ4不全相等.给定α=0.05,完成这一假设检验.解 s =4,n 1=7,n 2=5,n 3=8,n 4=6,n =26.S T =22211(4257)69895926jn sij j i T x n ••==-=-∑∑=1957.12, S A =2221(4257)697445.4926sj j j T T n n •••=-=-∑=443.61, S E =S T -S A =1513.51.得方差分析表9-5.表9-5因 F (3,22)=2.15<F 0.05(3,22)=3.05. 则接受H 0,即认为4种生铁试样的热疲劳性无显著差异.例9.4 如上所述,在例9.2中需检验假设H 0:μ1=μ2=…=μ6; H 1:μ1,μ2,…,μ6不全相等.试取α=0.05,α=0.01,完成这一假设检验.解 s =6, n 1=n 2=…=n 6=4,n =24.S T =2211jn sij j i T x n ••==-∑∑=112.27,S A =221sj j j T T n n•••=-∑=56,S E=S T-S A=56.27.得方差分析表9-6.0.050.01由于 4.25=F0.01(5,18)>F A=3.583>F0.05(5,18)=2.77,故浸泡水的温度对缩水率有显著影响,但不能说有高度显著的影响.本节的方差分析是在这两项假设下,检验各个正态总体均值是否相等.一是正态性假设,假定数据服从正态分布;二是等方差性假设,假定各正态总体方差相等.由大数定律及中心极限定理,以及多年来的方差分析应用,知正态性和等方差性这两项假设是合理的.第二节双因素试验的方差分析进行某一项试验,当影响指标的因素不是一个而是多个时,要分析各因素的作用是否显著,就要用到多因素的方差分析.本节就两个因素的方差分析作一简介.当有两个因素时,除每个因素的影响之外,还有这两个因素的搭配问题.如表9-7中的两组试验结果,都有两个因素A和B,每个因素取两个水平.表9-7(b)表9-7(a)中,无论B在什么水平(B1还是B2),水平A2下的结果总比A1下的高20;同样地,无论A是什么水平,B2下的结果总比B1下的高40.这说明A和B单独地各自影响结果,互相之间没有作用.表9-7(b)中,当B为B1时,A2下的结果比A1的高,而且当B为B2时,A1下的结果比A2的高;类似地,当A为A1时,B2下的结果比B1的高70,而A为A2时,B2下的结果比B1的高30.这表明A的作用与B所取的水平有关,而B的作用也与A所取的水平有关.即A 和B不仅各自对结果有影响,而且它们的搭配方式也有影响.我们把这种影响称作因素A和B的交互作用,记作A×B.在双因素试验的方差分析中,我们不仅要检验水平A和B的作用,还要检验它们的交互作用.1.双因素等重复试验的方差分析设有两个因素A,B作用于试验的指标,因素A有r个水平A1,A2,…,Ar,因素B有s个水平B1,B2,…,B s,现对因素A,B的水平的每对组合(A i,B j),i=1,2,…,r;j=1,2,…,s都作t(t≥2)次试验(称为等重复试验),得到如表9-8的结果:表9-8设x ijk ~N (ij ,), i =1,2,…,r ; j =1,2,…,s ; k =1,2,…,t ,各x ijk 独立.这里ij ,均为未知参数.或写为⎪⎩⎪⎨⎧===+=.,,,2,1),,0(~,,,2,1;,,2,1,2相互独立各ijkijk ijk ij ijk t k N s j r j x εσεεμ (9.16) 记μ=111,r s ij i j rs μ==∑∑, 11si ij j s μμ•==∑, i =1,2,…,r ,11rj ij i r μμ•==∑, j =1,2,…,s ,,i i αμμ•=-, i =1,2,…,r , j j βμμ•=-, j =1,2,…,s ,ij ij i j γμμμμ••=--+.于是 μij =μ+αi +βj +γij . (9.17)称μ为总平均,αi 为水平A i 的效应,βj 为水平B j 的效应,γij 为水平A i 和水平B j 的交互效应,这是由A i ,B j 搭配起来联合作用而引起的.易知1rii α=∑=0,1sjj β=∑=0,1riji γ=∑=0, j =1,2,…,s ,1sijj γ=∑=0, i =1,2,…,r ,这样(9.16)式可写成⎪⎪⎪⎩⎪⎪⎪⎨⎧=======++++=∑∑∑∑====.,,,2,1;,,2,1;,,2,1),,0(~,0,0,0,0,21111相互独立各ijkijk s j ij r i ij s j j r i i ijk ij j i ijk t k s j r i N x εσεγγβαεγβαμ (9.18) 其中μ,αi ,βj ,γij 及σ2都为未知参数.(9.18)式就是我们所要研究的双因素试验方差分析的数学模型.我们要检验因素A ,B 及交互作用A ×B 是否显著.要检验以下3个假设:⎩⎨⎧=====.,,:,0:21112101不全为零r r H H αααααα ⎩⎨⎧=====.,,:,0:21122102不全为零s s H H ββββββ ⎩⎨⎧=====.,,:,0:121113121103不全为零rs rs H H γγγγγγ 类似于单因素情况,对这些问题的检验方法也是建立在平方和分解上的.记1111r s tijk i j k x x rst ====∑∑∑, 11tij ijk k x x t •==∑, i =1,2,…,r ; j =1,2,…,s ,111s ti ijk j k x x st ••===∑∑, i =1,2,…,r , 111r tj ijk i k x x rt ••===∑∑, j =1,2,…,s , S T =2111()rstijk i j k x x ===-∑∑∑. 不难验证,,,i j ij x x x x •••••分别是μ,μi ·,μ·j ,μij 的无偏估计.由 ()()()()ijk ijk ij i j ij i j x x x x x x x x x x x x ••••••••••-=-+-+-+--+,1≤i ≤r ,1≤j ≤s ,1≤k ≤t得平方和的分解式:S T =S E +S A +S B +S A ×B , (9.19)其中S E =2111()rstijkij i j k xx •===-∑∑∑,S A =1()2ri i stxx ••=-∑,S B =21()sj j rtxx ••=-∑,S A ×B =211()rsij i j i j txx x x •••••==--+∑∑.S E 称为误差平方和,S A ,S B 分别称为因素A ,B 的效应平方和,SA ×B 称为A ,B 交互效应平方和.当H 01:α1=α2=…=αr =0为真时,F A =[](1)(1)A ES S r rs t -- ~F (r -1,rs (t -1));当假设H 02为真时,F B =[](1)(1)BES S s rs t --~F (s -1,rs (t -1));当假设H 03为真时,F A ×B =[](1)(1)(1)A BES S r s rs t ⨯--- ~F ((r -1)(s -1),rs (t -1)).当给定显著性水平α后,假设H 01,H 02,H 03的拒绝域分别为:(1,(1));(1,(1));(1)(1),(1)).A B A BF F r rs t F F s rs t F F r s rs t ααα⨯≥--⎧⎪≥--⎨⎪≥---⎩ (9.20) 经过上面的分析和计算,可得出双因素试验的方差分析表9-9.在实际中,与单因素方差分析类似可按以下较简便的公式来计算S T ,S A ,S B ,S A ×B ,S E . 记 T ···=111r s tijki j k x===∑∑∑,T ij ·=1tijkk x=∑, i =1,2,…,r ; j =1,2,…,s ,T i ··=11stijkj k x==∑∑, i =1,2,…,r ,T ·j ·=11r tijki k x==∑∑, j =1,2,…,s ,即有221112212212211,1,1,1,.r s tT ijk i j k r A i i s B j j r s A B ij A B i j E T A B A B T S x rst T S T st rst T S T rt rst T S T S S t rst S S S S S •••===•••••=•••••=•••⨯•==⨯⎧=-⎪⎪⎪=-⎪⎪⎪⎨=-⎪⎪⎪=---⎪⎪⎪=---⎩∑∑∑∑∑∑∑ (9.21) 例9.5 用不同的生产方法(不同的硫化时间和不同的加速剂)制造的硬橡胶的抗牵拉强度(以kg ·cm -2为单位)的观察数据如表9-10所示.试在显著水平0.10下分析不同的硫化时间(A ),加速剂(B )以及它们的交互作用(A ×B )对抗牵拉强度有无显著影响.表9-10010203r =s =3, t =2, T ···,T ij ·,T i ··,T ·j ·的计算如表9-11.表9-11S T =22111,r s tijki j k T xrst•••===-∑∑∑=178.44, S A =2211r i i T T st rst•••••=-∑=15.44,S B =2211s j j T T rt rst •••••=-∑=30.11,S A ×B =22111r s ij A B i j T T S S t rst••••==---∑∑ =2.89,S E =S T -S A -S B -S A ×B =130,得方差分析表9-12.由于F 0.10(2,9)=3.01>F A ,F 0.10(2,9)>F B ,F 0.10(4,9)=2.69>F A ×B ,因而接受假设H 01,H 02,H 03,即硫化时间、加速剂以及它们的交互作用对硬橡胶的抗牵拉强度的影响不显著.2.双因素无重复试验的方差分析在双因素试验中,如果对每一对水平的组合(A i ,B j )只做一次试验,即不重复试验,所得结果如表9-13.这时ij x •=x ijk ,S E =0,S E 的自由度为0,故不能利用双因素等重复试验中的公式进行方差分析.但是,如果我们认为A ,B 两因素无交互作用,或已知交互作用对试验指标影响很小,则可将S A ×B 取作S E ,仍可利用等重复的双因素试验对因素A ,B 进行方差分析.对这种情况下的数学模型及统计分析表示如下:由(9.18)式,112,0,0,~(0,),1,2,,;1,2,,,.ij i j ij r si j i j ij ijk x N i r j s μαβεαβεσε===+++⎧⎪⎪==⎪⎨⎪==⎪⎪⎩∑∑各相互独立 (9.22)要检验的假设有以下两个:⎩⎨⎧=====.,,:,0:21112101不全为零r r H H αααααα ⎩⎨⎧=====.,,:,0:21122102不全为零s s H H ββββββ 记 1111111,,,r s s rij i ij j ij i j j i x x x x x x rs s r ••=======∑∑∑∑平方和分解公式为:S T =S A +S B +S E , (9.23)其中 22111(),(),rssT ijA i i j j S xx S s x x •====-=-∑∑∑22111(),(),srsB j E ij i j j i j S r x x S x x x x •••====-=--+∑∑∑分别为总平方和、因素A ,B 的效应平方和和误差平方和.取显著性水平为α,当H 01成立时,F A =(1)AEs S S - ~F ((r -1),(r -1)(s -1)), H 01拒绝域为F A ≥F α((r -1),(r -1)(s -1)). (9.24)当H 02成立时,F B =(1)BEr S S - ~F ((s -1),(r -1)(s -1)), H 02拒绝域为F B ≥F α((s -1),(r -1)(s -1)). (9.25)得方差分析表9-14.例9.6 测试某种钢不同含铜量在各种温度下的冲击值(单位:kg ·m ·cm ),表9-15列出了试验的数据(冲击值),问试验温度、含铜量对钢的冲击值的影响是否显著?(α=0.01)解 由已知,r =4,s =3,需检验假设H 01,H 02,经计算得方差分析表9-16.0.01A 01F 0.01(2,6)=10.92<F B ,拒绝H 02.检验结果表明,试验温度、含铜量对钢冲击值的影响是显著的.第三节 正交试验设计及其方差分析在工农业生产和科学实验中,为改革旧工艺,寻求最优生产条件等,经常要做许多试验,而影响这些试验结果的因素很多,我们把含有两个以上因素的试验称为多因素试验.前两节讨论的单因素试验和双因素试验均属于全面试验(即每一个因素的各种水平的相互搭配都要进行试验),多因素试验由于要考虑的因素较多,当每个因素的水平数较大时,若进行全面试验,则试验次数将会更大.因此,对于多因素试验,存在一个如何安排好试验的问题.正交试验设计是研究和处理多因素试验的一种科学方法,它利用一套现存规格化的表——正交表,来安排试验,通过少量的试验,获得满意的试验结果.1.正交试验设计的基本方法正交试验设计包含两个内容:(1)怎样安排试验方案;(2)如何分析试验结果.先介绍正交表.正交表是预先编制好的一种表格.比如表9-17即为正交表L4(23),其中字母L表示正交,它的3个数字有3种不同的含义:(1) L4(23)表的结构:有4行、3列,表中出现2个反映水平的数码1,2.列数↓L4 (23)↑↑行数水平数(2)L4(23)表的用法:做4次试验,最多可安排2水平的因素3个.最多能安排的因素数↓L4(23)↑↑试验次数水平数(3) L4(23)表的效率:3个2水平的因素.它的全面试验数为23=8次,使用正交表只需从8次试验中选出4次来做试验,效率是高的.L4(23)↑↑实际试验数理论上的试验数正交表的特点:(1)表中任一列,不同数字出现的次数相同.如正交表L4(23)中,数字1,2在每列中均出现2次.(2)表中任两列,其横向形成的有序数对出现的次数相同.如表L4(23)中任意两列,数字1,2间的搭配是均衡的.凡满足上述两性质的表都称为正交表(Orthogonal table).常用的正交表有L9(34),L8(27),L16(45)等,见附表.用正交表来安排试验的方法,就叫正交试验设计.一般正交表L p(n m)中,p=m(n-1)+1.下面通过实例来说明如何用正交表来安排试验.例9.7 提高某化工产品转化率的试验.某种化工产品的转化率可能与反应温度A,反应时间B,某两种原料之配比C和真空度D有关.为了寻找最优的生产条件,因此考虑对A,B,C,D这4个因素进行试验.根据以往的经验,确定各个因素的3个不同水平,如表9-18所示.表9-18分析各因素对产品的转化率是否产生显著影响,并指出最好生产条件.解本题是4因素3水平,选用正交表L9(34).将各因素的诸水平所表示的实际状态或条件代入正交表中,得到9个试验方案,如表9-20所示.表9-20从表9-20看出,第一行是1号试验,其试验条件是:反应温度为60℃,反应时间为2.5小时,原料配比为1.1∶1,真空度为500毫米汞柱,记作A1B1C1D1.依此类推,第9号试验条件是A3B3C2D1.由此可见,因素和水平可以任意排,但一经排定,试验条件也就完全确定.按正交试验表9-20安排试验,试验的结果依次记于试验方案右侧,见表9-21.2.试验结果的直观分析正交试验设计的直观分析就是要通过计算,将各因素、水平对试验结果指标的影响大小,通过极差分析,综合比较,以确定最优化试验方案的方法.有时也称为极差分析法.例9.7中试验结果转化率列在表9-21中,在9次试验中,以第9次试验的指标86为最高,其生产条件是A 3B 3C 2D 1.由于全面搭配试验有81种,现只做了9次.9次试验中最好的结果是否一定是全面搭配试验中最好的结果呢?还需进一步分析. (1) 极差计算在代表因素A 的表9-21的第1列中,将与水平“1”相对应的第1,2,3号3个试验结果相加,记作T 11,求得T 11=151.同样,将第1列中与水平“2”对应的第4,5,6号试验结果相加,记作T 21,求得T 21=183.一般地,定义T ij 为表9-21的第j 列中,与水平i 对应的各次试验结果之和(i =1,2,3; j =1,2,3,4).记T 为9次试验结果的总和,R j 为第j 列的3个T ij 中最大值与最小值之差,称为极差.显然T =31iji T=∑,j =1,2,3,4.此处T 11大致反映了A 1对试验结果的影响,T 21大致反映了A 2对试验结果的影响, T 31大致反映了A 3对试验结果的影响,T 12,T 22和T 32分别反映了B 1,B 2,B 3对试验结果的影响, T 13,T 23和T 33分别反映了C 1,C 2,C 3对试验结果的影响, T 14,T 24和T 34分别反映了D 1,D 2,D 3对试验结果的影响.R j 反映了第j 列因素的水平改变对试验结果的影响大小,R j 越大反映第j 列因素影响越大.上述结果列表9-22.(2) 极差分析(Analysis of range)由极差大小顺序排出因素的主次顺序:主→次 B ;A 、D ;C这里,R j 值相近的两因素间用“、”号隔开,而R j 值相差较大的两因素间用“;”号隔开.由此看出,特别要求在生产过程中控制好因素B ,即反应时间.其次是要考虑因素A 和D ,即要控制好反应温度和真空度.至于原料配比就不那么重要了.选择较好的因素水平搭配与所要求的指标有关.若要求指标越大越好,则应选取指标大的水平.反之,若希望指标越小越好,应选取指标小的水平.例9.7中,希望转化率越高越好,所以应在第1列选最大的T 31=185;即取水平A 3,同理可选B 3C 1D 3.故例9.7中较好的因素水平搭配是A 3B 3C 1D 3.例9.8 某试验被考察的因素有5个:A ,B ,C ,D ,E .每个因素有两个水平.选用正交表L 8(27),现分别把A ,B ,C ,D ,E 安排在表L 8(27)的第1,2,4,5,7列上,空出第3,6列仿例9.7做法,按方案试验.记下试验结果,进行极差计算,得表9-23.试验目的要找出试验结果最小的工艺条件及因素影响的主次顺序.从表9-23的极差R j的大小顺序排出因素的主次顺序为主 → 次 A 、B ;D ;C 、E最优工艺条件为A 2B 1C 1D 2E 1.表9-23中因没有安排因素而空出了第3,6列.从理论上说,这两列的极差R j 应为0,但因存有随机误差,这两个空列的极差值实际上是相当小的.3.方差分析正交试验设计的极差分析简便易行,计算量小,也较直观,但极差分析精度较差,判断因素的作用时缺乏一个定量的标准.这些问题要用方差分析解决.设有一试验,使用正交表L p (n m ),试验的p 个结果为y 1,y 2,…,y p ,记T =1pi i y =∑, y =11p i i Ty p p ==∑,S T =21()pii yy =-∑为试验的p 个结果的总变差;S j =222111nn ij ij i i T T T r T r p r p ==⎛⎫-=- ⎪⎝⎭∑∑ 为第j 列上安排因素的变差平方和,其中r =p/n .可证明S T =1mij S=∑即总变差为各列变差平方和之和,且S T 的自由度为p -1,S j 的自由度为n -1.当正交表的所有列没被排满因素时,即有空列时,所有空列的S j 之和就是误差的变差平方和S e ,这时S e 的自由度f e 也为这些空列自由度之和.当正交表的所有列都排有因素时,即无空列时,取S j 中的最小值作为误差的变差平方和S e .从以上分析知,在使用正交表L p (n m )的正交试验方差分析中,对正交表所安排的因素选用的统计量为:F =1jeeS S n f -.当因素作用不显著时,F ~F (n -1,f e ),其中第j 列安排的是被检因素.在实际应用时,先求出各列的S j /(n -1)及S e /f e ,若某个S j /(n -1)比S e /f e 还小时,则这第j 列就可当作误差列并入S e 中去,这样使误差S e 的自由度增大,在作F 检验时会更灵敏,将所有可当作误差列的S j 全并入S e 后得新的误差变差平方和,记为S e Δ,其相应的自由度为f e Δ,这时选用统计量F =1je eS S n f - ~F (n -1,f e Δ).例9.9 对例9.8的表9-23作方差分析.解 由表9-23的最后一行的极差值R j ,利用公式S j =2211n ij i T T r p=-∑,得表9-24.表9-24表9-24中第3,6列为空列,因此S e =S 3+S 6=1.250,其中f e =1+1=2,所以S e /f e =0.625,而第7列的S 7=0.125,S 7/f 7=0.1251=0.125比S e /f e 小,故将它并入误差. S e Δ=S e +S 7=1.375,f e Δ=3.整理成方差分析表9-25.eeS fC 3.125 1 3.125 6.818D 6.125 1 6.125 13.364E Δ 0.125 1 0.125 e 1.1250 2 0.625 e Δ 1.37530.458由于F 0.05(1,3)=10.13, F 0.01(1,3)=34.12,故因素A ,B 作用高度显著,因素C 作用不显著,因素D 作用显著,这与前面极差分析的结果是一致的.F 检验法要求选取S e ,且希望f e 要大,故在安排试验时,适当留出些空列会有好处的.前面的方差分析中,讨论因素A 和B 的交互作用A ×B .这类交互作用在正交试验设计中同样有表现,即一个因素A 的水平对试验结果指标的影响同另一个因素B 的水平选取有关.当试验考虑交互作用时,也可用前面讲的基本方法来处理.本章就不再介绍了.小 结本章介绍了数理统计的基本方法之一:方差分析.在生产实践中,试验结果往往要受到一种或多种因素的影响.方差分析就是通过对试验数据进行分析,检验方差相同的多个正态总体的均值是否相等,用以判断各因素对试验结果的影响是否显著.方差分析按影响试验结果的因素的个数分为单因素方差分析、双因素方差分析和多因素方差分析.1. 单因素方差分析的情况.试验数据总是参差不齐,我们用总偏差平方和S T =211()jn sijj i xx ==-∑∑来度量数据间的离散程度.将S T 分解为试验随机误差的平方和(S E )与因素A 的偏差平方和(S A )之和.若S A 比S E 大得较多,则有理由认为因素的各个水平对应的试验结果有显著差异,从而拒绝因素各水平对应的正态总体的均值相等这一原假设.这就是单因素方差分析法的基本思想.2. 双因素方差分析的基本思想类似于单因素方差分析.但双因素试验的方差分析中,我们不仅要检验因素A 和B 各自的作用,还要检验它们之间的交互作用.3. 正交试验设计及其方差分析.根据因素的个数及各个因素的水平个数,选取适当的正交表并按表进行试验.我们通过对这少数的试验数据进行分析,推断出各因素对试验结果影响的大小.对正交试验结果的分析,通常采用两种方法,一种是直观分析法(极差分析法),它通过对各因素极差R j 的排序来确定各因素对试验结果影响的大小.一种是方差分析法,它的基本思想类似于双因素的方差分析. 重要术语及主题单因素试验方差分析的数学模型 S T =S E +S A单因素方差分析表 双因素方差分析表 正交试验表极 差分析表习题九1.灯泡厂用4种不同的材料制成灯丝,检验灯线材料这一因素对灯泡寿命的影响.若灯泡寿命服从正态分布,不同材料的灯丝制成的灯泡寿命的方差相同,试根据表中试验结果记录,在显著性水平0.05下检验灯泡寿命是否因灯丝材料不同而有显著差异?2.一个年级有三个小班,他们进行了一次数学考试,现从各个班级随机地抽取了一些学生,试在显著性水平0.05下检验各班级的平均分数有无显著差异.设各个总体服从正态分布,且方差相等.4.为了解3种不同配比的饲料对仔猪生长影响的差异,对3种不同品种的猪各选3头进行试验,分别测得其3个月间体重增加量如下表所示,取显著性水平α=0.05,试分析不同饲料与不同品种对猪的生长有无显著影响?假定其体重增长量服从正态分布,且各种配比的方5.研究氯乙醇胶在各种硫化系统下的性能(油体膨胀绝对值越小越好)需要考察补强剂(A)、防老剂(B)、硫化系统(C)3个因素(各取3个水平),根据专业理论经验,交互4(2) 给定α=0.05,作方差分析与(1)比较.6.某农科站进行早稻品种试验(产量越高越好),需考察品种(A),施氮肥量(B),氮、磷、钾肥比例(C),插植规格(D)4个因素,根据专业理论和经验,交互作用全忽略,早(1) 试作出最优生产条件的直观分析,并对4因素排出主次关系.(2) 给定α=0.05,作方差分析,与(1)比较.。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

其次, 同一品种下数据表现出来的差异称为试验(随
机)误差, 这是由客观条件的偶然干扰造成, 与因素(品种) 无直接联系.
方差分析正是分析两类误差的有效工具.
本问题只考虑品种一种因素,故是单因素试验,即只有
一个因子,记为 A, 5个不同的品种就是该因子的5个不同 的水平,分别记为 A1 , A2 , A3 , A4 , A5 , 由于同一品种在不 同的田块上的亩产量不同,故可以认为一个品种的亩产 量 就是一个母体,在方差分析中,总是假定各母体相互独 立地服从同方差的正态分布,即第 j 个品种的亩产量是 一个随机变量,它服从正态分布:
nj
ns , 称为总平均,
它是从 s 个总体中抽得的样本的样本均值.
用样本值 xij 与总平均
x 之间的偏差平方和来反映
种子品种代 号 (水平)
重复试验序号及作物实测产量 1 128 125 148 2 126 137 132 3 139 125 139 4 130 117 125 5 142 106 151 133 122 139
A1 A2
A3
这里试验的指标是作物产量, 作物是因素, 三种种 子品种代表三个不同的水平. 首先,形成数据差异的直接原因是种子的不同品 种.因此, 每个品种下产量的均值差异检验是我们的主 要任务.这种由因素(种子品种)造成的差异称为条件(系 统)误差.
H 0 : 1 2 s 0, H1 : 1 , 2 , , s 不全为零.
(二) 离差平方和分解 引入记号
nj
1 xj nj
s
x
i 1
ij
( j 1, 2,
, s) 水平Aj下的样本均值,
称为组内平均(或列平均)
1 x xij , n n1 n2 n j 1 i 1
在试验中变化的因素称为因子,用A、B、C ...... 表示, 因子在试验中所取的不同状态称为水平,因子A的不同水
平用A1 , A2 , 变量。
, As表示。以下用字母 x, y,
等表示随机
例1 为考察种子品种对作物产量的影响, 同一 作 的种子, 分别在条件大 物选用三个命名为 A1 , A2 , A3 体 相同的 5 块等面积的小田块上试种, 其作物产量 ( 单 位 : kg),如下表,试分析种子的不同品种对作物产量 的 影响.
j 1
s
j j ( j 1, 2, , s)
j A的第 j 个水平的效应, 表示水平 Aj下的总体平均
值与总平均的差异, 效应间的关系:
n
j 1 j
s
j
0
利用上述记号, 将单因素试验方差分析模的型改写 成如下形式: X ij j ij , 2 ij ~ N (0, ), 各 ij 相互独立, ( 3) i 1, 2, , n j , j 1, 2, , s. n11 n2 2 ns s 0. 显然,当且仅当 1 2 s 时, j , 即 j 0 ( j 1, 2, , s) 由此知假设(2)等价于假设
N ( j , ), j 1, 2,3, 4,5.
2
试验的目的是检验假设 是否成立。
H 0 : 1 2 3 4 5
二、单因素试验的数学模型
设在单因素试验中,所考察的因素为A,A有 s 个水平
j 1, 2, A1 , A2 , A3 , , As , 现在 Aj 水平下做了 nj 次试验,
X j N ( j , 2 )
要检验的假设是:
H 0 : 1 2 H1 : 1 , 2 ,
s , s 不全相等
( 1)
我们假定各个水平Aj下的样本 X1 j,X 2 j, ,X n j 为
j
来自具有相同方差σ2 均值分别为 j ( j 1, 2,
, s) 的正
态总体 N ( j , 2 ), j 与σ2 均未知. 设不同水平 Aj下的 样本之间相互独立. 由于 X ij ~ N ( j , 2 ), X ij j ~ N (0, 2 ), 从而将 X ij j 可看成随机误差, 将其记作 ij , 则 X ij 可表为 X ij j ij
相等,即检验下述假 设
, s) 的均值是 否
H 0 : 1 2 H1 : 1 , 2 ,
2. 对未知参数 j ( j 1, 2,
s , s 不全相等
, s) 及σ2进行估计.
( 2)
引入记号
1 s nj j n j 1
其中 n n j , μ称为总平均.
第 九 章
方差分析与回归分析
第一节 单因素试验的方差分析 一、方差分析原理 把考察事物的结果称为试验结果,也称为试验指标.
影响试验指标的条件称为因素。
因素可分为两类: 一类是人们可以控制的,称为可控因素; 另一类是人们不能控制的,称为不可控因素。 为了考虑某个因素A对所考察的随机变量X的影响, 可以在实验时让其他因素保持不变,而仅让因素A改变, 这样的试验称为单因素试验,因素A所处的状态称为水 平。
试验的实测数据由下表给出:
, s.
A1
A2
As
x11
x21
xn11
x12 x22
xn2 2
x1s
x2 s
xns s
为考察因素对指标的影响, 把第 j 个水平 Aj下的实测 数据 X1 j , X 2 j , , X n j 看做是从第 j 个总体 X j 中抽取的容
j
量为 n j 的样本 ( j 1, 2, , s). 在方差分析中总是假定 s个总体相互独立且服从相 同方差(未知)的正态分布. 即水平 Aj 对应的总体
ij ~ N (0, ), 各 ij 相互独立, i 1, 2, , n j , j 1, 2, , s,
2
此即单因素试验方差分析的数学模型.
三、单因素方差分析及其显著性检验的方法
(一) 方差分析的任务
2 N ( , ) ( j 1, 2, 1. 检验 s 个总体 j
相关文档
最新文档