SPSS专业统计软件应用实验报告

SPSS专业统计软件应用实验报告

(一) 实验过程

第六章 方差分析 一 实验目的

掌握利用 SPSS 进行单因素方差分析、多因素方差分析的基本方法,并能够解释软件运行结果。

二 实验内容

1 单因素方差分析 (1) 解决问题的原理

单因素方差分析采用的统计推断方法是计算F 统计量,进行F 检验。总的变异平方和记为SST ,分解为两部分:一部分是由控制变量引起的离差,记为SSA

(组间Between Groups 离差平方和);另一部分是由随机变量引起的离差,记为SSE (组内Within Groups 离差平方和)。于是有:SST=SSA+SSE

其中: SSE= (2) 实验步骤 ①提出零假设:H0为控制变量不同水平下观测变量各总体均值无显著差异,即: ②选择检验统计量:方差分析采用的是F 统计量,服从(k-1,n-k )个自由度

的F 分布。

③计算检验统计量的观测值和概率p 值:如果控制变量对观测变量造成了显著影响,观测变量总的变差中控制变量影响所造成的比例相对于随机变量就会较大,F 值显著大于1;反之,F 值接近于1。

④给出显著性水平α,作出决策:如果相伴概率p 值小于显著性水平 ,则拒绝零假设;反之,认为控制变量不同水平下各总体均值没有显著差异。

2 多因素方差分析 (1)解决问题的原理

以两个控制变量为例,多因素方差分析将观测变量的总离差平方和分解为:SST=SSA+SSB+SSAB+SSE 设控制变量A 有k 个水平,变量B 有r 个水平 ,则SSA 的定义为(SSB 的定义类似):

其中, 为因素A 第i 个水平和因素B 第j 个水平下的样本观测值个数, 为因素A 第i 个水平下观测变量的均值。 其中, 是因素A 、B 在水平i 、j 下的观测变量均值。 在固定效应模型中,各F 统计量为:

SSA= 21

()k

i i i n x x =-∑

21

()k

i i i n x x =-∑211

()i

n k

ij i i j x x ==-∑∑12k

μμμ===2

11()k r A ij i i j SSA n x x ===-∑∑

ij n A

i x AB ij x

在随机效应模型中, 统计量不变,其他两个F 统计量分别为:

(2)实验步骤

①提出零假设:多因素方差分析的零假设H0是:各控制变量不同水平下观测变量各总体均值无显著差异,控制变量各效应和交互作用效应同时为0,即控制变量和它们的交互作用对观测变量没有产生显著性影响。

②构造检验统计量:多因素方差分析采用的是F 统计量,根据效应模型选择。 ③计算检验统计量的观测值和概率p 值:SPSS 会自动将相关数据代入各式,计算出检验统计量的观测值的概率p 值(也称相伴概率值Sig.)。 ④给出显著性水平 ,作出决策。

3 协方差分析

(1)解决问题的原理

以单因素协方差分析为例,总的离差平方和表示为: 协方差仍采用F 检验,F 统计量的计算公式为:

(2)实验步骤

①提出零假设:协方差分析的零假设H0是:控制变量和协变量对观测变量均无显著性影响。

②选择检验统计量:协方差分析采用的是F 统计量 ,其计算公式同前。 ③计算检验统计量的观测值和概率p 值。 ④给出显著性水平α,作出决策。

三 结果及分析

第5题:

某农场为了比较4种不同品种的小麦产量的差异,选择土壤条件基本相同的土地,分成16块,将每一个品种在4块试验田上试种,测得小表亩产量(kg )的数据如表6.17所示(数据文件为data6-4.sav ),试问不同品种的小麦的平均产量在显著性水平0.05和0.01下有无显著性差异。(数据来源:《SPSS 实用统计分析》 郝黎仁,中国水利水电出版社)

表6.17 小麦产量的实测数据

/(1)/(1)B SSB r MSB

F SSE kr l MSE -==-/(1)/(1)A SSA k MSA

F SSE kr l MSE

-=

=

-/(1)(1)/(1)AB SSAB k r MSAB

F SSE kr l MSE

--=

=

-AB F /(1)/(1)(1)A SSA k MSA F SSAB k l MSAB -==--/(1)/(1)(1)B SSB r MSB F SSAB k l MSAB -==--Q =Q +Q +Q

总控制变量协变量随机因素22

S F S =控制变量控制变量随机因素22S F S =协变量协变量随机因素

显著性水平0.05

方差齐性检验的H0的假设是:方差相等。由上表:方差由于Sig.0.046<0.05,说明

方差齐性检验的H0的假设是:方差相等。由上表:方差由于Sig.0.046<0.05,说明

因为sig的值为0.056大于0.05,故接受原假设即认为方差相等,在第二张表中sig 的值为0.01小于0.05故拒绝原假设,即认为四个品种的产量有显著性差异。

当显著性水平为0.01时,第一个SIG大于0.01股接受原假设即认为方差相等,第二个SIG的值0.01=0.01故接受原假设即认为四个品种的产量没有显著性差异。

第6题

某公司希望检测四种类型的轮胎A,B,C,D的寿命(由行驶的里程数决定),见表6.18(单位:千英里)(数据文件为data6-5.sav),其中每种轮胎应用在随机选择的6辆汽车上。

在显著性水平0.05下判断不同类型轮胎的寿命间是否存在显著性差异?(数据来源:《统计学(第三版)》,M.R.斯皮格尔,科学出版社)

表6.18 四种轮胎的寿命数据

方差齐性检验的H0的假设是:方差相等。由上表:方差由于Sig.0.050=0.05,说明

由上表,由于组间比较的相伴概率Sig.=0.099>0.05,故应接受H0假设,说明四种不同类型轮胎的寿命间不存在显著性差异。

第7题:

将4种不同的水稻品种A1,A2,A3,A4安排在面积相同的4种不同土质的地块B1,B2,B3,B4中试种,测得各地块的产量(kg)如表6.19(数据文件为data6-6.sav),试分别在显著性水平为0.05和0.01下检验不同水稻品种、不同土质及二者交互作用对水稻产量的影响。(数据来源:《SPSS实用统计分析》郝黎仁,中国水利水电出版社)

表6.19 四种水稻的产量数据

2 Contrast Coefficients (L'

Matrix) Simple Contrast (reference category = 4) for 土地

Transformation Coefficients

(M Matrix)

Identity Matrix Contrast Results (K Matrix) Zero Matrix Contrast Results (K Matrix)

水稻Simple Contrast a Dependent Variable

产量

Level 1 vs. Level 4 Contrast Estimate 13.250 Hypothesized Value 0

Difference (Estimate - Hypothesized) 13.250

Std. Error .

Sig. .

95% Confidence Interval for Difference Lower Bound . Upper Bound .

Level 2 vs. Level 4 Contrast Estimate 13.000 Hypothesized Value 0

Difference (Estimate - Hypothesized) 13.000

Std. Error .

Sig. .

95% Confidence Interval for Difference Lower Bound . Upper Bound .

Level 3 vs. Level 4 Contrast Estimate 6.500 Hypothesized Value 0

Difference (Estimate - Hypothesized) 6.500

Std. Error .

Sig. .

95% Confidence Interval for Difference Lower Bound . Upper Bound .

a. Reference category = 4

Contrast Results (K Matrix)

土地Simple Contrast a Dependent Variable

产量

Level 1 vs. Level 4 Contrast Estimate 4.000 Hypothesized Value 0

Difference (Estimate - Hypothesized) 4.000

Std. Error .

Sig. .

95% Confidence Interval for Difference Lower Bound . Upper Bound .

Level 2 vs. Level 4 Contrast Estimate -2.750

Hypothesized Value

Difference (Estimate - Hypothesized) -2.750 Std. Error . Sig. .

95% Confidence Interval for Difference Lower Bound . Upper Bound .

Level 3 vs. Level 4 Contrast Estimate -.500 Hypothesized Value 0

Difference (Estimate - Hypothesized) -.500

Std. Error .

Sig. .

95% Confidence Interval for Difference Lower Bound . Upper Bound .

a. Reference category = 4

第8题:

某超市将同一种商品做3种不同的包装(A)并摆放在3个不同的货架区(B)进行销售试验,随机抽取3天的销售量作为样本,具体资料见表6.20。要求检验:在显著性水平0.05下商品包装、摆放位置及其搭配对销售情况是否有显著性影响。(数据来源:《应用统计学》耿修林,科学出版社;数据文件:data6-7.sav)

表6.20 销售样本资料

1)分组描述:

2

上表是Homogeneity of variances test方法计算的结果。相伴概率Sig.=0.646>0.05,因此可以认为各个组总体方差是相等的,满足方差检验的前提条件。

3

关于对多个控制变量的独立作业部分,不同包装贡献离差平方和为0.963,均方为0.481,不同摆放位置贡献离差平方和为3.185,均方为1.593。这说明不同摆放位置比包装影响大。从相伴概率来看,均大于0.05,说明两者均对销售情况均无影响。关于多个控制变量的交互作用分析类似,对销售情况有显著性影响。Error 部分是随机变量影响部分。

Custom Hypothesis Tests Index

1 Contrast Coefficients (L'

Matrix) Simple Contrast (reference category = 3) for 包装

Transformation Coefficients

(M Matrix)

Identity Matrix Contrast Results (K Matrix) Zero Matrix

2 Contrast Coefficients (L'

Matrix) Simple Contrast (reference category = 3) for 摆放位置

Transformation Coefficients

(M Matrix)

Identity Matrix

Contrast Results (K Matrix) Zero Matrix

4

不同组别均值比较结果,可以看出不同组别之间的相伴概率大于0.05,因此不同

5

由于两个因素相交,说明有交互作用的影响。

第一站表中的sig的值为0.646大于0.05 故认为各个地方的总体方差时相等的,满足方差检验的前提条件。从第二张表中相伴概率,地方小于0.05,品种大于0.05

故地方与销售量有影响,包装没有影响。第三张表中的相伴概率均大于0.05,故包装间的均值不存在显著性差异。而在地方的均值比较中,相伴概率大于0.05故也不存在显著性差异。而对地方进行多重比较,由于前面的方差具有齐性,故仅分析LSD的结果,从结果可看出三个水平的SIG值均小于显著性水平,说明三个组之间均存在显著性差异。

第9题:

研究杨树一年生长量与施用氮肥和钾肥的关系。为了研究这种关系,一共进行了18个样地的栽培实验,测定杨树苗的一年生长量、初始高度、全部实验条件(包括氮肥量和钾肥量)及实验结果(杨树苗的生长量)数据如表6.21,请在显著水平0.05下检验氮肥量、钾肥量及树苗初始高度中哪些对杨树的生长有显著性影响。(数据来源:《生物数学模型的统计学基础》李勇,科学出版社;数据文件:data6-8.sav)

表6.21 杨树栽培试验数据

上表为方差齐性检验结果,由于相伴概率值Sig.=0.068>0.05,因此认为各组的方

上表主要是检验控制变量与协变量是否具有交互作用,从中可看出,N*K*height

K对应得Sig.=0.000<0.05,说明钾肥量对生长量有显著性影响。height对应得Sig.=0.000<0.05,说明树苗初高对生长量具有显著性影响,

第八章 相关分析 一 实验目的

掌握利用 SPSS 软件进行相关分析的基本方法,

偏相关分析和其它相关系数的计算。 二

实验内容

1 二元变量相关分析

(1) 解决问题的原理

二元定距变量的相关分析 :定距变量又称为间隔(interval )变量(即连续属

性变量),变量值之间可以比较大小,可以用加减法计算出差异的大小。

Pearson 简单相关系数及t 统计量

(2) 实验步骤

①分析:是否为定距变量,考虑用Pearson 相关系数来衡量。 ②数据的组织:分成两列,一列是变量a ,另一列是变量b 。

③二元相关分析设置:按如下图所示设置,并打开Options …按钮,在打开的Cross-product

2 偏相关分析

(1) 解决问题的原理

控制一个变量和控制两个变量的偏相关系数分别为:

(2) 实验步骤

①分析:这多个因素彼此之间是否有影响,分析时应使因变量对其他变量分别求偏相关。

②数据组织:定义多个变量,输入数据即可;

③进行偏相关分析:按Analyze →Correlate →Partial 顺序启动偏相关分析的主对话框,第一次分析两个变量之间偏相关系数,并将其余设为控制变量。

3 距离相关分析

(1) 解决问题的原理 不相似性测度:

对定距数据的不相似性(距离)测度可以使用的统计量有:欧几里得距离、平方欧氏距离、切比雪夫距离、Block 距离、明可斯基距离等。 对定序数据,主要使用卡方不相似测度和斐方测度。

()()n i i

x x y y r --∑t =

,xy z r r r r -=12,xy z z r r r r -=

对二值(只有两种取值)数据变量之间的距离描述,使用欧氏距离、平方欧氏距离、尺寸差异、模式差异、方差、形或兰斯和威廉斯等距离统计量。

相似性测度:

对于定距数据主要使用皮尔逊相关系数和夹角余弦距离。

对于二值数据的相似性测度主要包括简单匹配系数、Jaccard相似性指数、Hamann相似性测度等20余种。

(2)实验步骤

①分析:是否可以用用距离分析实现。此时,既可以计算其相似性测度,亦可计算其不相似性测度。

②数据组织:分别定义多个变量。

③进行距离分析:按Analyze→Correlate→Distances顺序启动距离分析的主对话框,将一个移入Label Cases by中;将其余多个变量移入Variables 中进行相似性测度计算;在Compute Distances中选中Between variables 单选框,定义进行变量间的距离分析;在Measure单选框组中选中Dissimilarities,求解其不相似性测度;单击Measures按钮在Interval下拉列表中选择Euclidean distance表示计算变量间的欧氏距离。

三结果及分析

第三题:

K.K.Smith在烟草杂交繁殖的花上收集到如表8.16所示的数据,要求对以上3组数据两两之间进行相关分析,以0.05的显著性水平检验相关系数的显著性。(数据来源:《统计软件SPSS 系列应用实践篇》苏金明,电子工业出版社;数据文件:data8-5.sav)

0.955、0.797 >0,说明呈正相关,而相伴概率Sig. <0.05,因此拒绝零假设,即说明花瓣长、花枝长、花萼长两两显著性正影响。

第四题:

试确定1962-1988年安徽省国民收入与城乡居民储蓄存款余额两个变量间的线性相关性,数据如表8.17所示。(数据来源:《数据统计与管理》1990年第5期,中国商场统计研究会主办;数据文件:data8-6.sav)

性,应采用两元变量的相关性分析,下图是这三个因素的描述性统计表,包含了

Pearson 相关系数概率P值,由图得,相关系数0.955大于0,说明呈正相关,且大于0.8,说明高度相关,而相伴概率Sig.=0.00<0.05,因此应该拒绝原假设,说明

第五题:

某高校抽样得到10名短跑运动员,测出100米的名次和跳高的名次如表8.18,问这两个名次是否在0.05的显著性水平下具有相关性。(数据来源:《应用统计学:数据统计方法、数据获取与SPSS应用》马庆国,科学出版社;数据文件:data8-7.sav)

表8.18 10名运动员的100米及跳高名次

p值。从表中可看出,相关系数为0.697>0,说明呈正相关,而相伴概率值Sig.=0.025<0.05,因此应拒绝零假设(H0:两变量之间不具相关性),即说明百米名次与跳高名次在0.05显著性水平下具有相关性。

第六题:

某公司太阳镜销售情况如表8.19所示,请分析销售量与平均价格、广告费用和日照时间之间的关系,并说明此题用偏相关分析是否有实际意义(显著性水平为0.05)。(数据来源:《SPSS for Windows统计分析(第3版)》卢纹岱,电子工业出版社;数据文件:data8-8.sav)

表1:

表2:

相关文档
最新文档