方差分析与非参数检验

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

北京建筑大学

理学院信息与计算科学专业实验报告

课程名称《数据分析》实验名称方差分析与非参数检验实验地点基C-423 日期2017.3.30

(1)熟悉数据的基本统计与非参数检验分析方法;

(2)熟悉撰写数据分析报告的方法;

(3)熟悉常用的数据分析软件SPSS。

【实验要求】

根据各个题目的具体要求,完成实验报告。

【实验内容】

1、附件给出某年房屋价格的相关数据,请选用恰当的分析方法,对影响房屋价格的因素进行分析。(注意数据要调整成标准的格式,变量值、组别(字符变量转换成数值变量))(单因素方差分析选择其中两个因素、双因素方差分析选择其中任一对因素即可)

2、附件给出管理才能评分的相关数据,请选用恰当的分析方法,分析该评分数据是否服从正态分布。

3、附件给出了某体育比赛的两位裁判打分数据,请选用恰当的分析方法,检验该两组评分分布是否有显著差异。(注意数据要调整成标准的格式,变量值、组别)

4、附件给出了减肥茶数据,请选用恰当方法分析,检验该减肥茶是否对减肥有显著效果。(注意数据要调整成标准的格式,变量值、组别)

【分析报告】

1、对影响房屋价格的因素进行分析。(单因素方差分析选择其中两个因素、双因素方差分析选择其中任一对因素即可)。

表1-1(a)

装修状况对均价影响的单因素方差分析结果

均价

平方和df 均方 F 显著性

组间79.180 1 79.180 62.408 .000

组内230.914 182 1.269

总数310.094 183

表1-1(b)

所在区县对均价影响单因素方差分析结果

均价

平方和df 均方 F 显著性

组间91.919 3 30.640 25.279 .000

组内218.174 180 1.212

总数310.094 183

表1-1(a)是装修状况对均价影响的单因素方差分析结果。可以看到:观测变量均价的离差平方总和为310.094;如果仅考虑装修状况单个因素的影响,则均价总变差中,不同装修状况可解释的变差为79.180,抽样误差引起的变差为230.914,它们的方差分别为79.180和1.269,相除所得的F统计量的观测值为62.408,对应的概率P-值近似为0.如果显著性水平α为0.05,由于概率P-值小于显著性水平α,应拒绝原假设,认为不同装修状况对均价的平均值产生了显著影响,不同装修状况对均价的影响效应不全为0。

表1-1(b)是所在区县对均价影响单因素方差分析结果。可以看到:如果仅考虑所在区县单个因素的影响,则均价总变差310.094中不同所在区县可解释的变差为91.919,抽样误差引起的变差为218.174,

它们的方差分别为30.640和1.212,相除所得的F统计量的观测值为25.279,对应的概率P-值近似为0。如果显著性水平α为0.05,由于概率P-值小于显著性水平α,应拒绝原假设,认为不同所在区县对均价的平均值产生了显著影响,不同所在区县对均价的影响效应不全为0。

对比表1-1(a)和表1-1(b)容易发现:如果从单因素的角度考虑,装修状况对均价的影响比所在区县大。

表1-2(a)

表1-2(a)表明,在2个不同装修状况下分别有84、100两个样本。“1”,即“精装修”的平均均价高于“0”“毛胚”。可在图1-3(a)中得到印证。

表1-2(b)

方差齐性检验

均价

Levene 统计量df1 df2 显著性

28.807 1 182 .000

图1-3(a)不同装修状况下均价均值折线图

表1-2(b)表明,不同装修状况下均价的方差齐性检验统计量的观测值为28.807,概率P-值为0。如果显著性水平α为0.05,由于概率P-值小于显著性水平α,因此应拒绝原假设,认为不同装修状况下

对均价的总体方差有显著差异,满足方差分析的前提。

表1-2(c)

不同区县位置下均价的基本描述统计量及95%置信区间均价

N 均值标准差标准误均值的 95% 置信区间

极小值极大值下限上限

1 58 4.021 1.6360 .2148 3.591 4.451 2.0 8.6

2 38 2.837 .6395 .1037 2.626 3.047 1.7 4.3

3 52 3.285 .8749 .1213 3.041 3.528 1.8 5.6

4 36 2.051 .5719 .0953 1.858 2.24

5 .8 3.5

总数184 3.183 1.3017 .0960 2.993 3.372 .8 8.6

表1-2(c)中,“1”“2”“3”“4”分别对应区县“朝阳”“丰台”“海淀”“通州”在4个区县中各有58、38、52、36个样本。朝阳的均价最高,丰台区与海淀区居中,通州区最低。这些结论同样可在图1-3(b)中印证。

方差齐性检验

均价

Levene 统计量df1 df2 显著性

15.627 3 180 .000

图1-3(b)不同所在区县均价均值折线图

表1-2(d)表明,如果显著性水平α为0.05,由于概率P-值小于显著性水平α,因此应拒绝原假设,认为不同所在区县下对均价的总体方差有显著差异,满足方差分析的前提。

表1-3

均价多因素方差分析的非饱和模型-主体间效应的检验

因变量:均价

源III 型平方

和df 均方 F Sig.

校正模型139.280a7 19.897 20.501 .000

截距1254.722 1 1254.722 1292.814 .000

装修状况24.181 1 24.181 24.915 .000

所在区县40.804 3 13.601 14.014 .000

误差170.814 176 .971

总计2174.020 184

校正的总计310.094 183

a. R 方 = .449(调整 R 方 = .427)

表1-3中,可以看到:观测变量的总变差SST为310.094,它被分解为三个部分,分别是:由装修状况不同引起的变差24.181,由所在区县引起的变差40.804,由随机因素引起的变差170.814。这些变差除以各自的自由度后,得到各自的方差,并可计算出各F检验统计量的观测值和一定自由度下的概率P-值,均为0。如果显著性水平α为0.05,由于其概率P-值小于显著性水平α,所以应拒绝原假设,可以认为不同装修状况、所在区县下的均价总体均值存在显著差异,对均价的效应不同时为0,各自不同的水平给均价带来了显著影响。该结论与单因素方差分析是一致的。

2、分析该评分数据是否服从正态分布。

表2-1

单样本 Kolmogorov-Smirnov 检验

管理才能评分

N 90

正态参数a,b均值487.6778

标准差88.28005

最极端差别绝对值.066

正.066

负-.041

Kolmogorov-Smirnov Z .630

渐近显著性(双侧) .822

a. 检验分布为正态分布。

b. 根据数据计算得到。

表2—1表明,数据的均值为487.6778,标准差为88.28005。最大绝对差值为0.066,最大正差为0.066,最小负差为-0.041,概率P-值为0.822。如果显著性水平α为0.05,由于其概率P-值大于显著性水平α,所以不应拒绝原假设,没有充分理由推翻该评分数据的总体分布为正态分布的假设。

3、检验该两组评分分布是否有显著差异。

表3-1(a)

相关文档
最新文档