非参数统计--两个独立样本检验---设计实验_班级姓名学号

新疆财经大学

实验报告

课程名称：非参数统计

实验项目名称：设计两个独立样本检验分析姓名：李丹

学号： 2009101306 班级：统计 09-1班

指导教师：王建军

2011年 11 月 14 日

新疆财经大学实验报告

设计性实验：运用非参数统计“两个独立样本检验原理”设计一个统计实验（数据可以模拟产生，可以取来自实际的调查数据，可以自己编），用于比较两个总体是否有差异，并比较多种非参数检验方法和参数检验方法结果。实验要求

1、详细写出设计思路（1、实验目的：

2、实验条件：用SPSS软件，EXCEL软件，

3、实验设计（数据背景）：

4、实验步骤及结论：

5、实验结论）

2、写出实验过程

要求：有实验步骤与实验计算结果分析说明，填写实验学习心得。

两个总体间的比较

实验目的：

林业的发展水平是一个国家或一个地区农业发达程度的重要标志。加快现代林业的发展，是我国加入世贸组织和农村经济进入新的发展阶段后，调整农业结构、增加农民收入、维护农村稳定的必然选择，更是新疆维吾尔自治区全面建设小康社会的重要举措。而新疆总土地面积160万平方公里，其中天然草场7亿多亩，占全国草场面积的20%，居全国第二位，是其耕地面积的15倍，是新疆发展林业的基础。

当前，新疆维吾尔自治区林业增长势头强劲，畜产品产量增长，价格合理回升，发展林业已经成为农牧民增收的重要来源。不过就各地区来说，虽然都在新疆的地域范围之内，但各个地区的环境，气候，土壤，政策等因素依然不同。为了研究2010年牧业产值占第一产业的比重是否受地理因素----边境的影响，能够为新疆因地制宜的合理发展牧业提供依据而设计了此次实验。

二．变量的意义：对2010年新疆牧业占第一产业的比重按各地区是否为

边境地区分为两个总体，分别为边境地区的牧业产值比重和非边境地区的牧业产值比重。通过这些产值比重对比边境和非边境地区牧业产值的是否有差异，从而说明边境因素对牧业产值的影响。

检验假设：2010年边境地区的牧业所占比重与非边境地区的牧业产值比重基本上相同。即假设 0H :fbj bj μμ= 1H :fbj bj μμ≠ 三．何时需要比较两个总体

四．对两个总体进行描述：计算均值，标准差及中位数；画出其直方图和箱线图。五．检验方法： 1. 参数检验

1）参数检验的条件：服从正态分布。正态分布的检验在SPSS 中有2

种方法。方法一：1个样本的检验方法二：描述统计中的探索 2）方法和公式:

（1）对两个总体的均值进行检验分两种情况，分别为方差相等和方差不等。方差相等时：公式

1212111)

()(n n s x x p

+---μμ

方差不等时：公式

121

2121)

()(n s n s x x +---μμ

（2）对两个总体方差比的检验，公式

F=22

222

121//σσs s

3）软件操作 4）计算结果的分析

分析：由描述统计可知考虑到边境因素的影响2010年牧业产值占第一产业的比重分为两个总体，分别为非边境和边境地区。其中非边境地区的样本容量为53，牧业产值占第一产业的比重的平均水平为28.3145，边境地区的样本容量为32，它的牧业产值的平均水平为41.8695，这说明在新疆的牧业产值来源于非边境地区和边境地区，但主要来源是非边境地区，从而非边境地区的牧业产值的平均水平高于边境地区，并且从标准差可得出非边境地区的牧业产值的集中程度高于边境地区。此外，非边境地区的牧业产值占第一产业的比重的最小值为6.34，最大值为62.52；边境地区的牧业产值占第一产业的比重的最小值为13.76，最大值为76.27，说明边境地区的极差大于非边境的，且它的极值都叫大于非边境地区，这与当地的环境有着密切的关系。表1 描述统计

统计量

样本容量均值

中位数

标准差

极小值

极大值

非边境 53 28.3145 26.4856 14.02973 6.34 62.52 边境

41.8695

42.1067

17.03411

13.76

76.27

分析：由直方图可知非边境地区的牧业产值占第一产业的比重于边境地区相比比较集中（峰度高），边境地区的产值比重比较分散，但基本上是对称分布；而非边境地区的牧业产值比重是以20%为界限的，当地区的牧业产值比重小于20%，说明这些非边境地区由于环境，气候，土壤等因素，牧业的发展在一定程度上受到了制约，而发展农业的收益性高于发展牧业，所以它们更适合发展农业。当地区的牧业产值比重比重大于20%，说明这些非边境地区的环境，气候等因素适合发展牧业，牧业在当地的经济发展中发挥着举足轻重的作用。

图1

分析：由箱线图可知边境地区的牧业产值占第一产业的比重的平均水平高于非边境地区的牧业产值比重（中位数较高）；从产值比重的离散程度

看，非边境地区的牧业产值比重比较集中（箱子较短），且大体上呈对称分布（中位数在箱子的中间），而边境地区的产值比重比较分散，这与直方图分析的结果是一致。

图2

分析：从极值表可以看出非边境地区的牧业产值占第一产业的百分比最高的地区为尼勒克县，次之依次为是呼图壁县，阜康市，昌吉市，特克斯县；非边境地区牧业产值占第一产业的百分比最低的是尉犁县

，次之依次是阿瓦提县，新和县，精河县，和硕县。说明以尼勒克县为首，牧业产值率较高的其他四个非边境地区，他们的自然环境，气候，土壤等因素基本上是相同的，在这些地区适合发展牧业，与高成本的农业发展相比较，牧业具有较高的收益率，是居民的最优选择。而以尉犁县为主，及其他牧业产值率较低的四个非边境县相比，这些地区不管是

从自然环境还是气候上，农业的发展对当地经济的带动性都高于牧业的发展，与发展牧业相比较，它们更适合发展农业。与非边境相对应的边境地区的牧业产值占第一产业的比重最高的地区是塔什库尔干塔吉克自治县，其次依次为阿合奇县，巴里坤哈萨克自治县和乌恰县，托里县。这些地区虽然位于新疆与其他国家的接壤处，但他们利用当地的气候及自己的地理优势，努力发展牧业，从而带动当地的经济；在边境地区牧业产值比重最低的是温宿县，其次依次为

皮山县，和田县，博乐市及乌什县。这些边境地区由于所处的地理位置及当地的环境气候，发展牧业的前景没有农业的美好，农业是这些地区经济得以发展的主要动力。

参数检验

2010年牧业产值率受边境因素的正态性检验：

分析：从非边境的Q-Q图可知，大部分点都在对角线的周围，而且这些点部分比较分散，所以可以说非边境地区的牧业产值占第一产业的比重不服从正态分布，用非参数的方法优于参数方法。

图3

分析：由边境地区的Q-Q图看出很多点都是在对角线的周围波动，而且各个点相互之间都比较分散，故而基本上可以说边境地区的牧业产值比重同样不服从正态分布，用非参数的方法优于参数方法。

图4

分析：由正态性检验可知总体非边境的样本的自由度为53，边境的样本自由度为32，对这两个总体进行两种方法的正态检验，分别为Kolmogorov-Smirnov和Shapiro-Wilk。在第一种方法下非边境地区的Sig=0.2>0.05，接受原假设，说明它们有差异，在第二种方法下Sig=0.094>0.05,依然接受原假设，说明有差异；而边境地区在第一种方法下sig=0.104>0.05,第二种方法下sig=0.27>0.05，分析出其接受原假设，地区之间是有差异的。

表3正态性检验

比较2010年边境地区牧业占第一产业的比重与非边境地区的牧业产值率有何不同。

分析：由独立样本检验可知F=3.257，sig=0.075>0.05,从而接受原假设，非边境地区和边境地区的方差是相等的。在方差相等的前提下均值的T 检验结果是t=-3.978,sig=0.000<0.05,拒绝原假设，即说明各地区的均值有差异。

表4 独立样本检验

非参数检验：

非参数检验---Mann-Whitney 检验

结果分析：由Mann-Whitney 检验结果可知非边境地区的样本容量为53，秩均值为35.74，秩和为1894，而边境地区的样本容量为32，秩均值为55.03，秩和为1761。边境地区的秩均值大于非边境地区的，说明边境地区的牧业产值比重的差异大于非边境地区的。

新疆牧业产值占第一产业的比重 Kolmogorov-Smirnov a

Shapiro-Wilk

统计量

Sig. 统计量

Sig. 非边境 .095 53 .200*

.962 53 .094 边境

.104

.200*

.960

.270

表5 Mann-Whitney 检验

秩

分析：由检验统计量可知，不管是双侧的渐进显著性还是精确显著性值都近似等于0.000，该近似值小于0.05，拒绝原假设，说明这两个总体之间是有差异的。

表 6 检验统计量a

Kruskal-Wallis 检验中位数检验

分析：由Kruskal-Wallis 检验结果可知，牧业产值比重大于中位数的地区有42个，其中非边境地区有20个，边境地区有22个；而小于等于中位数的地区有43个，其中非边境地区有33

个，边境地区有10个。

分析：由检验统计量可知样本容量为85个，中位数为30.3751，渐进显

表 7 频率

著性值近似等于0.006<0.05,接受原假设，即两个总体的中位数相等。

表8 检验统计量a

五．参数和非参数的比较

参数检验和非参数检验是统计分析的两种不同的方法。他们的原理不同。参数检验适用于较理想的分析中，对数据进行参数检验是必须要先对数据进行检验是否服从正态分布的假设，只有服从正态分布才可进行均值和方差是否相等的检验；而非参数检验是在实际应用中使用的方法，在应用中对数据的分布不做要求，它是通过检验中位数，检验总体是否有变化的。在实际应用中，若服从正态分布，参数检验的有效性高于非参数，而若总体不服从正态分布，参数检验或许会失效，非参数检验的有效性会比较高。1，参数检验是针对参数做的假设，非参数检验是针对总体分布情况做的假设，这个是区分参数检验和非参数检验的一个重要特征。

2，二者的根本区别在于参数检验要利用到总体的信息（总体分布、总体的一些参数特征如方差），以总体分布和样本信息对总体参数作出推断；

非参数检验不需要利用总体的信息（总体分布、总体的一些参数特征如方差），以样本信息对总体分布作出推断。

3，参数检验只能用于等距数据和比例数据，非参数检验主要用于记数数据。也可用于等距和比例数据，但精确性就会降低。

非参数检验往往不假定总体的分布类型，直接对总体的分布的某种假设（例如如称性、分位数大小等等假设）作统计检验。