数据的基本统计与非参数检验

数据的基本统计与非参数检验
数据的基本统计与非参数检验

北京建筑大学

理学院信息与计算科学专业实验报告

课程名称《数据分析》实验名称数据的基本统计与非参数检验实验地点基C-423 日期2016 . 3 .17 姓名班级学号指导教师成绩

(1)熟悉数据的基本统计与非参数检验分析方法;

(2)熟悉撰写数据分析报告的方法;

(3)熟悉常用的数据分析软件SPSS。

【实验要求】

根据各个题目的具体要求,完成实验报告

【实验内容】

根据附件“住房状况调查”给出的相关数据,请选用恰当的分析方法,分别对数据的“家庭收入”、“现住面积”,进行数据的基本统计量分析,撰写相应的分析报告;

根据附件“住房状况调查”给出的相关数据,请选用恰当的分析方法,分别分析不同学历对家庭收入、现住面积是否有显著影响,撰写相应的分析报告。

根据附件“住房状况调查”给出的相关数据,请选用恰当的分析方法,分析家庭收入与10000元是否有显著差异,撰写相应的分析报告。

根据附件“住房状况调查”给出的相关数据,请选用恰当的分析方法,分析婚姻状况对家现住面积是否有显著影响,撰写相应的分析报告。

根据附件“减肥茶数据”给出的相关数据,请选用恰当的分析方法,分析该减肥茶对减肥是否有显著影响,撰写相应的分析报告。

【分析报告】

1.

表一家庭收入和现住面积的基本描述统计量

家庭收入现住面积

N 有效2993 2993

缺失0 0

均值17696.1567 62.7241

均值的标准误279.64310 .47349

中值15000.0000 60.0000

众数10000.00 60.00

标准差15298.80341 25.90383

方差 2.341E8 671.008

偏度 5.546 .910

偏度的标准误.045 .045

峰度55.425 3.078

峰度的标准误.089 .089

百分位数25 10000.0000 45.0000

50 15000.0000 60.0000

75 20000.0000 80.0000

表一说明,

家庭收入方面:

被调查者中家庭收入的均值为17696.16元,中值为15000元,普遍收入为10000元;

家庭收入的标准差和方差都相对较大,所以,各家庭收入之间有明显的差异;

偏度大于零,说明右偏;峰度大于零,说明数据呈尖峰分布;

由家庭收入的四分位数可知,25%的家庭,收入在10000以下,有50%的家庭,收入在15000以下,有75%的家庭,收入在20000以下;

现住面积方面:

被调查者中现住面积的均值为62.724平方米,中值为60平方米,普遍面积为60平方米;

现住面积的标准差和方差都相对较大,所以,各家庭现住面积之间有明显的差异;

偏度近似等于零,说明现住面积数据对称分布;峰度大于零,说明现住面积数据为尖峰分布;

由现住面积的四分位数可知,25%的家庭,现住面积为45平方米以下,有50%的家庭,现住面积在60平方米以下,有75%的家庭,现住面积在80平方米以下。

图一:家庭收入直方图

该图表明,家庭收入分布存在一定的右偏。

图二:现住面积直方图

该图形象的展示了现住面积的数据分布比标准正态分布更陡峭。

图三:学历与家庭收入直方图

表二表明:

首先,在所调查的2993个样本中,805个样本为初中及以下学历,1258为高中(中专)学历,896为大学(专,本科)学历,34为研究生及以上学历,分别占总样本的26.9%,42%,29.9%,和1.1%,可见高中学历居多;收入为0~5w,5w~10w,10w~15w,15w~20w,20w~25w的样本量分别为2897,79,8,4,5,各占样本的96.8%,2.6%,0.3%,0.1%,0.2%,收入在0~5w的占较大比例。

其次,对不同学历进行分析。在初中及以下学历中,98.9%的家庭收入在5万以下,1%的家庭收入在5w~10w之间;在高中学历中98.6%的家庭收入在5万以下,1.4%的家庭收入在5w~10w之间;在大学学历中92.9%的家庭收入在5万以下,5.7%的在5w~10w之间;在研究生及以上学历中85.3%的家庭收入在5万以下,8.8%的家庭收入在5w~10w,2.9%的家庭收入在10w~15w之间。

最后,对家庭收入进行分析。在家庭收入为5w(2897)以下的样本中,学历为研究生及以上学历的最少,为29;其他家庭收入中,大学学历的占大多数。由此可以得出,学历与家庭收入有一定的联系。但是,样本中的各学历的样本量存在一定的悬殊。

本检验的原假设是:不同学历对家庭收入是否有显著影响。如果显著性水平a设为0.05,由于卡方的概率p-值小于a,因此应拒绝假设,认为不同学历与家庭收入是否无显著影响。这种无影响主要体现在家庭收入低的比例在低学历中低于总体比例,而家庭收入高的在比例在低学历中高于总体比例

图四:不同学历与现住面积的直方图

表四表明:

首先,在所调查的2993个样本中,805个样本为初中及以下学历,1258为高中(中专)学历,896为大学(专,本科)学历,34为研究生及以上学历,分别占总样本的26.9%,42%,29.9%,和1.1%,可见高中学历居多;现住面积为0~60m2,60~120m2,120~180m2,180~240m2,240~300m2的样本量分别为

1413,1478,99,2,1,各占样本的47.2%,49.4%,3.3%,0.1%,0.0%,现住面积在第一和第二种情况下居多。

其次,对不同学历进行分析。在初中及以下学历中,58.8%的现住面积为60m2以下,38.1%的现住面积在60~120m2之间,3%的现住面积在120~180m2之间;在高中学历中,52.3%的现住面积为60m2以下,45.6%的现住面积在60~120m2之间,2%的现住面积在120~180m2之间;在大学学历中,30.5%的现住面积为60m2以下,64%的现住面积在60~120m2之间,5.5%的现住面积在120~180m2之间;在研究生及以上学历中,26.5%的现住面积为60m2以下,70.6%的现住面积在60~120m2之间,2.9%的现住面积在120~180m2之间。

最后,对家庭收入进行分析。在现住面积为60m2以下及60~120m2的样本中,学历为高中的占大多数;在现住面积120~180m2的样本中,大学学历的占大多数。由此可以得出,学历与家庭收入有一定的联系。但是,样本中的各学历的样本量存在一定的悬殊。

本检验的原假设是:不同学历对现住面积是否有显著影响。如果显著性水平a设为0.05,由于卡方的概率p-值小于a,因此应拒绝假设,认为现住面积与家庭收入是否无显著影响。这种无影响主要体现在现住面积小的比例在低学历中低于总体比例,而现住面积大的在比例在低学历中高于总体比例。

3.

由表五可知,2993个家庭的家庭收入的平均值为17696元,标准差为15298.8元,均值标准误差为279.64。

由表六可知,,第二列t统计量的观测值为27.521;第三列的自由度为2992;第四列的t统计量的观测值的双尾概率P-值为0;第六列和第七列是总体均值与原假设值差的95%的置信区间(7147.84,8244.47),由此计算出总体均值的95%的置信区间为(8147.84,9244.47)元。

该问题应采用双尾检验,因此比较a/2与p/2,也就是比较a与p。如果a取0.05,由于p小于0.05,因此拒绝假设,认为家庭收入的平均值与10000元有显著的差异。95%的置信区间告诉我们有95%的把握人为家庭

收入的均值在8147.84~9244.47元之间,10000元没有包含在置信区间内,也证实了上述推断。

4.

表七:婚姻状况的统计量

婚姻N 均值标准差均值的标准误现住面积已婚2685 63.1149 25.88033 .49946

否308 59.3168 25.90074 1.47583

表八是已婚和未婚家庭现住面积的均值检验结果。第一步,该检验的F统计量为0.410,对应的概率为0.522.如果显著水平a为0.05,由于概率P值大于0.05,可以认为两总体的方差无显著差异。第二步,由于两样本方差无显著差异,因此应看第三行t检验的结果。其中,t统计量的观测值为2.439,对应的双尾概率P 值为0.015.如果显著性水平a为0.05,由于概率P小于0.05,可以认为两总体样本有显著差异,即已婚与未婚家庭的家庭收入的平均值有显著差异。

表十:喝茶前后体重相关系数

N 相关系数Sig.

对 1 喝茶前体重&喝后体重45 .674 .000

表九表明,喝茶前和喝茶后样本的平均值有较大的差异。喝茶后的平均体重低于喝茶前的平均体重。

表十表明,在显著性水平为0.05时,肥胖志愿者服用减肥茶前后的体重有明显的线性变化,喝茶前和

核查后体重的线性相关程度较强

表十一,第二列是喝茶前后体重的平均差异,相差了14.8公斤;第三列是差值样本的标准差;第四列

是差值样本均值抽样分布的标准差;第五列是差值95%的置信区间的下限和上限;第七列是t检验统计量的

观测值;第八列示t分布的自由度;第九咧是t检验统计量观测值对应的双尾概率P值,接近零。如果显著性

水平a为0.05,由于概率P值小于显著性水平,应拒绝原假设,即认为总体上体重差的平均值与0无显著不同,意味着喝茶前和喝茶后的体重平均值无显著差异,可以认为该减肥茶无显著的减肥效果。

SPSS非参数检验之卡方检验

SPSS 中非参数检验之一:总体分布的卡方(Chi-square )检验 在得到一批样本数据后,人们往往希望从中得到样本所来自的总体的分布形态是否和某种特定分布相拟合。这可以通过绘制样本数据直方图的方法来进行粗略的判断。如果需要进行比较准确的判断,则需要使用非参数检验的方法。其中总体分布的卡方检验(也记为χ2检验)就是一种比较好的方法。 一、定义 总体分布的卡方检验适用于配合度检验,是根据样本数据的实际频数推断总 体分布与期望分布或理论分布是否有显著差异。它的零假设H0:样本来自的总体分布形态和期望分布或某一理论分布没有显著差异。 总体分布的卡方检验的原理是:如果从一个随机变量尤中随机抽取若干个观察样本,这些观察样本落在X 的k 个互不相交的子集中的观察频数服从一个多项分布,这个多项分布当k 趋于无穷时,就近似服从X 的总体分布。 因此,假设样本来自的总体服从某个期望分布或理论分布集的实际观察频数同时获得样本数据各子集的实际观察频数,并依据下面的公式计算统计量Q ()2 1 k i i i i O E Q E =-=∑ 其中,Oi 表示观察频数;Ei 表示期望频数或理论频数。可见Q 值越大,表示 观察频数和理论频数越不接近;Q 值越小,说明观察频数和理论频数越接近。SPSS 将自动计算Q 统计量,由于Q 统计量服从K-1个自由度的X 平方分布,因此SPSS 将根据X 平方分布表给出Q 统计量所对应的相伴概率值。 如果相伴概率小于或等于用户的显著性水平,则应拒绝零假设H0,认为样本来自的总体分布形态与期望分布或理论分布存在显著差异;如果相伴概率值大于显著性水平,则不能拒绝零假设HO ,认为样本来自的总体分布形态与期望分布或理论分布不存在显著差异。 因此,总体分布的卡方检验是一种吻合性检验,比较适用于一个因素的多项分类数据分析。总体分布的卡方检验的数据是实际收集到的样本数据,而非频数数据。 二、实例 某地一周内各日患忧郁症的人数分布如下表所示,请检验一周内各日人们忧

统计分布及参数检验

统计分布及参数检验 第五章统计量及其分布 §5.1总体与样本 一、总体与样本 在一个统计问题中,把研究对象的全体称为总体,构成总体的每个成员称为个体。对于实际问题,总体中的个体是一些实在的人或物。比如,我们要研究某大学的学生身高情况,则该大学的全体学生构成问题的总体,而每一个学生即是一个个体。事实上,每一个学生有许多特征:性别、年龄、身高、体重等等,而在该问题中,我们关心的只是该校学生的身高如何,对其他的特征暂不考虑。这样,每个学生(个体)所具有的数量指标——身高就是个体,而所有身高全体看成总体。这样,抛开实际背景,总体就是一堆数,这堆数中有大有小,有的出现机会多,有的出现机会小,因此用一个概率分布去描述和归纳总体是合适的,从这个意义上说: 总体就是一个分布,而其数量指标就是服从这个分布的随机变量。 例5.1.1考察某厂的产品质量,将其产品分为合格品和不合格品,并以0记合格品,以1记不格品,若以p表示不合格品率,则各总体可用一个二点分布表示: X p 0 1 1-p p 不同的p反映了总体间的差异。 在有些问题中,我们对每一研究对象可能要观测两个或更多个指标,此时可用多维随机向量及其联合分布来描述总体。这种总体称为多维总体。 若总体中的个体数是有限的,此总体称为有限总体;否则称为无限总体。实际中总体中的个体数大多是有限的,当个体数充分大时,将有限总体看作无限总体是一种合理抽象。

二、样本与简单随机样本1、样本 为了了解总体的分布,从总体中随机地抽取n个个体,记其指标值为x1,x2,?,xn, 则 x1,x2,?,xn 称为总体的一个样本,n称为样本容量或简称为样本量,样本中的个体称为样品。当n?30时,称x1,x2,?,xn为大样本,否则为小样本。 首先指出,样本具有所谓的二重性:一方面,由于样本是从总体中随机抽取的,抽取前无法预知它们的数值,因此样本是随机变量,用大写字母X1,X2,?,Xn 表示;另一方面,样本在抽取以后经观测就有确定的观测值,因此样本又是一组数值,此时用小写字母x1,x2,?,xn 表示。简单起见,无论是样本还是其观测值,本书中均用x1,x2,?,xn 表示,从上下文我们能加以区别。 每个样本观测值都能测到一个具体的数值,则称该样本为完全样本,若样本观测值没有具体的数值,只有一个范围,则称这样的样本为分组样本。从而知道分组样本与完全样本相比在信息上总有损失,但在实际中,若样本量特别大,用分组样本既简明扼要,又能帮助人们更好地认识总体。 例5.1.4 略。 2、简单随机样本 1 从总体中抽取样本可有不同的抽法,为了能由样本对总体作出较可靠的推断就希望样本能很好地代表总体。这就需要对抽样方法提出一些要求,最常用的有如下两个要求:1)样本具有随机性:要求每一个个体都有同等机会被选入样本,这便意味着每一样品xi与总体X有相同的分布。2)样本要求有独立性:要求每一样品的取值不影响其它样品的取值,这便意味着x1,x2,?,xn相互独立。若样本x1,x2,?,xn是n个相互独立的具有同一分布的随机变量,则称该样本为简单随机样本,简称为样本。注(1)若总体X的分布函数为F(x),则其样本的联合分布函数为?F(xi) i?1n(2)若总体X的密度函数为p(x),则其样本的联合密度为?p(xi)

第二讲 非参数统计检验

第二讲 非参数检验 1. 实验目的 1.了解非参数假设检验基本思想; 2.会用SAS 软件中的proc npar1way 过程进行非参数假设检验和proc freq 过程进行列联表的独立性检验。 2. 实验要求 1.会用SAS 软件建立数据集,并进行统计分析; 2.掌握proc npar1way 过程进行非参数假设检验的基本步骤; 3.掌握proc freq 过程进行列联表的独立性检验的基本步骤。 3. 实验基本原理 3.1 符号检验 0:H 两种方法的处理效果无显著性差异 令10 i i I i ?=? ?第个个体中新方法优于对照方法第个个体中新方法劣于对照方法 1,2,,i N = 统计量1 N N i i S I ==∑ N S 表示新方法的处理效果优于对照方法的配对组总数。若新方法的处理效果显著的优于对 照方法,则N S 的值应明显偏大。因此,若对给定的置信水平α,有 {}N P S c α≥<, 则拒绝0H 。 0H 为真时,(1)N S 服从二项分布1(,)2 b N (),()24 N N N N E S Var S = =。拒绝域为: {}N N S S c > (2) 由中心极限定理可知,当 2 , N N S N - →∞的零分布趋于标准正态分布。

拒绝域为 :N S u α?? ????>???????? 3.2 Wilcoxon 秩和检验 (1)单边假设检验 0:H 两种方法的处理效果无显著性差异 as 1:H :新方法优于对照方法。 用于检验0H 的统计量为:1n s i i W I ==∑ 若对给定的置信水平α,有 {}s P W c α≥<,则拒绝0H 。且s W 的分布列为: 0#{;,}{}H s w n m P W w N n == ?? ??? 根据观测结果计算s W 的观测值0s W ,计算检验的p 值: 00 {}{} s H s s H s k w p P W w P W k ≥=≥= =∑ 然后将p 值与显著水平α作比较,若p α<,则拒绝0H ,否则接受0H 。 (2)双边假设检验 给定的显著水平21,c c 和α应该满足: ε=≥+≤}{}{2100c W P c W P A H A H 仅由上式还不能唯一确定21c c 和,当我们对两种方法谁优谁劣不得而知时,通常取 2 }{}{2100α = ≥=≤c W P c W P A H A H 若利用p 值进行检验,设A A W ω的观测值为 ,计算概率值 }{}{00A A H A A H W P W P ωω≤≥或 由对称性可知,检验的p 值为上述两概率中小于1/2的那一个的2倍。例如

eviews-描述统计分析与参数假设检验

一、 描述统计分析与参数假设检验 1、序列的view 功能键 1.1 Histogram and stats Histogram and stats 选项中统计量包括均值(means )、中位数(median )、最大值(maximum )、最小值(minimum )、标准差(std.dev.)、偏度(skewness )、峰度(kurtosis )以及jarque-bera 统计量与其概率值。{根据其概率值p 来决定是否拒绝零假设,p 大于检验水平,不能拒绝样本序列服从正态分布的原假设} (显示选定序列的直方图以及给出序列的有关统计量) (表格形式显示有关统计量的值) (以表格形式进行分组统计) (以箱式图形式进行分组统计描述)

1.2 stats table(绘制序列统计表) stats table表示以表格的形式显示选定序列有关统计量的值。 1.3 stats by classification (序列分组统计描述)

1.4 one-way tabulation(绘制序列单因素列联表) output选项组供用户选择输出结果的显示项,包括区间内的观测值计数(show count)、是否显示百分比和累计百分比(show percentage)以及是否显示频数和累积频数(show cumulative)。

2、序列组基本统计分析2.1 序列组的统计描述 使用common sample选项要求序列组中各个序列在当前样本范围内都有观测值; 使用individual sample 选项在计算统计量时,将每个序列有值的观测值分别进行计算。 若序列组中没有缺失值或者各个序列的缺失值处于同一样本期间时,这两项没有区别。 多了两个统计量sum(样本和)和sum sq.dev. (样本方差)。 描述性统计 统计量齐性检验 多因素制表 相关系数矩阵 协方差矩阵 相关图 交叉相关系数 协整检验 格兰杰因果检验 (标签) 基本统计分 时间序列分析的统计量和统计检 验方法 (共同样本) (单个样本)

非参数统计

中国海洋大学本科生课程大纲 课程属性:公共基础/通识教育/学科基础/专业知识/工作技能,课程性质:必修、选修 一、课程介绍 1.课程描述: 非参数统计是数理统计学的一个分支,它是针对参数统计而言的。所谓参数统计,简 单地说就是建立在总体具有明确分布形式,通常多为正态分布形式的假定基础之上,所建立 的统计理论和统计方法。而非参数统计是在不假定总体分布形式或在较弱条件下,例如总体 分布形式完全未知或分布形式是对称的,诸如这样一些宽泛条件下,尽量从数据本身获 得的信息,建立对总体相关统计特征进行分析和推断的理论、方法。 2.设计思路: 本课程是在已学数理统计基础上,通过非参数统计的学习,引导数学专业学生进一步增强对一般总体分析、推断的能力并加深对相关理论和方法的理解。 课程内容着重于基本知识点的理解,避免难度较大或较长定理的证明。目的是使学生对理论有一个基本的理解和在应用能力上的提高。课程内容包括以下四个方面: (1).非参数统计的基本概念:非参数统计方法的主要特点,次序统计量及其分布,U统计量, 秩统计量的概念,一些统计量的近似分布。 (2).非参数估计的方法:总体分位数的估计,对称中心的估计,位置差的估计。 (3).非参数检验的方法:总体p分位数的检验,总体均值检验,两样本的比较,随机性与 独立性检验,多总体的比较。 - 1 -

(4).总体分布类型的估计与检验:分布函数的估计与检验,概率密度估计。 3. 课程与其他课程的关系: 先修课程:《概率论》,《数理统计》,《多元统计分析》;并行课程:《应用回归分析》;后置课程:《统计软件》。 非参数统计是应用数学专业、信息与计算科学专业的选修课程,但对于今后从事统计研究和统计应用工作的学生来讲可以作为专业必修课学习。 二、课程目标 非参数统计具有应用性广,稳健性好等特点。通过本课程学习,要求学生了解或理解非参数统计的一些基本理论和方法,注重利用理论和方法、借助计算机解决问题的能力。开课学期结束时,要求学生能够做到: (1)理解非参数统计方法的主要特点及与参数统计方法的区别。掌握次序统计量及其分布;理解并掌握U统计量秩统计量的概念;理解一些常用统计量的近似分布。重点是次序统计量及其分布; U统计量构造,秩统计量; (2)掌握总体分位数估计、对称中心的估计、位置差估计的方法。 (3)理解各种检验的基本思想,掌握检验的一般步骤,掌握检验统计及其拒绝域。难点在于检验统计量的选取及概率分布。 (4)理解分布函数估计及检验的基步骤和过程。 (5)为更深入学习非参数统计学理论打下初步的基础。也为学习专业统计软件的作好准备。 三、学习要求 要完成所有的课程任务,学生必须: (1)按时上课,认真听讲,认真完成作业。其中有一些作业需要学生自编程序用机器完成。(2)按时完成并按时提交书面形式的作业。延期提交作业需要得到任课教师的许可。 (3)完成一定量的阅读文献和背景资料,可以以小组的形式讨论学习,促进同学间的心得交 - 1 -

非参数统计分析NonparametricTests菜单详解

非参数统计分析――Nonparametric Tests菜单详解 非参数统计分析――Nonparametric Tests菜单详解 平时我们使用的统计推断方法大多为参数统计方法,它们都是在已知总体分布的条件下,对相应分布的总体参数进行估计和检验。比如单样本u检验就是假定该样本所在总体服从正态分布,然后推断总体的均数是否和已知的总体均数相同。本节要讨论的统计方法着眼点不是总体参数,而是总体分布情况,即研究目标总体的分布是否与已知理论分布相同,或者各样本所在的分布位置/形状是否相同。由于这一类方法不涉及总体参数,因而称为非参数统计方法。 SPSS的的Nonparametric Tests菜单中一共提供了8种非参数分析方法,它们可以被分为两大类: 1、分布类型检验方法:亦称拟合优度检验方法。即检验样本所在总体是否服从已知的理论分布。具体包括: Chi-square test:用卡方检验来检验二项/多项分类变量的几个取值所占百分比是否和我们期望的比例有没有统计学差异。 Binomial Test:用于检测所给的变量是否符合二项分布,变量可以是两分类的,也可以使连续性变量,然后按你给出的分界点一分为二。 Runs Test:用于检验样本序列随机性。观察某变量的取值是否是围绕着某个数值随机地上下波动,该数值可以是均数、中位数、众数或人为制定。一般来说,如果该检验P值有统计学意义,则提示有其他变量对该变量的取值有影响,或该变量存在自相关。 One-Sample Kolmogorov-Smirnov Test:采用柯尔莫哥诺夫-斯米尔诺夫检验来分析变量是否符

合某种分布,可以检验的分布有正态分布、均匀分布、Poission分布和指数分布。 2、分布位置检验方法:用于检验样本所在总体的分布位置/形状是否相同。具体包括: Two-Independent-Samples Tests:即成组设计的两独立样本的秩和检验。 Tests for Several Independent Samples:成组设计的多个独立样本的秩和检验,此处不提供两两比较方法。 Two-Related-Samples Tests:配对设计的两样本秩和检验。 Tests for Several Related Samples:配伍设计的多样本秩和检验,此处同样不提供两两比较。 一、分布位置检验方法 1、Two Independent Samples Test与 K Independent Samples Test 用于检验两独立样本/多独立样本所在总体是否相同。 Two-lndependent-Samples Test对话框: (1) Test Variable框,指定检验变量。 (2) Grouping Variable框,指定分组变量。Define Groups对话框,Groupl和Groupl后的栏中,可指定分组变量的值。 (3) TestType框,确定用来进行检验的方法。Mann-Whitney U:默认值,相当于两样本秩和检验。Kolmogorov-Smimov Z:K-S检验的一种。Moses extreme reactions:如果施加的处理使得某些个体出现 正向效应,而另一些个体出现负向效应,就应当采用该检验方法。

非参数统计教学大纲

遵义师范学院课程教学大纲 非参数统计教学大纲 (试行) 课程编号:280020 适用专业:统计学 学时数:64 学分数: 4 执笔人:黄建文审核人: 系别:数学教研室:统计学教研室 编印日期:二〇一五年七月

课程名称:非参数统计 课程编码: 学分:4 总学时:64 课堂教学学时:64 实践学时: 适用专业:统计学 先修课程:高等数学、线性代数、概率论、数理统计 一、课程的性质与目标: (一)该课程的性质 本课程属专业方向选修课程。非参数统计形成于二十世纪四十年代,是与参数统计相比较而存在的统计学一个年轻、活跃而前沿的分支,含有丰富的统计思想并在实践中有着广泛的应用。非参数统计方法不依赖于总体分布及其参数,适用于多种类型的数据,进行统计推断时仅需要一些非常一般性的假设,因而具有良好的稳健型,在总体分布未知的情况下往往比参数统计方法有效。 (二)该课程的教学目标 本课程的教学目的是使学生了解非参数统计在推断统计体系中日益重要的作用,理解非参数统计方法和参数统计方法的区别。要求学生掌握本课程的基本知识、基本概念、基本原理和基本方法,能应用非参数统计方法解决一些简单的实际问题;注重学生统计思维能力和实践能力的培养,进一步培养学生重视原始资料的完整性与准确性、对数据处理持严肃认真态度的专业素质。 二、教学进程安排 课外学习时数原则上按课堂教学时数1:1安排。

三、教学内容与要求 第一章引言 【教学目标】 通过本章学习,使学生清楚非参数统计的研究对象,了解非参数统计的历史,明白非参数统计方法和参数统计方法的区别,认识学习非参数统计方法的必要性,了解非参数统计的一些基本概念与基本工具;通过对初等推断统计的简单回顾,要求学生提炼并把握推断统计思想的实质,为后续章节学习非参数统计的分析技巧和主要思想打下基础。 【教学内容和要求】 主要教学内容:非参数统计研究内容;非参数统计小史;初等推断统计回顾;非参数统计基本概念。 教学重点与难点:教学重点是通过与参数统计异同的比较,介绍非参数统计的研究内容与研究方法;教学难点是对检验的相对效率、秩检验统计量、U统计量等非参数统计基本概念的理解。 【课外阅读资料】 吴喜之.非参数统计.北京:中国统计出版社.2009.11 【作业】 思考:非参数统计方法相对于与参数统计的优点和缺点。

非参数统计检验方法的应用

论文投稿领域:数理经济与计量经济学 非参数统计检验方法的应用 阮曙芬1 程娇翼 1 张振中2 (1.中国地质大学数理学院,武汉 430074;2.中南大学数学科学与计算学院,长沙 410075) 摘要:本文对非参数统计中常用的三种假设检验方法进行了简单的介绍。运用 Kruskal-Wallis 检验方法对2002年前三季度的上海股市综合指数收益率数据进行了周末效应的检验,结果表明2002年上海股市综合指数收益率不具有周末效应。 关键字:符号检验;Wilcoxon 秩和检验;Kruskal-Wallis 检验 1引言 非参数统计是统计分析的重要组成部分。非参数假设检验是在总体分布未知或者总体分布不满足参数统计对总体所做的假定的时候,分析样本特点,寻找相应的非参数检验统计量。本文就是以此为出发点,介绍了非参数统计中假设检验常用的几个检验方法:符号检验、Wilcoxon 秩和检验和Kruskal-Wallis 检验,然后结合具体的问题和数据,在统计软件SAS 中作相应的非参数检验。 2非参数假设检验介绍 2.1 配对样本的符号检验 符号检验是根据正、负符号进行假设检验的方法。这种检验方法用于配对设计数值变量资料的假设检验,常常是差值不服从正态分布或者总体分布未知的情况下不能用t 检验的时候使用。其原理是对差值进行编制并冠以符号,然后对正负秩和进行比较检验。 设随机变量12,,...,n X X X 相互独立同分布,分布为()F x ,()F x 在0x =连续。假设检验问题 2.2 两独立样本的Wilcoxon 秩和检验 Wilcoxon 秩和检验的理论背景如下:有两个总体,一个总体的样本为12,,...,n X X X ,相互独立同分布,分布为()F x ;另一个样本为12,,...,n Y Y Y ,相互独立同分布,分布为()G x ,()F x , ()G x 连续。问随机变量Y 是否随机大于随机变量X ,即检验

《非参数统计》教学大纲

《非参数统计》课程教学大纲 课程代码:090531007 课程英文名称:Non-parametric Statistics 课程总学时:40 讲课:32 实验:8 上机:0 适用专业:应用统计学 大纲编写(修订)时间:2017.6 一、大纲使用说明 (一)课程的地位及教学目标 《非参数统计》是应用统计学专业的一门专业基础课,是统计学的一个重要分支。课程主要研究非参数统计的基本概念、基本方法和基本理论。本课程在教学内容方面除基本知识、基本理论和基本方法的教学外,着重培养学生的统计思想、统计推断和决策能力。 通过本课程的学习,学生将达到以下要求: 1.掌握非参数统计方法原理、方法,具有统计分析问题的能力; 2.具有根据具体情况正确选用非参数统计方法,正确运用非参数统计方法处理实际数据资料的能力; 3.具有运用统计软件分析问题,对计算结果给出合理解释,从而作出科学的定论的能力; 4.了解非参数统计的新发展。 (二)知识、能力及技能方面的基本要求 1.基本知识:掌握符号检验、Wilcoxon符号秩检验、Cox-Stuart趋势检验、游程检验、Brown-Mood中位数检验、Wilcoxon秩和检验、Kruskal-Wallis检验、Jonckheere-Terpstra检验、Friedman检验、Page检验、Siegel-Tukey检验、Mood检验、Ansari-Bradley检验、Fligner-Killeen检验等非参数统计方法。 2.基本理论和方法:掌握单样本模型、两样本位置模型、多样本数据模型中的位置参数非参数统计检验方法,掌握检验尺度参数是否相等的各种非参数方法,掌握各种回归的方法,掌握分布检验的各种方法,要求能在真实案例中应用相应的方法。 3.基本技能:掌握非参数统计方法的计算机实现。 (三)实施说明 1. 本大纲主要依据应用统计学专业2017版教学计划、应用统计学专业建设和特色发展规划和沈阳理工大学编写本科教学大纲的有关规定并根据我校实际情况进行编写。 2.教学方法:课堂讲授中要重点对基本概念、基本方法和解题思路的讲解;采用启发式教学,培养学生思考问题、分析问题和解决问题的能力;引导和鼓励学生通过实践和自学获取知识,培养学生的自学能力;增加讨论课,调动学生学习的主观能动性;注意培养学生提高利用统计软件分析问题的能力。讲课要联系实际并注重培养学生的创新能力。 3.教学手段:在教学中采用多媒体教学系统等先进教学手段,以确保在有限的学时内,全面、高质量地完成课程教学任务。 (四)对先修课的要求 本课程的教学必须在完成先修课程之后进行,本课程的先修课程为概率论与数理统计。要求学生取得概率论与数理统计课程学分。 (五)对习题课、实践环节的要求 1. 对重点、难点章节应安排习题课,例题的选择以培养学生消化和巩固所学知识,用以解决实际问题为目的。

参数统计与非参数统计、

样本统计方法一般分为两个大的分支—参数统计和非参数统计。非参数统计方法主要有:一是卡方拟合度检验(大众媒介研究者经常比较某一现象所观察到的发生频次和其期望值或假设的发生频次,卡方(X的平方)是一个表示期望值和观察值之间关系的值)。其局限性在于变量必须是定类或者定序测量的。二是交叉表分析,可以同时检验两个或者更多的变量。参数统计常用于定距或定比数据。一是t检验,二是方差分析;三是相关性统计分析。 T分布在抽样分布和样本分布之间架起了一座桥梁,是借助于颐和总显著性检验来实现的,成为“t检验”。t检验又称“均值检验”,用以计算样本均值是否不同于总体均值、零或另一样本均值。可分为三种类型:一是检验样本均值是否不同于其总体均值。二是检验一个样本均值是否与另一个样本均值不同(独立样本t检验)。三是重复测量的t检验—当相比较的两组样本以某种相联系的方式重复(相同的被试在不同时间段的结果检验)。 方差分析(ANOV A)——当实验涉及机组的比较时适用的统计方法。它是均值检验的一种自然延伸,更强调样本组内与组间的变化而不是样本组均值。ANOV A将发生在因变量上的变化分为由自变量作用的方差(称为被假设方差)和不被解释的方差(称为误差或剩余方差)。“被解释”方差成为“主效应”。ANOV A应用F分布而非t分布。多因子方差分析——任何有两个或更多个自变量的ANOV A可以是多因子ANOV A,测量其“交互效应”。 相关检验——不同于t检验的均值检验,相关是一种“关联性”测量。相关测量一个变量值的改变与另一个变量值改变的关联程度。相关的显著性是指,系统性变化是否又非偶然因素引起的;换言之,相关系数是否显著大于零。最常见的相关检验是皮尔逊积矩相关系数。 例3:在某次的新闻节目收视情况调查中,总体为某市12岁以上的居民。有效样本男性为240人,平均每天收视时间31.5分钟,标准差12分钟;样本中女性180人,平均每天收视时间26.3分钟,标准差19分钟,请问总体中男女居民的新闻节目收视时间有无差异?原假设H0:总体中没有差异:H0:u1=u2;H1:u1>u2, u1

非参数检验卡方检验实验报告

大理大学实验报告 课程名称生物医学统计分析 实验名称非参数检验(卡方检验) 专业班级 姓名 学号 实验日期 实验地点 2015—2016学年度第 2 学期

Fisher 的精确检验:精确概率法计算的卡方值(用于理论数E<5)。 不同的资料应选用不同的卡方计算方法。 例为2*2列联表,df=1,须用连续性校正公式,故采用“连续校正”行的统计结果。 X2=,P(Sig)=<,表明灭螨剂A组的杀螨率极显着高于灭螨剂B组。 例 表3 治疗方法* 治疗效果交叉制表 计数 治疗效果 123 合计 治疗方法11916540 21612836 31513735合计504120111 分析:表3是治疗方法* 治疗效果资料分析的列联表。 表4 卡方检验 X2值df渐进 Sig. (双侧) Pearson 卡方 1.428a4.839

似然比4.830线性和线性组合.5141.474 有效案例中的 N111 a. 0 单元格(.0%) 的期望计数少于 5。最小期望计数为。 分析:表4是卡方检验的结果。自由度df=4,表格下方的注解表明理论次数小于5的格子数为0,最小的理论次数为。各理论次数均大于5,无须进行连续性校正,因此可以采用第一行(Pearson 卡方)的检验结果,即 X2=,P=>,差异不显着,可以认为不同的治疗方法与治疗效果无关,即三种治疗方法对治疗效果的影响差异不显着。 例 表5 灌溉方式* 稻叶情况交叉制表 计数 稻叶情况 123 合计 灌溉方式114677160 2183913205 31521416182合计4813036547 分析:表5是灌溉方式* 稻叶情况资料分析的列联表。

非参数统计分析方法总结

非参数统计分析方法 一单样本问题 1,二项式检验:检验样本参数是否与整体参数有什么关系。 样本量为n给定一个实数MO(代表题目给出的分位点数),和分位 点口(0.25,0.5,0.75)。用S-记做样本中比M0小的数的个数,S+记做样本中比M0大的数的个数。如果原假设H0成立那么S-与n的比之应为n。 H0:M=M0 HI: M k MO或者M>M(或者M

H1 :不是随机的(混合倾向,游程多,长度短)(成群倾向,游程少,长度长) Spss步骤:分析一非参数检验一游程 得出统计量R 和p 值 当p值小于0.05时拒绝原假设,没有充足理由证明该数据出现是随机的二,两个样本位置问题 1,Brown —Mood 中位数检验 给出两个样本比较两个样本的中位数或者四分位数等是否相等或者有一定关系,设一个中值为M1,—个为M2 H0:M1=M2. HI: M1H M2或者M1>M或者M1

非参数统计论文

非参数统计方法与实例 在统计学中,最基本的概念是总体、样本、随机变量、分布、估计和假设检验等,其中很大一部分食与正态理论相关的。在我们已经学过的知识里,总体的分布形式往往是给定的或已经假定了的,我们只需要在总体分布已知的基础上对参数进行估值或者进行检验。但是实际上,对总体的分布的假定并不是能随便做出的,数据可能并不是来自假定的总体分布,或者根本不是来自同一个总体。在这种假定下进行推断就可能产生错误的结论。于是,人们希望能在不假定总体分布的情况下,尽量从数据本身来获得所需的信息,这就是非参数统计的宗旨。在统计学的方法中,参数方法与非参数方法没有谁优谁劣之说,有的只是在具体情况下,谁更适用、谁更准确完整表示数据的信息。接下来,我将就参数统计与非参数统计分别分析其适用情形与优缺点,并详细介绍几种非参数统计的方法并有案例分析。 1、参数统计与非参数统计 非参数统计方法和参数统计方法共同组成统计分析方法,它们都是统计推断的基本内容。参数检验是在总体分布形式已知的情况下,对总体分布的参数如均值、方差等进行推断的方法。但是,在数据分析过程中,由于种种原因,人们往往无法对总体分布形态作简单假定,此时参数检验的方法就不再适用了。非参数检验正是一类基于这种考虑,在总体方差未知或知道甚少的情况下,利用样本数据对总体分布形态等进行推断的方法。由于非参数检验方法在推断过程中不涉及有关总体分布的参数,因而得名为“非参数”检验。 就上文我们可以看出,参数统计和非参数统计分别针对不同的数据来使用。参数统计方法的适用范围是很好确定的,它适用于数据分布已知或者可以做出比较正确的假定的数据,对这些数据进行检验、估计,得出数据总体的均值、方差等参数来描述数据特征。这样的数据一般都有这三个要求:1、抽样总体为正态分布或近似正态分布;2、各抽样总体为等方差或方差齐性;3、各变量值间是相互独立的。 而非参数统计,顾名思义,是不用估计参数来描述数据特征的方法,只通过对数据作一些诸如分布连续、有密度、具有某阶矩等一般性的假定来揭示数据特征,这也就赋予了非参数统计方法特别的适用数据范围,一般总结为以下四种:1、待分析数据不满足参数检验所要求的假定,因而无法应用参数检验;2、仅由一些等级构成的数据,不能应用参数检验。例如,在一些经济数据中,通常是将一个特征数据分级而不是采用具体数据,这样的数据时没办法做参数检验和估计的,因此非参数统计也就适用了;3、所提的问题的数据中并不包含的参数,也不能用参数检验;4、当我们需要迅速得出结果时,也可以不用参数统计方法而用非参数统

相关文档
最新文档