回归分析与非参数检验---侯-(1)

合集下载

参数检验和非参数检验

第四页，共33页。
4.2.2 单一样本t检验实例
• 【例4.2】山东省某高校5年前对大一学生体
检时，发现男生的平均体重是65.6kg。最近又抽查测量了该校50名大一学生的体重如下面的资料所示。试用单一样本t检验方法判断该校大一学生的体重与5年前相比是否有显著差异。
• 配书资料\源文件\4\正文\原始数据文件\案
• 均值是描述数据特征的一个非常重要的指标。在
做数据分析的时候，我们经常有必要根据数据分组分别输出数据的均值等描述性统计量，也经常需要对数据进行均值比较包括样本均值与总体均值比较、独立的样本之间进行均值比较、配对样本之间进行均值比较等等。其中根据数据分组分别输出数据的重要描述性统计量可以通过均值过程来完成，对数据进行均值比较可以通过相应的t 检验过程来完成。下面我们将一一介绍这些方法的功能和意义。
第一页，共33页。
4.1.1 均值过程分析的功能与意义
• SPSS的均值分析过程(Means)功能是计算数据的
各种基本描述统计量。通过均值过程分析，我们可以得到数据的平均值、最大值、最小值、方差、标准差、极差、偏度系数和峰度系数等重要的描述统计量，这与第二章介绍的描述性分析过程 (Descriptives)是类似的。但是均值分析过程(Means) 能够对数据分组计算描述性统计量并可以直接输出不同组的比较结果，从而能够对不同的组进行比较分析，所以均值分析过程(Means)属于均值比较（Compare Means）这一体系。
• SPSS的二项分布检验(Binomial Test)也是非
参数检验（Nonparametric Tests）方法的一种，它适用于对二分类变量的拟合优度检验。其基本功能是通过样本的频数分布来推断总体是否服从特定二项分布。这种检验过程也是通过分析实际的频数与理论的频数之间的差别或者说吻合程度来完成的。

非参数检验方法

⾮参数检验⽅法⾮参数检验的推断⽅法不涉及样本所属总体的分布形式，也不会使⽤均值、⽅差等统计量，⾮参数检验是通过研究样本数据的顺序和分布的性质来构成理论基础，下⾯介绍⼀些⾮参数检验经常使⽤的样本数据信息：1.顺序：将样本数据按照升序排列，可以得到X1≤X2≤X3≤Xi....≤Xn,其中Xi为第i个顺序量。

2.秩将样本数据按照升序排列，可以得到X1≤X2≤X3≤Xi....≤Xn，Ri为Xi在这⼀列数据中的位置，称为秩，R1,R2,R3...Rn为样本数据的秩统计量3.结如果样本数据中存在相同的值，那么在排序时就会出现秩相同的情况，这样的情况称为结，结的取值是对应的秩的均值。

注意是秩的均值⽽不是数据本⾝的均值。

⾮参数检验的统计理论都是根据上述概念计算⽽来，此外，和参数检验⼀样，当我们得到分析数据的时候，最先做的⼯作还是先通过图表和⼀些描述性统计量对数据整体进⾏探索性分析，掌握数据⼤致分布情况、有⽆极端值等，为后续正确选择分析⽅法打下基础。

================================================ ====⾮参数检验主要应⽤在以下场合：1.不满⾜参数检验的条件，且⽆适当的变换⽅法进⾏变换2.分布类型⽆法获知的⼩样本数据3.⼀端或两端存在不确定值，如>10004.有序分类变量求各等级之间的强度差别更进⼀步来讲，⾮参数检验可以做以下分析：⼀、单样本总体分布检验⼆、两独⽴样本差异性检验三、两配对样本差异性检验四、多个独⽴样本差异性检验五、多个相关样本差异性检验可以看出，以上应⽤除了第⼀点之外，其他都有对应的参数检验⽅法，这就要根据样本数据的实际情况来进⾏选择了：适合使⽤参数检验的优先使⽤参数检验，否则使⽤⾮参数检验。

================================================ =下⾯我们分别介绍⼀下上述应⽤对应的⾮参数检验⽅法⼀、单样本总体分布检验单样本总体分布检验主要⽤来检验某样本所在总体分布和某⼀理论分布是否存在显著差异，主要涉及的⾮参数检验⽅法有：1.卡⽅检验卡⽅检验可以检验样本数据是否符合某⼀期望分布或理论分布，这在卡⽅检验中有所介绍，在此不再多说2.⼆项分布检验⼆项分布检验主要⽤来检验样本数据是否符合某个指定的⼆项分布，该检验只适合⼆分类变量样本。

非参数回归分析

非参数回归分析非参数回归分析是一种无需对数据分布做出假设的统计方法，它通过学习数据的内在结构来建立模型。

与传统的参数回归分析相比，非参数回归分析更加灵活，适用于各种复杂的数据分布。

本文将介绍非参数回归分析的基本原理和应用场景，并通过实例来说明其实际应用。

一、非参数回归分析的原理非参数回归分析是通过将目标变量与自变量之间的关系建模为一个未知的、非线性的函数形式，并通过样本数据来估计这个函数。

与参数回归分析不同的是，非参数回归模型不需要表示目标变量与自变量之间的具体函数形式，而是通过样本数据来学习函数的结构和特征。

在非参数回归分析中，最常用的方法是核密度估计和局部加权回归。

核密度估计使用核函数对数据进行平滑处理，从而得到目标变量在不同自变量取值处的概率密度估计。

局部加权回归则是通过在拟合过程中给予靠近目标变量较近的样本点更大的权重，从而对目标变量与自变量之间的关系进行拟合。

二、非参数回归分析的应用场景1. 数据分布未知或复杂的情况下，非参数回归分析可以灵活地适应不同的数据分布，从而得到较为准确的模型。

2. 非线性关系的建模，非参数回归分析可以对目标变量与自变量之间的非线性关系进行拟合，从而获得更准确的预测结果。

3. 数据量较小或样本信息有限的情况下，非参数回归分析不需要对数据分布做出假设，并且可以通过样本数据来学习模型的结构，因此对数据量较小的情况下也具有一定的优势。

三、非参数回归分析的实际应用为了更好地理解非参数回归分析的实际应用，以下通过一个实例来说明。

假设我们有一组汽车销售数据，包括了汽车的价格和其对应的里程数。

我们希望通过这些数据预测汽车的价格与里程数之间的关系。

首先，我们可以使用核密度估计方法来估计汽车价格与里程数之间的概率密度关系。

通过对价格和里程数进行核密度估计，我们可以得到一个二维概率密度图，显示了不同价格和里程数组合的概率密度。

接下来，我们可以使用局部加权回归方法来拟合汽车价格与里程数之间的关系。

非参数回归方法

非参数回归方法非参数回归是一种灵活的建模技术，它不依赖于对数据分布的假设，因此适用于各种类型的数据分析问题。

本文将介绍非参数回归的基本原理和常用方法，包括局部线性回归、核回归和样条回归等。

1. 非参数回归的基本原理非参数回归可以看作是对自变量与因变量之间的关系进行拟合的过程，而不需要对关系的具体形式进行假设。

与参数回归不同，非参数回归方法不直接对某个函数形式进行建模，而是通过对数据进行适当的拟合，从中获取自变量与因变量之间的关系。

2. 局部线性回归局部线性回归是一种常用的非参数回归方法，它假设在自变量附近的小区域内，自变量与因变量之间的关系可以近似为线性关系。

具体而言，局部线性回归通过在每个数据点附近拟合一个线性模型来进行预测。

这种方法可以有效地捕捉到数据的非线性关系。

3. 核回归核回归是另一种常见的非参数回归方法，它利用核函数对自变量进行加权来进行拟合。

核函数通常具有类似正态分布的形状，在自变量附近的数据点被赋予更大的权重，而离自变量远的数据点则被赋予较小的权重。

核回归可以灵活地适应不同的数据分布和关系形式。

4. 样条回归样条回归是一种基于样条函数的非参数回归方法，它将自变量的取值范围划分为若干个区间，并在每个区间内拟合一个多项式函数。

样条函数的拟合可以采用不同的方法，例如样条插值和样条平滑等。

样条回归能够更精确地捕捉到数据中的非线性关系。

5. 非参数回归的优势和应用领域与参数回归相比，非参数回归具有更高的灵活性和鲁棒性。

非参数回归方法不依赖于对数据分布和关系形式的假设，适用于各种类型的数据分析问题。

非参数回归广泛应用于经济学、统计学、金融学等领域，用于探索变量之间的关系、预测未知观测值等。

结论非参数回归方法是一种适用于各种类型数据分析问题的灵活建模技术。

本文介绍了非参数回归的基本原理和常用方法，包括局部线性回归、核回归和样条回归等。

非参数回归方法能够更准确地捕捉数据中的非线性关系，具有更高的适应性和鲁棒性。

参数检验和非参数检验

一．单因素方差分析（one-way ANOVA）,用于完全随机设计的多个样本均数间的比较，其统计推断是推断各样本所代表的各总体均数是否相等。

完全随机设计（completely random design）不考虑个体差异的影响，仅涉及一个处理因素，但可以有两个或多个水平，所以亦称单因素实验设计。

在实验研究中按随机化原则将受试对象随机分配到一个处理因素的多个水平中去，然后观察各组的试验效应；在观察研究（调查）中按某个研究因素的不同水平分组，比较该因素的效应。

二．T检验，亦称student t检验（Student's t test），主要用于样本含量较小（例如n<30），总体标准差σ未知的正态分布资料。

t检验是用t分布理论来推论差异发生的概率，从而比较两个平均数的差异是否显著。

它与Z检验、卡方检验并列。

t检验t检验分为单总体检验和双总体检验。

单总体t检验时检验一个样本平均数与一个已知的总体平均数的差异是否显著。

当总体分布是正态分布，如总体标准差未知且样本容量小于30，那么样本平均数与总体平均数的离差统计量呈t分布。

单总体t检验统计量为：双总体t检验是检验两个样本平均数与其各自所代表的总体的差异是否显著。

双总体t 检验又分为两种情况，一是独立样本t检验，一是配对样本t检验。

独立样本t检验统计量为：S1 和S2 为两样本方差；n1 和n2 为两样本容量。

（上面的公式是1/n1 + 1/n2 不是减！）配对样本t检验统计量为：t检验的适用条件(1) 已知一个总体均数；(2) 可得到一个样本均数及该样本标准差；(3) 样本来自正态或近似正态总体。

t检验步骤以单总体t检验为例说明:问题：难产儿出生体重n=35，X拔=3.42，S =0.40，一般婴儿出生体重μ0=3.30（大规模调查获得），问相同否？解：1.建立假设、确定检验水准αH0：μ = μ0 （无效假设，null hypothesis）H1：μ≠μ0（备择假设,alternative hypothesis，）双侧检验，检验水准:α=0.052.计算检验统计量3.查相应界值表，确定P值，下结论查附表1，t0.05 / 2.34 = 2.032,t < t0.05 / 2.34,P >0.05，按α=0.05水准，不拒绝H0，两者的差别无统计学意义例：某校二年级学生期中英语考试成绩，其平均分数为73分，标准差为17分，期末考试后，随机抽取20人的英语成绩，其平均分数为79.2分。

非参数检验(提纲)

非参数检验参数检验方法，尤其是对计量资料，需要对研究的总体作一些比较严格的假定。

例如t检验法要求总体分布是正态分布等。

在实际工作中的许多资料不符合这种要求，因此以上的参数检验方法的使用受到了限制。

近代统计学家发明了对总体分布不必作限制性假定的检验技术，这种技术称为非参数检验（Nonparametric tests）。

非参数检验法是指在总体不服从正态分布或分布情况不明时，用来检验数据资料是否来自相同总体假设的一类检验方法。

由于它的假定前堤比参数检验方法少的多，而且在收集资料方面也十分简单，例如可以用“等级”或“符号”来评定观察的结果等，故这类方法在实际中有着广泛的应用。

第一节两相关样本的显著性检验1.1 符号检验法在配对实验中，将每对（或同一）实验单位（或先后）给予两种不同的处理，比较两种处理的效果有无差异或比较一组实验单位处理先后有无不同。

凡配对计量资料不服从正态分布要求时，可选用符号检验法（Sign test）。

例题1 有x,y 12对数据，它们的数值及相差符号由表1给出。

表1 本例的数据资料序号 1 2 3 4 5 6 7 8 9 10 11 12X 3 1 6 3 2 1 4 7 3 8 4 5Y 2 4 4 7 2 2 2 5 3 6 2 2 问这两个序列数值的差异是否具有显著性（α=0.05）？1.2 符号秩和检验法符号检验中只考虑配对数据x i-y i的符号，计算十分简便，但因没有考虑到x i-y i 差值的大小，因此对资料的利用不够充分，检验的灵敏度也不够好。

符号秩和检验法是上述方法的改进，由于关注到了差值的大小，故效果较好。

凡配对计量或计数的资料，可选用符号秩和检验法（Wilcoxon法）。

例题2 为研究长跑运动对增强普通高校学生的心功能效果，对某学院15名男生进行实验，经过5个月的长跑锻炼后观察其晨脉变化情况。

锻炼前后的晨脉数据如下。

问锻炼前后晨脉间的差异有无显著性（α=0.05）？表2 长跑锻炼前后的晨脉数、差值及其秩次序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 前70 76 56 63 63 56 58 60 65 65 75 66 56 59 70 后46 54 60 64 48 55 54 45 51 48 56 48 64 50 54 差值22 22 -4 -1 15 1 4 15 14 17 19 18 -8 9 16 秩次14.5 14.5 –3.5 –1.5 8.5 1.5 3.5 8.5 7 11 13 12 -5 6 101.3 用spss对两相关样本进行非参数检验spss软件包的Nonparametric Tests过程为两相关样本通常提供了3种非参数检验方法，它们是：Sign 检验，用于对两相关样本的总体做符号检验。

R语言——参数检验和非参数检验

参数检验是针对参数做的假设，对总体参数如平均值、方差进行检验，称为参数检验。参数检验要利用到总体的信息（总体分布、总体的一些参数特征如方差等），以总体分布和样本信息对总体参数作出推断。在假设检验中，如总体的分布类型F(x；θ)为明确已知，但其中的参数θ为未知。统计假设只涉及未知参数的检验，如u检验，t检验，F检验，Z检验等都是参数检验。其过程可以简单概括为，先假设被检验参数来自同一总体，由样本数据构造检验统计量，若统计量值落入拒绝域内，则在一定显著性水平下拒绝接受原假设，说明被检参数与总体参数在统计上有显著性差异。参数检验只能用于等距数据和比例数据。
参数检验和非参数检验的区别
计量资料一般是参数、非参数检验都是可以的。但是对于能使用参数检验的，首选参数检验，对不能满足条件的才选用非参数检验。
参数检验一般有：T检验，方差分析，（要求：方差齐性、正态分布）一般也是用于计量资料。选用非参数检验的情况有：①总体分布不易确定（也就是不知道是不是正态分布）②分布呈非正态而无适当的数据转换方法③等级资料④一段或两段无确定数据等（比如一段的数据是>50，是一个开区间）
当我们研究的样本处于良好情况下（近似正态、无离群点、数据量大等），传统的参数检验是很有效的。但是当这些前提条件不再满足时，参数检验就不再有效。此时人们往往求助于非参数检验，非参数检验不再关注数据的值，而只关注数据的秩，这样就抛弃了大量可用的信息。而置换检验采取重复随机抽样的方法，通过对样本再抽样构造经验分布，然后在此基础上生成P值进行推断，达到很好的效果。但要注意的是，如果样本不能很好的代表总体，任何检验方法都是无效的
然而有许多观察结果却并不是真正的数值例如只是某种分类或等级倘若强行将上述运算施于这种非真正数值的观察结果则势必会歪曲事情的本来面目从而使人们对检验的有效性产生怀疑这时只有采用非参数统计才能得到有价值的结果

非参数检验综述

非参数检验综述作者：悦菁审稿：石鹏封面：吉江基本概念非参数检验(Nonparametric tests)是统计分析方法的重要组成部分，它与参数检验共同构成统计推断的基本内容。

由于参数检验必须是在总体分布形式已知的前提下，对总体分布的参数如均值、方差等进行推断的方法。

而非参数检验却可在总体方差未知或知道甚少的情况下，利用样本数据对总体分布形态等进行推断的方法。

由于非参数检验方法在推断过程中不涉及有关总体分布的参数，因而得名为“非参数”检验。

单样本非参数检验SPSS单样本非参数检验是对单个总体的分布形态等进行推断的方法，其中包括卡方检验、二项分布检验、K-S检验以及变量值随机性检验等方法。

一、总体分布的卡方检验卡方检验方法可以根据样本数据，推断总体分布与期望分布或某一理论分布是否存在显著差异，是一种吻合性检验，通常适于对有多项分类值的总体分布的分析。

它的原假设是：样本来自的总体分布与期望分布或某一理论分布无差异。

二、二项分布检验在生活中有很多数据的取值是两类，例如，人群可以分成男性和女性，投掷硬币实验的结果可以分成出现正面和出现反面等。

通常将这样的二值分别用1或0表示。

如果进行n次相同的实验，则出现两类（1或0）的次数可以用离散型随机变量X来描述。

如果随机变量X为1的概率设为P，则随机变量X值为0的概率Q便等于1-P，形成二项分布。

SPSS的二项分布检验正是要通过样本数据检验样本来自的总体是否服从指定的概率为P的二项分布，其原假设是：样本来自的总体与指定的二项分布无显著差异。

三、单样本K-S检验K-S检验方法能够利用样本数据推断样本来自的总体是否服从某一理论分布，是一种拟合优度的检验方法，适用于探索连续型随机变量的分布。

单样本K-S检验的原假设是：样本来自的总体与指定的理论分布无显著差异，SPSS的理论分布主要包括正态分布、均匀分布、指数分布和泊松分布等。

四、变量值随机性检验变量值随机性检验通过对样本变量值的分析，实现对总体的变量值出现是否随机进行检验。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

大连民族学院
数学实验报告
课程：统计软件—SPSS
实验题目：线性回归分析与非参检验
系别：理学院
专业：统计学
姓名：侯祥飞
班级：141班
指导教师：滕颖俏
完成时间：2016 年10 月30
日
实验目的：
掌握线性回归分析的主要目标及其具体操作，能够读懂基本分析结果，掌握计算结果之间的数量关系，并能够写出回归方程，对回归方程进行各种统计检验。

了解SPSS非参数检验的具体操作，能够解释分析结果。

实验内容、实验步骤、实验结果及分析
一、线性回归分析
（一）9.5 粮食总产量
1.实验内容
先收集到若干年粮食总产量以及播种面积、使用化肥量、农业劳动人数等数据，请利用建立多元线性回归方程，分析影响粮食总产量的主要因素。

数据文件名为“粮食总产量.sav”。

2.实验步骤
步骤：分析→回归→线性→粮食总产量导入因变量、其余变量导入自变量→确定；分析→回归→线性→（向后）→确定
3.实验结果及分析
上表进行了拟合优度检验，由于该方程有多个解释变量，因此参考调整判定系数（0.986）较接近1，因此认为拟合有度较高，被解释变量可以被模型解释的部分较多，不能被解释的部分较少。

上表进行了回归方程的显著性检验，由于Sig为0小于0.05，所以拒绝原假设，认为各回归系数不同时为0，被解释变量与解释变量全体的线性关系是显著的，可以建立线性模型。

上表进行了回归系数的显著性检验，可以看出除粮食播种面积与农业劳动者人数变量的P-值均大于0.05，所以接受原假设，认为这
些偏回归系数与0无显著性差异，它们与被解释变量的线性关系是不显著的，不应该保留在方程中。

影响程度来由大到小依次是风灾面积、施用化肥量、总播种面积和年份（排除农业劳动者人数和粮食播种面积对粮食产量的影响）。

得回归方程为：7.4567.26817.126215.68037.8934
=-+++-，
Y X X X X
其中X1,X2,X3,X4分别为年份，总播种面积，施用化肥量，风灾面积比例。

（二）9.6 销售量
1.实验内容
一家产品销售公司在30个地区设有销售分公司。

为研究产品销售量(y)与该公司的销售价格（x1）、各地区的年人均收入(x2)、广告
同年龄段人群对该商品满意程度的分布存在显著差异。

但Jonckheere-Terpstra检验的sig值为0.641>0.05，故接受原假设，认为不同年龄段人群对该商品满意程度的分布存在显著差异。

(二)7.2
1.实验内容
利用习题二第6题数据，选择恰当的非参数检验方法，分析本次存款金额的总体分布与正态分布是否存在显著差异。

2.实验步骤
分析→非参数检验→单个独立样本K-S检验→本次存款金额导
入检验变量列表→正太分布检验→确定
3.实验结果及分析
如上表所示，在显著水平为0.05下得到的sig值均为0.00<0.05，故拒绝原假设，认为本次存款金额的分布与正太分布有显著差异。

(三)7.3
1.实验内容
利用习题二第6题数据，选择恰当的非参数检验方法，分析不同常住地人群本次存款金额的总体分布是否存在显著差异。

2.实验步骤
分析→非参数检验→2个独立样本→常住地导入分组变量、本次存款金额导入检验变量列表→确定
3.实验结果及分析
从上表中可以看出，在显著水平为0.05下得到的sig值为0.135>0.05，故接受原假设，认为不同常住地人群本次存款金额的总体分布无显著差异。

(四)7.4
1.实验内容
利用习题二第6题数据，选择恰当的非参数检验方法，分析不同收入人群本次存款金额的总体分布是否存在显著差异。

2.实验步骤
分析→非参数检验→多个独立样本→不同收入人群导入分组变量、本次存款金额导入检验变量列表→确定
3.实验结果及分析
在表中可以看出，在Kruskal-Wallis检验、中值检验、Jonckheere-Terpstra检验在显著水平为0.05下得到的sig值均为0.00<0.05，所以拒绝原假设，即认为不同收入人群本次存款金额的总体分布存在显著差异。

(五)7.5
1.实验内容
选择恰当的非参数检验方法，对“裁判打分.sav”数据随机选取10%的样本，并以恰当形式重新组织数据后，分析不同国家裁判对运动员的打分标准是否一致。

原假设：不同国家裁判对运动员的打分标准无显著差异
2.实验步骤
数据→选择个案→随机个案样本→样本→大约10%所有个案→继续→确定→挑选初选中的数据→国家和评分组建新的SPSS数据→分析→非参数检验→多个独立样本检验→把评分导入检验量→把国家导入分组→确定
3.实验结果及分析
根据上表，在Kruskal-Wallis检验、中值检验、Jonckheere-Terpstra 检验中，在显著水平为0.05下得到的sig值分别为0.00，0.00，0.047均0.05，拒绝原假设，认为不同国家对其评分有显著影响。

(六)7.6
1.实验内容
为分析大众对牛奶品牌是否具有偏好性，随机挑选超市了收集其周一至周六各天三种品牌牛奶的日销售额数据，如下表：请选择恰当的非参数检验方法，以恰当形式组织上述数据进行分析，并说明分析结论。

2.实验步骤
建立spss数据→加权个案→销售额进行加权→分析→非参数检验→两个独立样本检验→确定
3.实验结果及分析
据上表，Kruskal-Wallis检验、中值检验、Jonckheere-Terpstra 检验在显著水平为0.05下得到的sig值分别为0.484，0.733，0.651均0.05，故接受原假设，不同日期对品牌销售量的分布无显著差异。

实验启示：
通过本次实验，我们了解到回归分析是一种应用极为广泛的数量分析方法。

我们还掌握了线性回归分析的具体操作，并会对回归方程进行各种统计检验。

能够运用SPSS进行非参数检验，能够读懂结果并进行分析。