常用非参数统计的方法
非参数统计方法与排序分析

非参数统计方法与排序分析在统计学中,非参数统计方法和排序分析是两种常见的数据分析技术。
非参数统计方法是指不依赖于数据分布假设的一类统计方法,它们主要利用样本数据中的秩次信息进行分析。
而排序分析是一种基于数据排序的方法,用于比较和评估不同样本之间的差异或关联性。
本文将介绍非参数统计方法和排序分析的基本概念、应用领域和步骤。
一、非参数统计方法非参数统计方法是一组方法,对数据的分布形态并不作出具体的假设,不要求数据满足特定的概率分布。
与参数统计方法相比,非参数统计方法更加灵活,适用于更广泛的数据情况。
1.1 秩次统计秩次统计是一种常见的非参数统计方法,它将数据转化为秩次,并利用秩次信息进行推断。
秩次统计的一个常见应用是配对样本的非参数假设检验。
例如,在医学研究中,我们常常需要比较两种治疗方法的疗效。
通过为每个病人记录治疗前后的秩次,可以使用秩次统计方法来评估两种治疗方法之间的差异。
1.2 二项分布检验二项分布检验是一种非参数假设检验方法,用于比较两个二项分布之间的差异。
例如,在市场调研中,我们可以使用二项分布检验来比较两个不同广告策略的点击率。
通过计算置信区间和p值,我们可以判断两种广告策略的效果是否具有统计显著性。
1.3 无参数回归无参数回归是一种在没有具体函数形式假设的情况下进行回归分析的方法。
它主要通过局部加权回归来拟合数据,并预测因变量的取值。
无参数回归在处理非线性关系和异常值时往往更加鲁棒,因此在实际应用中具有重要意义。
二、排序分析排序分析是一种基于数据排序的方法,用于比较和评估不同样本之间的差异或关联性。
2.1 排名相关系数排名相关系数是一种衡量两个变量之间关联性的指标,常用于排序分析。
最常见的排名相关系数是斯皮尔曼相关系数,它基于变量的秩次进行计算,不受数据分布的影响。
排名相关系数的取值范围在-1到1之间,值越接近1或-1表示两个变量之间的相关性越强。
2.2 先验概率排序先验概率排序是一种基于排序的方法,用于根据样本的排序信息进行决策分析。
常用非参数统计方法

•2020/10/16
例10.3 在研究白血病时,测得鼠脾的DNA含量如表 10.3第(1)、(3)、(5)、(7)栏。问不同病情的鼠脾 DNA含量有无差别?
•2020/10/16
一、建立假设检验,确定检验水准
❖H0:四种鼠脾DNA含量总体分布位置相同
•2020/10/16
➢正态近似检验,公式为:
• 当相同秩次较多时,
•2020/10/16
等级资料的形式
• 例10.2 用某药治疗不同病情的老年慢性支气管炎病 人,疗效见表10.2第(1)、(2)两栏,问该药对两种病 情的老年慢性支气管炎病人的疗效是否相同?
•常错误采用 卡方检验
•2020/10/16
•统计量
•2020/10/16
正态近似法公式确定概率P:
•2020/10/16
统计学基本内容
•分析资料的步骤:
•1、确定资料的类型:
•
分类资料、定量资料;
•2、选择适当的统计方法;
•3、作出统计推断结论。
•定量资料的分析: • t检验 Z(U)检验 (F检验)
•分类资料的分析: • 检验
•2020/10/16
非参数检验又称任意分布检验(distribution-free test) 。
➢ 优点:资料分布特征要求较低,适用范围广,收集资料方便 ;对不满足参数方法的资料,效率高。
➢ 缺点:对适宜用参数方法的资料,若用非参数法处理,没 有充分利用资料提供的信息,导致检验效能下降。犯第Ⅱ 类错误概率比参数检验大。
一、假设
• H0:两种病情病人的疗效分布相同。 • H1:两种病情病人的疗效分布不同。 • α=0.05
非参数统计分析

非参数统计分析是指不需要任何假设的情况下,对数据进行分析和处理的方法。
相对于参数统计分析,更加灵活和适用于更广泛的数据集。
在中,我们通常使用基于排列和重抽样方法的统计分析,这些方法在处理离散和连续的数据集时都十分有效。
如何进行1. 非参数检验非参数检验方法不要求数据满足特定的分布,通常分为两类:①秩和检验秩和检验是比较两组数据的中位数是否相等。
对于小样本来说,一般采用Wilcoxon签名检验。
而对于大样本,通常会使用Mann Whitney U检验。
②秩相关检验秩相关检验是比较两个或多个变量的相关性关系。
这种类型的检验最常用的是Spearman秩相关系数和Kendall Tau秩相关测试。
2. 非参数估计器由于非参数统计方法不依赖于任何先验假设,因此非参数估计器在数据少或均值和方差无法准确估计的情况下较为常用。
在非参数估计器中,常用的方法有:①核密度估计核密度估计通常是数据分析和可视化的首选。
它能够获得不同分布的概率密度函数的非参数估计器。
②基于距离的方法基于距离的方法通常使用K近邻算法或半径最邻近算法来估计密度。
这种方法特别适合于计算高维数据的密度估计。
3. 非参数回归非参数回归是一种灵活的模型,他用于数据挖掘过程中的最复杂部分。
与标准回归技术不同,非参数回归方法不需要数据满足任何特定分布。
在非参数回归中,主要的方法有:①核回归在核密度估计和非参数回归中使用的是相同的核函数。
相对于线性回归方法,核回归更加灵活,适用于非线性分布的数据。
②局部回归局部回归的本质是计算小范围或子集内的平均值,并在这些平均值上拟合局部模型。
这种方法特别适用于非线性回归和数据样本集的大小不规则的情况。
非参数统计优势非参数统计方法的最大优势在于能够在没有特定假设下应用于任何样本集,这使得无需预先了解数据的分布和性质。
此外,非参数统计方法还有其他的优势,如:1. 不受异常数据的影响:统计方法通常受异常数据的影响较大,但非参数统计方法不会使结果发生显著的变化。
非参数统计方法及其应用领域

非参数统计方法及其应用领域统计学是一门研究收集、整理、分析和解释数据的学科。
在统计学中,参数统计方法和非参数统计方法是两种常用的分析工具。
本文将重点介绍非参数统计方法及其应用领域。
一、非参数统计方法的概念非参数统计方法是指在进行统计推断时,不对总体的概率分布做出任何假设的方法。
与参数统计方法相比,非参数统计方法更加灵活,适用于数据分布未知或非正态分布的情况。
非参数统计方法不依赖于总体的参数,而是基于样本的秩次或分布来进行推断。
二、非参数统计方法的基本原理非参数统计方法的基本原理是通过对数据的秩次或分布进行分析,从而得出总体的统计推断。
常用的非参数统计方法包括秩和检验、秩次相关分析、K-S检验等。
这些方法不依赖于总体的参数,而是根据样本数据的排序或分布情况进行分析。
三、非参数统计方法的应用领域1. 生态学研究生态学研究中常常需要对生物群落的多样性进行评估。
非参数统计方法可以用来比较不同生物群落的物种多样性,例如使用Shannon指数和Simpson指数等进行比较分析。
非参数统计方法还可以用来研究生物群落的相似性和差异性,通过计算样本的秩次或分布来进行推断。
2. 医学研究医学研究中常常需要比较不同治疗方法的疗效。
非参数统计方法可以用来比较两个治疗组之间的差异,例如使用Wilcoxon秩和检验或Mann-Whitney U检验等。
非参数统计方法还可以用来研究药物的剂量反应关系,通过计算样本的秩次或分布来进行推断。
3. 金融风险管理金融风险管理中需要对资产收益率的分布进行建模和分析。
非参数统计方法可以用来拟合资产收益率的分布,例如使用核密度估计方法或分位数回归方法等。
非参数统计方法还可以用来研究资产收益率的尾部风险,通过计算样本的秩次或分布来进行推断。
4. 社会科学研究社会科学研究中常常需要对调查数据进行分析。
非参数统计方法可以用来比较不同群体之间的差异,例如使用Kruskal-Wallis检验或Friedman检验等。
非参数统计方法的介绍

非参数统计方法的介绍统计学是一门研究数据收集、分析和解释的学科,为了更好地理解和解释数据,统计学家们发展了各种各样的统计方法。
其中一类重要的方法就是非参数统计方法。
与参数统计方法相对,非参数统计方法不依赖于对总体分布的假设,更加灵活和广泛适用于各种情况。
一、非参数统计方法的概述非参数统计方法是基于数据的排序和秩次的分析方法,不需要对总体参数进行假设。
它的主要特点是:不依赖于总体的分布形式,适用于任意类型的数据;不需要对总体参数进行估计,不需要检验参数值;能够处理非连续型变量和偏态数据。
二、秩次统计法秩次统计法是非参数统计方法中的一种重要方法,主要用于比较两组数据的差异或相关性检验。
这种方法将原始数据转化成秩次或秩次差来进行统计分析,具有较好的稳健性和非正态分布数据的适应性。
三、Wilcoxon秩和检验Wilcoxon秩和检验是秩次统计法的一种常见应用,常用于比较两个相关样本或配对样本的差异。
它主要通过将配对观测值的差异转化为秩次,来判断两个总体是否存在差异。
四、Mann-Whitney U检验Mann-Whitney U检验是另一种常见的秩次统计方法,主要用于比较两个独立样本的差异。
该方法不依赖于总体分布的假设,适用于非正态分布和偏态数据。
它通过比较两个样本的秩次和来判断两个总体是否存在差异。
五、Kruskal-Wallis检验Kruskal-Wallis检验是一种非参数多样本比较方法,适用于三个以上独立样本的差异性检验。
该方法通过将原始数据转化为秩次和来判断不同样本组之间是否存在显著差异。
六、Friedman检验Friedman检验是非参数的配对多样本差异比较方法,用于比较同一组样本在不同条件下的差异。
该方法是将样本各组的观测值转化为秩次,再计算秩次和进行统计推断。
七、Bootstrap法Bootstrap法是一种利用从原始数据中随机抽样的方差估计方法,适用于样本较小或者未知分布的情况。
它通过有放回的抽样来生成多个样本,从而对样本的分布进行估计,并得出对总体参数的估计值。
kernel密度估计法

kernel密度估计法Kernel密度估计法是一种常用的非参数统计方法,用于估计随机变量的概率密度函数。
在统计学中,概率密度函数描述了随机变量在每个可能取值处的概率分布情况。
Kernel密度估计法通过将一组核函数在每个数据点上进行加权平均来估计概率密度函数。
这种方法的优势在于不需要对数据进行任何分布假设,并且可以适用于任意维度的数据。
Kernel密度估计法的核心思想是将每个数据点周围的一小段区域视为一个核函数的支持区间,将这些核函数加权平均后得到概率密度函数的估计。
核函数通常是一个关于原点对称的函数,且满足积分为1的条件。
常用的核函数有高斯核函数、矩形核函数和三角核函数等。
在进行Kernel密度估计时,首先需要选择合适的核函数和带宽参数。
核函数的选择和带宽参数的确定会直接影响到估计结果的准确性。
常用的带宽选择方法有最小二乘交叉验证和正态分布近似等。
一旦确定了核函数和带宽参数,就可以利用Kernel密度估计法来估计概率密度函数。
对于一个给定的数据点,首先将该点周围的一小段区域视为一个核函数的支持区间,然后计算该点在该区域内的核函数值。
再将所有数据点的核函数值加权平均,得到该数据点处的概率密度估计值。
重复这个过程,可以得到整个数据集的概率密度估计函数。
Kernel密度估计法的优点在于其灵活性和无偏性。
由于不需要对数据进行任何分布假设,因此可以适用于各种类型的数据。
另外,由于采用了加权平均的方法,所以估计结果相对较为平滑,不容易受到离群值的干扰。
然而,Kernel密度估计法也存在一些缺点。
首先,带宽参数的选择对估计结果有较大的影响,但如何选择合适的带宽参数并没有一个统一的标准。
其次,当数据维度较高时,由于样本点的稀疏性,估计结果可能会变得不准确。
此外,当样本量较大时,计算复杂度较高,运算速度较慢。
为了解决上述问题,研究人员提出了一些改进的Kernel密度估计方法。
例如,可以采用自适应带宽参数,根据数据的局部特征来确定带宽参数的取值。
统计cmh法
统计CMH法1. 引言统计CMH法(Cochran-Mantel-Haenszel test)是一种常用的统计方法,用于比较两个或多个分类变量之间的关联性。
它是一种非参数统计方法,适用于样本量较小或数据不满足正态分布的情况。
统计CMH法可以用于分析独立样本或配对样本的数据。
本文将详细介绍统计CMH法的原理、应用场景、计算步骤以及结果解读,以帮助读者更好地理解和应用该方法。
2. 原理统计CMH法是基于卡方检验的一种扩展方法,用于比较两个或多个分类变量之间的关联性。
它可以用于分析2x2或更大的列联表数据。
在统计CMH法中,我们假设两个或多个分类变量之间的关联性相同,然后计算出一个统计量,称为CMH统计量。
该统计量的计算基于每个单元格的观察频数和期望频数之间的差异。
3. 应用场景统计CMH法适用于以下情况:•独立样本:比较两个或多个不同组别的样本在两个或多个分类变量上的关联性。
•配对样本:比较同一组别的样本在两个或多个分类变量上的关联性。
统计CMH法在医学研究、社会科学、市场调研等领域都有广泛的应用。
例如,医学研究中可以使用统计CMH法来比较两种治疗方法在不同人群中的有效性;市场调研中可以使用统计CMH法来分析广告对不同人群的影响等。
4. 计算步骤统计CMH法的计算步骤如下:步骤1:收集数据,构建列联表。
步骤2:计算每个单元格的期望频数。
期望频数是基于独立性假设计算的,表示在两个或多个分类变量之间没有关联时,每个单元格的预期频数。
步骤3:计算每个单元格的卡方值。
卡方值是观察频数与期望频数之间差异的度量。
步骤4:计算CMH统计量。
CMH统计量是所有单元格的卡方值的总和。
步骤5:计算自由度。
自由度是CMH统计量中独立变量的个数减1。
步骤6:根据自由度和显著性水平,查找卡方分布表,确定拒绝域。
步骤7:比较计算得到的CMH统计量与临界值,判断是否拒绝原假设。
5. 结果解读在统计CMH法中,我们需要解读两个主要的结果:CMH统计量和p值。
医学统计学常用非参数统计方法
n1=7
T1=93.5
思考:为什么不能用参数检验?
10.2.1 方法步骤
(1)假设 HO: 铅 作 业 工 人 和 非 铅 作 业 工 人 血 铅 值 分布的位置相同。 H1:铅作业工人和非铅作业工人血铅值分布 的位置不同。 α=0.05
(2)求检验统计量T值
将两组数据分别由小到大排队,然后统一编秩;编秩 时如遇有原始数据相同时,均取平均秩次; 取样本容量较小者为n1,其秩次为统计量T
u uc c
例 10.2
用某药治疗不同病情的老年慢性支气管炎病人,疗效见表 10.2 第(1)、(2) 两栏,问该药对两种病情的老年慢性支气管炎病人的疗效是否相同? 表 10.2 某药对两种病情的老年慢性支气管炎病人的疗效比较
单纯性合 并肺气肿 ( 2) 合计 秩次范围 平均秩次 单纯性
(3) = (1) + (2) (4)
134 7
(1) 建立假设 H0:四种鼠脾DNA含量的总体分布位置相同。 H1:四种鼠脾DNA含量总体分布位置不同或不 全同。 α =0.05 (2)计算检验统计量H值
Ri2 12 H 3N 1 N N 1 ni (3)确定P值和作出推断结论
(3)确定P值和作出推断结论 若组数 k=3, 每组例数 ni≤5, 可查附表 19 , H 界值表得出P值。 若 k>3,最小样本例数不小于 5 ,则 H 近似服从 ν=k-1 的 χ2 分布。本例 k=4,ni>5, ν=k-1=41=3, 查附表 10 , χ2 界值表,得 P<0.005。按 α=0.05 水准拒绝 H0,接受 H1,认为不同病情 的鼠脾DNA含量有差别。
第十章 常用非参数统计方法
白志茂 zhimaobai@
数理统计中的非参数统计与鲁棒统计
数理统计中的非参数统计与鲁棒统计在数理统计学中,我们经常遇到对数据进行分析和推断的问题。
为了解决这些问题,统计学家们发展了许多不同的统计方法和技术。
其中,非参数统计与鲁棒统计是两个重要的分析方法。
本文将介绍非参数统计与鲁棒统计的概念、应用以及优点。
一、非参数统计非参数统计是一种不依赖于总体分布的统计方法。
它不对总体分布做出任何假设,而是从样本本身的分布出发来进行推断和分析。
非参数统计方法适用于总体分布形式未知或不满足正态分布等假设的情况。
常见的非参数统计方法有秩次统计、符号检验、威尔科克森秩和检验等。
非参数统计的主要优点是具有更广泛的适用性。
它不需要对总体分布的形状做任何假设,因此适用于各种复杂的数据类型和分布形式。
此外,非参数统计方法不受异常值的影响,能够更好地处理存在极端值的数据。
非参数统计方法常用于以下几个方面:1. 非正态数据的分析:对于非正态数据,非参数方法能够提供更准确的估计和推断。
2. 非线性关系的检验:非参数回归方法可以用于检验变量之间的非线性关系,比如典型相关性分析等。
3. 非参数的假设检验:对于总体分布未知或不满足正态分布的情况,非参数方法提供了一种有效的假设检验方法。
二、鲁棒统计鲁棒统计是一种能够在数据中存在异常值或偏差的情况下,仍能有效地进行分析和推断的统计方法。
鲁棒统计忽略或减小了异常值的影响,并保持对数据全局特征的有效估计。
鲁棒统计的核心思想是通过使用鲁棒估计量来进行推断。
常见的鲁棒统计方法有中位数、经验分位数回归、高维鲁棒统计等。
鲁棒统计方法具有以下几个优点:1. 对异常值和偏差具有鲁棒性:鲁棒统计方法对异常值和偏差的影响较小,能够准确估计数据的整体结构。
2. 适用范围广泛:鲁棒统计方法适用于各种分布形式和数据类型,无需过多考虑总体分布的假设。
3. 提高统计推断的可靠性:通过使用鲁棒估计量,鲁棒统计方法能够降低统计推断的误差。
鲁棒统计方法在许多领域中都有广泛的应用:1. 金融领域:对于金融数据中的异常值和离群点,鲁棒统计方法能够提供更可靠的分析结果。
非参数统计方法
非参数统计方法非参数统计方法是一种统计学中的重要概念,它不依赖于总体的具体分布形式,而是利用样本数据进行推断和分析。
与参数统计方法相比,非参数统计方法更加灵活和广泛适用,并且不需要对总体进行特定的假设。
本文将介绍非参数统计方法的原理、常用的方法和应用领域。
一、非参数统计方法的原理非参数统计方法的核心思想是基于样本数据来进行推断,而不需要对总体的分布形式做出先验假设。
非参数统计方法主要利用统计排序和秩次来进行推断分析,因此非参数统计方法也常被称为秩次统计方法或分布自由方法。
非参数统计方法的基本原理包括以下几个方面:1. 统计排序:对样本数据进行排序,将每个观测值按照大小进行排列,得到一系列秩次。
2. 秩次:将每个观测值与排序后的位置相对应,得到每个观测值的秩次。
3. 检验统计量:通过计算秩次之间的差异来判断总体分布是否存在差异。
4. 非参数假设检验:通过计算检验统计量的概率分布,判断总体分布是否符合我们的假设。
二、常用的非参数统计方法1. 秩和检验(Mann-Whitney U检验):用于比较两个独立样本是否来自同一总体。
2. 秩和差检验(Wilcoxon符号秩检验):用于比较两个相关样本是否来自同一总体。
3. 克鲁斯卡尔-瓦里斯检验:用于比较三个或更多独立样本是否来自同一总体。
4. 费希尔精确检验:用于比较两个分类变量之间的关联性。
5. 秩和相关检验(Spearman等级相关系数):用于比较两个变量之间的相关性。
三、非参数统计方法的应用领域非参数统计方法在各个领域都有广泛的应用,以下列举几个常见的应用领域:1. 医学研究:非参数统计方法可以用于比较两种治疗方法的效果,判断是否存在显著差异。
2. 经济学研究:非参数统计方法可以用于分析收入差距、失业率等经济指标的差异。
3. 生态学研究:非参数统计方法可以用于比较不同区域的生物多样性指标,评估生态系统的稳定性。
4. 社会科学研究:非参数统计方法可以用于分析社会调查数据,比较不同群体的行为差异。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
拒绝
42 接受 84 拒绝
按α=0.05水准,拒绝H0,接受H1,故认为 铅作业工人比非铅作业工人血铅值高。
11/21/2018 15
正态近似检验,公式为:
u T n1 n1 n2 1 / 2 0.5 n1n2 n1 n2 1 / 12
i
当相同秩次较多时,
u uc C
9
n1=7
11/21/2018
T1=93.5
一、建立检验假设,确定检验水准
H0:铅作业与非铅作业工人血铅值分布的位置
相同,
H1:铅作业与非铅作业工人血铅值分布的
位置不同。 α
二、计算检验统计量T 值
混合编秩 0.24 0.24 0.29 0.33 0.44 0.58 0.63 0.72 0.82 0.87 0.87 0.97 1.01 1.21 1.64 2.08 2.13 遇有原始数据相同时,可分两种情况处 理:①相同数据在同一组,其秩次按位置 的顺序。②相同数据分在两组,均取其平 均秩次(10+11)/2=10.5。
秩(rank) → 秩和(rank sum) →秩和检验(rank sum test) 用数据排序的秩来代替原数据进行假设检验: 位置检验
适宜作非参数检验的资料
计量资料,总体偏离正态性或总体分布未知
等级资料:痊愈、显效、有效、无效;-、
+、++、+++; 心功能分级;烧伤程度…
±、
边界不确定的资料:如出现>50mg或 0.5mg以下
n1=7
T1=93.5
11/21/2018
13
• 两组秩次分别相加 T1=93.5 T2=59.5 取较小样本的秩和记为统计量 T, 本例 n1=7,n2=10,取T=T1=93.5 两组合计的秩和为多少?
11/21/2018 14
三、确定P值和作出推断结论
查附表12, n1=7, n2-n1=10-7=3, 原则:内大外小 双侧0.05 42-84
3 C 1 (t 3 t ) /( N N) j j j 1
式中 t j (j=1,2,…)为第 j 个相同秩的个数
假定相同秩(即平均秩)中有 2 个 1.5,5 个 8,3 个 14,则
t1 2 , t2 5 , t3 3 ,
11/21/2018
(t
3 j
t j ) (2
优点:资料分布特征要求较低,适用范围广,收集资料方便; 对不满足参数方法的资料,效率高。 缺点:对适宜用参数方法的资料,若用非参数法处理,没 有充分利用资料提供的信息,导致检验效能下降。犯第Ⅱ 类错误概率比参数检验大。
非参数方法很多,主要介绍秩和检验(rank sum test) 。
11/21/2018
3
2) (5 5) (3 3) 150
3 3
16
等级资料的形式
• 例10.2 用某药治疗不同病情的老年慢性支气管炎病 人,疗效见表10.2第(1)、(2)两栏,问该药对两种病 情的老年慢性支气管炎病人的疗效是否相同?
11/21/2018
8
两样本比较秩和检验
例 测得铅作业与非铅作业工人的血铅值 (μmol/L), 问两组工人的血铅值有无差别?
表 10.1 两组工人的血铅值 (μmol/L) 铅作业组 (1) 0.82 0.87 0.97 1.21 1.64 2.08 2.13 秩次 (2) 9 10.5 12 14 15 16 17 非铅作业组 (3) 0.24 0.24 0.29 0.33 0.44 0.58 0.63 0.72 0.87 1.01 n2=10 秩次 (4) 1 2 3 4 5 6 7 8 10.5 13 T2=59.5
11/21/2018 2
参数统计 VS 非参数统计
参数统计(parametric statistics):已知总体分 布类型,通过样本统计量对总体参数进行估 计和检验。 : (x Z s , x Z s )
/2 x /2 x
区间估计:
t检验: u1= u2 ?要求独立随机样本、取自 正态总体、方差齐性
4
1 4 10 11 12 13 14 15 80
2 3 5 6 7 8 9 16 56
8 7 6 5 4 3 2 1
9 10
11 12
14 13
15
16
• 非正态分布:两个班同学(n1,n2)从高到低、 交错地排在队伍中,编号(即身高的秩次),若两 个班同学身高相近(排列均匀),则每个班所报数 字之和(秩和T)与其理论秩和相差不大。反之,
常用非参数统计方法
孙金芳 sjf_1128@
流行病与卫生统计学系 东南大学公共卫生学院
概念复习
• 统计描述
• 数值资料 (P4 变量的分类)
• 集中趋势 — 平均数 (P9)
–算术均数:单峰对称分布(正态、近似正态分布)
–中位数: 偏态分布、分布不规则、开口资料
(位置指标,对分布不作要求)
11/21/2018 12
表 10.1 两组工人的血铅值 (μmol/L) 铅作业组 (1) 0.82 0.87 0.97 1.21 1.64 2.08 2.13 秩次 (2) 9 10.5 12 14 15 16 17 非铅作业组 (3) 0.24 0.24 0.29 0.33 0.44 0.58 0.63 0.72 0.87 1.01 n2=10 秩次 (4) 1 2 3 4 5 6 7 8 10.5 13 T2=59.5
则有理由相信其中一个班同学的身高比另一个
班高。
• 比较 n1的秩和T与其理论秩和n1(N+1)/2,
这就是秩和检验的思想。
11/21/2018 6
秩和检验(rank sum test)
• 秩(rank):观察值从小到大排序,该序号在统
计学上称为秩/秩次;
•秩和:秩次求和得到;
•秩和检验:用秩和进行假设检验的方法。
: ( x t / 2, s x , x t / 2, sx )
非参数统计(nonparametric statistics):不依 赖总体分布类型,不对参数进行估计或检验, 通过样本观察值推断总体分布位置是否相同。
11/21/2018 3
非参数检验又称任意分布检验(distribution-free test)。