第十四讲非参数统计方法(PPT 38)
统计学非参数统计PPT课件

dij
Ti ni
Tj nj
第17页/共28页
• 2、计算判断有无统计意义的临界值d0.05
• 自由度=n-k,d> d0.05差别有统计意义。查t值表时如有的自由度没有可 用内插法近似估计
n 1 H 1 1 2
• 3、列各
d t s 0.(0P2527)
组
平0均.0秩5间(的)两
第19页/共28页
第四节 等级分组资料的检验
• P228表17-10的资料,可用2检验,但只能说明:各组在疗效等级的构成上有无不同,而不能说明哪组 疗效较好,哪组较差
• 利用H检验中,相同等级可用平均秩 • 其检验步骤同H检验 • 若有显著性意义,再进行多重比较
第20页/共28页
第五节 随机区组设计 资料的检验
s2 1 (
n 1
Tij2
n(n 1)2 4
)
无相同数据时,
s2 n(n 1) /12
第15页/共28页
• 7)计算H值
无相同数据时,
H 12
Ti2 3(n 1)
n(n 1) ni
有相同数据时:
2
2
1 T n(n 1) • 8)判断结果:如果处理数3,ni5,则可查i附表17-3作判断。
• 计算时可进行连续性校正,但影响甚微,
第6页/共28页
第二节 成组资料的检验
• 一、两样本秩和检验(Wilcoxon, Mann and Whitney法) • rank sum test计算步骤:
• 1、将两组数据混合由小到大排列编秩,相同数据用平均秩 • 2、将小样本等级相加称为T • 3、计算T ': T '=n1(n1+n2+1)-T
第十四讲非参数统计方法(PPT 38)

余额 885 850 915 950 800 750 865 1000 1050 935
秩 7 4 8 12.5 2 1 5 16 18 10
83.5
30
T 12 (12 10 1) / 2 138 T 1210 (12 10 1) /12 15.17
z 169.5 138 2.08 1.96 15.17
• 间隔尺度(Interval scale):具有顺序数据的所有特 征,且观测时的间隔可用一个固定的尺度单位 来表述。(温度)
• 比例尺度(Ratio scale):具有间隔数据的特性, 且测量间的比率有意义。0表示没有。(距离 ,高度,重量,时间,利润)
2
• 参数方法通常要求使用数量型数据(间 隔或比例尺度),且对总体分布有一些 假定。
The rejection region is z > z With = .05 z.05 = 1.645.
Conclusion: Reject the null hypothesis. There is sufficient evidence to infer that the European car is perceived as more comfortable than the American car.
青睐热带桔
8
例:总统竞选的民意调查
• 在总统竞选活动中的一项民意调查询问 了200名登记选民,以了解在民主党候选 人与共和党候选人中谁的对外政策更佳 。结果显示,72人认为民主党候选人更 好,103人认为共和党候选人更好,25人 在两者之间无偏好。这一民意调查是否 显示公众对两个候选人对外政策的观点 存在着显著不同?
H0: p = .5 H1: p .5
非参数统计方法

1 2 4.5 4.5 4.5 8.5
+ ++ ++ ++ +++ +++ 6 8 9 10 11 12
4.5 8.5 8.5 8.5 11.5 11.5
秩和
A组: - 、±、+、+、+、 ++ 组 、 、 、 秩和: 秩和: 1 2 4.5 4.5 4.5 8.5 TA=25 B组: +、++、++、++、+++、+++ 组 、 、 、 、 、 秩和: 秩和: 4.5 8.5 8.5 8.5 11.5 11.5 TB=53 TA+TB=N(N+1)/2=78
秩次:在一定程度上反映了等级的高低; 秩次:在一定程度上反映了等级的高低; 秩和:在一定程度上反映了等级的分布位置。 秩和:在一定程度上反映了等级的分布位置。 对等级的分析,转化为对秩次的分析。 对等级的分析,转化为对秩次的分析。秩和检验 就是通过秩次的排列求出秩和,进行假设检验。 就是通过秩次的排列求出秩和,进行假设检验。 其特点是假设检验的结果对总体分布的形状差别 不敏感,只对总体分布的位置差别敏感。 不敏感,只对总体分布的位置差别敏感。
注
意
对于计量资料,若不满足正态和方差齐性条件, 对于计量资料,若不满足正态和方差齐性条件,这 时小样本资料选t检验或 检验是不妥的 时小样本资料选 检验或F检验是不妥的,而选秩转 检验或 检验是不妥的, 换的非参数检验是恰当的。 换的非参数检验是恰当的。 对于分布不知是否正态的小样本资料, 对于分布不知是否正态的小样本资料,为保险起见 ,宜选秩转换的非参数检验。 宜选秩转换的非参数检验。
数学建模优秀课件非参数统计

0 1 1 0 0 0 1 0 0 1 0 0 0 0 1 1 0 0 1 0 0 0 0 1 0 1
问病户的分布排列是呈聚集趋势,还是随机分布?
实验步骤
1.建立数据文件。 (定义住户变量为epi。按住户顺序输入数据,发病的 住户为1 ,非发病的住户为0。) 2.选择菜单“Analyze→Nonparametric Tests→Runs Test”,弹出 “Runs Test”对话框。在 对话框左侧的变量列表中选择变量epi,使之进入 Test Variable List框。在临界割点“Cut Point”框中 选“Custom”项,在其方框中键入1(根据需要选项, 本例是0、1二分变量,故临界割点值用1)。 3.单击“OK”按钮,得到输出结果。
非参数检验的概念
非参数检验是指在总体不服从正态分布且分 布情况不明时,用来检验数据资料是否来自同 一个总体假设的一类检验方法。由于这些方法 一般不涉及总体参数故得名。
注:这类方法的假定前提比参数性假设检验方 法少的多,也容易满足,适用于计量信息较弱 的资料且计算方法也简单易行,所以在实际中 有广泛的应用。
结果分析
K-S正态性检验的结果显示,Z值=0.718,双侧P值 =0.681,可认为该地正常成年男子的红细胞计数符 合正态分布
5. 2 independent Samples Test 两个独立样本检验
例题
调查某厂的铅作业工人7人和非铅作业工人10 人的血铅值(μg / 100g)如下,问两组工人的 血铅值有无差别?
结果分析
二项分布检验表明,女婴12名,男婴28名,观察概 率为0.70(即男婴占70%),检验概率为0.50,二 项分布检验的结果是双侧概率为0.018,可认为男女 比例的差异有高度显著性,即与通常0.5的性比例相 比,该地男婴比女婴明显为多。
非参数统计讲义

非参数统计讲义(总14页)--本页仅作为文档封面,使用时请直接删除即可----内页可以根据需求调整合适字体及大小--第一章 绪 论本章主要内容: 1.非参数方法介绍2.预备知识第一节 非参数方法介绍一. 非参数方法的概念和实例复习参数方法定义:设总体X 的分布函数的形式是已知的,而未知的仅仅是分布函数具体的参数值,用样本对这些未知参数进行估计或进行某种形式的假设检验,这类推断方法称为参数方法。
先来看两个实例。
例 供应商供应的产品是否合格某工厂产品的零件由某个供应商供应。
合格零件标准长度为(±)cm 。
这也就是说合格零件长度的中心位置为,允许误差界为,即长度在-之间的零件是合格的。
为评估近年来供应的零件是否合格,随机抽查了n=100个零件,它们的长度数据X 见第一章附表。
解答:根据我们已学过的参数统计的方法,如何根据数据来判断这批零件合格否 用参数数据分析方法,在参数统计中,运用得最多的是正态分布,所以考虑假设供应商供应的零件长度X 服从正态分布,即X ~),(2σμN其中两个参数均未知,但可用样本均值估计μ,样本方差估计2σ。
由已知的数据计算可得:零件的平均长度,即样本均值为x =,样本标准差为s=。
则零件合格的可能性近似等于)/)4.8(()/)6.8(()6.84.8(σμσμ-Φ--Φ=≤≤X P)1047.0/)4958.84.8(()1047.0/)9458.86.8((-Φ--Φ≈%66≈这个说明:约有三分之一的零件不合格,该工厂需要换另一个供销商了。
但这个结论与实际数据符不符合呢这是我们要思考的问题。
我们可以对数据做一个描述性分析,先对这100个样本数据做一个频率分布。
观察到:在这100个零件中有91个零件的长度在~之间,所以零件合格的比例为91%,超过66%很多!统计分析的结论与数据不吻合的!这是什么原因呢我们可以作出数据的直方图来分析数据的分布情况。
由图知,该数据的总体不是近似服从正态分布的!所以我们对于数据的总体分布的假设错了!问题就出在假设总体是正态分布上!继续看直方图,能否很容易就观察出来它大概是什么分布呢答案是不易看出,所以试图先确定数据的分布函数,再利用参数的方法来分析是不太容易的。
非参数统计幻灯片

Z
4 5 -1/ 2 10 4
-0.9487 Z 0.05 1.96
本例R的符合检验的程序及运行的结果如下:
x<-c(42,57,38,49,63,36,48,58,47,51,83,27); y<-c(40,60,38,47,65,39,49,50,47,52,72,33); xy<-x-y; sg=sum(xy>0);sl=sum(xy<0);n1=sg+sl; k=min(sg,sl); binom.test(k,n1);
S I(x i M 0 )
i 1
n
S I(x i M 0 )
i 1
n
, S S n, n n, 令K min{S , S } 在零假设情况k~b(n,0.5) 在显著性水平为α的拒绝域为: 2 Pbinom (K k ןn, p 0.5) 其中k是满足上式最大的k值
例3.2(例3.1续解)
由公式: 2 Pbinom ( K 可计算k=3,拒绝域为:
k n, p 0.5)
2 P( K k n 16,p 0.5) 0.0213.
于是,在显著性水平0.05之下,拒绝零假设,认为这些数
据的中心位置与3700元/m2存在显著性差异。
连 锁 店 1 2 3 4 5 6 7 8 9 10 11 12 销售额 42 57 38 49 63 36 48 58 47 51 83 27 促销前 销售额 40 60 38 47 65 39 49 50 47 52 72 33 促销后 符号 + 0 + + 0 + -
解:假设检验问题: H0:P(促销前)=P(促销后), H1:P(促销前)≠P(促销后). 促销前的销售额大于促销后的销售额的样本个数为S+,则S+=4;促销 前的销售额小于促销后的销售额的样本个数为S-,则S-=6;则 n`=S++S-=10,n`/2=5,应用公式有
常用非参数统计方法课件

案例二:秩和检验在医学研究中的应用
总结词
秩和检验用于医学研究中,可以比较不同组 别间的数据,判断是否存在显著差异。
详细描述
秩和检验是一种非参数统计方法,适用于等 级数据和连续数据混合的情况。在医学研究 中,经常需要比较不同组别间的数据,例如 比较不同药物治疗效果、不同手术方法的效 果等。秩和检验可以综合考虑数据的分布特 征和数量差异,给出更为准确的结论,判断 不同组别间是否存在显著差异。
多个独立样本比较
非参数统计方法可以用于比较多个独 立样本的分布是否存在显著差异,例 如Kruskal-Wallis H 检验。
配对样本比较
配对样本比较
非参数统计方法可以用于比较配对样 本的分布是否相同,例如Wilcoxon signed-rank 检验。
相关样本比较
非参数统计方法可以用于比较相关样 本的分布是否存在相关性,例如 Spearman秩相关系数。
采取相应措施进行调整和改进。
案例五:符号检验在金融数据分析中的应用
总结词
符号检验用于金融数据分析中,可以比较不同时间段 内的数据变化趋势,判断市场走势。
详细描述
符号检验是一种非参数统计方法,适用于分析连续数 据的变化趋势。在金融数据分析中,符号检验常用于 比较不同时间段内的股票价格、交易量等数据的变化 趋势。通过计算数据的符号变化次数和期望值,利用 符号检验进行统计分析,可以判断市场走势是否发生 显著变化,为投资者提供决策依据。
03统计
非参数统计方法可以用于描述数 据的分布、集中趋势和离散程度 ,例如中位数、四分位数、众数 等。
数据可视化
非参数统计方法可以与数据可视 化技术结合,例如直方图、箱线 图等,帮助我们直观地了解数据 分布和异常值。
非参数统计分析PPT课件

思考的要点 什么是计数统计量; 什么是秩统计量,为什么要讨论秩; 为什么要讨论秩的分布、秩的期望和方差; 什么是符号秩和线性符号秩; 线性符号秩的期望和方差。
第7页/共61页
第一节 关于非参数统计
在参数统计学中,最基本的概念是总体、样本、随机 变量、概率分布、估计和假设检验等。其很大一部分内容是 建立在正态分布相关的理论基础之上的。总体的分布形式或 分布族往往是给定的或者是假定了的,所不知道的仅仅是一 些参数的值。于是,人们的任务就是对一些参数,比如均值 和方差(或标准差),进行点估计或区间估计,或者是对某 些参数值进行各种检验,比如检验正态分布的均值是否相等 或 等 于 零 等 等 . 最 常 见 的 检 验 为 对 正 态 总 体 的 t— 检 验 、 F—检验和最大似然比检验等。又比如,线性回归分析中, 需要估计回归系数j, j称为参数,所以线性回归分析应 该属于参数统计的范畴。
其一是样本容量不大; 其二是总体服从何种分布未知。下面我们来构造一 种检验的方法,看他们的资产负债有无显著性差异。
第11页/共61页
将两类企业的资产负债混合排序,并给出其序次, 这在统计中称为“秩”。在这张表中我们有两个可用的 信息。
负债率 55 59 61 64 64 65 70 73 75 76 77
第9页/共61页
在不知总体分布的情况下如何利用数据所包 含的信息呢?一组数据最基本的信息就是次序。如 果可以把数据按大小次序排队,每一个具体数目 都有它在整个数据中(从最小的数起)的位置或次 序,称为该数据的秩(rank)。数据有多少个观察值, 就有多少个秩。在一定的假定下,这些秩和秩的 统计量的分布是求得出来的,而且和原来的总体 分布无关。这样就可以进行所需要的统计推断。 注意:非参数统计的名字中的“非参数 (nonparametric)”意味着其方法不涉及描述总体 分布的有关数值参数(均值和方差等);它被称 为和分布无关(distribution—free),是因为其 推断方法和总体分布无关;不应理解为与所有分 布(例如有关秩的分布)无关。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
24
检验步骤
• 将混合样本观测又低到高进行排秩,同 分值将被赋予相应秩的平均数;
• 计算第一样本的秩和T; • 小样本时(两样本容量小于等于10),
查表确定临界值; • 大样本时(两样本容量都大于等于10)
,利用正态近似。
25
小样本情形
• 例:来自佳菲初中的学生总体与来自茂 拜初中的学生总体在学术潜力上是否相 同。
18
• 当两总体相同且数据对的个数大于等于
10时,
T
~
N (T
,
2 T
)
T 0, T
n(n 1)(2n 1) 6
检验统计量:z T T T
拒绝域:z z
2
19
例
• 一家制造企业试图确定两种生产方法在 完工时间上是否存在差异。选出了一个 由11名工人组成的样本,且每个工人都 分别使用每种方法完成了一项生产任务 。完工时间如表所示。
8
5 146
7
秩和
11
34
n1 4, n2 5,T 11 TL 12,TU n1(n1 n2 1) TL 28 拒绝域:T TL或T TU 结论:两总体不同。
28
大样本情形
T
~
N
(T
,
2 T
)
T n1(n1 n2 1) / 2
T n1n2 (n1 n2 1) /12
• 例:某银行两分行的支票帐户余额总体 是否相同?
ห้องสมุดไป่ตู้
]
3(nT
1)
k :总体的个数
ni : 样本i中的个体数 nT:所有样本的个体总数 Ri :样本i的秩和
若ni 5,i 1, k,则W ~ 2 (k 1) 拒绝域:W 2 (k 1)
33
• Example
– How do customers rate three shifts with respect to speed of service in a certain restaurant?
7 0.193359 0.806152
8 0.12085 0.927002
9 0.053711 0.980713
10 0.016113 0.996826
11 0.00293 0.999756
12 0.000244
1
拒绝域:x<3 或 x>9
因加号个数为2,所以拒绝 原假设。
结论:消费者对两种品牌的 橙汁的偏爱存在差异,更为
13
中位数的检验
• 样本中的数据大于假设的中位数的值时 用加号表示,小于假设的中位数的值时 用减号表示,等于假设的中位数的值的 数据应被剔除。
14
• 例:
H0 :中位数 130000美圆 H1 :中位数 130000美圆 在一个由62所新住宅组成的样本中, 34所住宅的价格高于130000美圆,26所 住宅价格低于130000美圆,2所住宅价格 等于130000美圆。 n 62 2 60 x 34 z 34 60 0.5 1.03 1.96
余额 885 850 915 950 800 750 865 1000 1050 935
秩 7 4 8 12.5 2 1 5 16 18 10
83.5
30
T 12 (12 10 1) / 2 138 T 1210 (12 10 1) /12 15.17
z 169.5 138 2.08 1.96 15.17
H0: 两总体相同 H1: 两总体不同
20
工人
1 2 3 4 5 6 7 8 9 10 11
方法1 10.2 9.6 9.2 10.6 9.9 10.2 10.6 10 11.2 10.7 10.6
方法2 9.5 9.8 8.8 10.1 10.3 9.3 10.5 10 10.6 10.2 9.8
第十四讲 非参数统计方法
1
四种测量尺度
• 称名尺度(Nominal scale):数据是简单的标记 或类别,用于定义一个个体的归属。(性别, 行政区划,身份证号码)
• 顺序尺度(Ordinal scale):数据可被用于对观测进 行排秩。(尺寸小、中、大,成绩优、良、中 等,满意度1、2、3、4、5。)
6.6 10
Example
– In an experiment to determine which car has the more comfortable ride, 25 people took two rides:
• One ride in a European model. • One ride in a North-American car.
24
20
3
3.5
18
20
4
3.5
17
22
5
5
22
23
6
7
20
23
7
7
23
23
8
7
23
24
9
9
17
Wilcoxon 符号秩检验的步骤
H0: 两总体相同 H1: 两总体不同
• 计算匹配样本的差异; • 计算差异的绝对值; • 对差异的绝对值进行排秩; • 秩被赋予原始数据差异的符号; • 求符号秩的和:T
1 0.00293 0.003174 0.2 2 0.016113 0.019287 0.15
0.1
3 0.053711 0.072998 0.05
4 0.12085 0.193848 0
5 0.193359 0.387207 6 0.225586 0.612793
0 1 2 3 4 5 6 7 8 9 10 11 12 x
1
4
5
-1
2
2
1
1
3
5
4
No45rmal?
3 2
2 1
6 Not all5the data 3
7 are sh1own.
3
8
4
2
9
4
2
141
121
10
81
462
-22
0
2 -2
-1
0
1
2
More
2
10
2
2
0
11
3
2
1
12
4
3
1
Do these data allow us to conclude at 5% significance level that the European car is perceived to be more comfortable?
青睐热带桔
8
例:总统竞选的民意调查
• 在总统竞选活动中的一项民意调查询问 了200名登记选民,以了解在民主党候选 人与共和党候选人中谁的对外政策更佳 。结果显示,72人认为民主党候选人更 好,103人认为共和党候选人更好,25人 在两者之间无偏好。这一民意调查是否 显示公众对两个候选人对外政策的观点 存在着显著不同?
12
The hypotheses are:
H0: p0.5 H1: p>0.5
There were 18 positives, 5 negatives, and 2 zeros. X = 18, n = 23. Z = [x-np]/[np(1-p)].5
= [18-.5(23)]/[.5[23}.5] =2.71
10
10
7
10.6 10.5 0.1
0.1
1
1
8
10
10
0
0
9
11.2 10.6 0.6
0.6
7
7
10 10.7 10.2 0.5
0.5
5.5
5.5
11 10.6 9.8 0.8
0.8
9
9
符号秩之和 44
22
n 111 10 T 44
T
n(n 1)(2n 1) 6
z 44 0 2.24 1.96 19.62
• 间隔尺度(Interval scale):具有顺序数据的所有特 征,且观测时的间隔可用一个固定的尺度单位 来表述。(温度)
• 比例尺度(Ratio scale):具有间隔数据的特性, 且测量间的比率有意义。0表示没有。(距离 ,高度,重量,时间,利润)
2
• 参数方法通常要求使用数量型数据(间 隔或比例尺度),且对总体分布有一些 假定。
29
分行1 帐户
1 2 3 4 5 6 7 8 9 10 11 12 秩和
余额 1095 955 1200 1195 925 950 805 945 875 1055 1025 975
秩 20 14 22 21 9 12.5 3 11 6 19 17 15 169.5
分行1 帐户
1 2 3 4 5 6 7 8 9 10
60 0.5 0.5 不拒绝
15
Wilcoxon Signed-Rank Test • 用于确定两总体是否有差异; • 基于匹配样本; • 数据是定量的; • 差异的分布不要求正态。
16
秩(Rank)
obs
rank
20
3
23
5
24
6
18
2
17
1
22
4
obs 排序后 顺序
秩
20
17
1
1
23
18
2
2
The rejection region is z > z With = .05 z.05 = 1.645.
Conclusion: Reject the null hypothesis. There is sufficient evidence to infer that the European car is perceived as more comfortable than the American car.