非参数统计实验一

合集下载

非参数统计实验报告南邮

非参数统计实验报告南邮

实验报告(2012 / 2013学年第一学期)课程名称非参数统计实验名称1、数据的描述性统计2、中心位置的检验问题3、多样本问题和区组设计问题的比较4、相关分析实验时间2012年 10月15-22日学生姓名班级学号学院(系)通达学院专业统计学实验一一、实验题目某航空公司为了解旅客对公司服务态度的满意程度,对50名旅客作调查,要求他们写出对乘机服务、机上服务和到达机场服务的满意程度,满意程度评分从0到100.分数越大,满意程度越高。

下表是收集到得数据。

50名旅客对乘机服务、机上服务和到达机场服务的满意程度的评分1、对50名旅客关于乘机服务的满意程度数据作描述性统计分析;2、对50名旅客关于机上服务的满意程度数据作描述性统计分析;3、对50名旅客关于到达机场服务的满意程度数据作描述性统计分析;4、对50名旅客关于这三个方面服务的满意程度数据作一个综合比较的描述性统计分析。

二、实验步骤1、乘机服务1)、直方图2)、箱线图C1 的箱线图959085801C757065603)、数值分析2、机上服务1)、直方图2)、箱线图3)、数值分析3、到达机场服务1)、直方图到达机场服务满意程度评分直方图141210864216-2526-3536-4546-5556-6566-7576-8586-95 2)、箱线图C3 的箱线图100908070603C50403020103)、数值分析5、综合比较C3C2C1100908070605040302010数据C1, C2, C3 的箱线图实验二一、实验题目某地区从事管理工作的职员的月收入的中位数是6500元,现有一个该地区从事管理工作的40个妇女组成的样本,她们的月收入数据如此下:5100 6300 4900 71004900 5200 6600 72006900 5500 5800 64003900 5100 7500 63006000 6700 6000 48007200 6200 7100 69007300 6600 6300 68006200 5500 6300 5400 4800(1)使用样本数据检验:该地区从事管理工作的妇女的月收入的中位数是否低于6500元(2)使用样本数据给出该地区从事管理工作的妇女的月收入的中位数的点估计和95%的区间估计。

非参数统计实验报告 南邮概要

非参数统计实验报告 南邮概要

非参数统计实验报告南邮概要南京邮电大学非参数统计实验报告。

实验目的,通过对一组数据的非参数统计分析,掌握非参数统
计方法的应用和实验技能。

实验内容,本次实验选取了一组实际数据,利用非参数统计方
法进行分析。

首先对数据进行了描述性统计分析,包括数据的中心
趋势和离散程度。

接着进行了正态性检验,验证数据是否符合正态
分布。

然后利用非参数统计方法进行了假设检验,比较了不同组数
据之间的差异。

实验结果,经过描述性统计分析,数据的均值为X,标准差为S。

正态性检验结果显示,数据不符合正态分布。

在进行了Wilcoxon秩
和检验后发现,不同组数据之间存在显著差异。

实验结论,通过本次实验,我们掌握了非参数统计方法的应用
技能,了解了非参数统计方法在实际数据分析中的重要性。

同时也
对数据的正态性检验和假设检验有了更深入的理解。

总结,本次实验通过对一组实际数据的非参数统计分析,加深了我们对非参数统计方法的理解,提高了我们的实验技能。

非参数统计方法在实际数据分析中具有重要的应用价值,我们需要不断学习和掌握这些方法,为今后的科研工作和实践应用做好准备。

非参数统计实验指导书

非参数统计实验指导书

非参数统计实验指导书一、概述前面已经学习了参数估计与假设检验,其内容是在已知总体分布的条件下对一些主要参数(如均值、方差)进行估计和检验。

在进行参数估计和假设检验时一般要求总体服从正态分布,方差相等等假设条件,但在统计分析中许多实际问题并不一定满足这些假定,或者有些资料不是数值型(定距尺度),而是定类数据或定序数据,再用传统的参数方法进行分析就无能为力。

一般把不是参数的估计和检验问题已经不是建立在总体分布服从一定假设的基础上的有关统计方法,都称为非参数统计。

与参数统计方法相比较,非参数统计方法具有以下优点:1.要求假设条件少,适用范围广;2.许多非参数方法运算简单,可以较快取得结果,节省时间;3.直观上容易理解,不需要太多的数学和统计理论;4.适用一些计量水准比较低的资料,如定类尺度、定序尺度。

但是,由于非参数统计方法简单,计量水准低,损失了资料中的部分信息,因此当能与参数统计方法同时使用时,其敏感程度较低,检验的功效也较差。

二、二项检验二项分布是一种不连续分布,对一个由指定数目的试验组成的不确定过程进行描述。

每次试验只能有两种可能结果,成功或失败(是或否,1或0等),每次试验成功的概率是一个常数且独立于其他试验结果。

二项分布描述在指定数目的试验中成功的总次数,需要两个参数,一个是试验次数(n),一个是每次试验成功的概率(P)。

二项检验主要用来检验一个样本序列是否服从给定概率p的二项分布。

将容量为n的样本数据转换为0,1数据,然后计算出1(成功)的个数n(1),n(1)应服从二项分布b(n,p)。

建立检验假设如下:(一)双侧检验 H0:p=p0(样本服从二项分布b(n,p0))H1:p≠p0(样本不服从二项分布b(n,p0))(二)左侧检验 H0:p=p0(样本的成功概率大于等于给定概率p0)H1:p<p0(样本的成功概率小于给定概率p0)(三)右侧检验 H0:p=p0(样本的成功概率小于等于给定概率p0)H1:p>p0(样本的成功概率大于给定概率p0)根据一定的显著水平,计算出临界值上限和下限。

第二讲-非参数统计检验

第二讲-非参数统计检验

第二讲非参数检验1.实验目的1.了解非参数假设检验基本思想;2.会用SAS软件中的proc npar1way过程进行非参数假设检验和proc freq过程进行列联表的独立性检验。

2. 实验要求1.会用SAS软件建立数据集,并进行统计分析;2.掌握proc npar1way过程进行非参数假设检验的基本步骤;3.掌握proc freq过程进行列联表的独立性检验的基本步骤。

3.实验基本原理3.1 符号检验两种方法的处理效果无显著性差异令统计量表示新方法的处理效果优于对照方法的配对组总数。

若新方法的处理效果显著的优于对照方法,则的值应明显偏大。

因此,若对给定的置信水平,有,则拒绝。

为真时,(1)服从二项分布。

拒绝域为:(2)由中心极限定理可知,当的零分布趋于标准正态分布。

拒绝域为:3.2 Wilcoxon秩和检验(1)单边假设检验两种方法的处理效果无显著性差异 as :新方法优于对照方法。

用于检验的统计量为:若对给定的置信水平,有,则拒绝。

且的分布列为:根据观测结果计算的观测值,计算检验的p值:然后将值与显著水平作比较,若,则拒绝,否则接受。

(2)双边假设检验给定的显著水平应该满足:仅由上式还不能唯一确定,当我们对两种方法谁优谁劣不得而知时,通常取若利用p值进行检验,设,计算概率值由对称性可知,检验的p值为上述两概率中小于1/2的那一个的2倍。

例如则。

求出p值后,若p<a,拒绝,否则接受。

(3)列联表的独立性检验方法的处理效果无显著性差异:表示格子概率,表示三维列联表中事件发生的理论频数。

将概率用相应的频率频率去估计。

令其中:将样本数据代入统计量进行检验。

然后将P与显著水平作比较,若,拒绝,否则接受。

4. 实验相关SAS知识(1)独立样本的秩检验——proc npar1way过程proc npar1way过程的基本语句形式为proc npar1way [options];class variables;(proc npar1way过程不可缺少的语句)exact;(求出检验的精确p值)var variables;其中“options”可包含以下选项的部分或全部:①DATA=数据集名:指定要分析的数据集。

非参数统计(R软件)参考答案

非参数统计(R软件)参考答案

非参数统计(R软件)参考答案本页仅作为文档封面,使用时可以删除This document is for reference only-rar21year.March内容:, ,上机实践:将MASS数据包用命令library(MASS)加载到R中,调用自带“老忠实”喷泉数据集geyer,它有两个变量:等待时间waiting和喷涌时间duration,其中…(1) 将等待时间70min以下的数据挑选出来;(2) 将等待时间70min以下,且等待时间不等于57min的数据挑选出来;(3) 将等待时间70min以下喷泉的喷涌时间挑选出来;(4) 将喷涌时间大于70min喷泉的等待时间挑选出来。

解:读取数据的R命令:library(MASS);#加载MASS包data(geyser);#加载数据集geyserattach(geyser);#将数据集geyser的变量置为内存变量(1) 依题意编定R程序如下:sub1geyser=geyser[which(waiting<70),1];#提取满足条件(waiting<70)的数据,which(),读取下标sub1geyser[1:5];#显示子数据集sub1geyser的前5行[1] 57 60 56 50 54(2) 依题意编定R程序如下:Sub2geyser=geyser[which((waiting<70)&(waiting!=57)),1];#提取满足条件(waiting<70& (waiting!=57)的数据.Sub2geyser[1:5];#显示子数据集sub1geyser的前5行[1] 60 56 50 54 60 ……原数据集的第1列为waiting喷涌时间,所以用[which(waiting<70),2](3)Sub3geyser=geyser[which(waiting<70),2];#提取满足条件(waiting<70)的数据,which(),读取下标Sub3geyser[1:5];#显示子数据集sub1geyser的前5行[1] ……原数据集的第2列为喷涌时间,所以用[which(waiting<70),2](4)Sub4geyser=geyser[which(waiting>70),1];#提取满足条件(waiting<70)的数据,which(),读取下标Sub4geyser[1:5];#显示子数据集sub1geyser的前5行[1] 80 71 80 75 77…….如光盘文件中的数据,一个班有30名学生,每名学生有5门课程的成绩,编写函数实现下述要求:(1) 以的格式保存上述数据;(2) 计算每个学生各科平均分,并将该数据加入(1)数据集的最后一列;(3) 找出各科平均分的最高分所对应的学生和他所修课程的成绩;(4) 找出至少两门课程不及格的学生,输出他们的全部成绩和平均成绩;(5) 比较具有(4)特点学生的各科平均分与其余学生平均分之间是否存在差异。

实验一 非参数估计方法实验

实验一   非参数估计方法实验

99.3
98.7
100.5
101.2
98.3
99.7
101.2
100.5
99.5
问:检验该日打包工作机是否正常? 解:利用 R 语言进行求解,R 中的 t 检验程序和输出结果如下:
从输出结果来看, t=-0.3525, 自由度 n=8 , P 值为 0.7336. 在显著性水平 α = 0.05 下, α < P = 0.7336,故拒绝原假设,即认为检验该日打包工作机不正常。 (3)在(1)的基础上续解 利用 R 语言做符号检验,在 R 语言中输入程序及输出结果如下:
12
27
33 -
利用 R 语言运行,输出结果如下:
从输出结果可以知道:当原假设为:促销前销售额 xf1 等于促销后销售额时;备择假设为: 促销前销售额 xf1 不等于促销后销售额时。做符号检验得到的结果可知:P 值为 0.03857,在显 著性水平 α = 0.05时, P ,此时可得到接受原假设,也就是说没有充分证据显示促销前的销 售额与促销后的销售额不相等。 (6)Wilcoxon 符号秩检验(利用(1)中的数据)
采用 Wilcoxon 符号秩检验,从 R 语言输出结果可以知道:在显著性水平 0.05 下, 因此, 可以得到因此此时接受原假设, 即认为该地区的平均楼盘价格与媒体公布的 3700 P , 2 元/ m 的说法相符。
4.实验结果(或心得体会)
通过此次实验,我充分的掌握了 t 检验、符号检验的原理及函数调用,还有 t 检验、符号 检验的检验步骤及结果分析,并掌握实验报告的转写工作。此次实验之后,我对数据检验及分 析有了深层次的了解,将自己所检验的数据导入 R 语言软件中进行分析,最后得出的结果在生 活中有很大的益处,让我深深地体会到数据分析在现代这个大数据时代是一大热点。 最后通过此次实验,我也深深的体会到非参数检验方法在统计分析中占有很重要的位置, 而且在生活中的很多问题中需要对各种数据进行检验,因此一定要掌握好 R 语言软件的使用。

非参数统计课程实验报告

非参数统计课程实验报告

非参数统计课程实验报告姓名:樊凡学号:20XX2461成绩:指导老师:徐建文Wilcoxon 秩检验方法及其应用【内容提要】本实验要求掌握Wilcoxon 秩检验方法和步骤:掌握对两独立样本数据的秩和检验方法;理解Wilcoxon 秩检验方法的基本原理;在R软件环境下编写相关程序;用实际例子说明Wilcoxon方法的具体步骤。

【Wilcoxon 秩检验方法定义】威尔科克森符号秩检验是威尔科克森于1945年提出的。

该方法是在成对观测数据的符号检验基础上发展起来的,比传统的单独用正负号的检验更加有效。

它适用于T检验中的成对比较,但并不要求成对数据之差di服从正态分布,只要求对称分布即可。

检验成对观测数据之差是否来自均值为0的总体。

【Wilcoxon 秩检验方法步骤】正负符号检验和威尔科克森符号秩检验,都可看作是就成对观察值而进行的参数方式的T检验的代用品,非参数检验具有无需对总体分布作假定的优点,而就成对观察值作的参数方式的T检验,必须假定有关的差别总体服从正态分布。

该方法具体步骤如下:第一步:求出成对观测数据的差di,并将di的绝对值按大小顺序编上等级。

第二步:等级编号完成以后恢复正负号,分别求出正等级之和T+和负等级之和T-,选择T+和T-中较小的一个作为威尔科克森检验统计量T。

第三步;作出判断。

根据显著性水平α查附表,得到临界值Tα,若T<Tα,则拒绝原假设H0。

当观测值不少于20对时,统计量T的均值和方差分别为:(n为成对观测的个数) (近似服从标准正态分布)若Z<-Zα(单侧)或Z<-Zα/2(双侧),则拒绝H0。

【实验环境】Windows XP;R软件【实验方案设计】为研究我国上市公司公报对股价是否有显著影响。

现从上海证券交易所的上市公司随机抽取10家,观察其20XX 年年终财务报告公布前后三日的平均股价结果如下表:20XX年财务公告公布前后三日平均股价 3 4 5 6 7 8 9 10 上市公司序1 号 2 年报公布前 15 21 18 13 35 10 17 23 14 25 年报公布后 17 18 25 16 40 8 21 31 22 25 设Xi和Yi 分别为公布前后的第i组观察值,对i=1,2...10.计算各观察值对的偏差Di=Xi-Yi; 求偏差的绝对值|Di|=|Xi-Yi|;按偏差绝对值大小顺序排列,考虑各偏差的符号,利用R软件的求出偏差|Di|的秩,如下表所示:Xi Yi Di= Xi-Yi Di的符号 |Di|的秩 15 17 -2 2 21 183 3 18 25 -7 7 13 16 -3 3 35 40 -5 5 10 8 2 2 17 21 -44 23 31 -8 8 14 22 -8 8 25 25 0 0 76 5 令W 为XiYi0的XiYi的秩的和,而W为XiYi0的XiYi的秩的和,则TR(XiYi) ,TRi(XiYi)ii1i1nn。

非参数统计实验(全)新

非参数统计实验(全)新

第四章 非参数统计实验参数统计学中的许多统计分析方法的应用对总体都有严格的假定,例如,t 检验要求总体服从正态分布,F 检验要求误差呈正态分布且各组方差为齐性的等等,然而在现实生活中,有许多总体的分布我们却是一无所知或知之甚少,所以在参数模型中所建立的统计推断就会失效,于是,人们希望在不假定总体分布的情况下,尽量从数据本身来获得所需要的信息。

这就是非参数统计的宗旨。

非参数统计方法简便,适用性强,但检验效率较低,应用时应加以考虑。

实验一 卡方检验(Chi-square test )实验目的:掌握卡方检验方法。

实验内容:一、2χ拟合优度检验 二、2χ独立性检验 三、2χ齐性检验 实验工具:SPSS 非参数统计分析菜单项和Crosstabs 菜单项。

知识准备:一、卡方拟合优度检验2χ检验(Chi —Square Test) 适用于拟合优度检验,适用于定类变量的检验问题,用来检验实际观察数目与理论期望数目是否有显著差异。

当检验问题是实际分布是否与理论分布相符合时,在大样本时也可以用分类数据的卡方检验来解决,这时的卡方检验也称为分布拟合的卡方检验。

若样本分为k 类,每类实际观察频数为k f f f ,,,21 ,与其相对应的期望频数为ke e e ,,,21 ,则检验统计量2χ可以测度观察频数与期望频数之间的差异。

其计算公式为:∑∑-=-==期望频数期望频数实际频数2122)()(ki ii i e e f χ很显然,实际频数与望频数越接近,2χ值就越小,若2χ=0,则上式中分子的每—项都必须是0,这意味着k 类中每一类观察频数与期望频数完全一样,即完全拟合。

2χ统计量可以用来测度实际观察频数与期望频数之间的拟合程度。

在H 0成立的条件下,样本容量n 充分大时,2χ统计量近似地服从自由度df =k-1的2χ分布,因而,可以根据给定的显著性水平α,在临界值表中查到相应的临界值)1(2-k αχ。

若)1(22-≥k αχχ,则拒绝H 0,否则不能拒绝H 0。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

实验报告
课程名称:
实验项目名称:
姓名:
学号:
班级:
指导教师:
2016 年 3 月 10 日
新疆财经大学实验报告
实验要求与数据:
1、产生50 个标准正态分布的随机数并画出它们的正态分布概率图形.
2、画出参数变化的概率密度分布图,正态分布的u,σ变化,产生100个均值为5,标准差为1的正态分布的随机数,再产生100个均值为6,标准差为1的正态分布的随机数,画概率密度图
3、设随机变量X取区间[-5,5]上步长为0.1的各值, 计算X的服从参数为5 的t 分布的概率,并画出概率密度函数图形,同时画出标准正态概率密度曲线,观察二者的区别.
4、根据已知数据,求秩和正态得分
1.set.seed(1)
x<-seq(-5,5,length.out=50)
y<-dnorm(x,0,1)
plot(x,y,col="red",xlim=c(-5,5),ylim=c(0,1),type='l',xaxs="i",
yaxs="i",ylab='density',xlab='',main="The Normal Density Distribution")
lines(x,dnorm(x,0,0.5),col="green")
lines(x,dnorm(x,0,2),col="blue")
lines(x,dnorm(x,-2,1),col="orange")
legend("topright",legend=paste("m=",c(0,0,0,-2),"sd=",c(1,0.5, 2,1)),lwd=1,col=c("red","green","blue","orange"))
2.画出参数变化的概率密度分布图,正态分布的u,σ变化,产生100个均值为5,标准差为1的正态分布的随机数,再产生100个均值为6,标准差为1的正态分布的随机数,画概率密度图
命令:
set.seed(1)
x <- seq(0,10,length.out=100)
y <- dnorm(x,5,1)
plot(x,y,col="red",xlim=c(0,10),ylim=c(0,1),type='l',
xaxs="i", yaxs="i",ylab='density',xlab='',
main="The Normal Density Distribution")
lines(x,dnorm(x,6,1),col="green")
legend("topright",legend=paste("m=",c(5,6)," sd=", c(1,1)), lwd=1, col=c("red", "green"))
3.set.seed(1)
x<-seq(-5,5,length.out=1000)
y<-dt(x,1,0)
plot(x,y,col="red",xlim=c(-5,5),ylim=c(0,0.5),type="l",xaxs="i ",yaxs="i",ylab='density',xlab='',main="The T Density Distribution")
lines(x,dt(x,5,0),col="green")
lines(x,dt(x,15,0),col="blue")
lines(x,dt(x,100,0),col="orange")
legend("topleft",legend=paste("df=",c(1,5,15,100),"ncp=",c(0,0 ,0,0)),lwd=1,col=c("red","green","orange")
set.seed(1)
x<-seq(-5,5,length.out=1000)
y<-dunif(x,0,1)
plot(x,y,col="red",xlim=c(0,10),ylim=c(0,2),type="l",xaxs="i",
yaxs="i",ylab='density',xlab='',main="The Uniform Density Distribution")
lines(x,dunif(x,0,0.5),col="green")
lines(x,dunif(x,0,2),col="blue")
lines(x,dunif(x,1,6),col="orange")
lines(x,dunif(x,2,4),col="purple")
legend("topright",legend=paste("m=",c(0,0,0,1,2),"sd=",c(1,0.5 ,2,6,4)),lwd=1,col=c("red","green","orange","purple")
4. 根据已知数据用SPSS统计软件得到的结果为:
(注:文档可能无法思考全面,请浏览后下载,供参考。

可复制、编制,期待你的好评与关注)。

相关文档
最新文档