第3讲 参数估计与假设检验(上)
参数估计和假设检验案例

参数估计和假设检验案例案例一:工艺流程的检测某公司是一家为客户提供抽样和统计程序方面建议的咨询公司,这些建议可以用来监控客户的制造工艺流程。
在一个应用项目中,一名客户向该公司提供了一个样本,该样本由工艺流程正常运行时的800个观测值组成。
这些数据的样本标准差为0.21;因为有如此多的样本数据,因此,总体标准差被假设为0.21。
然后,该公司建议:持续不断地定期抽取容量为30的随机样本以对工艺流程进行检测。
通过对这些新样本的分析,客户可以迅速知道,工艺流程的运行状况是否令人满意。
当工艺流程的运行状况不能令人满意时,可以采取纠正措施来解决这个问题。
设计规格要求工艺流程的均值为12,该公司建议采用如下形式的假设检验。
μ=μ≠H0 :12 H1 :12只要H0被拒绝,就应采取纠正措施。
下表为第一天运行新的工艺流程的统计控制程序时,每隔一小时收集的样本数据。
问题:1、对每个样本在0.01的显著性水平下进行假设检验,并且确定,如果需要Z0.005=2.582、4、讨论将显著性水平改变为一个更大的值时的影响?如果增加显著性水平,哪种错误或误差将增加?显著性水平增加,置信区间减小,误差减小。
案例二:计算机辅助教学会使完成课程的时间差异缩小吗?某课程引导性教程采用一种个性化教学系统,每位学生观看教学录像,然后给以程式化的教材。
每位学生独立学习直至完成训练并通过考试。
人们关心的问题是学生完成训练计划的进度不同。
有些学生能够相当快地完成程式化教材,而另一些学生在教材上需要花费较长的时间,甚至需要加班加点才能完成课程。
学的较快的学生必须等待学得较慢的学生完成引导性课程才能一起进行其他方面的训练。
建议的替代系统是使用计算机辅助教学。
在这种方法中,所有的学生观看同样的讲座录像,然后每位学生被指派到一个计算机终端来接受进一步的训练。
在整个教程的自我训练过程中,由计算机指导学生独立操作。
为了比较建议的和当前的教学方法,刚入学的122名学生被随机地安排到这两种教学系统中。
抽样分布、参数估计和假设检验

抽样分布一、抽样分布的理论及定理 (一) 抽样分布抽样分布是统计推断的基础,它是指从总体中随机抽取容量为n 的若干个样本,对每一样本可计算其k 统计量,而k 个统计量构成的分布即为抽样分布,也称统计量分布或随机变量函数分布。
(二) 中心极限定理中心极限定理是用极限的方法所求的随机变量分布的一系列定理,其内容主要反映在三个方面。
1.如果总体呈正态分布,则从总体中抽取容量为n 的一切可能样本时,其样本均数的分布也呈正态分布;无论总体是否服从正态分布,只要样本容量足够大,样本均数的分布也接近正态分布。
2.从总体中抽取容量为n 的一切可能样本时,所有样本均数的均数(X μ)等于总体均数(μ)即μμ=X3.从总体中抽取容量为n 的一切可能样本时,所有样本均数的标准差(X σ)等于总体标准差除以样本容量的算数平方根,即n X σσ=中心极限定理在统计学中是相当重要的。
因为许多问题都使用正态曲线的方法。
这个定理适于无限总体的抽样,同样也适于有限总体的抽样。
中心极限定理不仅给出了样本均数抽样分布的正态性依据,使得大多数数据分布都能运用正态分布的理论进行分析,而且还给出了推断统计中两个重要参数(即样本均数X μ与样本标准差X σ)的计算方法。
(三)抽样分布中的几个重要概念1.随机样本。
统计学是以概率论为其理论和方法的科学,概率又是研究随机现象的,因此进行统计推断所使用的样本必须为随机样本(random sample )。
所谓随机样本是指按照概率的规律抽取的样本,2.抽样误差。
从总体中抽取容量为n 的k 个样本时,样本统计量与总体参数之间总会存在一定的差距,而这种差距是由于抽样的随机性所引起的样本统计量与总体参数之间的不同,称为抽样误差。
3.标准误。
样本统计量分布的标准差或某统计量在抽样分布上的标准差,符号SE 或Xσ表示。
根据中心极限定理其标准差为n X σσ=正如标准差越小,数据分布越集中,平均数的代表性越好。
《假设检验》PPT课件

样本统计量 临界值
抽样分布
2008-2009
1 -
置信水平 拒绝H0
0
样本统计量
临界值
✓决策规则
1. 给定显著性水平,查表得出相应的临 界值z或z/2, t或t/2
2. 将检验统计量的值与 水平的临界值进 行比较
3. 作出决策
双侧检验:I统计量I > 临界值,拒绝H0 左侧检验:统计量 < -临界值,拒绝H0 右侧检验:统计量 > 临界值,拒绝H0
H1 : <某一数值,或 某一数值
例如, H1 : < 10cm,或 10cm
2008-2009
➢提出假设
【例】一种零件的生产标准是直径应为10cm,为对生产过
程进行控制,质量监测人员定期对一台加工机床检查, 确定这台机床生产的零件是否符合标准要求。如果零件 的平均直径大于或小于10cm,则表明生产过程不正常, 必须进行调整。试陈述用来检验生产过程是否正常的原 假设和备择假设
2008-2009
❖利用P值进行决策
➢什么是P 值(P-value)
1. 在原假设为真的条件下,检验统计量的观察值 大于或等于其计算值的概率 双侧检验为分布中两侧面积的总和
2. 反映实际观测到的数据与原假设H0之间不一致 的程度
3. 被称为观察到的(或实测的)显著性水平 4. 决策规则:若p值<, 拒绝 H0
2008-2009
第6章 假设检验
统计研究目的
统计设计
推
断
客观
统
统
分
现象
计
计
析
数量
调
整
表现
查
理
描 述
医学统计学-高级统计学课后部分习题答案第四版孙振球主编

11-多因素实验资料的方差分析11-3(1)本题为4个处理组的2×2析因涉及,因分成3天进行,若将每天的实验结果设为一个区组,先进行随机区组的方差分析:方差分析表1变异来源df SS MS F Sig.总变异11 818.369区组间 2 3.762 1.881 .230 .801处理组间 3 765.529 255.176 31.196 .000误差 6 49.078 8.180从上表可以看出,各区组间差异无统计学意义,即各天的实验结果间无差异。
(3)依据完全随机设计析因试验方法进行方差分析方差齐性检验表F df1 df2 Sig.1.429 3 8 0.304P值大于0.05,尚不能认为方差不齐。
方差分析表2变异来源df SS MS F Sig.总变异11 818.37试样处理方式(A) 1 716.11 716.11 108.42 0.000试样重量(B) 1 36.40 36.40 5.51 0.047AB 1 13.02 13.02 1.97 0.198误差8 52.84 6.605结局:可以认为高锰酸盐处理及试样重量均会对甘蓝叶核黄素浓度测定产生影响,尚不能认为高猛酸盐及试样重量的交互作用会对甘蓝叶核黄素浓度测量有影响。
11-4假定不存在高阶交互作用,仅对A、B、C、D、E5个因素的主效应进行分析,采用正交设计的方差分析法:正交设计的方差分析变异来源df SS MS F Sig.总变异15 3495.366A 1 540.911 540.911 21.714 .001B 1 1743.689 1743.689 69.998 .000C 1 787.223 787.223 31.602 .000D 1 82.038 82.038 3.293 .100E 1 92.400 92.400 3.709 .083误差10 249.104 24.910从上表可以看出,A、B、C三个因素的主效应有统计学意义(P<0.05),即A、B、C三个参数对高频呼吸机的通气量有影响。
假设检验PPT课件

【学习目标】通过对本章的学习,掌握假设检验的概念和 类型、假设检验的两类错误和假设检验的一般步骤;重点掌握 单个总体均值的检验和比率的检验。
第一节 假设检验的基本问题 第二节 △ 假设检验的应用
假设检验
第一节 假设检验的基本问题
一、假设检验的概念 二、假设检验的两类错误 三、假设检验的类型 四、假设检验的类型一般步骤
假设检验
第一节 假设检验的基本问题
什么小概率?
1.在一次试验中,一个几乎不可能发生的事件发生的概率; 2.在一次试验中小概率事件一旦发生,我们就有理由拒绝原假 设; 3.小概率由研究者事先确定。
假设检验
第一节 假设检验的基本问题
二、假设检验的两类错误(决策风险)
(一) 第一类错误 第一类错误,亦称拒真(弃真)错误。是指当原假设为 真时,但由于样本的随机性使样本统计量的具体值落入 了拒绝区域,这时所作的判断是拒绝原假设。 犯第一类错误的概率亦称拒真概率,它实质上就是前面
t
986 1000 24
2.333>
t n 1 2.1315
16
2
所以接受 H1,即这天包装机工作不正常。
假设检验
第二节 假设检验的应用
二、单个总体比率(成数)的假设检验
比率P是平均数的一种特殊形式,因而前面讲的平均 数检验理论都适用于总体比率P的假设检验,只是估计量 的形式略有不同。
【例4】我国出口的参茸药酒畅销于某国市场。据以往调查, 购买此种酒的顾客中40岁以上的男子占50%。经营该药酒 的进出口公司经理关心这个比率是否发生了变化,于是, 委托一个咨询机构进行调查,这个咨询机构从众多购买该 药酒的顾客中随机抽取了400名进行调查,结果有210名为 40岁以上的男子。试问在0.05的显著水平上,能否认为购 买此种药酒的顾客中40岁以上男子所占比率变化了?
第三章 总体均数的估计与假设检验

Sd
d
d Sd / n
2
(
d)
n
n 1
S d 0.1087 t 2.7424 0.1087/ 10 7.925
v 10 1 9
3)确定P值,作出推断结论 T0.05,9=2.262, 7.925>2.262,故P<0.05.可以认为两种 方法对脂肪含量的测定结果不同。
167.41, 2.74
165.56, 6.57
168.20, 5.36 n j=10
…. 165.69, 5.09
将上述100个样本均数看成新变量值,则这个 100个样本均数构成一新分布,绘制直方图
样本均数的抽样分布具有如下特点:
1) 各样本均数未必等于总体均数
2) 各样本均数间存在差异
3) 样本均数的分布很有规律,围绕着总体均 数,中间多,两边少,左右基本对称,也 服从正态分布
假设检验的基本步骤:
1、建立检验假设
H0: 检验假设, 无效假设,零假设 μ=μ0
H1: 备择假设,对立假设
μ≠μ0
2、确定检验水准 α=0.05 单双侧
3、选定检验方法和计算检验统计量
4、确定P值和作出推论结论。
P值是指从H0所规定的总体进行随机抽样,获 得大于(或等于及小于)现有样本获得的检验 统计量值的概率。
(1012/L)
血红蛋白 (g/L)
女
男 女
255
360 255
4.18
134.5 117.6
0.29
7.1 10.2
4.33
140.2 124.7
*标准值:使用内科学(1976年)所载均数(转位法定单位)
1)说明女性的红细胞数与血红蛋白的变异程度何者为大? 2)抽样误差是? 3)试估计该地健康成年女性红细胞数的均数? 4) 该地健康成年男女血红蛋白含量是否不同? 5)该地男性两项血压指标是否均低于上表的标准值(若测 定方法相同)?
概率论与数理统计实验实验3参数估计假设检验

概率论与数理统计实验实验3 参数估计假设检验实验目的实验内容直观了解统计描述的基本内容。
2、假设检验1、参数估计3、实例4、作业一、参数估计参数估计问题的一般提法X1, X2,…, Xn要依据该样本对参数作出估计,或估计的某个已知函数.现从该总体抽样,得样本设有一个统计总体,总体的分布函数向量). 为F(x, ),其中为未知参数( 可以是参数估计点估计区间估计点估计——估计未知参数的值区间估计——根据样本构造出适当的区间,使他以一定的概率包含未知参数或未知参数的已知函数的真?(一)、点估计的求法1、矩估计法基本思想是用样本矩估计总体矩.令设总体分布含有个m未知参数??1 ,…,??m解此方程组得其根为分别估计参数??i ,i=1,...,m,并称其为??i 的矩估计。
2、最大似然估计法(二)、区间估计的求法反复抽取容量为n的样本,都可得到一个区间,这个区间可能包含未知参数的真值,也可能不包含未知参数的真值,包含真值的区间占置信区间的意义1、数学期望的置信区间设样本来自正态母体X(1) 方差?? 2已知, ?? 的置信区间(2) 方差?? 2 未知, ?? 的置信区间2、方差的区间估计未知时, 方差?? 2 的置信区间为(三)参数估计的命令1、正态总体的参数估计设总体服从正态分布,则其点估计和区间估计可同时由以下命令获得:[muhat,sigmahat,muci,sigmaci] = normfit(X,alpha)此命令以alpha 为显著性水平,在数据X下,对参数进行估计。
(alpha缺省时设定为0.05),返回值muhat是X的均值的点估计值,sigmahat是标准差的点估计值, muci是均值的区间估计,sigmaci是标准差的区间估计.例1、给出两列参数?? =10, ??=2正态分布随机数,并以此为样本值,给出?? 和?? 的点估计和区间估计命令:r=normrnd(10,2,100,2);[mu,sigm,muci,sigmci]=normfit(r);[mu1,sigm1,muci1,si gmci1]=normfit(r,0.01);mu=9.8437 9.9803sigm=1.91381.9955muci=9.4639 9.584310.2234 10.3762sigmci=1.68031.75202.2232 2.3181mu1=9.8437 9.9803sigm1=1.91381.9955muci1=9.3410 9.456210.3463 10.5043sigmci1=1.6152 1.68412.3349 2.4346例2、产生正态分布随机数作为样本值,计算区间估计的覆盖率。
第三章(3) 假设检验

解:H0 : 0.5, H1 : 0.5
n=16 ,0.05 ,t (15) 1.753
t x 0 s* 0.56 0.5 2 >1.753 n 0.12 16
否定H0
即该服务系统工作不正常
42/27
(三)关于方差的检验
1、检验假设 H0: ,H1:
42/31
ns 选取 = 2 0
2
2
ns2 当2= 2 b时,否定H0 0
当2 b时,不能否定H0
42/32
例6 葡萄酒厂用自动装瓶机装酒,每瓶规定重量为500克,标 准差不超过10克,每天定时检查。某天抽得9瓶,测得平均重 量为x 499克,标准差为s* 16.03克。假设瓶装酒的重量服从 正态分布。问这台机器工作是否正常?(=0.05)
H0 : EX 0.5, H1 : EX 0.5
样本平均值X 0.6
由于
X 0.5 0.1 0.224
而
DX 0.25 0.224 n 100 0.05
不能否定H0
42/10
二、参数检验
☆8
42/11
参数检验
• 参数估计与参数检验都利用样本的信 息
估计量 样本 信息 样本 统计量 检验统计量 参数检验 参数估计
解:
提出假设 H0:2 0.1082 ,H1:2 0.1082
n5 0.05
*2
s 0.2282
*2
查表可得
a=0.484
2
b=11.1
ns (n 1)s 4 0.2282 17.83 >11.1 2= 2 2 2 0 0 0.108
否定H0,即方差不能认为是0.1082
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3.078 6.314 12.706
31.821
2
……
1.061
…… …… 0.847 0.847
1.886 2.920 4.303
…… …… …… …… …… …… …… ……
6.965
…… …… 2.382 2.381
9.925
69
70
1.294 1.667 1.995 1.294 1.667 1.995
30
三、总体比例P的区间估计
p z 2 p1 p P p z 2 n p1 p n
0.71 0.7 0.71 0.7 [0.7 1.96 P 0.7 1.96 ] 30 30
(0.54 P 0.86)
成一个样本,计算在给定的星期他们的加班时间,
分析:假定总体是正态分布的。 n 18,df 17,
90%置信系数对应的每一侧的面积 2 0.05,对 应的t值为: t 0.0517 1.740
x 6 21 16 x 13.56小时 n 18
s
(一)点估计的含义 用样本统计量一个特定的值(一个点)作为相 应总体参数的估计值。
ˆ
(3.9)
5
二、点估计
(二)评价点估计优良标准 【思考与讨论】为什么要对点估计的优良性进 行评价?
1.无偏性
样本估计量抽样分布的数学期望等于被估计的 总体参数。
估计
12
三、总体均值的区间估计
在本次抽样中: n 30
x 56883 .33
1 0.95 z
2
1.96
3900
3000名员工年均收入区间估计为:
x z x z 2 2 n n 3900 3900 .33 1.96 56883 .33 1.96 56883 30 30 55487 .73 58278 .93
第3讲
参数估计与假设检验
1
第一节 参数估计
2
一、几个常用公式
(一)关于总体
1.总体均值 2.总体均值方差 3.总体比例 4.总体比例方差
X
N
(3.1)
2
2
X
N
3.2
P
N1 N ; Q 0 1 P (3.3) N N
2 P P 1 P
10
三、总体均值的区间估计 通过抽样和有关计算得到以下两个相关 数据: 被抽中的30名员工的年平均收入为 56883.33元,年员工所占比重为0.70。
现假定根据历史资料得知:3000名员工
年均收入的标准差为3900元。
11
三、总体均值的区间估计
问:在置信水平为95%的情况下,全公司职工 年均收入大约是多少?
计。
28
三、总体比例P的区间估计
由于单个样本比例是总体比例的无偏估
计量,所以,可以将公式(3.15)改写为:
p z p 1 p P p z p 1 p 2 2 n n
(3.16)
29
三、总体比例P的区间估计
例如,在前面先科计算机公司的例子中,经 过抽取30个员工组成一个简单随机样本,统计 计算得到男性员工所占比重的样本比例为0.7, 则在95%置信水平的情形下,该公司男性员工 的比例区间大约为:
(1)总体标准差已知:
x z x z (3.12) 2 2 n n
9
三、总体均值的区间估计
例如,先科计算机公司共有员工3000人。人 力资源部门工作人员想通过从中随机抽取30名员 工了解一下他(她)们的平均收入和性别构成情 况,以推断全公司上述两个指标的数值。
用正态概率分布作为样本比例的抽样分布。
27
三、总体比例P的区间估计
P 1 P P 1 P p z P p z 2 2 n n
(3.1 5)
由于公式(3.15)中的总体比例P是未知的,
所以在进行总体区间估计前,还需要对P作出估
(3.13)
15
三、总体均值的区间估计
例如,工商银行某市分行信用卡部的工作人员 对该市持有工商银行信用卡人总体债务均值做了 一项研究。 该工作人员经过随机抽样,对70名持卡人的 信用卡余额进行调查得到如下数据:
16
三、总体均值的区间估计 9430 14661 11032 7535 12195 11448 7159 9071 9691
3.4
3
一、几个常用公式
(二)关于样本 1.样本均值
x
x
n
(3.5)
2
2.样本均值方差
3.样本比例 4.样本比例方差
p
s2
x x
n -1
3.6
n1 n ;q 0 1 p (3.7) n n
2 sp p 1 p 3.8
4
二、点估计
18
三、总体均值的区间估计
s s x Z x Z 2 2 n n
9312 1.96 4007 70 9312 1.96 4007 70
8373 .30 10250 .70
19
三、总体均值的区间估计
【统计分析】该银行信用卡部的工作人员通过 对70名持卡人的随机调查,有95%的把握认为, 全市持该行信用卡人的平均余额大约在8373.3010250.70元之间。
x x
n 1
2
6 13.562 21 13.562 16 13.562
17
7.8小时
23
x t
2
s n
7.8 18 13.56 3.20
13.56 1.740
10.36 16.76小时
24
【统计分析】该研究者通过对18个经理的抽样 调查,有90%的把握相信他所在的行业中经理们 每周加班的平均时间在10.36 ~ 16.76小时之间。 【思考】如果你与该研究者从事同一种行业, 并且担任某个部门的经理,当你得到这个信息会 有怎样的反应呢?
20
三、总体均值的区间估计
2.小样本总体标准差未知时总体均值的区间估计 此种情况下用公式(3.14)进行总体均值的区 间估计
s s x t x t 2 2 n n
(3.1 4) t :自由度为(n-1的t分布右侧面积为 2 t值。
2
时的
2 2
n
3.17
35
二、估计总体比例所需要的样本容量
z p 1 p 2
2
nP
Z 2
p 1 p n
2
3.18
36
附 1:
37
附2 : t分布简表
自由度
1
上侧面积
0.20 1.376 0.10 0.05 0.025 0.01 0.005 63.656
13
三、总体均值的区间估计
【统计分析】计算结果表明,在已知总体标准 差为3900元,样本容量为30个人,置信水平为 95%的情况下,先科计算机公司3000名员工的 年均收入大约在55487.73~58278.93元之间。
14
三、总体均值的区间估计
(2)总体标准差未知:
s s x Z x Z / 2 2 n n
2.649 2.648
38
21
[ 例 ] 一位研究者想估计他所在的行业中经理 们每周加班的平均时间。他随机挑选18个经理构 得到的结果如下(以小时为单位): 6 21 17 20 7 0 8 16 29 3 8 12 11 9 21 25 15 16 该研究者选取90%的置信系数,估计该行业 的经理们每周加班的平均时间。
22
8137
3603
6525
4078 10544 9467 8279 5239 16804 …… …… …… …… …… ……
17
三、总体均值的区间估计
经过对样本数据进行计算,得到:
x 9312 s 4007
问:在置信水平为95%的情形下,该工作人员 可以认为该市所有持工商银行信用卡的人均债务 余额是多少?
31
三、总体比例P的区间估计
(二)两个总体比例之差的区间估计 略
32
第二节 适度样本容量的确定
33
一、估计总体均值所需要的样本容量
x z 2 n
和n 在上述公式中, z 、 共同确定了边际误差。
2
34
一、估计总体均值所需要的样本容量
z 2 2 Z2 n
2.有效性 对于同一总体参数多个无偏估计量,用其中方
差最小的那个估计量去估计总体参数,我们称为
更有效。
ˆ ˆ D 1 D 2
3.11
7
二、点估计
3.一致性 随着样本容量的不断增加,点估计量的值越来 越趋近于被估计总体的参数。
8
三、总体均值的区间估计 (一)单个总体均值的区间估计 1.大样本情形下总体均值的区间估计
25
三、总体均值的区间估计
(二)两个总体均值之差的区间估计 略
26
三、总体比例P的区间估计
(一)单个总体比例的区间估计
1.总体比例区间估计的前提条件:
(1)由中心极限定理可知,对于大样本P的
抽样分布,可以近似看成为正态概率分布。
(2)当 pn
5和np 1 p 5
同时成立时,可以