第五章 统计推断 PPT课件
合集下载
第五章统计推断课件(1)

2020/8/1
版权所有 BY 统计学课程组
28
一、假设检验的一般性问题(5)
上述的判断实际上体现着反证法的思想。判断的基础是样本
信息,判断的理论依据是小概率原理,即小概率事件在一次试验
(或抽样)中几乎不发生。直观来想,在所做假设是正确的情况
下,那么一次试验(或抽样)中人们期望的结果出现的概率应该
2020/8/1
版权所有 BY 统计学课程组
11
二、区间估计(3)
5.区间估计时应考虑的一些具体问题 在对总体均值进行区间估计时,
常常需要考虑总体是否为正态总体、 总体方差是否已知、用于构造估计量 的样本是大样本(n≥30)还是小样本(n< 30)等几种情况。
2020/8/1
版权所有 BY 统计学课程组
2. 解决问题的统计思想 4. 单、双侧检验问题 6. 统计检验的显著性
二、几种常用、具体的参数检验方法
1. Z检验法 3. c 2 检验法
2. T检验法 4. F检验法
2020/8/1
版权所有 BY 统计学课程组
23
一、假设检验的一般性问题(1)
(一) 问题的提出
2020/8/1
版权所有 BY 统计学课程组
12
二、区间估计(4)--总体均值的区间估计
1.正态总体、总体方差已知;或非正态总体、大样本
2020/8/1
版权所有 BY 统计学课程组
13
二、区间估计(5)--总体均值的区间估计
2.正态总体、总体方差未知、小样本
2020/8/1
版权所有 BY 统计学课程组
14
二、区间估计(6)--总体成数的区间估计
第五章
统计推断
2020/8/1
第五章 统计推断 《试验设计与统计分析》PPT课件

则( x1 x 2 ) ~ N ( ( x1 x2 ) , ......
2 ( x1 x 2 )
)。
统计推断
总体 ——从样本到总体
样本
通过一个或多个样本统计数推断总体相应参数
第一节 统计推断的含义和内容
一、统计推断的概念
按照一定的抽样方法,从所研究的总体中,随机抽 出一个样本或一系列样本,并研究样本的特征,然后根 据对样本特征的研究结果去推断总体的特征 。
拿 3棵 拿 4棵 拿 5棵
推断:一次就猜对5棵的概率是0.03125,概率很小, 亦即猜100次只有5次能把5棵麦苗属何品种全猜对, 在一次试验中几乎不可能发生,所以,他若能一次 就说对,不是凭猜的,是确有鉴别能力。
这里有一个概率标准的问题,这个概率标准
称为显著水平(a)一般为0.05或0.01。 我们是依据“小概率实际不可能性原理”进 行推断的。这个原理是说:概率很小的事件, 在一次试验中几乎不可能发生或可以认为不 可能发生。如果我们假设了一些条件,并在 假设的条件下能够准确地算出事件A出现的 概率很小,但在一次试验中,事件A竟出现 了,那么,我们就可以认为这个假设不正确, 从而否定这个假设。
四、统计假设检验的两类错误
1、第一类错误(first kind error)或I型错误(type I error)。––如果H0是真实的,我们通过检验却否定 了它,就犯了一个否定真实假设的错误。第一类错
误只有在否定H0时才会发生。由于规定显著水平为
a ,故H0为真而被否定的概率最多为a ;因而这类
实际上包括了 0 (或1 2 )和 0 (或1 2 )两种情况, 要在 a显著水平否定无效假设 H 0 : 0 (或1 2 ), 必须 否定区,分别位于 水平 a u ua 或u ua,因而这种检验有两个 表示的概率在曲线两尾
《统计学》课件 第五章统计推断

三、 样本容量的确定
p152
一、问题的提出 二、处理问题的原则 三、简单随机抽样下,调查成本既定时样本容 量确定的方法 1. 估计总体均值时样本容量的确定
2. 估计总体比例时样本容量的确定
2014-1-1
版权所有 BY lazhenx
37
样本容量的确定
一、问题的提出
从推断来看,要达到估计所要求的精确程度,
对置信区间的理解注意:
②总体参数是固定的、未知的,而用样本构造的区间则是不 固定的。若抽取不同的样本,用该方法可以可到不同的区 间,从这个意义上说置信区间是随机区间,会因样本的不 同而不同,而且不是所有的区间都包含总体参数的真值。 ③在实际问题中,进行估计时往往只抽取一个样本,此时所 构造的是与该样本相联系的一定置信水平(比如95%)下的 置信区间。由于用该样本所构造的区间是一个特定的区间 ,而不再是随机区间,所以无法知道这个样本所产生的区 间是否包含总体参数的真值。我们只能希望这个区间是大 量包含总体参数真值的区间中的一个,但它也可能是少数 几个不包含参数真值的区间中的一个。
1.
ˆ P q1 #q
{
ˆ q2 = 1- a
}
置信区间
置信水平1-α
样本统计量 (点估计)
置信下限
置信上限
当总体服从正态分布N(μ,σ2)时,(σ2已知)来自该总体 的所有容量为n的样本的均值x也服从正态分布,x 的数 学期望为μ,方差为σ2/n 即x~N(μ,σ2/n) 置信水
平
p(
x
原点矩存在,若不存在则无法估计;矩估计法不能充分地利 用估计时已掌握的有关总体分布形式的信息。
2.最大似然估计法
基本思想:当我们经一次抽样取得一些观测数据(样本值) 后,应给未知参数选取一些数值,使得所观测得到的样本值 出现的概率最大。
《chap5统计推断》PPT课件

6
假设检验
假设检验的定义
假定原假设正确,检验某个样本是否来自某个总体, 它可以使研究者把根据样本得出的结果推广到总体
反证法: 假定原假设正确,研究其发生的概率
根据样本进行的假设检验有两种结果
拒绝H0,因为发现其是错误的 不能拒绝H0,因为没有足够的证据使我们拒绝它
原假设和备择假设总是互斥,而且包括了所有的可能,
5
统计假设
原假设(null hypothesis, H0)通常为不变情况的假设。 备择假设(alternative hypothesis, HA)则通常声明一种改变的状态,如
两个群体间存在差异。 研究假设可以为两种可能之一,即没有差异和有差异。通常情况下,备择假
设和研究假设相同,因此,原假设与研究者的期望相反。
20
显著水平的选择
如果接受H0,则或者得出正确结论,或者犯概率为的第二类错误 如果结论为拒绝H0,则可能得出正确结论,也可能犯概率为 的第一类错误。 当假设检验结果为拒绝H0时,我们知道犯第一类错误的概率,因此我们进行
假设检验时,总是希望结论为拒绝H0 推荐的显著水平为0.05?为什么
21
<-无效假设H0: y=0 <-要分析的变量为y
45
结果
P=0.3434>0.05,接受H0,即抽测结果的平均数是否与总体平均数114天一致
46
第三节
两个样本平均数差异的假设检验
47
一、两独立样本
平均数差异的假设检验
48
前言
两样本独立指两样本 为分别独立地从两个总体抽取的,两个样本间相互独立 在动物科学中,利用完全随机设计(completely randomized design, CRD)
假设检验
假设检验的定义
假定原假设正确,检验某个样本是否来自某个总体, 它可以使研究者把根据样本得出的结果推广到总体
反证法: 假定原假设正确,研究其发生的概率
根据样本进行的假设检验有两种结果
拒绝H0,因为发现其是错误的 不能拒绝H0,因为没有足够的证据使我们拒绝它
原假设和备择假设总是互斥,而且包括了所有的可能,
5
统计假设
原假设(null hypothesis, H0)通常为不变情况的假设。 备择假设(alternative hypothesis, HA)则通常声明一种改变的状态,如
两个群体间存在差异。 研究假设可以为两种可能之一,即没有差异和有差异。通常情况下,备择假
设和研究假设相同,因此,原假设与研究者的期望相反。
20
显著水平的选择
如果接受H0,则或者得出正确结论,或者犯概率为的第二类错误 如果结论为拒绝H0,则可能得出正确结论,也可能犯概率为 的第一类错误。 当假设检验结果为拒绝H0时,我们知道犯第一类错误的概率,因此我们进行
假设检验时,总是希望结论为拒绝H0 推荐的显著水平为0.05?为什么
21
<-无效假设H0: y=0 <-要分析的变量为y
45
结果
P=0.3434>0.05,接受H0,即抽测结果的平均数是否与总体平均数114天一致
46
第三节
两个样本平均数差异的假设检验
47
一、两独立样本
平均数差异的假设检验
48
前言
两样本独立指两样本 为分别独立地从两个总体抽取的,两个样本间相互独立 在动物科学中,利用完全随机设计(completely randomized design, CRD)
第05章统计推断

第五章 统计推断
§5.1 单个样本的统计假设检验
例5.4 已知豌豆籽粒重量(mg)服从正态分布N(377.2,3.32)。在
改善栽培条件后,随机抽取9粒,其籽粒平均重 x =379.2,若标
准差仍为3.3,问改善栽培条件是否显著提高了豌豆籽粒重量?
解:假设H0:μ=μ0 (377.2)
HA:μ>μ0 (377.2)
即第一号渔场的马面鲀体长并不比第二号渔场的长。
第五章 统计推断
§5.2 两个样本差异的显著性检验
5.2.3+5.2.4 标准差(σi)未知时两个独立样本差异显著性的t-检验 两检个验独的立程样序本:——不同属性的样本或同一属性不同量级的样本。 第一步: 用 F 检验也进就行是方方差差齐分性析检中验的“固定因素” 。 齐第(性二1)t方时步检零差用:验假间方用的设差差方tH检异相差0:验不等齐μ做显的性1=平著统检μ均为计2验数齐量中差性,,异,非Fd显差齐f1,d著异性f2,性α显时,检著用df验为方1为非差第齐不一性等样。的本统自计由量度。,
解释: x2< x2 0.05,接受H0; x2 > x2 0.05,拒绝H0 ② x2 < x21-α ③ x2 < x21-α/2和x2 > x2α/2
第五章 统计推断
§5.1 单个样本的统计假设检验
例5.6 一个混杂的小麦品种,株高标准差σ0=14cm,经提纯后随 机抽出10株,它们的株高为90、105、101、95、100、100、101
绝域进行判定。对于单纯的零假设:统计量计算值<统计
量临界值,即P>0.05,接受假设;统计量计算值>统计量临
界值,即P<0.05,拒绝假设。
第五章 统计推断
统计学05第五章抽样推断

(2)
计算 p
p1 p
n
(3) 根据 F Z 查表 Z
(4) 计算 Z
(5) 写出:P : p , p
2020/11/17
第五章 抽样推断
44
2.3 区间估计
【例5-5】某工厂要估计一批总数5 000件的产品的废品率,于是随机抽 出 400 件产品进行检测,发现有32 件废品。在置信度为 90% 的要求下, 试给出该批产品的废品率的区间估 计。
总体参数和样本统 x计 量x-x2 n
总体参数和样本统计量的计算公式
总体参数
X X1 X2 XN N
样本统计量
x x1 x2 xn n
P N1 N
p n1 n
X X X 2 N
S x x-x 2 n1
P P 1 P
p p 1 p
2020/11/17
2020/11/17
第五章 抽样推断
35
2.3 区间估计
2. 给定 , 已知 X , 总体平均数的估计:
步骤
内
容
(1) 抽样,计算 x 区间的中心
(2) 计算抽样平均误差: X n
(3) 计算 Z 查表F Z
(4) 根据 x 和 : X : x ,x
2020/11/17
参数估计要求:
1. 精确性—适当的极限误差范围; 2. 可靠性—估计结果正确的概率。
参数估计—点估计和区间估计。
2020/11/17
第五章 抽样推断
16
2.2 点估计
点估计就是根据总体参数与样本统计 量之间的内在联系,直接以样本统计量 作为相应总体参数的估计值,点估计又 称为定值估计。
常用的点估计量有:
22
统计推断的概要(ppt 共24页)

样本均值的分布
从前面的例子可以看出样本大小为2时和30时均值推断的分布如上图。我们为 了解总体的特性,抽取的是样本,所以我们只能得到均值的推断.总体真实的均 值在上面提示的理论分布中的某一位置,样本容量越大,推断的均值越精确.
推断的概要
10
随样本容量变化的平均标准误差(平均值的标准偏差)
平均值的标准偏差称平均的标准误差(SE Mean),如下定义. 一般标准误差越小推断值越好.
统计推断的概要
(分析阶段) (ZTE-GB303-V1.5)
推断的概要
1
主要内容
1. 统计推断 2. 误差的来源 3. 置信统计推断
统计推断是通过抽取样本,然后对样本进行分析,以样本的分析结果 推测出“总体可能是这样”结论,对总体下一个正确判断的行为,即总
体
是否发生了变动。而且,一般以推测总体平均值,总体的比率,总体标 准偏差等显示总体分布特征值的统计程序称为统计推断。
95% Confidence Interval for Median 95% Confidence Interval for Median 49.315 60.494
对总体区间推断值 -95%置信度总体平均值 的置信区间 -95%置信度下总体标准 偏差的置信区间 -95%置信度总体中位 数的置信区间
弯曲点 标 准 误 差
Sx Sx n
Sx = Sx =
平均的标准误差 样本的标准偏差 n = 样本大小
0
10
20
30
标准误差在样本大小为5,6时趋于稳定,样本大小为30时趋于平行.一般样本大
小应为5以上,为了得到更精确的平均推断值,样本大小应为30以上.
推断的概要
11
3. 区间推断
第五章 统计推断 《统计学》 ppt课件

必要抽样数目愈多;值愈小,必要抽样数目愈少。 (2)允许误差(极限误差)Δ,即Δ的数值。Δ值大可以
少抽些样本单位,Δ值小则要多抽一些样本单位。Δ是调查 前规定的,是根据调查目的确定的。 (3)概率度t 。t值愈大,要求把握程度愈高,则要多抽 些单位;t值愈小,要求把握程度低,则可少抽些单位。把 握程度也是在抽样之前根据抽样的目的和要求来规定的。 (4)抽样方法。在同等条件下,重置抽样需要多抽一些单 位,不重置抽样可少抽一些样本单位。 (5)抽样的组织方式。简单随机抽样,类型随机抽样, 等距随机抽样,整群随机抽样,阶段随机抽样等都是抽样 的组织方式,由于采用的组织方式不同,必要抽样数目也 不相同。
二、统计推断的几个基本概念
1.总体和样本 在统计推断中存在全及总体和样本总体。
全及总体也叫母体,简称总体,是所要认识的研究对象的 全体,它由具有某种共同性质或特征的单位组成。全及总 体的单位数用N表示。
全及总体按其各单位标志的性质不同可分为变量总体和 属性总体。
样本总体又叫抽样总体、子样,简称样本,是从全及总 体中随机抽选出来的单位所组成的小总体。
样本平均数的抽样分布是由样本平均数的可能取值和与 之相应的概率组成。
例5.3
在不重复抽样时,样本平均数的抽样分布有数学期望
E(x) a
即样本平均数的平均数等于总体平均数
X
在不重复简单随机抽样时,样本平均数的抽样分布有方 差,即
2 x
2
n
(
N N
n) 1
在不重复抽样条件下,用
x
表示抽样平均误差(也称抽样标准误差),则
(
方差σ2 )。
设总体N个单位中,有N1个单位具有某种属性,N0个单 位不具有某种属性,且N1十N0=N ,则: P N1 N
少抽些样本单位,Δ值小则要多抽一些样本单位。Δ是调查 前规定的,是根据调查目的确定的。 (3)概率度t 。t值愈大,要求把握程度愈高,则要多抽 些单位;t值愈小,要求把握程度低,则可少抽些单位。把 握程度也是在抽样之前根据抽样的目的和要求来规定的。 (4)抽样方法。在同等条件下,重置抽样需要多抽一些单 位,不重置抽样可少抽一些样本单位。 (5)抽样的组织方式。简单随机抽样,类型随机抽样, 等距随机抽样,整群随机抽样,阶段随机抽样等都是抽样 的组织方式,由于采用的组织方式不同,必要抽样数目也 不相同。
二、统计推断的几个基本概念
1.总体和样本 在统计推断中存在全及总体和样本总体。
全及总体也叫母体,简称总体,是所要认识的研究对象的 全体,它由具有某种共同性质或特征的单位组成。全及总 体的单位数用N表示。
全及总体按其各单位标志的性质不同可分为变量总体和 属性总体。
样本总体又叫抽样总体、子样,简称样本,是从全及总 体中随机抽选出来的单位所组成的小总体。
样本平均数的抽样分布是由样本平均数的可能取值和与 之相应的概率组成。
例5.3
在不重复抽样时,样本平均数的抽样分布有数学期望
E(x) a
即样本平均数的平均数等于总体平均数
X
在不重复简单随机抽样时,样本平均数的抽样分布有方 差,即
2 x
2
n
(
N N
n) 1
在不重复抽样条件下,用
x
表示抽样平均误差(也称抽样标准误差),则
(
方差σ2 )。
设总体N个单位中,有N1个单位具有某种属性,N0个单 位不具有某种属性,且N1十N0=N ,则: P N1 N
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(点估计)
置信区间
置信下限 ˆ 1
置信上限 ˆ 2
一般地,如果将构造置信区间的步骤重复多次, 置信区间中包含总体参数真值的次数所占的比率, 称为置信水平(概率保证程度)。
即区间包含总体参数真实值的可信度.
通常用1- 表置信水平,其中称为显著性水平。 比较常用的置信水平:90%,95%和99%。
第五章 统计推断
第一节 总体参数估计 第二节 总体参数检验
统计推断在统计方法中的地位
统计方法
描述统计
推断统计
参数估计
假设检验
大学生每周上网花多少时间?
为了解学生每周上网花费的时间,某校4名 本科生对全校部分本科生做了问卷调查。调 查的对象为本校在校本科生,调查内容包括 上网时间、途径、支出、目的、关心的校园 网内容,以及学生对收费的态度,包括收费 方式、价格等。
例如,抽取了1000个样本,根据每一个样本均构 造了一个置信区间,这1000个置信区间中,有95% 的区间包含了总体参数的真值,而5%的置信区间则 没有包含。这里,95%这个值被称为置信水平(或置 信度)。
两个需要注意的问题
如果用某种方法构造的所有区间中有95%的 区间包含总体参数的真值,5%的区间不包含 总体参数的真值,那么,用该方法构造的区 间称为置信水平为95%的置信区间。
点估计完全正确的概率通常为0。因此, 我们更多的是考虑用样本统计量去估计总 体参数的范围 区间估计。
(一)总体参数的区间估计概述
1.基本概念
(1)区间估计:在点估计的基础上,给出总体参数 估计的一个范围,并给出区间估计成立的概率值。
p(1 2 ) 1 样本统计量
P(X )
均值的抽样分布
B
A
中位数的抽样分布
X
一致性(consistency)
一致性:随着样本容量(n)的增大,点估计量 的值越来越接近被估计的总体参数。
若对于任意ε >0,有 limP ˆ 1 n 较大的样本容量 P(X ) B
较小的样本容量
A
X
例题
1.对某企业的产品进行抽样检验,设抽出100件产 品,其中不合格产品5件,试估计该企业产品的 合格率是多少?
置信区间是一个随机区间,它会因样本的不 同而不同,而且不是所有的区间都包含参数 真值。
2.区间估计的基本原理
(1)区间估计的三个要素 点估计值、允许的抽样误差范围Δ 、置信水
平(概率保证程度) F(z) 。 点估计值:一般为样本平均数或样本成数p 允许误差范围(抽样极限误差) :Δ (x±Δ)
就是置信区间
置信水平:F(z)= 1-
(2)基本原理
P( x X x ) 1
P( x X
xX
x) P( x
x ) F(x ) F(z)
x
x
为抽样平均误差,
Z
x
称为概率度。
x
x
F(z)、 z、Δ、μ之间的关系
给定置信 水平F(z)
2. 男 性 成 人 的 身 高 X 服 从 正 态 分 布 X~N(, )2 ,
其中 , 2 是未知参数,现随机测量12名成人男 性的身高(单位:米)如下: 1.80,1.68,1.85,1.60,1.67,1.75,1.78, 1.62,1.76,1.70,1.79,1.69,试求
的点估计值 , 2
2.统计推断的基本内容有两个: (1)参数估计(利用样本指标来推断估计未知的总
体指标。) (2)假设检验(先对总体参数做一个假设,然后利
用样本资料检验这个假设是否成立。)
参数估计:
以样本估计量来估计总体参数。
参数估计的分类:
点估计 区间估计
二、点估计(point estimator)
无偏性:估计量的数学期望等于被估计的 总体参数。
若 E(ˆ) ,则称ˆ为 的无偏估计量
P( x )
无偏
A
有偏
x,s2,p
都是无偏估计量
C
x
有效性(efficiency)
有效性:一个方差较小的无偏估计量称 为一个更有效的估计量。
若ˆ1 ˆ2,则称 ˆ1为比 ˆ2更有效的估计量
z Δ = z *μ
样本 μ 和总体参数的点估计值
若重置抽样:
n
给定误差 范围Δ
Δ/μ= z
ቤተ መጻሕፍቲ ባይዱ
F(z)
2.区间估计的特点
(1)指出总体被估计参数的上限和下限, 即指出总体参数的可能范围,而不是直接 给出总体参数的估计值。
(2)指出置信区间包含总体参数的可信度 有多大。
(3)缩小估计区间(准确性)与提高置信 度(可靠性)是矛盾的。
问卷调查由调查员直接到宿舍发放并当场回 收。对四个年级中每年级各发60份问卷,其 中男、女生各30份。共收回有效问卷共200 份。其中有关上网时间方面的数据整理如下:
大学生每周上网花多少时间?
回答类别 3小时以下 3~6小时 6~9小时 9~12小时 12小时以上
合计
人数(人) 32 35 33 29 71 200
1.定义
点估计又称定值估计,它是直接以样本统计量 作为总体参数的估计量,以样本统计量的取值 作为总体参数的估计值。
2.常用的总体参数的点估计
X x x,
n
2 s2
(x x)2 ,
n 1
P p n1 n
重点注意
3.点估计量优良与否的评价标准
(三个)
无偏性(unbiasedness)
(二)平均数的区间估计 总体方差(2 )已知或未知
频率(%) 16 17.5 16.5 14.5 35.5 100
平均上网时间为8.58小时,标准差为0.69小时。全
校学生每周的平均上网时间是多少?每周上网时间 在12小时以上的学生比例是多少?你做出估计的理 论依据是什么?
第一节 总体参数估计
一、统计推断概述
1.统计推断:根据样本的观察结果以及样本统 计量的抽样分布,对总体的数量特征作出具有一 定可靠程度的估计和判断。
1.解:通过样本的合格率来估计企业产品的合 格率。样本合格率p=95/100=95%,我们估计 该企业产品的合格率是95%。
P=p=95%
2.解: x 1.80 1.68
12
12
(xi x)2
2 s2 i1
n 1
1.69 1.72(米)
三.区间估计 (interval estimator)