应用统计学 教案 第4章 抽样推断
第4章统计推断PPT课件

x x (3.41)
t
s x
sn
9
t分布的特征:
(1)曲线左右对称,围绕平均数μt=0向两侧递降。
(2) t分布受自由度df=n-1的制约,每个自由度都有一
条t分布曲线。
(3)和正态分布相比,t分布的顶部偏低,尾部偏高, df〉30时,其曲线接近正态分布曲线,当df→+∞时,则和正态 曲线重合。
拒绝域比较,若没落入,则认为有显著差异,单未 达极显著差异,拒绝H0
若也落入α=0.01拒绝域,则认为差异极显著,拒
绝H0
36
例3.1 已知豌豆重量(mg)服从N(377.2,3.32)。
在改善栽培条件后,随机抽取9粒,籽粒平均重 X =379.2,若标准差仍为3.3,问改善栽培条件是否显 著提高了豌豆籽粒重量?
解:1.小麦的株高是服从正态分布的随机变量
2.假设:
H0: σ=σ0(14cm)
HA: σ<σ0(14cm)
关于备择假设的说明:小麦经过提纯后株高只 能变得更整齐,绝不会变得更离散。即σ只能小于σ0 。因此, HA: σ<σ0
3.显著性水平:规定α=0.01
40
4.统计量的值: 2n 1 0 2S2 ~2n1
正态分布和t分布:双侧检验--取绝对值与分位数 比 ;单侧检验--下单尾是小于负分位数拒绝H0; 上单尾是大于分位数拒绝H0。
χ2分布:下侧分位数和上侧分位数
35
5.计算统计量
把样本观测值代入统计量公式,求得统计量取值 ,检查是否落入拒绝域。
若没落入,则认为无显著差异,接受H0
若落入α=0.05的拒绝域,则应进一步与α=0.01的
10
注: t1(n)t(n) 分位点
第4章抽样推断和参数估计(一)(高等教育出版社)资料

二、抽样分布的形成过程
总体
计算样本统计量
样
本
如:样本均值、比
例、方差
三、总体均值的分布规律
我们所研究的客观总体,有许多随机变量是服从正态分布 的,或是在一定的条件下近似地服从正态分布。 总体的分布特征是:
1. 均值的计算公式 未分组数据:
n
xi
i1
N
分 组 数 据:
K
xi fi
i 1 K
2.实际工作中可以取得全面资料,但不能进行全面调查 时, 要运用统计抽样。
3.可以对生产过程进行控制和检验。 4.对普查质量进行检查和修正。 5.对于需要了解全面资料因时间紧迫不可能取得全面资料
时,就要运用统计抽样方法来取得资料。
4.2 统计抽样方法和组织形式
一、抽样方法 常用的抽样方法有重复抽样和不重复抽样
一、抽样分布概念
1. 抽样分布:就是由样本n个观察值计算的统计量 的概率 分布。
2. 概率分布:样本统计量的概率分布,是一种理论分布
在重复选取容量为n的样本时,由该统计量的所有可能取值形成
的相对频数分布
3.随机变量是样本统计量
样本均值, 样本比例,样本方差等
4. 计算结果来自容量相同的所有可能样本 5. 提供了样本统计量长远而稳定的信息,是进行推 断的 理论基础,也是抽样推断科学性的重要依据
学习目标
1. 理解统计抽样的意义和作用 2. 熟悉抽样方法和组织方式 3. 理解抽样分布的科学原理 4. 掌握抽样误差的计算方法 5. 掌握参数估计的方法 6. 掌握样本容量的计算方法
4.1 统计抽样的意义和作用
一、统计抽样概述 二、统计抽样特点 三、统计抽样重要性
☺☺ ☺
☺☺ ☺☺
李金昌《统计学》(最新版)精品课件第四章 抽样估计

Statistics
第二节 抽样误差
一、抽样中的误差构成 二、抽样误差的表现形式
Statistics
一、抽样中的误差构成
一般地,抽样中的总误差可以简单地分为两类,一类是抽样 误差,一类非抽样误差。 所谓抽样误差是由于抽样的非全面性和随机性所引起的偶然 性误差,即因抽样估计值随样本不同所造成的误差。偶然性误差 的特点是,它随着样本容量的增大而趋向于0,或者说各样本统 计值的平均数与总体参数值之差为0。 所谓非抽样误差是由随机抽样的偶然性因素以外的原因所引 起的误差,是非抽样调查所特有的。它主要是由于抽样框不够准 确(与目标总体不一致)、有些观测单位的数据无法取得、已取 得的一些数据不真实等原因引起的样本观察数据非同质、或残缺、 或不真实而产生的误差,其中的一个重要部分就是所有统计调查 都可能产生的调查性误差。这种误差与抽样的随机性无关,往往 具有系统偏向性。当非抽样误差超过一定程度时,抽样估计结果 就会与实际情况严重不符,就会失去意义。因此,减少和控制非 抽样误差具有很重要的意义。
Statistics
二、常用的抽样分布定理
(一)样本均值的抽样分布定理
1.正态分布的再生定理 如果某样本的n个个体完全随机地来自数学期望为 X 、方差 为S 2 的正态总体,则不论样本容量n多大,样本均值服从数学期 ( N n) S 2 S2 望为 X 、方差为 V ( x ) (重复抽样时)或 V ( x ) (有 Nn n 限总体且不重复抽样时)的正态分布。标准化统计量 z x X V (x ) 则服从数学期望为0、方差为1的标准正态分布。此即为正态分布 的再生定理。 2.中心极限定理 对于任一具有平均数 X 和方差 S 2的有限总体,当样本容量n 足够大时(例如 n 30或 n 50 ),样本均值 x的分布也趋于服从 正态分布,其数学期望和方差与再生定理的相同。此即为中心极 限定理。
统计学第四章:抽样与抽样分布

样本空间(Ω )
– 基本事件的全体(全集)
3-8
统计学
STATISTICS
随机事件(续)
复合事件 – 由某些基本事件组合而成的事件 – 样本空间中的子集 随机事件的两种特例
– 必然事件
• 在一定条件下,每次试验都必然发生的事件 • 只有样本空间 才是必然事件
– 不可能事件
• 在一定条件下,每次试验都必然不会发生的事件 • 不可能事件是一个空集(Φ )
相互独立其方差为33404001060333414143一重置抽样分布放回二不重置抽样分布不放回334242简单随机抽样分层抽样整群抽样系统抽样多阶段抽样概率抽样方便抽样判断抽样自愿样本滚雪球抽样配额抽样非概率抽样抽样方式抽样方法抽样方法334343概率抽样概率抽样probabilitysamplingprobabilitysampling根据一个已知的概率来抽取样本单位也称随机抽样抽取样本时使每个单位都有一定的机会被抽中每个单位被抽中的概率是已知的或是可以计算出来的当用样本对总体目标量进行估计时要考虑到每个样本单位被抽中的概率334444简单随机抽样简单随机抽样simplerandomsamplingsimplerandomsampling从总体n个单位中随机地抽取n个单位作为样本使得每一个容量为样本都有相同的机会概率被抽中没有利用其他辅助信息以提高估计的效率334545分层抽样分层抽样stratifiedsamplingstratifiedsampling将总体单位按某种特征或某种规则划分为不同的层然后从不同的层中独立随机地抽取样本保证样本的结构与总体的结构比较相近从而提高估计的精度既可以对总体参数进行估计也可以对各层的目标量进行估计334646整群抽样整群抽样clustersamplingclustersampling将总体中若干个单位合并为组群抽样时直接抽取群然后对中选群中的所有单位全部实施调查调查的地点相对集中节省调查费用方便调查的实施缺点是估计的精度较差334747系统抽样系统抽样systematicsamplingsystematicsampling将总体中的所有单位抽样单位按一定顺序排列在规定的范围内随机地抽取一个单位作为初始单位然后按事先规定好的规则确定其他样本单位先从数字1到k之间随机抽取一个数字r作为初始单位以后依次取rkr2k
统计学 第四章 推断统计概述

第四章 推断统计概述第一部分 概率论基本知识← 一、概率的定义;二、概率的性质;三、概率的加法定理和乘法定理← 四、概率分布类型四、概率分布类型← 概率分布(probability distribution )是指对随机变量取不同值时的概率的描述,一般用概率分布函数进行描述。
← 依不同的标准,对概率分布可作不同的分类。
1、离散型分布与连续型分布← 依随机变量的类型,可将概率分布分为离散型概率分布与连续型概率分布。
← 教育统计学中最常用的离散型分布是二项分布,最常用的连续型分布是正态分布。
2、经验分布与理论分布← 依分布函数的来源,可将概率分布分为经验分布与理论分布。
← 经验分布(empirical distribution )是指根据观察或实验所获得的数据而编制的次数分布或相对频率分布。
← 理论分布(theoretical distribution )是按某种数学模型计算出的概率分布。
3、基本随机变量分布与抽样分布← 依所描述的数据的样本特性,可将概率分布分为基本随机变量分布与抽样分布(sampling distribution )。
← 基本随机变量分布是随机变量各种不同取值情况的概率分布,← 抽样分布是从同一总体内抽取的不同样本的统计量的概率分布。
第二部分 几种常见的概率分布← 一、二项分布← 二项分布(binomial distribution )是一种具有广泛用途的离散型随机变量的概率分布,它是由贝努里创始的,因此又称为贝努里分布。
← 2.二项分布函数← 二项分布是一种离散型随机变量的概率分布。
← 用 n 次方的二项展开式来表达在 n 次二项试验中成功事件出现的不同次数(X =0,1…,n )的概率分布,叫做二项分布函数。
← 二项展开式的通式(即二项分布函数):← ←← ← ←← 成功概率 p ;样本容量 n← 在成功概率为p 的总体中随机抽样,抽取样本容量为n 的样本中,有X 次为成()011111100q p C q p C q p C q p C q p n n n n n n n n n n n ++++=+---Λ()Xn X X n X q p C P -⋅⋅=()X n X q p X n X n -⋅-=!!!功的概率: ←(X =0,1…,n ) ←称X 服从参数为n ,p 的二项分布,记为: ←X ~B(n ,p ) 其中,0<p<1 ←二项分布的性质 ←二项分布有如下性质: ←①当p=q 时,图形是对称的。
统计学抽样推断分析法

(X )
i2 1 2 n
抽样的应用
对不可能进行全面调查的社会现象 对不必要进行全面调查的社会现象 对普查资料进行必要的修正
二、有关抽样的几个基本概念
样本 从总体抽取出的、用以代表和推断 总体的部分单位的集合体。 注意 1.样本的单位必须取自总体;
2.由一个总体可以抽取许多样本;
3.样本的抽取必须排除主观因素的 影响,以确保其客观性与代表性。
例:某班组有5个工人,他们的单位工时工
资分别是4、6、8、10、12元,现用重复抽 样方式从5个工人中抽出2人,求样本平均工 时工资的抽样分布。 解:先计算总体工时工资的平均数和方差:
标准正态分布 的密度函数
1 f z e 2 1 F z 2
z2 2
标准正态分布 的分布函数
z
e
t2 2
dt
书中把z在0~3.49的取值及其相应的概率编 成正态分布面积表,通过查表可求出Z落在 任意区间的概率。
正态分布函数的标准化
设X~N(μ,
则 : E (Z ) E (
例1:设X~N(μ,σ2 ),求X落在区间(μ-
a,μ+a )的概率。
解:令Z=
X
,
X落在区间(μ-a,μ+a ),等价于Z落在 a a 区间 ( , ) 。
查正态分布表可得其概率为1 - 2[1 - F ( )] , 此即为X落在区间(μ-a,μ+a )的概率。
统计学基础及应用-抽样推断
任务八 抽样推断任务描述与分析在A市自来水公司的客户满意度调查中,我们抽样调查了A市自来水公司的700个客户,从前面的调查分析中我们了解到这700户客户对A市自来水公司的产品和服务等方面的评价。
现在你需要思考的是:这700户客户的意见能在多大程度上反映所有客户的意见?误差的可能性有多大?为了保证调查的准确性,我们是否需要再追加调查?任务分析(1)如何判断我们抽样调查的700个客户够不够?(2)根据抽调客户的意见我们如何推断出所有客户的意见?(3)被调查客户的意见与所有客户的意见误差有多少?案例8-1:为了加强与顾客的沟通,深入了解客户需求,以解决客户遇到的问题,并在此基础上持续改进公司的产品质量,进一步优化供水服务,A市自来水公司决定进行客户满意度调查,要求在2个月时间内完成调查报告。
A市共有自来水用户200万户,在短短两个月时间内必须完成客户调查并出具调查报告,你如何完成这项工作?抽样调查抽样推断是按照随机原则从总体中抽取一部分总体单位作为样本单位,组成样本总体,并以样本的数量特征对总体的数量特征做出具有一定可靠程度的估计和推断的统计分析方法。
抽样推断具有以下特点:1.抽样推断是用样本指标值来估计总体指标值 2.抽样的随机原则是抽样推断的前提3.抽样推断的误差是可以事先计算并加以控制节省调查费调查速度快调查结果准确可靠应用范围广抽样调查抽样推断常用概念总体样本从总体中按照随机原则抽选出来的一部分单位称为样本,用n 表示 我们所要调查研究的事物或现象的全体,总体单位数通常用N表示总体指标样本指标总体指标又称参数,是反映总体数量特征的综合指标,总体指标主要有:总体平均数,总体方差σ 2,总体标准差σ、总体成数P 和Q。
样本指标又称统计量,是根据样本各单位的标志值或标志特征计算的、反映样本数量特征的综合指标。
样本指标主要有:样本平均数,样本方差s2,样本标准差s,样本成数p和q。
样本容量样本样本个数又称样本可能数目,是指在一个抽样方案中从总体中所有可能被抽取的样本总数。
统计学第四章的教材
几个直观的结论
1. 样本均值的均值(数学期望)等于总体均值(式中:M为样本 n 数目); xi 22 23 28 i 1 25 X M 16 2. 抽样误差是随样本不同而不同的随机变量。抽样误差均值 等于0; xX 0
3. 样本均值的方差等于总体方差的1/n。
3
(二)抽样估计的一般步骤 1、设计抽样方案 2、 随机抽取样本(从总体随机抽取部分单位构成样本) 3、搜集样本资料(对样本单位进行调查登记) 4、整理样本资料(审查、分组汇总、计算样本指标的
数值,即计算估计量的具体数值)
5、估计总体指标(即估计总体参数)
总体参数与样本估计量的关系——对于特定的目 的,总体是惟一的,所以参数也是惟一的;而由 于样本是随机的,所以样本估计量是随机变量。
(3)抽样方法。相同条件下,重复抽样的抽样平均误 差大比不重复抽样的抽样平均误差大。
(4)抽样组织方式。由于不同抽样组织方式有不同的 抽样误差,所以,在误差要求相同的情况下,不同抽 样组织方式所必需的抽样数目也不同。
21
不知道总体方差时如何计算
用样本方差代替计算 用过去(总体或样本)方差代替计算 用同类现象(当前 或过去、总体或样本) 方 代替计算 有若干个方差可选择时,选方差最大者 (注意:对比率,即选择最接近0.5的值所 得的方差最大)
进无偏估计量。
29
二、区间估计
(一)区间估计的原理 区间估计就是根据样本估计量以一定 可靠程度推断总体参数所在的区间范围。 特点:考虑了估计量的分布,所以它能 给出估计精度,也能说明估计结果的把握 程度(置信度)。
30
(一)总体均值的置信区间
(1)假定条件
总体服从正态分布,且总体方差(2)已知
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第4章抽样推断 教 4. 1 统计抽样的一般问题 4.2抽样推断的相关基本概念 4. 3参数估计 4.4抽样误差 4.5抽样调查的组织方式及其误差的计算 4.6样本数目的确定 4.7 Excel在参数估计中的应用 教学要求 1. 理解不同种类抽样推断的基本原理; 2. 理解统计量与统计分布、重置抽样与非重置抽样概念的内涵: 3. 理解置信度与置信区间、抽样实际误差与平均误差的区别和联 系: 4. 掌握不同类型抽样的参数估计原理和方法: 5. 了解样本数目确定的原理和方法。 教学重点 统计量与统计分布、重置抽样和非重置抽样的概念;抽样平均误差 的计
算;不同类型抽样的参数估计原理和方法:样本数目确定的原 理和方法
教学难点 抽样平均误差的计算;不同类型抽样的参数估计原理和方法
教学方法
课堂讲授、多媒体教学、课堂讨论、案例分析、课堂练习、上机操 作。 课时数 12课时(课堂讲授9课时+课堂练习2课时+上机操作1课时)
导入案例 某品牌手机电池经过技术改进,待机时间得以提高,从该工厂抽取 一定数
量的样本,测得其平均待机时间,以此推断该工厂生产的电 池的待机时间。
4.1抽样推断的一般问题
抽样推断的概念及特点 抽样调查是一种非全面调查,它按照随机的原则从总体中抽取部分样本加以调查,目的是对 总体相关信息进行推断。 抽样调查是一种非全面调查,它按照随机的原则从总体中抽取部分样本加以调查,目的是对 总体相关信息进行推断。 抽样推断的主要特点如下。
课程思政目标: 统计推断就是利用样本 数据来推断总体特征的 方法,由点及面、由部 分推断总体真假的过 程。互联网技术带来了 信息时代,纷繁复杂、 Nf N2 -> n2
NL,h 2.类型抽样下的总体参数区间估计的计算步骤
(I )标志值条件下的计算步骤 第一步,计算样本均值。
其中,,也即分组的个数。 第二步,计算抽样平均误差。
第三步,计算极限误差。 印)=68.28%,/= 1
F(f) = 99.73%,f = 3 第四步,计算估计区间。 (x-A , x+A )(4.44)
例4.12现将某地区4000亩地按一定标准分为A、B、C这3种类型的地块,从4000亩地块 按10%抽样,获得表4.4所示的资料。
表4.4三种类型地块分布情况 总体/亩 样本/亩 平均亩产/千克 亩产方差 样本中高产地块亩数
A 1000 100 1000 50 20 B 1500 150 1200 60 80 C 1500 150 1100 80 60 4000 400 — — 160 在95.45%的置信度下,求4000亩地块平均亩产的估计区间。 解:第一步,计算样本均值。 v _ £ 电 _ I()0() X l(X) +120() X150 + 1I00 X|5O_1II?S
400-11125
第二步,计算抽样平均误差。
_50xl0() + 60xl50 + 80xl5()_z ° _。一一65
第三步,计算极限误差。
(4.41 ) (4.42 ) 其中,&是利用组内方差求取的标准差,组内方差冬, 7=1,2,…,七
,其中 F(/) = 95%,/= 1.96 F(/) = 95.45%J = 2 (4.43)
400 4(X) 4(X)
任=牛或出=斗 \Jn \Jn 第四步,计算估计区间。 )=(11 13.306) 答:在95.45%的置信度下,4000亩地块的平均亩产在11II.694-1113.306千克。 (2 )成数条件下的计算步骤 第一步,计算样本成数。
第三步,计算极限误差。 j = /y = 0.07
第四步,计算估计区间。 p - 160 _。4r_400_a4 (P-A,P+A )=(0.33,0.47)
答:在99.73%的置信度下,400()亩地块中的高产地块所占比重为33%~47%。
整群抽样 1.整群抽样基本概念及特征
整群抽样是指将总体划分为若干个(互不相交又穷尽)群,然后又擂进行抽样并对选中的群 进行全面分析的一种抽样方式。分群标准要求:群间异质性低,群内异质性高。其本质是以群为
(4.45 ) 其中,分母是指抽样样本数,分子是指样本中符合某一要求的样本数。 第二步,计算抽样平均误差。 外=斜3岛 其中,5是利用组内方差求取的标准差;组内方差 疽=驾^ (4.46 )
~~ 1° 第三步,计算极限误差。
第四步,计算估计区间。 F(/) = 68.28%,/ = ! F(f) = 95%j = 1.96 F(z) = 95.45%J = 2 F。)= 99.73%,,= 3
(4.47 )
(p~A,p+A) (4.48 )
例4.13根据表4.3所示的数据资料,在99.73%的置信度下,求4000亩地块中高产地块所占 比重的估计区间。 解:第一步,计算样本成数。
PA
— 0.2, crj =0.16»
PB
= 0.53» 勇=0.2491
Pc = 0.4, b] = 0.24
第二步,计算抽样平均误差。 =0.16 x 10() + ().2491 x 150 + 0.24 x 15() =Q 2? 4(X)
= 0.023 单位的简单随机抽样。表达式为N-Rf ,意思是全及总体共有N个单位,可以分为R个群体, 再从R个群体中抽取,个样本群体。 2.整群抽样下总体参数区间估计的计算步骤(I )标志值条件下的计算步骤第一步,计算样本均值。
*笠' 其中,,也即分群的个数,而£是指第i个群内部的个体数,£-1是指第,.个群(4.49 )内部所有个体某一指标值的总和。
利用各群样本均值计算所抽取的全部群体的样本均值为-9第二步,计算抽样平均误差。
丹=(4.5
0 )(4.51 )其中,<5是利用组间方差求取的标准差。
舟=£(云分/ , I”,…,〃(4-52 )第三步,计算极限误差。 F(/) = 68.28%,/ = ! F“)= 95%J = 1.96 刖)=95.45%』=2F(f)
= 99.73%,f = 3(4.53 )第四步,计算估计区间。 (x-J, x+J)(4.54 )
例4.14从某公司所有车间中抽取3个车间,调查各车间内部所有工人的月平均生产量,得到表4.5所示的资料。
表4.5工人月平均生产量资料 工人人数 月平均生产量/件 车间1 30 20
车间2 60 35
车间3 80 40
在95.45%的置信度下,试计算该公司所有车间全部工人的月平均生产量的估计区间。
解:第一步,计算样本均值。 第二步,计算抽样平均误差。
第三步,计算极限误差。
了=^^ = 34.71 第四步,计算估计区间。 )=(33.61,35.81)答:在95.45%的置信度下,该公司所有车间全部工人的月平均生产量为33.61 ~ 35.81件。 (2 )成数条件下的计算步骤第一步,计算样本成数。
(4.55 )其中,分母是指第i个群内部的个体数,分子是指第,个群中符合某一要求的样本数。 第二步,计算抽样平均误差。
以产斜,其中,〃为所抽取到
的各群个体数之和;N为总体单位数 8是利用组间方差求取的标准差。 万=业点卒,F,2,....n(4.56 )(4.57 )第三步,计算极限误差。
F(z) = 68.28%,/= 1FQ) = 95%J = 1.96 的)=95.45%,] = 2F(/)
= 99.73%J = 3(4.58 )第四步,计算估计区间。 (p-A,p+A) 例4.15某工厂大量连续生产某种产品,为掌握该月份某种产品的一级品率,确定抽取5%的 产品进行检验,
即在全月连续生产的72()小时中,每隔2()小时抽取I小时生产的全部产品进行检 查,调查结果一级品率为80%,粗间方差为7% ,试以95%的置信度估计一级品率的置信区间。 解:第一步,计算样本成数。
(4.59 )第二步,计算抽样平均误差。
a 0.043丹=P,=9=8
0%其中,N =
720 , 〃 = 720x5%=36。 第三步,计算极限误差。
J=///=O.O43 x 1.96 a 0.084=8.4%第四步,计算估计区间。
(p-A,p+A )=(71.6%,88.4%)答:以95%的置信度估计一级品率的置信区间为(71.6%,88.4%)°4.6样本数目的确定在参数估计过程中,精度要
求与可靠性要求常常相矛盾。当抽样标准差保持不变时,极限误 差和临界值之间呈现同一方向的变化。如果要提高精度,需以牺牲置信度为代价;要提高置信