第4章 抽样分布与参数估计
抽样分布与参数估计

抽样分布与参数估计首先,我们来了解什么是抽样分布。
在统计学中,抽样分布是指从总体中多次抽样得到的样本统计量的分布。
假设我们的总体是指所有感兴趣的个体的集合,而样本是从总体中选取的一部分个体。
抽样分布的形状和性质取决于总体的分布和样本的大小。
通过分析抽样分布,可以得到有关总体参数的有用信息。
例如,我们想要知道一些城市成年人的平均年收入。
在实际情况下,我们无法调查每个人的收入情况,因此我们需要从总体中随机抽取一部分个体作为样本,并计算他们的平均年收入。
如果我们多次从总体中抽取样本并计算平均年收入,然后绘制这些平均值的分布图,我们就可以得到平均年收入的抽样分布。
这个抽样分布将给我们提供有关总体平均年收入的估计和推断。
接下来,我们将讨论参数估计。
参数估计是指使用样本数据来估计总体参数的过程。
总体参数是用于描述总体特征的数值,如总体平均值、总体标准差等。
通过从总体中抽取样本,并计算样本统计量,我们可以利用样本统计量来估计总体参数。
常用的参数估计方法有点估计和区间估计。
点估计是指用单个数值来估计总体参数,例如用样本均值来估计总体均值。
点估计给出了一个单一的值,但不能提供关于估计的精度的信息。
因此,我们常常使用区间估计。
区间估计是指给出一个区间,这个区间内有一定的置信水平使得总体参数落在这个区间内的概率最高。
区间估计能够向我们提供关于估计的精确程度的信息。
区间估计依赖于抽样分布的性质。
中心极限定理是制定抽样分布理论的一个重要原则。
根据中心极限定理,当样本容量足够大时,样本均值的抽样分布将近似于正态分布。
这使得我们可以使用正态分布的性质来计算置信区间。
构建置信区间的一种常用方法是使用样本均值的标准误差。
标准误差是样本均值的标准差,它用来衡量样本均值和总体均值之间的误差。
根据正态分布的性质,当样本容量足够大时,样本均值与总体均值之间的误差可以用标准误差来估计。
通过计算标准误差并结合正态分布的性质,我们可以得到样本均值的置信区间。
抽样分布与参数估计

三、t分布曲线下的面积分布规律
自由度为 的t分布曲线
t 分布曲线下 的整个面积为1, t 分布曲线下从a到b 的面积为t值分布 在此范围内的百分 比,即t值落在此 范围内的概率P。
双侧:由于t分布以0为中心对称,即 P(t≤- t, )= P(t≥ t, )= /2 于是有P(- t, ≤t≤ t, )=1-
sx
u X
X
t X =n-1
s X
u分布 t分布
二、t分布图形的特点
• 1. t分布是一簇曲线。 t分布有一个参数, 即自由度 ,与标准差的自由度一致。
• 2. t分布曲线以0为中心,左右对称; 越小, t变量值的离散程度越大,曲线越扁平。
• 3. t分布曲线较标准正态曲线要扁平些(高 峰低些,两尾部翘得高些), 逐渐增大, t分布曲线逐渐的逼近于标准正态曲线,若 =,则t分布曲线和标准正态曲线完全吻 合。
参数估计在统计方法中的地位
统计方法
描述统计
推断统计
点值估计
参数估计
假设检验
区间估计
一、基本概念
➢ 参数估计:用样本统计量来估计总体参数。
点值估计:不计抽样误差,直接用样本均数来 估计μ。
区间估计:根据抽样误差的规律,按一定的概 率估计总体均数的所在范围。统计上习惯用95% 或99%可信区间表示总体均数可能所在范围。
第一节 均数的抽样误差 第二节 t分布 第三节 总体均数可信区间的估计
一、抽样研究:从总体中随机抽取部分 观察单位构成样本,用样本信息去 推断总体特征的研究方法。
统计推断的过程
总体
样
样本统计量
本
例如:样本均
值、比例
二、抽样误差:在抽样研究中,因抽样造 成的样本统计量与样本统计量、样本统计 量与总体参数的差值。
教育与心理统计学 第四章 抽样理论与参数估计考研笔记-精品

第四章抽样理论与参数估计第一节抽样理论的基本知识分层抽样,又叫分层随机抽样,这种抽样方法是按照总体已有的某些特征,承认总体中已有的差异,按差异将总体分为几个不同的部分,每一部分称为一个层,在每一个层中实行简单随机抽样。
它充分利用了总体的已知信息,因而是一种非常适用的抽样方法,其样本代表性及推论的精确性一般优于简单随机抽样。
分层的原则是层与层之间的变异越大越好,各层内的变异要小。
试述分层抽样的原则和方法?分层抽样是按照总体上已有的某些特征,将总体分成几个不同部分,在分别在每一部分中随机抽样。
分层的总的原则是:各层内的变异要小,而层与层之间的变异越大越好。
在具体操作中,没有一成不变的标准,研究人员可根据研究需要依照多个分层标准,视具体情况而定。
⑷两阶段随机抽样两阶段随机抽样首先将总体分成M个部分,每一部分叫做一个"集团"(或"群"),第一步从M个集团中随机抽取m个"集团”作为第一阶段样本,第二步是分别从所选取的m个"集团”中抽取个体(g构成第二阶段样本。
一般而言,两阶段抽样相对于简单随机抽样,标准误要大些,但是,两阶段抽样简便易行,节省经草贼,因而它是大规模调查研究中常被使用的抽样方法。
例如,如果我们要了解全国城市初中二年级学生的身高,第一步我们可以从全国几百个城市中随机抽取几十个城市作为第一阶段的样本。
第二步,在第一阶段随机抽取出来的城市中再随机抽取初中二年级的学生。
(二)非旃抽样非概率抽样不是完全按随机原则选取样本,有方便抽样、判断抽样。
方便抽样是由调查人员自由、方便地选择被调查者的非随机选样。
判断抽样是通过某些条件过滤,然后选择某些被调查者参与调查的抽样法。
当采取非概率抽样的方法选取样本时,研究者要说明采用此种方取样的原因以及对研究结果可能造成的影响。
第二节抽样分布[统计量分布、基本随机变量函数的分布]总体:又称母全体、全域,指具有某种特征的一类事物的全体。
参数的假设检验抽样分布、参数估计、假设检验(回归分析)

z = -3.162 < 1.64 接受原假设
5% 1.64
假设检验的基本原理
2)相伴概率 P 检验统计量观察值以及所有所有比
它更为极端的可能值出现的概率之和 双侧检验:
P = P(Z < -3.162) + P(Z > 3.162) = 0.002
左侧检验:P = P(Z < -3.162) = 0.001
1
t分布两尾 概率分位点
P(x t / 2sx x t / 2sx ) 1
参数估计 - 区间估计
正态总体方差的区间估计
(n 1)s2
2
~
2 (n 1)
2分布上尾 概率分位点
P(12
2
(n 1)s2
2
2
2)
1
P(
(n 1)s2
12 2
2
(n 1)s
2 2
2
)
1
参数估计 - 区间估计
n
Z x ~ N(0,1) 2 n
中心极限定理
➢ 无论样本所来自的总体是否服从正态分布, 只要样本足够大,样本平均数就近似服从正 态分布,样本越大,近似程度越好。
➢所需的样本含量随原总体的分布而异,但只 要样本含量 30,无论原总体是何分布,都 足以满足近似的要求。
➢设原总体的期望为,方差为 2,则样本平 均数的期望为,方差为 2 /n。
统计推断概述
抽样分布 参数估计简介 假设检验的基本原理
抽样分布的概念
样本统计量的概率分布称为抽样分布(sampling distribution)
样本是通过对总体的随机抽样获得的 样本统计量是随机变量,有一定的概率分布
简单随机样本
第四章 参数估计

x
n
总体标准差,若 未知,可用样本
标准差代替
36
总体均值的置信区间引例
(2 未知)
例:某商场从一批袋装食品中随机抽取10袋,测得 每袋重量(单位:克)分别为789,780,794, 762,802,813,770,785,810,806,要 求以95%的把握程度,估计这批食品的平均每袋 重量的区间范围。假定食品重量服从正态分布。
0.95,Z/2=1.96
x Z 2
n
,
x
Z
2
n
26 1.96 6 ,26 1.96 6
100
100
24.824,27.176
我们可以95%的概率保证平均每天 参加锻炼的时间在24.824~ 27.176 分钟之间。
一般置信水平
一般使用的置信水平是:90%, 95%, 99%
Confidence Level
▪ 总体服从正态分布,且总体方差(2)已知 ▪ 如果不是正态分布,可以由正态分布来近似 (n 30)
2. 使用正态分布统计量Z
Z
x s
m ~ N (0,1)
n
3. 总体均值 在1-置信水平下的置信区间为
s
s
x
Za 2
,x n
Za 2 n
总体均值的置信区间
(2 已知)
抽样极限误差:
s x Za 2 n
❖ 定理1
当总体 X ~ N ( m , s 2 ) 时,抽自该总体
的简单随机样本 x1 , x 2 , , x n 的样本平均数
服从数学期望为 ,方差为 s2的正态分布,
n
即 x ~ N (m, s2 ) 。
n
Z x ~ N (0,1) n
第四章 抽样和抽样分布

p
例子:
例:要估计某地区10000名适龄儿童的入学 率,用不重置抽样方法从这个地区抽取400 名儿童,检查有320名儿童入学,求样本入 学率的平均误差。 已知条件:
样本日工资平均数
单位:元
样本变量 34 34
38 42 46 50
38 36
38 40 42 44
42 38
40 42 44 46
46 40
42 44 46 48
50 42
44 46 48 50
34
36 38 40 42
抽样分布为:
Ex
x f
i 1 9
9
i i
样本日平均工资分布
样本日平均工资
三、抽样分布定理
样本平均数的抽样分布定理
(1)正态分布再生定理
X ~ N ( X , 2 ) ,则从这个总体中抽取样本容 总体变量
量为n的样本平均数 x 也服从正态分布,其平均数E ( x ) 仍为 X ,其标准差 ( x ) 。即样本平均数 x 服从正态分布 x ~ N ( X , 2 ) 。
不论总体是何种分布,只要样本的单位数量增 多,则样本平均数就趋于正态分布。
一般认为样本单位数不少于30的是大样本,样 本平均数的抽样分布就接近于正态分布。
总体未 知参数
1. 是一种理论概率分布
2. 样本统计量是随机变量
– 样本均值, 样本比例,样本方差等
3. 结果来自容量相同的所有可能样本
4. 提供了样本统计量长远我们稳定的信息, 是进行推断的理论基础,也是抽样推断科 学性的重要依据
统计学基础ppt课件

4-4
统计学 参数估计在统计方法中的地位
基础
统计方法
描述统计
推断统计
参数估计
假设检验
4-5
第 4 章 抽样与参数估计
4.1 抽样与抽样分布
4 - 14
统计学 基础
有关抽样的几个基本概念
4、抽样比 抽样比是指在抽选样本时,所抽取的样本
单位数n与总体单位数N之比。一般地讲, n≥30为大样本,n<30为小样本。研究社会 经济现象时,通常采用大样本进行抽样调查。
对于给定的研究对象,全及总体是唯一确定 的,而样本总体不是唯一的,它是随机的。
有关抽样的几个基本概念
2、抽样框
目标总体规定了理论上的抽样范围,但是进行抽样 的总体单位与目标总体有时是不一致的,因而, 在抽样之前,还必须明确实际进行抽样的总体范 围和抽样单位。
抽样框是指用以代表总体,并从中抽选样本的一个
框架。
目标总体与抽样框有时是一致的;多数情 况下,目标总体的范围要率大于抽样框。
4. 局限性
当N很大时,不易构造抽样框 抽出的单位很分散,给实施调查增加了困难 没有利用其它辅助信息以提高估计的效率
4 - 17
统计学 基础
抽样方法和样本可能数目
1、重复抽样
重复抽样也叫重置抽样,是指每次抽取一个元素 后又放回,重新参加下一次的抽选,直到抽取n个 元素为止。全及总体单位数始终保持不变,每个总 体单位都有被重复抽中的可能。 重复抽样通常要考虑单位排列顺序,如电话号 码中的“8651”和“1568”不同。
其样本可能数目为 m重 N n
(04)第4章 参数估计

(2)99%的置信区间是多少?
(3)若样本容量为40,而观测的数据不变,则 95%的置信区间又是多少?
5 - 31
统计学
STATISTICS
总体均值的区间估计
(例题分析)
12, s 4.1
解:(1)已知n=15, 1- = 95%, =0.05 ,x
统计学
STATISTICS
总体均值的区间估计
统计学
STATISTICS
大样本的估计方法
不论总体是不是服从正态分布,在大样本 (n 30)时,样本均值均服从正态分布。 若已知 2 x
x ~ N ( ,
总体均值 在1- 置信水平下的置信区间为
n
)
z
n
~ N (0,1)
z 2
有效性:对同一总体参数的两个无偏点估计量, 有更小标准差的估计量更有效
ˆ P( )
ˆ1 的抽样分布
B A
ˆ2 的抽样分布
ˆ
5 - 11
ˆ ˆ1 是比 2 更有效,是一个更好的估计量
统计学
STATISTICS
有效性
(efficiency)
x1 x2 x3 样本均值 x 3 x1 2 x2 3x3 和 x1 6
统计学
STATISTICS
第 4 章 参数估计
4.1 参数估计的基本原理 4.2 一个总体参数的区间估计 4.4 样本容量的确定
5-1
统计学
STATISTICS
4.1 参数估计的一般问题
4.1.1 估计量与估计值 4.1.2 点估计与区间估计 4.1.3 评价估计量的标准
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
19
63271 58683 95436 08459 19761 46276
59986 93108 79115 28364 66535 87453
71744 13554 08303 55957 40102 44790
51102 79945 01041 57243 26646 67122
15141 88547 20030 83865 60147 45573
38
二、总体均值的区间估计
通过抽样和有关计算得到以下两个 相关数据: 被抽中的30名员工的年平均收入为 56883.33元,年员工所占比重为0.70。
现假定根据历史资料得知:3000名
员工年均收入的标准差为3900元。
39
二、总体均值的区间估计
问:在置信水平为95%的情况下,全 公司职工年均收入大约是多少?
41
二、总体均值的区间估计
【统计分析】计算结果表明,在已知总 体标准差为3900元,样本容量为30个人, 置信水平为95%的情况下,先科计算机公 司3000名员工的年均收入大约在
55487.73~58278.93元之间。
42
二、总体均值的区间估计
(2)总体标准差未知:
s s x t x t (4.18) 2 2 n n
(一)样本均值抽样分布的含义 样本均值( )抽样分布就是样本均
值( )所有可能取值的概率分布。
**样本均值的分布特征依赖于总体的
分布类型。
25
一、样本均值的抽样分布
1.总体分布已知且为正态分布 当总体是正态概率分布时,无论样本
容量为多少, 样本均值的抽样分布一定是
正态概率分布。
2.总体分布未知
借助于统计学中的中心极限定理来确 定 样本均值的抽样分布。
2
… … 69 70
…… ……
0.847 0.847
…… ……
1.294 1.294
…… ……
1.667 1.667
…… ……
1.995 1.995
…… ……
2.382 2.381
…… ……
2.649 2.648
47
二、总体均值的区间估计
s s x t x t 2 2 n n
32
一、点估计的含义
用样本统计量一个特定的值(一个点)作为 相应总体参数的估计值。
ˆ
(4.16)
33
二、点估计的标准
(一)无偏性
(二)有效性
(三)一致性
34
第五节 参数的区间估计
35
一、区间估计的基本问题
(一)区间估计的含义 (二)几组重要概念 1.区间 置信上限 3.估计风险 4.误差边际(边际误差、允许误差、抽样极限 误差)
(2)统计量的值不确定
(3)统计量的值不唯一
13
二、几个基本概念
(1)样本均值
x
x
n
2
(4.5)
(2)样本方差
(3)样本比例
p
s
2
x x
n -1
4.6
(4.7)
n n1 ; q 0 1 p n n
(4)样本比例方差
s2 1 p p p
4.8
14
二、几个基本概念
(六)抽样框 抽样框就是抽取样本单位时所依据
的目标总体清单、图或目录等
15
二、几个基本概念
(七)抽样误差 1.抽样误差的概念 抽样误差是样本统计量的值与总体被 估计参数之间的差。 2.产生误差的原因
16
三、抽样法的特点
(一)遵循随机原则抽取样本单位 (二)随机抽样是用部分推断总体的一
p1 p P p z 2 n
p1 p n
0.71 0.7 0.71 0.7 P 0.7 1.96 ] 30 3 概率基础
略
2
第二节 抽样与抽样分布
3
一、抽样的概念及其原因
抽样(狭义)就是为了推断总体的数 量特征,根据随机原则和方法,从总体中 抽取一部分个体(或单位)组成一个样本。
4
一、抽样的概念及其原因
广泛使用抽样的原因: (1)抽样可以降低成本。
(2)抽样可以节约时间。
种研究方法
(三)随机抽样可以对抽样误差进行控
制
17
四、常用的几种随机抽样方法
(一)简单随机抽样 1.简单随机抽样的概念
简单随机抽样也称单纯随机抽样、
纯随机抽样,是指从总体 个单位中随机
抽取 n个单位作为样本,使每个单位被
抽中的概率相等的一种抽样方式。
18
四、常用的几种随机抽样方法
2.有限总体简单抽样的方法 (1)抽签法 (2)随机数表法
40
二、总体均值的区间估计
在本次抽样中: n 30 x 56883 .33
1 0.95 z
2
1.96
3900
3000名员工年均收入区间估计为:
x z x z 2 2 n n 3900 3900 .33 1.96 56883 .33 1.96 56883 30 30 55487 .73 58278 .93
9430 14661 7159 9071 9691 11032
7535
12195
8137
3603
6525
11448
4078 10544 9467 8279 5239 16804 …… …… …… …… …… …… 18719 5742 19263 6232 7445
45
二、总体均值的区间估计
经过对样本数据进行计算,得到:
49
二、总体均值的区间估计
2.小样本总体标准差未知时总体均值的区 间估计 此种情况下依然用公式(4.19)进行 总体均值的区间估计
50
二、总体均值的区间估计
(二)两个总体均值之差的区间估计 略
51
三、总体比例P的区间估计
(一)单个总体比例 的区间估计 1.总体比例区间估计的前提条件: (1)由中心极限定理可知,对于大样本P的 抽样分布,可以近似看成为正态概率分布。
m
2
(4.10)
28
一、样本均值的抽样分布
样本均值有放回抽样的抽样标准误差
x
n
(4.11)
样本均值无放回抽样的抽样标准误差
x N n
n N 1
(4.12)
29
二、样本比例 p的抽样分布
n1 p n
(6.6)
(一)样本比例抽样分布的含义 样本比例p所有可能取值的概率的分布。
二、几个基本概念
(1)总体均值
2
X
N
(4.1)
(2)总体方差
(3)总体比例
P
X 2
N
4.2
(4.3)
N N1 ; Q 0 1 P N N
2 P P1 P
(4)总体比例方差
4.4
12
二、几个基本概念
2.样本统计量:描述样本数量特征的 指标。 样本统计量的特征: (1)是一个随机变量
(3)对于一些具有破坏性的研究过程,
只能使用抽样方法获取资料。
5
一、抽样的概念及其原因
(4)在资源一定的条件下,抽样可以扩 展研究内容,增强研究深度。 (5)当研究的总体为无限时,抽样是惟 一的选择。 (6)当研究的总体很大,需要普查人员 多,花费时间长时,根据抽样资料对总体
的推断也许会比普查更准确。
36
置信下限
2.置信系数 置信水平
二、总体均值的区间估计
(一)单个总体均值的区间估计 1.大样本情形下总体均值的区间估计
(1)总体标准差已知:
x z x z 2 2 n n
(4.17)
37
二、总体均值的区间估计
例如,先科计算机公司共有员工3000人。人 力资源部门工作人员想通过从中随机抽取30名员 工了解一下他(她)们的平均收入和性别构成情 况,以推断全公司上述两个指标的数值。
30
二、样本比例 p的抽样分布
(二)样本比例的期望值和标准差
E p p P
p
两个公式通 用的条件:
f n N 0.05
(4.13)
P1 P n
N n N 1
(4.14)
p
P 1 P n
(4.15)
31
第四节 参数的点估计
(二)类型抽样—P129-130 (三)等距抽样—P131-132
(四)整群抽样—P132-134
以上三种抽样方法要求自阅,了解
基本概念和方法即可。
22
第三节 抽样分布
23
样本统计量所有可能值构成的概率分 布称为抽样分布。 【注意】样本统计量和样本统计量的值的 区别
24
一、样本均值( )的抽样分布
54
三、总体比例P的区间估计
例如,在前面先科计算机公司的例子中, 经过抽取30个员工组成一个简单随机样本,统 计计算得到男性员工所占比重的样本比例为 0.7,则在95%置信水平的情形下,该公司男性 员工的比例区间大约为:
55
三、总体比例P的区间估计
p z 2
[0.7 1.96
8
二、几个基本概念
在一次抽样中,有可能组成的样本 个数主要与是否重复抽样、是否考虑顺 序有关。
9
二、几个基本概念
10
二、几个基本概念
(五)总体参数和样本统计量 1.总体参数:表示总体数量特征,待 估计的指标。
总体参数的特征: