第六章统计学
统计学第六章抽样调查

Part
05
系统抽样技术
系统抽样原理及步骤
• 系统抽样原理:系统抽样是一种等距抽样方法,它首先确定一个抽样间隔,然后在总体中按照这个间隔进行抽 样。这种方法适用于总体单位排列有序且周期性变化的情况。
系统抽样原理及步骤
01
系统抽样步骤
02
确定总体范围和抽样框;
03
计算抽样间隔,确定样本量;
系统抽样原理及步骤
01
03 02
分层标准选择与确定方法
• 以调查对象的某些自然特征或社会特征作 为分层标准。
分层标准选择与确定方法
专家判断法
依靠专家经验判断选择合 适的分层标准。
数据分析法
通过对历史数据或相关数据的 分析,找出影响调查指标的主 要因素,作为分层标准。
试验法
通过试验确定不同分层标准 对调查结果的影响程度,选 择最优的分层标准。
缺点
由于样本可能被重复抽取,导致样本的代表性降 低。
缺点
操作相对复杂,需要记录已经抽取过的样本。
简单随机抽样优缺点分析
操作简单
简单随机抽样的操作过程相对简单,易于理解和实施。
等概率原则
保证了每个单位被抽中的机会相等,避免 具有代表性:当样本量足够大时,简单随机抽样可以获得具有代表性的样本。
整群抽样优缺点比较
• 适用于某些特定情况:对于某些总体分布不均匀或难以划分的情况,整群抽样 可能更为适用。
整群抽样优缺点比较
抽样误差较大
01
由于是以群为单位进行抽样,可能导致抽样误差较大。
样本代表性不足
02
如果群的划分不合理或随机性不足,可能导致样本代表性不足。
对群内个体差异考虑不足
03
统计学第六章

N
i
X
N
第 i 个单位 的变量值
总体单 位总数
总体算术 平均数
【例A】某售货小组5个人,某天的销售额分别为440元、480元、 520元、600元、750元,求该售货小组销售额的平均差。
解:
X
N
440 480 520 600 750 2790 558 元 5 5
i
A D
X X
(二)变量与算术平均数计算的方差小于变量与任何其他常 数的方差 (三)两个独立随机变量和的方差,等于这两个随机变量方 差的和 2 2 2
( x y ) x y
(四)变量线性变换的方差等于变量的方差乘以变量系数的 平方 2 2 2
y a bx, y b x
第二节 全距、分位差和平均差 一、全距 指所研究的数据中,最大值与最小值之差, 又称极差。
R X max X min
最大变量值或最 高组上限或开口 组假定上限 最小变量值或最 低组下限或开口 组假定下限
【例A】某售货小组5人某天的销售额分别为 440元、480元、520元、600元、750元,则
4. 反映了中间50%数据的离散程度;
5. 不受极端值的影响;
甲城市家庭对住房状况评价的频数分布 甲城市 回答类别 户数 (户) 非常不满意 不满意 一般 满意 非常满意 24 108 93 45 30 累计频数 24 132 225 270 300 —
解:设非常不满意为 1,不满意为2, 一般为 3, 满意为 4, 非常满 意为5 。 已知
一、离中趋势的涵义 指总体中各单位标志值背离 离中趋势 分布中心的规模或程度,用 标志变异指标来反映。
反映统计数据差异程度的综 合指标,也称为标志变动度
统计学第六章抽样推断

尖山一委…
尖山二委
居民一组
居民二
组
…
第六章 抽样推断
某外国公司在##进行 微波炉市场调查:
STAT
在商场的大门口
在微波炉柜台前
在市区街道旁边
在某个住宅小区
时间表抽样框
第六章 抽样推断
连续出产的产品总体 可以编制抽样框:均STAT 匀的出产时间、可以 预见到的产品总量.
连续到加油站加油的 汽车总体无法编制抽 样框:时间不定、总 量也无法确定.
抽样估计的特点
第六章 抽样推断
按随机原则抽取样本单位
目的是推断总体的数量特征
抽样推断的结果具有一定的可靠程度, 抽样误差可以事先计算并控制
抽样估计的应用
第六章 抽样推断
不可能进行全面调查时 不必要进行全面调查时 来不及进行全面调查时 对全面调查资料进行补充修正时
抽样调查研究
Sampling Study
P N nN N NN n
共n个
⒉ 不重复抽样的可能样本数目:
C N n N N 1 N n 1
第六章 抽样推断
第六章 抽样推断
STAT
★§1.1 抽样方案的设计 ★§1.2 简单随机抽样的抽样误差的测定
§1.3 简单随机抽样的抽样估计
第六章 抽样推断
§1.2 简单随机抽样的抽样误差的测定 STAT
n1 1{i n1E(xiX)2nn(E xX)2} 由E(于 xX)2D (x)D (i1 nxi)n 1 2i n1D (xi)n2
E(sn21)n11{n2nn2}
2
⒋ 样本成数:
pn1,qn0 1p nn
⒌ 样本单位是非标志的标准差:
第六章 抽样推断
统计学第六章课后题及答案解析

第六章一、单项选择题1.下面的函数关系是( )A现代化水平与劳动生产率 B圆周的长度决定于它的半径C家庭的收入和消费的关系 D亩产量与施肥量2.相关系数r的取值范围( )A -∞< r <+∞B -1≤r≤+1C -1< r < +1D 0≤r≤+13.年劳动生产率x(干元)和工人工资y=10+70x,这意味着年劳动生产率每提高1千元时,工人工资平均( )A增加70元 B减少70元 C增加80元 D减少80元4.若要证明两变量之间线性相关程度高,则计算出的相关系数应接近于( )A +1B -1C 0.5D 15.回归系数和相关系数的符号是一致的,其符号均可用来判断现象( )A线性相关还是非线性相关 B正相关还是负相关C完全相关还是不完全相关 D单相关还是复相关6.某校经济管理类的学生学习统计学的时间(x)与考试成绩(y)之间建立线性回归方程ŷ=a+bx。
经计算,方程为ŷ=200—0.8x,该方程参数的计算( )A a值是明显不对的B b值是明显不对的C a值和b值都是不对的D a值和b值都是正确的7.在线性相关的条件下,自变量的均方差为2,因变量均方差为5,而相关系数为0.8时,则其回归系数为:( )A 8B 0.32C 2D 12.58.进行相关分析,要求相关的两个变量( )A都是随机的 B都不是随机的C一个是随机的,一个不是随机的 D随机或不随机都可以9.下列关系中,属于正相关关系的有( )A合理限度内,施肥量和平均单产量之间的关系B产品产量与单位产品成本之间的关系C商品的流通费用与销售利润之间的关系D流通费用率与商品销售量之间的关系10.相关分析是研究( )A变量之间的数量关系 B变量之间的变动关系C变量之间的相互关系的密切程度 D变量之间的因果关系11.在回归直线y c=a+bx,b<0,则x与y之间的相关系数 ( )A r=0B r=lC 0< r<1D -1<r <012.当相关系数r=0时,表明( )A现象之间完全无关 B相关程度较小C现象之间完全相关 D无直线相关关系13.下列现象的相关密切程度最高的是( )A某商店的职工人数与商品销售额之间的相关系数0.87B流通费用水平与利润率之间的相关系数为-0.94C商品销售额与利润率之间的相关系数为0.51D商品销售额与流通费用水平的相关系数为-0.8114.估计标准误差是反映( )A平均数代表性的指标 B相关关系的指标C回归直线方程的代表性指标 D序时平均数代表性指标二、多项选择题1.下列哪些现象之间的关系为相关关系( )A家庭收入与消费支出关系 B圆的面积与它的半径关系C广告支出与商品销售额关系D商品价格一定,商品销售与额商品销售量关系2.相关系数表明两个变量之间的( )A因果关系 C变异程度 D相关方向 E相关的密切程度3.对于一元线性回归分析来说( )A两变量之间必须明确哪个是自变量,哪个是因变量B回归方程是据以利用自变量的给定值来估计和预测因变量的平均可能值C可能存在着y依x和x依y的两个回归方程D回归系数只有正号4.可用来判断现象线性相关方向的指标有( )A相关系数 B回归系数 C回归方程参数a D估计标准误5.单位成本(元)依产量(千件)变化的回归方程为y c=78- 2x,这表示( ) A产量为1000件时,单位成本76元B产量为1000件时,单位成本78元C产量每增加1000件时,单位成本下降2元D产量每增加1000件时,单位成本下降78元6.估计标准误的作用是表明( )A样本的变异程度 B回归方程的代表性C估计值与实际值的平均误差 D样本指标的代表性7.销售额与流通费用率,在一定条件下,存在相关关系,这种相关关系属于( ) A完全相关 B单相关 C负相关 D复相关8.在直线相关和回归分析中( )A据同一资料,相关系数只能计算一个B据同一资料,相关系数可以计算两个C据同一资料,回归方程只能配合一个D据同一资料,回归方程随自变量与因变量的确定不同,可能配合两个9.相关系数r的数值( )A可为正值 B可为负值 C可大于1 D可等于-110.从变量之间相互关系的表现形式看,相关关系可分为( )A正相关 B负相关 C直线相关 D曲线相关11.确定直线回归方程必须满足的条件是( )A现象间确实存在数量上的相互依存关系B相关系数r必须等于1C y与x必须同方向变化D现象间存在着较密切的直线相关关系12.当两个现象完全相关时,下列统计指标值可能为( )A r=1B r=0C r=-1D S y=013.在直线回归分析中,确定直线回归方程的两个变量必须是( )A一个自变量,一个因变量 B均为随机变量C对等关系 D一个是随机变量,一个是可控制变量14.配合直线回归方程是为了( )A确定两个变量之间的变动关系 B用因变量推算自变量C用自变量推算因变量 D两个变量都是随机的15.在直线回归方程中( )A在两个变量中须确定自变量和因变量 B一个回归方程只能作一种推算C要求自变量是给定的,而因变量是随机的。
统计学第六章 抽样法

第六章 抽样法
序号
1 2 3 4
5 6 7 8
9 10 11 12
13 14 15 16 合计
样本变量x
40、40 40、50 40、70 40、80
50、40 50、50 50、70 50、80
70、40 70、50 70、70 70、80
80、40 80、50 80、70 80、80
-
x
x E(x)
总体
研究如何利用 样本数据来 推断总体特 征。
内容包括:参 数估计和假 设检验。
目的:对总体
特征作出推
样 本
断。
这是推断统计学研 究的问题
5
第六章 抽样法
描述统计与推断统计的关系
反映客观 现象的数
据
概率论
(包括分布理论、大 数定律和中心极限定
理等)
样本数
描述统计
推断统计
据
总体数 据
(统计数据的搜集 、整理、显示和分
13
第六章 抽样法
第二节 有关抽样的基本概念(2)
(二)抽样总体
也称子样,样本或样本总体,它是从全 及总体中随机抽取出来的,代表全及总体的 那部分单位的集合体。抽样总体的单位数称 为样本容量,用n表示,对于N来说,n是很 小的。
总体
样 本
14
第六章 抽样法
第二节 有关抽样的基本概念(3)
• 二 全及指标和抽样指标p.249 (一) 全及指标
研究总体中 的品质标志
总体成数 P N1
N
总体成数标准差 P
P1 P
17
第六章 抽样法
第二节 有关抽样的基本概念(5)
(二)抽样指标
抽样指标是由样本总体各单位标志值 或标志特征计算的综合指标,也称统计量。 与全及指标相对应有:样本平均数,样本 标准差;样本成数,样本成数的标准差。
统计学第六章抽样和抽样分布

2021/3/4
统计学第六章抽样和抽样分布
4
一、总体与样本
▪ 把握两个问题: ▪ 1、总体和总体参数; ▪ 2、样本和样本统计量。
2021/3/4
统计学第六章抽样和抽样分布
5
1、总体与总体参数
(1)总体:指根据研究目的确定的所 要研究的同类事物的全体,是所要说 明其数量特征的研究对象。按所研究 标志性质不同,分为变量总体和属性 总体,分别研究总体的数量特征和品 质特征。 构成总体的个别事物(基本单元 )就是总体单位,也称个体。总体单 位的总数称为总体容量,记作N。
缺点:受主观影响易产生倾向性误差; 不能计算、控制误差,无法说明调查结果 的可靠程度。
抽样一般都是指概率抽样。
2021/3/4
统计学第六章抽样和抽样分布
15
2、重复抽样和非重复抽样
(1)重复抽样:又称重置抽样,是指从总体 中抽出一个样本单位,记录其标志值后,又将 其放回总体中继续参加下一轮单位的抽取。特 点是:第一,n个单位的样本是由n次试验的结 果构成的。第二,每次试验是独立的,即其试 验的结果与前次、后次的结果无关。第三,每 次试验是在相同条件下进行的,每个单位在多 次试验中选中的机会(概率)是相同的。在重复 试验中,样本可能的个数是 N n ,N为总体单位 数,n为样本容量。
2021/3/4
统计学第六章抽样和抽样分布
16
2、重复抽样和非重复抽样
(2)非重复抽样:又称为不重置抽样,即每次从
总体抽取一个单位,登记后不放回原总体,不参加下
一轮抽样。下一次继续从总体中余下的单位抽取样本
。特点是:第一,n个单位的样本由 n 次试验结果构成
统计学第六章抽样和抽样分 布
第六章 抽样与抽样分布
统计学 第六章 统计指数
K p
p1
q0
2
q1
p0
q0
q1 2
p1 q0 q1 p0 q0 q1
Kq
q1
p0
2
p1
q0
p0 p1 2
q1 p0 p1 q0 p0 p1
将例1资料带入公式,可得:
k p
p1q0 p0q0
p1q1 26120 38600 64720 108.59% p0q1 23800 35800 59600
在选择指数形式时,主要考虑指数的经济意义,还要考虑 实际编制工作的可能性及对指数分析性质的特殊要求。
(一)工业生产指数 编制过程:
首先,对各种工业产品分别制定相应的不变价格标准,记为P0 然后,逐项计算各种产品的不变价格产值,加总起来就得到全部工 业产品的不变价格总产值 最后将不同时期的不变价格总产值加以对比,就得到相应时期的工 业生产指数
与马埃公式一样,虽然从数量上不偏不倚,但缺乏经济意义,所 用资料较多,计算困难。
是对拉氏指数和帕氏指数直接进行平均(型交叉)的结果,公式 为:
kp
p1q0
p1q1
p0 q0
p0 q1
kq
q1 p0
q1 p1
q0 p0
q0 p1
将例1资料带入公式,可得:
k p
p1q0 p0q0k p
统计学第6章统计量及其抽样分布
均值的标准差
3
0.43(年 )
X n 49
X ~N(10, 0.432)
_
P (X _9)1P (X _9)1P (X 109 10)
0.43 0.43
=1-Φ(-2.33)= Φ(2.33)=0.9901
整理ppt
12
练习题
某类产品的抗拉强度服从正态分布,平均 值为99.8公斤/平方厘米,标准差为5.48公斤/平 方厘米,从这个总体抽出一个容量为12的样本, 问这一样本的平均值介于98.8公斤/平方厘米和 100.9公斤/平方厘米之间的概率有多大。
1.从一个总体中随机抽出容量相同的各种样本, 从这些样本计算出的某统计量所有可能值的概 率分布,称为这个统计量的抽样分布。
2. 设X1,X2,…,Xn是取自总体X的样本,样本
均值
_
X
1 n
n i 1
Xi
,所有可能样本的均值
_
X
构成
的概率分布即为样本均值的抽样分布。
整理ppt
3
【例】设一个总体,含有4个元素(个体),即
第六章 统计量及其抽样分布
整理ppt
1
6.1 统计量
1. 统计量的形成
抽样
样本 构造函数
2. 统计量是样本X1,X2……Xn的一个函数 3. 统计量不依赖任何未知参数
4. 将一组样本的具体观测值代入统计量函 数,可以计算出一个具体的统计量值。
整理ppt
2
6.2 样本均值的抽样分布 和中心极限定理
第二个观察值
1
2
3
4
.3 P ( x )
1
1.0 1.5 2.0 2.5 .2
2
1.5 2.0 2.5 3.0
统计学第六章抽样调查
n
N
例题2
xf
x
f
8400 200
42
s (x x)2 f 12200 7.81
f
200
2 (1 n ) 7.812 (1 200 ) 0.55
x
n
N
200
2000
例题3
❖某冷库的10万只冻鸡合格率为97%, 如果按重复抽样与不重复抽样各抽 取1000只和2000只,分别计算抽样 平均误差。
A
B
较小的样本容量
X
成数
❖ 总体成数
每个总体单位标志值设为0或1 1:具有某种属性的总体单位标志值 0:不具有某种属性的总体单位标志值 总体中具有某种特征的单位占全部总体单位
数的比例称为总体成数,记作P 成数总体方差:P(1-P)
总体成数和样本成数
❖ 样本成数
从成数总体中抽取样本容量为n的样本 样本中具有此种特征的单位占全部样本单位
从1、2 、3、4中随机抽取2个的样本数
重复抽样考虑顺序
16
1、1 2、1 3、1 4、1
1、2 2、2 3、2 4、2
1、3 2、3 3、3 4、3
1、4 2、4 3、4 4、4
从1、2 、3、4中随机抽取2个的样本数
不重复抽样考虑顺序 12
2、1 3、1 4、1
1、2
3、2 4、2
1、3 2、3
- 2.58x
-1.65 x
+1.65x + 2.58x
x
-1.96 x
+1.96x
90%的样本
95% 的样本
99% 的样本
区间估计
❖ 根据一个样本的观察值给出总体参数的估计范围 ❖ 给出总体参数落在这一区间的概率 ❖ 例如: 总体均值落在50~70之间,置信度为 95%
统计学6
6 - 33
经济、管理类 基础课程
统计学
三、样本方差的分布
6 - 34
经济、管理类 基础课程
统计学
(一)样本方差的分布
设总体服从正态分布N 设总体服从正态分布N ~ (µ,σ2 ), X1,X2,… ,Xn为来自该正态总体的样本,则样本方差 为来自该正态总体的样本, s2 的分布为
(n −1)s
2
2. 3.
,则
Z=
X −µ
令 Y = Z 2 ,则 Y 服从自由度为1的χ2分布,即 服从自由度为1 分布,
σ
~ N(0,1)
Y ~ χ (1)
2
4.
当总体 X ~ N(µ,σ 2 ) ,从中抽取容量为n的样本,则 从中抽取容量为n的样本,
样 本 6 - 10
经济、管理类 基础课程
(三)抽样分布
(sampling distribution) distribution)
统计学
1. 样本统计量的概率分布 2. 是一种理论概率分布 3. 随机变量是 样本统计量
样本均值, 样本均值, 样本比例,样本方差等
4. 结果来自容量相同的所有可能样本 结果来自容量相同的所有可能样本 5. 提供了样本统计量长远我们稳定的信息,是进 行推断的理论基础,也是抽样推断科学性的重 要依据
总体分布、样本分布、抽样分布
三、渐进分布和近似分布
6-3
经济、管理类 基础课程
统计学
一、统计量
(一)统计量的概念 • 是样本的特征值 • 设X1 , X2 ,…, Xn是从总体中抽取的容量 为n的一个样本,如果由此样本构造一 个函数T 个函数T( X1 , X2 ,…, Xn ),不依赖于 任何未知参数,则称函数T 任何未知参数,则称函数T( X1 , X2 ,…, Xn )是一个统计量。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
三、大样本二总体均值差的区间估计 第一总体的参数为μ1 ,σ12 第二总体的参数为μ2 ,σ22 现从两总体中独立的各抽取一个随机样本: 来自第一总体的样本:X1,S12 来自第二总体的样本:X2,S22 于是样本均值差X1-X2可作为总体均值差μ1 -μ2的点估计 值 若n1 ≥50,n2 ≥50,x1,x2趋向正态分布, X1-X2也趋向正 态分布 E( X1-X2)= μ1 -μ2 σ( X1-X2)= √σ12+ σ22 n1 n2
E( ^ P1-^ P2 )= P1- P2 σ( ^ P1-^ P2 )= √ P1(1-P1 ) +P2(1-P12) n1 n2 大样本总体成数差 P1- P2 的区间估计公式: P〔 (^ P1-^ P2 ) - zα/2σ(^ P1-^ P2 ) ﹤ μ1 -μ2 ﹤ (^ P1-^ P2 ) +zα/2σ(^ P1-^ P2 ) 〕= 1-α 当P1,P2未知时,可用样本成数^ P1,^ P2代 替
随机抽样
抽样方法
简单随机抽样 系统抽样 分层抽样 整群抽样 多段抽样
偶遇抽样 非随机抽样 定额抽样 判断抽样 雪球抽样 只有随机抽样可做统计推论。
第三节 参数的点估计
参数估计分两类:一是点估计,就是用样本计算出来 的一个数来估计未知参数。二是区间估计,是通过样 本计算出一个范围来对未知参数进行估计。 一、总体参数(均值与方差)的点估计公式 用样本均值作为总体均值的点估计值 X= 1∑Xi n 用样本方差作为总体方差的点估计值 S2= 1 ∑(Xi-X) 2= 1 [ ∑Xi2-(∑Xi) 2 ] n-1 n-1 n 其中X1 X2……X n是样本ξ1ξ2……ξn的观测值。 二、评价估计值的标准(无偏性、有效性、一致性)
一、大样本总体均值的区间估计 P(x-zα/2σ<μ <x+zα/2σ)=1-α √n √n σ是总体标准差,当σ未知时,用样本标准差s 代替。zα/2是正态分布双侧区间的分位点。 二、总体成数(二项总体参数p)的估计 二项分布中随机事件A发生的概率就是总体成 数。 ㈠总体成数p的点估计 用样本成数作为总体成数的点估计值: ^ p=m (n次独立实验中,A出现m次) n
因此大样本二总体均值差μ1 -μ2的区间估计公 式: p〔 (X1-X2) - zα/2σ(X1-X2) ﹤ μ1 -μ2 ﹤ (X1-X2) +zα/2σ(X1-X2) 〕= 1-α 当σ12和σ22未知时,可用样本方差S12和S22代 替
四、大样本二总体成数差的区间估计 如两个总体都属于定类变量, 设第一个总体的成数为P1,第二个总体的成数 为P2,现从两总体中独立各抽取一个随机样本: ∧ 第一总体的样本容量为n1,样本成数P1 ∧ 第二总体的样本容量为n2,样本成数 P2 ∧ ∧ 于是样本成数差P1- P2可作为总体间成数差P1P2的点估计值 当n1 P1 ≥5,n1 (1-P1 )≥ 5, n 2P2≥5,n ∧ ∧ P ∧)≥5, P1, P2趋向正态分布 , 2(1- ∧ 2 P1-P2也趋向正N(μ,σ2),但方差 σ2为未知: 这时我们用样本方差S2作为总体方差σ2的估计 值。根据数学推算,统计量 X-μ ~t(n-1) S/√n t分布图形是对称的,与正态分布图形相同, 但离散程度比标准正态分布要大, σt2=K/K-2。当K很大时(>30),就可用标准 正态分布来近似t分布。
㈢任意总体,大样本情况 根据中心极限定理,只要样本容量足够大,即 在大样本情况下,X的分布将接近正态分布。 若总体均值为μ,方差为σ2,当n ∞时, X-μ ~N(0,1) X-μ ~ N(0,1) S/√n σ/√n
这样,我们在社会现象的研究中,可以不考虑 总体的原分布如何,只要n足够大(n>50)时, X的分布将确定为一个近似的正态分布。 二、样本方差的分布
在一项社会学研究中,研究者运用随机抽样方 法抽取了1000个样本进行问卷调查,其中回 答“有乱扔垃圾习惯”的人数为560人,请在 95%的置信度下对研究总体中“有乱扔垃圾习 惯”的人数比例进行区间估计。( z0.05/2=1.96) (武大考研2005,17分) 从一所大学随机调查400名学生,得出他们的 平均年龄为20岁,标准差是2岁,求在95%的 置信度下全校学生平均年龄的置信区间。 ( z0.05/2=1.96) (南京大学2003年考研,10 分)
第五节 正态总体的区间估计
一、有关区间估计的几个概念 ㈠名词解释 对于参数的区间估计,在给出区间估计的同时,还必 须指出所给区间包含未知参数的概率是多少。 如:我们用^ Q作为未知参数Q的估计值,那么区间 (^Q-ε,^Q+ε)包含参数Q的概率为1-α,其中 (^Q-ε,^Q+ε)称为置信区间。区间的大小,反映 估计的准确性或精确性。1-α称为置信概率、置信度 或置信系数。它表示用置信区间估计的可靠性。α称 为显著性水平,表示用置信区间估计不可靠的概率。 显然,置信度与显著性水平之和为1。
㈡σ2为未知 X-μ ~t(0,1) s/√n P(-Tα/2 <T<Tα/2)=1- α P(-Tα/2 < X-μ <Tα/2 )=1- α S/√n 整理:(X-Tα/2 S,X+Tα/2 S) √n √n
第六节 大样本区间估计
中心极限定理:对于随机变量分布的任何形式, 只要n足够大, n个独立同分布的随机变量之 和或均值的分布都将近似服从正态分布。 由于中心极限定理,使我们在不知道总体分布 的情况下,可通过增加样本容量的办法,对总 体均值进行区间估计。 大样本一般取n≥50
三、统计量 从总体中抽取容量为n的样本,可看作n个独立同总体 分布的随机变量ξ1ξ2……ξn,那么随机变量的任何函 数f(ξ1ξ2……ξn)也是随机变量,我们把f(ξ1ξ2……ξn) 叫统计量。根据随机变量ξ1ξ2……ξn的观测值X1 X2……Xn计算得到的统计数字就是相应统计量的观测 值。统计量的分布又叫抽样分布。 参数值:总体值,是关于总体中某一变量的综合描述。 参数值是确定不变、唯一的,但通常是未知。 统计值:样本值,是关于样本中某一变量的综合描述。 统计值是变化的。 按习惯参数值常以希腊字母表示,统计值常以罗马字 母表示。
第六章 参数估计 第一节 统计推论
所谓统计推论就是根据局部资料(样本资料) 对总体的特征进行推断。 统计推论有两个方面的特点,一是由于局部来 源于总体,因此局部资料的特性在某种程度上 能反映总体的特性。另一方面由于社会资料的 随机性,即抽样的结果不是唯一的,使得一次 抽样结果不能恰好等于总体的结果,更何况总 体参数不知道。 统计推论的内容大致分两个部分:一是通过样 本对总体的未知参数进行估计,简称参数估计; 二是通过样本对总体的某种假设进行检验,简 称假设检验。
1、从任意分布的总体中反复不断抽取规模相 同且足够大量的样本,样本分布的 平均值会 ( )(中大,2008) A大于总体均值 B小于总体均值 C等于总体 均值 D因总体分布形态未知,故无法判断 2、参数值用于( ) A描述样本特征 B总体特征 C用于点估计或 区间估计 D描述样本和总体的关系 3、关于抽样分布的说法,哪个是错误的( ) A抽样分布的标准差等于总体标准差 B若样本 相当大,则抽样分布接近正态分布 C抽样分 布的均值等于总体均值 D 抽样分布是建立在 概率基础上的一种理论分布
第四节 抽样分布
样本均值和样本方差都是统计量,是随机变量, 对随机变量要研究它的数字特征(均值和方差) 和分布(抽样分布) F
-3se -2se
-se
m
se
2se 3se xi
一、样本均值的分布 ㈠总体分布为正态分布N(μ,σ2),且方差σ2为已知: X= 1∑ξi ~ N(μ,σ2) n n 两者分布形式和μ都是一样,只是方差不同。随着样本 容量n的增加,可以有效减少抽样分布的分散程度。正 如σ反映了总体随机变量ξ围绕μ的平均分散程度一样。 σx反映了统计量X围绕μ的分散程度,或说反映了抽样 均值与μ的平均误差水平。σx称做抽样均值的平均误差 或标准误差,σx与σ不同之处在于σ是总体的参数,是 唯一不变的数,而σx除了与总体σ有关外,还随着样本 容量而变化。 如果将X标准化 X-μ ~N(0,1) σ/√n
㈡置信区间与置信度之间的关系 P(^Q1<Q<^Q2)=1-α ^Q1,^Q2是统计量,是随着样本而变的随机变量。 对于不同的样本,区间是会变化的。对于一次抽样所 形成的样本,它的区间估计可能包含待估参数,也可 能不包含。1-α正是指出包含待估参数这个随机事件 的概率是多少。对于置信度,一般是根据实际情况预 先给定的。如置信度1-α取0.90,它表示如果独立重 复抽取很多样本,每次样本容量n保持不变,那么平 均而言,每100个样本,其中有90个样本算出的区间 估计是包含待估参数的。 在样本容量一定的情况下,置信区间和置信度是相互 制约的。置信度越大,则相应的置信区间也越宽。
二、正态总体均值的区间估计 ㈠ σ2为已知 X-μ ~N(0,1) σ/√n 对于μ的双侧置信区间 P(-Zα/2 <Z <zα/2)=1- α P(-Zα/2 < X-μ <zα/2 )=1- α σ/√n 整理:(X-Zα/2 σ,X+Zα/2 σ) √n √n