(抽样检验)第四章抽样理论和参数估计
抽样分布与参数估计

抽样分布与参数估计首先,我们来了解什么是抽样分布。
在统计学中,抽样分布是指从总体中多次抽样得到的样本统计量的分布。
假设我们的总体是指所有感兴趣的个体的集合,而样本是从总体中选取的一部分个体。
抽样分布的形状和性质取决于总体的分布和样本的大小。
通过分析抽样分布,可以得到有关总体参数的有用信息。
例如,我们想要知道一些城市成年人的平均年收入。
在实际情况下,我们无法调查每个人的收入情况,因此我们需要从总体中随机抽取一部分个体作为样本,并计算他们的平均年收入。
如果我们多次从总体中抽取样本并计算平均年收入,然后绘制这些平均值的分布图,我们就可以得到平均年收入的抽样分布。
这个抽样分布将给我们提供有关总体平均年收入的估计和推断。
接下来,我们将讨论参数估计。
参数估计是指使用样本数据来估计总体参数的过程。
总体参数是用于描述总体特征的数值,如总体平均值、总体标准差等。
通过从总体中抽取样本,并计算样本统计量,我们可以利用样本统计量来估计总体参数。
常用的参数估计方法有点估计和区间估计。
点估计是指用单个数值来估计总体参数,例如用样本均值来估计总体均值。
点估计给出了一个单一的值,但不能提供关于估计的精度的信息。
因此,我们常常使用区间估计。
区间估计是指给出一个区间,这个区间内有一定的置信水平使得总体参数落在这个区间内的概率最高。
区间估计能够向我们提供关于估计的精确程度的信息。
区间估计依赖于抽样分布的性质。
中心极限定理是制定抽样分布理论的一个重要原则。
根据中心极限定理,当样本容量足够大时,样本均值的抽样分布将近似于正态分布。
这使得我们可以使用正态分布的性质来计算置信区间。
构建置信区间的一种常用方法是使用样本均值的标准误差。
标准误差是样本均值的标准差,它用来衡量样本均值和总体均值之间的误差。
根据正态分布的性质,当样本容量足够大时,样本均值与总体均值之间的误差可以用标准误差来估计。
通过计算标准误差并结合正态分布的性质,我们可以得到样本均值的置信区间。
统计推断与参数估计的基本理论与方法

统计推断与参数估计的基本理论与方法统计推断是统计学中的一门重要的研究领域,它主要关注如何通过样本数据对总体特征进行推断。
参数估计则是统计推断的一个重要组成部分,它通过样本数据来估计总体参数。
本文将介绍统计推断和参数估计的基本理论和方法。
一、统计推断的基本理论统计推断的基本理论包括抽样理论、似然函数和假设检验等。
1. 抽样理论抽样理论是统计推断的基础,它研究的是如何从总体中抽取样本以便对总体进行推断。
通过合理的抽样方法,可以保证样本对总体的代表性。
2. 似然函数似然函数是参数估计的基本工具,它是样本观测值关于参数的函数。
通过最大似然估计可以得到参数的最优估计值。
3. 假设检验假设检验是统计推断的重要方法,用于检验某个关于总体参数的假设。
它包括构造检验统计量和确定拒绝域两个步骤,从而进行参数推断。
二、参数估计的基本方法参数估计是统计推断中的核心内容,它通过样本数据来估计总体参数。
参数估计的基本方法包括点估计和区间估计。
1. 点估计点估计是一种直接估计总体参数的方法,它通过样本数据来估计总体参数的具体值。
最常用的点估计方法是最大似然估计和矩估计。
2. 区间估计区间估计是一种间接估计总体参数的方法,它给出了参数的估计区间。
通过给出一个置信区间,可以对总体参数进行估计,并给出估计的精度。
三、常用的统计推断方法在实际应用中,统计学家们发展了许多常用的统计推断方法,包括假设检验、方差分析、回归分析等。
1. 假设检验假设检验是统计推断中最常用的方法之一,它用于检验某个关于总体参数的假设。
例如,检验某种药物对疾病的治疗效果是否显著。
2. 方差分析方差分析是一种用于比较多个总体均值的方法,它通过分析不同组之间的方差来判断各组均值是否有显著差异。
例如,在新产品开发中,可以通过方差分析评估不同市场的销售情况。
3. 回归分析回归分析是一种用于建立变量之间关系的方法,它可以推断自变量对因变量的影响程度。
通过回归分析可以得到回归方程,从而进行预测和解释。
统计学(抽样估计)

第四章第一节
二、抽样调查的特点
➢按随机原则抽取调查单位; ➢要抽取足够多的调查单位;
基本原则
➢可从数量上推断总体
基本目的及任务
➢要运用概率估计的方法
➢抽样调查中所产生的抽样误差可以事先计算
并加以控制。
科学性体现
3
第四章第一节
三、抽样调查的使用范围 ➢ 有些事情在测量或实验时有破坏性,不可能进行
1、用样本标准差替代总体标准差。大样本情况下,可 以直接用样本标准差S代表代表总体标准差;在小样
本的情况下,则采用样本修正标准差 S *来代替。
S* (xi x)2 n 1 S n n 1
2、用以前(近期)的总体标准差或同类地区的总体标 准差来代表所研究的标准差。若同时有多个可供参 考的数值时,应选择其中最大者。对于成数P,应选 最接近0.5的比率。
up
P(1 P)(重复) n
up
P(1 n
p)
(
N N
n 1
)或up
ux
σ 2 (N n)或 n N1
ux
σ 2 (1 n )(不重复) nN
P(1 P) (1 n )(不重复)
n
N
26
第四章第三节
注意:在上述公式中, 或 P(1 P)总体标准差,但
是实际中这两个数据却是未知的。计算抽样平均误 差时通常采用以下替代方法。
进行检验,来判断这种假设的真伪,以决定取舍
4
第四章第一节 四、抽样估计的一般步骤 1、设计抽样方案 2、抽取样本单位 3、搜集样本资料 4、整理样本资料 5、推断总体指标
5
第四章第二节 第二节 调样调查的基本概念及理论依据 一、全及总体和抽样总体(教材没有) ➢ 全及总体-简称总体(N):研究对象的全 体 (唯一确定) ✓ 变量总体 :各单位可用数量标志计量 A 有限总体:变量值有限 B 无限总体:变量值无限,分为可列或连续 ✓ 属性总体 :各单位用品质标志描述
统计学教程(含spss)四参数估计

从一批灌装产品中,随机抽取20灌,得样本方差为0.0025。试以95%的置 信度,估计总体方差的存在区间。
n 1 s2 2 n 1 s2
2 2
2 1 2
n 1 s2
2 0.025
2
n 1 s2
2 0.975
19 0.0025 2 19 0.0025
32.8523
8.90655
自正态总体抽样时,总体均值与总体中位数相同,而中位数的 标准误差大约比均值的标准误差大25%。因此,样本均值更有效。
x 的抽样分布
M e的抽样分布
____
X
有效性
一致性
如果 lim
P
1(为任意小数,n
为样本容量)
n
则称 为的满足一致性标准的点估计量
ˆ1的抽样分布 ˆ2的抽样分布
x s 2 p 均为一致性估计量
X~N, 2
x__
~
N
, 2 n
__
Z x ~N 0,1
n
P Z
Z Z
1
2
2
P Z
2
__
x n
Z
1
2
显著性水平
22
2
Z 2
置信度
1
0
P_x_ Z
2
n
__
x Z 2
1
n
2
Z 2
显著性水平α下,μ在1- α置信水平下的置信区间:
__
x
Z
2
__
n , x Z 2
f x
x
n
x 2
f x
1
e 2 2 x
2
x
抽样分布
E(x)
抽样分布、参数估计和假设检验

抽样分布一、抽样分布的理论及定理 (一) 抽样分布抽样分布是统计推断的基础,它是指从总体中随机抽取容量为n 的若干个样本,对每一样本可计算其k 统计量,而k 个统计量构成的分布即为抽样分布,也称统计量分布或随机变量函数分布。
(二) 中心极限定理中心极限定理是用极限的方法所求的随机变量分布的一系列定理,其内容主要反映在三个方面。
1.如果总体呈正态分布,则从总体中抽取容量为n 的一切可能样本时,其样本均数的分布也呈正态分布;无论总体是否服从正态分布,只要样本容量足够大,样本均数的分布也接近正态分布。
2.从总体中抽取容量为n 的一切可能样本时,所有样本均数的均数(X μ)等于总体均数(μ)即μμ=X3.从总体中抽取容量为n 的一切可能样本时,所有样本均数的标准差(X σ)等于总体标准差除以样本容量的算数平方根,即n X σσ=中心极限定理在统计学中是相当重要的。
因为许多问题都使用正态曲线的方法。
这个定理适于无限总体的抽样,同样也适于有限总体的抽样。
中心极限定理不仅给出了样本均数抽样分布的正态性依据,使得大多数数据分布都能运用正态分布的理论进行分析,而且还给出了推断统计中两个重要参数(即样本均数X μ与样本标准差X σ)的计算方法。
(三)抽样分布中的几个重要概念1.随机样本。
统计学是以概率论为其理论和方法的科学,概率又是研究随机现象的,因此进行统计推断所使用的样本必须为随机样本(random sample )。
所谓随机样本是指按照概率的规律抽取的样本,2.抽样误差。
从总体中抽取容量为n 的k 个样本时,样本统计量与总体参数之间总会存在一定的差距,而这种差距是由于抽样的随机性所引起的样本统计量与总体参数之间的不同,称为抽样误差。
3.标准误。
样本统计量分布的标准差或某统计量在抽样分布上的标准差,符号SE 或Xσ表示。
根据中心极限定理其标准差为n X σσ=正如标准差越小,数据分布越集中,平均数的代表性越好。
(完整版)抽样调查习题及答案

第四章习题抽样调查一、填空题1.抽样调查是遵循随机的原则抽选样本,通过对样本单位的调查来对研究对象的总体数量特征作出推断的。
2.采用不重复抽样方法,从总体为N的单位中,抽取样本容量为n的可能样本个数为N(N-1)(N-2)……(N-N+1)。
3.只要使用非全面调查的方法,即使遵守随机原则,抽样误差也不可避免会产生。
4.参数估计有两种形式:一是点估计,二是区间估计。
5.判别估计量优良性的三个准则是:无偏性、一致性和有效性。
6.我们采用“抽样指标的标准差”,即所有抽样估计值的标准差,作为衡量抽样估计的抽样误差大小的尺度。
7.常用的抽样方法有简单随机抽样、类型(分组)抽样、等距抽样、整群抽样和分阶段抽样。
8.对于简单随机重复抽样,若其他条件不变,则当极限误差范围Δ缩小一半,抽样单位数必须为原来的4倍。
若Δ扩大一倍,则抽样单位数为原来的1/4。
9.如果总体平均数落在区间960~1040内的概率是95%,则抽样平均数是1000,极限抽样误差是40.82,抽样平均误差是20.41。
10.在同样的精度要求下,不重复抽样比重复抽样需要的样本容量少,整群抽样比个体抽样需要的样本容量多。
二、判断题1.抽样误差是抽样调查中无法避免的误差。
(√)2.抽样误差的产生是由于破坏了随机原则所造成的。
(×)3.重复抽样条件下的抽样平均误差总是大于不重复抽样条件下的抽样平均误差。
(√)4.在其他条件不变的情况下,抽样平均误差要减少为原来的1/3,则样本容量必须增大到9倍。
(√)5.抽样调查所遵循的基本原则是可靠性原则。
(×)6.样本指标是一个客观存在的常数。
(×)7.全面调查只有登记性误差而没有代表性误差,抽样调查只有代表性误差而没有登记性误差。
(×)8.抽样平均误差就是抽样平均数的标准差。
(×)三、单项选择题1.用简单随机抽样(重复)方法抽取样本单位,如果要使抽样平均误差降低50%,则样本容量需扩大为原来的(C)A.2倍B.3倍C.4倍D.5倍2.事先将全及总体各单位按某一标志排列,然后依固定顺序和间隔来抽选调查单位的抽样组织方式叫做(D)A.分层抽样B.简单随机抽样C.整群抽样D.等距抽样3.计算抽样平均误差时,若有多个样本标准差的资料,应选哪个来计算(B)A.最小一个B.最大一个C.中间一个D.平均值4.抽样误差是指(D)A.计算过程中产生的误差B.调查中产生的登记性误差C.调查中产生的系统性误差D.随机性的代表性误差5.抽样成数是一个(A)A.结构相对数B.比例相对数C.比较相对数D.强度相对数6.成数和成数方差的关系是(C)A.成数越接近于0,成数方差越大B.成数越接近于1,成数方差越大C.成数越接近于0.5,成数方差越大D.成数越接近于0.25,成数方差越大7.整群抽样是对被抽中的群作全面调查,所以整群抽样是(B)A.全面调查B.非全面调查C.一次性调查D.经常性调查8.对400名大学生抽取19%进行不重复抽样调查,其中优等生比重为20%,概率保证程度为95.45%,则优等生比重的极限抽样误差为(40%)A. 4%B. 4.13%C. 9.18%D. 8.26%9.根据5%抽样资料表明,甲产品合格率为60%,乙产品合格率为80%,在抽样产品数相等的条件下,合格率的抽样误差是(B)A.甲产品大B.乙产品大C.相等D.无法判断10.抽样调查结果表明,甲企业职工平均工资方差为25,乙企业为100,又知乙企业工人数比甲企业工人数多3倍,则随机抽样误差(B)A.甲企业较大B.乙企业较大C.不能作出结论D.相同四、多项选择题抽样调查中的抽样误差是(ABCDE)A.是不可避免要产生的B.是可以通过改进调查方法来避免的C.是可以计算出来的D.只能在调查结果之后才能计算E.其大小是可以控制的2.重复抽样的特点是(AC)A.各次抽选相互影响B.各次抽选互不影响C.每次抽选时,总体单位数始终不变D每次抽选时,总体单位数逐渐减少E.各单位被抽中的机会在各次抽选中相等3.抽样调查所需的样本容量取决于(ABE)A.总体中各单位标志间的变异程度B.允许误差C.样本个数D.置信度E.抽样方法4.分层抽样误差的大小取决于(BCD)A.各组样本容量占总体比重的分配状况B.各组间的标志变异程度C.样本容量的大小D.各组内标志值的变异程度E.总体标志值的变异程度5.在抽样调查中(ACD)A.全及指标是唯一确定的B.样本指标是唯一确定的C.全及总体是唯一确定的D.样本指标是随机变量E.全及指标是随机变量五、名词解释1.抽样推断2.抽样误差3.重复抽样与不重复抽样4.区间估计六、计算题1.某公司有职工3000人,现从中随机抽取60人调查其工资收入情况,得到有关资料如下:(1)试以0.95的置信度估计该公司工人的月平均工资所在范围。
教育与心理统计学 第四章 抽样理论与参数估计考研笔记-精品

第四章抽样理论与参数估计第一节抽样理论的基本知识分层抽样,又叫分层随机抽样,这种抽样方法是按照总体已有的某些特征,承认总体中已有的差异,按差异将总体分为几个不同的部分,每一部分称为一个层,在每一个层中实行简单随机抽样。
它充分利用了总体的已知信息,因而是一种非常适用的抽样方法,其样本代表性及推论的精确性一般优于简单随机抽样。
分层的原则是层与层之间的变异越大越好,各层内的变异要小。
试述分层抽样的原则和方法?分层抽样是按照总体上已有的某些特征,将总体分成几个不同部分,在分别在每一部分中随机抽样。
分层的总的原则是:各层内的变异要小,而层与层之间的变异越大越好。
在具体操作中,没有一成不变的标准,研究人员可根据研究需要依照多个分层标准,视具体情况而定。
⑷两阶段随机抽样两阶段随机抽样首先将总体分成M个部分,每一部分叫做一个"集团"(或"群"),第一步从M个集团中随机抽取m个"集团”作为第一阶段样本,第二步是分别从所选取的m个"集团”中抽取个体(g构成第二阶段样本。
一般而言,两阶段抽样相对于简单随机抽样,标准误要大些,但是,两阶段抽样简便易行,节省经草贼,因而它是大规模调查研究中常被使用的抽样方法。
例如,如果我们要了解全国城市初中二年级学生的身高,第一步我们可以从全国几百个城市中随机抽取几十个城市作为第一阶段的样本。
第二步,在第一阶段随机抽取出来的城市中再随机抽取初中二年级的学生。
(二)非旃抽样非概率抽样不是完全按随机原则选取样本,有方便抽样、判断抽样。
方便抽样是由调查人员自由、方便地选择被调查者的非随机选样。
判断抽样是通过某些条件过滤,然后选择某些被调查者参与调查的抽样法。
当采取非概率抽样的方法选取样本时,研究者要说明采用此种方取样的原因以及对研究结果可能造成的影响。
第二节抽样分布[统计量分布、基本随机变量函数的分布]总体:又称母全体、全域,指具有某种特征的一类事物的全体。
参数的假设检验抽样分布、参数估计、假设检验(回归分析)

z = -3.162 < 1.64 接受原假设
5% 1.64
假设检验的基本原理
2)相伴概率 P 检验统计量观察值以及所有所有比
它更为极端的可能值出现的概率之和 双侧检验:
P = P(Z < -3.162) + P(Z > 3.162) = 0.002
左侧检验:P = P(Z < -3.162) = 0.001
1
t分布两尾 概率分位点
P(x t / 2sx x t / 2sx ) 1
参数估计 - 区间估计
正态总体方差的区间估计
(n 1)s2
2
~
2 (n 1)
2分布上尾 概率分位点
P(12
2
(n 1)s2
2
2
2)
1
P(
(n 1)s2
12 2
2
(n 1)s
2 2
2
)
1
参数估计 - 区间估计
n
Z x ~ N(0,1) 2 n
中心极限定理
➢ 无论样本所来自的总体是否服从正态分布, 只要样本足够大,样本平均数就近似服从正 态分布,样本越大,近似程度越好。
➢所需的样本含量随原总体的分布而异,但只 要样本含量 30,无论原总体是何分布,都 足以满足近似的要求。
➢设原总体的期望为,方差为 2,则样本平 均数的期望为,方差为 2 /n。
统计推断概述
抽样分布 参数估计简介 假设检验的基本原理
抽样分布的概念
样本统计量的概率分布称为抽样分布(sampling distribution)
样本是通过对总体的随机抽样获得的 样本统计量是随机变量,有一定的概率分布
简单随机样本
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第四章抽样理论和参数估计知识引入1970 年美国首次进行征兵抽签,组织者将19-25岁的适龄青年按年龄分组,使用编号001-366 的等重量塑料球,001代表1月1日出生者,031代表1月31日…,366代表12月31日。
然后将所有塑料球放入滚筒中混合抽取号码,每组抽中号码对应生日的青年依次应征,直到人数足够为止。
之后,有记者指出此次抽签产生了严重的偏差,他们注意到,年末生的人似乎倾向于被抽到较前面的征兵顺序。
其结果就是一堆12 月份生的人去了越南战场。
后来,经过统计学家的分析,发现这种“偏差”确实存在;经过分析终于找到了原因,原来代表生日的号码塑料球是一次按一整个月份装入滚筒中混合的,加上又没有均匀混合;于是1 月份的生日容易在滚筒底下,12 月份的是最后才装进去,容易在上面。
在抽样术语中,经常能够听到“随机抽样”、“随机选择”这样的表述,“随机性”原则其实保证了总体中的每个个体被抽中的概率相等,因而被认为是保证各种抽签、选择过程公平、公正的一个基本手段。
上述抽样就没有保证这种随机性。
在本章中,我们还会看到,作为推断的基础,我们直接研究的样本是否“得当”对研究总体十分关键,可以通过一定的抽样设计制定科学、合理、公正的抽样方法。
如上述随机性原则可以保证抽样可以使得样本和总体有相同的内部结构,也就是说有最大的可能使总体的某些特征在样本中得以再现。
本章在介绍必要的抽样概念和抽样方法基础上,重点介绍抽样分布理论,并对参数估计进行简要介绍。
第一节抽样和常用抽样方法一、简单随机抽样抽样(sampling)或取样,在整个研究过程中位于数据收集之前,恰当的抽样设计是保证样本代表性的关键环节,是利用样本对总体进行假设检验或参数估计的基础。
抽样涉及到的一些基本概念在绪论中均已介绍。
一个合理可行的抽样设计,一方面要求针对调查或实验研究的具体情况选择一种适宜抽样方法;另一方面应该根据调查研究所要求的精确度及经费状况确定样本容量。
一般所说的随机抽样,就是指简单随机抽样,它是最基本的抽样方法,适用范围广,最能体现随机性原则且原理简单。
抽取时,总体中每个个体应独立地、等概率地被抽取。
常用的实施方法有抽签法和随机数表法。
1、抽签法:是把总体中的每一个个体都编上号并做成签,充分混合后从中随机抽取一部分,这部分签所对应的个体就组成一个样本。
2、随机数表法:所谓随机数表或乱码表,是由一些任意的数毫无规律地排列而的数表。
教材附表17即是一万个数字的随机数表。
随机数表的用法许多计算机软件都可以自动生成随机数字。
这里介绍教材附录17中乱码表的用法:首先对总体中所有个体依次编号,接着从表中任一位置(任意行列交叉处)开始,依次往下找足你所需要的随机数(均为5位),以这些随机数为编号的个体即组成一个样本。
在查找随机数时,有两点要注意,一是总体容量是几位数,就从表中随机数末尾截取相应位数(因而最多可以截取4位数,抽取9999个)。
如总体容量为500,则可以看表中数据的末尾三位数,并依次往下找;二是找到的数字若超过总体的容量范围,则跳过,比如总体容量为500,要求抽取30个,则设定任意起始点往下找,找到一个数字末尾三位为678,则跳过,看到一个098,则表示编号098号被抽中,…,直到找满30个为止。
当然这两种方法都是针对有限总体的,在实际当中的无限总体可以采用其他方法来抽样。
简单随机抽样从理论上说是最符合随机性原则,但是这种方法在实际应用时,存在着一些不足:首先,对大总体进行编号是相当困难的;其次,由于完全采用随机性,实际抽取的那一个样本可能不具备总体本应该有的一些特性。
另外,对于大总体在制签或查表时都是相当困难的。
对于已有顺序编号的大总体,实际当中常常采用等距抽样简洁地实现。
等距抽样也称系统抽样。
顾名思义,它是按照抽样比例(样本容量与总体容量之比)确定抽样间距(抽样比例的倒数),然后从任意起点间隔抽样间距逐个获得样本中的个体。
如一总体有5000个,要求抽取一个500人组成样本,即抽样比例为10%,则从任意位置开始(假设总体中所有个体均已编号,且一般地假设从10以内开始),连续抽取a、a+10、a+20、…、a+4990共500个编号个体作为样本。
二、分层抽样分层抽样是事先按总体已有的某些特征,将总体分成几个不同的部分,每一部分叫一层,再分别在每一层中随机抽样。
这种方法充分利用了总体的已有信息,因而是一种非常实用的抽样方法。
对于一个总体如何分层,分多少层,要视具体情况而定。
一个总的原则是,各层内个体在该特征上的差异要少,而层与层之间的差异要越大越好。
比如说,对大学生可以按其学校是一流大学、重点大学、一般大学来分层。
对于复杂问题还可以按几个分层标准来分层。
如韦克斯勒幼儿智力量表在制定常模时,就按年龄、性别、种族、地区、家长职业和城市农村等六个因素来分层,使得样本中各种搭配下的人数比例都与总体尽量接近。
分层抽样在具体实施时,又根据是否知道各层内标准差分成两种办法:按各层人数比例分配。
这是在各层内标准差不知道时的分配方式,即让样本中各层人数的比例与总体中各层人数的比例相同。
最佳分配。
这是在已知各层内标准差时的分配方式,它是按标准差大小和总体中各层人数比例共同来确定最终样本中各层人数的比例。
任意一层中要抽取的人数可表示为:其中N 表示总体容量,n 表示样本容量,i 表示第i 层。
确定了各层内的抽取人数,每层内的抽取可采用简单随机抽样法进行。
三、两阶段抽样两阶段抽样也称为分群抽样,首先是将总体分成若干群,从中随机选出一些群,这是第一阶段抽样;再从被选出的群中进行随机抽样,这是第二阶段抽样。
这里分群的原则正好和分层抽样中分层的原则相反,要求各群内个体之间的差异尽量地大,而各群之间就没多大的差异。
比如要进行一个全国范围内生活消费方面的调查,可以按大城市进行分群,显然各大城市内的居民千差万别,而各个城市之间则相差无几,因此不必选取所有的大城市,可以只从中选择一部分,然后再在这些城市进行抽样。
在一个复杂的抽样设计中,往往可能将分层抽样抽样和分群抽样反复应用,最终才得到所要的样本。
如上面的例子中,要在一个大城市里选取一部分居民,也不是件容易的事,这时可再分群或分层,直到便于抽样时为止。
四、样本容量的确定样本容量的大小对统计推断非常重要。
样本容量过小,会影响样本的代表性,使抽样误差增大而降低了统计推断的精确性;而样本容量过大,虽然减小了抽样误差,但可能增大过失误差,且增大经费开支。
另外,样本容量与抽样误差之间并不存在直线关系,随着样本容量的增大,抽样误差减小的速度越来越慢。
对于样本容量的确定受到很多因素的影响,也有很多相应的计算公式,这里不一一介绍。
教材中介绍了对样本均值进行推断时利用最大允许抽样误差计算样本容量的方法。
所谓“最大允许抽样误差”是指某一总体参数与其点估计(抽样所得的统计量)之间的差异在实际中所能接受的最大范围。
比如,对于总体均值μ,它的点估计是,那么在实际中用来估计μ 时,研究者所能接受的最大范围就称为最大允许抽样误差,一般记为d。
确定样本容量的目的就是使抽样的误差在研究者所能接受的的范围以内,因此样本容量与 d 是有直接关系。
根据下面的抽样分布知识,可以得知:或第二节抽样分布理论一、为什么要了解抽样分布推断统计的核心思想是从特殊到一般,从部分到全体,即用样本统计量来推断总体参数。
然而,统计推断和直接推断的本质区别在于,后者往往不会关心样本和总体的差异,而直接根据统计量来下结论;这会产生很多偏差。
而统计推断则依据抽样分布理论进行推断,它用概率的形式描绘出样本统计量在无限次抽样(在无限总体中总可以得到无限多个容量有限的样本)中的分布规律,从而帮助我们判断一次抽样结果的意义。
以一个有限总体抽样的例子来说明抽样过程。
某班25名同学的某科成绩,它就是要研究的总体:1234567891011121381 99 66 98 55 92 100 84 69 74 77 66 10014151617181920212223242584 100 68 59 71 60 94 91 92 95 78 84为了较快地估计该班该课程的平均成绩(总体参数),从中有放回地抽取5名学生(即抽取一个学生的成绩登记后再放回去抽取下一个,所以已抽取的可能在后面再次被抽取到),用他们的平均成绩(样本统计量)来反映总的平均情况(实际中,直接对25个数据求平均即可,这里以具体数据说明抽样过程,想象这里的总体为无限容量)。
下表列出了一种可能的抽样情况:X1 X2 X3 X4 X5第一次抽样学号18152132590.8 成绩71 100 99 100 84第二次抽样学号102312151778.8 成绩74 95 66 100 59第三次抽样学号5152211083.8 成绩55 100 99 91 74…………………………………………这里只抽取了3 个样本,但可看出每个样本的平均数都与总体均值81.5(实际情况中总体参数往往未知)有些差异,第一个样本显然比总体均值大多了。
如何判断哪个样本统计量更具有代表性(总体参数未知时),这就需要了解样本平均数的分布规律,以便更好地对总体均值进行估计或推断。
从上面的例子可以看出抽样的实质就是对总体进行n次重复试验或n次重复观察,而每一次试验或观察都是相互独立的(有放回抽样),即抽样问题就是研究n 个“独立同分布”的随机变量的函数问题。
这里“独立”是指n 次重复试验互不影响,即各样本独立;“同分布”是这n个随机变量都从同一总体取值。
所以对于用随机变量X表示的总体,常常用(X1,X2,……,Xn)来表示它的一个容量为n 的样本。
注意,这里的每个Xi作为X的一次观测值本身也是随机变量。
二、基本随机变量分布与抽样分布一般的随机变量概率分布可称为基本随机变量分布,但上述我们要研究的是样本统计量的概率分布。
注意到,根据上述n个独立同分布随机变量计算而来的样本统计量本身也是随机变量,则它们的概率分布就称为抽样分布,即样本统计量或基本随机变量函数的理论分布。
根据样本统计量的不同,可区分样本均值的抽样分布、样本方差的抽样分布、样本相关系数的抽样分布、比例的抽样分布等。
另外,从分布形态上看,常见的抽样分布主要包括是正态分布、T分布、χ2分布、F分布等,将在后文陆续介绍。
三、抽样分布理论抽样分布理论是整个推断统计的理论基础,对它们的证明不用理会,只需掌握这些结论及其应用条件。
假设某一个用随机变量X表示的抽样母总体的均值为μ,方差为σ2,从总体中抽取容量为n 的样本,则有如下结论:(1)一切可能样本的平均数的均值(期望)等于母总体的均值,表示为:EX = μ(2)一切可能样本的平均数的方差等于母总体方差的n分之一,表示为:DX = σ2/n 因此样本均值分布的标准差等于母总体标准差的分之一,称其为标准误(SE),即SE = σ/。