初级统计学第六章 估计与样本容量

合集下载

样本量估计 ppt课件

样本量估计  ppt课件

ppt课件
18
小结
样本量的估算方法很多,不同的统计检验 方法使用的计算公式也不一样,一般影响 样本量的因素比较多:研究事件的发生率、 研究因素的有效率、设定检验的第Ⅰ类错 误概率α、设定检验的第Ⅱ类错误概率β、 了解由样本推断总体的一些信息、处理组 间差别σ的估计。
ppt课件
19

样本量估算的影响因素
样本量的估算方法很多,不同的统计检验 方法使用的计算公式也不一样,一般影响 样本量的因素比较多:
研究事件的发生率:研究事件预期出现的 结局(疾病或死亡),疾病发生率越高, 所需的样本量越小,反之就要越大。
ppt课件
4
样本量估算的影响因素
研究因素的有效率:有效率越高,即实验组和 对照组比较数值差异越大,样本量就可以越小, 小样本就可以达到统计学的显著性,反之就要 越大。
抽样调查估计总体均数的样本含量公式为:
N u 2
式中:δ为容许的误差,即允许样本和总体 的最大容许误差为多少。 为总体标准差。
ppt课件
14
单样本与已知总体检验时样本量的估计
样本均数与总体均数的比较,估计的样本 量计算公式为:
N


u
u
设定检验的第Ⅰ类错误概率α,即检验水准或显 著性。即假设检验第一类错误出现的概率。为 假阳性错误出现的概率。α越小,所需的样本量 越大,反之就要越小。α水平由研究者根据具体 情况决定,通常α取0.05或0.01。
ppt课件
5
样本量估算的影响因素
设定检验的第Ⅱ类错误概率β,或检验效能1-β 。 检验效能又称把握度,为1-β,即假设检验第二 类错误出现的概率,为假阴性错误出现的概率。 即在特定的α水准下,若总体参数之间确实存在 着差别,此时该次实验能发现此差别的概率。 检验效能即避免假阴性的能力,β越小,检验效 能越高,所需的样本量越大,反之就要越小。β 水平由研究者具情决定,通常取β为0.2,0.1或 0.05。即1-β=0.8,0.1或0.95,也就是说把握 度为80%,90%或95%。

概率论与数理统计(06)第6章 统计量及其抽样分布

概率论与数理统计(06)第6章  统计量及其抽样分布
一个任意分 布的总体
σx =
σ
n
当样本容量足够 大时( 大时(n ≥ 30) , 样本均值的抽样 分布逐渐趋于正 态分布
6 - 11
µx = µ
xቤተ መጻሕፍቲ ባይዱ
x 的分布趋 于正态分布 的过程
6 - 12
6.4 正态总体 6.3.1 χ2分布 6.3.2 t 分布 6.3.3 F 分布
6 - 13
χ2 分布
第六章 样本与统计量
6.1引言 6.1引言
数理统计学: 运用概率论的基础知识,对要研究的随机现象进行 多次观察或试验,研究如何合理地获得数据资料, 建立有效的数学方法,根据所获得的数据资料,对 所关心的问题作出估计与检验。
6-1
§6.2总体与样本 6.2总体与样本
对某一问题的研究对象全体称为总体。 组成总体的某个基本单元,称为个体。 总体可以是具体事物的集合,如一批产品。 也可以是关于事物的度量数据集合,如长度测量。 总体可以包含有限个个体,也可以包含无限个个体。 有限总体在个体相当多的情况下,可以作为无限 总体进行研究。 总体中的个体,应当有共同的可观察的特征。该 特征与研究目的有关。
6 - 16
χ2分布
(图示) 图示)
n=1 n=4 n=10
n=20
6 - 17 不同容量样本的抽样分布
χ2
t 分布
6 - 18
t 分布
1. 高 塞 特 (W.S.Gosset) 于 1908 年 在 一 篇 以 (W. “Student”(学生)为笔名的论文中首次提出 Student”(学生)
X ~ N(µ,σ ) ,则
2
χ2分布
2. 3.
z=
X −µ
Y=z

《应用统计学》第6章:置信区间估计

《应用统计学》第6章:置信区间估计
求解正态总体均值 的置信区间。
20
课堂练习2:
某车床加工的缸套外径尺寸 X~N( μ, σ 2 ),
下面是随机测得的10个加工后的缸套外径尺 寸(mm),
90.01,90.01,90.02,90.03,89.99
8x9.9980,.00819.97,S 2900.0.001,859302 .01,89.99
的样本, X 和 S2 分别为样本均值和样本方差。
可以证明:
t X ~
S/ n
t(n-1)
因此,对给定的置信度 1-,有
P{t /2 (n 1)
X
S/ n
t / 2 (n 1)}
1
即 P{X t /2(n 1)S / n X t /2(n 1)S / n} 1
由此可得 的置信度为 1- 的置信区间为
可用 Excel 的统计函数 TINV 返回 t (n)。 语法规则如下:
格式:TINV( 2 , n )
功能:返回 t (n)的值。
说明:TINV(, n )返回的是 t/2(n)的值。
17
4. 未知时总体均值 μ 的区间
估计
设总体 X~N( μ, σ 2 ), X1, X2, ···, Xn 为 X 的容量为 n
/2=0.025, n=10, 查表得 t0.025(9)=2.2622
d t /2(n 1)S / n 2.2622 196 .5 / 10 140.6
故所求 的 95% 置信区间为
(x d, x d) (1282.5, 1563.7)
可用 Excel 的【工具】→“数据分析”→“描述统 计”
第6章 置信区间估计
本章教学目标: (1) 单个正态总体均值和方差的区间估计。 (2) 总体比例的区间估计。 (3) 均值和比例置信区间估计中的样本容量

统计学第六章参数估计

统计学第六章参数估计

第五节 必要样本容量的确定
一、平均数的必要样本容量 二、成数的必要样本容量 三、影响必要样本容量的因素
特点
抽样推断方法与其它统计调查方法相 比,具有省时、省力、快捷的特点,能以 较小的代价及时获得总体的有关信息。
1. 根据样本资料对总体的数量特征作出具有一定 可靠性的估计和推断 2. 按照随机性原则从全部总体中抽取样本单位 3. 抽样推断必然会产生抽样误差
参参第数数六估估章计计
本章内 容
一、抽样推断的基本概念与原理
二、参数估计中的点估计
三、参数估计中的区间估计
四、抽样组织方式及其参数估计
五、必要样本容量的确定
第一节 抽样推断的基本概念与原理 一、抽样推断的特点和作用 二、重复抽样与不重复抽样 三、抽样误差与抽样平均误差 四、抽样推断的理论基础 (大数法则、中心极限定理) 五、参数估计的基本步骤
3. 根据所要求的置信水平,查正态分布表、t分布 表或其他分布表获得对应的概率度,然后再计算出抽 样极限误差,最后对总体参数作出区间推断。
点估计
点估计,也称定值估计,就是以样本估计量 直接代替总体参数的一种推断方法。 点估计常用方法:矩估计法、极大似然估计法。
点估计量的优良标准
1. 无偏性
E(x); E(p)
数落在抽样平均数 x 的范围之内;总体成 x
数落在抽样成数 pp 的范围之内。
例题2
概率度
总体参数的区间估计
例题3
开头例题
例题3
例题3
开头例题
简单随机抽样
简单随机抽样又叫纯随机抽样, 是最简单、最普遍的抽样组织方法。 它是按照随机性原则直接从总体的全 部单位中,抽取若干个单位作为样本 单位,保证总体中每个单位在抽选中 都有同等被抽中的机会。

统计学第6章统计量及其抽样分布

统计学第6章统计量及其抽样分布

整理ppt
16
2. T统计量
设X1,X2,…,Xn是来自正态总体N~ (μ,σ2 )
n
的一个样本,
X
1 n
n i 1
Xi
(Xi X )2 s 2 i1
n 1
则 T(X) ~t(n1)
S/ n
称为T统计量,它服从自由度为(n-1)的t分布。
整理ppt
17
F分布
定义:设随机变量Y与Z相互独立,且Y和Z分别服 从自由度为m和n的c2分布,随机变量X有如下表达式:
整理ppt
8
中心极限定理
设从均值为,方差为2的一个任意总 体中抽取容量为n的样本,当n充分大时, 样本均值的抽样分布近似服从均值为μ、 方差为σ2/n的正态分布。
当样本容量足够大时
(n≥30),样本均值的抽样
分布逐渐趋于正态分布
整理ppt
9
标准误差
标准误差:样本统计量与总体参数之间的平均差异
1. 所有可能的样本均值的标准差,测度所有样本 均值的离散程度
因此,估计这100名患者治愈成功的比 例在85%至95%的概率为90.5%
整理ppt
22
6.5 两个样本平均值之差的分布

X
1
是独立地抽自总体
X1 ~N(1,12)
的一个容量
为n1的样本的均值。 X 2 是独立地抽自总体
X2 ~N(2,22)的一个容量为n2的样本的均值,则有
E (X 1X 2)E (X 1) E (X 2)12
2. 样本均值的标准误差小于总体标准差
3. 计算公式为
x
n
整理ppt
10
【例】设从一个均值μ=8、标准差σ=0.7的总 体中随机抽取容量为n=49的样本。要求:

统计学 第 6 章 抽样与参数估计

统计学  第 6 章   抽样与参数估计

第6章抽样与参数估计第6章抽样与参数估计6.1抽样与抽样分布6.2参数估计的基本方法6.3总体均值的区间估计6.4总体比例的区间估计6.5样本容量的确定学习目标理解抽样方法与抽样分布估计量与估计值的概念点估计与区间估计的区别评价估计量优良性的标准总体均值的区间估计方法总体比例的区间估计方法样本容量的确定方法参数估计在统计方法中的地位统计推断的过程6.1抽样与抽样分布什么是抽样推断概率捕样方法抽样分布抽样方法抽样方法概率抽样(probabilitysampling)也称随机抽样特点按一定的概率以随机原则抽取样本抽取样本时使每个单位都有一定的机会被抽中每个单位被抽中的概率是已知的,或是可以计算出来的当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率简单随机抽样(simplerandomsampling)从总体N个单位中随机地抽取n个单位作为样本,每个单位入抽样本的概率是相等的最基本的抽样方法,是其它抽样方法的基础特点简单、直观,在抽样框完整时,可直接从中抽取样本用样本统计量对目标量进行估计比较方便局限性当N很大时,不易构造抽样框抽出的单位很分散,给实施调查增加了困难没有利用其它辅助信息以提高估计的效率分层抽样(stratifiedsampling)将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本优点保证样本的结构与总体的结构比较相近,从而提高估计的精度组织实施调查方便既可以对总体参数进行估计,也可以对各层的目标量进行估计系统抽样(systematicsainplmg)将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范闱内随机地抽取一个单位作为初始单位,然后按爭先规定好的规则确定其它样本单位先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k…等单位优点:操作简便,可提高估计的精度缺点:对估计量方差的估计比较困难整群抽样(clustersampling)将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查特点抽样时只需群的抽样框,可简化工作量调查的地点相对集中,节省调查费用,方便调查的实施缺点是估计的精度较差抽样分布总体中各元素的观察值所形成的分布分布通常是未知的可以假定它服从某种分布总体分布(populationdistribution)一个样本中各观察值的分布也称经验分布当样本容屋n逐渐增大时,样本分布逐渐接近总体的分布样本分布(sampledistribution)抽样分布的概念(samplingdistribution)抽样分布是指样本统计屋的分布,即把某种样本统计量看作一个随机变量,这个随机变屋的全部可能值构成的新的总体所形成的分布即为某种统计量的抽样分布.统计量:样本均值,样本比例,样本方差等样本统计量的概率分布是一种理论概率分布随机变量是样本统计量样本均值,样本比例,样本方差等结果来自容量相同的所有可能样本提供了样本统计量长远稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据对抽样分布的理解抽样分布:即不是总体分布,也不是样本分布,是根据所有可能样本计算的统计量的全部可能取值形成的分布样本均值的抽样分布容量相同的所有町能样本的样本均值的概率分布一种理论概率分布进行推断总体均值的理论基础样本均值的抽样分布样本均值的抽样分布(例题分析)【例】设一个总体,含有4个元素(个体),即总体单位数N=4。

统计学第六章 抽样法

统计学第六章  抽样法
31
第六章 抽样法
序号
1 2 3 4
5 6 7 8
9 10 11 12
13 14 15 16 合计
样本变量x
40、40 40、50 40、70 40、80
50、40 50、50 50、70 50、80
70、40 70、50 70、70 70、80
80、40 80、50 80、70 80、80

x
x E(x)
总体
研究如何利用 样本数据来 推断总体特 征。
内容包括:参 数估计和假 设检验。
目的:对总体
特征作出推
样 本
断。
这是推断统计学研 究的问题
5
第六章 抽样法
描述统计与推断统计的关系
反映客观 现象的数

概率论
(包括分布理论、大 数定律和中心极限定
理等)
样本数
描述统计
推断统计

总体数 据
(统计数据的搜集 、整理、显示和分
13
第六章 抽样法
第二节 有关抽样的基本概念(2)
(二)抽样总体
也称子样,样本或样本总体,它是从全 及总体中随机抽取出来的,代表全及总体的 那部分单位的集合体。抽样总体的单位数称 为样本容量,用n表示,对于N来说,n是很 小的。
总体
样 本
14
第六章 抽样法
第二节 有关抽样的基本概念(3)
• 二 全及指标和抽样指标p.249 (一) 全及指标
研究总体中 的品质标志
总体成数 P N1
N
总体成数标准差 P
P1 P
17
第六章 抽样法
第二节 有关抽样的基本概念(5)
(二)抽样指标
抽样指标是由样本总体各单位标志值 或标志特征计算的综合指标,也称统计量。 与全及指标相对应有:样本平均数,样本 标准差;样本成数,样本成数的标准差。

第六章 统计量及其抽样分布

第六章 统计量及其抽样分布

样本均值的抽样分布
样本均值的抽样分布
1. 容量相同的所有可能样本的样本均值的概率分 布
2. 一种理论概率分布 3. 进行推断总体总体均值的理论基础
样本均值的抽样分布
(例题分析)
【例】设一个总体,含有4个元素(个体) ,即总体单位 数N=4。4 个个体分别为x1=1、x2=2、x3=3 、x4=4 。 总体的均值、方差及分布如下

第 一
16个样本的均值(x)

第二个观察值
观 察值1 2
3
4
11
1.
20.

52. 0.
5
21
2.
25.

03. 5.
0
23
2.
30.

53. 0.
5
24
3.
35.

04. 5.
0
.3 P (X ) .2 .1 0
1.0 1.5 2.0 2.5 3.0 3.5 4.0 X
第六章 统计量及其抽样分布
抽样理论依据: 1、大数定律 (1)独立同分布大数定律:证明当N足够大时,平均数据有稳定性,为用样本平 均数估计总体平均数提供了理论依据。 (2)贝努力大数定律:证明当n足够大时,频率具有稳定性,为用频率代替概率 提供了理论依据 2、中心极限定律 (1)独立同分布中心极限定律:设从均值为u、方差为s2(有限)的任意一个总体 中抽取样本量为n的样本,但n充分大时,样本均值X的抽样分布近似服从均值为u, 方差为s2/n的正态分布。 (2)德莫佛-拉普拉斯中心极限定律:证明属性总体的样本数和样本方差,在n足 够大时,同样趋于正态分布。
(central limit theorem)
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第6章估计与样本容量6.1 概述这一章我们介绍估计下列总体参数数值的方法:总体均值、比例和方差。

我们还讲述确定这些参数估计所需要的样本容量方法。

6.2 估计总体均值:大样本这一节的主要目标:已知一个集合中样本数据多于30个,讨论总体均值的估计值。

假设1.n30(样本中的数据超过30个)。

2.样本是一个简单随机样本(相同容量的所有样本被选出的可能性相同)。

不仔细收集的数据绝对是毫无价值的,即使样本很大。

这一节中的方法假设,那些样本之间的差异是由于可能的随机波动造成的,而不是因为一些不合理的抽样方法。

定义估计量(estimator)是指使用样本数据来估计总体参数的公式或过程。

估计值(estimate)是指用来近似总体参数的特定数值或数值的范围。

点估计值(point estimate)是用来近似总体参数的一个数值(或点)。

样本均值是总体均值的最优点估计值。

虽然我们可以使用其他统计量,例如样本中位数、中列数或众数作为总体均值的估计值,但研究显示,样本均值x通常会特供最优的估计值,原因有两点。

第一,对于很多总体来说,样本均值x的分布比其他样本统计量的分布有更好的一致性。

第二,对于所有的总体,样本均值x是总体均值的一个无偏估计量,这意味着样本均值分布的中心趋近于总体均值的中心。

我们为什么需要置信区间?置信区间或区间估计是由一个数值范围(或一个区间)构成的,而不是仅由一个点构成的。

定义置信区间(或区间估计)是指用来估计总体参数真实值的一个数据范围(或一个区间)。

一个置信区间和一个置信度相联系,例如0.95(或95%)。

置信度会告诉我们,有百分之多少的时间,置信区间真的包含了总体参数,这里假设这个估计过程可以重复很多次。

在置信度的定义中,用(希腊字母阿尔法的小写)表示一个概率或面积。

的值是置信度的补。

当置信度为0.95(95%)时,=0.05。

当置信度为0.99(99%)时,=0.01。

定义置信度是指概率1-(通常表示为等价的百分数),它是置信区间实际包含总体参数的时间的相对频数,这里假设估计过程可以重复很多次。

(置信度还称作置信水平,或置信系数。

)置信度的最普遍的选择有90%(即=0.10),95%(即=0.05)和99%(即=0.01)。

选择95%是最普遍的,因为它在精确性(反应在置信区间的宽度上)和可靠性之间取得了很好的平衡(由置信度来表达)。

例子:总体均值的0.95(或95%)置信度下的置信区间为98.0898.32。

解释置信区间以98.0898.32为例。

正确的解释:我们有95%的把握从98.08到98.32这个区间实际包含了的真实值。

错误的解释:的真实值有95%的可能性将位于98.08到98.32之间。

临界值构建一个置信区间的必要条件是,我们找到了一个能够用来区分可能发生的样本统计量和不太可能发生的样本统计量的标准z值。

这个z值称为临界值,它基于如下的观察资料。

(269页图6-2)1.由中心极限定理我们知道,样本均值趋于正态分布,如图6-2所示。

2.样本均值落在图6-2中深色尾部区域之一的可能性相当小(用表示这个概率)。

3.将每一个深色阴影的尾部区域的面积用表示,我们看出,样本均值将落在这两个尾部区域中任何一个区域的总概率为。

4.根据互补法则,样本均值将落在图6-2中浅色阴影区域中的概率为1-。

5.将右尾的区域分割出来的z值一般用表示,它指的就是一个临界值,因为它位于把可能发生的样本均值和不太可能发生的样本均值分开的边界线上。

临界值符号是位于垂直边界线上正的z值,这个边界线将标准正态分布右尾的面积分割出来。

下标只是一个简单的提示,表示将标准正态分布右尾的面积分割出来的z值。

定义临界值是指位于将可能发生的样本统计量和不太可能发生的样本统计量分开的边界线上的数值。

数字是一个临界值,这个z值的性质是,它将标准正态分布右尾处的面积分割出来。

例临界值计算对应于95%置信度的临界值解答95%的置信水平对应于=0.05.见图6-3,图中显示,每一个深色阴影尾部的面积都是=0.025.注意到它左边的区域(以均值z=0为边界)面积为0.5-0.025,或0.475,我们算出=1.96。

常见的临界值误差限当用一个简单随机样本的数据估计一个总体均值时,误差限是指观测的样本均值x和总体均值的真实值的最大可能(概率是1-)差异,用E表示。

误差限也称作估计值的最大误差,它可以用临界值乘以样本均值的标准差来算出。

E= (6-1)根据上面的公式,计算误差限E需要知道总体的标准差,但在实际中,当总体均值未知时,我们很少知道。

一般来说,下面的计算方法比较实用。

未知时E的计算如果n>30,可以用样本标准差s替代公式6-1中的。

如果n30,要使用6-1,则总体必须服从正态分布,并且我们必须知道的值。

在误差限E的定义的基础上,可以求出总体均值的置信区间。

总体均值的置信区间(或区间估计值)(基于大样本n>30)x-E<< x+E 其中E=或x E 或(x-E,x+E)定义x-E和x+E这两个值称为置信区间边界。

构建的一个置信区间的程序(基于大样本:n>30)1.计算对应于所求置信度的临界值。

2.估算误差限E= 。

如果总体标准差未知,如果n>30,使用样本标准差s的值。

3.使用算出的误差限E的值和样本均值x的值,计算x-E和x+E 的值。

代替置信区间的一般格式中的这些数值:x-E<< x+E或x E 或(x-E,x+E)4.使用下面的四舍五入法则将结果值四舍五入。

用来估计的置信区间的四舍五入法则1.当使用原始数据集构建置信区间时,将置信区间边界四舍五入到比原始数据集中使用的小数位多一位的小数位。

2. 当原始数据集未知,并且只使用汇总数量(n,x,s)时,将置信区间边界四舍五入到和样本均值中使用的小数位相同数量的小数位由一个置信区间计算点估计值和E的点估计值:x=置信区间上界(置信区间下界)误差限E=置信区间上界(置信区间下界)例人体体温一篇刊登在杂志上的文章中对人体体温的总体均值的置信区间估计为98.0898.32。

使用已知的置信区间边界计算点估计值x和误差限E。

解答x=置信区间上界(置信区间下界)==98.20E=置信区间上界(置信区间下界)=0.12使用置信区间来描述、考察或比较数据描述统计量男性:n=100,x=68.76英寸,s=2.93英寸女性:n=100,x=63.39英寸,s=2.44英寸95%的置信区间男性:68.19英寸英寸女性:62.91英寸英寸这些直方图(274页)说明,男性和女性的身高分布式近似正态的,女性的身高看起来普遍更低一些。

计算置信区间的程序的基础是什么?支持置信区间的构建的基本思想和中心极限定理有关,中心极限定理说的是,对于大样本(n>30),样本均值的分布近似于均值为,标准差为的正态分布。

置信区间的格式实际上是已经用在中心极限定理中的公式的一个变换。

将z=表示如下。

z=如果从这个公式中求出,就有-z使用z的正值和负值,就得到我们正在使用的置信区间边界。

置信度为95%,此时0.05,=1.96。

对于这种情况,有0.05的概率,样本均值偏离总体均值的距离将大于1.96个标准差(或用E表示的/)。

与之相反,样本均值将位于的1.96个标准差(或/)范围内的概率是0.95。

见图6-4(275页)。

如果样本均值x位于总体均值的/倍范围内,则必定在x- /和/之间;这个结论用我们的置信区间的一般格式表示(用E表示/):x-E x+E。

6.3估计总体均值:小样本假设1.n302.样本是一个简单随机样本。

3.样本来自于一个正态分布的总体。

(这是一个宽松的条件,如果总体仅有一个众数,并且基本上是对称的,这个条件也可以满足。

)样本均值是总体均值的最好的点估计值。

本节中讨论的置信区间估计时,针对两种情形:第一,总体标准差已知,第二,是未知的。

情形1(已知):第一种情形在很大程度上来讲是不现实的,因为如果我们不知道总体均值的值而想要估计这个值,那么可以肯定,我们也不知道总体标准差的值。

如果在某些情况下本节开头部分的三个条件能够满足,并且我们也知道的值,就可以使用上一节中所讲述的相同方法来构建的置信区间估计。

也就是说,置信区间边界为x-E和x+E,其中E= 。

情形2(未知):第二种情形更实际一些。

现在我们不使用正态分布,而使用学生t分布。

学生t分布如果总体的分布基本上是正态的(大致钟形的),则对于所有的容量为n的样本,分布t=基本上就是一个学生t分布。

学生t分布被称为t分布,它可以用来计算表示的临界值。

定义一个数据集的自由度是指在一定的条件限制到所有的数据值以后,样本数值能够发生变化的数量。

自由度=n-1例计算临界值一个容量为n=15的样本是一个从正态分布的总体中选出的简单随机样本。

计算对应于95%置信度的临界值。

解答因为n=15,所以自由度的值就是n-1=14。

使用附录表A-3,在最左边的列中找到第14行。

95%的置信度对应于=0.05,所以我们找到标有“0.05(双尾)”的列。

第14行和标有“0.05(双尾)”的列相交的数值为2.145,因此=2.145。

的估计值的误差限E基于未知的和来自正态分布总体的小简单随机样本(n30)E=(6-2)其中的自由度为n-1。

的估计值的置信区间基于未知的和来自正态分布总体的小简单随机样本(n30)x-E x+E 其中E=学生t分布的重要性1.不同的样本容量,学生t分布也有所不同。

2. 学生t分布和标准正态分布有相同的大致对称的钟形形状,但对于小样本,它显示出更大的方差(分布更宽)。

3. 学生t分布的均值为t=0(就像标准正态分布有均值z=0)。

4. 学生t分布的标准差随着样本容量的变化而变化,但它是大于1的(不像标准正态分布中,)。

5.随着样本容量n的增大,学生t分布趋近于标准正态分布。

对于n30的值,二者之间的差异就很小了,我们就可以使用临界z值,而不用建构一个更大的临界t值表。

使用学生t分布的条件1.样本是小样本(n30);2.是未知的;3.样本所来自的总体基本上是正态分布。

选择恰当的分布有时候,确定是标准正态z分布还是学生t分布有些困难。

图6-6中的流程图和表6-2都汇总了在估计总体均值时,构建置信区间时要考虑的要点。

图6-6 使用正态分布和t分布在正态z分布和学生t分布之间进行选择时,除了用样本容量作为主要的标准外,一些统计学家和软件还使用对总体标准差的掌握程度作为主要的选择标准,如下面的选择:如果总体标准差是已知的,并且样本是来自正态分布总体的,使用正态分布。

如果总体标准差是未知的,并且样本是来自正态分布总体的,使用学生t分布。

6.4 估计所需的样本容量这一节将要解决的问题是:当我们打算收集一个简单随机数据样本以用于估计一个总体均值时,必须要收集多少个样本数据?换句话说,我们将要计算估计总体均值取值时所需的样本容量n。

相关文档
最新文档