第四章 统计推断
合集下载
统计推断1

小概率事件在一次观察中是不应发生的, 但是它现在发生了!!说明了什么? 一个合理的解释就是它本不是“小概率事件”, 是人们把概率算错了,算错的原因就是在 一开始就做了一个错误的假设 米
换句话说,此时应该认为: 即年来男孩的身高有明显增长。
【例2 】某地进行了两个水稻品种对比试验, 在相同条件下,两个水稻品种分别种植10个 小区,获得两个水稻品种的平均产量(kg/亩) 为:
第四章 统计推断
第一节 统计推断概述
研究样本的目的是以各种样本统计量的 抽样分布为基础去推断总体。 如何从一些包含有随机误差,又不完全的信息 中得出科学的、尽可能正确的结论是统计学 要解决的主要问题。
从样本中获得的信息所包含的不确定性,
主要来自以下几个方面:
(1)测量过程引入的随机误差;
(2)取样随机性所带来的变化,由于只取出 少数样品测量,那么取出的这一批样品的测量 结果与抽取另外一批当然会有差别; (3)我们所关心的性质确实发生了某种变化。 显然,只有第三种变化才是我们要检测的。
对于从有误差的实验数据中得出结论的科学工作者
来说,统计学是一种不可或缺的工具。
一、 统计推断的途径
1、 统计假设检验** 2、总体参量估计。
二、假设检验的基本思想 先看两个实例 【例1】 某地区10年前普查时,13岁男孩子的 平均身高是1.51米,现抽查200个12.5~13.5岁 的男孩子,身高平均值为1.53米,标准差为 0.073米,问:10年来该地区男孩身高是否有 明显增长?
3、选择显著性水平与建立拒绝域 (2)建立拒绝域
① 分位数法(临界值法) ② 概率法(P值法) 利用显著性水平(概率值)构成接受域和拒绝域。 根据统计量数值的大小,先计算(或查表)出 (X>统计量数值)出现的概率,这个概率称为P值, 用P值与显著性水平相比较进行判断。
第4章 统计推断2

成对数据平均数的比较
在生物学或医学试验中,经常将试验配成若干配对,分 别作以不同处理,例如:用高粱的若干父本与两个不同 母本杂交,同一父本的两个杂交种是一个配对;用若干 同窝的两只动物作不同处理,每一窝的两只动物是一个 配对;在做药效试验时,测定若干试验动物服药前后的 有关数值,服药前后的一对数值是一个配对,等等。
2 2 x1 120.17( g ) s1 451.97( g ) 2 2 x2 101.00( g ) s2 425.33( g )
n1 12 n2 7
(1)假设 H0:σ12=σ22=σ2
HA: σ12 ≠ σ22
(2)水平 选取显著水平α=0.05 (3)检验
s12 451.97 F 2 1.063 s2 425.33
差异?
B法:调查200株,平均天数为70.3d
试比较两种调查方法所得黑麦从播种到开花天数有无显著差别。
分 析
(1)这是两个样本(成组数据)平均数比较的假设检 验,σ12=σ22=(6.9d)2,样本为大样本,用u检验。
(2)因事先不知A、B两方法得到的天数孰高孰低,用 双尾检验。
6
(1)假设 (2)水平 (3)检验
2 e 2 1 2 2
s x1 x2
2 2 se se 10 .005 n1 n2
x1 x2 t 1.916 sx x
1 2
x1 x2 t 1.916 sx x
1 2
df=(n1-1)+(n2-1)=17 t 0.05(17) =2.110 P>0.05
差值样本的平均数等于样本平均数的差值
25
样本差数的方差
s
2 d
第四章 统计推断

所以一尾检验更易否定H0(对差异识别能力强),因此,选用一
尾检验,应根据专业知识和试验目的来判断是否有充足的依据。
现在您浏览到是二十三页,共六十六页。
现在您浏览到是二十四页,共六十六页。
相伴概率:是指在原假设成立时检验统计量观测 值以及所有比它更为极端的可能值出现的概率之 和,用P表示。
例如:在上述例子中,检验统计量U的观测值为2.5,
现在您浏览到是六页,共六十六页。
这是否意味着注射与不注射催产素两种不同的处理,老鼠体
内血糖含量一定存在有显著差异,即两相应总体血糖含量不等
( ≠ )呢?1 2
由于抽样的原因,两样本平均数之差( x1 x2),即 表面效应,或实得差异中一定包含有抽样误差造成的部分, 同时也可能包含有由于处理不同造成的总体平均数不等的部分,
125
2.5
50
P U 2.5 2P U 2.5
查附表得:P U 2.5 0.00621;故:
P X 0 125 2 0.00621 0.0124
现在您浏览到是十二页,共六十六页。
在总体平均数为2250g(在H0成立下),方差为62500g2的正态
总体中以样本容量为25进行抽样,抽得的一个样本平均数与总体 平均数相差125g以上,由抽样误差造成的概率为0.0124。
无效假设H0:对需推知的总体参数提出的假设。(被直 验的假设称为原假设)
接检
备择假设HA:在拒绝无效假设后可供选择的假设。
H0和HA是一对立事件,且构成完全事件系,即否定H0 就意味着 接受HA,接受H0 就意味着否定HA。
本例鸡,组无成效的假样设本H0所为属:的总体平均0 值2与25指0,定即的用正中常药饲饲养养情的况25下羽的雏总
和原假设提供的信息,可以构造统计量:U X ;由于原总体服从正 n
尾检验,应根据专业知识和试验目的来判断是否有充足的依据。
现在您浏览到是二十三页,共六十六页。
现在您浏览到是二十四页,共六十六页。
相伴概率:是指在原假设成立时检验统计量观测 值以及所有比它更为极端的可能值出现的概率之 和,用P表示。
例如:在上述例子中,检验统计量U的观测值为2.5,
现在您浏览到是六页,共六十六页。
这是否意味着注射与不注射催产素两种不同的处理,老鼠体
内血糖含量一定存在有显著差异,即两相应总体血糖含量不等
( ≠ )呢?1 2
由于抽样的原因,两样本平均数之差( x1 x2),即 表面效应,或实得差异中一定包含有抽样误差造成的部分, 同时也可能包含有由于处理不同造成的总体平均数不等的部分,
125
2.5
50
P U 2.5 2P U 2.5
查附表得:P U 2.5 0.00621;故:
P X 0 125 2 0.00621 0.0124
现在您浏览到是十二页,共六十六页。
在总体平均数为2250g(在H0成立下),方差为62500g2的正态
总体中以样本容量为25进行抽样,抽得的一个样本平均数与总体 平均数相差125g以上,由抽样误差造成的概率为0.0124。
无效假设H0:对需推知的总体参数提出的假设。(被直 验的假设称为原假设)
接检
备择假设HA:在拒绝无效假设后可供选择的假设。
H0和HA是一对立事件,且构成完全事件系,即否定H0 就意味着 接受HA,接受H0 就意味着否定HA。
本例鸡,组无成效的假样设本H0所为属:的总体平均0 值2与25指0,定即的用正中常药饲饲养养情的况25下羽的雏总
和原假设提供的信息,可以构造统计量:U X ;由于原总体服从正 n
第4章统计推断PPT课件

x x (3.41)
t
s x
sn
9
t分布的特征:
(1)曲线左右对称,围绕平均数μt=0向两侧递降。
(2) t分布受自由度df=n-1的制约,每个自由度都有一
条t分布曲线。
(3)和正态分布相比,t分布的顶部偏低,尾部偏高, df〉30时,其曲线接近正态分布曲线,当df→+∞时,则和正态 曲线重合。
拒绝域比较,若没落入,则认为有显著差异,单未 达极显著差异,拒绝H0
若也落入α=0.01拒绝域,则认为差异极显著,拒
绝H0
36
例3.1 已知豌豆重量(mg)服从N(377.2,3.32)。
在改善栽培条件后,随机抽取9粒,籽粒平均重 X =379.2,若标准差仍为3.3,问改善栽培条件是否显 著提高了豌豆籽粒重量?
解:1.小麦的株高是服从正态分布的随机变量
2.假设:
H0: σ=σ0(14cm)
HA: σ<σ0(14cm)
关于备择假设的说明:小麦经过提纯后株高只 能变得更整齐,绝不会变得更离散。即σ只能小于σ0 。因此, HA: σ<σ0
3.显著性水平:规定α=0.01
40
4.统计量的值: 2n 1 0 2S2 ~2n1
正态分布和t分布:双侧检验--取绝对值与分位数 比 ;单侧检验--下单尾是小于负分位数拒绝H0; 上单尾是大于分位数拒绝H0。
χ2分布:下侧分位数和上侧分位数
35
5.计算统计量
把样本观测值代入统计量公式,求得统计量取值 ,检查是否落入拒绝域。
若没落入,则认为无显著差异,接受H0
若落入α=0.05的拒绝域,则应进一步与α=0.01的
10
注: t1(n)t(n) 分位点
第4章 统计推断(1)

四、双侧检验与单侧检验 检验目的不同(HA不同): ɑ的否定域不同
即 U >1.96,拒绝
双尾检验时拒绝
H0,就是在ɑ=0.05
域分为两块,但阴 P(U U0 ) 0.05 水平上达到显著
影部分总面- 积与单 U0 1.96 尾检验相同。
因此,当α相同时,
-1.96
1.96
单侧检验的U值小
(四)推断是否接受假设
若P>0.05,H0成立,差异不显著 若P<0.05,HA成立,差异显著
P值是在假设的条件下事件H0出现的可能性,即在假设条件 下的n次独立重复试验中,事件H0将按预定的概率发生。
综上所述,显著性检验,从提出无效假设与备择 假设到根据小概率事件实际不可能性原理来否定或接 受无效假设,其基本步骤如下:
x 136 126
u
1.581
x
240 / 6
Байду номын сангаас
P( u 1.581) 0.1142
即所得样本平均数与126相差为10以上的概率为0.1142, 注意:0.1142不是实得差异的概率,而是超过实得差异的概率。
概率的计算方法:
U检验
总体方差已知 总体方差未知,但n>30
t检验
样本容量n<30且总体方差未知
即用克矽平治疗后患者血红蛋白含量与治疗前血红蛋白含 量相同.
HA: 0
对一个样本平均数的假设 对两个样本平均数的假设
H0 : 1 2 H A : 1 2
(二)确定显著水平
确定一个否定H0的概率标准,记作ɑ。 ɑ是人为规定的小概率界限,常取0.05和0.01。
(三)计算概率
在H0正确的前提下,根据样本平均数的抽样分布计算出由抽样 误差造成的概率,
第4章 统计推断

第四章 统计推断
第一节 假设检验的方法 第二节 单个样本平均数假设测验 第三节 两个样本平均数假设测验 第四节 参数的区间估计
学习目的
理解假设检验与区间估计的原理
掌握假设检验的步骤 对实际问题进行统计测验及总体参数估 计
第一节 假设检验的方法
统 计 推 断 的 概 念
总体
抽样分布
样本1
表2 两种栽培方法的地瓜产量 单位(kg/亩)
有机
2722.2
2866.7
2675.9
2169.2
2253.9
2315.1
标准
951.4
1417
1275.3
2228.5
2462.6
2715.4
(一) 成组数据的平均数比较
1. u检验
两个样本总体方差已知,或总体方差未知, 但为大样本时采用 例1 已知早稻佳辐品种σ2=1.35,用A、B两种方 法取样,A取15个样点,平均产量x1=7.69;B法取9 个样点,平均产量x2=8.77。检验两种取样法测得
t = d sd
[例4-7] 选生长期、发育
进度、植株大小和其他方
面皆比较一致的两块地的 红心地瓜苗配成一对,共 有6对。每对中一块地按 标准化栽培,另一块地进
表 两种栽培方法的地瓜产量 单位(kg/亩)
有机 2722.2 2866.7 2675.9 2169.2 2253.9 2315.1
标准 951.4 1417 1275.3 2228.5 2462.6 2715.4
两尾测验与一尾测验
假设 双尾测验 左尾测验 右尾测验
H0 HA
μ=μ0 μ≠μ0
μ≥μ0 μ<μ0
μ≤μ0 μ>μ0
第一节 假设检验的方法 第二节 单个样本平均数假设测验 第三节 两个样本平均数假设测验 第四节 参数的区间估计
学习目的
理解假设检验与区间估计的原理
掌握假设检验的步骤 对实际问题进行统计测验及总体参数估 计
第一节 假设检验的方法
统 计 推 断 的 概 念
总体
抽样分布
样本1
表2 两种栽培方法的地瓜产量 单位(kg/亩)
有机
2722.2
2866.7
2675.9
2169.2
2253.9
2315.1
标准
951.4
1417
1275.3
2228.5
2462.6
2715.4
(一) 成组数据的平均数比较
1. u检验
两个样本总体方差已知,或总体方差未知, 但为大样本时采用 例1 已知早稻佳辐品种σ2=1.35,用A、B两种方 法取样,A取15个样点,平均产量x1=7.69;B法取9 个样点,平均产量x2=8.77。检验两种取样法测得
t = d sd
[例4-7] 选生长期、发育
进度、植株大小和其他方
面皆比较一致的两块地的 红心地瓜苗配成一对,共 有6对。每对中一块地按 标准化栽培,另一块地进
表 两种栽培方法的地瓜产量 单位(kg/亩)
有机 2722.2 2866.7 2675.9 2169.2 2253.9 2315.1
标准 951.4 1417 1275.3 2228.5 2462.6 2715.4
两尾测验与一尾测验
假设 双尾测验 左尾测验 右尾测验
H0 HA
μ=μ0 μ≠μ0
μ≥μ0 μ<μ0
μ≤μ0 μ>μ0
《数学教育测量与评价》第 4 章 成绩的推断统计

4.2 推断统计的基本思想和一般步骤
一 参数估计
参数估计(parameter estimation)是利用从总体中抽取的 样本来估计总体的未知参数的方法。人们常常需要根据手中的 数据,分析或推断数据反映的本质规律。即根据样本数据如何 选择统计量去推断总体的分布或数字特征等。统计推断是数理 统计研究的核心问题。所谓统计推断是指根据样本对总体分布 或分布的数字特征等做出合理的推断。参数估计是统计推断的 一种基本形式,是数理统计学的一个重要分支,分为点估计和 区间估计两部分。
二 总体参数和样本统计量
数理统计中把代表总体特征的量数成为参数,代表样本特 征的量数称为统计量。总体参数是根据总体中所有个体的相应 数值或属性计算的反映总体某种属性或特征的指标,又称为总 体指标。常用的总体指标有总体平均数(或总体中数)、总体 标准差(或总体方差 )、总体相关系数等。
样本统计量是由样本中所有个体的相应观测数值或属性计 算出来的反映样本特征的指标,又称样本指标或抽样指标,用 来估计总体指标。统计量用来估计总体参数,因此与总体参数 相对应,统计量有样本平均数(或样本中数)、样本标准差 (或样本方差 )、样本相关系数等。
通常,当样本容量较大时,样本平均数的抽样分布近似服 从正态分布,其分布以总体平均数为中心,即平均数抽样分布 的平均数等于总体平均数(平均数的抽样分布的平均数指的是 所有样本的平均数的平均数,可以验证它与总体的平均数相 等)。平均数抽样分布的标准差称为其抽样误差或者标准误, 可以用统计方法估计其大小。抽样误差的大小与样本容量的平 方根成反比,对特定总体,样本容量越大,抽样误差越小,用 样本统计量估计总体参数的可靠性就越高。但是,样本容量与 抽样误差之间不存在直线关系,即样本容量增加到一定程度时, 抽样误差减少的速度变得很慢,但是此时抽样成本就很高了, 从而样本容量也不是越大越好。
统计学第四章 统计推断1

求解似然方程
ˆ
1 1 7 i1 xi x 4
27
7
27
【例】总体均匀分布 X ∼ U(a,b),其中,a,b 是未知参数。设 X1,..., X n 为来自该总体的随机样本, x1 ,..., xn 为样本观察值,求未知参 数 a,b 的极大似然估计
1 x [a, b] b a f (x, a, b) 解:总体服从均匀分布,即 0 x [a, b]
ˆ X,
n n 1 1 ˆ 2 X i2 X 2 ( X i X ) 2 . n i 1 n i 1
16
16
例总体X的概分布为
X
1
1
2
„
1 „
θ
1
试求未知参数θ的估计量。
pi
E ( X ) 1
1 1 1 1 1 (1 ) (1 ) 2 (1 2 ) [ ] 2 2
12
(一) 矩估计法
统计学中,矩是指以期望值为基础而定 义的数字特征,如数学期望、方差、协方差等。 矩估计法是英国统计学家K.皮尔逊最早提 出来的,其理论基础是大数定理。 设X为随机变量,对任意的正整数k ,称E(Xk)、
E[(X-EX)] k分别为随机变量X的k 阶原点矩和k 阶中心矩。
由样本矩去估计总体矩的方法称为矩估计法; 由矩估计法得到的估计量称为矩估计量。
13
k E ( X ) 存在,则 由大数定律,若总体 k 阶原点矩
1 n k lim P X i E ( X k ) 0 n ,即样本的 n i 1
k 阶原点矩依概率收敛于总体
k k E ( X ) E ( X ) 知时,自然会想到用子样 k 阶 k 阶原点矩 ,所以当
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第四章 统计推断
第一节 置信度与置信区间
一、置信度也称为置信水平,它是指总体 参数真值落在样本估计值某一区间内的 概率(把握性程度)。它反映的是抽样 推断的可靠性程度。
如:以100%的概率保证统计学考试成绩在 (0分 100分) 以5%的概率保证英语六级考试成绩在 (480分 490分)
二、置信区间指的是样本估计值的波动范围, 置信区间反映的是抽样的精确性程度。
在1530元上下浮动的一个区间内。
点估计和区间估计
(一)点估计
当总体参数不清楚时,用一个特定值(一
般用样本统计量)对其进行估计,称为点估 计。如:用样本均值代替总体均值,用样本
离差 ( )代S替2 总体方差( ) 2
点估计从总体抽取一个样本,根据该样本的 观察值对总体指标作出一个数值点的估计 。
= p 0.1875=4.3%
pn
100
四、抽样的实际误差
抽样实际误差是指样本指标和总体 指标之间抽样误差的可能范围。
f (x)
X
x
2
x : N(X ) n
t xX
/ n
f (t)
1-
t (n 1) 0 t(n 1)
t
2
2ቤተ መጻሕፍቲ ባይዱ
P(-t <t<t )=1-
2
2
即在1-置信度下,有: -t <t<t
每包重量g
148—149 149—150 150—151 151—152
合计
包数
10 20 50 20 100
试求抽样平均误差?
每包重量g 组中值
包数
148—149 148.5
10
149—150 149.5
20
150—151 150.5
50
x Σxf150.3g Σf
151—152 151.5 合计
2
2
即:-t
2
< x
/
X n
<t
2
推导 x t
2
/
n p X p x t /
2
n
t xX
/ n
f (t)
1-
t (n 1) 0 t(n 1)
t
2
2
当t (n 1) 1.96时,查表得:1- 95%
2
x 1.96 / n p X p x 1.96 / n
当t (n 1) 2时,查表得:1- 95.45%
x
n:样本个数
P:样本成数
在有限总体中,一般都是重置抽样
(2)在非重置抽样条件下:
修正因子
样本平均数误差
n
1
n N
样本成数误差 P P(1 P) (1 n )
n
N
其中,N:总体单位数;
:样本标准差;
n:样本单位数
p: 样本成数
例某公司出口一种名茶,规定每包规格重量不
低于150g,现用简单随机抽样方法抽取其中1% 进行检验,结果如下:
如:样本平均数-总体平均数
●由于总体参数未知,无法计算其实际抽样 误差。只能从样本的角度,根据样本估计量
的抽样分布来计算其抽样的平均误差程 度。
●在计算抽样误差时常常假设不存在登记性 误差和系统误差。
(二)抽样误差大小的影响因素
(1)总体各单位标志值的变异程度。在其他条件 不变的情况下,总体各单位标志值的变异程度愈 大,抽样误差也愈大,反之则愈小。
●抽样平均误差是根据随机原则抽样时,所有可能 出现的样本平均数的标准差。
●它反映样本平均数(样本成数)与总体平均数(总体 成数)的平均误差程度,常用μ表示。
(三)抽样平均误差的两种形式
(1)在重置抽样条件下:
样本平均数误差 x x
x
n
样本成数误差
P P
P(1 P) n
:样本标准差
20 100
σ Σ (x x)2 f 0.87g Σf
重 置:μx
σ n
0.87 0.087g 100
非 重 置:μx
σ n
1
n N
0.087g
例题
设要检验10000件某产品的质量,现随机抽 取100件,发现其中有25件废品,求抽样平 均误差。
解: p= 25 =0.25 100
p2=p(1 p)=0.25 0.75=0.1875
(2)样本单位数的多少。在其他条件不变的情况 下,样本单位数愈多,抽样误差就愈小,反之则 愈大。
(3)抽样方法。抽样方法不同,抽样误差也不同。 (4)抽样的组织形式。选择不同的抽样组织形式,
也会有不同的抽样误差。
二、抽样误差的度量
抽样实际误差 抽样平均误差
抽样实际误差是指在某一次抽样中,由随机 因素引起的样本指标与总体指标之间的数量 差异,常用R表示。
80名
求全班学生的平均月支出
测算每一名学生的月支出 ?
根据部分学生月支出推断 全体学生平均月支出
在相同条件下,对80名学生进行5次 重复的、独立的抽样(或观测), 结果见下表
姓名 小张 小王 小赵 小蔡 小唐
月支出(元) 1120 1320 1870 1600 1740
x 1530
▪ 估计认为全班80名学生的月均支出 为1530元。
置信区间越大 (0分 100分)
置信度越高
100%
抽样推断的精确度就越低
精确度为0
第二节 抽样误差
一、误差的构成
抽 登记性
样 误差
中
的
误 差
代表性 误差
系统性 误差
抽样 误差
实际误差 抽样平均误差
(一)抽样误差
抽样误差是由于抽样的随机性而产生的样本 指标(如样本平均数)与总体指标(如总体 平均数)之间的代表性误差。
平均数的实际误差 Rx X x 成数的实际误差 Rp P p
三、抽样平均误差
(一)抽样推断理论基础:中心极限定理
当总体X服从正态分布时:X : N(X, 2),
则来自于该总体的所有样本容量为n的样本均值x
也服从正态分布, x 的期望值为X,方差为 2 。
n
即:x : N(X, 2 )
n
(二)抽样平均误差概念
◆全班中抽取10名学生,算出平均月支出额为 1530元,据此认为估计认为全班80名学生的 月均支出为1530元
2
x 2 / n p X p x 2 / n
常用概率度与概率保证度表
分位数t 1.00 1.64
★1.96 ★ 2.00
2.58 3.00
概率1-a (%) 68.27 90.00 95.00 95.45 99.00 99.73
抽样实际误差表达式:
x
X
x
t x
p P p pt
x
n
p
p(1-p) n
第四节 区间估计
学生姓名 小张 小刘 小李 小王 小赵 小黄 小谭 小杜 小蔡 小唐 小高 小许 小卢 小吴 小郑
M
月支出(元) 1120 1980 1500 1320 1870 1390 1700 1380 1600 1740 1760 1850 1780 1670 1720
M
第一节 置信度与置信区间
一、置信度也称为置信水平,它是指总体 参数真值落在样本估计值某一区间内的 概率(把握性程度)。它反映的是抽样 推断的可靠性程度。
如:以100%的概率保证统计学考试成绩在 (0分 100分) 以5%的概率保证英语六级考试成绩在 (480分 490分)
二、置信区间指的是样本估计值的波动范围, 置信区间反映的是抽样的精确性程度。
在1530元上下浮动的一个区间内。
点估计和区间估计
(一)点估计
当总体参数不清楚时,用一个特定值(一
般用样本统计量)对其进行估计,称为点估 计。如:用样本均值代替总体均值,用样本
离差 ( )代S替2 总体方差( ) 2
点估计从总体抽取一个样本,根据该样本的 观察值对总体指标作出一个数值点的估计 。
= p 0.1875=4.3%
pn
100
四、抽样的实际误差
抽样实际误差是指样本指标和总体 指标之间抽样误差的可能范围。
f (x)
X
x
2
x : N(X ) n
t xX
/ n
f (t)
1-
t (n 1) 0 t(n 1)
t
2
2ቤተ መጻሕፍቲ ባይዱ
P(-t <t<t )=1-
2
2
即在1-置信度下,有: -t <t<t
每包重量g
148—149 149—150 150—151 151—152
合计
包数
10 20 50 20 100
试求抽样平均误差?
每包重量g 组中值
包数
148—149 148.5
10
149—150 149.5
20
150—151 150.5
50
x Σxf150.3g Σf
151—152 151.5 合计
2
2
即:-t
2
< x
/
X n
<t
2
推导 x t
2
/
n p X p x t /
2
n
t xX
/ n
f (t)
1-
t (n 1) 0 t(n 1)
t
2
2
当t (n 1) 1.96时,查表得:1- 95%
2
x 1.96 / n p X p x 1.96 / n
当t (n 1) 2时,查表得:1- 95.45%
x
n:样本个数
P:样本成数
在有限总体中,一般都是重置抽样
(2)在非重置抽样条件下:
修正因子
样本平均数误差
n
1
n N
样本成数误差 P P(1 P) (1 n )
n
N
其中,N:总体单位数;
:样本标准差;
n:样本单位数
p: 样本成数
例某公司出口一种名茶,规定每包规格重量不
低于150g,现用简单随机抽样方法抽取其中1% 进行检验,结果如下:
如:样本平均数-总体平均数
●由于总体参数未知,无法计算其实际抽样 误差。只能从样本的角度,根据样本估计量
的抽样分布来计算其抽样的平均误差程 度。
●在计算抽样误差时常常假设不存在登记性 误差和系统误差。
(二)抽样误差大小的影响因素
(1)总体各单位标志值的变异程度。在其他条件 不变的情况下,总体各单位标志值的变异程度愈 大,抽样误差也愈大,反之则愈小。
●抽样平均误差是根据随机原则抽样时,所有可能 出现的样本平均数的标准差。
●它反映样本平均数(样本成数)与总体平均数(总体 成数)的平均误差程度,常用μ表示。
(三)抽样平均误差的两种形式
(1)在重置抽样条件下:
样本平均数误差 x x
x
n
样本成数误差
P P
P(1 P) n
:样本标准差
20 100
σ Σ (x x)2 f 0.87g Σf
重 置:μx
σ n
0.87 0.087g 100
非 重 置:μx
σ n
1
n N
0.087g
例题
设要检验10000件某产品的质量,现随机抽 取100件,发现其中有25件废品,求抽样平 均误差。
解: p= 25 =0.25 100
p2=p(1 p)=0.25 0.75=0.1875
(2)样本单位数的多少。在其他条件不变的情况 下,样本单位数愈多,抽样误差就愈小,反之则 愈大。
(3)抽样方法。抽样方法不同,抽样误差也不同。 (4)抽样的组织形式。选择不同的抽样组织形式,
也会有不同的抽样误差。
二、抽样误差的度量
抽样实际误差 抽样平均误差
抽样实际误差是指在某一次抽样中,由随机 因素引起的样本指标与总体指标之间的数量 差异,常用R表示。
80名
求全班学生的平均月支出
测算每一名学生的月支出 ?
根据部分学生月支出推断 全体学生平均月支出
在相同条件下,对80名学生进行5次 重复的、独立的抽样(或观测), 结果见下表
姓名 小张 小王 小赵 小蔡 小唐
月支出(元) 1120 1320 1870 1600 1740
x 1530
▪ 估计认为全班80名学生的月均支出 为1530元。
置信区间越大 (0分 100分)
置信度越高
100%
抽样推断的精确度就越低
精确度为0
第二节 抽样误差
一、误差的构成
抽 登记性
样 误差
中
的
误 差
代表性 误差
系统性 误差
抽样 误差
实际误差 抽样平均误差
(一)抽样误差
抽样误差是由于抽样的随机性而产生的样本 指标(如样本平均数)与总体指标(如总体 平均数)之间的代表性误差。
平均数的实际误差 Rx X x 成数的实际误差 Rp P p
三、抽样平均误差
(一)抽样推断理论基础:中心极限定理
当总体X服从正态分布时:X : N(X, 2),
则来自于该总体的所有样本容量为n的样本均值x
也服从正态分布, x 的期望值为X,方差为 2 。
n
即:x : N(X, 2 )
n
(二)抽样平均误差概念
◆全班中抽取10名学生,算出平均月支出额为 1530元,据此认为估计认为全班80名学生的 月均支出为1530元
2
x 2 / n p X p x 2 / n
常用概率度与概率保证度表
分位数t 1.00 1.64
★1.96 ★ 2.00
2.58 3.00
概率1-a (%) 68.27 90.00 95.00 95.45 99.00 99.73
抽样实际误差表达式:
x
X
x
t x
p P p pt
x
n
p
p(1-p) n
第四节 区间估计
学生姓名 小张 小刘 小李 小王 小赵 小黄 小谭 小杜 小蔡 小唐 小高 小许 小卢 小吴 小郑
M
月支出(元) 1120 1980 1500 1320 1870 1390 1700 1380 1600 1740 1760 1850 1780 1670 1720
M