生物统计学第四章抽样分布
第四章抽样与抽样分布12节

X:在n重贝努里试验中,出现“成功”的次 数
P (Xk)C n kpkqnk
X ~B(n,p)
变量的数字特征
• μ = E(X)= np ,
• б2 = D(X)=n pq
2.泊松分布的概率分布 函数
• 随机变量的概率分布 函数 • 随机变量的数字特征 • 现实中符合泊松分布的随机变量举例 • 泊松分布与二项分布 关系
• k =0,1,…,min(M,n)
练习题
• 【例4-9】 P78 • 【例4-10】 P79
练习题
• 改编P79 例4-10练习题• 编一个超几何分布 的例题
三、连续型随机变量的概率分布
• 折线图 频数折线图 频率折线图
随机变量
• 曲线图
• 概率密度曲线图
(一)概率密度函数(Probability density function)
• P80 定义 f(x)
• 条件
(二)X的累计分布函数(分布函数)
• F(x) • F(x)= P(X ≤ x )=
-∞< x <+∞
x
f (x)dx
b
P(a<X<b)= f ( x )d x
= F(b)-F(a)
a
连续型随机变量的数学期望和方差
• μ = E(X)=
xf ( x)dx
• μ = E(X)=
xipi
i1
(4.17)
(二)离散型随机变量的数学期望(均值)
与方差
• 表4-2, 计算X的方差(练习)
• б2=D(X)= xi E(xi )2pi
i 1
(4.18)
(三)几种常用的离散型概率分布
《统计学》第四章 概率、概率分布和抽样分布

3.正态分布 定义:如果连续型随机变量X的密度 函数为 :
p x 1 2
x 2
2 2
e
x
4.标准正态分布 如果一个正态分布的μ=0,σ=1,则称 该正态分布为标准正态分布,标准正 态随机变量用Z表示,即Z~N(0,1), 相应的分布密度函数为:
P
第一,n个单位的样本由 n 次试验结果构 成,但由于每次抽出不重复,所以实质上 相当于从总体中同时抽取n个样本单位。 第二,每次试验结果不是独立的,上次中 选情况影响下次抽选结果。 第三,每个单位在多次(轮)试验中中选的 机会是不等的。
二、抽样分布
(一)样本平均数的分布
1. 重复抽样分布
(1) 样本平均数 (2) 样本方差
2. 不重复抽样分布
(1) 样本平均数的分布 (2) 样本平均数的标准差 结论:在不重置抽样条件下,样本平均 数分布的中心还是总体的中心;而抽样 平均误差比重置抽样要小。
不重置抽样与重置抽样比,多了一个系 数:
N n N 1 n 1 N
这个系数称为不重置抽样的修正系数。 由于该系数在0,1之间,因此,不重置 抽样平均误差比重置抽样小。当N远大 于n时,修正系数近似1,修正与否对平 均误差几乎没有影响,这时可以不考虑 抽样方式差异,都按重置抽样处理。
n
2. 中心极限定理 随机变量X1,X2…Xn,… (i=1,2,…)相互独立,且服从同一 分布,该分布存在有限的期望和方 差。则当n趋于无穷大时,其算术 n 平均数: X
X
i 1
i
n
近似服从正态分布.
即: XLeabharlann ~ N , n
2
生物统计学课件抽样分布及应用一共32页

第一节 单个母总体抽样
回眸例1.5求获得抽样误差的概率:
μ=43.5g ,σ=4.65g,N =623;
Ӯ = 44.05 g,S = 4.523g,n = 25 解 按惯例所求两尾概率即抽样误差 的绝对值达到0.55的概率,因此有:
σӮ = σ/√n = 4.65÷√25 = 0.93g u =0.55÷σ/√n = 0.59
理和特点,熟悉两尾检验与一尾检验的异同;④重点掌握检验Ӯ和Ӯ1-Ӯ2 时依据的抽样分布类型及标准误σӮ、SӮ和差数标准误σӮ1- Ӯ2、SӮ1- Ӯ2的计算
公式,并与检验đ时依据的差数的抽样分布和计算差数平均数的标准误σđ 、 Sđ的公式相区别。
涉及教材内容:第四章第六、七节,第五章第一、二、三节。
当在0.5以上(n-1 = 24)。
第二节 显著性检验的原理
一、什么是显著性检验? 在由样本研究总体时,先提出关于
总体的统计假设 ( Ho ) ,然后利用样本 提供的信息去反证它是否成立。
这种证明 Ho 是否成立的过程就叫 统计假设测验,简称假设测(检)验。
如果假设测验只针对一个 Ho , 并不 同时研究其它假设, 则称为显著性检验。
(含F分布、方差的齐性检验)
配对数据的显著性检验
第二章要点提示
抽样分布既是本课程的基础,又是本课程的难点,学习时①要注意抽
样分布的特点及其与上一章正态分布的统一性;②要注意样本统计量如 、
Σy 、y
、y1đ的y概2率分布类型(正态分布)及其参数与母总体概型
及其参数的联系和区别(中心极限定理);③ 应充分理解显著性检验的原
反查附表2或顺查附表1可得:
P( | Ӯ –μ|≥0.55) = P(|u| ≥0.59)
生物统计学 第四章 统计推断

选定检验方法,计算检验统计量(test statistic)
u
t
两个样本平均数的比较
F
多个样本平均数的比较
2
事物间的构成比的差异进行比较
例:设矽肺病患者的血红蛋白含量具平均数0=126(mg/L),
2 =240 (mg/L)2的正态分布。现用克矽平对6位矽肺病患者进 行治疗,治疗后化验测得其平均血红蛋白含量x =136(mg/L)。
P(F 3.48) 0.05
P(F 5.99) 0.01
在df1=4,df2=10的正态总体中连续 抽样,所得F值大于3.48的仅有5%, 而大于5.99的仅有1%。
第一节
第四章 假设检验的原理与方法
第二节 样本平均数的假设检验
第三节 样本频率的假设检验
第四节 参数的区间估计与点估计
第五节 方差的同质性检验
0
加。
x
n
0
标准误小,正态分布中接受区就变得十分狭窄,μ 和 μ0 之间的差别比较容 易发现。
当P< 时否定H0,称“差异是显著的”
严格的讲应是“由样本推断出的总体平均数 与0之间的差异有统计学意义”
即它们属于两个不同总体(冒 风险)。
“差异显著”并不是指的数值上有显著性差异。 单纯数值上的 x 与0 的差异并不能说明任何问 题。
u x 136 126 1.581
x
40
u x 136 126 1.581
x
40
P( u >1.581)=2×0.0571=0.1142
在N(126,240)的总体中,以n=6进行随机抽样,所得平均数 x=136与126相差为10以上的概率为0.1142。
检验所计算的概率并不是实得差异本身的概率,而是超过实 得差异的概率。
统计学第四章:抽样与抽样分布

样本空间(Ω )
– 基本事件的全体(全集)
3-8
统计学
STATISTICS
随机事件(续)
复合事件 – 由某些基本事件组合而成的事件 – 样本空间中的子集 随机事件的两种特例
– 必然事件
• 在一定条件下,每次试验都必然发生的事件 • 只有样本空间 才是必然事件
– 不可能事件
• 在一定条件下,每次试验都必然不会发生的事件 • 不可能事件是一个空集(Φ )
相互独立其方差为33404001060333414143一重置抽样分布放回二不重置抽样分布不放回334242简单随机抽样分层抽样整群抽样系统抽样多阶段抽样概率抽样方便抽样判断抽样自愿样本滚雪球抽样配额抽样非概率抽样抽样方式抽样方法抽样方法334343概率抽样概率抽样probabilitysamplingprobabilitysampling根据一个已知的概率来抽取样本单位也称随机抽样抽取样本时使每个单位都有一定的机会被抽中每个单位被抽中的概率是已知的或是可以计算出来的当用样本对总体目标量进行估计时要考虑到每个样本单位被抽中的概率334444简单随机抽样简单随机抽样simplerandomsamplingsimplerandomsampling从总体n个单位中随机地抽取n个单位作为样本使得每一个容量为样本都有相同的机会概率被抽中没有利用其他辅助信息以提高估计的效率334545分层抽样分层抽样stratifiedsamplingstratifiedsampling将总体单位按某种特征或某种规则划分为不同的层然后从不同的层中独立随机地抽取样本保证样本的结构与总体的结构比较相近从而提高估计的精度既可以对总体参数进行估计也可以对各层的目标量进行估计334646整群抽样整群抽样clustersamplingclustersampling将总体中若干个单位合并为组群抽样时直接抽取群然后对中选群中的所有单位全部实施调查调查的地点相对集中节省调查费用方便调查的实施缺点是估计的精度较差334747系统抽样系统抽样systematicsamplingsystematicsampling将总体中的所有单位抽样单位按一定顺序排列在规定的范围内随机地抽取一个单位作为初始单位然后按事先规定好的规则确定其他样本单位先从数字1到k之间随机抽取一个数字r作为初始单位以后依次取rkr2k
生物统计学(第三版)

概论名词:生物统计:将概率论和数理统计的原理应用到生物学中以分析和解释其数量资料的科学试验设计:试验工作未进行之前应用生物统计原理,来制定合理的试验方案,包括选择动物,分组和对比以及相应的资料搜集整理和统计分析的方法。
总体与样本⏹数据具有不齐性。
⏹根据研究目的确定的研究对象的全体称为总体(population);⏹含有有限个个体的总体称为有限总体;⏹包含有无限多个个体的总体叫无限总体;⏹总体中的一个研究单位称为个体(individual);⏹从总体中随机抽出一部分具有代表性的个体称为样本(sample);⏹样本中所包含的个体数目叫样本容量或大小,常记为n。
⏹通常把n≤30的样本叫小样本,n >30的样本叫大样本。
随机抽取(random sampling) 的样本是指总体中的每一个个体都有同等的机会被抽取组成样本。
变数与变异数列、变量:⏹变数:研究中对样本个体的观察值。
⏹变量:相同性质的事物间表现差异性的某种特征。
如:身高、体重。
⏹变异数列:将变数按从小到大的顺序排列的一组数列。
参数与统计量⏹由总体计算的特征数叫参数(parameter);⏹由样本计算的特征数叫统计量(staistic)。
准确性与精确性⏹准确性(accuracy)也叫准确度,指观测值与其真值接近的程度。
若x与μ相差的绝对值|x-μ|小,则观测值x的准确性高;反之则低。
⏹精确性(precision)也叫精确度,指重复观测值彼此接近的程度。
若观测值彼此接近,即任意二个观测值xi、xj相差的绝对值|xi -xj |小,则观测值精确性高;反之则低。
⏹调查或试验的准确性、精确性合称为正确性。
由于真值μ常常不知道,所以准确性不易度量,但利用统计方法可度量精确性。
随机误差与系统误差随机误差也叫抽样误差(sampling error) ,是由于许多无法控制的内在和外在的偶然因素所造成。
带有偶然性质,在试验中,即使十分小心也难以消除。
随机误差影响试验的精确性。
生物统计学 第四章 统计推断概述09

双侧( 双侧(尾)检验与单侧检验
生物统计
Chap.4 Statistical inference
(一)双侧检验 (two-sided test) 无效假设: 无效假设:H 0 : µ1 = µ 2 备择假设: 备择假设:H A : µ 1 ≠ µ 2
µ1 < µ
2
µ1 > µ 2
假设的目的在于判断有无差异, 假设的目的在于判断有无差异,而 不考虑谁大谁小。 不考虑谁大谁小。
假设检验的基本原理
• 例如:谷物保管不善就会发霉并产生天然毒素, 例如:谷物保管不善就会发霉并产生天然毒素, 其毒素对动物的免疫系统有破坏作用。 其毒素对动物的免疫系统有破坏作用。某公司制 作饲料添加剂,试验组与对照组各观察30头仔猪 头仔猪, 作饲料添加剂,试验组与对照组各观察30头仔猪, 研究该添加剂是否能降解毒素,改善饲料品质, 研究该添加剂是否能降解毒素,改善饲料品质, 提高仔猪体重。 提高仔猪体重。 • 试验组:仔猪饲喂含天然毒素的配方饲料 试验组: 添加剂的饲料,测定平均增重: 和添加剂的饲料,测定平均增重:
生物统计
Chap.4 Statistical inference
根据“小概率事件实际不可能性原理” 3. 根据“小概率事件实际不可能性原理” 否定或接受无效假设。 否定或接受无效假设。
当一事件发生的概率很小,在一次试 当一事件发生的概率很小, 验中可以认为其实际上不可能发生, 验中可以认为其实际上不可能发生,这叫 P ≥ 0.05 则零假设是正确的。即试验组与对 则零假设是正确的。 小概率事件实际不可能性原理。 小概率事件实际不可能性原理 照组差异不显著, 照组差异不显著,接受H0。 。 小概率-----小于 小于0.05 小概率-----小于0.05 P<0.05 根据小概率原则,否认了样本的表 < 根据小概率原则, 面差异由试验误差造成的可能性,接受HA。 面差异由试验误差造成的可能性,
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
t (n1 n2 2)
( y1 y2) (1 2 )
(n1 1)s12 (n2 1)s22 ( 1 1 ) (n1 1) (n2 1) n1 n2
• 每个样本可以计算一个平均数,这样就得到许多 平均数,如果将这些平均数集合起来便构成一个 新总体。由于每次随机抽样所得的平均数可能会 存在差异,所以由平均数构成的新总体也应该有 其分布,这种分布称为平均数的抽样分布。
9
• 下面用一个抽样实验进一步说明样本平均数的抽 样分布及其分布的参数。
• 假定用一个很小的总体N=3,其观察值为2、4、6 以样本容量n=2从中进行抽样。
生物统计学
1
第四章抽样分布
2
抽样分布
• 研究总体与从中抽取的样本之间的关系是 统计学的中心内容。
• 生物统计学的最基本问题是研究总体和样本 间的关系。
• 总体类型: (1)实际研究对象所构成的总体 (2)数字的总体
3
抽样分布
• 对这种关系(总体与样本)的研究可从两方面着 手: 一是从总体到样本,这就是研究抽样分布的问题; 二是从样本到总体,这就是统计推断问题。
15
标准差未知
时的平均数
分布
未知时,可以用样本标准差代替总体标准差, 标准差变量为
u
y
s
n 这个变量不服从正态分布,而服从n -1的t分布
t
y
s
,具有n -1的自由度
n 其中,s 称为样本标准差。t分布只有一个参数。
n
16
标准差未知 时的平均数 分布 自由度(df):
自由度是指独立观测值的个数,在计算s时所使用的n个观测值受到平均 值的约束,这就等于有一个观测值不能独立取值,因此自由度df=n-1。
再由函数的性质有limh(t) n
近似
即n当 足够大 t~时 N(0, ,1).
1 et2 2.
2
t 分布的概率密度曲线图如
18
二、方差的 抽样及其分
布
• 从方差为σ2 正态总体中,急速抽取含量为n的样本,
计算样本方差s2。在讨论样本方差的分布时,通常并
不直接谈论s2而是给他先标准化:
2 df
df22s(n12)s2
这个变量就是服从n-1个自由度的卡方分布(χ2 – distribution)。
19
其密度函数为:
f
(2)
2d2f
1 (df)
df1 2
y2 e 2
,
y0
2
0
其他 .Βιβλιοθήκη 2(n)分布的概率密度曲线图.如
20
对于给定的 , 0正 数 1, 称满足条件
P{2
2(n)}
2(n)
f(y)dy
的点 2(n)为2(n)分布的 分 上位. 点
23
2 1
2 2
n1 n2
如果两个总体都是正态分布,则有
标准化
N(1
2,(n112
22))
n2
u ( y1 y2) (1 2 )
12
2 2
n1
n2
24
未知时,两
个平均数的
和与差的分
布
t (df1 df2 )
( y1 y2) (1 2 )
df1s12 df2s22 ( 1 1 ) df1 df2 df1 11 df2 1
fdf(t) dfπd( 2ff1df1dt2fd2f1, t 2
17
1. 具有自 n的 t由 分t度 布 ~t(d为 )f其 , 数学期 与方E 差 (t)为 0,D (t): df(d f2) (n2)
2. t分布的密度函数t 关0对 于称.当n充分大,时 其图形近似于标准 分正 布态 概率密度的图形
11
从表中我们可以算出 样本平均数 的平均数:
_
_
y
y Nn
364
9
以自由度为除数的样本方差的平均数:
s2
s2 Nn
2482
93
以样本容量为除数的样本方差的平均数:
s0 2
s0 2 Nn
1242
93
12
样本标准差s的平均数:
s Nn s1.3 1 91 31.2 65 7
在统计上,如果所有可能样本的某一统计 数等于总体的相应参数,则称该统计数为 总体_相应参数的无偏估计值(unbiased estyimate)
• 统计推断是以总体分布和样本抽样分布的理论关 系为基础的。
4
总体
随机样本1
……
2
3
4
无穷多个样本
总体和样本的关系示意图
5
抽样分布
从样本
到总体
总体与 样本间 的关系
从总体 到样本
统计推
断(目的)
抽样分 布(基础
)
本章研究的内容就是:从总体到样本(抽样分布)
6
抽样分布
• 抽样分布全部建立在正态分布的基础之上(在正 态分布的总体中抽样)。
对于不同的 , n,
可以通过查表求
得上 分位点的值.
21
如何查表,附表6.
§4·2 从两个正态总体分 布中抽取的样本统计量的
分布
22
已知时,两
个平均数的
和与差的分
布
1 2
( y1 y 2)
( y1 y 2)
2 1
2 2
n1 n2
1 2 ( y1 y 2)
( y1 y 2)
• 首先计算出总体参数:
• μ=(2+4+6)/3=4 • σ2=〔(2-4)2+(4-4)2+(6-4)2〕/3=8/3
• 所有可能的样本数=Nn=32=9
10
总体N=3,样本容量n=2时所有样本的总和数、平均数和方差表
第一个 第二个 样本
观察值 观察值
2
2
22
2
4
24
2
6
26
4
2
42
4
4
44
4
13
1、 是μ的无偏估计值。
2、s2是σ2的无偏估计值。 3、以n为除数的样本方差
估计值。
4、s不是σ的无偏估计值。
不是σ2的无偏
14
标准差已知
时的平均数
分布
Y ~ N(,2 )
n
u
y
n
变量是正态的或近似正态的,则标准化的变量服从或 近似服从N(0,1)分布。如果整体是非正态分布,当n 足够大的时,其样本平局数还是服从正态分布。
• 平均数的抽样分布对总体正态性的要求不十分严 格。
(根据中心极限定理,从非正态分布的总体中抽取 的含量为n的样本,当n充分大时,样本平均数渐 近服从正态分布)
• 方差的抽样分布对总体正态性的要求十分严格。 7
§4·1 从一个正态总体分 布中抽取的样本统计量的
分布
8
一、样本平均数的抽样及其分布
• 如果从容量为N的有限总体抽样,若每次抽取容 量为n的样本,那么一共可以得到Nn个样本。
6
46
6
2
62
6
4
64
6
6
总和
66
∑(y)
4 6 8 6 8 10 8 10 12 72
_
y
s
2 0
2
0
3
1
4
4
3
1
4
0
5
1
4
4
5
1
6
0
36
12
s2 s
0 0.0000 2 1.4142 8 2.8284 2 1.4142 0 0.0000 2 1.4142 8 2.8284 2 1.4142 0 0.0000 24 11.3136