统计学：总体均数的估计

合集下载

统计学教案习题04总体均数的估计和假设检验

第四章总体均数的估计和假设检验一、教学大纲要求（一）掌握内容1．抽样误差、可信区间的概念及计算； 2．总体均数估计的方法；3．两组资料均数比较的方法，理解并记忆应用这些方法的前提条件； 4．假设检验的基本原理、有关概念（如I 、II 类错误）及注意事项。

（二）熟悉内容两样本方差齐性检验。

（三）了解内容1． t 分布的图形与特征；2．总体方差不等时的两样本均数的比较； 3．等效检验。

二、教学内容精要（一）基本概念 1．抽样误差抽样研究中，样本统计量与总体参数间的差别称为抽样误差（sampling error ）。

统计上用标准误（standard error ，SE ）来衡量抽样误差的大小。

不同的统计量，标准误的表示方法不同，如均数的标准误用X S 表示，率的标准误用S P 表示，回归系数的标准误用S b 表示等等。

均数的标准误与标准差的区别见表4-1。

表4-1 均数的标准误与标准差的区别均数的标准误标准差意义反映的抽样误差大小反映一组数据的离散情况记法X σ（样本估计值X S ）σ（样本估计值S ）计算X σ=nσ X S =nSσ =nX 2)(∑-μS=1)(2--∑n X X控制方法增大样本含量可减小标准误。

个体差异或自然变异，不能通过统计方法来控制。

2．可信区间（1）定义、涵义：即按预先给定的概率确定的包含未知总体参数的可能范围。

该范围称为总体参数的可信区间（confidence interval ，CI ）。

它的确切含义是：CI 是随机的，总体参数是固定的，所以，CI 包含总体参数的可能性是1-α。

不能理解为CI 是固定随机的，总体参数是随机固定的，总体参数落在CI 范围内可能性为1-α。

当0.05α=时，称为95%可信区间，记作95%CI 。

当0.01α=时，称为99%可信区间，记作99%CI 。

（2）可信区间估计的优劣：一定要同时从可信度（即1-α的大小）与区间的宽度两方面来衡量。

医用统计学-总体均数的估计与假设检验练习题

医用统计学-总体均数的估计与假设检验练习题一、名词解释1.抽样误差2.标准误3.置信区间4.第一类错误5.第二类错误二、是非题1．即使变量偏离正态分布，只要样本含量相当大，样本均数也近似正态分布。

（）2．同一批计量资料的标准差不会比标准误大。

（）3．两次t检验都是对两样本均数的差别做统计检验，一次P<0.01，另一次0.01<P<0.05，就表明前者两样本均数差别大，后者两样本均数差别小。

（）4．对两样本均数的差别做统计检验，两组数据具有方差齐性，但与正态分布相比略有偏离，样本含量都较大，因此仍可做t检验。

（）5．t检验可用于同一批对象的身高与体重均数差别的统计检验。

（）三、最佳选择题1、（）小，表示用该样本均数估计总体均数的可靠性大。

D、RE、四分位间距A、CVB、SC、x2、两样本均数比较的t检验，差别有统计学意义时，P越小，说明（）。

A、两样本均数差别越大B、两总体均数差别越大C、越有理由认为两总体均数不同D、越有理由认为两样本均数不同E、越有理由认为两总体均数不同3、甲乙两人分别随机数字表抽得30个（各取两位数字）随机数字作为两个样本，求得X1和S12，X2和S22，则理论上（）。

A、X1=X 2B、S12= S22C、作两样本均数的t检验，必然得出无差别的结论D、作两方差齐性的F检验，必然方差齐E、由甲、乙两样本均数之差求出的总体均数的95%可信区间，很可能包括04、在参数未知的正态总体中随机抽样，∣X-μ∣≥（）的概率为5%。

A、1.96σB、1.96C、2.58D、t0.05，v SE、t0.05，vsx5、某地1992年随机抽取100名健康女性，算得其血清总蛋白含量的均数为74g/L，标准差为4g/L，则其95%的参考值范围（）。

A、74±4×4B、74±1.96×4C、74±2.58×4D、74±2.58×4÷10E、74±1.96×4÷106、关于以0为中心的t 分布，错误的是（）。

总体均数的估计和t检验

它不受样本大小和样本变异性的影响，是衡量数据分布中心位
03
置的重要参数。
总体均数的点估计
点估计（Point Estimation）：使用样本统计量来估计总体参数的方法。
样本均数（Sample Mean）：作为总体均数的点估计量，它是从样本数据中计算得出的平均值。
总体均数的区间估计
要点一
区间估计（Interval Estimation）
根据t统计量的显著性，得出配对观测值之间是否存在显著差异的结论。
配对样本t检验的应用
01
比较同一受试者在不同时间点的生理指标或心理指标是否存在显著差异。
02
比较同一受试者在不同条件下的行为表现是否存在显著差异。
03
比较不同治疗方法的效果是否存在显著差异。
04
CHAPTER
两独立样本t检验
两独立样本t检验的概念
它适用于在实验设计时将观测值配对的情况，例如同一受试者在不同时间点或不同条件下获得的观测值。
配对样本t检验的目的是检验两组配对观测值的均值是否存在显著差异。
配对样本t检验的步骤
1. 数据收集
收集两组配对观测值的数据，确保数据来源可靠、准确。
2. 数据整理
将数据整理成适合进行t检验的表格形式，包括配对观测值的编号、观测值、差值等。
两独立样本t检验是用来比较两个独立样本的总体均数是否
有显著差异的统计方法。
它适用于两个独立样本，且每个样本的观察值相互独立，
不受其他因素的影响。
两独立样本t检验的前提假设是：两个样本的总体均数相等，且每个样本的观察值服从正态
分布。
两独立样本t检验的步骤
01
02
03

均数的抽样误差和总体均数估计

应用领域
在医学、生物学、经济学和社会科学等领域中，均数的抽样误差和总体均数估计都是重要的统计工具，用于指导研究和决策。
02
均数的抽样误差
抽样误差的定义
抽样误差是由于从总体中随机抽取样本而产生的误差，它反映了样本均数与总体均数之间的差异。
抽样误差是不可避免的，因为每个样本都是独特的，不可能完全复制总体。
研究结论
01
抽样误差是衡量样本均数与总体均数接近程度的重要
指标，其大小直接影响到总体均数的估计精度。
02
在大样本条件下，样本均数的抽样误差通常较小，能
够较好地反映总体均数的真实情况。
03
通过增加样本量或提高样本代表性，可以减小抽样误
差，提高总体均数估计的准确性。
对未来研究的建议
01
进一步研究不同抽样方法对均数抽样误差的影响，以便在实际应用中选择合适的抽样方法。
市场调研
市场调研中，企业通过抽样调查了解消费者需求、市场趋势等信息，进而估计总体均数，制定营销策略。
医学研究中均数估计的应用
临床试验
在临床试验中，研究者通过随机抽样方法选取一定数量的患者作为样本，根据样本数据估计总体均数，进而评估药物疗效。
VS
流行病学研究
流行病学研究中，研究者通过抽样调查方法了解疾病在人群中的分布情况，估计总体均数，为制定疾病防控策略提供依据。
均数的抽样误差和总体均数估计
• 引言 • 均数的抽样误差 • 总体均数的估计 • 样本大小与均数估计精度 • 实际应用案例 • 结论与展望
01
引言
主题简介
均数的抽样误差
指通过样本均数来估计总体均数时所存在的误差范围。
总体均数估计

总体均数的估计和假设检验

无统计学意义，按 0.05检验水
准，不拒绝H0，尚不能认为两种
方法的检查结果不同。
成组设计的两样本均数的检验
01
完全随机设计（又称成组设计）：将受试对象完全随机地分配到各个处理组中或分别从不同总体中随机抽样进行研究。
02
01
若n1 ，n2 较小，且σ12=σ22
02
两独立样本的t检验(例3.7）；
01
方差分析法。
02
单侧检验和双侧检验（根据研究目的和专业知识选择）
假设检验（1）双侧检验：如要比较A、B两个药物的疗效，无效假设为两药疗效相同(H0：μA=μB)，备择假设是两药疗效不同(H1：μA≠μB)，可能是A药优于B药，也可能B药优于A药，这就是双侧检验。
01
02
单侧检验：若实际情况是A药的疗效不劣差于B药，则备择假设为A药优于B药(H1：μA>μB)，此时，备择假设成立时只有一种可能（另一种可能已事先被排除了），这就是单侧检验。
01
备注：单侧检验和双侧检验中计算统计量t的过程是一样的，但确定概率时的临界值是不同的。
01
统计推断应包括统计结论和专业结论两部分。统计结论只说明有统计学意义(statistical significance) 或无统计学意义，而不能说明专业上的差异大小。只有将统计结论和专业知识有机地相结合，才能得出恰如其分的专业结论。
A，B处理。
2
0.05
H0：μd =0 H1：μd ≠0
其中
式中d为每对数据的差值，为差值的样本均数， Sd为差值的标准差，为差值样本均数的标准误， n为对子数。
开机：进入统计状态：清除内存：
SHIFT
b. 近似t检验，即t＇检验（n1，n2 较小，且σ12≠σ22）

医学统计学总体均数的估计与假设检验

均数的抽样误差：抽样引起的样本均数与总体均数之间或样本均数之间的差别。标准误：即样本均数的标准差。表示样本均数对总体均数的离散程度。
一、均数的抽样误差与标准误（）
例4.1某市随机抽查12岁男孩100人，得身高均数139.6cm，标准差6.85cm，资料，求标准误？
第三章总体均数的估计与假设检验
添加副标题
汇报人姓名
均数的抽样误差与标准误
t分布
总体均数的估计
假设检验的一般步骤
ｔ检验
u 检验
两均数的等效检验
正态性检验
两样本方差齐性检验
假设检验时应注意的问题
利用总体均数的可信区间进行假设检验
课堂讨论
第三章总体均数的估计与假设检验
一、均数的抽样误差与标准误（）
等效检验的假设
七、两均数的等效检验
H0: | 1- 2| H1: | 1- 2|< 为等效界值，若两总体均数差值在范围内为等效，超过则为不等效。是推断两种处理效果是否相近或相等的统计方法。为什么推断两种处理效果是否相近或相等不能用前面所述的假设检验方法？
检验水准、自由度及结果判断同t检验。
＝ｎ－ 1＝25 －１＝24 查t界值表（P804），得单侧 t0.05，24 = 1.711 因: t =1.833> t0.05，24 所以：P < 0.05
结论：按照 = 0.05水准，拒绝H0 ，故可认为该山区健康成年男子脉搏高于一般人群。
1
上例如用双侧检验，查表得双侧 t0.05，24 = 2.064
样本含量一定时，增大，则减少，减少则增大，所以，的确定并不是越小越好，一般取0.05较合理。
结论时，尽可能明确相结合。
02

总体均数的估计和运算法则

与标准正态分布曲线下面积的算法一样，都是采用微积分的方法
其含义也与标准正态分布曲线下面积接近，表示某个样本含量（自由度）的样本均数经t 转换后t值落在某个区间的概率有多大
与标准正态分布不同，t分布曲线下面积为 95%或99%的界值不是一个常量，因为对于不同的自由度取值，就有不同的t分布曲线
xi
t分布的概率密度函数*
若随机变量t满足以下概率密度函数，则称
t满足自由度为v的t分布：
f (t)
(v -1)! 2
v ( v - 2
)!
1
t2 v
- v1 2

2
t分布曲线是单峰的，且关于t = 0对称，这一特征与标准正态分布很相似
0.4
(标准正态分布)
3
从标准误的计算公式中看出它与原先个体观察值的总体标准差有关，同时也和样本含量n有关
通过扩大样本含量减少标准误；从而减少抽样误差
样本均数标准误的估计值
由于在实际研究中，我们往往只抽一次样，得
到一个样本均数，而且大多数情况下是未知
的，此时常用样本标准差S估计总体标准差，
这样我们就得到样本均数标准误的估计值 S
统计推断(statistical inference)
统计推断包括两个重要的方面：一是利用样本统计量的信息对相应总体参数
值做出估计，如用样本均数估计总体均数，用样本标准差估计总体标准差等，称之为参数估计另一个是利用样本统计量来推断我们是否接受一个事先的假设，称之为假设检验
统计推断过程中的一些问题
差；但是在实际的情况下，并没有对总体中所有
的个体进行观察，所以无法得知；而且通常我
们也只作一次抽样研究，只能得到s ，只能用样本

医学统计学总体均数的估计和假设检验

3.106
3.055
3.012 2.977 2.947 2.921 2.898 2.878 2.861 2.845 2.750 2.704 2.678 2.626
2.58
3.497
3.428
3.372 3.326 3.286 3.252 3.222 3.197 3.174 3.153 3.030 2.971 2.937 2.871 2.8070
t x
sX
统计量是t的分布就是t分布。
t分布的特征： ① 以0为中心，左右对称呈单峰分布； ② t分布是一簇曲线，分布参数为自由度υ。 ③ t分布的形状与样本例数n有关，高峰比正态分
布略低，两侧尾部翘得比正态分布略高。越大，曲线越近正态分布，当ν=∞时，t分布即为z分布。由于t分布是一簇曲线，为了便于应用，统计学家编制了表4-4-1 t界值表。
3）与例数的关系不同：当样本含量足够大时，标准差趋向稳定。而标准误随例数的增大而减小，甚至趋向于0。若样本含量趋向于总例数，则标准误接近于0。
联系；二者均为变异指标，如果把总体中各样本均数看成一个变量，则标准误可称为样本均数的标准差。当样本含量不变时，均数的标准误与标准差成正比。两者均可与均数结合运用，但描述的内容各不相同。
活量的95%的可信区间。
本例n=5， =4，t0.05，4=2.776
x t0.05sx =2.44±2.776×0.33/ 5 =2.03~2.85（L）
该地17岁女中学生肺活量均数的95%可信区间为2.03L~2.85L。
例4-4-3 由例4-2-1 101名30~49岁健康男子血清总胆固醇 X 4.735mmol·L-1，S=0.88 mmol·L-1，求该地健康男子血清总胆固醇值均数的95%可信区间。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

N（0，12）
Student t分布
t X X ,
S n SX
v n 1 自由度：n-1
f(t)
ν─>∞(标准正态曲线)
ν=5
ν=1
f (t) ( 1) 2 (1 t 2 / )( 1) 2
( 2)
-5.0
-4.0
-3.0
-2.0
-1.0
0.0
用希腊字母分别记为μ、
参数推断inference 统计量 σ。固定的常数
统计量：样本的统计指标，如样本均数、标准差，采用拉
丁字母分别记为
X、。S参数附近波动的随机变量。
第一节均数的抽样误差与标准误
例如，从总体均数 =4.83×1012/L、标准差 =0.52×1012/L 的正态分布总体
单侧t0.05，9＝1.833 双侧t0.01/2，9＝3.250
＝单侧t0.005，9 单侧t0.01，9＝2.821 双侧t0.05/2，∞＝1.96
＝单侧t0.025，∞ 单侧t0.05，∞ ＝1.64
第三节总体均数的可信区间估计
总体均数的点估计（point estimation）与区间估计
20
15
10
5
0 4.2~ 4.3~ 4.4~ 4.5~ 4.6~ 4.7~ 4.8~ 4.9~ 5.0~ 5.1~ 5.2~ 红细胞数（×1012/L）
图4-1 随机抽样所得100个样本均数的分布
100个样本均数的抽样分布特点：
① 4.83 X 4.8276
② 100个样本均数中，各样本均数间存在差异，但各样本均数在总体均数周围波动。
M
第100个样本S X
S 0.39 =0.123 n 10
0.52 0.1644
X n 10
3个抽样实验结果图示
频数
450
400 350
n 5; SX 0.2212
300
250
200
150
100
50
0 3.71 3.92 4.12 4.33 4.54 4.74 4.95 5.15 5.36 5.57 5.77 5.98 6.19
SX
S n
通过增加样本
含量n来降低抽
样误差。
表4-1计算了100个样本的标准差S，由此可计算每一样本的抽样误差大小。
第1个样本S X
S 0.38 =0.120 n 10
第2个样本S X
S 0.45 =0.142 n 10
第3个样本S X
S 0.49 =0.155 n 10
统计学：总体均数的估计
随机抽样 random sampling
为了保证样本的可靠性和代表性，需要采用随机的方法抽取样本（在总体中每个个体具有相同的机会被抽到）。
参数与统计量
parameter and statistic
参数：总体的统计指标，
总体
抽取部分观察单位样本
如总体均数、标准差，采
（P406，附表2）
问单侧t0.05,10 ?
✓ 举例：
f (t) ν=10的t分布图
t
1.812 -t , t0.05,10 1.812 ，则有
P(t 1.812) 0.05 或 P(t 1.812) 0.05
1.0
2.0
3.0
4.0
5.0
t
图4-2 不同自由度下的t 分布图
t分布的特征
①以0为中心，左右对称的单峰分布；
②t分布曲线是一簇曲线，其形态变化与自
由度的大小有关。
自由度越小，则t值越分散，曲线越低平；自由度逐渐增大时，t分布逐渐逼近Z分布(标准正态分布)；当趋于∞时，t分布即为Z分布。
t 界值表
=样本标准差/ 样本含量＝S n
从正态总体N(,2)中抽取样本，获得
均数的分布仍近似呈正态分布N(,2/n) 。
第二节 t 分布(t-distribution)
随机变量X N（，2）
Z X
Z变换
标准正态分布
N（0，12）
均数 X
N(, 2 n)
Z X n
标准正态分布
③样本均数的分布曲线为中间高，两边低，左右对称，近似服从正态分布。
④样本均数的标准差明显变小：

0.52
SX
0.1772
0.52 10
0.1644 X
标准误(standard error, SE)
即样本均数的标准差，可用于衡量抽样误
差的大小。

X
n
因通常σ未知，计算标准误采用下式：
N(4.83, 0.522)中，随机抽取 10 人为一个样本（n=10），并计算该样本的均数、标
准差。如此重复抽取 100 次（ g =100），可得到 100 份样本，可得到 100 对均数
X 和标准差 S ，见表 4-1 所示。
正态总体
=4.83 =0.52
100份样本的均数和标准差
XS
0 3.71 3.92 4.12 4.33 4.54 4.74 4.95 5.15 5.36 5.57 5.77 5.98 6.19
均数
抽样实验小结
均数的均数围绕总体均数上下波动。
均数的标准差即标准误 X 与总体标
准差样相本差均一数个的常标数准的误倍（数St，an即dardX
/ n
Error)
1. 4.58, 0.38 2. 4.90, 0.45 3. 4.76, 0.49
┆
100 个
样本含 99. 4.87, 0.59 量 n =10 100. 4.79, 0.39
频数
将这100份样本的均数看成新变量值，按第二章的频数分布方法，得到这100个样本均数得直方图见图4-1。
30
25
② 10，双 =0.05，t 2, t0.05/ 2,10 2.228 ，则有
P(t 2.228) P(t 2.228) 0.05 t t 0.05/ 2,10 0.025,10
t分布曲线下面积（附表2）
双侧t0.05/2，9＝2.262 ＝单侧t0.025，9
均数
n 30; SX 0.0920
频数
频数
450
400 350 300
n 10; SX
0.1580
250
200
150
100
50
0 3.71 3.92 4.12 4.33 4.54 4.74 4.95 5.15 5.36 5.57 5.77 5.98 6.19
均数
450 400 350 300 250 200 150 100 50