均数的抽样误差和总体均数估计
参数估计的基础(8)

可信区间和可信限
❖ 可信区间(confidence interval 简记为CI) 可信区间是以上下可信限为界的一个范围。例如 95%的可信区间为(171.97,173.49)cm。
❖ 可信限( confidence limit 简记为CL) 可信限是指上限和下限两个点值。如171.97为下限
结果报告:可将点值估计和区间估计同时写出 如 172.72(171.97,173.49)cm
例
该市19岁健康男大学生的身高的95%置信区间 (171.3,173.1)cm
总体均数可信区间的估计
可信 区间
已知
未知 但n足够大
未知 且n小
95% Sx
X±1.96x
X±1.96Sx
99% Sx
X±2 0.05( ) X±t 0.01()
(二)、总体概率的置信区间
表3.1 100个样本均数
173.22 172.06 170.89 174.07 172.60 173.14 172.61 172.26 171.93 172.85
175.23 173.76 174.77 172.57 171.76 172.74 173.36 173.69 171.10 173.40
呈正态分布; ④样本均数变异范围较原变量变异范
围大大缩小,这100个样本均数的 均数为167.69cm、标准差为1.69cm。
在非正态分布总体中可进行类似抽样。
数理统计推理和中心极限定理表明:
从 N (, 2 )中随机抽取n例的样本,样本均数 X也服从
正态分布,且
x
~
N
(,
2 x
)
即使从非正态总体中抽取样本,当n足够大(n>30),
本例n=27,S=15
标准误、t 分布

教 学 内 容 标准误 t分布
二、 t 分布: 三)、应用: 2、t 检验--- 3)、两样本均数的比较: A)、两小样本比较: 检验步骤: 1、建立假设,确定检验水准α 及单双侧 H0:无效假设:(两总体相同)该地急性克山病患者和健康人 的血磷值是否相同, μ 1= μ 2 H1:备择假设:(两总体不同) μ 1 ≠ μ 2 α =0.05 (双侧) 2、选择和计算统计量值: SX1-X2 = t = ( X1-X2 )/SX1-X2 [SC2(1/n1+1/n2)]1/2 = (1.521-1.085)/0.1729 =2.522 3、确定P值:按 v = v1+v2 = n1+n2-2 = 11+13-2 = 22 查t界值 表,得: P < 0.02 4、判断结果: P < 0.05 (α ), 故H1成立, 即该地急性克山病患者和健康人 的血磷值不同。
教 学 内 容 标准误 t分布
二、 t 分布: 三)、应用: 2、t 检验: 3)、两样本均数的比较: A)、两小样本比较: t = (X1-X2)/SX1-X2 B)、两大样本比较: t = (X1-X2)/SX1-X2
v=n1+n2-2 v=n1+n2-2
SX1-X2 = ( S12/n1+S22/n2 )1/2 例: 抽查了25--29岁正常人群的RBC数(mmol/L) 其中男性156人,得均数为4.561,标准差为0.548 ;女性74人,得均数为4.222,标准差为0.442。问 该人群男、女的RBC数有无不同? 已知样本1 已知样本2 问题: 两样本所属总体 均数是否相同?(μ 1= μ 是否成立 ?)
教 学 内 容 标准误 t分布
二、 t 分布: 三)、应用: 2、t 检验--- 1)、样本均数与总体均数比较:
抽样调查、抽样误差与抽样估计

总体所有单位的标志值或标志特征计算的、反 映总体某种属性的综合指标。 总体指标是一个确定的值。 2、样本指标(抽样指标、统计量):它由样 本各个单位标志值或标志特征计算的综合指标 。 样本指标是一个随机变量。 3、抽样调查中常用的指标 平均数(均值)、方差或标准差、比例(是 非标志比重)
3、可以对全面调查的结果进行评价和修正。 4、抽样调查可用于工业生产过程中的质量控制
。 5、可以对某些总体的假设进行检验,来判断假
设的真伪,为决策提供依据。
82020/1/8
(四)抽样调查的两种类型 一类是参数估计: 它是根据对样本进行观测取得的数据,然后对
研究对象整体的数量特征取值给出估计方法。 另一类是假设检验: 它是根据对样本进行观测取得的数据,然后对
42020/1/8
一、抽样调查的概念、特点及作用
(一)抽样调查的概念
抽样调查是按照随机原则从总体中抽取样本进行 调查,得到样本资料,并根据样本资料对总体数 量特征作出具有一定可靠程度的估计和推断,以 达到认识总体的一种统计方法。
也称为 抽样推断、抽样估计或统计推断。 例:某地进行水质监测,考察河水中某种污染
0.9500 0.9545 0.99 0.9973
可以看出:当确定的抽样极限误差愈大,则概
率度z也就愈大,相应的概率也愈大,即样本指 标落在指定范围的可能性也愈大;反之,则相
应的概率就减少。
92020/1/8
说明:对总体指标估计的范围(置信区间)的测定 总是在一定的概率保证程度下进行的,因为既然 抽样误差是一个随机变量,就不能指望抽样指标 落在置信区间内成为必然事件,只能视为一个可 能事件,就要用一定的概率来给予保证。
医学统计学复习资料(完整版)

第1章绪论医学统计学是一门“运用统计学的原理和方法,研究医学科研中有关数据的收集、整理和分析的应用科学。
1.个体:又称观察单位,是统计研究的最基本单位,也是构成总体的最基本的观察单位。
2.总体:根据研究目的确定的同质观察单位某项指标测量值(观察值)的集合。
分为有限总体(明确规定了空间、时间、人群范围内有限个观察单位)和无限总体(无时间和空间范围的限制)。
反映总体特征的指标为参数,常用小写希腊字母表示。
3.样本:从总体中随机抽取的一部分有代表性的观察单位组成的整体。
(抽样,随机化原则,样本含量)根据样本资料计算出来的相应指标为统计量,常用大写英文字母表示。
4.抽样研究:从总体中随机抽取样本,根据样本信息推断总体特征的方法。
抽样误差是由随机抽样(样本的偶然性)造成的样本指标与总体指标之间、样本指标与样本指标之间的差异。
其根源在于总体中的个体存在变异性。
只要是抽样研究,就一定存在抽样误差,不能用样本的指标直接下结论。
统计分析主要是针对抽样误差而言。
5.变量(一个个体的任意“特征”);资料(变量值的集合),资料类型:①计量资料/定量资料/数值变量资料:表现为数值大小,一般有度量衡单位,又可分为连续型和离散型两类;②计数资料/定性资料/无序分类变量资料/名义变量资料:表现为互补相容的属性或类别,一般无度量衡单位,可分为二分类和多分类;③等级资料/半定量资料/有序分类变量资料:表现为等级大小或属性程度。
各类资料间可相互转化。
①可选分析方法有:t检验、方差分析、相关回归分析等;②可选分析方法有:χ2检验、z检验等;③可选分析方法有:秩和检验、Ridit分析等。
6.误差:实测值与真实值之差。
可分为随机误差(随机测量误差+抽样误差)与非随机误差(系统误差与非系统误差)。
①随机误差:是一类不恒定、随机变化的误差,由多种尚无法控制的因素引起,它是不可避免的;②系统误差:是实验过程中产生的误差,它的值或恒定不变,或遵循一定的变化规律,其产生原因往往是可知的或可以掌握的,它是可以消除或控制的;③非系统误差:又称过失误差,是指在实验过程中由于研究者偶然失误而造成的误差,可以消除。
卫生统计学——精选推荐

卫⽣统计学第三章总体均数的区间估计和假设检验第⼀节均数的抽样误差与标准误⼀、标准误的意义及计算标准误是反映均数抽样误差⼤⼩的指标;同类性质的资料,标准误越⼩,表⽰样本均数与总体均数越接近,也就是抽样误差越⼩,说明样本均数推论总体均数的可靠性越⼤;反之,标准误越⼤,说明抽样误差越⼤,表⽰样本均数推论总体均数的可靠性越⼩。
数理统计已证明:标准误的⼤⼩与总体标准差成正⽐,⽽与样本含量的平⽅根成反⽐,即,当总体中各变量值都相等时,即σ=0,则抽取的各样本均数与总体均数必然相同,即抽样误差为零;⽽当总体中变量值间的变异度越⼤时,即σ越⼤,则抽取的各样本均数间离散度也越⼤,即抽样误差也越⼤;同时,当样本含量n越⼤时,则样本均数与总体均数越接近,抽样误差越⼩;反之,抽样误差越⼤。
因此可以适当增加样本例数来缩⼩抽样误差。
实际⼯作中总体标准差σ往往是不知道的,⽽只知道样本标准差S,所以只能⽤S代替,求得标准误的估计值,即⼆、标准误的应⽤▲表⽰抽样误差的⼤⼩,从⽽说明样本均数的可靠性。
(在医学⽂献上常⽤样本均数加减标准误的形式表⽰资料的均数及可靠程度)进⾏总体均数的区间估计进⾏均数的t检验第⼆节t分布⼀、t分布的概念如果从⼀个正态总体中,抽取样本含量为n的许多样本,分别计算其和,然后求出每⼀个t值,这样可有许多t值。
这些t值有⼤有⼩,有正有负,其频数分布是⼀种连续性分布,这就是统计上著名的t分布。
⼆、t分布曲线的特征▲特征:①t分布曲线是单峰分布,以0为中⼼,左右两侧对称,曲线的中间⽐标准正态曲线(u分布曲线)低,两侧翘得⽐标准曲线略⾼。
②当样本含量越⼩(严格地说是⾃由度v=n-1越⼩),t分布与u分布差别越⼤;当v逐渐增⼤时,t分布逐渐逼近u分布,当v=∞时,t分布就完全成为u分布。
所以t分布曲线的形状随v的变动⽽变化。
在⾃由度为v的t分布曲线下双侧尾部合计⾯积或单侧尾部⾯积为指定值α时,常把横轴上相应的t界值记为tα,v。
统计学笔记

当样本含量较大时,例如n>60,t分布近似标准正
态分布,此时可用u分布代替t分布
两均数之差的区间估计
服从自由度为ν=n1+n2-2的t分布
正确理解可信区间
可信度为95%的CI的涵义
从同一总体中重复抽取100个样本含量为n的样
本,按上述方法计算95%的CI,则在这100个可
小于或大于某个数值
资料的分布不清
直接法(例数较少,先将变量值由小到大顺
序排列)
n为奇数时
n为偶数时
频率表法(例数较多)
先从累计频率找出M所在的组段,然后按
公式计算,式中L为中位数所在组段的下
限,i为该组段的组距,fm为该组段的频
数,ΣfL为小于L的各组段累计频数
描述离散趋势的统计指标:极差、四分位数间
察单位的全体。
同质与变异
同质:研究对象具有的相同的状况或属性
变异:同质的各观察单位,其某变量值之间的
差异
参数与统计量
参数:总体的统计指标,如总体均数、总体标
准差,分别用希腊字母记为µ、σ。固定的常数
样本的统计指标,如样本均数、标准差,采用
拉丁字母分别记为X-、S。 参数附近波动的随
机变量
定量资料的统计描述
用β表示
要同时减小α和β,唯一的方法就是增加样本含量n。
不可能同时犯I型错误和II型错误。
拒绝H0时,只可能犯I型错误;不拒绝H0时,只可
能犯II型错误。
影响 β 错误的因素
1. 总体参数的真值
随着假设的总体参数的减少而增大
2. 显著性水平 α
当 α 减少时增大
3. 总体标准差 σ
当 σ 增大时增大
医学统计学正态分布习题及答案

1.96
二、是非题
1.对于偏态分布资料, 1.96
范围内也包含了95%的变量值( )
答案:错
2.正态分布在横轴上的位置由均数决定 ()
答案:对
3.任何一个正态分布都可以通过标准化 变换转化为标准正态分布( )
答案:对
4.设随机变量的值在(0,+)范围中, 从该变量值的总体中抽样,若样本的标 准差大于样本均数,则可推断不服从正 态分布( )
4.在排放的工业废水中规定有害物质含 量不能超过0.005。现从某企业排出的废 水中抽取10份水样,测出有害物质的平 均含量为:0.0053,标准差为:0.0004。
假设某企业排出的废水符合标准,从该 企业排出的废水中抽到的含量为10的样 本是否小概率事件?
5.某医院要求除内科之外的各科室住院 病人的平均住院日均不超过20天。该院 某科对科室全部病人计算出平均住院日 为15天。科主任认为:该科室目前已达 到了医院的要求。这个看法是否正确?
10.某市500名10岁正常男孩中,有95% 的人体重在 18~30kg范围内,由此可知 此500名男孩体重的标准差等于( ) kg
A 2.000
B 2.326
C 6.122
D 3.061
E 6.000 答案:D
11.对于服从标准正态分布的变量,有 ()
A 的概率是0.10 B 的概率是0.025 C 的概率是0.05 D 的概率是0.01 E 的概率是0.005 答案:B
二、是非判断题
1.对于一个含量为n样本,为了推断该 样本是否取自均数为μ0的总体,需要对 该样本的均数与μ0之间的差别是否是抽 样误差进行假设检验( )
2.从均数为μ0的总体中抽取一个含量为 n样本,必须对样本均数与μ0之间的差别 是否是抽样误差进行假设检验( )
标准误、t 分布

教 学 内 容 标准误 t分布
二、 t 分布: 三)、应用: 2、t 检验: 2)、配对计量资料的比较: t = ( d-0)/Sd v=n-1
例: 某药对Hb的影响研究结果 病人编号 治疗前 治疗后 差数 d 1 140 113 27 2 138 150 -12
3 140 150 … … .. 10 120 123 问:某药对Hb有无影响? -10 … -3
t = (X1-X2)/SX1-X2
P = 95% f
-t0.05,v -t0.01,v
0
t0.05,v tt0 Nhomakorabea01,v
(-t0.05,v , t0.05,v) 有 95%的 t 值,P=95%=0.95 (-t0.01,v , t0.01,v) 有 99%的 t 值,P=99%=0.99
P > 0.1
教 学 内 容 标准误 t分布
P 值含义与两类错误:
P 值含义:由H0所规定的总体做随机抽样,获得等于及大
于(或等于及小于)依据现有样本信息所计算得到的检验统 计量的概率。 I类错误:H0正确,但由于抽样的偶然性得到 t>=tα , P<=α 的检验结果,拒绝了H0 (即“弃真”) ,接受了H1, 这种错误称I类错误(“弃真”错误),其概率大小为α ; II类错误:H0不正确,但由于抽样的偶然性得到 t<tα , P>α 的检验结果,接受了H0 (即“存伪”) ,拒绝了H1, 这种错误称I类错误(“弃真”错误),其概率大小为 。
教 学 内 容 标准误 t分布
教 学 内 容
一、样本均数的标准误:样本均数的标准差。其大小与标 准差成正比,与样本含量n的算术平方根成反比。 σ X =σ /n1/2 或 SX = S/n1/2