医学统计学(白皮)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一章 绪论
1、总体:根据研究目的确定的具有相同性质的研究总体,分目标总体和研究总体
2、样本:从研究总体中随机抽取的一部分有代表性的个体
3、抽样:从研究总体中随机抽取一部分有代表性的个体的过程。 抽样研究的目的是用样本推断总体
4
、变量:在统计学中,将对每个观察测定的指标称为变量
分类变量:二分类变量(eg :性别)& 多分类变量(eg :血型) 定性变量 有序变量
变量 离散型变量(eg :人口数)
定量变量 连续型变量(eg :血压、红细胞数) 变量的转化:定量→有序→分类→二值(只能单向转化) 5、同质:指的是总体中的个体性质相同或相近
变异:指的是观测变量在总体中的个体之间取值不同
6、参数:反映总体特征的统计指标,如μ、σ,总体参数是固定的常数
样本统计量:与总体参数对应的,反映样本特征的量,如X 、S ,由样本资料计算出来 7、抽样误差:当我们所要研究的变量在总体中存在变异时,从这个总体中抽取的样本在这个变量的取值情况上往往与总体有一个偏差,这是不可避免的。
8、概率:指一个随机事件发生的可能性大小,当P ≤0.05时为小概率事件。 实际应用中:频率即指样本率;概率即指总体率。
统计基本公理:小概率事件在一次随机实验中几乎是不可能发生的,这是假设检验的基础。
第二章 定量资料统计描述
一、频率分布表
离散型资料:变量取值不连续,频率分布图横轴为变量值,纵轴为频率,用直条图表示。 连续型资料:变量取值连续,频率分布图横轴为变量值(标出组中值),纵轴为频率密度(即频率/组距),用直方图表示,各直条面积为相应组段频率,直方图面积之和为1。 连续型资料的频率分布表编制步骤: 1、计算极差
2、确定组段数与组距,组距=极差/组段数
3、确定组段的上、下限,第一组段包含最小值,最后一组段包含最大值,除最后组段外,各组段应包含其下限值,不包含其上限值
4、列表
二、定量资料的统计描述 (一)算数均数
1、直接法(基于原始数据)
n
X
n X X X X X n ∑=+⋯++=
321 其中,X 1,X 2,X 3,…,X n 为观察值
2、加权法(基于频数表)
n
fX
f
fX X ∑∑∑=
=
其中,f 为组段的频数,X 0为组中值,X 0=(上限+下限)/2
(二)几何均数
1、直接法(基于原始数据)
n n X X X X G ⋯=321 或 ⎥⎥⎦
⎤
⎢⎢⎣
⎡=∑
-n X G log log 1 其中,X 1,X 2,X 3,…,X n 为观察值 2、加权法(基于频数表)
⎥⎥⎦
⎤⎢⎢
⎣⎡=⎥⎥⎦
⎤⎢⎢⎣⎡=∑∑∑--n X f f X f G log log log log 11 (三)中位数
1、直接法(基于原始数据)
将n 例数据按升序排列后,第i 个数据用*i X 表示。 当n 为奇数时,*
21+=n X M
当n 为偶数时,⎪⎪⎭
⎫ ⎝⎛+=
+*
12*2
2`1n n X X M 2、内插法(基于频数表)
⎪⎭⎫
⎝⎛-⋅+=L x x f n X f i L P 100 其中,L 为欲求的P x 所在组段的下限,i 为该组段的组距,x f 为
该组段的频数,n 为总频数,L f 为该组段之前的累计频数。⎪⎭
⎫ ⎝⎛-+=L M f n f i L M 2
第三章 定性资料统计描述
构成比和率的计算式中分子是分母的一部分,而相对比分子和分母可以性质相同,也可以不同。 应用相对数应注意:
1.分母应有足够的数量,例数很少的情况最好不用相对数表示,应使用绝对数。
2.合计率的时候不能简单地由两组分别计算的率相加后求平均,而应该把两组分子之和除以两组分母之和。
3.资料应具有可比性,除了对比因素,其余因素应尽可能相同或相近。观察对象内部结构不同时,应进行率的标准化。 常用指标:
老年系数:%10065⨯≥人口总数
岁人口数,频率型指标
少儿系数:%10014⨯≤人口总数
岁人口数,频率型指标
负担系数:人口中非劳动年龄人口数与劳动年龄人口数之比,相对比型 老少比:65岁以上的老年人口与14岁以下的少年儿童人口之比,相对比型
总生育率:
‰岁妇女数
同年同年活产数
100049~15⨯,相对比型
年龄别生育率:‰年
数同年某年龄组平均妇女同年某年龄组活产数10001⨯⨯,强度型(近似) 总和生育率:15~49岁年龄别生育率的综合,是测量生育水平比较理想的指标,反映调查时间的生育水平。
终生生育率:‰岁以上妇女总数
子女数岁以上妇女生育的活产10004949⨯,反映过去时间的生育水平,比总和生
育率来得大。
自然增长率:粗出生率与粗死亡率之差,用来粗略的估计人口增长趋势
粗再生率:总和生育率×女婴占出生婴儿的比例,指每个妇女一生平均生育的女儿数。 净再生育率:大于1表示未来人口将增多,小于1表示未来人口将减少。 婴儿死亡率:‰同年活产儿总数
周岁死亡人数同年10001⨯<,是死亡统计指标中较敏感的指标
注意:婴儿死亡率和围生儿死亡率都是相对比型指标 死亡率:‰年
年平均人口数同年内死亡人数10001⨯⨯,强度型
病死率:%100⨯同年患该病总数
同年某病死亡人数,频率型
发病率:万万年
年平均人口数新发生的某病病例数10/101⨯⨯,分母不包括不可能发生某病的人,有二次患病病
例,则发病率有可能超过1
患病率:万万检查人口数
现患疾病人数10/10⨯
第五章 常用概率分布
二项分布:X ~ B (n ,π)。 二项分布的概率函数
()()x
n x
x n
C X P --=ππ1,其中()!
!!
X n X n C x n
-=,0!=1
二项分布的形态取决于π和n ,高峰在πμn =处。当π接近0.5时,图形是对称的;π离
0.5愈远,对称性愈差,但随着n 的增大,分布趋于对称。当n →∞时,只要π不太靠近0或1,特别是当n π和n (1-π)都大于5时,二项分布近似于正态分布。 二项分布的总体均数为πμ
n =,方差为()ππσ-=12n ,标准差为()ππσ-=1n
如果将出现阳性结果的频率记为n
X
p =,则p 的总体均数为πμ=p ,标准差为()
n
p ππσ-=
1 二项分布的应用:
出现阳性的次数至多为k 次的概率为:()()()
()∑∑=-=--=
=
≤k
X X n X k X X n X n X P k X P 001!!!
ππ 出现阳性的次数至少为k 次的概率为:()()()
()∑
∑=-=--==≥n
k X X n X n k X X n X n X P k X P ππ1!!!
Possion 分布(适用于菌落数、粉尘等)
概率π很小,而观察例数n 很大,除二项分布的三个基本条件以外,还要求π接近于0。 Possion 分布的概率函数:()!
X e
X P X
λλ
-=
式中,πλn =为Possion 分布的总体均数,X 为观察单位内某稀有事件的发生次数,e 为自然对数的底,取2.71828。 Possion 分布的特征
1)当总体均数λ值小于5时为偏锋,随着λ增大,分布趋向对称,λ≥20,近似正态分布。 2)总体均数与总体方差相等,均为λ。 3)观察结果具有可加性。 Possion 分布的应用
如果稀有事件发生次数的总体均数为λ,那么
发生次数至多为k 次的概率为()()!00
X e X P k X P X
k
X k
X λλ
-==∑∑==≤
发生次数至少为k 次的概率为()()11-≤-=≥k X P k X P
正态分布:X ~ N (μ,σ2)
特点:中间频数最多,两边频数渐少且对称 正态分布的概率函数:()()2
2
221σμσ
π--
=X e
X f ,其中,μ为总体均数,σ为总体标准差。
正态分布密度曲线的特点: 1)关于μ=x 对称