预防医学之分类变量的统计推断

合集下载

预防医学(统计学部分)复习

预防医学(统计学部分)复习

《预防医学》(统计学部分)复习第十四章医学统计学概述一、几个基本概念1. 总体与样本、2.抽样误差3. 概率和小概率事件、4.参数和统计量二、统计资料类型1. 计量资料、2. 计数资料、3. 等级资料三、统计工作步骤:设计(关键的步骤)、搜集资料(统计分析的前提)、整理资料、分析资料。

第十五章数值变量的统计分析一、频数表的用途、频数分布特征、频数分布类型;频数分布特征:集中趋势特征、离散趋势特征。

频数分布类型:对称分布、偏态分布(正偏态、负偏态)二、常用平均数指标及其使用的资料;算数均数、几何均数、中位数三、变异指标及其应用;全距、四分位数间距、方差、标准差、变异系数四、集中趋势指标的选择判断步骤:资料是 抗体滴度 G 否 是偏态、开口 M否X五、正态分布1、正态分布的概念2. 正态分布的特征3. 正态曲线下分布面积的规律正态分布曲线下三个特殊区间面积分布的情况,对应的界值。

4.标准化变换及标准正态分布σμ-=X u六、医学参考值范围医学参考值范围的定义,制定医学常考值范围的方法。

正态分布法、百分位数法(应用的资料)七、抽样误差1. 抽样误差的概念2. 抽样误差的特点:⑴客观存在,可控制但不能消除;⑵它是反映抽样误差大小的指标:用Sx来说明均数的抽样误差大小;用Sp 来说明率的抽样误差大小;⑶均数抽样误差的大小与标准差成正比,与√n成反比;⑷减少抽样误差最切实可行的办法为:增加样本含量。

3. 总体均数的估计方法⑴点(值)估计:⑵区间估计:①95%可信区间:X±1.96Sx②99%可信区间:X±2.58Sx附:①正常参考值范围估计:①95%正常值范围:X±1.96S②99%正常值范围:X±2.58S②可信区间与正常值范围的区别4. u变换与t变换:X-μ X-μu变换: u=──── u=────σσxt变换: X-μt=────Sx八、假设检验:1、假设检验的原理(为什么进行建设检验?)2、假设检验的一般步骤⑴建立假设①H0:无效假设;H1:备择假设②单双侧检验:根据专业知识来定。

预防医学(二)第十七章 分类变量资料的统计 分析

预防医学(二)第十七章 分类变量资料的统计 分析

第二节 分类变量资料的统计推断
• 一、率的抽样误差与标准误 • 由随机抽样造成的样本率和总体率的差异,以及各样本率 之间的差异称为率的抽样误差。 • 率的抽样误差可用率的标准误来表示 • 率的标准误的计算
• σp为率的标准率,π为总体率,n为样本含量
第二节 分类变量资料的统计推断
• 二、总体率的可信区间估计 • 方法:查表法、正态近似法 • 1.查表法 • 当样本含量较小(如n≤50),特别是p接近于0或1时,可根 据样本含量n和阳性数x,查相关统计学教材“百分率的可信区间” 表,求得总体率可信区间。
第三节 卡方检验(X2检验)
• 一、四格表资料的X2检验 • 2.假设检验步骤 • (1)建立检验假设,确定检验水准 • H0:π1=π2,即试验组与对照组的总体有效率相等。 • H1:π1≠π2,即试验组与对照组的总体有效率不等 • α=0.05(双侧检验) • (2)计算检验统计量
• A为实际频数 • T为理论频数
第三节 卡方检验(X2检验)
• 三、行✖列表资料的X2检验 • 例:某医院用3种方案治疗急性无黄疸型病毒性肝炎 254例, 观察结果见下表,问3种疗法的有效率是否不等。
• 检验假设具体步骤: • H0:3种治疗方案的有效率相等
第三节 卡方检验(X2检验)
• 三、行✖列表资料的X2检验 • 检验假设具体步骤: • H1:3种治疗方案的有效率不全等,α=0.05
第二节 分类变量资料的统计推断
• 四、率的u检验 • 2.计算检验统计量 • (2)两样本率比较的u检验
• 其中P1和P2为两样本率,Sp1-p2为两样本率之差的标准误, P含c量为两样本合并率,Pc=(X1+X2)/(n1+n2),n1和n2分别为两样本

预防医学【讲义】 (5)

预防医学【讲义】 (5)

分类变量资料的统计描述 相对比较简单,一定要理解掌握概念相对数常用指标及其意义相对数是两个有关联的数值之比。

常用的指标有率、构成比和相对比A.A.表示某病发生严重程度表示某病发生严重程度表示某病发生严重程度B.B.B.反映两个指标的相对关系反映两个指标的相对关系C.C.反映某病在各疾病中所占的位次反映某病在各疾病中所占的位次D.D.反映同种病不同时间动态变化情况反映同种病不同时间动态变化情况E.E.反映同种病不同地区的严重情况反映同种病不同地区的严重情况(1)发病率)发病率 A A A ((2)构成比)构成比C (3)相对比)相对比 BB分类资料的统计推断考点总结1、率的抽样误差用抽样方法进行研究时,必然存在抽样误差。

率的抽样误差大小可用率的标准误来表示。

2、X2检验可用于两个及两个以上率或构成比的比较;两分类变量相关关系分析。

其数据构成,一定是相互对立的两组数据,四格表资料自由度v永远=1。

3、直线回归和相关相关分析是相关分析是研究事物或现象之间有无关系、关系的 方向和密切程度。

方向和密切程度。

如血压和血糖的之间的线性关系。

4、Logistic Logistic回归分析多变量统计方法中的重要内容,回归分析多变量统计方法中的重要内容, 它是研究它是研究变量变量Y Y 和多个自变量和多个自变量XX 的关系。

将原本非线性的 关系转化为线性关系。

关系转化为线性关系。

Logistic Logistic回归适用条件:校正混杂因素、帅选危险因素、回归适用条件:校正混杂因素、帅选危险因素、 预测与判别。

预测与判别。

5、生存分析:将终点事件出现的与否和到达终点所经历的 时间结合起来分析的一种统计学分析方法。

时间结合起来分析的一种统计学分析方法。

6、统计表和统计图何为统计图?统计图是用点、线、面或立体图形将事物的数量大小、分布情况、发展变化趋势等特征表达出来。

医学上常见的统计图有线图、直方图、直条图、圆形图、散点图、统计地图等。

预防医学笔记【分章节】

预防医学笔记【分章节】

预防医学彩色笔记【分章节】第一章绪论一、预防医学的概述1.以环境-人群-健康为模式,以个体和确定的群体为主要对象。

2.三级预防策略:第一级预防:疾病的因子---病因预防、根本性预防第二级预防:三早---早发现,早诊断,早治疗第三级预防:已患病者,促康复3、任何疾病都应强调第一级预防。

第二章医学统计学方法一、基本概念和基本步骤(一)统计学中的几个基本概念1.同质:除实验因素外,影响被研究指标的非实验因素相同。

变异:同质基础上被研究个体之间的差异。

总体:同质的个体所构成的全体。

样体:从总体中抽取部分个体所组成。

误差:观测值和真实值之间的差别。

主要有①系统误差:仪器或标准不符等造成,可影响原始资料准确性,必须克服。

②随机测量误差:各种偶然因素造成同一对象多次结果不一致,应采取措施尽量控制在一定范围。

③抽样误差:总体抽样得到某变量值的统计量和总体参数之间的差别。

概率:描述随机事件(如发病)发生可能性大小的度量,常用P表示。

P值0-1,P≤0.05或P<0.01---小概率事件。

P≤0.05为事物差别有统计学意义;P<0.01为事物差别有高度统计学意义。

变量:观察对象的特征或指标;测量的结果为变量值。

(二)统计工作的基本步骤:设计--基础、最关键;收集、整理、分析资料。

二、数值变量数据的统计描述频数表:组数通常选择8-15之间;组距=(最大值-最小值)/组数;必须包含全部数据,一个数据只能归属某一组,实际组段在每组中只包含下限。

(一)集中趋势指标1.算术均数:μ---总体均数。

样本均数--χ,正态或近似正态分布。

2.几何均数:G表示。

同一组观察值的几何均数总是小于它的算数均数。

3.中位数:M;奇数---中间;偶数---中间两个数的平均值。

4.百分位数:P x;从小到大分成100等分,分割界限上的数值就是百分位数。

(二)离散趋势指标离散二距方标差,正态标准差最佳,偏态四分数最佳1.极差/全距:R---最大值和最小值之差。

预防医学名词解释总结

预防医学名词解释总结

预防医学名词解释总结一、统计学部分1.抽样误差(sampling error)(11):由于个体存在差异,因此通过样本推论总体时会存在一定的误差,如样本均数往往不等于总体均数,这种由抽样造成的样本均数与总体均数的差异称为抽样误差。

2.样本(sample)(4):从总体中随机抽取部分观察单位的过程称为抽样,所抽得的部分称为样本。

3.总体(population)(2):根据研究目的确定的同质研究对象的全体4.变量(variable):收集资料时,对每个观察对象的某项特征进行测量的观察,这种被观察单位的特征称为变量。

5.概率(probability)对某一随机现象进行大量观察后得到的一个统计百分数f/N抽样研究(sampling study)(2):从总体中随机抽取有代表性的部分个体进行研究的过程称为抽样研究。

6.计量资料(Quantitative data)(6)对每个观察对象的观察指标用定量方法测定其数值大小所得的资料称为计量资料,通常带有度量衡单位。

7.计数资料(count data)(3):先将观察对象的观察指标按性质或类别进行分组,然后计数各组数目所得的资料称为计数资料,也叫定性数据(Qualitative data)。

8.等级资料(Rank data):同时具有半定性或半定量特征的资料,有大小顺序,所以也叫有序资料。

×100%,主要用于对均数相差较大或9.变异系数(Coefficient of Variation )(1):CV=SX̅单位不同的几组观察值的变异程度进行比较。

10. I类错误(3):当Ho为真时,假设检验结论拒绝H0接受H1,这类错误称为I类错误。

11. II类错误:当真实情况为H0不成立时,假设检验结果不拒绝H0,这类错误称为II类错误。

12.标准正态分布(Standard Normal Distribution) (2):对任何参数的正态分布,都可以化成μ=0和σ=1的标准正态分布。

第13章 有序分类变量的统计推断——非参数检验

第13章 有序分类变量的统计推断——非参数检验

13.3.1 Mann-Whitney

U检验

记X和Y的秩和分别为WX和WY,满足 WX+WY=N(N+1)/2。 当X的样本全部排在Y的样本前面时, WX达到最小m(m+1)/2,定义统计量

U= WX -m(m+1)/2

当原假设成立时,两个样本交错出现, 分布均匀,U不会太小或者太大。反之, 如果U偏小或者偏大,则原假设不成立。
13.3.2 分析实例
例13.2
一家权威的房屋建筑协会 提供了最流行的家居装修工程的 成本数据,能否得出厨房的装修 成本与主卧室的装修成本存在差 异呢? 数据见npara2.sav
13.3.2 分析实例

AnalyzeNonparametric Tests 2 independent Samples
第13章计推断非参数检验有序分类变量的统第13章有序分类变量的统计推断非参数检验?131非参数检验概述?132两个配对样本的非参数检验?133两个独立样本的非参数检验131非参数检验概述?1311非参数检验的意义?1312非参数检验预备知识1311非参数检验的意义?非参数检验nonparametrictesting是指在总体不服从正态分布且分布情况不明时用来检验数据资料是否来自同一个总体假设的一类检验方法
13.3.1 Mann-Whitney

U检验
SPSS中提供了四种方法: Mann-Whitney U法(曼-惠特尼U检 验):

通过对平均秩的研究来实现推断的。 类似单样本检验的K-S法,通过对分布的 研究来实现推断。

Kolmogorov-Smirnov Z法:

13.3.1 Mann-Whitney

预防医学考试重点总结

预防医学考试重点总结
3
初级卫生保健
工作内容(不包括合理用药);顺利实施的关键因素(不包括国际援助)
4
卫生学
研究外界环境因素与人体健康的关系
5
病因预防
针对无病期(疾病尚未发生)
6
假设检验
基本步骤:建立检验假设和设定检验水准、计算统计量、确定P值和判断结果;水准α=0.05时,根据t值判断接受或拒绝H0
7
统计描述
数值变量数据:频数表、集中趋势指标(算术均数、几何均数、中位数、百分位数)、离散趋势指标(极差、四分位数间距、方差、标准差);正态分布的特点与面积分布规律
反映疾病疗效的指标(不包括发病率);反映疾病严重程度的指标(病死率);表示某种事物或疾病发生的频率或强度(率)
11
筛检与诊断试验
适合做大规模筛检的疾病(如原位子宫颈癌);敏感度(实际有病,用该诊断标准正确判定为阳性的能力);病例对照研究特点(不可计算发病率)
12
环境污染与健康
环境污染的主要来源(生产性污染、生活性污染、交通运输工具);环境污染对健康造成的特异性损害(不包括机体抵抗力下降);不属于环境污染概念范畴(尚未扰乱生态平衡)
预防医学考试重点总结
序号
重点内容
知识点详解
1
预防医学概述
以环境-人群-健康为模式,以个体和确定的群体为主要对象;强调三级预防策略:第一级预防(病因预防、根本性预防)、第二级预防(早发现、早诊断、早治疗)、第三级预防(已患病者,促康复)
2Hale Waihona Puke 三级医疗卫生保健网设立的组织:卫生行政、卫生业务、群众卫生组织;设立的系统:医疗康复、卫生防疫、妇幼保健;设立的三级机构:县、乡、村
13
空气、水与健康
与人类健康关系最为密切的空气物理因素(红外线、可见光、紫外线);可吸入颗粒物的定义与危害;饮用水净化的目的与基本卫生要求;氯化消毒的目的与效果评估指标

(完整word版)卫生统计学重点整理-预防医学

(完整word版)卫生统计学重点整理-预防医学

1.卫生统计学:是应用概率论和数理统计学的基本原理和方法,研究居民卫生状况以及卫生服务领域中数据的收集、整理和分析的一门科学。

2.同质(homogeneity):在统计学中,若某些观察对象具有相同的特征或属性称为同质的。

否则称为异质(heterogeneity)的或者间杂的。

3.变异(variation):同质事物之间的差别称为变异。

[没有个体变异,就没有统计学!]4.总体(population):根据研究目的所确定的同质观察单位的全体。

5.样本(sample):是从总体中随机抽取的具有代表性的部分观察单位的集合。

6.样本含量(sample size):样本中包含的观察单位个数。

7.参数(parameter):反映总体特征的指标。

特点:未知、唯一,希腊字母表示,如总体均数、总体率等。

8.统计量(statistic):根据样本观察值计算出来的指标。

特点:已知、不唯一,拉丁字母表示,如样本均数、样本率等。

9.变量(variable):研究者需要对每个观察单位的某项特征或属性进行观察或测量,这种特征或属性称为变量。

10.变量值(value of variable):变量的观察值或测量值称为变量值或观察值(observed value).11.资料(data):变量值的集合称之为资料.12.定量资料(quantitative data):变量值是定量的,表现为数值大小。

特点:一般有度、量、衡单位,一般属连续性资料。

13.定性资料(qualitative data):观察值是定性的,表现为互不相容的类别或属性。

特点:一般无度、量、衡单位,一般属于离散型资料。

可进一步分为计数资料和等级资料。

14.计数资料(count data):将观察单位按某种类别或属性进行分组,清点各组观察单位数所得的资料。

可进一步分为二项分类资料和无序多项分类资料.15.等级资料(ordinal data):将观察单位按照某种特质或属性的程度或等级顺序分组,清点各组观察单位所得的资料。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 特点:多来源于随访性资料、分母中含有时间定义、取值有时会 超过1(时间取半年、半月)
• 常用指标有:发病率、死亡率、出生率等
应用相对数的注意事项
• 防止概念混淆;分析时不能以构成比代替 率
• 计算相对数的分母一般不宜过小 • 正确地合并估计率(平均率或合计率) • 相对数比较时要注意可比性
防止概念混淆

10
10.00

10
10.00

20Biblioteka 20.00夏20
20.00

30
30.00

30
30.00

40
40.00

40
40.00
相对数比较时的可比性
甲院
乙院
科室
出院人数 治愈人数 治愈率(%) 出院人数 治愈人数 治愈率(%)
内科 876 295 33.67
329 104 31.61
外科 305 292 95.74
• 可见这两组资料内部的构成不同(不同的科室治愈 率是不同的),可比性差,不可直接比较总治愈或 合计治愈率
率的标准化
• 采用统一的标准对内部构成不同的各组频率进行 调整,而后对比各组标准化率的方法称为率的标 准化法
• 调整后的率为标准化率,简称标化率(standard rate),或调整率(adjusted rate)
患病人数 9 13 91
102 12 227
患病率(1/万) 0.9 2.9 13.0 16.0 37.5 7.9
60岁以上年龄段为高血压的高危年龄段!
相对数
• 对分类变量汇总后,通常这些频数不能直 接比较;分类资料的统计描述与推断中通 常使用相对数,而不是绝对数
• 相对数指标是由两个有联系的指标之比组 成
2、构成比
• 构成比proportion含义:反映事物内部某个部分占总 体的比重;分子包含在分母中
• 计算公式:
构 成 比 = 同 一 事 物 某 内 一 部 组 各 成 组 部 成 分 单 个 位 体 个 数 体 的 总 数 比 例 基 数 K K 可 以 根 据 具 体 情 况 取 % 、 000、 1万 、 110万 等 。 • 特点:无量纲、在0~1间取值、不独立性、可加性 • 常用指标有:性别构成、疾病构成、年龄构成、职业
预防医学之分类变量的统计推断
路漫漫其悠远
少壮不努力,老大徒悲伤
分类资料的统计描述
• 分类变量的取值为某种属性,例如: 血型(A、B、O、AB) 人群中某病发生与否(发生、不发生) 性别(男性、女性) 视力等级(差 、中、好)
• 这些变量值无法直接进行统计运算,通常的做法是按照 类别进行统计汇总,分别计算每一个类别的观察单位数, 即某个分类的频数
构成等
3、率
• 率rate含义:反映某一时间段内,某一事件出现的机会大小(近 似于一段时间内发生某事件的平均概率)
• 计算公式:
率 = 某 一 时 间 内 发 生 某 现 象 的 个 体 数 K 同 期 可 能 发 生 该 事 件 的 总 个 体 数
K 可 以 根 据 具 体 情 况 取 % 、 000、 1万 、 110万 等 ; 时 间 通 常 取 一 年 。
常用的相对数指标
• 比(ratio) • 构成比(proportion) • 率(rate)
1、相对比
• 相对比ratio含义:两个相关联的指标之比 • 计算公式:
相 对 比 型 指A标 指= 标 B指 标
• 特点:无量纲、取值可以超过1;A与B的量纲可以相 同也可以不同,但是A与B互不包含
• 常用指标有:性别比、每千人口的医生数、动态数列 分析指标等
• 并非所有 含“率” 的指标都表达是发生的可能性大 小,很多情况下这些含“率”的指标是相对比
• 例如:
5岁以下儿童死亡率=某年5岁以下儿童死亡数 同年活产儿总数
孕产妇死亡率=某年孕产妇死亡数 同年活产儿总数
proportion vs. rate
某年某市高血压发病情况
季节 发病人数 百分比(%)
某年某市畸胎发病情况 季节 畸胎例数 百分比(%)
生存率 (%)

45
35 77.77 300 215 71.67
有 710 450 68.38 83
42 50.60
合计 755 485 64.24 383 257 67.10
标准化率的计算
• 率的标准化的方法通常有直接与间接 法两种
• 两种方法的使用条件不同
直接标准化率
• 已知各构成组分的率时(或已知各组分的 观察单位数与各组分观察阳性数),可采 用该法
• 将要比较的两组中任意一组作为共用标准
直接标准化率
腋下 淋巴结
转移

标准人口数 Ni
(ni=n甲+n乙)
345 ×
甲院
原生存率 pi
• 标准化的目的是使得不同构成的各组间比较时具 有可比性;其做法是对那些在各组间分布不均衡, 并且可能对研究结果造成影响的因素(混杂因素) 进行调整、校正,使得它们对结果的影响在各组 间一致
• 常见的混杂因素有年龄、性别、病情等
率的标准化
甲医院
乙医院
淋巴结
转移
病例数
生存数
生存率 (%)
病例数
生存数
• 在用直接标准化法计算标准化率(标化率) 时要选择一个“标准人群”,例如:标准 人口、标准年龄构成,等
• 该标准不可随便选择,一般选用标准的方 法有三种
直接标准化率——标准选取
• 选择一个有代表性的、内部构成相对稳定 的较大人群作为标准;例如全国人口、全 省人口
• 将要比较的两组资料合并后作为共同的标 准
• 将上述频数绘制成频数分布表
某年某社区各年龄居民高血压患病情况
年龄 20~ 30~ 40~ 50~ 60及以上 合计
患病人数 9 13 91
102 12 227
40~与50~年龄段为高血压的高危年龄段!
某年某单位各年龄居民高血压患病情况
年龄 20~ 30~ 40~ 50~ ≥60 合计
调查人数 1045 443 702 637 32 2859
702 657 93.59
妇科 564 492 87.23
591 501 84.77
儿科 329 301 91.49
263 233 88.59
合计 2074 1380 66.54 1885 1495 79.31
4、率的标准化
• 出现这种矛盾现象的原因在于两院不同科室病例 构成不同
• 甲院以内科病例居多,乙院却以外科病例居多, 而外科病例的治愈情况较内科好得多,造成乙院 的治愈人数较多,在合计时乙院的总治愈率高于 甲院
相关文档
最新文档