统计学:计数资料
医学统计学名词解释名解复习资料

1. 总体(population):根据研究目的所确定的同质观察单位的全体。
只包括(确定的时间和空间范围内)有限个观察单位的总体,称为有限总体(finite population)。
假想的,无时间和空间概念的,称为无限总体(infinite population)。
2. (总体)参数(parameter):总体的统计指标或特征值。
总体参数是事物本身固有的、不变的。
3. 样本(sample):从总体中随机抽取的部分个体。
4. 样本含量(sample size):样本中所包含的个体数。
5. 变量(variable):观察对象个体的特征或测量的结果。
由于个体的特征或指标存在个体差异,观察结果在测量前不能准确预测,故称为随机变量(random variable),简称变量(variable)。
变量的取值称为变量值或观察值(observation)。
根据变量的取值特性,分为数值变量和分类变量。
6. 数值变量(Numerical variable):又称为计量资料、定量资料,指构成其的变量值是定量的,其表现为数值大小,有单位。
对每个观察单位用定量的方法测定某项指标的数值,组成的资料。
7. 计数资料:将全体观测单位按照某种性质或特征分组,然后再分别清点各组观察单位的个数。
分类变量(categorical variable):或称定性变量,其取值是定性的,表现为互不相容的类别或或属性,有两种情况:1)无序分类(unordered categories):包括①二项分类,如上述“性别”变量,表现为互相对立的结果;②多项分类,如上述“血型”变量,表现为互不相容的多类结果。
2)有序分类(ordered categories):各类之间有程度上的差别,或等级顺序关系,有“半定量”的意义,亦称等级变量。
等级资料:介于计量资料和计数资料之间的一种资料,通过半定量方法测量得到。
8. 抽样(sampling):从总体中抽取部分观察单位的过程称为抽样。
医学统计学复习资料

医学统计学第一章绪论第一节医学统计学的定义和内容1.医学统计学的主要内容 :统计推断、统计描述第二节统计工作的基本步骤1.医学统计工作可分为四个步骤:统计设计搜集资料整理资料分析资料第三节统计资料的类型医学统计资料按研究指标的性质一般分为:定量资料、定性资料、等级资料一、定量资料(计量资料)定量资料(quantitative data)是用定量的方法测定观察单位(个体)某项指标数值的大小,所得的资料称定量资料。
如身高(㎝)、体重(㎏)、脉搏(次/分)、血压(kPa,mmHg)等为数值变量,其组成的资料为定量资料。
二、定性资料(计数资料)定性资料(qualitative data)是将观察单位按某种属性或类别分组,清点各组的观察单位数,所得的资料。
亦称无序分类资料。
如:男-女分组;中医的虚、实,阴、阳等分组;按生存-死亡分组;A、B、O、AB分组。
三、等级资料等级资料(ranked data)是将观察单位按属性的等级分组,清点各组的观察单位数,所得的资料为等级资料。
亦称有序分类资料。
如治疗结果分为治愈、显效、好转、无效四个等级。
:疾病的严重程度可以分为,轻、中、重;中医辨证中舌象的颜色有,淡、红、暗、紫。
♦根据需要,各类变量可以互相转化。
♦若按贫血的诊断标准将血红蛋白分为四个等级:重度贫血、中度贫血、轻度贫血、正常,可按等级资料处理。
有时亦可将定性资料或等级资料数量化,如将等级资料的治疗结果赋以分值,分别用0、1、2…等表示,则可按定量资料处理。
第四节统计学中的几个基本概念一、同质与变异同质(homogeneity)是指观察单位或研究个体间被研究指标的主要影响因素相同或基本相同。
如研究儿童的生长发育,同性别、同年龄、同地区、同民族、健康的儿童即为同质儿童。
变异(variation)由于生物个体的各种指标所受影响因素极为复杂,同质的个体间各种指标存在差异,这种差异称为变异。
如同质的儿童身高、体重、血压、脉搏等指标会有一定的差别。
常用统计学方法ppt课件

三、率(构成比)的统计分析
两样本率或构成比的比较用四格表2 配对设计时用配对2 多组率或构成比比较用行×列2
四格表2检验
1.当n≥40,且T≥5时,直接计算 2值
基本公式 χ2=
(A-T)2 ∑─────
T
专用公式
( a d-b c ) 2 n χ2= ───────────
(a+b)(c+d)(a+c)(b+d)
学习内容:
一、研究资料类型 二、均数的统计分析 三、率(构成比)的统计分析
一、研究资料类型
➢ 计量资料 ➢ 计数资料 ➢ 等级资料
计量资料:用定量方法对每个观察 单位某指标测量数值大小的资料。
常用表达方法:±s 常用统计方法:t检验
u检验 方差分析
计数资料:将观察单位按属性分组, 清点各观察单位个数的资料。 常用表达方法:率、百分构成等 常用统计方法:2检验
➢ 对同一受试对象分别给予两种处理, 推断两种处理效果有无差别;
➢ 对同一受试对象处理前、后比较,推 断该处理有无作用。
t检验:
样本均数与总体均数比较(P106); 配对设计计量资料比较(P107); 两样本均数比较(P108)。
u检验:
两大样本均数比较(P109)
方差分析(ANOVA):
多个样本均数比较(P109)
等级资料:将观察单位按属性的 不同程度分组,再清点各观察单 位个数的资料。 常用统计方法:秩和检验等
二、均数的统计分析
➢ 成组设计:
两小样本均数比较用t检验;
两大样本均数比较用u检验; 三个以上样本均数比较用方差分析。 对同对和两个受试对象分别给予两种 处理,推断两种处理效果有无差别;
2.当n≥40,且有1≤T<5时,计算校正的 2值
统计学必考

统计学(Statistics):运用概率论、数理统计的原理与方法,研究数据的搜集;分析;解释;表达的科学。
总体(population):大同小异的研究对象全体。
更确切的说,总体是指根据研究目的确定的、同质的全部研究单位的观测值。
样本(sample):来自总体的部分个体,更确切的说,应该是部分个体的观察值。
样本应该具有代表性,能反映总体的特征。
利用样本信息可以对总体特征进行推断。
抽样误差(sampling error)在抽样过程中由于抽样的偶然性而出现的误差。
表现为总体参数与样本统计量的差异,以及多个样本统计量之间的差异。
可用标准误描述其大小。
标准误(Standard Error) 样本统计量的标准差,反映样本统计量的离散程度,也间接反映了抽样误差的大小。
参数估计:指用样本指标值(统计量)估计总体指标值(参数)。
参数估计有两种方法:点估计和区间估计。
区间估计(interval estimation):将样本统计量与标准误结合起来,确定一个具有较大臵信度的包含总体参数的范围,该范围称为臵信区间(confidence interval,CI),又称可信区间。
频数表(frequency table)用来表示一批数据各观察值或在不同取值区间的出现的频繁程度参考值范围描述绝大多数正常人的某项指标所在范围;正态分布法(标准差)、百分位数法,参考值范围用于判断某项指标是否正常置信区间:在统计学中,一个概率样本的置信区间(Confidence interval)是对这个样本的某个总体参数的区间估计。
置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。
给出的是被测量参数的测量值的可信程度。
完全随机设计(completely random design):完全随机设计仅涉及一个处理因素(但可为多水平),故又称单因素(one-way)设计。
它是将受试对象按随机化的方法分配到各个处理组中,观察实验效应,临床试验中的随机对照试验也属于此类设计。
《卫生统计学》考试题及答案

《卫生统计学》一、名词解释1. 计量资料2. 计数资料3. 等级资料4. 总体5. 样本6. 抽样误差7. 频数表8. 算术均数9. 中位数10. 极差11. 方差12. 标准差13. 变异系数14. 正态分布15. 标准正态分布16. 统计推断17. 抽样误差18. 标准误19. 可信区间20. 参数估计21. 假设检验中P的含义22. I型和II型错误23. 检验效能24. 检验水准25. 方差分析26. 随机区组设计27. 相对数28. 标准化法29. 二项分布30. Yates校正31. 非参数统计32. 直线回归33. 直线相关34. 相关系数35. 回归系数36. 人口总数37. 老年人口系数38. 围产儿死亡率39. 新生儿死亡率40. 婴儿死亡率41. 孕产妇死亡率42. 死因顺位43. 人口金字塔二、单项选择题1.观察单位为研究中的( D )。
A.样本 B.全部对象C.影响因素 D.个体2.总体是由( C )。
A.个体组成 B.研究对象组成C.同质个体组成 D.研究指标组成3.抽样的目的是( B )。
A.研究样本统计量 B.由样本统计量推断总体参数C.研究典型案例研究误差 D.研究总体统计量4.参数是指( B )。
A.参与个体数 B.总体的统计指标C.样本的统计指标 D.样本的总和5.关于随机抽样,下列那一项说法是正确的( A )。
A.抽样时应使得总体中的每一个个体都有同等的机会被抽取B.研究者在抽样时应精心挑选个体,以使样本更能代表总体C.随机抽样即随意抽取个体D.为确保样本具有更好的代表性,样本量应越大越好6.各观察值均加(或减)同一数后( B )。
A.均数不变,标准差改变 B.均数改变,标准差不变C.两者均不变 D.两者均改变7.比较身高和体重两组数据变异度大小宜采用( A )。
A.变异系数 B.方差C.极差 D.标准差8.以下指标中( D )可用来描述计量资料的离散程度。
医学统计学名词解释 (1)

1.统计学(Statistics):运用概率论、数理统计的原理与方法,研究数据的搜集;分析;解释;表达的科学2.医学统计学:是以医学理论为指导,借助统计学的原理和方法研究医学现象中的数据搜集、整理、分析和推断的一门综合性学科。
3.变量:是指观察个体的某个指标或特征,统计上习惯用大写拉丁字母表示4.同质:是指事物的性质、影响条件或背景相同或相近。
5.变异:是指同质的个体之间的差异6.总体:总体(population)是根据研究目的确定的同质的观察单位的全体,更确切的说,是同质的所有观察单位某种观察值(变量值)的集合。
总体可分为有限总体和无限总体。
总体中的所有单位都能够标识者为有限总体,反之为无限总体。
7.样本:从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample)。
样本应具有代表性。
所谓有代表性的样本,是指用随机抽样方法获得的样本。
8.参数:参数(paramater)是指总体的统计指标,如总体均数、总体率等。
总体参数是固定的常数。
多数情况下,总体参数是不易知道的,但可通过随机抽样抽取有代表性的样本,用算得的样本统计量估计未知的总体参数。
9.统计量:统计量(statistic)是指样本的统计指标,如样本均数、样本率等。
样本统计量可用来估计总体参数。
总体参数是固定的常数,统计量是在总体参数附近波动的随机变量。
10.随机抽样:随机抽样(random sampling)是指按照随机化的原则(总体中每一个观察单位都有同等的机会被选入到样本中),从总体中抽取部分观察单位的过程。
随机抽样是样本具有代表性的保证。
11.变异:在自然状态下,个体间测量结果的差异称为变异(variation)。
变异是生物医学研究领域普遍存在的现象。
严格的说,在自然状态下,任何两个患者或研究群体间都存在差异,其表现为各种生理测量值的参差不齐。
12.计量资料:对每个观察单位用定量的方法测定某项指标量的大小,所得的资料称为计量资料。
生物统计学 第二章 资料的整理

1.6 划线归组,作次数分布表
资料的整理
规律:螭(chi)霖体长变异范围在7-16;大部分数据集中在9-13; 分布的中心趋向11.5;两头小、中间大的分布趋势。
资料的整理
2.间断性资料(计数资料)的次数分布表 单向分组法进行整理。常用变量的自然数值进 行分组,每组用一个变量值表示。然后把各个观察 值归入相应的组内。
资料的整理
1.5 确定组限 组下限=组中值-1/2组距;组上限=组中值 +1/2组距。本题:第一组下限=7.5-1/2*1=7,上 限7.5+1/2*1=8,所以,本题的分组为7-8;8-9; 9-10;…。 约定:当各组上限为整数时减去0.1,一位小 数时减去0.01; 本资料的分组可改写为7-7.9;88.9;…;这个样可解决临界值‘8’的分组归属。 这样8就归为第二组。
资料的整理
圆形图 用于表示计数资料、质量性状资料或半 定量资料的构成比例。 图1.某渔场鱼苗放养情况 鲢鱼 鲤鱼 鳜鱼 草鱼
524
351
126
438
资料的整理
线图
用于表示事物或现象随时间而变化发展的情况
资料的整理
多边形图 用于表示连续性资料的次数分布。横 轴表示组中值,纵轴表示次数。
30 25
资料的整理
资料的整理
2、统计图 直观清楚的表示数据分布规律,常用于PPT等报告。 2.1 基本要求 标题简明扼要,列于图的下方。 纵、横两轴应有刻度,注明单位。 横轴由左至右、纵轴由下而上,数值由小到大。 图中需用不同颜色或线条代表不同事物时,应有
图例说明。
资料的整理
2.2 范例 长条图 展示某一指标划分属性种类或等级的次数 或频数分布。
样本含量(n) 10—100 100—200 200—500 500以上 组 数 7—10 9—12 12—17 17—30
第6版卫生统计学考试复习题参考答案

中南大学现代远程教育课程考试复习题及参考答案《卫生统计学》一、名词解释1.计量资料2.计数资料3.等级资料4.总体5.样本6.抽样误差7.频数表8.算术均数9.中位数10.极差11.方差12.标准差13.变异系数14.正态分布15.标准正态分布16.统计推断17.抽样误差18.标准误19.可信区间20.参数估计21.假设检验中P的含义22.I型和II型错误23.检验效能24.检验水准25.方差分析26.随机区组设计27.相对数28.标准化法29.二项分布30.Yates校正31.非参数统计32.直线回归33.直线相关34.相关系数35.回归系数36.人口总数37.老年人口系数38.围产儿死亡率39.新生儿死亡率40.婴儿死亡率41.孕产妇死亡率42.死因顺位43.人口金字塔二、单项选择题1.观察单位为研究中的( )。
A.样本B.全部对象C.影响因素D.个体2.总体是由()。
A.个体组成B.研究对象组成C.同质个体组成D.研究指标组成3.抽样的目的是()。
A.研究样本统计量B.由样本统计量推断总体参数C.研究典型案例研究误差D.研究总体统计量4.参数是指()。
A.参与个体数B.总体的统计指标C .样本的统计指标D . 样本的总和 5.关于随机抽样,下列那一项说法是正确的( )。
A .抽样时应使得总体中的每一个个体都有同等的机会被抽取 B .研究者在抽样时应精心挑选个体,以使样本更能代表总体 C .随机抽样即随意抽取个体D .为确保样本具有更好的代表性,样本量应越大越好 6.各观察值均加(或减)同一数后( )。
A .均数不变,标准差改变B .均数改变,标准差不变C .两者均不变D .两者均改变 7.比较身高和体重两组数据变异度大小宜采用( )。
A .变异系数 B .方差 C .极差 D .标准差8.以下指标中( )可用来描述计量资料的离散程度。
A .算术均数 B .几何均数 C .中位数 D .标准差9.血清学滴度资料最常用来表示其平均水平的指标是( )。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
10
110
10.0
36.7
内部构成不同时,如需比较两个总率,可以用标准化法 标准化法的基本思想:采用统一的标准构成以消除构成 不同对总率的影响,使通过标准化后的标准化总率具有 可比性。
治疗分组 成人组 儿童组 合计
旧疗法 治疗人数 痊愈人数 治愈率% 100 200 300 50 20 70 50.0 10.0 23.3 200 100 300
死因构成
死因顺位
死亡原因 构成比(%) 死因顺位
恶性肿瘤
脑血管病 心脏病 呼吸系统 损伤与中毒
24.93
20.41 17.61 13.36 5.87
1
2 3 4 5
(二)率、频率
说明某种现象发生的机会大小的指标。
计算:率
该现象实际发生数 比例基数 可能发生某现象的总数
比例基数(k)可以是100%、1000‰、10000/万、 100000/10万等。
各构成比之间相互制约,某一组成部分数量的 变化会使所有组成部分的构成比都改变。
计算:
被观察事物内部某一组成部分的观察单位数 100% 同一事物各组成部分的观察单位总数
例:计算下表中各种疾病病人数占总病人数的构成比
疾病名称 痢疾 肝炎 流脑 麻疹 其它 合计
发病人数 3685 2111 522 411 850 7579
1949 年死亡率 3.3 死亡率之比 33倍 1980 年死亡率 0.1
(四)动态数列
按照一定的时间顺序,将某事物的统计指标依次排列起来, 便于观察和比较该事物在时间上的发展变化趋势。
年份 (1) 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 符号 (2) a0 a1 a2 a3 a4 a5 a6 a7 a8 a9 学生 人数 (3) 4200 4500 4800 4900 5150 5320 5510 5780 5950 6000 绝对增长量 累计 逐年 (4) (5) --300 600 700 950 1120 1310 1580 1750 1800 300 300 100 250 170 190 270 170 50 发展速度(%) 定基比 环比 (6) (7) 100.0 100.0 107.1 114.3 116.7 122.6 126.7 131.2 137.6 141.7 142.9 107.1 106.7 102.1 105.1 103.3 103.6 104.9 102.9 100.8 增长速度(%) 定基比 环比 (8) (9) --7.1 14.3 16.7 22.6 26.7 31.2 37.6 41.7 42.9 7.1 6.7 2.1 5.1 3.3 3.6 4.9 2.9 0.8
同年死于某种疾病的人数 100000 / 10万 某年平均人口数
同期因该病死亡人数 100% 观察期间内某病患者数
某病死亡率
某病病死率
例:某地年平均人口数为1000000,计算下 表中各种传染病的发病率
疾病名称 发病人数 发病率(1/10万)
痢疾
肝炎 流脑
3685
2111 522
368.5
211.1 52.2
SP
95%可信区间:p±1.96SP= 25%±1.96×1.53%
22.0%~28.0%
99%可信区间:p±2.58SP= 25%±2.58×1.53% 21.1%~28.9% 如果按最多需要量准备,则需10000×0.289=2890份药物。
(三)率的z 检验
计数资料的假设检验是为了比较两个相对数是否来 自同一总体。通过比较两个样本率(构成比)去推 论其总体率(构成比)是否相同。 对率进行z 检验需满足: 样本量N不太小,P不太接近0或1 np>5且n(1-p)>5
畸形儿例数
构成%
1
2
14
19
16.4
24
20.7
18
15.5
19
16.4
13
11.2
3
2.6
1
0.86
1
0.86
1
0.86
116
100.0
0.86 1.70 12.1
2. 计算相对数时分母不宜过小
例:“某医师收治了4名风湿性关节炎患者,用秘方治疗 一年后患者病情明显好转,则该医生用祖传秘方治疗风湿 性关节炎的有效率为100%”,这种说法是否正确?为什么?
3. 正确计算平均率(总率) 所有组分子之和除以所有组分母之和 例:P49表5.4
4. 两个相对数比较时,注意可比性
治疗分组 成人组
旧疗法
治疗人数 痊愈人数 治愈率% 100 50 50.0 200
新疗法
治疗人数 痊愈人数 治愈率% 100 50.0
儿童组
合计
200
300
20
70
10.0
23.3
100
n1 p1 n2 p2 pc n1 n2
qc 1 pc
某研究调查了5000名服用口服避孕药的40~44岁妇女,3 年内有13人发生心肌梗塞;另调查10000名没有服用口服避 孕药的40~44岁妇女,3年内有7人发生心肌梗塞,口服避 孕药对40~44岁妇女发生心肌梗塞是否有影响?
麻疹 其它 合计
411 850 7579
41.1 85.0 757.9
注意计算构成比 和率的不同。
痢疾发病人数 痢疾发病率 100000/ 10万 年平均人口数
3685 100000/ 10万 368.5 / 10万 1000000
(三)相对比
定义:两个有联系的同类指标之比。
计算:
常用率指标:
发病率、患病率、漏诊率、误诊率、治愈率、死亡 率、病死率等。
发病率
同期内新发生某病的病例数 k 观察期内可能发生某病的平均人口数
(时点)患病率
检查时发现的某病现患病例数 k 该时点受检人口数
治愈病人数 100% 接受治疗人数
治愈率
(粗)死亡率
同年死亡总数 1000 ‰ 某年总人口数
例:某社区共有10000人。现随机抽检居民800人的粪便中, 蛔虫阳性200人,如在全社区进行驱虫治疗,需准备多少 份药物?(求蛔虫阳性率的95%或99%可信区间)
P 蛔虫阳性人数 200 100% 100% 25% 检查总人数 800
P(1 P) 0.25 (1 0.25) 1.53% n 800
(一)率的抽样误差与标准误
由于抽样的原因造成的样本率与总体率之间的差 别,叫做率的抽样误差。 样本率的抽样误差的大小用率的 标准误 表示
标准误越小,抽样误差越小,用样本率估计总体 率的可靠性越大。
计算方法
P
(1 )
n
SP
p(1 p) n
pq n
例:某市为了解已婚妇女子宫颈癌的患病情况进行抽样调查, 随机抽取了2000人,患者80例。试求此患病率的标准误。
3.58>1.96,P<0.05,拒绝H0,接受H1,差别有显著性,两总 体率不相等,老年溃疡病患者与一般患者胃出血发生率不同。
0 1 0
当样本量太小,或P接近0或1时,样本率不服从正态 分布,此时可以直接计算概率。
例:某微生物制品的企业标准是有害微生物感染不得 超过1%(0)。现从一批产品中随机抽出100件 (n),发现有害微生物感染的产品有3件(X)。问 这批产品是否合格?
(五)应用相对数的注意事项
1. 区别率和构成比
例:某产院拟分析畸形儿与母亲分娩年龄的关系,检查 了新生儿4470例,畸形儿116例,得以下资料,据此得 出结论:“母亲年龄在25~28岁时,畸形儿发生率最 高”,以上结论是否合理?为什么
母亲年龄 21 23 24 25 26 27 28 29 30 31 32 33 合计
50
20 70
甲组:标化率23.3%,乙组:标准化率23.3%
标准化法的注意事项 (1)标化率不能反映实际水平,只能用于比较。
(2)选用标准不同,标化率会改变,但比较结果 只能有一个,不能改变。
(3)对于标化率,也要作显著性检验。
三、 计数资料的统计推断
样本
总体
(样本率、样本构成)
(总体率、总体构成)
构成比(%) 48.6 27.9 6.9 5.4 11.2 100.0
痢疾构成比 = 痢疾发病人数/总人数×100% = 3685/7579×100% = 48.6%
人口构成
老年系数:
65岁及以上人口数 100% 总人口数
老龄化人口: 老年系数超过10% (发达国家为60岁及以上人口比重超过10%)
H0:该批产品合格,即该批产品有害微生物感染率为1% H1:该批产品不合格,即该批产品有害微生物感染率超过1% =0.05
本例,n=100,X=3<5,不满足近似正态分布的条件,不能 用正态分布来近似。可以直接计算H0成立的情况下,得到至 少发生3例的概率P。 P =P(X≥3)=1-P(X<3)=1-(P(X=0)+P(X=1)+P(X=2)) =1-[(1-0.01)100+C1100×0.01×(1-0.01)99+C2100×0.012×(1-0.01)98]
P
发生某现象的观察单位数 80 100% 100% 4% 可能发生该现象的观察单位数 2000
SP
p(1 p) 4% (1 4%) 0.44% n 2000
(二) 总体率的估计
用样本率P估计总体率π 95%(或99%)可信区 间。
样本量N不太小,P不太接近0或1,np>5且n(1p)>5时,样本率近似正态分布。此时总体率的 可信区间为: P±zαSP