计数资料的_统计学处理
统计学方法常用的检验指标

统计学方法常用的检验指标
统计学方法常用的检验指标包括:
1. t 检验:用于样本数据来自两个或多个总体,要求两边的总体均值相等时使用。
通常用来分析两个群体的差异情况是否具有统计学意义,这种应用属于单因素非重复性设计分析。
当参数模型的分布没有改变的时候就可以用这个办法去检查差别有无显著性存在,它是假设每个变量(总体)在任何条件下都应该是一样大(或者一样小)。
2. 卡方检验:是一种用途很广的计数资料的假设检验方法,它属于非参数检验的范畴。
该方法适用于分类资料的整体检验和某些类型的分组资料的比较。
当观察值不连续时,可用此方法进行统计推断。
如果对两类观察值间是否有差别有怀疑时可使用此方法。
3. 相关系数r:用于度量两个变量之间线性关系强度和方向的统计分析指标。
当需要反映两个一元变量之间的相关程度时,可以用计算的相关系数来加以描述。
正相关的值为正数,可以理解为增加多少;负相关的值为负数,可以理解为减少多少。
4. F检验:主要用于检验一个因变量的变化是否来自于其因子水平的变动所造成
的差异。
这个检验是在回归方程中进行多重共线性处理的必要步骤之一。
5. 符号秩检定:是用实际观测数据对于某一假定状态的关系作确定性判断的一种估计反应方式,可以判断组间的差异。
常被应用于趋势方面的比较研究,它的结论不能绝对化,只是能体现一种方向性的差异表现出的特点,有实际的应用意义
这些是统计学中常用的主要检验指标,它们在不同的研究中发挥着不同的作用。
具体选择哪种检验指标需要根据研究的实际情况来确定。
医学统计学复习资料

医学统计学第一章绪论第一节医学统计学的定义和内容1.医学统计学的主要内容 :统计推断、统计描述第二节统计工作的基本步骤1.医学统计工作可分为四个步骤:统计设计搜集资料整理资料分析资料第三节统计资料的类型医学统计资料按研究指标的性质一般分为:定量资料、定性资料、等级资料一、定量资料(计量资料)定量资料(quantitative data)是用定量的方法测定观察单位(个体)某项指标数值的大小,所得的资料称定量资料。
如身高(㎝)、体重(㎏)、脉搏(次/分)、血压(kPa,mmHg)等为数值变量,其组成的资料为定量资料。
二、定性资料(计数资料)定性资料(qualitative data)是将观察单位按某种属性或类别分组,清点各组的观察单位数,所得的资料。
亦称无序分类资料。
如:男-女分组;中医的虚、实,阴、阳等分组;按生存-死亡分组;A、B、O、AB分组。
三、等级资料等级资料(ranked data)是将观察单位按属性的等级分组,清点各组的观察单位数,所得的资料为等级资料。
亦称有序分类资料。
如治疗结果分为治愈、显效、好转、无效四个等级。
:疾病的严重程度可以分为,轻、中、重;中医辨证中舌象的颜色有,淡、红、暗、紫。
♦根据需要,各类变量可以互相转化。
♦若按贫血的诊断标准将血红蛋白分为四个等级:重度贫血、中度贫血、轻度贫血、正常,可按等级资料处理。
有时亦可将定性资料或等级资料数量化,如将等级资料的治疗结果赋以分值,分别用0、1、2…等表示,则可按定量资料处理。
第四节统计学中的几个基本概念一、同质与变异同质(homogeneity)是指观察单位或研究个体间被研究指标的主要影响因素相同或基本相同。
如研究儿童的生长发育,同性别、同年龄、同地区、同民族、健康的儿童即为同质儿童。
变异(variation)由于生物个体的各种指标所受影响因素极为复杂,同质的个体间各种指标存在差异,这种差异称为变异。
如同质的儿童身高、体重、血压、脉搏等指标会有一定的差别。
定性资料常用的统计学方法

定性资料常用的统计学方法一、χ2检验χ2检验(chi-square test)是一种主要用于分析分类变量数据的假设检验方法,该方法主要目的是推断两个或多个总体率或构成比之间有无差别。
(一)四格表资料的χ2检验例17:为了解吲达帕胺片治疗原发性高血压的疗效,将70名高血压患者随机分为两组,试验组用吲达帕胺片加辅助治疗,对照组用安慰剂加辅助治疗,观察结果见表4 -5-1,试分析吲达帕胺片治疗原发性高血压的有效性。
表4 -5-1 两种疗法治疗原发性高血压的疗效1.四格表χ2检验的原理:对于四格表资料,χ2检验的基本公式为:式中,A为实际频数(actual frequency),T为理论频数(theoreticalfrequency)。
理论频数T根据检验假设H0:π1=π2确定,其中π1和π2分别为两组的总体率。
计算理论频数T的公式为:式中Tij 为第i行第j列的理论频数,ni+和n+j分别为相应行与列的周边合计数,n为总例数。
现以例17为例说明χ2检验的步骤:(1)建立检验假设并确定检验水准。
H0:π1=π2,即试验组与对照组的总体有效率相等H1:π1≠π2,即试验组与对照组的总体有效率不等α=0.05(2)计算检验统计量。
按式(4 -5-2)计算T11,然后利用四格表的各行列的合计数计算T12、T21和T22,即T11=(44×41)/70=25.77,T12=44-25.77=18.23T21=41-25.77=15.23,T22=26-15.23=10.77按式(4 -5-3)计算χ2值(3)确定P值,作出推断结论。
以ν=1查χ2分布界值表,得P<0.005。
按α=0.05水准,拒绝H,接受H1,可以认为两组治疗原发性高血压的总体有效率不等,即可以认为吲达帕胺片治疗原发性高血压优于对照组。
2.四格表资料χ2检验的专用公式:在对两样本率比较时,当总例数n≥40且所有格子的T≥5时,可用χ2检验的通用公式(4 -5-1)。
护理科研中常用的统计学方法讲述

两独立样本t检验:方差齐性(两正态总体,总体 方差相等)
适用情形:完全随机设计的两样本均数比较
数据要求:两组数据均呈正态分布
南京中医药大学护理学院
29
参数检验:计量资料
t 检验
两独立样本t检验:方差齐性(两正态总体,总体 方差相等)
例:一项研究太极拳锻炼对于高血压患者干预效果的临床试 验,纳入研究对象400人,完成随机化分组和基线值测量, 试验组204人,对照组196人,在干预3个月后,比较干预后 血压情况。
重复测量方差分析
南京中医药大学护理学院
8
应用举例:
某医师欲比较物理疗法和药物疗法治疗周围性面神经麻痹
的疗效,资料见下表,问两种疗法的有效率有误差别?
组别 物理 疗法 药物 疗法 合计 有效 99 75 174 无效 5 21 26 合计 104 96 200 有效率(%) 95.20 78.13 87.00
Spearman 相关:双变量不呈正态分布
回归:线性回归:因变量为计量资料
Logistic 回归:因变量为二分类变量(阳性、阴性) Ordinal 有序回归:因变量为等级资料 南京中医药大学护理学院
16
统计推断基本方法
参数估计 计量资料:t检验,方差分析 计数资料:卡方检验 非参数估计(秩和)检验 配对,两独立样本,多独立样本,随机区组 相关和回归 相关:Pearson 相关:双变量均呈正态分布
三组战士行军后体温增加数(℃)
不饮水 定量饮水 不限量饮水 1.9 1.4 0.9 1.8 1.2 0.7 1.6 1.1 0.9 1.7 1.4 1.1 1.5 1.1 0.9 1.6 1.3 0.9 1.3 1.1 0.8 1.4 1.0 1.0
统计学必考

统计学(Statistics):运用概率论、数理统计的原理与方法,研究数据的搜集;分析;解释;表达的科学。
总体(population):大同小异的研究对象全体。
更确切的说,总体是指根据研究目的确定的、同质的全部研究单位的观测值。
样本(sample):来自总体的部分个体,更确切的说,应该是部分个体的观察值。
样本应该具有代表性,能反映总体的特征。
利用样本信息可以对总体特征进行推断。
抽样误差(sampling error)在抽样过程中由于抽样的偶然性而出现的误差。
表现为总体参数与样本统计量的差异,以及多个样本统计量之间的差异。
可用标准误描述其大小。
标准误(Standard Error) 样本统计量的标准差,反映样本统计量的离散程度,也间接反映了抽样误差的大小。
参数估计:指用样本指标值(统计量)估计总体指标值(参数)。
参数估计有两种方法:点估计和区间估计。
区间估计(interval estimation):将样本统计量与标准误结合起来,确定一个具有较大臵信度的包含总体参数的范围,该范围称为臵信区间(confidence interval,CI),又称可信区间。
频数表(frequency table)用来表示一批数据各观察值或在不同取值区间的出现的频繁程度参考值范围描述绝大多数正常人的某项指标所在范围;正态分布法(标准差)、百分位数法,参考值范围用于判断某项指标是否正常置信区间:在统计学中,一个概率样本的置信区间(Confidence interval)是对这个样本的某个总体参数的区间估计。
置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。
给出的是被测量参数的测量值的可信程度。
完全随机设计(completely random design):完全随机设计仅涉及一个处理因素(但可为多水平),故又称单因素(one-way)设计。
它是将受试对象按随机化的方法分配到各个处理组中,观察实验效应,临床试验中的随机对照试验也属于此类设计。
统计学习题及答案(完整)2

第一部分计量资料的统计描述一、最佳选择题1、描述一组偏态分布资料的变异度,以()指标较好。
、全距B、标准差C、变异系数D、四分位数间距E、方差2.用均数和标准差可以全面描述()资料的特征。
.正偏态分布B.负偏态分布C.正态分布.对称分布E.对数正态分布3.各观察值均加(或减)同一数后()。
.均数不变,标准差改变B.均数改变,标准差不变.两者均不变D.两者均改变E.以上都不对4.比较身高和体重两组数据变异度大小宜采用()。
.变异系数B.方差C.极差D.标准差E.四分位数间距5.偏态分布宜用()描述其分布的集中趋势。
.算术均数B.标准差C.中位数D.四分位数间距E.方差6.各观察值同乘以一个不等于0的常数后,()不变。
.算术均数B.标准差C.几何均数D.中位数E.变异系数7.()分布的资料,均数等于中位数。
A.对数正态B.正偏态C.负偏态D.偏态E.正态8.对数正态分布是一种()分布。
(说明:设X变量经Y=lgX变换后服从正态分布,问X变量属何种分布?).正态B.近似正态C.左偏态D.右偏态E.对称9.最小组段无下限或最大组段无上限的频数分布资料,可用()描述其集中趋势。
.均数B.标准差C.中位数D.四分位数间距E.几何均数10.血清学滴度资料最常用来表示其平均水平的指标是()。
.算术平均数B.中位数C.几何均数D.变异系数E.标准差二、简答题1、对于一组近似正态分布的资料,除样本含量n外,还可计算,S和,问各说明什么?2、试述正态分布、标准正态分布及对数正态分布的某单位1999年正常成年女子血清联系和区别。
甘油三酯(mmol/L)测量结果3、说明频数分布表的用途。
4、变异系数的用途是什么?组段频数5、试述正态分布的面积分布规律。
0.6~ 1.7~ 3三、计算分析题0.8~ 91、根据1999年某地某单位的体检资料,116名正常0.9~ 13 成年女子的血清甘油三酯(mmol/L)测量结果如右表, 1.0~ 19请据此资料: 1.1~ 25 (1)描述集中趋势应选择何指标?并计算之。
医学统计学等级资料的秩和检验

在某些情况下,可以排除异常值以提高检验的稳定性。但应谨慎处理,确保不会排除对 总体分布有重要影响的值。
稳健统计方法
采用稳健统计方法可以在一定程度上减少异常值对检验结果的影响,如使用中位数、众 数等稳健统计量进行秩和检验。
06
秩和检验的展望
秩和检验的发展趋势
广泛应用
秩和检验作为一种非参数统计方法,在医 学、生物学、环境科学等秩和,判断 两组数据的优劣或差异性,从而 进行假设检验。
适用范围
适用于等级资料和连续变量资料, 尤其适用于小样本和不服从正态 分布的数据。
秩和检验的步骤
01
数据整理
对等级资料进行排序,并赋予相应 的秩。
确定检验统计量
根据秩和计算出检验统计量,如Z值、 H值等。
03
02
计算秩和
在蛋白质组学研究中,秩和检验 用于分析蛋白质表达水平在不同 样本之间的差异。
在其他领域的应用
环境卫生研究
在环境卫生研究中,秩和检验用于评估不同暴露水平对健康的影响。
心理学研究
在心理学研究中,秩和检验用于比较不同干预或实验条件下的心理状态或行为差异。
05
秩和检验的注意事项
样本量的问题
样本量过小
当样本量过小时,无法充分反映总体分布情况,可能导致 检验结果不准确。
等级资料
按照事物的属性特征进行等级划分所得的数据,如 疗效评价中的治愈、显效、好转、无效等。
计量资料
通过度量衡等方法获得的数据,如身高、体重等。
等级资料的特点
有序性
等级资料具有有序性,不同等级之间存在一定的顺序 关系。
差异性
不同等级之间存在差异,同一等级内的数据具有相似 性。
相对性
常见的几种统计方法

注意:
(1)不同类型的资料采用的统计分 析方法不同;
(2)三类资料类型可以相互转化。
例:某地调查高血压的患病情况。
每人的血压:以mmHg计
计量资料
以舒张压≥90mmHg为高血压,结果在1000
人中有10名高血压患者,990名非高血压患
者,整理后的资料
计数
按低血压、正常、高血压分
资料
组所得资料。
等级资料
60年代到80年代,国外医学杂志调查表明:20%~72%的论文有 统计错误。
1984年对《中华医学杂志》、《中华内科杂志》、《中华外科 杂志》、《中华妇产科杂志》、《中华儿科杂志》595篇论文的调查 结果为:
相对数误用占 11.2%,抽样方法误用占15.9%,统计图表误用占 11.7%
1996年对4586篇论文统计(中华医学会系列杂志占6.9%),数 据分析方法误用达55.7%。
2001年《中华预防医学杂志》:中华医学会系列杂志误用约54% (1995)。
伪造统计数据违反科学道德
➢ 1976年New Science 杂志关于科研舞弊 行为的调查
(1)74%的调查表反映有不正当修改数据 的情况
(2)17%拼凑实验结果 (3)7%凭空捏造数据 (4)2%故意曲解结果
二、统计工作的基本步骤
四、统计学中的基本概念
(一)总体与样本
1、总体(population)
根据研究目的所确定的同质的所有
观察单位某项变量值的集合。
有关总体的三个要点:
研究目的、同质的、全体
例如:了解某地2002年正常成人白细胞数 目的:了解某地2002年正常成人白细胞数 观察对象:该地2002年全部正常成人 观察单位:每个人
2
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
病例数 52 33 10 5
100
2.按两个因素交叉分组的频数表
不同用药与疗效的关系
分组
疗效(Y)
(X) 有效数 无效数 合计
用A药组 20
30
50
用B药组 10
40
50
3.两个以上因素交叉分组的频数表
不同用药、性别与疗效的比较
男
女
用药 有效 无效 有效 无效
用A药组 20
10
用B药组 10
15
发展速度与增长速度
• 相对比,说明事物在一定时期内的变化速度 • 发展速度:定基比—报告期与基期之比
环比—报告期与前一期之比 • 增长速度:定基比增长速度,环比增长速度 • 增长速度=发展速度-1
• 平均发展速度:各环比发展速度的几何平均 数,表示逐期平均发展的速度
• 平均增长速度:各环比增长速度的平均数, 表示逐期平均增长的速度
10
10
11
14
反映用药与疗效、性别与疗效的关系。
4. 等级资料的频数表
治疗结果
治愈 好转 无效 恶化 合计
某药物疗效的频数表
频数 频率% 累计频数 累计频率%
43 43.3
43
43.3
30 30.3
73
73.6
17 16.7
90
90.0
10 10.0
100
100.0
100 100.0
——
——
二、计数资料的统计描述
除研究因素外,其余的重要因素应相同或相近。 • 对象性质,研究方法,观察时间及环境条件等方面的可
比性 • 两个合计(总)率的比较,其内部构成必须相同或相近
。否则,各组成部分分别比较或对内部构成进行标准化 处理
两种疗法疗效比较
治疗 分组
成人组 儿童组 合计
旧疗法
治疗人数 治愈人数
强度相对数的特点 • 分子是发生某现象的观察单位数,分母是可能
发生某现象的观察单位总数 • 比例基数:习惯;便于阅读;便于比较
3.相对比(ratio):反映指标间的相对水平 ,即增加了/增加到、减少了/减少到、一 成/两番
年度 (1) 2003 2004
2005 2006 2007 2008 合计
表 2003~2008年某地损伤、 中毒病死率(%)与构成比(%)
发病人数 (2) 584
571
病死人数 (3) 8
10
病死率 (4) 1.37
1.75
构成比 (5)
8.8
11.0
相对比 (6) ——
1.28
714
12
1.68
13.2
1.23
748
16
2.14
17.6
1.56
942
21
2.23
23.0
1.631095242.1926.4
1.60
4654
91
1.96
100.0
——
根据表(4)栏分析:2003年~2008年间损伤与中毒
病死率呈逐年上升趋势,2008年略有下降
根据表(5)栏可见,03年病死数占病死总数的比
重最小,而08年所占比重最大
根据表(6)栏可见:以03年为基数,以后各年度
(二)统计表和统计图
12 10
8 6 4 2 0
血压
心率 心电图
表 四项检测指标异常检出率
指标 血压 心率 心电 图 血糖
受检人数异常人数 检出率(%)
100
10
10.0
100
5
5.0
100
7
7.0
100
4
4.0
血糖
检出率(%)
图 四项生理指标异常检出率
表 某年某地1560例后天性聋哑病因构成情况
病名
高烧抽风 传染病 中耳炎 脑膜炎 其它 合计
例 数 百分比(%)
434
264 193 101 568 1560
27.8
16.9 12.4
6.5 36.4 100.0
图 某地1560例后天性聋哑各类 病因构成圆图
(三)应用相对数的注意事项
比与率不能混淆 • 患者的病种构成不同于发病率 • 患者的死因构成不同于病死率
计数资料统计描述与推断
计数资料的统计分析
一、资料的整理:频数表、交叉表 二、资料的描述:统计量、统计表、统计图 三、统计推断:总体率估计、χ2检验、u检验
表 100例高血压患者治疗后临床记录
患者 年龄 性别 治疗组 舒张压 体温 疗效
编号 X1
X2
X3
X4
X5
X6
1 37 男 A 11.27 37.5 显效
(2)在恶性肿瘤的死亡人数中,50~岁组人数最多,占的比重 最大,为66.1%。但并不意味着该年龄组人死于恶性肿瘤的 威胁最大,况且,构成比的大小还受到其它组成部分的影响 ,所以不能因为结构百分比最大,就得出“50~岁组死于恶 性肿瘤的威胁最大”的结论。
分母不能太小
合并率(总率)的计算 注意资料的可比性
的病死率与03年的比较的倍数基本是(08年除外) 越来越大
4. 动态数列
一系列按时间顺序排列起来的统计 指标,用以观察和比较该事物在时间上的 变化和发展趋势。
绝对增长量,发展速度与增长速度 ,平均发展速度与增长速度。
绝对增长量
• 一定时期内增长的绝对值 • 累计增长量:报告期与基期之差 • 逐年增长量:报告期与前一期之差
(4)
(5)
11
1.5
3.1
22
3.0
9.5
142
19.6
69.3
443
61.1
363.5
107
14.8
533.8
725
100.0
77.4
(1)随着年龄的增大,死亡率逐渐升高,即年龄愈大,恶性 肿瘤的死亡强度愈高。由于死亡率是强度相对数,各年龄组 的死亡水平由该年龄组发生的例数所决定,故不受其他年龄 组死亡数的影响。
例 某县1996年各年龄组恶性肿瘤死亡情况统 计见下表,试作简要分析。
表 某县1996年恶性肿瘤死亡统计
年龄组
(1) 0~ 15~ 30~ 50~ ≥70
合计
人口数
(2) 356980 232505 205032 121882 20047 936446
死亡数 构成比(%) 死亡率(1/10万)
(3)
2 45 女 B 12.53 37.0 有效
3 43 男 A 10.93 36.5 有效
4 59 女 B 14.67 37.8 无效
┆
100 54 男 B 16.80 37.6 无效
一、计数资料的整理
1.按一个分组因素分类计数的频数表
病种 单纯原发性高血压 继发性高血压 原发性高血压合并心脏病 其他 合计
(一)统计量 绝对数: 相对数:强度相对数、结构相对数、
相对比、动态数列
1.构成比(proportion):又称结构相对数,表 示事物或现象内部各组成部分的比重或分布 。
结构相对数的特点
• 各组成部分构成比总和等于100%或1 • 各组成部分相互消长,不能同时都增大或都减小
2.率(rate):又称强度相对数,说明某现象发生的 频率或强度。