医学统计

医学统计学案例选

第一章绪论部分

案例1-1 着手撰写一份研究计划书,你所选的研究课题应该关系到人类健康。简单叙述立题依据、研究背景、研究目的、研究内容、研究方法和需要什么样的资料,如何获得和分析资料,用什么方法表达与展示结果等,请保留你的这份作业,并在学习完本书后再重新翻阅。你发现了什么问题,应如何修改?你的收获是什么?

第二章实验设计部分

案例2-1 《丹栀逍遥散治疗混合性焦虑抑郁障碍的临床研究》(河南中医2004年第24卷第8期第62页)欲观察丹栀逍遥散治疗混合性焦虑抑郁障碍的临床疗效,以某西药作为对照组。将64例符合纳入标准的病例按诊疗次序交替分组,即单号为中药组,双号为西药组。请讨论该分组方法是否随机?

案例2-2 《单宫颈双子宫畸形28例人工流产分析》(中国实用妇科与产科杂志1999年3月第15卷第3期172页)通过回顾分析某医院1990年1月至1998年3月期间28例单宫颈双子宫畸形早孕流产的结果,发现人流术前先给予米索前列醇素制剂可使得流产更容易、安全,减少病人痛苦并且可避免并发症的发生。而文中两组的分组方法为:所有病例按就诊先后顺序分组,1995年10月以后的为A组,1995年10月以前的为B组。A组(米索组)于手术前3小时服米索600μg或手术前1小时后穹隆放置米索200μg,然后进行人工流产吸宫术,共14例;B组(对照字)单纯采用常规流产术机械扩张宫颈后吸宫。作者认为该法“符合随机分配法则”。请讨论对照组的设置是否合适?

案例2-3 《用24小时食管pH监测法诊断食管原性胸痛》(中华外科杂志1995年33卷第2期第69页)一文中,作者对30例疑为食管原性胸痛患者的24小时食管pH监测,其中16例昼夜均异常,8例白天异常,2例夜里异常,18例胸痛与酸暴露有关。得出食管pH监测是诊断胃食管反流所致的食管原发性胸痛的有效方法的结论,请讨论该文结果是否成立?

案例2-4 《强骨胶囊治疗原发性骨质疏松症的临床试验》(中药新药与临床药理,2004年15卷第4期284页)目的是观察强骨胶囊与骨松宝颗粒对骨质疏松症患者的疗效与安全性。原文共收集骨质疏松症患者307例,其中试验组612例使用强骨胶囊,对照组93例使用骨松宝颗粒,其余开放组52例。但对开放组患者的特征、所用药物、用药方法、观察方法、是否设盲等没有交代。请讨论3组之间有无可比性?

小结

1、一项研究设计的内容包括:提出假说,确定研究类型,确定研究对象的范围和数量,计划的实施与质量控制,数据管理,统计分析,结果与讨论。

2、实验设计包括3个基本要素:处理因素、实验对象和实验效应。

3、实验设计必须遵循:对照、随机、重复的基本原则。研究中所设立的对照组应尽可能达到对等、同步、专设的条件;随机包括3方面的内容,及随机抽样、随机分组和随机实验顺序;重复是指研究结果的重复、观察对象的重复和观察指标的重复。

思考与练习

简答题

1、研究设计的作用是什么?

2、研究设计的基本内容是什么?

3、实验设计应该遵循的基本原则是什么?

4、实验设计为什么要设立对照?设立对照要注意些什么?

5、随机化的含义是什么?目的是什么?

6、区组化的目的是什么?

第三章观察性研究设计概述

案例3-1 某地(100万人口)拟开展当地中老年人非胰岛素依赖型糖尿病的现况调查,目的是了解当地糖尿病的流行状况,以及与糖尿病患病相关的危险因素。调查对象是当地居住超过5年、40岁以上的常住居民。该研究采取分层、整群随机的抽样方法,将该地区15个镇按城镇或乡村,经济发展水平分成3个层,每层随机抽取2个镇或街道,再从被抽中的镇或街道中随机抽取两个村或居委。被抽中村或居委的全部40岁以上居民包括原糖尿病患者均参加调查。调查结果男女两性比例为0.94:1,并划分为5个年龄组,性别和各年龄组构成比与当地人口性别和年龄的分布情况相符。

调查内容包括:①问卷调查:被调查者的一般情况、糖尿病及其他病史、家族史、糖尿病临床表现、饮食调查、吸烟、饮酒情况及体力活动等;②体格检查:包括身高、体重、腰围、臀围及血压等;③血糖测定。

⑴该研究采用的是全面调查还是抽样调查?各有何优缺点?

⑵该研究采用的抽样方法有何优点?是否有更好的抽样方法?

⑶该研究的设计方案是否合理?请你设计一个研究的方案。

⑷该研究采用的调查表应该包括哪些项目?请你设计该调查表。

小结

1、观察性研究是有目的地观察或测量自然接触不同因素人群的结果事件发生状况,通过对比分析发现事件的分布特点与差异,从而获得有关因果假设的启示,为进一步研究提供线索。

2、观察性研究包括描述性研究和分析性研究两大类。

3、横断面研究是按照事先制定的计划,调查特定人群特定时点某种疾病的患病情况,以及与患病有关的因素。横断面研究的设计要考虑研究目的、对象、调查方法、调查表设计、样本量、组织计划、质量控制和分析计划等。

4、问卷是调查研究中用来收集资料的一种工具,它的形式是一份精心设计好的问题表格,它的用途在于测量人们的行为、态度和特征。问卷设计的好坏是保证调查质量的关键,本章介绍问卷设计的基本原则和步骤。

5、随机抽样是抽样调查中样本具有代表性和能进行总体参数估计的保证,常用的抽样方法有单纯随机抽样、系统抽样、分层抽样和整群抽样。

简答题

1、观察性研究与实验性研究有何异同?二者能否同时使用或结合使用?

2、观察性研究主要有哪些方法?各有何优缺点?

3、为什么大多数的观察性研究是抽样调查研究?

4、根据对全国出生缺陷监测资料的统计分析,发现神经管缺陷的发生具有明显的季节性,表现为1~3月份出生的孩子的发生率比较高。今欲调查其原因,应采取什么调查方法?请做出完整的调查设计并制定出调查表。

5、欲了解某市乙型病毒性肝炎患病情况及其影响因素,请做一个调查设计。

6、现拟在大学生中进行一项吸烟习惯调查,请你考虑调查问卷应包括哪些项目,并设计出调查问卷。

第四章统计描述

案例4-1 表4-24是某研究者在一项回顾性调查中收集的部分资料,其目的是研究抗生素的使用效果。

表4-24 某医院内、外科25例住院病人使用抗生素的情况

病人编号性别年龄(岁) 入院体温(℃) 入院时白细胞计数(×103) 抗生素使用细菌培养所在科室住院时间

1 2 30 37.2 8 2 2 1 5

2 2 7

3 36.7 5 2 1 1 10

3 2 40 37.2 12 2 2 2 6

4 2 47 36.8 4 2 2 2 11

5 2 25 36.9 11 2 2 2 5

6 1 82 36.0 6 1 2 2 14

7 1 60 37.5 8 1 1 1 30

8 2 56 37.0 7 2 2 1 11

9 2 43 36.7 7 2 2 1 17

10 1 50 36.7 12 2 1 2 3

11 2 59 36.4 7 2 1 1 9

12 1 4 36.6 3 2 2 2 3

13 2 22 37.5 11 1 2 2 8

14 2 33 36.9 14 1 1 2 8

15 2 20 36.9 11 2 1 2 5

16 1 32 37.2 9 2 2 2 5

17 1 36 37.3 6 1 2 2 7

18 1 69 36.7 6 2 2 2 4

19 1 47 36.1 5 1 2 1 3

20 1 22 36.8 6 2 2 2 7

21 1 11 36.8 10 2 2 2 9

22 2 19 37.0 14 1 2 2 11

23 2 67 36.4 4 2 2 1 11

24 2 43 37.0 5 2 2 2 9

25 2 41 36.7 5 2 2 1 4

注:性别:1=男,2=女;抗生素使用:1=是,2=否;细菌培养:1=是,2=否;

所在科室:1=内科,2=外科。

试分析:

⑴构造性别的频数分布表,并绘制性别的频数分布条图;

⑵以20岁为组距,构造年龄的频数分布表,并绘制年龄的频数分布直方图;

⑶以5天为组距,构造住院时间的频数分布表,并绘制住院时间的频数分布直方图,观察其分布特征;

⑷计算住院时间的算术均数、几何均数、中位数;

⑸计算住院时间的最大值、最小值、四分位数与四分位数间距;

⑹计算住院时间的全距、方差、标准差和变异系数;

⑺构造内、外科使用抗生素情况的统计表、条图和圆图;

⑻构造内、外科采用细菌培养情况的统计表、条图和圆图;

⑼构造内、外科使用抗生素和采用细菌培养情况的统计表、条图和圆图;

⑽绘制箱图,比较用与不用抗生素的住院患者住院天数的差异;

⑾以住院天数为纵坐标,以年龄为横坐标,绘制散点图;

小结

1、计量资料的统计描述,主要了解数据的分布范围、集中位置以及分布形态等特征。大样本

数据,需要编制频数分布表,通过频数分布表观察数据的分布特征。

2、频数分布表的主要作用是揭示资料的分布特征;描述其集中趋势和离散趋势,有助于发现数据中远离数据群体的离群值。

3、数据的分布形状分为对称分布与偏态分布。偏态又分为右偏态和左偏态。

4、描述计量资料集中趋势的平均指标有:算术均数、几何均数、中位数等。算术均数适合于对称分布资料,几何均数、中位数等。算术均数适合于对称分布资料,几何均数适用于2右偏态和呈现比例递增的资料,中位数适合于任意分布的资料。

5、描述计量资料离散趋势的变异指标有:全距、方差、标准差和变异系数、四分位数间距等。其中标准差是最常用的变异指标,适合于对称资料特别是正态分布资料;四分位数间距适合任意分布资料,尤其适合于大样本偏态分布资料。变异系数主要用于比较几个量纲不同的变量之间的离散程度的差异,也可以用来比较量纲相同但均数相差悬殊的几个变量之间离散程度的差异。

6、描述计数资料基本特征的指标有:比、比例和率。比可以是任意两个数值之比,包括比和比率。当分子是分母的一部分时,称为比例;当比例与观察时限有关时,称为率。比例又分为构成比和频率。而率与时间单位有关,即率有速率和强度的含义,它表示单位时间某事件发生的可能性大小。流行病学研究中常用的两个比是相对危险度和优势比(比数比)。

7、内部构成不同的两个率比较时,应计算标准化率。

8、动态数列用来描述一组按照时间顺序排列起来的统计指标,如绝对数、相对数、平均数等,在时间的变化和发展趋势。

9、医学常用统计指标有:人口统计指标、出生与死亡统计指标、生育统计指标、疾病统计指标、期望寿命等。

10、表达统计结果的数表称为统计表。统计表由标题、标目、线条、数字4部分组成,必要时增加注释。

11、常用统计图有:条图、百分条图、园图、线图、半对数线图、箱图、散点图等,这些统计图所适用的数据类型,绘图目的和有关说明列在表4-25中。

第五章概率分布

案例5-1 一般人群先天性心脏病的发病率为8?,某研究者为探讨母亲吸烟是否会增大其子女的先天性心脏病发病的危险,对一群20~35岁有吸烟嗜好的孕妇进行了生育考察,在他们生育的320名子女中,经筛查有4人患先天性心脏病。

试讨论:

⑴若以X表示观察中患先天性心脏病的小孩数,X的分布是什么分布?

⑵若按人群先天性心脏病的发病率为8?,计算320名子女中,至少有4名小孩患先天性心脏病的概率。

⑶这一研究过程是否有可改进的地方?

案例5-2 根据对青少年生长发育大样本的调查资料,计算得7岁男童的身高均数 =119.95cm,标准差=4.72,按身高范围统计结果见表5-4.

表5-4 青少年生长发育调查资料统计结果

身高范围(cm) 实际人数百分比身高范围(cm) 实际人数百分比

115.32~124.56 81 67.5

111.47~130.14 113 94.17 106.49~133.87 118 98.33

(1)试计算所给身高范围的理论人数和百分比。

(2)实际人数和理论人数(百分数)有何不同与联系。

小结

1、随机事件、概率与随机变量是研究随机现象的基本概念。通过随机变量可用数学手段对随机现象进行更深入的研究,随机变量分为两类,一类是连续型随机变量,另一类是离散型随机变量。

2、二项分布和Poisson分布是离散型随机变量最为常见的分布类型。在医疗卫生领域,若研究结果只可能是两个对立结果中的一个,例如阳性、阴性,这样的观察独立、重复n次出现阳性的次数X服从二项分布。X取值为0,1,2,…,n,X=k的概率按下式计算:

其中π为每次试验出现阳性的概率,且。

Poisson分布主要用于描述在单位时间、面积、空间上某事件的发生数。医学和卫生领域中有些指标例如:单位时间接收到放射性物质的放射线数、某单位容积中的细菌数、野外单位空间的某种昆虫数等。服从Poisson分布随机变量X取值为非负整数0,1,…,其相应概率为

当n大,π小时,二项分布近似Poisson分布。此时计算而项分布概率的工作量很大,可用Poisson分布公式作近似计算。

3、正态分布是连续随机变量最重要的而基本的分布。其重要性体现在:

(1)正态分布具有优良的性质和规律。

(2)在解决实际问题时,许多研究指标服从(或近似服从)正态分布。

(3)理论上,正态分布是许多统计方法的理论基础,一方面许多统计方法是在正态分布的基础上建立起来的;另一方面许多统计方法在一定条件下,有正态近似的方法。

4、随机现象的规律只有在大量重复观察的情况下才能够出现,对随机现象的研究答多是采用抽样研究的方法。3个基于正态分布的抽样分布入分布、t分布、F分布是统计推断的基础,具有重要的理论价值。

第六章参数估计

案例6-1 某地随机抽样调查了部分健康成人的血红蛋白含量(g/L),结果见表6-16.

性别例数均数标准差标准值

男 360 134.5 7.1 140.2

女 255 117.6 10.2 124.7

*《实用内科学》(1976年)所载均数(转为法定单位)

(1)有人认为该地男女性血红蛋白含量均低于上表的标准值(若测定方法相同)且男性血红蛋白含量低于女性,你是否同意该结论?

(2)如何估计男女性血红蛋白含量的总体均数和参考值范围,两者有何区别?

小结

1、抽样分布是通过大量重复抽样和计算各样本统计量并作样本统计量的频数分布图来揭示样本统计量的分布规律。从同一总体反复抽取若干样本,各样本统计量之间及与总体参数之间

存在差异,此差异称为抽样误差。由于总体中个体变异的客观存在,抽样误差不可避免。2、标准误是反映抽样误差大小的指标。均数标准误的理论值是 ,样本估计值为;率的标准误理论值为,样本估计值为。注意均数标准误与原变量的标准差之间的区别,不能混淆其含义。

3、参数估计是指用样本统计量推断总体参数。有点估计和区间估计两种方法。

第七章假设检验

案例7-1 某医院检验科测定了30-40岁不同职业、不同性别人群的血清甘油三脂含量(见表7-2)。试分析比较工人和干部,男女的该项血脂水平有无差异?

表7-2 正常成人按不同职业、性别分类的血清甘油三脂含量

人数均数标准差

工人 112 1.20 0.33

干部 106 1.08 0.30

男 116 1.17 0.32

女 102 1.11 0.32

试分析:

1、用什么方法比较工人和干部、男和女血清甘油三脂含量的差异?

2、血清甘油三脂含量是常用的高血脂症筛查指标,血清甘油三脂含量升高常见于动脉粥样硬化、糖尿病、脂肪肝等的病人,男略高于女,参考值范围分别是男:0.45-1.81mmol/L、女:0.40-1.53 mmol/L。如何解释男女血清甘油三脂的差异?

3、如果工人组血清甘油三脂高于干部组,并且有统计学差异,能否说工人职业导致该人群血清甘油三脂的升高?推论因果关联?

4、本研究工人组的血清甘油三脂平均高于干部组0.12mmol/L,是否有实际意义?

5、本研究工人组的血清甘油三脂高于干部组,男女血清甘油三脂未见有统计学差异,是否是混杂因素影响?在比较均数之间差别时,如何根据现有资料分组计算均数,最大限度地减少性别对工人组和干部组血清甘油三脂的影响?

小结

1、假设检验采用的是反证法思想,根据“小概率事件在一次试验中不可能发生”原理,用一次试验(观察)结果发生的概率决定是否拒绝原假设。假设检验的常用方法有u、t、F、χ2检验与秩和检验。

2、假设检验的三个步骤:①建立检验假设:H0、H1 ,确定检验水准α。②计算检验统计量;

③确定P值并作出推断结论。

3、已知总体方差并且样本量比较大时,推断样本所代表的未知总体均数μ与已知总体均数μ0是否有差别,可采用Z检验。已知总体方差并且两组的样本量n1和 n2比较大时,用推断两总体均数之差是否为零,可采用两均数比较的Z检验。

4、大样本率的Z检验,要求n比较大,对统计量要求可简单概括为:①如果样本率p介于0.1-0.9之间,每组例数大于60例;②如果样本率p介于0.1-0.9之外,np或n(1-p)的最小值大于5。

5、假设检验的两类错误:当H0为真时,由于抽样的偶然性而得到P≤α的检验结果,假设检验结论拒绝H0,接受了H1,称为第一类错误或Ⅰ类错误,犯一类错误的概率记为α。当真实情况不成立而H1成立时,得到P>α的检验结果,拒绝H1,接受了H0。这类错误称为第

二类错误或Ⅱ类错误,其概率大小用β表示。

6、单侧检验与双侧检验:单侧检验不仅关心差别,同时关心差别的方向,备择假设为H1:

μ1<μ2或H1:μ1>μ2。双侧检验只关心差别,不关心差别的方向,备择假设为H1:μ1

≠μ2。两个均数或两个率的比较一般用双侧检验。采用单侧检验应该在研究设计阶段作出规

定,不应当在计算出统计量后再主观决定。

7、假设检验在拒绝H0的时候可以下“有差别”的结论,在不拒绝H0的时候不能下“无差别”

的结论。假设检验的的P值大小只能够说明统计学意义的“显著”,不一定有实际意义。对假

设检验结果的实际意义或临床意义的判定,一定要结合专业知识。

8、检验效能1-β表示H1为真,假设检验结果拒绝H0,接受H1的概率。检验效能越高,通

过样本发现总体差别的把握越大。影响检验效能的4个因素分别是总体参数的差异|δ|、个

体差异的总体标准差ζ,样本量n和检验水准α。

9、在同一个研究中多次重复检验,即使总体参数没有差别,重复检验100次,平均有5次是

假阳性错误,或重复检验20次,平均有一次是假阳性错误。因此,在试验设计时就应该确定

主要分析指标,不能事后通过大量重复检验寻找阳性指标。

10、要使假设检验的P值成为因果联系的证据,前提是要求研究设计符合“重复、对照、随

机化”的3个实验设计基本原则,并且是前瞻性的研究,即试验对象随机分组后再施加干预。

第九章多个样本均数比较的方差分析

案例9-1 某篇论文,研究4组病人某基因表达率的差异,结果见表9-16。

表9-16 4组病人某基因的表达率比较

组别 n t P喉癌 19 23.0±8.7 5.38 <0.01

喉息肉 18 16.0±10.2 6.24 <0.01

转移癌 15 9.0±4.7 2.20 >0.05

对照组 22 7.0±5.0

问:(1)该资料分析是否恰当?理由是哪几方面?

(2)若该资料交给你统计分析,你的分析计划怎样?

案例9-2 某医生A,B,C3种营养素喂养小白鼠,用6窝小白鼠,每窝3只,随机安排喂养

这3种营养素中的一种;6周后观察小白鼠增加体重情况(g),得表9-17的资料:

表9-17 3种营养素喂养小白鼠所增加体重

窝别 A B C 均数

1 50 57 69 58.7

2 48 59 66 57.5

3 55 61 67 61.0

4 66 54 76 65.2

5 7

6 81 83 80.1

6 3

7 46 6

8 50.2

7 63 50 54 55.7

8 45 43 48 45.3

均数 55.1 56.2 66.4 59.2

经过随机区组设计的方差分析得3种营养素间的F=6.319,P=0.011;窝别的F=6.670,P=0.001。

认为营养素及窝别间两个因素均可影响增加体重,但营养素的作用不如窝别因素大。窝别常反映遗传因素,证明遗传因素对增加体重影响明显。

问:(1)所用统计方法是否正确,为什么?

(2)作者结论是否正确,表现在什么方面?

小结

1、方差分析常用于3个或3个以上均数的比较,当用于两个均数的比较时,同一资料所得结果与t检验等价,即有如下关系:t2=F。

2、方差分析的基础是分解变异,统计量是两个均方之比。完全随机设计方差分析的基本思想是:在多个总体均数相等的假设条件下,样本总变异及自由度可分解为处理和组内两部分,由此估计出处理均方和组内均方,前者反映处理作用及随机误差,后者仅为随机误差;进一步将处理均方与组内均方之比值构成F统计量,查F检验界值表便可确定界值,最后做出是否拒绝检验假设的抉择。

3、方差分析由多种设计类型,但基本思想和计算方法是一样的,只是因素的个数不同。

4、均数的多重比较方法有多种,应用时应事先决定采用那一种方法。

5、方差分析的前提条件是正态性和方差齐性,可通过假设检验来判断,但通常情况下样本比较小,由专业知识判断显的很重要。

6、如果数据不满足方差分析的条件,可考虑采用数据转换的方法改善数据,或者采用非参数检验。

第十章检验

案例10-1 某研究者欲比较甲、乙两城市空气质量状况,在甲、乙两城市个测定300个采样点,得表10-17数据,试比较两城市空气质量有无差别。

表10-17 甲、乙两城市空气质量状况比较

组别空气质量类别

合计

优良轻度污染中度污染重度污染

甲城市

乙城市

合计193 67 28 7 5 300

154 94 28 18 6 300

347 161 56 25 11 600

检验步骤:

(1)建立检验假设,确定检验水准

H0:甲乙两城市空气质量无差别

H1:甲乙两城市空气质量有差别

α=0.05

(2) 计算检验统计量

(3)确定P值,作出推断结论

查界值表, =9.49, =13.28,,P<0.01。按α=0.05的检验水准,拒绝H0,接受H1,可认为甲乙两城市空气质量有差别。

请讨论如下问题:

(1)该资料结论是否正确?

(2)你认为应该如何分析资料?

小结

1、使用卡方检验要注意理论频数T不能够太小,样本要求各格子理论频数不小于1,并且T<5的格子数不宜多于总格子数的五分之一,如果理论频数太小,最好的办法是增加观察例数以增大理论频数,或考虑使用确切概率法。

2、完全随机设计的两个理论频数分布是互相独立的,而配对设计的两个频数分布却不是互相独立的。设计方法不同,资料性质不同,分析方法也不同。

3、对反映两个属性的分类变量,若有一份随机样本,可作交叉分类的频数表,利用关于独立性的卡方检验和列联系数来描述关联性。关联性分析卡方检验所用公式与两个或多个频数分布比较的卡方检验所用公式是一样的,但它的设计和意义有根本区别,作关联性分析的资料是一份随机样本,同时按两种属性分类,而两个或多个频数分布是两分份或多份样本,谈不上关联性问题。

4、列联系数可以描述两个分类变量之间在数量上的联系,但数量上的联系并不一定意味着因果关系。

第十一章非参数检验-基于秩次的假设检验方法

案例11-1 某医生为评价甲乙两种药物对皮肤廯菌的杀菌作用,以咪康唑散为对照药物,将315例浅部真菌病患者随机分为甲乙两治疗组和对照组,分别为104例、105例和106例。治疗三周之后,结果见表11-9,试比较甲乙两药物治疗浅部真菌的疗效如何?

表11-1 某药物治疗某病的疗效

疗效甲组乙组对照组合计

痊愈 56 40 38 134

显效 36 50 56 142

好转 10 12 11 33

无效 2 3 1 6

合计 104 105 106 315

对于该资料,研究者进行了列联表卡方检验:

=9.997,df=6,P<0.125,考虑到理论数小于5的格子数太多,用 Fisher精确概率法得P=0.107,在α=0.05的检验水准上,不能够认为甲乙两药与对照组的疗效不同。

请讨论:

(1)该资料的分析方法是否合适?为什么?

(2)应该如何分析资料?

小结

1、注意非参数方法不涉及特定的总体分布,又称为任意分布检验或称为分布无关检验,是因为其推断方法与总体分布无关,不应理解为与所有分布(例如有关秩的分布)无关。

2、秩和检验的应用范围很广①样本所代表的总体分布不容易确定;②分布呈现非正态而又五适当的数据转换,或者无法进行数据转换;③等级资料,均可采用非参数检验。

3、非参数检验方法内容丰富,尚又许多检验方法,可参考有关文献。

第十二章简单线性回归

案例12-1 某地卫生防疫站根据10年乙脑发病率(1/10万,预报量Y),与相应前一年7月份日照时间(小时,预报因子X)建立回归方程,将乙脑发病率作平方根反正弦变换,即:,计算得回归方程为:。,,n=10。1990年7月份日照时间X0=260小时。试估计该地1991年的乙脑发病率?(设α=0.05)。

解得: 0.0233

按α=0.05,df=10-2=8,查t界值表,得 =2.306,又 =-1.97+0.0068×260=0.571,按公式计算得95%的容许区间为:

(0.571-2.306×0.0243,0.571+2.306×0.0243)=(0.5150,0.6270)

取原函数得,Y=(sin )2,得95%容许区间为(0.0000808,0.0001197)。故可预测该地1991年乙脑发病率又95%可能在:0.08~11.97/10万之间。

利用回归方程进行控制,是利用回归方程进行逆估计,例如要求应变量Y在一定范围内波动,可以通过自变量X的取值来实现。这是回归应用的另乙方面。

案例12-2 根据某缺碘地区10例产妇在妊娠15-17周时母血TSH水平(X),与足月分娩时新生儿脐血TSH水平(Y)数据建立的直线回归方程为 =2.993+0.9973X., =0.3285若新生儿脐带血TSH水平超过5mU/L,可认为新生儿缺乏碘,应该对妊娠产妇采取补碘干预措施,问母血TSH水平应该控制在什么水平可使得新生儿脐带血TSH水平不超过5mU/L?(设α=0.05)。在扣除X对Y的影响之后,Y本身对回归直线的离散程度为 (双侧)或(单侧),本例自由度df=10-2=8,查t界值表,单侧 =1.860,单侧95%上限为:。

当 =5时,解得X=1.3985mU/L,即只有将母血TSH水平控制在1.3985mU/L水平以上,才有95%的可能使得新生儿脐带血TSH水平不超过5mU/L。

小结

1、简单线性回归分析时研究两个变量之间线性关系的数量表示,例如身高与体重、血糖与胰岛素之间关系。回归方程为,可根据最小二乘法计算,最小二乘法使得实际应变量与回归方程预测值之差的平方和达到最小。

2、进行简单线性回归分析需要满足线性(linear)、独立(indenpdence)、正态(normal)与等方差(equal variance)4个条件。通过绘制残差图可简单直接地评价是否满足这4个条件。

3、在进行简单线性回归分析前,一般先绘制散点图,以判断其是否存在线性关系。若干不存在线性关系,仅当对X进行变换之后,如果呈现线性关系,可进行回归分析;如果需要对Y 进行线性变换后才满足线性,则需要进行非线性回归分析。

第十三章线性相关

案例13-1 某医生对某感冒患者进行连续观察60小时,每6小时观察测量该患者的体温和呼吸次数,资料见表13-3。

观察序号 1 2 3 4 5 6 7 8 9 10

体温(℃) 39.8 40.2 39.6 38.8 38.3 38.1 38.2 38.0 37.8 37.5

呼吸次数(次/分钟) 28 29 26 25 24 24 21 22 20 21

该医生对上述资料进行双变量正态性检验,α=0.2,正态性检验的P值大于0.2,不能拒绝资料服从正态分布,计算Pearson相关系数得r=0.9373,相应的P=0.0001,相关系数ρ的

95%的可信区间为(0.7507,0.9854)。因此该医生判断:体温与呼吸次数呈现线性相关。

请问:你对该医生作上述相关分析和所下结论有何异议?

案例13-2 某研究者欲研究年龄与地方甲状腺肿患者之间的关系,将219例资料整理乘表13-4,问:年龄与地方甲状腺肿患者之间是否存在某种相关性?

表13-2 年龄与地方甲状腺肿患者疗效的关系

年龄(岁)

(X)疗效(Y)

合计

痊愈显效好转无效

<30 67 9 10 5 91

30~ 17 13 12 2 44

40~ 15 10 8 2 35

≥ 10 11 23 5 49

合计 109 43 53 14 219

小结

1、相关系数ρ>0表示正相关,ρ=0表示不相关,ρ<0表示负相关。

2、相关系数的大小与样本量有关,不能够仅凭相关系数大小判断两变量是否存在相关,而应该根据假设检验的结果做出判断。

3、作Pearson相关或Spearman相关,都要求观察单位之间是独立的。

4、 Pearson相关系数为线性相关系数,要求变量X和Y服从双变量正态分布,并且在作相关分析时,一般先作散点图,考察是否存在直线相关。

5、若变量X和Y服从双变量正态分布,则tr=tb,两个检验等价。

6、若干变量X和Y不服从双变量正态分布,可用Spearson等级相关进行分析。

7、若变量X和Y均为多分类有序资料,可以采用Spearson秩相关进行相关分析。

8、两变量之间相关性并不表示一个变量的改变是由于另外一个变量所引起的,也可能是受第三变量影响而出生的伴随现象,所以相关分析只是刻画了一种伴随现象,因此在作相关分析时,还应该考虑两变量相关是否具有实际意义。

9、由于通常的相关系数无效假设H0:ρ=0,但P<α时,是判断ρ≠0。仅能说明两个变量之间存在相关关系,但相关关系的强弱应该根据相关系数大小确定,与P的大小无关。

第十四章临床测量误差评价与诊断试验

案例14-1 某研究者比较3种尿干化学分析仪进行平行测定结果的符合程度,同时观察不同仪器在阳性标本检出率方面是否存在显著性差异。采用3种不同厂家不同型号的尿干化学分析仪及配套试纸条对60例门诊和病房送检的新鲜阳性尿液标本(葡萄糖GLU、蛋白PRO、隐血BLD、白细胞LEU这四种至少有1项试阳性)进行平行检测,并对检验结果进行比较,统计4处理将各项指标分别计算阳性检出率并计算值,同时将每一例标本各项检测结果进行两两比较,计算出完全符合率P1和一般符合率P2(即两种检出结果不超过一各等级的比率),然后用Kappa检验值评价两种尿干分析仪测定结果之间的符合程度。分析结果列在表14-1和14-2中。根据研究结果,作者认为3种尿干分析仪测定结果的符合率都在80%以上,各检测项目的Kappa值>0.4,3台仪器葡萄糖(GLU),、蛋白(PRO)、白细胞(LEU)3项检测没有显著性差别。

最后的结论:由于仪器本身的灵敏度、试纸条所规定的量级和检测原理以及稳定性的差异,造成部分项目的检出率和检测结果不完全一致,但是这三种仪器在尿液检查主要项目

(GLU,PRO,LEU)的检出率和检出结果方面的一致性还是良好的,完全能够满足临床医生对病人

诊断、观察的需要。试分析下列问题:

(1)你是否认同作者的数据分析方法和所做出的结论?

(2)你认为应如何做这一试验和进行数据分析?

表14-1 3种仪器的阳性检出率

项目 GLU PRO BLD LEU

中国FA 16.7 63.3 81.7 33.3

日本US 16.7 58.3 78.3 31.7

匈牙利DO 18.3 48.3 51.7 28.3

值 0.078 2.85 15.6 0.363P值 >0.05 >0.05 <0.005 >0.05

表14-2 不同仪器测定结果的符合率及检验的一致性

检查指标中国FA与日本US 中国FA与匈牙利DO 日本US与匈牙利DO P1 P2 Kappa P1 P2 Kappa P1 P2 Kappa

GLU

PRO

BLD

LEU 71.7 93.3 0.694 44.0 96.7 0.786 71.7 96.7 0.707

31.7 88.3 0.754 35.0 90.0 0.436 45.5 90.0 0.568

40.0 88.3 0.952 43.3 83.3 0.593 43.3 83.3 0.635

50.0 96.7 0.536 45.0 90.0 0.401 66.7 93.3 0.702

小结

1、临床测量结果中可能含有多个误差成分,它主要包括生物变异、随机测量误差和系统误差。

正确认识不同误差的性质和来源,有助于医生临床诊断和对临床试验做出客观的评价。临床

测量误差评估方法有多种,常用方法有方差分量法和SN比值法,对定性资料给出Kpaap一致

性评价方法。

2、方差分量法的基本思想是:将试验结果的变异分解为受试者个体变异和重复测量误差的等

方差分量,比较不同方差分量的比值,如果重复测量误差的方差分量在总变异中所占比例小,

则说明测量的可信度高;同时可以对重复测量的误差范围进行估计。

3、S/N比值是指测量信号与影响测量信号识别的噪声的比值,用于已知真值的条件下对测量

误差进行度量。基本方法是:根据标准样品和实测值利用直线回归分析方法进行校正,然后

根据回归系数和方差分析中误差均方估计出SNR值及测量误差范围。

4、Kappa值是评价临床定性测量结果的一致度和信度的一种重要指标,常常用于评价不同医

生对同一患者的判断结果,或者同一医生先后两次判断结果是否一致。Kappa值低。说明临

床测定结果的一致性差,试验结果缺乏信度,分析结果不可靠。

5、评价诊断试验最基本的指标是灵敏度(Se)和特异度(Sp)。灵敏度为实际患病检测结果

正确判为有病的概率,1-Se是假阴性率;特异度是实际未患病且检测结果正确判为没病的概

率,1-Sp是假阳性率。此外,Youden指数综合了灵敏度和特异度两个指标的值,预测值除与

灵敏度和特异度有关外,还与检测人群的患病率有关。

6、ROC曲线称为接收者工作特性曲线,它是以1-Sp为横坐标,Se为纵坐标按照连续变化的

诊断阈值,由不同灵敏度和特异度绘制的曲线。ROC曲线绘制可以采用原始数据分组和利用

模型拟合两种不同的方法。

7、使用ROC分析是对诊断试验数据进行分析与评价,其优点是评价结果比较客观和一致,它适合定量和等级资料分析。ROC分析的结果主要包括ROC曲线的图形和综合评价统计两量。前者可以直观描述诊断效果及灵敏度特异度之间的变化关系,后者可理解为在所有特异度下的平均灵敏度,也可以理解为患病组测量值高于非患病组测量值的概率。

8、计算ROC曲线下面积,可以采用双正态参数法和Hanley-McNeil非参数法。前者适用于定量资料的分析,后者适合等级资料分析。ROC曲线下面积比较,有成组设计和同源配对设计两种不同的数据分析方法,前者计算简单,后者可以采用Delong给出的非参数计算方法。第十五章研究设计方法

案例15-1 《利多卡因手控定量雾化吸入治疗激素抵抗型哮喘的研究》(临床内科杂志2004年6月第21卷第6期415页)目的是观察手控定量雾化吸入利多卡因治疗激素抵抗型(SR)哮喘的疗效。受试者吸入利多卡因3个月,观察临床疗效和口服激素减停剂量的情况。

原文没有设立平行对照,而采用单盲、自身前后对照。15例患者治疗3个月后,咳嗽、喘息症状改善(P<0.001),肺部哮鸣音明显减少(P<0.001),外周血、痰中EOS数目减少(P <0.02),FEV1%明显提高(P<0.01),无一例出现严重的毒副作用。因而,原文认为:利多卡因入治疗激素抵抗型哮喘安全有效,可以提高FEVI的水平,并能成功地减少口服激素。

案例15-4 多糖是冬虫夏草的主要活性成分之一,具有抗肿瘤、增强机体免疫力和降低血糖等多方面的药理作用。虫草多糖的提取过程是:取100克虫草菌粉,加水若干,浸泡1小时,加热至微沸,维持一段时间,冷却,离心,残渣重复提取。为进一步确定虫草多糖的最佳提取工艺,拟考虑3个主要因素,A:加水量,B:煎煮时间,C:煎煮次数。每个因素个2考虑3个水平。加水量考虑分别为原药量的8、10、12倍;煎煮时间分别考虑微0.5、1和1.5小时;煎煮次数分别考虑1、2、3次。请讨论:

(1)单独考虑一个因素时,采用何种设计方法?

(2)同时考虑三个因素时,不考虑交互作用,采用何种设计?

(3)同时考虑三个因素时,考虑所有的交互作用,采用何种设计?

(4)同时考虑三个因素时,只是考虑一级交互作用,采用何种设计?

小结

1、常用的单因素设计方法有完全随机设计,完全随机区组设计、拉丁方设计、交叉设计。完全随机设计是将研究对象按完全随机分组的方法进行分组,通过各组间的比较找出处理因素各水平间的差异。完全随机设计是将研究对象按区组分层进行随机分组的方法,控制了一个已知来源的的变异,从而提高设计效率。拉丁方是3因素(不考虑交互作用)的设计方法,要求各因素水平数相同;可以安排两个区组因素一个处理因素的实验,达到控制两个已知来源的变异的目的,也是提高设计效率的方法之一。交叉设计是将自身对照和成组对照结合起来的一种设计方法,常常用于临床上尚无特殊治疗而病情缓慢的慢性病患者的对症治疗,不适用有自愈倾向,或病程短的疾病治疗研究。

2、常用的多因素设计有析因设计和正交设计。析因设计是多因素各水平组合的完全随机设计,可以分析处理因素的主效应和处理因素间的交互作用。正交设计是多因素各水平组合的完全设计或部分组合的平衡不完全设计,主要用于试验方案的优选。

3、临床试验和临床治疗不同,需要按照统一的临床试验方案进行。临床试验中除了要遵循对照、随机、重复的原则,还要符合伦理,并且尽可能地进行盲法试验,以避免主观偏性的影响。新药或新医疗器械的临床试验需要按照药品临床试验规范(GDP)及相应的知道原则进行。

4、观察性研究包括横断面调查,回顾性病例-对照研究和前瞻性队列研究。横断面研究主要用于了解当前人群中的有关健康、疾病状况,得到患病率,为进一步研究提供基础资料。病例-对照研究通过回顾性调查过去某段时间内各种可能的危险因素的暴露史,测量并比较病例组和对照组各因素的暴露史之差异,判断研究因素与疾病存在的统计学联系程度,得到OR

值。队列研究通过对研究对象随访观察,比较暴露组与非暴露组在观察期内某疾病的发生率,判断研究因素与疾病间存在的统计学联系及联系程度,从而进一步推断暴露因素与疾病的联系,得到RR值。

第十六章样本量的估算

案例16-1 新药临床试验研究是典型的实验研究,在复方甘露醇注射液、甘露醇注射液治疗颅内高压症有效性和安全性的随机、双盲多中心试验研究中,按《新药审批办法》中对各类新药的各期临床试验规定,确定每组个100例,考虑不合格病例的淘汰,每组几乎撒完成120例,请回答下面问题:

(1)《新药审批办法》规定的样本量是如何确定的?

(2)在新药临床试验中是否不需要对样本量进行估算?

(3)新药临床试验研究中如何确定样本量?

案例16-2 在胸腔积液良恶性(癌性与结核性胸腔积液)鉴别诊断研究中,发现胸水中的乳酸脱氢酶和溶菌酶有比较好的鉴别诊断意义。现需要制定结核性这两酶的正常值范围,考虑这两种酶的发布不服从正态发布,确定研究对象为120例。请讨论下列问题:

(1)医学参考值范围制定是否属于总体参数估计的抽样研究?

(2)这种规定的统计学依据是什么?怎样确定样本量?

(3)在医学参考值范围研究中,是否样本量不得少于100例?100多例是否就足够了?小结

1、样本量估算是依据统计方法在保证研究一定可靠性前提下确定的最少样本观察单位数,实际研究应结合研究推论的总体、研究中对象的失效和人力、物力和财力综合考虑。足够的样本量能够保证研究中误差的估计,减少抽样误差,发现事物应有的差别。同时,也是保证组间均衡性的基础。

2、样本量估算的影响因素是容许误差δ、第一类错误α、第二类错误β、总体标准差ζ和单双侧检验以及研究设计类型。

3、样本量估算的方法很多,可以用公式估计,也可以用查表法。应根据研究设计实验或调查设计)类型、效应指标(观察指标)类型和研究目的选用相应的估算方法。

4、率的估计和假设检验的样本容量估算。常见有以总体率估计为目的的单纯随机抽样调查、单个总体率的假设检验、两个总体率与多个总体率的检验的完全随机设计以及总体率检验的配对设计时的样本含量估算公式和相应的查表方法。

5、在均数估计和假设检验的样本量估算中,常见的有以总体均数估计为目的的单纯随机抽样调查、单个总体均数的假设检验或均数的配对设计、两总体和多总体比较的完全随机设计、多个总体均数检验的配伍组设计、实验效应指标为计量资料的重复测量研究设计和直线相关与回归分析中的样本量估算公式和相应的查表法。

6、系统抽样可按照单纯随机抽样的估算公式进行估计,有限总体时需要进行调整;分层随机抽样在无限总体时可对各层参数估计值进行加权后按照单纯随机抽样的估算公式进行估计,有限总体时有专门估计公式,总样本量估计后需要按照比例或最优分配方法分到各层;整群抽样是按照单纯随机抽样检查样本量再乘以整群抽样的设计效率进行样本量估算。

7、病例-对照研究设计和队列研究设计中的OR和RR在单因素条件下的估计和假设检验时的样本容量估计参考有关章节。生存分析中以指数分布为基础,针对有无截尾数据两种情况给出了生存率估计和假设检验时样本量的估算的公式;并介绍了作L og-rank检验时样本量的估算公式。

第十七章多因素实验的方差分析

案例17-1 某研究探讨锌对热应激大鼠β内啡肽的影响,取锌饲料和热暴露时间两个因素,

其中饲料中的锌含量有高中低三个水平;热暴露时间有:无人暴露(对照组)、暴露组5分钟、30分钟、60分钟4个水平。研究对象为SD雄性大鼠72只,每种组合6只大鼠,文中给出的实验结果见表17-1,结论概括为:“大鼠血浆中β-内啡肽含量的变化趋势是一致的,受热5分钟后即上升,至30分钟时继续升高,至60分钟时有所下降,单含量仍然比5分钟时高,饲料锌水平对热暴露大鼠β-内啡肽含量的影响:无论哪一个时间点上,高锌、中锌组含量均比低锌高,统计学有显著性差异”。

表17-1 锌和热暴露对大鼠血浆β-内啡肽含量(pg.mg-1)的影响()组别对照组 5min 30min 60min

高锌组 60.82±6.22 60.14±6.76 90.48±6.98 83.20±5.79

中锌组 57.13±6.13 65.41±6.55 83.20±7.11 82.28±6.35

低锌组 28.04±5.28 43.76±4.62 49.14±6.02 57.13±4.81

案例分析:此研究采用的时3×4*6的析因设计,但所用方法仅仅时单独效应的方差分析,而没有通过析因分析来分析主效应和交互效应。如果能够给出主效应和交互效应的分析并配合轮廓图,会使研究结论更丰富和全面一些。本案例在公开发表的文献中具有一定代表性。

小结

1、所有方差分析的计算可依据离均差平方和分解实现。

2、析因分析可分析各因素的主效应,因素间的的交互效应以及因素的单独效应。交互效应分析有助于最佳因素组合方案的筛选,交互效应轮廓图可以直观显示因素间的主效应和交互效应。

3、析因设计最好选用平衡设计,因为效率比较高,但啡平衡设计也是可行的。析因设计的因素不宜安排太多,比如最好不要超过4个。

4、二阶段交叉设计主要有所需样本量比较少和可以减少随机误差量大优点,缺点是后效应相同或无后效应的要求限制应用。故不适用于急性病研究和有明显后效应的药物研究。

5、正交设计适于因素和水平数比较多时机型最佳因素和水平组合筛选的研究。

第十九章重复测量设计资料的方差分析

案例19-1 观察10名慢性乙型肝炎患者治疗前,治疗12周,治疗24周、36周4个时间点上谷丙转氨酶(ALT)水平的变化趋势,见下表19-3。

表19-3 A药品治疗慢性乙型肝炎不同时间谷丙转氨酶(ALT)水平(U/L)

治疗后

患者编号治疗前 12周 24周 36周

1 160 105 147 135

2 415 371 258 182

3 327 9

4 36 51

4 174 113 63 50

5 201 2

6 55 20

6 289 20 1

7 21

7 85 44 56 62

8 176 165 136 83

9 76 215 34 81

10 75 94 51 59

试回答问题:

(1)写出方差分析的检验假设和备择假设

(2)对上述数据进行随机区组设计的方差分析,结论如何?采用随机区组设计妥当吗?(3)对上述数据进行重复测量设计的方差分析,结论如何?采用重复测量设计妥当吗?s (4)如果两种方法结论不同,试解释其原因。

案例19-2 为研究国产某药品与同类型进口药品对慢性乙肝患者谷丙转氨酶(ALT)水平的影响,将20名慢性乙肝患者随机等分为两组,一组服用国产药品作为试验组,另外一组服用进口药品作为对照组。对每一患者在治疗前、治疗后12周、24周、36周重复4次测量ALT水平,试验结果如下。

试讨论:

(1)该研究类型?

(2)每个患者的疗效变化用什么数据表示?

(3)适用什么统计量说明疗效的差别?

(4)慢性乙型肝炎患者的ALT水平受哪些因素影响?

(5)用什么统计方法推论两药物的治疗效果?结论如何?

表19-13 两种药品治疗慢性乙型肝炎不同时间谷丙转氨酶(ALT)水平(U/L)

观察时间

分组编号治疗前 12周 24周 36周

试验组

1 160 105 147 135

2 415 371 258 182

3 327 9

4 36 51

4 174 113 63 50

5 201 2

6 55 20

6 289 20 1

7 21

7 85 44 56 62

8 176 165 136 83

9 76 215 34 81

10 75 94 51 59

对照组 1 258 67 27 25

2 271 495 29 27

3 100 9

4 4

5 73

4 164 44 116 82

5 130 63 120 125

6 109 133 142 45

7 75 134 67 56

8 85 118 31 20

9 335 74 49 27

10 176 84 128 97

小结

1、前后测量设计不同于配对设计,配对设计可以同期观察实验结果,可以比较处理组之间的差别。前后测量设计不能同期观察试验结果,例如考察减肥药的服用效果,本质上比较的是前后差别,推论处理是否有效是有条件的,即假定测量时间对观测结果没有影响。配对t 检验要求同一对子的两个实验单位的观察结果分别与差值互相独立,并且差值服从正态发布。而前后测量设计两次观察结果通常与差值不独立,常常不服从正态发布,大多数情况第一次观察结果与第二次观察结果差值负相关关系,即相关系数为负值。配对设计和前后设计都可以使用平均差值推论处理的作用,前后设计还可以进行相关分析,建立直线回归方程

2、当前后测量设计的重复测量次数t≥3时,此时称为重复测量设计数据或重复测量数据当重复测量数据满足“球对称”(Huynh-Feldt简称H-F条件)假设时,可用随机区组方差分析比较处理组间差异。如果不满足“球对称”假设,需要对方差分析表的F值进行校正。校正的方法是用“球对称”系数ε(Eplison)乘以处理间效应F界值的自由度df1和df2,得到df1ε和df2ε,应用作为检验界值。“球对称”系数ε(Eplison)估计方法常用的有Green-Geisser,Huy-Feldt和Lower-bound3种方法,参考中医药统计学与软件第235页,SPSS操作部分。

3、如果不考虑单组重复测量数据是否满足“球对称”假设,可采用Hotelling T2检验分析各时间点的差别有无统计学意义。

4、设立对照组的重复测量数据的方差分析,变异来源可以分解为处理组、测量时间、处、理组与测量时间的交互作用、受试对象的随机误差以及重复测量误差5个部分。如果处理与时间存在交互作用、说明试验组各时间点的单独效应与对照组各时间点的单独效应的变化趋势不同,应根据对照组与处理组各时间点的变化趋势判定处理效应。

5、重复测量数据在医学论文中操作比较多的误用情况,例如重复进行各时间点的t检验,“平均”生长曲线不能够发现个体曲线变化特征,差值比较通常不满足正态性、方差齐性等假设。

6、协方差分析也是设立对照的前后测量设计可选用的一种分析方法,单必须检验作为反应变量的测量结果是否满足协方差分析的前提条件,例如:总体斜率相等、正态性、方差齐性等。

第二十章多重线性回归

案例20-1 为了研究糖尿病患者的C反应蛋白Y与年龄X1和体重指数X2的关系,某研究者调查了60名糖尿病患者,测量收集C反应蛋白Y(mg/L)与年龄X1和体重指数X2,结果见表20-15,试分析C反应蛋白Y与年龄X1和体重指数X2的关系。

表20-15 C反应蛋白Y与年龄X1和体重指数X2的资料

No X1 X2 Y No X1 X2 Y No X1 X2 Y No X1 X2 Y

1 48 26.

2 2.0 16 61 24.1 1.8 31 46 22.4 1.2 46 80 25.4 2.2

2 81 26.

3 2.0 17 60 23.7 2.7 32 53 22.

4 1.6 47 82 29.7 3.5

3 67 25.6 1.0 18 81 28.1 3.0 33 73 25.7 2.7 48 61 24.1 1.6

4 51 26.2 2.4 19 7

5 27.7 2.7 34 74 27.3 3.2 49 51 23.5 1.3

5 52 24.4 1.7 20 75 26.2 2.4 35 67 24.7 2.0 50 47 24.0 1.7

6 78 26.1 1.0 21 66 26.6 2.5 36 81 25.

7 2.5 51 75 28.1 2.5

7 49 21.7 1.0 22 79 26.0 2.0 37 60 26.7 2.7 52 67 27.0 2.5

8 54 23.8 1.2 23 65 25.4 2.0 38 46 21.9 1.2 53 81 27.3 2.0

9 75 24.9 2.0 24 53 23.4 0.6 39 61 25.6 1.8 54 56 23.6 1.1

10 74 26.2 1.6 25 66 25.3 1.2 40 69 27.5 2.4 55 53 25.9 1.1

11 74 26.3 2.4 26 62 23.0 1.0 41 65 24.6 2.0 56 57 23.8 0.4

12 63 25.2 1.1 27 55 26.8 1.7 42 63 27.0 2.5 57 80 29.4 2.5

13 78 26.1 2.2 28 76 25.9 2.0 43 77 25.9 1.2 58 51 22.9 0.5

14 60 27.0 2.2 29 46 22.4 1.7 44 48 25.4 2.0 59 74 27.0 1.3

15 80 26.5 2.5 30 50 22.0 1.2 45 83 27.2 2.2 60 64 23.7 1.8

(1) 建立C反应蛋白Y与年龄X1的回归方程: -0.063+0.030X1.

(2) 建立C反应蛋白Y与体重指数X2的回归方程: -4.521+0.251X2.

(3) 建立C反应蛋白Y与年龄X1和体重指数X2的回归方程: -4.320+0.004X1+0233X2

(4) 分析(1)、(2)、(3)三个回归方程有无统计学意义,并解释X1、X2对Y所起的作用。年龄与Y相关吗?

小结

1、多重线性回归要求预测值与应变量的差值(即残差)服从正态分布,当样本量比较大时,可忽略正态性的要求;多重线性回归一般要求观察单位之间是独立的,因此传染病资料药谨慎处理。

2、在多重线性回归分析中,名义变量需要数量化;等级变量可根据实际情况选择直接引入回归模型货数量化后引入回归模型;连续变量直接引入。

3、在多重回归中,不同研究问题要采用不同的回归分析策略,对于寻找最佳预测模型或寻找主要影响因素,可采用最优子集的方法,例如逐步回归分析就是最优子集的近似,在夏结论时要谨慎。对于实验性研究一般不宜采用逐步回归。特别对干预性研究,一般在模型中保留干预变量,并根据实际研究,引入合适的子变量控制可能的混杂因素。

4、逐步回归的结果可以推断某因素与应变量有关联,单不能用逐步回归结果推断某因素与应变量无关联。

5、逐步回归所提出的自变量只能说明被剔除的自变量与应变量关联性不强,但是被剔除的自变量还是有可能对应变量与某个因素(研究因素)之间的关联性构成混杂作用,所以在实验性统计分析一般不宜采用逐步回归。

第二十一章协方差分析

案例21-1 表21-8是运动员与大学生的身高与肺活量的数据,考虑到身高与肺活量有关,而一般运动员身高高于大学生,为进一步分析肺活量的差异是由由于体育锻炼所致,必须考虑控制身高变量对分析结果的影响。

表21-8 大学生的身高与肺活量的数据

运动员大学生

身高肺活量身高肺活量

184.9 4300 168.7 3450

167.9 3850 170.8 4100

171.0 4100 165.0 3800

171.0 4300 169.7 3300

188.0 4800 171.5 3450

179.0 4000 166.5 3250

177.0 5400 165.0 3600

179.5 4000 165.0 3200

187.0 4800 173.0 3950

187.0 4800 169.0 4000

169.0 4500 173.8 4150

188.0 4780 174.0 3450

176.7 3700 170.5 3250

179.0 5250 176.0 4100

183.0 4250 169.5 3650

180.5 4800 176.3 3950

179.0 5000 163.0 3500

178.0 3700 172.5 3900

164.0 3600 177.0 3450

174.0 4050 173.0 3850

经过计算,肺活量总均数为4033.25,运动员组均数为4399.00,大学生组均数为3667.50。常用是对两组肺活量变化Y做t检验或方差分析,其结果为:F=27.928,P<0.0001,差别有统计学意义。协方差分析表明,混杂因素身高(X)在两组间是有差异的(F=10.679,P=0.002),控制其影响后,两组肺活量的差别仍然存在(F=9.220,P=0.004),故可以认为两组间肺活量均数在消除了身高因素影响后仍然差值差别,即运动员肺活量大于大学生,即体育锻炼会增加肺活量。注意到增加协变量后其F值明显减小,试对该问题用SPSS软件作协方差分析,并考虑协变量对F值的影响。

案例21-2 为研究三种饲料(A1,A2,A3)对猪的催肥效果,用每种饲料喂养8头猪一段时间,测得每头猪的初始重量(X)和增重(Y),数据见表21-9

表21-9 3种饲料喂养猪的初始重量和增重(单位:kg)

A1 A2 A3

X Y X Y X Y

15 85 17 97 22 89

13 83 16 90 24 91

11 65 18 100 20 83

12 76 18 96 23 95

12 80 21 103 25 100

16 91 22 106 27 102

14 84 19 99 30 105

17 90 18 94 32 110

请分析3种饲料对猪的催肥效是否相同?

小结

1、本章介绍协变量与协变量控制的基本思想,介绍完全随机设计分组的协方差分析的软件实现。

2、协方差分析的应用条件是:一是与线性回归的应用条件相同,理论上要求残差服从正态分

布,各观察相互独立,各样本方差齐性;二是各总体应变量与协变量之间差值线性回归关系并且斜率相同(回归线平行)即要求各样本回归系数有显著性,但是各个样本回归系数之间的差别无显著性。因此在做协方差分析时,需要对资料进行方差齐性检验和回归系数的假设检验,必须满足这两个条件才能够作协方差分析。

3、协方差分析的变量可以是连续变量和等级变量,但不能是影响处理的变量。协变量是不能够人为控制,进行实验设计时,不能够对这个影响因素进行水平划分或对同一水平找到足够多的重复受试对象,但又不能够忽视其对观察指标的影响,只能人为它与观察因素存在回归关系,从而用协方差分析方法排除它对指标的影响。如果在多个因素研究中多因素(协变量)存在而难以控制,而这些协变量对观察变量可能有影响,解决这类问题可用多元协方差分析或多元线性回归的方法。

第二十二章 logistic回归

案例22-1 为了探讨糖尿病与血压、血脂等因素的关系,研究者对56例糖尿病病人和65例对照者进行病例?对照研究,收集了性别、年龄、学历、体重指数、家族史、吸烟、血压、总胆固醇、甘油三脂、高密度脂蛋白、低密度脂蛋白11个因素的资料,各因素的观察结果见表22-1,数据见表22-2。

表22-1 糖尿病10个相关因素与赋值

因素变量名赋值

性别X1 男=1,女=2

年龄X2

学历X3 小学以下=1,小学=2,初中=3,

高中=4,大专及以上=5

体重指数X4 <24=1,24?<26=2, 26?=3

家族史X5 无=1,有=2

吸烟X6 不吸=1 吸=2

血压X7 正常=1, 高=2

总胆固醇X8

甘油三脂X9

高密度脂蛋白X10

低密度脂蛋白X11

糖尿病Y 对照=0,病例=1

表22-2 糖尿病与血压、血脂等因素的关系研究的数据

编号性别年龄学历体重指数家族史吸烟血压总胆

固醇甘油

三脂高密度

脂蛋白低密度

脂蛋白糖尿病

1 1 60

2 2 1 1 1 4.30 1.50 1.24 2.30 0

2 1 48

3 2 1 1 1 4.60 1.32 1.15 2.30 0

3 2 63 2 1 1 1 2 4.60 1.15 1.15 2.30 0

4 1 68 3 2 2 1 1 4.1

5 1.43 1.07 3.21 0

生物医学统计学

统计学是应用概率论和数理统计的方法,研究数据的搜集、整理、分析与推断的学科,是认识世界的一种重要手段。 变量(variable):就是反映个体特征或属性的量.变量值(variable value):变量的观察结果或测量值。定量变量quantitative variable/数值变量numerical variable 定性变量qualitative variable/分类变量categorical variable 同质(homogeneity)是指被研究指标的影响因素相同。但在医学研究中,有些影响因素往往是难以控制的(如遗传、营养等),甚至是未知的。因此,在实际工作中只有相对的同质。 变异(variation):同质基础上的各观察单位间的差异称为变异。 总体:是根据研究目的所确定的同质观察对象的全体,或者说所有同质的某指标实测值的集合。样本:根据随机化的原则从总体中抽取有代表性的部分观察单位,其变量实测值构成样本。 参数(parameter):根据总体变量值统计计算出来的、描述总体特征的统计指标。统计量(statistic):根据样本变量值统计计算出来的、描述样本特征的统计指标。 误差:指测量值和真实值之间的差别 准确度(accuracy) :观察值与真值的接近程度,受系统误差的影响。可靠度(reliability):也称精密度(precision)或重复性(repeatability):是重复观察时观察值与其均值的接近程度,受随机误差的影响。 概率:是描述随机事件发生的可能性大小的一种度量,常用P表示。0≤P≤1 随机事件 P=1 必然事件P=0 不可能事件P≤0.05或P≤0.01为小概率事件 统计工作的基本步骤: 统计设计(研究对象,处理因素,统计分析),搜集资料(任务:遵循统计学原理,按照设计要求,采取必要措施得到准确可靠的原始资料。原则:及时、准确、完整。),整理资料(编码,将数据输入计算机;纠错改错、补漏等;根据研究目的将原始数据进行归纳、分组或计算),分析资料如何对数值变量进行统计描述。1频数表与频数分布图2集中趋势的统计描述3离散趋势的统计描述 相对数的概念包括率、构成比、相对比和动态数列,由于它是两个有联系的指标之比,因而叫作相对数。相对数应用中的注意事项1计算相对数的分母不易过小2防治概念混淆, 分析时不能以构成比代替率3对观察单位不等的几个率,不能直接相加求其平均率。4资料的对比应注意同质5对样本率的比较应遵循随机抽样,要作假设检验。 率:表示在一定条件下,发生某现象的观察单位数与可能发生某现象的观察单位数之比。 构成比表示某一现象内部各组成部分所占的比重或分布。特征1各组成部分的构成比之和为100% 2某一部分构成比增大或减小,必然使其它部分产生相应的变化。注意区别率和构成比虽然两者均为两个指标之比,但意义却完全不同。率反应了某项指标的平均强度或平均水平,它具有数值变量中平均数的含意,构成比表示某一现象内部各组成部分所占的比重或分布,不能反应该现象的平均强度或平均水平。 正态分布的概念若将各直条顶端的中点顺次连接起来,得到一条折线。当样本量n越来越大时,组段越分越细,此时直方渐进直条,这条折线就越来越接近于一条光滑的曲线(见图3.1),我们把这条呈中间高,两边低,左右基本对称的“钟型”曲线称为正态分布曲线,近似于数学上的正态分布(高斯分布; Gauss)。正态分布的特征1.集中性:正态曲线在横轴上方均数处最高2.对称性:以均数为中心,左右对称。3.正态分布的图形由均数和标准差两个参数决定。位置参数μ;变异度参数σ4. 正态分布曲线下的面积分布有一定规律:正态曲线与横轴所夹的面积为1(1.64,1.96,2.58)应用1. 制定医学参考值范围2. 估计频数分布3. 进行质量控制4.正态分布是许多统计方法的理论基础 二项分布在医学研究中,许多观察或试验的可能结果可以归结为二个相互排斥的结果。性质与特征⑴形态取决于π和n:当π接近0.5时,分布对称,π离

常用医学统计学方法汇总

选择合适的统计学方法 1连续性资料 1.1 两组独立样本比较 1.1.1 资料符合正态分布,且两组方差齐性,直接采用t检验。 1.1.2 资料不符合正态分布,(1)可进行数据转换,如对数转换等,使之服从正态分布,然后对转换后的数据采用t检验;(2)采用非参数检验,如Wilcoxon检验。 1.1.3 资料方差不齐,(1)采用Satterthwate 的t’检验;(2)采用非参数检验,如Wilcoxon检验。 1.2 两组配对样本的比较 1.2.1 两组差值服从正态分布,采用配对t检验。 1.2.2 两组差值不服从正态分布,采用wilcoxon的符号配对秩和检验。 1.3 多组完全随机样本比较 1.3.1资料符合正态分布,且各组方差齐性,直接采用完全随机的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey 法,Scheffe法,SNK法等。 1.3.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的Kruscal-Wallis法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用成组的Wilcoxon检验。 1.4 多组随机区组样本比较 1.4.1资料符合正态分布,且各组方差齐性,直接采用随机区组的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey 法,Scheffe法,SNK法等。 1.4.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的Fridman检验法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用符号配对的Wilcoxon检验。 ****需要注意的问题: (1)一般来说,如果是大样本,比如各组例数大于50,可以不作正态性检验,直接采用t 检验或方差分析。因为统计学上有中心极限定理,假定大样本是服从正态分布的。 (2)当进行多组比较时,最容易犯的错误是仅比较其中的两组,而不顾其他组,这样作容易增大犯假阳性错误的概率。正确的做法应该是,先作总的各组间的比较,如果总的来说差别有统计学意义,然后才能作其中任意两组的比较,这些两两比较有特定的统计方法,如上面提到的LSD检验,Bonferroni法,tukey法,Scheffe法,SNK法等。**绝不能对其中的两

(完整版)医学统计学第六版课后答案

第一章绪论 一、单项选择题 答案 1. D 2. E 3. D 4. B 5. A 6. D 7. A 8. C 9. E 10. D 二、简答题 1答由样本数据获得的结果,需要对其进行统计描述和统计推断,统计描述可以使数据更容易理解,统计推断则可以使用概率的方式给出结论,两者的重要作用在于能够透过偶然现象来探测具有变异性的医学规律,使研究结论具有科学性。 2答医学统计学的基本内容包括统计设计、数据整理、统计描述和统计推断。统计设计能够提高研究效率,并使结果更加准确和可靠,数据整理主要是对数据进行归类,检查数据质量,以及是否符合特定的统计分析方法要求等。统计描述用来描述及总结数据的重要特征,统计推断指由样本数据的特征推断总体特征的方法,包括参数估计和假设检验。 3答统计描述结果的表达方式主要是通过统计指标、统计表和统计图,统计推断主要是计算参数估计的可信区间、假设检验的P 值得出相互比较是否有差别的结论。 4答统计量是描述样本特征的指标,由样本数据计算得到,参数是描述总体分布特征的指标可由“全体”数据算出。 5答系统误差、随机测量误差、抽样误差。系统误差由一些固定因素产生,随机测量误差是生物体的自然变异和各种不可预知因素产生的误差,抽样误差是由于抽样而引起的样本统计量与总体参数间的差异。 6答三个总体一是“心肌梗死患者”所属的总体二是接受尿激酶原治疗患者所属的总体三是接受瑞替普酶治疗患者所在的总体。 第二章定量数据的统计描述 一、单项选择题 答案 1. A 2. B 3. E 4. B 5. A 6. E 7. E 8. D 9. B 10. E 二、计算与分析 2

医学统计学分析基本思路指南

医学统计学分析基本思路指南 医学统计学的学习一定要以理解为主。对于初学者,不必强记一大堆的公式,也不要死钻牛角尖,非要弄明白为什么这种方法叫“t检验”、“F检验”,为什么这个残差叫做“学生化残差”等等。这些都是历史遗留问题,感兴趣的读者可以查阅统计学史。对于只想应用的人来讲,你只要了解在什么情况下应该用什么方法,什么指标应该用于什么情形。尽管多数统计教材都说了数据分析应该先做假设检验,然后选定统计量,然后怎么怎么。但实际中我们拿到一堆数据的时候,不会坐在桌上先列出零假设和备择假设,也不会满座子地计算统计量。 更实际的分析思路是: (1)先确定研究目的,根据研究目的选择方法。不同研究目的采用的统计方法不同,常见的研究目的主要有三类:一是差异性研究,即比较组间均数、率等的差异,可用的方法有t检验、方差分析、χ2检验、非参数检验等。二是相关性分析,即分析两个或多个变量之间的关系,可用的方法有相关分析。三是影响性分析,即分析某一结局发生的影响因素,可用的方法有线性回归、logistic回归、Cox回归等。 (2)明确数据您身边的论文好秘书:您的原始资料与构思,我按您的意思整理成优秀论文论著,并安排出版发表,扣1550116010 、766085044自信我会是您人生路上不可或缺的论文好秘书类型,根据数据类型进一步确定方法。不同数据类型采用的统计方法也不同。定量资料可用的方法有t检验、方差分析、非参数检验、线性相关、线性回归等。分类资料可用的方法有χ2检验、对数线性模型、logistic回归等。图1.6简要列出了不同研究目的、不同数据类型常用的统计分析方法。 (3)选定统计方法后,需要利用统计软件具体实现统计分析过程。SAS中,不同的统计方法对应不同的命令,只要方法选定,便可通过对应的命令辅之以相应的选项实现统计结果的输出。 (4)统计结果的输出并非数据分析的完成。一般统计软件都会输出很多结果,需要从中选择自己需要的部分,并做出统计学结论。但统计学结论不同于专业结论,最终还需要结合实际做出合理专业结论。下面是本人简单总结的常用方法的选择,可供读者参考。

2017年人民大学统计学生物医学统计学考研参考书

2017年人民大学统计学生物医学统计学考研参考书 统计学:生物医学统计学 风险管理与精算学: 《概率论》,李贤平,高等教育出版社 《数理统计基础》,陆璇,清华大学出版社 《概率论与数理统计》,茆诗松、周纪芗,中国统计出版社 《应用回归分析》,何晓群等编,中国人民大学出版社 《统计学》,贾俊平等编,中国人民大学出版社 概率论与数理统计: 《数学分析》上、下册复旦大学数学系陈传璋、金福临等编高等教育出版社《高等代数》北京大学出版社 《概率论》李贤平高等教育出版社 《数理统计基础》陆璇清华大学出版社 《概率论与数理统计》茆诗松、周纪芗中国统计出版社 流行病与卫生统计学: 《流行病学》詹思延人民卫生出版社 《卫生统计学》方积乾、徐勇勇、陈峰编人民卫生出版社 (专业学位)应用统计: 《统计学》第四版贾俊平中国人民大学出版社配套习题 《应用回归分析》何晓群等编中国人民大学出版社 《多元回归分析》何晓群等编中国人民大学出版社 《抽样技术》金勇进等编中国人民大学出版社 《时间序列分析》易丹辉中国人民大学出版社 《概率论与数理统计》第三版刘次华高等教育出版社配套习题 2017年新祥旭考研全程复习计划

一、英语全程规划 基础阶段(3月-6月) 1.学习目标:完成至少1轮的单词背诵,巩固语法基础 2.阶段重点:英语单词、语法 3.复习建议: (1)英语每天抽空背背单词,建议时长0.5-1h;不管是用单词软件还是传统词书,不管是用词根词缀还是死记硬背,最重要的是每天都背。积累到某一天时,你会发现好多文章都看得懂了。 (2)英语基础不牢的童鞋,应该花点时间复习语法。语法知识能帮助你在读文章和翻译时更加流畅、对文章意思把握得更准确。 (3)多看看新闻,关注时事热点。近年来的英语作文和阅读都是涉及到热点话题的。 (4)不建议大家在这个阶段做习题集。 强化阶段(7月-10月) 1.学习目标:熟读并详细分析近10年真题 2.阶段重点:真题真题真题,重点是阅读 3.复习建议: (1)单词记忆每天进行,不间断。 (2)定时做真题阅读,做完后详细分析。 ①利用早上整段的时间做真题(作文可以不写),不要查单词,完全自己做,然后对答案,之后看一下答案分析。 ②每天分析2-3篇,分析包括:第一遍分析正确选项,第二遍分析错误选项的设置,第三遍在原位中找对应的句子,是每个选项对应的句子哟,分析为什么这样出题,第四遍,了解文章的背景,作者的情感。 ③此阶段不建议专门建立单词笔记本,重要的单词在分析时顺便查一下就好。 ④时间比较充足的童鞋可以全文翻译阅读原文。 (3)完成阅读后,用同样的方法完型、翻译和新题型。完型和新题型这两类题型不用全文

生物医学研究的统计学方法_课后习题答案 2014 主编 方积乾

思考与练习参考答案 第1章绪论 一、选择题 1. 研究中的基本单位是指( D)。 A.样本 B. 全部对象C.影响因素 D. 个体 E. 总体 2. 从总体中抽取样本的目的是( B )。 A.研究样本统计量 B. 由样本统计量推断总体参数 C.研究典型案例 D. 研究总体统计量E. 计算统计指标 3. 参数是指( B )。 A.参与个体数 B. 描述总体特征的统计指标 C.描述样本特征的统计指标 D. 样本的总和 E. 参与变量数 4. 下列资料属名义变量的是(E)。 A.白细胞计数B.住院天数 C.门急诊就诊人数D.患者的病情分级 E. ABO血型 5.关于随机误差下列不正确的是(C)。 A.受测量精密度限制B.无方向性 C. 也称为偏倚 D.不可避免 E. 增加样本含量可降低其大小 二、名称解释(答案略) 1. 变量与随机变量 2. 同质与变异 3. 总体与样本 4. 参数与统计量 5. 误差 6. 随机事件 7. 频率与概率 三、思考题 1. 生物统计学与其他统计学有什么区别和联系? 答:统计学可细分为数理统计学、经济统计学、生物统计学、卫生统计学、医学统计学等,都是关于数据的学问,是从数据中提取信息、知识的一门科学与艺术。而生物统计学是统计学原理与方法应用于生物学、医学的一门科学,与医学统计学和卫生统计学很相似,其

不同之处在于医学统计学侧重于介绍医学研究中的统计学原理与方法,而卫生统计学更侧重于介绍社会、人群健康研究中的统计学原理与方法。 2. 某年级甲班、乙班各有男生50人。从两个班各抽取10人测量身高,并求其平均身高。如果甲班的平均身高大于乙班,能否推论甲班所有同学的平均身高大于乙班?为什么? 答:不能。因为,从甲、乙两班分别抽取的10人,测量其身高,得到的分别是甲、乙两班的一个样本。样本的平均身高只是甲、乙两班所有同学平均身高的一个点估计值。即使是按随机化原则进行抽样,由于存在抽样误差,样本均数与总体均数一般很难恰好相等。因此,不能仅凭两个样本均数高低就作出两总体均数熟高熟低的判断,而应通过统计分析,进行统计推断,才能作出判断。 3. 某地区有10万个7岁发育正常的男孩,为了研究这些7岁发育正常男孩的身高和体重,在该人群中随机抽取200个7岁发育正常的男孩,测量他们的身高和体重,请回答下列问题。 (1) 该研究中的总体是什么? 答:某地区10万个7岁发育正常的男孩。 (2) 该研究中的身高总体均数的意义是什么? 答:身高总体均数的意义是: 10万个7岁发育正常的男孩的平均身高。 (3) 该研究中的体重总体均数的意义是什么? 答:体重总体均数的意义是: 10万个7岁发育正常的男孩的平均体重 (4) 该研究中的总体均数与总体是什么关系? 答:总体均数是反映总体的统计学特征的指标。 (5)该研究中的样本是什么? 答:该研究中的样本是:随机抽取的200个7岁发育正常的男孩。 (宇传华方积乾) 第2章统计描述 思考与练习参考答案 一、最佳选择题 1. 编制频数表时错误的作法是( E )。 A. 用最大值减去最小值求全距 B. 组距常取等组距,一般分为10~15组 C. 第一个组段须包括最小值 D. 最后一个组段须包括最大值

医学统计学试题及答案

第一套试卷及参考答案 一、选择题(40分) 1、根据某医院对急性白血病患者构成调查所获得的资料应绘制(B ) A 条图 B 百分条图或圆图 C 线图 D 直方图 2、均数和标准差可全面描述D 资料的特征 A 所有分布形式B负偏态分布C正偏态分布D正态分布和近似正态分布 3、要评价某市一名5 岁男孩的身高是否偏高或偏矮,其统计方法是(A ) A 用该市五岁男孩的身高的95% 或99% 正常值范围来评价 B 用身高差别的假设检验来评价 C 用身高均数的95%或99% 的可信区间来评价 D 不能作评价 4、比较身高与体重两组数据变异大小宜采用(A ) A 变异系数 B 方差 C 标准差 D 四分位间距 5、产生均数有抽样误差的根本原因是(A ) A.个体差异 B. 群体差异 C. 样本均数不同 D. 总体均数不同 6.男性吸烟率是女性的10倍,该指标为(A ) (A)相对比(B)构成比(C)定基比(D)率 7、统计推断的内容为(D ) A.用样本指标估计相应的总体指标 B.检验统计上的“检验假设” C. A 和B 均不是 D. A 和B 均是 8、两样本均数比较用t 检验,其目的是检验(C ) A 两样本均数是否不同 B 两总体均数是否不同 C 两个总体均数是否相同 D 两个样本均数是否相同 9、有两个独立随机的样本,样本含量分别为n1和n2,在进行成组设计资料的t检验时,自由度是(D ) (A)n1+ n2 (B)n1+ n2 –1 (C)n1+ n2 +1 (D)n1+ n2 -2 10、标准误反映(A ) A 抽样误差的大小 B 总体参数的波动大小 C 重复实验准确度的高低 D 数据的离散程度 11、最小二乘法是指各实测点到回归直线的(C) A垂直距离的平方和最小B垂直距离最小C纵向距离的平方和最小D纵向距离最小 12、对含有两个随机变量的同一批资料,既作直线回归分析,又作直线相关分析。令对相关系数检验的t值为t r,对回归系数检验的t 值为t b,二者之间具有什么关系?(C) A t r>t b B t rχ20.05,ν可认为(A ) A 各总体率不同或不全相同 B 各总体率均不相同 C 各样本率均不相同 D 各样本率不同或不全相同 15、某学院抽样调查两个年级学生的乙型肝炎表面抗原,其中甲年级调查35人,阳性人数4人;乙年级调查40人,阳性人数8 人。该资料宜选用的统计方法为(A ) A.四格表检验B. 四格表校正检验C t 检验D U 检验 16、为调查我国城市女婴出生体重:北方n1=5385,均数为3.08kg,标准差为0.53kg;南方n2=4896,均数为3.10kg,标准差为0.34kg,经统计学检验,p=0.0034<0.01,这意味着(D ) A 南方和北方女婴出生体重的差别无统计学意义 B 南方和北方女婴出生体重差别很大

哈佛大学生物医学信息学专业详解.doc

哈佛大学生物医学信息学专业详解 校名称: 美国哈佛大学(剑桥) Harvard University (Cambridge) 所在位置:美国,86 Brattle Street Cambridge, MA 02138

创建时间:1636年 QS排名:1 USNEWS排名:2 学费:39849 录取率:0.058 学校中文网址:https://meiguo./school/2139/

哈佛大学生物医学信息学硕士专业由哈佛医学院生物医学信息学系提供,它提供给有志于从事对数据科学技能有很高要求的生物医学行业的学生。学生有机会向整个哈佛大学的专家们学习。毕业生对生物医学信息学领域的基础知识和原理有充分的理解,有能力将众多方法和技能运用于选定的行业。 以下是哈佛大学生物医学信息学专业介绍,带你了解。 1. 学位要求 哈佛医学院的生物医学信息学专业提供两条入学的路径。对于持有学士学位(48个学分)的学生,它要求具备优秀的定量分析能力。 对于持有博士学位或者注册医学博士(MD)项目(36个学分)的学生,它要求: a. 持有生物医学学位,并认可信息学与数据科学在个人研究中的相关性。 b. 有意向拿到临床信息学进修资格。 c.

有意向在医学实践中挖掘信息学的重要意义。 针对以上两类学生的课程都提供知识框架,便于将系统的定量方法熟练地运用到自己的领域。项目包含实践拓展训练营、一系列设计定量合生物医学学科的基础课程,以及精准施药、数据科学、数据可视化等新兴领域的课程。 所有学生都需要完成一个顶石研究项目,参与纵向的系列研讨会。 2. 入学要求 生物医学信息学硕士新生必须具备相关专业的本科知识,比如生物信息学、数学、计算机科学、统计学、物理学、机械工程、化学工程。必须具备一定的生物统计学基础,比如假设检验、线性回归、分类。必须了解分类器(classifier),分类器的检测及诊断。 此外,必须具备一定的程序设计和计算机科学知识,至少有一门程序语言经历(包括算法、变量、控制结构相关知识),对R编程语言有基本的认识,了解文件管理、数据解析、基础数据库原理等数据处理知识。 3. 课程

生物医学研究统计方法 第12章 实验设计思考与练习参考答案

第12章实验设计 思考与练习参考答案 一、最佳选择题 1. 处理因素作用于受试对象的反映须通过观察指标来表达,则选择指标的依据具有( E )。 A.客观性 B. 特异性 C. 敏感性 D. 特异性和敏感性 E. A与D 2. 以前的许多研究表明,血清三酰甘油的含量与冠心病危险性有关,即三酰甘油的含量越高,患冠心病的危险性就越大,有的医生以此筛选危险人群。后来的研究表明,冠心病还与其他因素有关,特别是血清中高含量胆固醇和低含量的高密度脂蛋白,它们常与冠心病同时发生联系,采用严格的实验设计平衡了其他因素的作用后,发现三酰甘油的含量与冠心病发病的危险性之间的联系就不复存在了。这是以下选项中的(B)选项把握得较好所致。 A. 重复实验次数较多 B.均衡性原则考虑得周到 C.用多因素设计取代单因素设计 D.提高实验人员的技术水平 E.严格按随机化原则进行分组 3. 实验共设4个组,每组动物数均为4只,在4个不同的时间点上对每只犬都进行了观测,资料概要列于教材表12-7中,此资料取自(B)。(注:B100 mg代表用B药的剂量) 教材表12-7 Beagle犬受6.5 Gy不均匀γ射线照射再用B药后外周血白细胞总数的结果━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━时间白细胞总数(S X ,×109/L) ─────────────────────────────────────── /天照射对照照射+B100 mg 照射+阳性对照药照射+B100 mg+阳性对照药────────────────────────────────────────────照射前 14.30±3.77 14.70±2.83 14.08±1.60 13.98±1.37 照射后: 6 3.68±0.82 4.26±1.40 5.28±1.52 6.90±0.97 12 7.23±0.83 7.44±1.10 8.75±1.02 10.53±1.57 18 6.87±1.50 9.26±1.36 9.87±1.23 12.78±1.83 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ A. 具有一个重复测量的两因素 B.具有一个重复测量的三因素设计 C.两因素析因设计 D. 三因素析因设计 E.交叉设计 4. 已知A、B、C都是三水平因素,且根据预试验结果得知,三个因素之间的各级交互作用都很重要,需要考察。好在这个实验作起来比较方便,需要的费用和时间都比较少。最好选用(A)。 A.析因设计B. 交叉设计C. 随机区组设计 D. 配对设计 E. 单因素三水平设计

流行病学与生物统计学生物统计学与流行病学卫生和生物医学专业人员入门(第三版)

流行病学与生物统计学生物统计学与流行病学卫生和生物 医学专业人员入门(第三版) Sylvia Wassertheil-Smoller, Department of Epidemiology and Population Health, Albert Einstein College of Medicine Biostatistics and Epidemiology A Primer for Health and Biomedical Professionals Third Edition xx, 243pp. Softcover $ 33.20 ISBN 0-387-40292-6

本书是由美国Albert Einstein医学院流行病学和群体健康系流行病学室Sylvia Wassertheil Smoller教授编著的。第一版于1990年出版,第二版于1995年出版,现为第三版。本书的特点是根据流行病学和统计学的基本框架,使读者理解流行病学与生物统计学的基本原理,理解“为什么做”和“做什么?”学会“如何做、如何解释”。书中的内容都是临床试验和基础研究中最常用的、或是在文献中经常引用的。 全书共分9章。第1章讲述科研方法问题,包括逻辑推理、变异、研究设计、变量的量化、无效假设、假设检验、检验错误的类型、显著性水平等;第2章叙述概率的一些基本概念;第3章介绍常用的统计学检验方法;第4章介绍流行病学的基本概念,包括流行病学的应用、常用指标、流行病学研究类型、偏倚、混杂、交互、多变量分析等;第5章介绍筛检的基本概念;第6章是叙述随机对照临床试验;第7章介绍生活质量的评价,包括量表的结构、可靠性、真实性、敏感性(反应性)以及用量表评价生活质量的局限性;第8章介绍遗传流行病学的基本概念,包括双生子研究、连锁和联系分析、传递不平衡检验等;第9章阐述科研伦理学与统计学的关系。第8、9两章的

常用医学统计学方法汇总

选择合适的统计学方法 1 连续性资料 1.1 两组独立样本比较 1.1.1 资料符合正态分布,且两组方差齐性,直接采用t 检验。 1.1.2 资料不符合正态分布,(1)可进行数据转换,如对数转换等,使之服从正态分布,然后对转换后的数据采用t 检验;(2)采用非参数检验,如Wilcoxon 检验。 1.1.3 资料方差不齐,(1)采用Satterthwate 的t '检验;(2)采用非参数检验,如Wilcoxon 检验。 1.2 两组配对样本的比较 1.2.1 两组差值服从正态分布,采用配对t 检验。 1.2.2 两组差值不服从正态分布,采用wilcoxon 的符号配对秩和检验。 1.3 多组完全随机样本比较 1.3.1 资料符合正态分布,且各组方差齐性,直接采用完全随机的方差分析。如果检验结果 为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey 法,Scheffe 法,SNK 法等。 1.3.2 资料不符合正态分布,或各组方差不齐,则采用非参数检验的Kruscal -Wallis 法。如 果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni 法校正P 值,然后用成组的Wilcoxon 检验。 1.4 多组随机区组样本比较 1.4.1 资料符合正态分布,且各组方差齐性,直接采用随机区组的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD 检验,Bonferroni 法,tukey 法,Scheffe 法,SNK 法等。 1.4.2 资料不符合正态分布,或各组方差不齐,则采用非参数检验的Fridman 检验法。如果 检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni 法校正P 值,然后用符号配对的Wilcoxon 检验。 **** 需要注意的问题: (1)一般来说,如果是大样本,比如各组例数大于50,可以不作正态性检验,直接采用t 检验或方差分析。因为统计学上有中心极限定理,假定大样本是服从正态分布的。 (2)当进行多组比较时,最容易犯的错误是仅比较其中的两组,而不顾其他组,这样作容易增大犯假阳性错误的概率。正确的做法应该是,先作总的各组间的比较,如果总的来说差别有统计学意义,然后才能作其中任意两组的比较,这些两两比较有特定的统计方法,如上面提到的LSD 检验,Bonferroni 法,tukey 法,Scheffe 法,SNK 法等。** 绝不能对其中的两 组直接采用t检验,这样即使得出结果也未必正确**

常用医学统计学方法的选择

常用医学统计学方法的选择 1. 多组率的比较用卡方检验(χ2检验,chi-square test) 直接用几个率的数值比较,与直接用原始数据录入比较,结果会有什么不同?卡方值会受样本量的影响,样本越多,卡方值越大。 2.多组计量资料比较采用方差分析(F检验) ,不能用t检验。当方差分析结果为P<0.05时,只能说明k组总体均数之间不完全相同。若想进一步了解哪两组的差别有统计学意义,需进行多个均数间的多重比较,即SNK-q检验(多个均数两两之间的全面比较)、LSD-t检验(适用于一对或几对在专业上有特殊意义的均数间差别的比较)和Dunnett检验(适用于k-1个实验组与一个对比组均数差别的多重比较)。 3.非正态分布多组数据之间比较选用非参数检验、单样本中位数检验(符号检验和Wilcoxon 检验)、双样本中位数检验(Mann-Whitney 检验)、方差分析(Kruskal-Wallis、Mood 中位数和Friedman 检验) 4.按血糖水平从低到高分成多组,进行多组之间死亡率的比较,由于死亡率同样受年龄、性别、病史、您身边的论文好秘书:您的原始资料与构思,我按您的意思整理成优秀论文论著,并安排出版发表,扣1550116010 、766085044自信我会是您人生路上不可或缺的论文好秘书血脂等因素的影响,所以需选取合适统计方法实现“调整年龄、性别等危险因素后,按血糖分组进行死亡率的比较(由血糖从低到高分成的4组)”。 ①年龄是定量变量(是数值),调整年龄的方法可在Logistic回归中运用,连续性变量年龄加入covariate中,当成协变量,就可以调整年龄,age-adjusted odds ratio就能得到了。 ②性别性别是二分类变量,不是定量变量,不可在LOGISTIC回归里比较。调整性别可在卡方检验中采取分层的方法比较。 如果为多分类LOGISTIC回归,在选择用multinomianl LOGISTIC回归中,可选入年龄等进入covariate,观察年龄的配比情况。可把性别选入factors(自变量)。这样可以实现调整年龄、性别等危险因素。 5.回顾性研究(1)临床妊娠率和女性年龄的关系+(2)男性影响临床妊娠的精子参数比较: 数据类型及变量的说明:y:计量 拟采用的分析方法:卡方检验 拟采用的分析软件:spss 原始数据附件及格式:word表 能否用其他方法统计分析:可用卡方分割,调整检验水准(根据比较的次数N,校正后的检验水准为0.05/N)。 6.重复t检验:多个样本均数间的两两比较(又称多重比较)不宜用t检验,因为重复数次,t 检验将增加第一类错误的概率,使检验效率降低。此时宜用方差分析,并在此基础上用两两比较方法(如.SNK、LSD、Duncan法等)。 对于同一对均数间的差异,用t检验无显著性,而两两比较可能有显著性,可见错误选用统计方法将推出错误结论。 统计方法的选择: 分计量、计数、等级资料三

医学统计学各种资料比较_选择方法小结

医学统计学各种资料比较选择方法小结 一、两组或多组计量资料的比较 1.两组资料: 1)大样本资料或服从正态分布的小样本资料 (1)若方差齐性,则作成组t检验 (2)若方差不齐,则作t’检验或用成组的Wilcoxon秩和检验 2)小样本偏态分布资料,则用成组的Wilcoxon秩和检验 2.多组资料: 1)若大样本资料或服从正态分布,并且方差齐性,则作完全随机的方差分析。如果方差分析的统计检验为有统计学意义,则进一步作统计分析:选择合适的方法(如:LSD检验,Bonferroni检验等)进行两两比较。 2)如果小样本的偏态分布资料或方差不齐,则作Kruskal Wallis的统计检验。如果Kruskal Wallis的统计检验为有统计学意义,则进一步作统计分析:选择合适的方法(如:用成组的Wilcoxon秩和检验,但用Bonferroni方法校正P值等)进行两两比较。 二、分类资料的统计分析 1.单样本资料与总体比较 1)二分类资料: (1)小样本时:用二项分布进行确切概率法检验; (2)大样本时:用U检验。

2)多分类资料:用Pearson c2检验(又称拟合优度检验)。 2. 四格表资料 1)n>40并且所以理论数大于5,则用Pearson c2 2)n>40并且所以理论数大于1并且至少存在一个理论数<5,则用校正c2或用Fisher’s 确切概率法检验 3)n£40或存在理论数<1,则用Fisher’s 检验 3. 2×C表资料的统计分析 1)列变量为效应指标,并且为有序多分类变量,行变量为分组变量,则行评分的CMH c2或成组的Wilcoxon秩和检验 2)列变量为效应指标并且为二分类,列变量为有序多分类变量,则用趋势c2检验 3)行变量和列变量均为无序分类变量 (1)n>40并且理论数小于5的格子数<行列表中格子总数的25%,则用Pearson c2 (2)n£40或理论数小于5的格子数>行列表中格子总数的25%,则用Fisher’s 确切概率法检验 4. R×C表资料的统计分析 1)列变量为效应指标,并且为有序多分类变量,行变量为分组变量,则CMH c2或Kruskal Wallis的秩和检验 2)列变量为效应指标,并且为无序多分类变量,行变量为有序多分类变量,作none zero correlation analysis的CMH c2 3)列变量和行变量均为有序多分类变量,可以作Spearman相关分析

医学统计学-名词解释

统计学 1.医学统计学: 是运用统计学原理和方法研究生物医学资料的搜集、整理、分析和推断的一门学科。(医学研究的对象主要是人体以及与人体的健康和疾病相关的各种因素) 2.同质: 性质相同的事物成为同质的,否则成为异质的或间杂的。 (观察单位间的同质性的进行研究的前提,也是统计分析的必备条件,缺乏同质性的观察单位的不能笼统地混在一起进行分析的) 3.变异: 是指在同质的基础上各观察单位(或个体)之间的差异。 4.总体: 总体是根据研究目的所确定的同质观察单位的全体。 5.样本: 样本是从总体中随机抽取的部分个体。(样本中包含的个体数称为样本含量) 6.随机: 即机会均等,是为了保证样本对总体的代表性、可靠性,使各对比组间在大量不可控制的非处理因素的分布方面尽量保持均衡一致,而采取的一种统计学措施。(包括抽样随机、分组随机、实验顺序随机) 7.统计量: 由样本所算出的统计指标或特征值称为统计量。(反映样本特性的有关指标) 8.参数: 总体的统计指标或特征值称为参数。 (总体参数是事物本身固有的、不变的,为常数) 9.抽样误差: 从某总体中随机抽取一个样本来进行研究,而所得样本统计量与总体参数常不一致,这种由抽样引起的样本统计量与总体参数间的差异称为抽样误差。这种在抽样研究中不可避免。 (抽样误差有两种表现形式:①样本统计量与总体参数间的差异?②样本统计量间的差异) 10.概率: 描述事件发生可能性大小的一个度量,常用P表示,取值为0≤P≤1。 11.频率: 用随机事件A发生表示观察到某个可能的结果,则在n次观察中,其中有m次随机事件A发生了,则称A发生的比例0≤f≤1为频率。显然有?f?=?m?/?n 12.小概率事件: 当某事件发生的概率小于或等于时,统计学上称该事件为小概率事件,其涵义为该事件发生的可能性很小,进而认为其在一次抽样中不可能发生。(为进行统计推断的依据) 13.定量资料: 以定量值表达每个观察单位的某项观察指标,如血脂,心率等。 14.定性资料: 以定性方式表达每个观察单位的某项观察指标,表现为互不相容的类别或属性,如血型、性别等。 15.等级资料: 以等级表达每个观察单位的某项观察指标,如疗效分级、血粘度、心功能分级等。 ? 第二章、统计资料的整理与描述 1.中位数: 就是将一组观察值按升序或降序排列,位次居中的数,常用M表示。

医学统计学重点图表总结

定量资料统计描述常用的统计指标及其适用场合 描述内容指标意义适用场合 平均水平均数个体的平均值对称分布 几何均数平均倍数取对数后对称分布 中位数位次居中的观察值 ①非对称分布;②半定量资料;③末端开口资料; ④分布不明 众数频数最多的观察值不拘分布形式,概略分析 调和均数基于倒数变换的平 均值 正偏峰分布资料 变异度全距观察值取值范围不拘分布形式,概略分析 标准差(方差)观察值平均离开均 数的程度 对称分布,特别是正态分布资料 四分位数间距居中半数观察值的 全距 ①非对称分布;②半定量资料;③末端开口资料; ④分布不明 变异系数标准差与均数的相 对比 ①不同量纲的变量间比较;②量纲相同但数量级相 差悬殊的变量间比较 4. 常用统计图有哪些?分别适用于什么分析目的? 常用统计图的适用资料及实施方法 条图组间数量对比用直条高度表示数量大小 直方图定量资料的分布用直条的面积表示各组段的频数或频率 百分条图构成比用直条分段的长度表示全体中各部分的构成比 饼图构成比用圆饼的扇形面积表示全体中各部分的构成比 线图定量资料数值变动线条位于横、纵坐标均为算术尺度的坐标系 半对数线图定量资料发展速度线条位于算术尺度为横坐标和对数尺度为纵坐标的坐标系 1

1 散 点 图 双变量间的关联 点的密集程度和形成的趋势,表示两现象间的相关关系 箱 式 图 定量资料取值范围 用箱体、线条标志四分位数间距及中位数、全距的位置 茎 叶 图 定量资料的分布 用茎表示组段的设置情形,叶片为个体值,叶长为频数 定性资料统计描述常用的统计指标及其适用场合 指标 计算公式 适用场合 频率 n/N 估计总体中某一结局发生的概率 频率分布 n 1/N ,n 2/N,…..,n k /N 估计总体中所有可能结局发生的概率 强度 阳性人数/总观察人时数 估计总体中单位时间内某一结局发生的概率 比 A/B 估计两个指标的相对大小 4.常用参考值范围的制定? 参考值范围(%) 正态分布法 百分位数法 双侧 单侧 双侧 单侧 下限 上限 下限 上限 90 S X 64.1± S X 1.28- S X 1.28+ P 5~P 95 P 10 P 90 95 S X 96.1± S X 64.1- S X 64.1+ P 2.5~P 97 .5 P 5 P 95 99 S X 58.2± S X 2.33- S X 2.33+ P 0.5~P 99 .5 P 1 P 99 1.标准差与标准误的区别与联系?

医学统计学题库完整

第一章 绪论习题 一、选择题 1.统计工作和统计研究的全过程可分为以下步骤:(D ) A. 调查、录入数据、分析资料、撰写论文 B. 实验、录入数据、分析资料、撰写论文 C. 调查或实验、整理资料、分析资料 D. 设计、收集资料、整理资料、分析资料 E. 收集资料、整理资料、分析资料 2.在统计学中,习惯上把(B )的事件称为小概率事件。 A.10.0≤P B. 05.0≤P 或01.0≤P C. 005.0≤P D.05.0≤P E. 01.0≤P 3~8 A.计数资料 B.等级资料 C.计量资料 D.名义资料 E.角度资料 3.某偏僻农村144名妇女生育情况如下:0胎5人、1胎25人、2胎70人、3胎30人、4胎14人。该资料的类型是( A )。 4.分别用两种不同成分的培养基(A 与B )培养鼠疫杆菌,重复实验单元数均为5个,记录48小时各实验单元上生长的活菌数如下,A :48、84、90、123、171;B :90、116、124、225、84。该资料的类型是(C )。 5.空腹血糖测量值,属于( C )资料。 6.用某种新疗法治疗某病患者41人,治疗结果如下:治愈8人、显效23人、好转6人、恶化3人、死亡1人。该资料的类型是(B )。 7.某血库提供6094例ABO 血型分布资料如下:O 型1823、A 型1598、B 型2032、AB 型641。该资料的类型是(D )。 8. 100名18岁男生的身高数据属于(C )。 二、问答题 1.举例说明总体与样本的概念. 答:统计学家用总体这个术语表示大同小异的对象全体,通常称为目标总体,而资料常来源于目标总体的一个较小总体,称为研究总体。实际中由于研究总体的个体众多,甚至无限多,因此科学的办法是从中抽取一部分具有代表性的个体,称为样本。例如,关于吸烟与肺癌的研究以英国成年男子为总体目标,1951年英国全部注册医生作为研究总体,按照实验设计随机抽取的一定量的个体则组成了研究的样本。 2.举例说明同质与变异的概念 答:同质与变异是两个相对的概念。对于总体来说,同质是指该总体的共同特征,即该总体区别于其他总体的特征;变异是指该总体内部的差异,即个体的特异性。例如,某地同性别同年龄的小学生具有同质性,其身高、体重等存在变异。 3.简要阐述统计设计与统计分析的关系 答:统计设计与统计分析是科学研究中两个不可分割的重要方面。一般的,统计设计在前,然而一定的统计设计

硕士医学统计学知识点总结汇总

第2章统计描述 1.对定量资料进行统计描述时,如何选择适宜的指标? 定量资料统计描述常用的统计指标及其适用场合描述内容指 标 意义适用场合 平均水平均 数 个体的平均值对称分布 几何均数平均倍数取对数后对称分布 中位数位次居中的观察值 ①非对称分布;②半定量资料;③末端开 口资料;④分布不明 众 数 频数最多的观察值不拘分布形式,概略分析 调和均数基于倒数变换的平均值正偏峰分布资料 变异度全 距 观察值取值范围不拘分布形式,概略分析 标准 差 (方差) 观察值平均离开均数的 程度对称分布,特别是正态分布资料 四分位数 间距 居中半数观察值的全距 ①非对称分布;②半定量资料;③末端开口 资料;④分布不明 变异系数标准差与均数的相对比 ①不同量纲的变量间比较;②量纲相同但 数量级相差悬殊的变量间比较 定性资料:阳性事件的概率,概率分布,强度和相对比。 2. 应用相对数时应注意哪些问题? 答:(1)防止概念混淆相对数的计算是两部分观察结果的比值,根据这两部分观察结果的特点,就可以判断所计算的相对数属于前述何种指标。 (2)计算相对数时分母不宜过小样本量较小时以直接报告绝对数为宜。 (3)观察单位数不等的几个相对数,不能直接相加求其平均水平。 (4)相对数间的比较须注意可比性,有时需分组讨论或计算标准化率。 3. 常用统计图有哪些?分别适用于什么分析目的? 常用统计图的适用资料及实施方法 图形适用资料实施方法 条图组间数量对比用直条高度表示数量大小 直方图定量资料的分布用直条的面积表示各组段的频数或频率 百分条图构成比用直条分段的长度表示全体中各部分的构成比 饼图构成比用圆饼的扇形面积表示全体中各部分的构成比 线图定量资料数值变动线条位于横、纵坐标均为算术尺度的坐标系 半对数线图定量资料发展速度线条位于算术尺度为横坐标和对数尺度为纵坐标的坐标系散点图双变量间的关联点的密集程度和形成的趋势,表示两现象间的相关关系 箱式图定量资料取值范围用箱体、线条标志四分位数间距及中位数、全距的位置茎叶图定量资料的分布用茎表示组段的设置情形,叶片为个体值,叶长为频数

相关文档
最新文档