(完整版)医学统计学第六版(马斌荣)课后习题答案

(完整版)医学统计学第六版(马斌荣)课后习题答案
(完整版)医学统计学第六版(马斌荣)课后习题答案

第一章绪论部分

一、单项选择题

答案 1. D 2. E 3. D 4. B 5. A 6. D 7. A 8. C 9. E 10. D

二、简答题

1答由样本数据获得的结果,需要对其进行统计描述和统计推断,统计描述可以使数据更容易理解,统计推断则可以使用概率的方式给出结论,两者的重要作用在于能够透过偶然现象来探测具有变异性的医学规律,使研究结论具有科学性。

2答医学统计学的基本内容包括统计设计、数据整理、统计描述和统计推断。统计设计能够提高研究效率,并使结果更加准确和可靠,数据整理主要是对数据进行归类,检查数据质量,以及是否符合特定的统计分析方法要求等。统计描述用来描述及总结数据的重要特征,统计推断指由样本数据的特征推断总体特征的方法,包括参数估计和假设检验。

3答统计描述结果的表达方式主要是通过统计指标、统计表和统计图,统计推断主要是计算参数估计的可信区间、假设检验的P 值得出相互比较是否有差别的结论。

4答统计量是描述样本特征的指标,由样本数据计算得到,参数是描述总体分布特征的指标可由“全体”数据算出。

5答系统误差、随机测量误差、抽样误差。系统误差由一些固定因素产生,随机测量误差是生物体的自然变异和各种不可预知因素产生的误差,抽样误差是由于抽样而引起的样本统计量与总体参数间的差异。

6答三个总体一是“心肌梗死患者”所属的总体二是接受尿激酶原治疗患者所属的总体三是接受瑞替普酶治疗患者所在的总体。

第三章正态分布与医学参考值范围

一、单项选择题

答案 1. A 2. B 3. B 4. C 5. D 6. D 7. C 8. E 9. B 10. A

二、计算与分析

1

2[参考答案] 题中所给资料属于正偏态分布资料,所以宜用百分位数法计算其参考值范围。又因血铅含量仅过大为异常,故应计算只有上限的单侧范围,即95P 。

第四章定性数据的统计描述

一、单项选择题

答案 1. A 2. C 3. D 4. D 5. E 6. E 7. E 8. A 9. D 10. E

二、计算与分析

1[参考答案] 不正确,因为此百分比是构成比,不是率,要知道男女谁更易患病,需得到1290名职工中的男女比例,然后分别计算男女患病率。

2[参考答案] 不正确,此为构成比替代率来下结论,正确的计算是用各年龄段的死亡人数除各年龄段的调查人数得到死亡率。

3[参考答案] 不正确,此为构成比替代率来下结论,正确的计算是用各型肝炎的新病例数除以同时期内可能会发生该病的人群人口数得到发病率。

第五章统计表与统计图

一、单项选择题

答案 1. E 2. D 3. B 4. E 5. D 6. E 7. E 8. E 9. E 10. D

1.[参考答案] 本表的缺点有:1、无标题2、横表目与纵标目分类不明确,标目设计不合理“合计”不清晰,不便于比较分析3、线条过多,比例数小数位不统一。

2..[参考答案] 本题应用直方图表示839例正常人发汞值分布情况,由于最后一组的组距与其它组不等,需要变成等组距。为保持原始数据的组距一致为0.2,把最后一组频数转换为36/(0.6/0.2)=12

3.[参考答案] 将表中数据绘制成普通线图可以看出:60岁之前,男女食管癌年龄别发病率随年龄增长的变化趋势差异较小,60岁之后,男性随年龄变化食管癌发病率比女性增长较快,差异明显扩大。

将表中数据绘制成半对数线图可以看出,不同性别食管癌年龄别发病率随年龄变化的快慢速度相当,且女性的趋势和转折点更清楚。应用半对数线图能够更恰当地表示指标的变化趋势

第六章参数估计与假设检验

一、单项选择题

答案 1. E 2. D 3. E 4. C 5. B 6. E 7. C 8. D 9. D 10. D 1.[参考答案] 样本含量为450,属于大样本,可采用正态近似的方法计算可信区间。

2.[参考答案] 根据已知条件可知1n=1022n=1041p=94.4%

2p=91.26%

3.[参考答案] ①均数的标准误可以用来衡量样本均数的抽样误差大小

②样本含量为100,属于大样本,可采用正态近似的方法计算可信区间。

③因为100名曾患心脏病且胆固醇高的子代儿童的胆固醇平均水平的95%可信区间的下限高于正常儿童的总胆固醇平均水平175mg/dl提示患心脏病且胆固醇高的父辈其子代胆固醇水平较高即高胆固醇具有一定的家庭聚集性。第二章定量数据的统计描述

一、单项选择题

答案 1. A 2. B 3. E 4. B 5. A 6. E 7. E 8. D 9. B 10. E

二、计算与分析

2

第七章t检验

一、单项选择题

答案 1. E 2. D 3. E 4. D 5. C 6. E 7. C 8. C 9. B 10. B

1.[参考答案] 采用单样本均数t检验进行分析。

2.[参考答案] 本题为配对设计资料采用配对样本均数t检验进行分析

3.[参考答案] 由题意得

本题是两个小样本均数比较,可用成组设计t检验,首先检验两总体方差是否相等。

5.[参考答案] 本题是两个小样本均数比较,可用成组设计t检验或't 检验,首先检验两总体方差是否相等。

第八章方差分析

一、单项选择题

答案: 1. E 2. B 3. C 4. E 5. D 6. D 7. D 8. D 9. D 10. C

二、计算与分析

1.[参考答案] 本例为完全随机设计三个均数比较问题,若资料满足方差齐性要求,可采用完全随机设计方差分析。

2.[参考答案] 本例为随机区组设计三个均数比较问题,若资料满足方差齐性要求,可采用随机区组设计方差分析。

3.[参考答案] 本例为析因设计均数比较问题

第九章卡方检验

一、单项选择题

答案: 1. D 2. C 3. E 4. C 5. B 6. D 7. C 8. B 9. E 10. C

2[参考答案] 由于有格子理论数小于1故采用精确概率法。按照周边合计最小原则可能的组合数为5+1=6。可能的组合情况如下表。

根据所得P值,在=0.05 检验水准下,不拒绝H0,尚不能认为两种不同疗法的患者病死率不等。

第十章非参数秩和检验

一、单项选择题

答案 1. A 2. B 3. D 4. C 5. E 6. A 7. E 8. A 9. A 10. E

第十一章线性回归与相关

一、单项选择题

答案 1. B 2. E 3. A 4. E 5. C 6. D 7. C 8. D 9. E 10. D

2计算统计量

医学统计学名词解释及问答题

1、总体(population):是根据研究目的确定的同质研究对象的全体。 2、样本(sample):从总体中抽取的一部分有代表性的个体。 3、同质(homogeneity):是指所研究的观察对象具有某些相同的性质或特征。 4、变异(variation):指同质个体的某项指标之间的差异。 5、参数(parameter):反映总体特征的指标称为参数。 6、统计量(statistic):通过样本资料计算出来的相应指标称为统计量。 7、抽样误差(sampling error):由随机抽样造成的样本指标与总体指标之间、样本指标与样本指标之间的差异。 8、概率(probability):某事件发生的可能性大小。 9、正态分布(normal distribution):高峰位于均数处,中间高两边低,左右完全对称地下降,但永远不与横轴相交的钟形曲线。 10、平均数(average):是描述一组同质变量值的平均水平或集中趋势的指标。 11、中位数(median):将一组数据由小到大排列,位于中间位置的观测值。 12、医学参考值范围(medical reference range):又称正常值范围,医学上常将包括绝大多数正常人的某项指标的波动范围称为该指标的正常值范围。 13、方差(variance):是各个数据与平均数之差的平方的平均数。 14、标准差(standard deviation):是各数据偏离平均数的距离的平均数,它是离均差平方和平均后的方根,用σ表示。 15、标准误(standard error):样本均数的标准差,等于原变量总体标准差除以例数的平方根,用以说明均数抽样误差的大小。 16、均数的抽样误差(sampling error of mean):由个体差异和抽样所导致的样本均数与样本均数之间,样本均数与总体均数之间的差异。 17、假设检验(hypothesis testing):先对总体做出某种假设,然后根据样本信息来推断其是否成立的一类统计方法的总称。 18、统计推断(statistical inference):是根据已知的样本信息来推断未知的总体,是统计分析的目的,包括参数估计和假设检验。 19、Ⅰ型错误(type Ⅰ error):拒绝了实际上成立的H0,这类弃真错误,发生的概率为α,为已知。 20、Ⅱ型错误(type Ⅱ error):不拒绝实际上不成立的H0,这类存伪错误,发生的概率为β,未知。 21、检验效能(power of test):又称把握度,为1-β,其意义是两总体确有差别,按α水准能发现它们有差别的能力。 22、可信区间(confidence interval):指总体参数可能所在的范围。 23、率(rate):说明某现象发生的频率或强度。 24、构成比(constituent ratio):表示某事物内部各组成部分所占的比重或分布,常以百分数表示。 25、相对比(relative ratio):表示两个有关事物指标之比,常以百分数和倍数表示,用以说明一个指标是另一个指标的几倍或百分之几。 26、标准化率(standardized rate):亦称调整率,是采用统一的标准对内部构成不同的各组频率进行调整和对比的方法。 27、参数检验(parametric test):一类依赖于总体分布的具体形式的统计推断方法。 28、非参数检验(non parametric test):一类不依赖总体分布类型的检验,在应用中可以不考虑被研究对象为何种分布以及分布是否已知,检验假设中没有包括总体参数的统计方法。

医学统计学 名词解释+问答题-1

医学统计学 1、应用相对数时应注意的事项 ①计算相对数时分母不能太小; ②分析时不能以构成比代替率; ③当各分组的观察单位数不等时,总率(平均率)的计算不能直接将各分组的率相加求其平均; ④对比时应注意资料的可比性:两个率要在相同的条件下进行,即要求研究方法相同、研究对象同质、观察时间相等以及地区、民族、年龄、性别等客观条件一致,其他影响因素在各组的内部构成应相近; ⑤进行假设检验时,要遵循随机抽样原则,以进行差别的显著性检验。 2、正态分布的特点及其应用 性质:①两头低中间高,略呈钟形; ②只有一个高峰,在X=μ,总体中位数亦为μ; ③以均数为中心,左右对称; ④μ为位置参数,当σ恒定时,μ越大,曲线沿横轴越向右移动; σ为变异度参数,当μ恒定时,σ越大,表示数据越分散,曲线越矮胖,反之,曲线越瘦高; ⑤对于任何服从正态分布N(μ,σ2)的随机变量X作的线性变换,都会变换成u 服从于均数为0,方差为1的正态分布,即标准正态分布。 应用:①概括估计变量值的频数分布; ②制定参考值范围; ③质量控制; ④是许多统计方法的理论基础。 3、确定参考值范围的一般原则和步骤、方法 一般原则和步骤:①抽取足够例数的正常人样本作为观察对象; ②对选定的正常人进行准确而统一的测定,以控制系统误差; ③判断是否需要分组测定; ④决定取单侧范围值还是双侧范围值; ⑤选定适当的百分范围; ⑥选用适当的计算方法来确定或估计界值。 方法:①正态分布法:②百分位数法(偏态分布) 4、总体均数的可信区间与参考值范围的区别 概念:可信区间是按预先给定的概率来确定的未知参数μ的可能范围。 参考值范围是绝大多数正常人的某指标范围。所谓正常人,是指排除了影响所研究指标的疾病和有关因素的人;所谓绝大多数,是指范围,习惯上指正常人的95%。 计算公式:可信区间① ② ③ 参考值范围①正态分布 ②偏态分布 用途:可信区间用于总体均数的区间估计 参考值范围用于表示绝大多数观察对象某项指标的分布范围

研究生医学统计学试题

试卷编号:卷课程名称:医学统计学适用专业:科学学位专业:班级 姓名:学号:学院 (系 ):考试日期:题号一二三四五六七八九十总分统分题分30152530100签名得分 考生注意事项: 1、本试卷共6 页,请查看试卷中是否有缺页或破损。如有立即举手报告以 便更换。 2、考试结束后,考生不得将试卷、答题纸和草稿纸带出考场。 一、最佳选择题(每题 2 分,共 30 分) 得评阅 把每题的答案填入下表中: 123456789101112131415 A B C D B B A C C C B B C D B 1、描述一组正态分布资料的集中趋势,以指标为好。 A. 算术平均数; B. 几何平均数; C. 中位数; D. 变异系数 2、比较成人身高和儿童身高的离散趋势,宜用。 A. 标准差; B. 变异系数; C. 方差; D. 离均差平方和 3、对于正态分布资料,X +1.96S,所对应的面积占总面积的。 A. 95% ; B. 99% ; C. 47.5%; D. 49.5% 4、下列说法哪个是错误的?中位数适用于描述资料。 A. 最小组段无下限; B. 最大组段无上限; C. 偏态分布; D. 正态分布 5、大,表示用该样本均数估计总体均数的可靠性小。 A. S X; B. S; C.CV; D. Q U—Q L 6、某地 1992年随机抽取 100名健康女性,算得其血清总蛋白含量的均数为74g/L ,标准差为 4g/L ,则其 95%的可信区间为。

7、两样本均数比较的t 检验,分别取以下检验水准,以所取第二类错误最大。 A. α =0.01; B. α=0.05; C. α =0.10; D.α=0.20 8、两样本均数比较的t 检验结果, P<0.05 ,可认为。 A. 两样本均数不等; B. 两样本均数相等; C. 两总体均数不等; D. 两总体均数相等 9、完全随机设计的方差分析结果,P≤ 0.05,可认为。 A. 各样本均数不等或不全等; B. 各样本均数都不相等; C. 各总体均数不等或不全等; D. 各总体均数都不相等 10、某地某年肝炎发病人数占总人数的5%,这是该地该年肝炎的。 A. 年发病率; B. 年患病率; C. 患病构成比; D. 患者平均数 11、已知甲县人口较乙县年青,今欲比较两县死亡率的高低,适当的比较方法是。 A.将两县的总死亡率直接比较; B.对年龄进行标准化后,再比较两县总死亡率; C.将两县的总死亡率进行 t 检验后再比较; D.将两县的总死亡率进行χ2检验后再比较 12、下面哪一点不是Poisson 分布的性质。 A. λ =σ2; B. 当λ≥ 20 时,近似正态分布; C. 可加性; D. 相互影响性 13、χ2检验中理论数T 的计算式为。 A. n r (1 n c ) ; B. (1 n r ) n c; C. n r n c; D. n r n c N N N N 14、已知两组计量资料方差不齐,可用检验。 A. t 检验; B. U 检验; C. F 检验; D. 秩和检验 15、对一组既做相关分析又做回归分析的资料,有。 A. b=r ; B. t b=t r; C. b=a; D. r=1

医学统计知识点整理(1)

医学统计学知识点整理 第一节统计学中基本概念 一、同质与变异 同质:统计研究中,给观察单位规定一些相同的因素情况。 如儿童的生长发育,规定同性别、同年龄、健康的儿童即为同质的儿童。 变异:同质的基础上个体间的差异。 “同质”是相对的,是客观事物在特定条件下的相对一致性,而“变异”则是绝对的 二、总体与样本 1、总体:是根据研究目的所确定的,同质观察对象(个体)所构成的全体。 2、样本:是从总体中随机抽取的部分观察单位变量值的集合。 三、参数与统计量 总体参数:根据总体个体值统计计算出来的描述总体的特征量。用希腊字母表示。μ.δ.π 样本统计量:根据样本个体值统计计算出来的描述样本的特征量。用拉丁字母表示。X.S.p 总体参数一般是不知道的,抽样研究的目的就是用样本统计量来推断总体参数,包括区间估计和假设检验 四、误差:实测值与真值之差★ 1.随机误差:是一类不恒定的、随机变化的误差,由多种尚无法控制的因素引起。随机测量误差、抽样误差。 2.系统误差:是一类恒定不变或遵循一定变化规律的误差,其产生原因往往是可知的或可能掌握的。 3.非系统误差:过失误差,可以避免或清除。 五、概率 是用来描述事件发生可能性大小的一个量值,常用P表示。概率取值0~1。 统计上一般将P≤0.05或P≤0.01的事件称为小概率事件,表示其发生的概率很小,可以认为在一次抽样中不会发生。 第二节统计资料的类型★

变量:确定总体之后,研究者应对每个观察单位的某项特征进行观察或测量,这种特征能表现观察单位的变异性,称为变量。 一、数值变量资料 又称为计量资料、定量资料:观测每个观察单位某项指标的大小而获得的资料。表现为数值大小,带有度、量、衡单位。如身高(cm)、体重(kg)、血红蛋白(g)等。 二、无序分类变量资料 又称为定性资料或计数资料:将观察对象按观察对象的某种类别或属性进行分组计数,分组汇总各组观察单位后得到的资料。 分类:二分类:+ -;有效,无效;多分类:ABO血型系统 特点:没有度量衡单位,多为间断性资料 【例题单选】某地A、B、O、AB血型人数分布的数据资料是( ) A.定量资料 B.计量资料 C.计数资料 D.等级资料 【答案】C 【解析】ABO血型系统人数分布资料属于无序分类变量资料,又称为计数资料。因为是按照变量的血型分类,血型表现为互不相容的属性。所以本题选C。 【例题单选】测量正常人的脉搏数所得的变量是() A.二分类变量 B.多分类变量 C.定量变量 D.定性变量 【答案】C 【解析】脉搏数有数值大小,有度量衡,所以这个资料属于定量资料。本题选C。 三、有序分类变量资料 半定量资料或等级资料:将观察对象按观察对象的某种属性的不同程度分成等级后分组计数,分组汇总各组观察单位后得到的资料。 特点:每一个观察单位没有确切值,各组之间有性质上的差别或程度上的不同举例:- + ++ +++ 第三节统计工作的基本步骤★ 1.统计设计 2.收集资料

2001级研究生医学统计学试卷

2001级研究生卫生统计学试卷 2002.1.5. 姓名学号得分 一.选择题:(每小题2分,共30分) ( d )1.在众多的变异指标中,有一种可以用以比较单位不同的两组定量资料(同一组内的数据单位相同)的变异性大小,它就是: (A)标准差(B)相关系数 (C)标准误(D)变异系数 (d )2.在进行显著性检验时,通常要先给定α值,根据样本数据计算出某统计量的值之后便可计算出一个p值来。可以说α值与p值之间有如下关系: (A)p=2α(B)p=α (C)p与α值在数量上有关,但无法简单地将其表达出来 (D)p与α值在数量上无关,但可按它们之间的大小作出统计推断 ( d )3.有些人在处理定量资料时习惯于用多次t检验代替方差分析和两两比较,这样做将会导致: (A)计算量增大(B)假阴性错误率增大 (C)试验误差大(D)假阳性错误率增大 ( b )4.为了解两种治疗方法对原发性肝癌的疗效,随机把病人分成两组,一组用5-氟尿嘧啶+辅助治疗,另一组用安慰剂+辅助治疗。治疗结果按缓解、死亡划分。第 一组12人,7人缓解、5人死亡;第二组11人,4人缓解、7人死亡,要分析两 种疗法的治疗效果之间的差别有无显著性意义,应选用的统计方法是: (A)χ2检验(B)Fisher的精确概率 (C)t检验(D)秩和检验 (a )5.某医生测得男、女各50人淋巴细胞计数L(%)(即占白细胞数的百分比),想用成组设计资料的t检验分析男、女两性之间的差别有无显著性意义,在作检验前 最好对数据作()变换。 (A)平方根(B)对数(C)平方根反正弦(D)倒数 ( a )6.有5份血清的抗体效价分别为:1:80、1:20、1:320、1:40、1:640,最合适反映此资料平均水平的指标是: (A)几何均数(B)算术均数(C)中位数(D)标准差 ( b )7.若分析肺活量和身高之间的数量关系,拟用身高值预测肺活量值,则采用(A)相关分析(B)直线回归分析 (C)方差分析(D)χ2检验 ( c )8.用二项分布直接计算概率法检验,H0:π=0.45,H1:π<0.45,当随机样本含

医学统计学章节重点归纳

医学统计学章节重点归纳 第一节概述 1、主要内容:a、卫生统计学的基本原理和方法(研究设计和数据处理中的统计理论和方法)b、健康统计(医 学人口统计、疾病统计和生长发育统计)c、卫生服务统计(卫生资源、医疗卫生服务的需求和利用、医疗保健制度和管理中的统计问题)。 2、 卫生统计工作的步骤:设计、资料的搜集、资料的整理、资料的分析 3、医学统计资料主要四个方面:统计报表、报告卡(单)、日常医疗卫生工作记录,专题研究或实验。 4、观察单位:是获得数据的最小单位,观察单位是根据研究目的确定的,观察单位可以是人、标本、家庭、国 家等。 5、变异:是指客观事物的多样性和不确定性。 6、变量: 观察单位的某种特征,称为变量。a、数值变量(定量变量)b、分类变量(定型变量或字符变量)。 7、总体:根据研究目的所确定的同质研究对象的全体。确切的说是性质相同的所有观察单位的某种变量的集合。 8、样本:从总体中随机抽取部分观察单位,其变量值就构成样本,通过样本信息来推断总体特征。 9、概率:事件发生的可能性大小的量度,通常以符号P表示。 10、误差:测量值与真值之差或样本指标和总体指标之差。分为随机误差和系统误差。 第二节数值资料的统计描述 1、频数分布就是观察值在所取得范围内分布的情况。重要特征:集中趋势和离散趋势。 2、频数分布类型:正态分布型频数、正偏态分布型频数,负偏态分布型频数。 3、集中趋势指标:算术平均数(均数)、几何均数、中位数。 指标使用条件计算公式 算术平均数适用于正态或近似正态分布 的数值变量资料 几何均数①对数正态分布,即数据经 过对数变换后呈正态分布的 资料;②等比级数资料,即 观察值之间呈倍数或近似倍 数变化的资料。 中位数①非正态分布资料(对数正 态分布除外);②频数分布 的一端或两端无确切数据的 资料③总体分布不清楚的资 料。为奇数 , 为偶数, 4、离散型趋势指标:极差、标准差和变异系数 指标计算公式主要优缺点 极差R=Xmax-Xmin 计算简单,便于理解;只考虑最大值与最小值之差异,不能反映 组内其它观察值的变异度,不稳定,受样本量影响很大。

医学统计学简答题

医学统计学简答题 1.简述标准差、标准误的区别与联系? 区别:(1)含义不同:标准差S表示观察值的变异程度,描述个体变量值(x)之间的变异度大小,S越大,变量值(x)越分散;反之变量值越集中,均数的代表性越强。标准误..估计均数的抽样误差的大小,是描述样本均数之间的变异度大小,标准误越大,样本均数与总体均数间差异越大,抽样误差越大;反之,样本均数越接近总体均数,抽样误差越小。 (2)与n的关系不同: n增大时,S趋于σ(恒定),标准误减少并趋于0(不存在抽样误差)。 (3)用途不同:标准差表示x的变异度大小、计算变异系数、确定医学参考值范围、计算标准误等,标准误用于估计总体均数可信区间和假设检验。 联系:二者均为变异度指标,样本均数的标准差即为标准误,标准差与标准误成正比。 2.简述假设检验的基本步骤。 1.建立假设,确定检验水准。 2.选择适当的假设检验方法,计算相应的检验统计量。 3.确定P值,下结论 3.正态分布的特点和应用:? 特点:?1、集中性:正态曲线的高峰位于正中央,即均数所在的位置;? 2、对称性:正态分布曲线位于直角坐标系上方,以x=u为中心,左右对称,曲线两端永远不与横轴相交; 3、均匀变动性:正态曲线由均数所在处开始,分别向左右两侧逐渐均匀下降;?

4、正态分布有两个参数,即均数μ和标准差σ,可记作N(μ,σ):均数μ决定正态曲线的中心位置;标准差σ决定正态曲线的陡峭或扁平程度。σ越小,曲线越陡峭;σ越大,曲线越扁平; ?5、u变换:为了便于描述和应用,常将正态变量作数据转换;?? 应用:?1.估计医学参考值范围?2.质量控制?3.正态分布是许多统计方法的理论基础 4.简述参考值范围与均数的可信区间的区别和联系 可信区间与参考值范围的意义、计算公式和用途均不同。 ?1.从意义来看?95%参考值范围是指同质总体内包括95%个体值的估计范围,而总体均数95%可信区间是指?95%可信度估计的总体均数的所在范围? 2.从计算公式看?若指标服从正态分布,95%参考值范围的公式是:±1.96s。?总体均数95%可信区间的公式是:??前者用标准差,后者用标准误。前者用1.96,后者用α为0.05,自由度为v的t界值。 5.频数表的用途和基本步骤。 用途:(1)揭示资料的分布特征和分布类型;(2)便于进一步计算指标和分析处理;(3)便于发现某些特大或特小可疑值。 基本步骤:(1)求出极差;(2)确定组段,一般设8~15个组段;(3)确定组距;组距=R/组段数,但一般取一方便计算的数字;(4)列出各个组段并确定每一组段频数。 6.非参数统计检验的适用条件。 (1)资料不符合参数统计法的应用条件(总体为正态分布、且方差相等)或总体分布类型未知;(2)等级资料;(3)分布呈明显偏态又无适当的变量转换方法使之满足参数统计条件;(4)在资料满足参数检验的要求时,应首选参数法,以免降低检验效能 7.线性回归的主要用途。

【缩印整理版】医学统计学名词解释及问答题

统计学(Statistics):运用概率论、数理统计的原理与方法,研究数据的搜集;分析;解释;表达的科学。 总体(population):大同小异的研究对象全体。更确切的说,总体是指根据研究目的确定的、同质的全部研究单位的观测值。 样本(sample):来自总体的部分个体,更确切的说,应该是部分个体的观察值。样本应该具有代表性,能反映总体的特征。利用样本信息可以对总体特征进行推断。 抽样误差(sampling error)在抽样过程中由于抽样的偶然性而出现的误差。表现为总体参数与样本统计量的差异,以及多个样本统计量之间的差异。可用标准误描述其大小。 标准误(Standard Error) 样本统计量的标准差,反映样本统计量的离散程度,也间接反映了抽样误差的大小。样本均数的标准差称为均数的标准误。均数标准误大小与标准差呈正比,与样本例数的平方根呈反比,故欲降低抽样误差,可增加样本例数 区间估计(interval estimation):将样本统计量与标准误结合起来,确定一个具有较大置信度的包含总体参数的范围,该范围称为置信区间(confidence interval,CI),又称可信区间。 参考值范围描述绝大多数正常人的某项指标所在范围;正态分布法(标准差)、百分位数法,参考值范围用于判断某项指标是否正常 置信区间揭示的是按一定置信度估计总体参数所在的范围。t分布法、正态分布法(标准误)、二项分布法。置信区间估计总体参数所在范围 可信区间:按预先给定的概率确定的包含未知总体参数的可能范围。该范围称为总体参数的可信区间(confidence interval,CI)。它的确切含义是:可信区间包含总体参数的可 能性是1- α ,而不是总体参数落在该范围的可能性为1-α 。 参数统计(parametric statistics) 非参数统计(nonparametric statistics)是指在统计检验中不需要假定总体分布形式和计算参数估计量,直接对比较数据(x)的分布进行统计检验的方法。 变异(variation):对于同质的各观察单位,其某变量值之间的差异 同质(homogeneity):研究对象具有的相同的状况或属性等共性。 回归系数有单位,而相关系数无单位 β为回归直线的斜率(slope)参数,又称回归系数(regression coefficient)。 线性相关系数(linear correlation coefficient):又称Pearson积差相关系数(Pearson product moment coefficient),是定量描述两个变量间线性关系的密切程度与相关方向的统计指标。 参数(parameter):描述总体特征的统计指标。 统计量(statistic):描述样本特征的统计指标。实验设计的基本原则 对照 (control) 对受试对象不施加处理因素的状态。在确定接受处理因素的实验组时,要同时设立对照组 重复 (replication)相同实验条件下进行多次实验或多次观察。整个实验的重复;观察多个受试对象(样本量);同一受试对象重复观察。作用是估计变异大小和降低变异 随机化(randomization) 采用随机的方式,使每个受试对象都有同等的机会被抽取或分配到试验组和对照组。 I类错误(假阳性错误)真实情况为H0是成立的,但检验结果为H0不成立,这样的错误称为I类错误。其发生的概率用α表示。在假设检验中作为检验水准。一般取0.05或0.01。 II类错误(假阴性错误)真实情况为H1是成立的,但检验结果为H1不成立,这样的错误称为II类错误。其发生的概率用β表示。由于其取值取决于H1 ,因此在假设检验中无法确定。 变异指标是用于描述一组观察值围绕中心位置散布的范围,即描述离散趋势的统计指标。数值越大,说明数据越离散,反之越集中。极差 (range);四分位数间距(quartile range);方差(variance);标准差(standard deviation);变异系数(coefficient of variation 平均数指标用于描述一组同质观察值的集中趋势,反映一组观察值的平均水平。算术均数(arithmetic mean);几何均数(geometric mean);中位数(median);众数(mode) 单纯抽样将调查总体的全部观察单位编号,从而形成抽样框架,在抽样框架中随机抽取部分观察单位组成样本。每个观察对象都有相同的机会被抽中系统抽样又称机械抽样。按照某种顺序给总体中的个体编号,然后随机地抽取一个号码作为第一个调查个体,其他的调查个体则按照某种确定的规则“系统”地抽取。最常用的方法是等距抽样 分层抽样先将总体中全部个体按某种特征分成若干“层”,再从每一层内随机抽取一定数量的个体组成样本。分层特征与研究目的有关。按各层比例抽样。为减少抽样误差,要求层内误差最小,层间误 差最大。 整群抽样先将总体分成若干“群”,从中随机抽取 几个群,抽取群内的所有观察单位组成调查样本。 “群”的确定与研究目的无关。为减少抽样误差, 需多抽几个“群”。 方差分析:又称变异数分析或 F检验,适用于对多 个平均值进行总体的假设检验,以检验实验所得的 多个平均值是否来自相同总体。 析因设计(factorial design)实验:凡同时配置两个 或两个以上处理因素,这些因素的各水平又具有完 全组合的实验,统称为析因设计(factorial design) 实验。 随机区组设计(randomized block design)是事先 将全部受试对象按某种可能与实验因素有关的特征 分为若干个区组(block),使每一区组内的受试对 象例数与处理因素的分组数相等,使每个实验组从 每一区组得到一例受试对象。 单向方差分析(one way analysis of variance)是指 处理因素只有一个。这个处理因素包含有多个离散 的水平,分析在不同处理水平上应变量的平均值是 否来自相同总体。 (2)计数资料:将观察单位按某种属性或类别分组, 所得的观察单位数称为计数资料 (count data)。计数资料亦称定性资料或分类资料。 其观察值是定性的,表现为互不相容的类别或属性。 如调查某地某时的男、女性人口数;治疗一批患者, 其治疗效果为有效、无效的人数;调查一批少数民 族居民的A、B、AB、O 四种血型的人数等。 (3)等级资料:将观察单位按测量结果的某种属性 的不同程度分组,所得各组的观察单位数,称为等 级资料(ordinal data)。等级资料又称有序变量。如 患者的治疗结果可分为治愈、好转、有效、无效或 死亡,各种结果既是分类结果,又有顺序和等级差 别,但这种差别却不能准确测量;一批肾病患者尿 蛋白含量的测定结果分为+、++、+++等。 随机变量(random variable)是指取指不能事先确 定的观察结果。随机变量的具体内容虽然是各式各 样的,但共同的特点是不能用一个常数来表示,而 且,理论上讲,每个变量的取值服从特定的概率分 布。 变异系数(coefficient of variation)用于观察指标单 位不同或均数相差较大时两组资料变异程度的比 较。用CV 表示。计算:标准差/均数*100% 直线回归(linear regression)建立一个描述应变量 依自变量变化而变化的直线方程, 并要求各点与该直线纵向距离的平方和为最小。直 线回归是回归分析中最基本、最简单的一种,故又 称简单回归(simple regression)。 回归系数(regression coefficient )即直线的斜率 (slope),在直线回归方程中用b 表示,b 的统计意 义为X每增(减)一个单位时,Y平均改变b 个单 位。 相关系数r:用以描述两个随机变量之间线性相关 关系的密切程度与相关方向的统计指标。 秩次:变量值按照从小到大顺序所编的秩序号称为 秩次(rank)。 秩和:各组秩次的合计称为秩和(rank sum),是非 参数检验的基本统计量。 方差(variance):方差表示一组数据的平均离散情 况,由离均差的平方和除以样本个数得到。 检验效能:1- β称为检验效能(power of test),它是 指当两总体确有差别,按规定的检验水准a 所能发 现该差异的能力。 百分位数(percentile)是将n 个观察值从小到大依 次排列,再把它们的位次 依次转化为百分位。百分位数的另一个重要用途是 确定医学参考值范围 随机误差(random error)又称偶然误差,是指排 除了系统误差后尚存的误差。它受多种因素的影响, 使观察值不按方向性和系统性而随机的变化。误差 变量一般服从正态分布。随机误差可以通过统计处 理来估计。 一、统计表有哪些要素构成的?制表的注意事项有 哪些? 一般来说,统计表由标题、标目、线条和数字、备 注五部分组成。但备注并不是必需的内容,可以根 据需要出现。 1简明扼要,重点突出:最好一张表突出一个中心, 不易太多中心,如果需要说明多个中心,可分成多 张统计表。 2合理安排主语和谓语的位置:对于表中任意一行, 从左至右,通过简短的连接词,可连成成一句通顺 的句子。 3表中数据要认真核对,保证准确可靠 二、为什么不宜用t 检验对多组均数进行比较? 如果用t检验进行多个样本均数的两两比较,则会 增加犯I 类错误的概率。 经检验得到拒绝H0 ,认为两组之间有差别的结论 可能犯I类错误的概率为α,不犯I类错误的概率为 1- α.每次判断均不犯I类错误的概率为(1- α)k, k为比较的次数,上例α=0.05, k=3,则均不犯错误 的概率为( 1- 0.05)3 =0.86. 至少有一次判断犯I 类错误的概率为1-(1- α)k 三、方差分析的基本思想是什么? 按实验设计的类型,将全部观察值间的变异分解成 两个或多个组成部分,然后将各部分的变异与随机 误差进行比较(每个部分的变异可由某因素的作用 来解释),以判断各部分的变异是否具有统计学意 义,从而推断不同样本所代表的总体均数是否相同。 五、简述直线相关与回归的区别与联系 区别:1.回归说明依存关系,直线回归用于说明两 变量间数量依存变化的关系,描述y如何依赖于x 而变化;相关说明相关关系,直线相关用于说明两 变量间的直线相关关系,此时两变量的关系是平等 的 2.r与b有区别:r说明具有直线关系的两个 变量间相关的密切程度与相关方向; b表示x每改 变一个单位,y平均增(减)多少个单位; 3.资料要求不同:直线回归要求应变量 y是来自正态总体的随机变量,而x可以是来自正 态总体的随机变量,也可以是严密控制、精确测量 的变量,相关分析则要求x,y是来自双变量正态分 布总体的随机变量。 4.取值范围:-∞

医学统计学考试重点整理

一、基本概念 1.总体与样本 总体:所有同质观察单位某种观察值(即变量值)的全体 样本:是总体中抽取部分观察单位的观察值的集合 2.普查与抽样调查 普查:就是全面调查,即调查目标总体中全部观察对象 抽样调查:是一种非全面调查,即从总体中抽取一定数量的观察单位组成样本,对样本进行调查 3.参数与统计量 参数:总体的某些数值特征 统计量:根据样本算得的某些数值特征 4.Ⅰ型与Ⅱ型错误 假设检验的结论 真实情况拒绝H0不拒绝H0 H0正确Ⅰ型错误(ɑ) 推断正确(1 ?ɑ) H0不正确推断正确(1?β) Ⅱ型错误(β) Ⅰ型错误(ɑ错误): H0为真时却被拒绝,弃真错误 Ⅱ型错误(β错误): H0为假时却被接受,取伪错误 5.随机化原则与安慰剂对照 随机化原则:是将研究对象随机分配到实验组和对照组,使每个研究对象都有同等机会被分配到各组中去,以平衡两组中已知和未知的混杂因素,从而提高两组的可比性,避免造成偏倚。(意义:①是提高组间均衡性的重要设计方法;②避免有意扩大或缩小组间差别导致的偏倚;③各种统计学方法均建立在随机化基础上) 安慰剂对照:是一种常用的对照方法。安慰剂又称伪药物,是一种无药理作用的制剂,不含试验药物的有效成分,但其感观如剂型、大小、颜色、质量、气味及口味等都与试验药物一样,不能被受试对象和研究者所识别。(安慰剂对照主要用于临床试验,其目的在于控制研究者和受试对象的心理因素导致的偏倚,并提高依从性。安慰剂对照还可以控制疾病自然进程的影响,显示试验药物的效应) 6.误差与标准误(区分率与均数) ㈠均数 抽样误差:由个体变异产生的、随机抽样引起的样本统计量与总体参数间的差异。 标准误:是指样本均数的标准差,反映抽样误差大小的定量指标,其公式表示为S x =S/√n ㈡样本率 率的抽样误差:样本率p和总体率π的差异 率的标准误:样本率的标准差,公式为σp=√π(1-π)/n

医学统计学题库

第一章 绪论习题 一、选择题 1.统计工作和统计研究的全过程可分为以下步骤:(D ) A . 调查、录入数据、分析资料、撰写论文 B . 实验、录入数据、分析资料、撰写论文 C . 调查或实验、整理资料、分析资料 D. 设计、收集资料、整理资料、分析资料 E. 收集资料、整理资料、分析资料 2.在统计学中,习惯上把(B )的事件称为小概率事件。 A.10.0≤P B. 05.0≤P 或01.0≤P C. 005.0≤P D.05.0≤P E. 01.0≤P 3~8 A.计数资料 B.等级资料 C.计量资料 D.名义资料 E.角度资料 3.某偏僻农村144名妇女生育情况如下:0胎5人、1胎25人、2胎70人、3胎30人、4胎14人。该资料的类型是( A )。 4.分别用两种不同成分的培养基(A 与B )培养鼠疫杆菌,重复实验单元数均为5个,记录48小时各实验单元上生长的活菌数如下,A :48、84、90、123、171;B :90、116、124、225、84。该资料的类型是(C )。 5.空腹血糖测量值,属于( C )资料。 6.用某种新疗法治疗某病患者41人,治疗结果如下:治愈8人、显效23人、好转6人、恶化3人、死亡1人。该资料的类型是(B )。 7.某血库提供6094例ABO 血型分布资料如下:O 型1823、A 型1598、B 型2032、AB 型641。该资料的类型是(D )。 8. 100名18岁男生的身高数据属于(C )。 二、问答题 1.举例说明总体与样本的概念. 答:统计学家用总体这个术语表示大同小异的对象全体,通常称为目标总体,而资料常来源于目标总体的一个较小总体,称为研究总体。实际中由于研究总体的个体众多,甚至无限多,因此科学的办法是从中抽取一部分具有代表性的个体,称为样本。例如,关于吸烟与肺癌的研究以英国成年男子为总体目标,1951年英国全部注册医生作为研究总体,按照实验设计随机抽取的一定量的个体则组成了研究的样本。 2.举例说明同质与变异的概念 答:同质与变异是两个相对的概念。对于总体来说,同质是指该总体的共同特征,即该总体区别于其他总体的特征;变异是指该总体内部的差异,即个体的特异性。例如,某地同性别同年龄的小学生具有同质性,其身高、体重等存在变异。 3.简要阐述统计设计与统计分析的关系 答:统计设计与统计分析是科学研究中两个不可分割的重要方面。一般的,统计设计在前,然而一定的统计设计必然考虑其统计分析方法,因而统计分析又寓于统计设计之中;统计分析是在统计设计的基础上,根据设计的不同特点,选择相应的统计分析方法对资料进行分析

医学统计学知识点梳理

医学统计学知识点梳理 Revised as of 23 November 2020

医学统计学知识点梳理 医学统计学:是用统计学原理和方法研究生物医学问题的一门学科。他包括了研究设计、数据收集、整理、分析以及分析结果的正确解释和表达。 统计描述:用统计指标、统计图表对资料的数量特征及分布规律进行客观的描述和表达。 统计推断:在一定的置信度和概率保证下,用样本信息推断总体特征: ①参数估计:用样本的指标去推断总体相应的指标 ②假设检验:由样本的差异推断总体之间是否可能存在的差异 同质:一个总体中有许多个体,他们之所以共同成为人们研究的对象,必定存在共性,我们说一些个体处于同一总体,就是指他们大同小异,具有同质性。 总体(population)是根据研究目的确定的同质的观察单位的全体,更确切的说,是同质的所有观察单位某种观察值(变量值)的集合。总体可分为有限总体和无限总体。总体中的所有单位都能够标识者为有限总体,反之为无限总体。 样本:从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample)。样本应具有代表性。所谓有代表性的样本,是指用随机抽样方法获得的样本。 随机抽样:随机抽样(random sampling)是指按照随机化的原则(总体中每一个观察单位都有同等的机会被选入到样本中),从总体中抽取部分观察单位的过程。随机抽样是样本具有代表性的保证。 变异:在自然状态下,个体间测量结果的差异称为变异(variation)。变异是生物医学研究领域普遍存在的现象。严格的说,在自然状态下,任何两个患者或研究群体间都存在差异,其表现为各种生理测量值的参差不齐。 (1)计量资料:对每个观察单位用定量的方法测定某项指标量的大小,所得的资料称为计量资料(measurement data)。计量资料亦称定量资料、测量资料。.其变量值是定量的,表现为数值大小,一般有度量衡单位。 (2)计数资料:将观察单位按某种属性或类别分组,所得的观察单位数称为计数资料(count data)。计数资料亦称定性资料或分类资料。其观察值是定性的,表现为互不相容的类别或属性。 (3)等级资料:将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察单位数,称为等级资料(ordinal data)。

最新医学统计学问答题(含答案)

简答题 0. 算术均数、几何均数和中位数各有什么适用条件? 答:(1)算术均数:适用对称分布,特别是正态或近似正态分布的数值变量资料。 (2)几何均数:适用于频数分布呈正偏态的资料,或者经对数变换后服从正态分布(对数正态分布)的资料,以及等比数列资料。 (3)中位数:适用各种类型的资料,尤其以下情况: A 资料分布呈明显偏态; B 资料一端或两端存在不确定数值(开口资料或无界资料); C 资料分布不明。 1.对于一组近似正态分布的资料,除样本含量n 外,还可计算 S X ,和S X 96.1±,问各说明什么? (1)X 为算数均数,说明正态分布或近似正态分布资料的集中趋势 (2)S 为标准差,说明正态分布或近似正态分布的离散趋势 (3)S X 96.1±可估计正态指标的95%的医学参考值范围,即此范围在理论上应包含95%的个体值。 2.试述正态分布、标准正态分布的联系和区别。 正态分布 标准正态分布 原始值X 无需转换 作u=(X-μ)/σ转换 分布类型 对称 对称 集中趋势 μ μ=0 均数与中位数的关系 μ=M μ=M 参考:标准正态分布的均数为0,标准差为1;正态分布的均数则为μ,标准差为σ(μ为任意数,而σ为大于0的任意数)。标准正态分布的曲线只有一条,而正态分布曲线是一簇。任何正态分布都可以通过标准正态变换转换成标准正态分布。标准正态分布是正态分布的特例。 3.说明频数分布表的用途。 1)描述频数分布的类型 2)描述频数分布的特征 3)便于发现一些特大或特小的可疑值 4)便于进一步做统计分析和处理 4.变异系数的用途是什么? 多用于观察指标单位不同时,如身高与体重的变异程度的比较;或均数相差较大时,如儿童身高与成人身高变异程度的比较。 5.试述正态分布的面积分布规律。 (1)X 轴与正态曲线所夹的面积恒等于1或100%; (2)区间μ±σ的面积为68.27%,区间μ±1.96σ的面积为95.00%,区间μ±2.58σ的面积为99.00%。 6.试举例说明均数的标准差与标准误的区别与联系。 7.标准正态分布(u 分布)与t 分布有何不同?

医学统计学研究生题库

医学统计学复习练习题库 研究生教材使用 一、最佳选择题 1.卫生统计工作的步骤为 A.统计研究调查、搜集资料、整理资料、分析资料 B.统计资料收集、整理资料、统计描述、统计推断 C.统计研究设计、搜集资料、整理资料、分析资料 D.统计研究调查、统计描述、统计推断、统计图表 E.统计研究设计、统计描述、统计推断、统计图表 2.统计分析的主要内容有 A.统计描述和统计学检验 B.区间估计与假设检验 C.统计图表和统计报告 D.统计描述和统计推断 E.统计描述和统计图表 3.统计资料的类型包括 A.频数分布资料和等级分类资料 B.多项分类资料和二项分类资料 C.正态分布资料和频数分布资料 D.数值变量资料和等级资料 E.数值变量资料和分类变量资料 4.抽样误差是指 A.不同样本指标之间的差别 B.样本指标与总体指标之间由于抽样产生的差别 C.样本中每个体之间的差别 D.由于抽样产生的观测值之间的差别 E.测量误差与过失误差的总称 5.统计学中所说的总体是指 A.任意想象的研究对象的全体 B.根据研究目的确定的研究对象的全体 C.根据地区划分的研究对象的全体 D.根据时间划分的研究对象的全体 E.根据人群划分的研究对象的全体 6.描述一组偏态分布资料的变异度,宜用 A.全距 B.标准差 C.变异系数 D.四分位数间距

E.方差

7.用均数与标准差可全面描述其资料分布特点的是 A.正偏态分布 B.负偏态分布 C.正态分布和近似正态分布 D.对称分布 E.任何分布 8.比较身高和体重两组数据变异度大小宜采用 A.变异系数 B.方差 C.极差 D.标准差 E.四分位数间距 9.频数分布的两个重要特征是 A.统计量与参数 B.样本均数与总体均数 C.集中趋势与离散趋势 D.样本标准差与总体标准差 E.样本与总体 10.正态分布的特点有 A.算术均数=几何均数 B.算术均数=中位数 C.几何均数=中位数 D.算术均数=几何均数=中位数 E.以上都没有 11.正态分布曲线下右侧5%对应的分位点为 A.μ+1.96σ B.μ-1.96σ C.μ+2.58σ D.μ+1.64σ E.μ-2.58σ 12.下列哪个变量为标准正态变量 A.s x μ- B.σμ-x C. x s x μ- D.x x σμ- E. s x μ- 13.某种人群(如成年男子)的某个生理指标(如收缩压)或生化指标 (如血糖水平)的正常值范围一般指 A.该指标在所有人中的波动范围 B.该指标在所有正常人中的波动范围 C.该指标在绝大部分正常人中的波动范围 D.该指标在少部分正常人中的波动范围 E.该指标在一个人不同时间的波动范围 14.下列哪一变量服从t 分布 A. σμ-x B. σμ-x C. x x σμ- D. x s x x - E. x s x μ- 2.统计分析的主要内容有

相关文档
最新文档