医学统计学 检验方法

医学统计学 检验方法
医学统计学 检验方法

医学统计学检验方法(转) 医学论文中统计方法的正确应用

医用统计方法是医学科研和论文撰写的一个基本工具,但是不少医学科研及临床工作者对统计方法的正确应用缺乏足够的知识,在实际应用过程中常常出现一些不妥用法甚至误用现象。正确使用统计方法,能使研究结果具有科学性和说服力;反之,如果使用不当,不仅不能准确地反映科研结果,而且可能带来错误的结论。

1、所选统计方法脱离了资料的性质不同的资料类型和不同的研究目的采用不同的统计方法。按照资料的性质测定指标的多少,确定资料是计数资料还是计量资料,应用单因素分析还是多因素分析。

1.1 多因素资料是对每个研究对象测量的多个指标同时进行的综合分析,其分析计算过程相对复杂。常用的有回归分析;相关分析以及判别分析、聚类分析、主成分分析和因子分析等。多因素分析多用于计量资料。

1.2 单因素分析应用较多,按获取资料的方法,分计数资料和计量资料。首先,计数资料主要是针对要求某现象的频率和比例,利用率或比的相应计算方法。如做不同样本间的比较则采用计数资料的显著性检验,样本率与总体率的比较用u 检验;两个样本率的比较可用u 检验或四格表的x 检验,多个样本率的比较可用行乘列的卡方检验或2XC 表的卡方检验。其次,计量资料要结合研究目的确定相应的统计方法。对于显著性检验通常有T 检验和F 检验,T 检验是用于两个均数问的比较,按研究设计与比较内容的不同又分为样本均数和总体均数的比较,两个样本均数差别的检验,配对资料的显著性检验。F 检验用于多个样本均数的比较,按设计类型分完全随机设计的方差分析、随机区组设计的方差分析和组内分组资料的方差分析。

2、根据研究目的选用统计分析方法不同的统计方法说明不同的问题,同样不同的问题要应用不同的统计方法来分析和表达。研究者在做统计分析前,首先要明确资料分析的目的、意图是什么,通过分析最终达到什么样的期望,临床工作者科研通常的目的主要有:

2.1 某现象发生的频率或比例如人群中重复癌的发生率,采用频率指标,构成指标或相对比,可计算发病、患病、感染、阳性频率或构成等。

2.2 某人群的特征值,如平均身高、体重、血压等,采用平均水平和变异的统计指标。

2.3 临床正常值范围如血红蛋白、血糖、尿铅含量,多采用中位数法或平均数法。

2.4 临床诊断方法效率评价,可分别计算各种诊断方法对某病诊断的准确度和可靠度,如x 线对肺癌的诊断。

2.5 临床疗效分析比较如几种药物疗效的比较,视资料性质作显著性检验。

2.6 现象间关联情况分析如眼PSRT 与屈光度的关系,用线形相关和回归分析。

2.7 人群的归类、评价,可选用判别分析、聚类分析、主成分分析等。临床研究和实践中决不能通过统计学方法去实现自己的想象。根据已确定的结果刻意去套用某种统计方法,用目的去规划统计过程,只要分析比较,就一定要求结果显著等等现象,只能使文章更为空洞,有失科学性。

3 严格把握统计方法的适用条件各种统计分析方法都有其适应条件,在选用统计方法时,应严格把握,充分考虑所分析的资料是否符合其适用条件。对于计量资料在计算均数或显著性检验时,其基本条件是正态分布、方差齐性,在资料分析时要通过图示或检验看是否符合这些基本条件,若不符合则需要做相应的处理。计算集中趋势指标可使用中位数或几何均数。做统计学检验可通过数据转换使其成为正态分布,常用的转换方式有对数转换、幂指数转换、平方根转换等,或者改非参数检验。计数资料各种方法均有其自身的适应条件,如上列举的方法其基本条件是某一事件概率不会太小,若发生概率太低,则改用小概率事件显著性检验。

4 充分理解资料样本含量的概念统计学是对研究样本进行抽象归纳的科学,没有足够的样本量就不可能得出正确的结论,而且统计方法也有其样本量的要求。如四格表的卡方检验要求样本量大于40,方格中理论数大于5(n~40,t5),若不符合则用校正卡方检验或精确概率法。行x 列表的卡方检验要求理论数均大于1 且小于

5 者不超过表中数的1/5,若不符合则改用其它方法(合理合并)。

5 合理控制混杂因素的影响任何一种现象的发生都不是单纯的,要受多种因素的影响。当分析比较不同人群某现象的发生或存在状况时,要考虑除研究因素以外比较组之间其它条件是否相同,内部构成是否一致,其它因素对研究现象

的影响如何。例如,有人研究文化素质对生育水平的影响,按年龄分组,发现50 岁以上年龄组比20 岁以上年龄组生育水平高而文化素质低,因而结论是文化素质与生育水平呈负相关。这一结论的错误就在于做缺乏资料的综合分析认识能力和混杂因素对研究现象的影响,忽视我国计划生育政策对不同年龄妇女生育的作用。混杂因素应在研究之前通过研究对象选择、设立对照、随机、匹配、双盲法等控制,但如果事先没有良好设计,则通过统计方法可以控制。若资料内部构成不同,存在混杂因素,简便方法是分组比较或标化处理。若样本量不允许分组,则对计数资料可用组内分组的卡方检验、卡方值分割法、加权卡方检验法等,计量资料的比较可用协方差分析。资料的统计处理并非是研究工作的最终目的,而是通过统计学分析为研究结论提供依据或线索,因此对统计资料做统计分析后,要正确把握统计学术语,对结论做科学的分析和解释。拒绝检验假设,习惯上称有显著性,不应误解为差别很大或在医学上有很显著的价值,统计学亦不能回答比较样本的总体一定相等或一定不相等,因为统计推断是以一定的概率界值为依据,说明来自同一总体可能性的大小。应用统计学分析的目的是通过研究样本推断总体,如果研究结论不能适当外延,则该项研究毫无意义。

常用医学统计学方法汇总

选择合适的统计学方法 1连续性资料 1.1 两组独立样本比较 1.1.1 资料符合正态分布,且两组方差齐性,直接采用t检验。 1.1.2 资料不符合正态分布,(1)可进行数据转换,如对数转换等,使之服从正态分布,然后对转换后的数据采用t检验;(2)采用非参数检验,如Wilcoxon检验。 1.1.3 资料方差不齐,(1)采用Satterthwate 的t’检验;(2)采用非参数检验,如Wilcoxon检验。 1.2 两组配对样本的比较 1.2.1 两组差值服从正态分布,采用配对t检验。 1.2.2 两组差值不服从正态分布,采用wilcoxon的符号配对秩和检验。 1.3 多组完全随机样本比较 1.3.1资料符合正态分布,且各组方差齐性,直接采用完全随机的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey 法,Scheffe法,SNK法等。 1.3.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的Kruscal-Wallis法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用成组的Wilcoxon检验。 1.4 多组随机区组样本比较 1.4.1资料符合正态分布,且各组方差齐性,直接采用随机区组的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey 法,Scheffe法,SNK法等。 1.4.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的Fridman检验法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用符号配对的Wilcoxon检验。 ****需要注意的问题: (1)一般来说,如果是大样本,比如各组例数大于50,可以不作正态性检验,直接采用t 检验或方差分析。因为统计学上有中心极限定理,假定大样本是服从正态分布的。 (2)当进行多组比较时,最容易犯的错误是仅比较其中的两组,而不顾其他组,这样作容易增大犯假阳性错误的概率。正确的做法应该是,先作总的各组间的比较,如果总的来说差别有统计学意义,然后才能作其中任意两组的比较,这些两两比较有特定的统计方法,如上面提到的LSD检验,Bonferroni法,tukey法,Scheffe法,SNK法等。**绝不能对其中的两

医学统计学分析基本思路指南

医学统计学分析基本思路指南 医学统计学的学习一定要以理解为主。对于初学者,不必强记一大堆的公式,也不要死钻牛角尖,非要弄明白为什么这种方法叫“t检验”、“F检验”,为什么这个残差叫做“学生化残差”等等。这些都是历史遗留问题,感兴趣的读者可以查阅统计学史。对于只想应用的人来讲,你只要了解在什么情况下应该用什么方法,什么指标应该用于什么情形。尽管多数统计教材都说了数据分析应该先做假设检验,然后选定统计量,然后怎么怎么。但实际中我们拿到一堆数据的时候,不会坐在桌上先列出零假设和备择假设,也不会满座子地计算统计量。 更实际的分析思路是: (1)先确定研究目的,根据研究目的选择方法。不同研究目的采用的统计方法不同,常见的研究目的主要有三类:一是差异性研究,即比较组间均数、率等的差异,可用的方法有t检验、方差分析、χ2检验、非参数检验等。二是相关性分析,即分析两个或多个变量之间的关系,可用的方法有相关分析。三是影响性分析,即分析某一结局发生的影响因素,可用的方法有线性回归、logistic回归、Cox回归等。 (2)明确数据您身边的论文好秘书:您的原始资料与构思,我按您的意思整理成优秀论文论著,并安排出版发表,扣1550116010 、766085044自信我会是您人生路上不可或缺的论文好秘书类型,根据数据类型进一步确定方法。不同数据类型采用的统计方法也不同。定量资料可用的方法有t检验、方差分析、非参数检验、线性相关、线性回归等。分类资料可用的方法有χ2检验、对数线性模型、logistic回归等。图1.6简要列出了不同研究目的、不同数据类型常用的统计分析方法。 (3)选定统计方法后,需要利用统计软件具体实现统计分析过程。SAS中,不同的统计方法对应不同的命令,只要方法选定,便可通过对应的命令辅之以相应的选项实现统计结果的输出。 (4)统计结果的输出并非数据分析的完成。一般统计软件都会输出很多结果,需要从中选择自己需要的部分,并做出统计学结论。但统计学结论不同于专业结论,最终还需要结合实际做出合理专业结论。下面是本人简单总结的常用方法的选择,可供读者参考。

2018年度医学统计学试卷及其规范标准答案

医学统计学试题及答案 习题 《医学统计学》第二版(五年制临床医学等本科生用) (一)单项选择题 1.观察单位为研究中的( d )。 A.样本 B. 全部对象 C.影响因素 D. 个体 2.总体是由( c )。 A.个体组成 B. 研究对象组成 C.同质个体组成 D. 研究指标组成 3.抽样的目的是(b )。 A.研究样本统计量 B. 由样本统计量推断总体参数 C.研究典型案例研究误差 D. 研究总体统计量 4.参数是指(b )。 A.参与个体数 B. 总体的统计指标 C.样本的统计指标 D. 样本的总和 5.关于随机抽样,下列那一项说法是正确的( a )。 A.抽样时应使得总体中的每一个个体都有同等的机会被抽取 B.研究者在抽样时应精心挑选个体,以使样本更能代表总体 C.随机抽样即随意抽取个体 D.为确保样本具有更好的代表性,样本量应越大越好 6.各观察值均加(或减)同一数后( b )。 A.均数不变,标准差改变 B.均数改变,标准差不变 C.两者均不变 D.两者均改变 7.比较身高和体重两组数据变异度大小宜采用( a )。 A.变异系数 B.差 C.极差 D.标准差 8.以下指标中(d)可用来描述计量资料的离散程度。 A.算术均数 B.几何均数 C.中位数 D.标准差 9.偏态分布宜用(c)描述其分布的集中趋势。 A.算术均数 B.标准差 C.中位数 D.四分位数间距 10.各观察值同乘以一个不等于0的常数后,(b)不变。 A.算术均数 B.标准差 C.几何均数 D.中位数 11.( a )分布的资料,均数等于中位数。 A.对称 B.左偏态 C.右偏态 D.偏态 12.对数正态分布是一种( c )分布。

医学统计学练习

1.假设检验在设计时应确定的是 A.总体参数B.检验统计量C.检验水准 D.P值E.以上均不是 2.如果t≥2,υ,,可以认为在检验水准α=处。 A.两个总体均数不同B.两个总体均数相同C.两个样本均数不同D.两个样本均数相同E.样本均数与总体均数相同 3. 计量资料配对t检验的无效假设(双侧检验)可写为。 A.μd=0 B.μd≠0 C.μ1=μ2 D.μ1≠μ2E.μ=μ0 4.两样本均数比较的t检验的适用条件是。 A.数值变量资料B.资料服从正态分布C.两总体方差相等 D.以上ABC都不对E.以上ABC都对 5.在比较两组资料的均数时,需要进行t/检验的情况是: A.两总体均数不等B.两总体均数相等C.两总体方差不等D.两总体方差相等E.以上都不是 6.有两个独立的随机样本,样本含量分别为n1和n2,在进行成组设计资料的t检验时,自由度为。 A.n1+n2 B.n1+n2-1 C.n1+n2+1 D.n1+n2-2 E.n1+n2+2 7. 已知某地正常人某定量指标的总体均值μ0=5,今随机测得该地特殊人群中的30人该指标的数值。若用t检验推断该特殊人群该指标的总体均值μ与μ0之间是否有差别,则自由度为。 A.5 B.28 C.29 D.4 E.30 8. 两大样本均数比较,推断μ1=μ2是否成立,可用。 A.t检验B.u检验C.方差分析 D.ABC均可以E.χ2检验 9.关于假设检验,下列说法中正确的是 A.单侧检验优于双侧检验 B.采用配对t检验还是成组t检验由实验设计方法决定

C.检验结果若P值大于,则接受H0犯错误的可能性很小 D.用Z检验进行两样本总体均数比较时,要求方差齐性 E.由于配对t检验的效率高于成组t检验,因此最好都用配对t检验 10. 为研究新旧两种仪器测量血生化指标的差异,分别用这两台仪器测量同一批样品,则统计检验方法应用。 A.成组设计t检验B.成组设计u检验C.配对设计t检验 D.配对设计u检验E.配对设计χ2检验 11. 阅读文献时,当P=,按α=水准作出拒绝H0,接受H1的结论时,下列说法正确的是。A.应计算检验效能,以防止假“阴性”结果 B.应计算检验效能,检查样本含量是否足够 C.不必计算检验效能D.可能犯Ⅱ型错误 E.推断正确的概率为1-β 12.两样本均数假设检验的目的是判断 A. 两样本均数是否相等B. 两样本均数的差别有多大 C.两总体均数是否相等D. 两总体均数的差别有多大 E. 两总体均数与样本均数的差别有多大 13.若总例数相同,则成组资料的t检验与配对资料的t检验相比: A.成组t检验的效率高些B.配对t检验的效率高些 C.两者效率相等D.两者效率相差不大E.两者效率不可比 15. 两个总体均数比较的t的检验,计算得t>2,n1+n2-2时,可以认为。 A.反复随机抽样时,出现这种大小差异的可能性大于 B.这种差异由随机抽样误差所致的可能性小于 C.接受H0,但判断错误的可能性小于 D.拒绝H0,但犯第一类错误的概率小于 E.拒绝H0,但判断错误的概率未知 16. 为研究两种仪器测量血生化指标的差异,分别用这两台仪器测量同一批血样,则统计检验方法应用。 A.配对设计t检验B.成组设计u检验C.成组设计t检验 D.配对设计u检验E.配对设计χ2检验 17. 在两组资料的t检验中,结果为P<,差别有统计学意义,P愈小,则: 。

医学统计学课后习题全

第一章:单选题 (5/5 分数) 1.统计学中所说的样本是指()。 .随意抽取的总体中任意部分.有意识的选择总体中的典型部分.依照研究者要求选取总体中有意义的一部分.依照随机原则抽取总体中有代表性的一部分.依照随机原则抽取总体中有代表性的一部分 - 正确 . 有目的的选择总体中的典型部分 2.下列资料属等级资料的是()。 .白细胞计数.住院天数.门急诊就诊人数.病人的病情分级.病人的病情分级 - 正确 . ABO血型分类 3.为了估计某年华北地区家庭年医疗费用的平均支出,从华北地区的5个城市随机抽样调查了1500户家庭,他们的平均年医疗费用支出是 997元,标准差是 391 元。该研究中研究者感兴趣的总体是() .华北地区1500户家庭.华北地区的5个城市.华北地区1500户家庭的年医疗费用.华北地区所有家庭的年医疗费用.华北地区所有家庭的年医疗费用 - 正确 . 全国所有家庭的年医疗费用 4.欲了解研究人群中原发性高血压病(EH)的患病情况,某研究者调查了1043人,获得了文化程度(高中及以下、大学及以上)、高血压家族史(有、无)、月人均收入(元)、吸烟(不吸、偶尔吸、经常吸、每天)、饮酒(不饮、偶尔饮、经常饮、每天)、打鼾(不打鼾、打鼾)、脉压差(mmHg)、心率(次/分)等指标信息。则构成计数资料的指标有()

.文化程度、高血压家族史吸烟、饮酒、打鼾.月人均收入、脉压差、心率.文化程度、高血压家族史、打鼾.文化程度、高血压家族史、打鼾 - 正确.吸烟、饮酒 . 高血压家族史吸烟、饮酒、打鼾 5.总体是指() .全部研究对象.全部研究对象中抽取的一部分.全部样本.全部研究指标 . 全部同质研究对象的某个变量的值-正确 第二章- 单选题 (10/10 分数) 1.描述一组偏态分布资料的变异度,以()指标较好。 . 全距 . 标准差 . 变异系数 . 四分位数间距 . 四分位数间距 - 正确.方差 2.用均数和标准差可以全面描述()资料的特征。 . 正偏态分布 . 负偏态分布 . 正态分布 . 正态分布 - 正确 . 对称分布.对数正态分布 3.各观察值均加(或减)同一数后()。 . 均数不变 . 几何均数不变 . 中位数不变 . 标准差不变 . 标准差不变 - 正确.变异系数不变 4.比较某地1~2岁和5~5.5岁儿童身高的变异程度,宜用()。

常用医学统计学方法的选择

常用医学统计学方法的选择 1. 多组率的比较用卡方检验(χ2检验,chi-square test) 直接用几个率的数值比较,与直接用原始数据录入比较,结果会有什么不同?卡方值会受样本量的影响,样本越多,卡方值越大。 2.多组计量资料比较采用方差分析(F检验) ,不能用t检验。当方差分析结果为P<0.05时,只能说明k组总体均数之间不完全相同。若想进一步了解哪两组的差别有统计学意义,需进行多个均数间的多重比较,即SNK-q检验(多个均数两两之间的全面比较)、LSD-t检验(适用于一对或几对在专业上有特殊意义的均数间差别的比较)和Dunnett检验(适用于k-1个实验组与一个对比组均数差别的多重比较)。 3.非正态分布多组数据之间比较选用非参数检验、单样本中位数检验(符号检验和Wilcoxon 检验)、双样本中位数检验(Mann-Whitney 检验)、方差分析(Kruskal-Wallis、Mood 中位数和Friedman 检验) 4.按血糖水平从低到高分成多组,进行多组之间死亡率的比较,由于死亡率同样受年龄、性别、病史、您身边的论文好秘书:您的原始资料与构思,我按您的意思整理成优秀论文论著,并安排出版发表,扣1550116010 、766085044自信我会是您人生路上不可或缺的论文好秘书血脂等因素的影响,所以需选取合适统计方法实现“调整年龄、性别等危险因素后,按血糖分组进行死亡率的比较(由血糖从低到高分成的4组)”。 ①年龄是定量变量(是数值),调整年龄的方法可在Logistic回归中运用,连续性变量年龄加入covariate中,当成协变量,就可以调整年龄,age-adjusted odds ratio就能得到了。 ②性别性别是二分类变量,不是定量变量,不可在LOGISTIC回归里比较。调整性别可在卡方检验中采取分层的方法比较。 如果为多分类LOGISTIC回归,在选择用multinomianl LOGISTIC回归中,可选入年龄等进入covariate,观察年龄的配比情况。可把性别选入factors(自变量)。这样可以实现调整年龄、性别等危险因素。 5.回顾性研究(1)临床妊娠率和女性年龄的关系+(2)男性影响临床妊娠的精子参数比较: 数据类型及变量的说明:y:计量 拟采用的分析方法:卡方检验 拟采用的分析软件:spss 原始数据附件及格式:word表 能否用其他方法统计分析:可用卡方分割,调整检验水准(根据比较的次数N,校正后的检验水准为0.05/N)。 6.重复t检验:多个样本均数间的两两比较(又称多重比较)不宜用t检验,因为重复数次,t 检验将增加第一类错误的概率,使检验效率降低。此时宜用方差分析,并在此基础上用两两比较方法(如.SNK、LSD、Duncan法等)。 对于同一对均数间的差异,用t检验无显著性,而两两比较可能有显著性,可见错误选用统计方法将推出错误结论。 统计方法的选择: 分计量、计数、等级资料三

医学统计学课后答案

1.参数检验:已知总体分布类型,对未知的总体参数做推断的假设检验方法。故参数检验依赖于特定的分布类型,比较的是总体参数 2.非参数检验:不依赖于总体分布类型、不针对总体参数的检验方法。故非参数检验对总体的分布类型不做任何要求,不受总体参数的影响,比较的是分布或分布位置。适用范围广,可适用于任何类型资料 参数检验 优点:资料信息利用充分;检验效能较高 缺点:对资料的要求高;适用范围有限 2.非参数检验 优点:适用范围广,可适用于任何类型的资料 缺点:检验效能低,易犯Ⅱ型错误 凡适合参数检验的资料,应首选参数检验 对于符合参数检验条件者,采用非参数检验,其 检验效能低,易犯Ⅱ型错误 第一章绪论 1.举例说明总体和样本的概念。 研究人员通常需要了解和研究某一类个体,这个类就是总体。总体是根据研究目的所确定的所有同质观察单位某种观察值(即变量值)的集合,通常有无限总体和有限总体之分,前者指总体中的个体是无限的,如研究药物疗效,某病患者就是无限总体,后者指总体中的个体是有限的,它是指特定时间、空间中有限个研究个体。但是,研究整个总体一般并不实际,通常能研究的只是它的一部分,这个部分就是样本。例如在一项关于2007年西藏自治区正常成年男子的红细胞平均水平的调查研究中,该地2007年全部正常成年男子的红细胞数就构成一个总体,从此总体中随即抽取2000人,分别测的其红细胞数,组成样本,其样本含量为2000人。 2.简述误差的概念。

误差泛指实测值与真实值之差,一般分为随机误差和非随机误差。随机误差是使重复观测获得的实际观测值往往无方向性地围绕着某一个数值左右波动的误差;非随机误差中最常见的为系统误差,系统误差也叫偏倚,是使实际观测值系统的偏离真实值的误差。 3.举例说明参数和统计量的概念。 某项研究通常想知道关于总体的某些数值特征,这些数值特征称为参数,如整个城市的高血压患病率。根据样本算得的某些数值特征称为统计量,如根据几百人的抽样调查数据所算得的样本人群高血压患病。统计量是研究人员能够知道的,而参数是他们想知道的。一般情况下,这些参数是难以测定的,仅能够根据样本估计。显然,只有当样本代表了总体时,根据样本统计量估计的总体参数才是合理的。 4.简述小概率事件原理。 当某事件发生的概率小于或等于时,统计学上习惯称该事件为小概率事件,其含义是该事件发生的可能性很小,进而认为它在一次抽样中不可能发生,这就是所谓的小概率事件原理,它是进行统计推断的重要基础。 第二章调查研究设计 1.调查研究主要特点是什么 调查研究的主要特点是:①研究的对象及其相关因素(包括研究因素和非研究因素)是客观存在的,不能人为给予干预措施②不能用随机化分组来平衡混杂因素对调查结果的影响。 2.简述调查设计的基本内容。 ①明确调查目的和指标②确定调查对象和观察单位③确定调查方法④确定调查方式⑤确定调查项目和调查表⑥制定资料整理分析计划⑦制定调查的组织计划。 3.试比较常用的四种概率抽样方法的优缺点。 (1)单纯随机抽样优点是:均数(或率)及标准误的计算简便。缺点是:当总体观察单位数较多时,要对观察单位一一编号,比较麻烦,实际工作中有时难以办到。 (2)系统抽样优点是:①易于理解,简便易行②容易得到一个按比例分配的样本,由于样本相应的顺序号在总体中是均匀散布的,其抽样误差小于单纯随机抽样。缺点是:①当总体的观察单位按顺序有周期趋势或单调递增(或递减)趋势,系统抽样将产生明显的偏性。

医学统计学:假设检验

假设检验

一、假设检验的一般原理 【例1】某妇产科医师测量瑶族妇女50例,得到骨盆入口前后径的均数为12.0cm,标准差为0.9cm;测量侗族妇女50例,得到骨盆入口前后径的均数为11.4cm,标准差为1.2cm。从中能有什么启示。 首先一个问题:能否认为瑶族妇女骨盆入口前后径大于侗族妇女? 其次一个问题:如果不能认为瑶族妇女骨盆入口前后径大于侗族妇女,那么怎么解释? 这在医学上是非常常见的问题。在抽样研究中,遇到两个(这是最简单的形式,多个的问题将在后面介绍)样本指标不同,我们决不可冒然下结论,因为可能存在抽样误差的影响问题。具体地说:瑶族妇女与侗族妇女的骨盆入口前后径不同,有两个可能性,一是种族差异的问题,即因为种族差异导致瑶族妇女骨盆入口前后径大于侗族妇女,这是真实差异;另一是瑶族妇女骨盆入口前后径与侗族妇女完全一致,这里所出现的差异,是抽样导致的,即恰好在瑶族妇女中抽到一些骨盆入口前后径较大的人,在侗族妇女中抽到一些骨盆入口前后径较小的人,于是出现了这一结果,这纯粹是抽样引起的误差。 到底哪一个可能性大呢,需要进行统计推断,即进行假设检验(经常也被称为“显著性检验”)。如果检验结果表明抽样误差的可能性大,则认为瑶族妇女骨盆入口前后径与侗族妇女一致;如果检验结果表明抽样误差的可能性小,则认为瑶族妇女骨盆入口前后径与侗族妇女不一样。 归纳一下:

真实差异大差别有统计学意义总体不同样本信息的差异可能性 抽样误差大差别无统计学意义总体相同 二、假设检验的基本步骤 首先界定一下用词:假定说有两种人,就说是两个种群的人(就是两个总体)。如果说有两组人,就说是分别从两种人(两个总体)中抽样得到的两个样本。 好,开始假设检验的具体步骤。 1、建立假设: 两组人的差别由抽样误差导致,于是认为两种人是一致的。 显然这个假设的反面是:两组人的差别不是抽样误差导致,两种人实际上不一样。 2、求统计量: 按照公式计算(详见后述)。 3、判断: 比较情况P值情况判断结果 统计量≤界值P≥0.05 差别无统计学意义 统计量>界值P<0.05 差别有统计学意义 4、结论: 如果两组人的差别无统计学意义,则认为差别是抽样误差导致的,不是真实的差别,于是认为两种人相同(既然相同,就是一种人了)。如果两组人的差别有统计学意义,则认为差别不是抽样误差导致的,而是因为不同种的人本身就存在这样差别,于是认为两种人不同(既然不同,就肯定是两种人了)。 三、假设检验需要注意的问题 (一)假设检验的前提 假设检验的一个重要前提是抽样研究要严格遵循样本具有代表性的原则,即保证样本具有代表性的正确方法是:随机抽样、足够的样本含量。千万不要以为抽样误差可以估计,则怎么抽样都可以,因为抽样误差可以估计是在抽样遵循样本具有代表性这一基础上得到的。这就说明研究的设计非常重要,应当严格遵守科学、严谨的基本

硕士医学统计学知识点总结汇总

第2章统计描述 1.对定量资料进行统计描述时,如何选择适宜的指标? 定量资料统计描述常用的统计指标及其适用场合描述内容指 标 意义适用场合 平均水平均 数 个体的平均值对称分布 几何均数平均倍数取对数后对称分布 中位数位次居中的观察值 ①非对称分布;②半定量资料;③末端开 口资料;④分布不明 众 数 频数最多的观察值不拘分布形式,概略分析 调和均数基于倒数变换的平均值正偏峰分布资料 变异度全 距 观察值取值范围不拘分布形式,概略分析 标准 差 (方差) 观察值平均离开均数的 程度对称分布,特别是正态分布资料 四分位数 间距 居中半数观察值的全距 ①非对称分布;②半定量资料;③末端开口 资料;④分布不明 变异系数标准差与均数的相对比 ①不同量纲的变量间比较;②量纲相同但 数量级相差悬殊的变量间比较 定性资料:阳性事件的概率,概率分布,强度和相对比。 2. 应用相对数时应注意哪些问题? 答:(1)防止概念混淆相对数的计算是两部分观察结果的比值,根据这两部分观察结果的特点,就可以判断所计算的相对数属于前述何种指标。 (2)计算相对数时分母不宜过小样本量较小时以直接报告绝对数为宜。 (3)观察单位数不等的几个相对数,不能直接相加求其平均水平。 (4)相对数间的比较须注意可比性,有时需分组讨论或计算标准化率。 3. 常用统计图有哪些?分别适用于什么分析目的? 常用统计图的适用资料及实施方法 图形适用资料实施方法 条图组间数量对比用直条高度表示数量大小 直方图定量资料的分布用直条的面积表示各组段的频数或频率 百分条图构成比用直条分段的长度表示全体中各部分的构成比 饼图构成比用圆饼的扇形面积表示全体中各部分的构成比 线图定量资料数值变动线条位于横、纵坐标均为算术尺度的坐标系 半对数线图定量资料发展速度线条位于算术尺度为横坐标和对数尺度为纵坐标的坐标系散点图双变量间的关联点的密集程度和形成的趋势,表示两现象间的相关关系 箱式图定量资料取值范围用箱体、线条标志四分位数间距及中位数、全距的位置茎叶图定量资料的分布用茎表示组段的设置情形,叶片为个体值,叶长为频数

医学统计学简答题

医学统计学简答题 1.简述标准差、标准误的区别与联系? 区别:(1)含义不同:标准差S表示观察值的变异程度,描述个体变量值(x)之间的变异度大小,S越大,变量值(x)越分散;反之变量值越集中,均数的代表性越强。标准误..估计均数的抽样误差的大小,是描述样本均数之间的变异度大小,标准误越大,样本均数与总体均数间差异越大,抽样误差越大;反之,样本均数越接近总体均数,抽样误差越小。 (2)与n的关系不同: n增大时,S趋于σ(恒定),标准误减少并趋于0(不存在抽样误差)。 (3)用途不同:标准差表示x的变异度大小、计算变异系数、确定医学参考值范围、计算标准误等,标准误用于估计总体均数可信区间和假设检验。 联系:二者均为变异度指标,样本均数的标准差即为标准误,标准差与标准误成正比。 2.简述假设检验的基本步骤。 1.建立假设,确定检验水准。 2.选择适当的假设检验方法,计算相应的检验统计量。 3.确定P值,下结论 3.正态分布的特点和应用: 特点:1、集中性:正态曲线的高峰位于正中央,即均数所在的位置; 2、对称性:正态分布曲线位于直角坐标系上方,以x=u为中心,左右对称,曲线两端永远不与横轴相交; 3、均匀变动性:正态曲线由均数所在处开始,分别向左右两侧逐渐均匀下降; 4、正态分布有两个参数,即均数μ和标准差σ,可记作N(μ,σ):均数μ决定正态曲线的中心位置;标准差σ决定正态曲线的陡峭或扁平程度。σ越小,曲线越陡峭;σ越大,曲线越扁平; 5、u变换:为了便于描述和应用,常将正态变量作数据转换; 应用: 1.估计医学参考值范围 2.质量控制 3.正态分布是许多统

计方法的理论基础 4.简述参考值范围与均数的可信区间的区别和联系 可信区间与参考值范围的意义、计算公式和用途均不同。 1.从意义来看95%参考值范围是指同质总体内包括95%个体值的估计范围,而总体均数95%可信区间是指95%可信度估计的总体均数的所在范围 2.从计算公式看若指标服从正态分布,95%参考值范围的公式是:±1.96s。总体均数95%可信区间的公式是:前者用标准差,后者用标准误。前者用1.96,后者用α为0.05,自由度为v的t界值。 5.频数表的用途和基本步骤。 用途:(1)揭示资料的分布特征和分布类型;(2)便于进一步计算指标和分析处理;(3)便于发现某些特大或特小可疑值。 基本步骤:(1)求出极差;(2)确定组段,一般设8~15个组段;(3)确定组距;组距=R/组段数,但一般取一方便计算的数字;(4)列出各个组段并确定每一组段频数。 6.非参数统计检验的适用条件。 (1)资料不符合参数统计法的应用条件(总体为正态分布、且方差相等)或总体分布类型未知;(2)等级资料;(3)分布呈明显偏态又无适当的变量转换方法使之满足参数统计条件;(4)在资料满足参数检验的要求时,应首选参数法,以免降低检验效能 7.线性回归的主要用途。 1.研究因素间的依存关系,自变量和应变量之间是否存在线性关系,即研究一个或多个自变量对应变量的作用,或者应变量依赖自变量变化而变化的规律。 2.利用直线回归方程可进行预测估计。 3.用容易测量的指标估计不易测量的指标。 4.获得精确度更高的医学参考值范围。 8.简述检验假设与可信区间的联系与区别。 (1)可信区间用于推断总体参数所在的范围,假设检验用于推断总体参数是否不同。前者估计总体参数的大小,后者推断总体参数有无质的不同。(2)可信区间也可回答假设检验的问题。但可信区间不能提供确切的P值范围,只能给出在α水准上有无统计意义。(3)可信区间还可提示差别有无实际意义。

常用医学统计学方法汇总

选择合适的统计学方法 1 连续性资料 1.1 两组独立样本比较 1.1.1 资料符合正态分布,且两组方差齐性,直接采用t 检验。 1.1.2 资料不符合正态分布,(1)可进行数据转换,如对数转换等,使之服从正态分布,然后对 转换后的数据采用t 检验;(2)采用非参数检验,如Wilcoxon 检验。 1.1.3 资料方差不齐,(1)采用Satterthwate 的t '检验;(2)采用非参数检验,如Wilcoxon 检验。 1.2 两组配对样本的比较 1.2.1 两组差值服从正态分布,采用配对t 检验。 1.2.2 两组差值不服从正态分布,采用wilcoxon 的符号配对秩和检验。 1.3 多组完全随机样本比较 1.3.1 资料符合正态分布,且各组方差齐性,直接采用完全随机的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD 检验,Bonferroni 法,tukey 法,Scheffe法,SNK 法等。 1.3.2 资料不符合正态分布,或各组方差不齐,则采用非参数检验的Kruscal-Wallis 法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni 法校正P 值,然后用成组的Wilcoxon 检验。 1.4 多组随机区组样本比较 1.4.1 资料符合正态分布,且各组方差齐性,直接采用随机区组的方差分析。如果检验结果 为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法, tukey 法,Scheffe法,SNK 法等。 1.4.2 资料不符合正态分布,或各组方差不齐,则采用非参数检验的Fridman 检验法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用符号配对的Wilcoxon 检验。 **** 需要注意的问题: (1)一般来说,如果是大样本,比如各组例数大于50,可以不作正态性检验,直接采用t 检验或方差分析。因为统计学上有中心极限定理,假定大样本是服从正态分布的。 (2)当进行多组比较时,最容易犯的错误是仅比较其中的两组,而不顾其他组,这样作容易增大犯假阳性错误的概率。正确的做法应该是,先作总的各组间的比较,如果总的来说差别有统计学意义,然后才能作其中任意两组的比较,这些两两比较有特定的统计方法, 如上面提到的LSD检验,Bonferroni法,tukey法,Scheffe法,SNK法等。**绝不能对其中的两组直接采用t 检验,这样即使得出结果也未必正确** (3)关于常用的设计方法:多组资料尽管最终分析都是采用方差分析,但不同设计会有差别。

医学统计学试题及答案 (1)

第一套试卷及参考答案 一、选择题(40分) 1、根据某医院对急性白血病患者构成调查所获得的资料应绘制( B ) A 条图 B 百分条图或圆图C线图D直方图 2、均数和标准差可全面描述 D 资料的特征 A 所有分布形式B负偏态分布C正偏态分布D正态分布和近似正态分布 3、要评价某市一名5岁男孩的身高是否偏高或偏矮,其统计方法是(A ) A 用该市五岁男孩的身高的95%或99%正常值范围来评价 B 用身高差别的假设检验来评价 C 用身高均数的95%或99%的可信区间来评价 D 不能作评价 4、比较身高与体重两组数据变异大小宜采用(A ) A 变异系数 B 方差 C 标准差 D 四分位间距 5、产生均数有抽样误差的根本原因是( A ) A.个体差异 B. 群体差异 C. 样本均数不同 D. 总体均数不同 6. 男性吸烟率是女性的10倍,该指标为(A ) (A)相对比(B)构成比(C)定基比(D)率 7、统计推断的内容为( D ) A.用样本指标估计相应的总体指标 B.检验统计上的“检验假设” C. A和B均不是 D. A和B均是 8、两样本均数比较用t检验,其目的是检验( C ) A两样本均数是否不同B两总体均数是否不同C两个总体均数是否相同D两个样本均数是否相同 9、有两个独立随机的样本,样本含量分别为n1和n2,在进行成组设计资料的t检验时,自由度是(D ) (A)n1+ n2(B)n1+ n2–1 (C)n1+ n2 +1 (D)n1+ n2 -2 10、标准误反映(A ) A 抽样误差的大小 B总体参数的波动大小 C 重复实验准确度的高低 D 数据的离散程度 11、最小二乘法是指各实测点到回归直线的(C) A垂直距离的平方和最小B垂直距离最小C纵向距离的平方和最小D纵向距离最小 12、对含有两个随机变量的同一批资料,既作直线回归分析,又作直线相关分析。令对相关系数检验的t值为t r,对回归系数检验的t值为t b,二者之间具有什么关系?(C) A t r>t b B t rχ20.05,ν可认为( A ) A各总体率不同或不全相同 B各总体率均不相同C各样本率均不相同 D各样本率不同或不全相同 15、某学院抽样调查两个年级学生的乙型肝炎表面抗原,其中甲年级调查35人,阳性人数4人;乙年级调查40人,阳性人数8人。该资料宜选用的统计方法为( A ) A.四格表检验 B. 四格表校正检验 C t检验 D U检验 16、为调查我国城市女婴出生体重:北方n1=5385,均数为3.08kg,标准差为0.53kg;南方n2=4896,均数为3.10kg,标准差为0.34kg,经统计学检验,p=0.0034<0.01,这意味着(D ) A 南方和北方女婴出生体重的差别无统计学意义 B 南方和北方女婴出生体重差别很大

(完整)常用医学统计学方法的选择

(完整)常用医学统计学方法的选择 编辑整理: 尊敬的读者朋友们: 这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望((完整)常用医学统计学方法的选择)的内容能够给您的工作和学习带来便利。同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。 本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为(完整)常用医学统计学方法的选择的全部内容。

常用医学统计学方法的选择 1。多组率的比较用卡方检验(χ2检验,chi—square test) 直接用几个率的数值比较,与直接用原始数据录入比较,结果会有什么不同?卡方值会受样本量的影响,样本越多,卡方值越大. 2。多组计量资料比较采用方差分析(F检验),不能用t检验。当方差分析结果为P<0。05时,只能说明k组总体均数之间不完全相同。若想进一步了解哪两组的差别有统计学意义,需进行多个均数间的多重比较,即SNK—q检验(多个均数两两之间的全面比较)、LSD-t检验(适用于一对或几对在专业上有特殊意义的均数间差别的比较)和Dunnett检验 (适用于k-1个实验组与一个对比组均数差别的多重比较)。 3。非正态分布多组数据之间比较选用非参数检验、单样本中位数检验(符号检验和 Wilcoxon 检验)、双样本中位数检验(Mann—Whitney 检验)、方差分析(Kruskal—Wallis、Mood 中位数和 Friedman 检验) 4。按血糖水平从低到高分成多组,进行多组之间死亡率的比较,由于死亡率同样受年龄、性别、病史、您身边的论文好秘书:您的原始资料与构思,我按您的意思整理成优秀论文论著,并安排出版发表,扣1550116010 、766085044自信我会是您人生路上不可或缺的论文好秘书血脂等因素的影响,所以需选取合适统计方法实现“调整年龄、性别等危险因素后,按血糖分组进行死亡率的比较(由血糖从低到高分成的4组)”。 ①年龄是定量变量(是数值),调整年龄的方法可在Logistic回归中运用,连续性变量年龄加入covariate中,当成协变量,就可以调整年龄,age—adjusted odds ratio就能得到了。②性别性别是二分类变量,不是定量变量,不可在LOGISTIC回归里比较。调整性别可在卡方检验中采取分层的方法比较。 如果为多分类LOGISTIC回归,在选择用multinomianl LOGISTIC回归中,可选入年龄等进入covariate,观察年龄的配比情况。可把性别选入factors(自变量)。这样可以实现调整年龄、性别等危险因素。 5.回顾性研究(1)临床妊娠率和女性年龄的关系+(2)男性影响临床妊娠的精子参数比较: 数据类型及变量的说明:y:计量 拟采用的分析方法:卡方检验 拟采用的分析软件:spss 原始数据附件及格式:word表 能否用其他方法统计分析:可用卡方分割,调整检验水准(根据比较的次数N,校正后的检验水准为0.05/N)。 6。重复t检验:多个样本均数间的两两比较(又称多重比较)不宜用t检验,因为重复数次, t检验将增加第一类错误的概率,使检验效率降低。此时宜用方差分析,并在此基础上用两两比较方法(如.SNK、LSD、Duncan法等). 对于同一对均数间的差异,用t检验无显著性,而两两比较可能有显著性,可见错误选用统计方法将推出错误结论。 统计方法的选择: 分计量、计数、等级资料三

医学统计学T检验

应用t分布理论对正态分布或近似服从正态分布的总体当方差σ2未知时关于平均数的检验方法。作法如下: (1)根据实际问题,提出关于平均数μ的一个原假设,记作Ho:μ=μo,和备择假设,记作H1:μ≠μo(或μ>μo,或μ<μ0), (2)给定一个显著性水平α(通常α取为0.05和0.01), (3)对于容量为n的样本,从t分布数值表中查出tα(n-1)的数值, (4)由样本 (5)作出接受或拒绝的决策,当■落在拒绝域时,则作出拒绝H0而接受Н1的决策,否则作出接受H0的决策。拒绝域表如下。拒绝域表(总体方差未知)例如,某电石厂以炉A生产的电石平均乙炔发生量是281.4(升/千克),新安装的高效能炉B产品中,抽取了8 个样品,测得乙炔发生量(单位:升/千克)是:283.1,282.9,283.1,284.5,285.2,285.0,284.5,286.7。想要了解炉B产品平均乙炔发生量是否比炉A要高?这里由于炉A、炉B产品方差都不知道,用t分布检验比较合适。(1)提出Н■:μ=μ■=281.4升/千克。Н1:μ>μ。,即炉B产品平均乙炔发生量多于炉A产品乙炔发生量。(2)给定显著性水平α=0.01,(3)t0.01(7)=2.9980,(4)■=284.37,S=282.79,结论:炉B产品平均乙炔发生量大于炉A产品平均乙炔发生量。关于两个总体方差都未知时,平均数之差的显著性检验法参看两个总体平均数差的检验。 T检验法:应用t分布理论对正态总体或近似服从正态分布的总体当方差σ2未知时关于平均数的检验方法。 Q检验法:首先把数据按照从大到小排序,找出最大值与最小值,并计算可疑出其与相邻值的差值,并将其与最大值与最小值之差做商。得出Q与题目给出的要求的Q对比,要是大于,则是舍去,应该正确。

相关文档
最新文档