医学统计学

医学统计学
医学统计学

第一单元概述

1. 研究设计应包括那几方面内容?答:包括:专业设计和统计设计。专业设计是针对专业问题进行的研究设计,如选题、形成假说等。统计设计是针对统计数据

收集和分析进行的设计,如样本来源、样本量等。统计设计是统计分析的基础。任何设计上的缺陷,都不能在统计分析阶段弥补和纠正。

第二单元资料描述性统计

1. 描述计量资料的集中趋势和离散趋势的指标有哪些?各指标的适用范围如何?答:集中趋势的指

标有:算术均数、几何均数、中位数。算术均数适用于描述对称分布资料的集中位置,尤其是正态分布资料;几何均数用来描述等比资料和对数正态分布资料的集中位置;中位数可用于任何资料。描述离散趋势有:极差、四分位数间距、方差、标准差和变异系数。极差和四分位数间距可用于任何分布,但两个指标都不能反映变异程度;方差和标准差常用于资料为近似正态分布;变异系数可用于多组资料间量纲不同或均数相差较大时变异程度间的比较。

2. 变异系数和标准差有何区别和联系?

答:区别: 1.计算公式不同:CV=S/X*100% ,标准差是方差的平方根。 2.单位不同:变异系数无量纲,标准差量纲和原指标一致。 3.用途不同。联系:都是适用于对称分布的资料,尤其是正态分

布的资料,并且由公式所知,在均数一定时,CV 与s 呈正比。

3. 频数表的用途有哪些?

答: 1.描述资料的频数分布的特征; 2.便于发现一些特大或特小的可疑值; 3.将频数表作为

陈述资料的形式,便于进一步的统计分析和处理; 4.当样本量足够大时,可以以频数表作为

概率的估计值。

4. 用相对数时应注意哪些问题?

答:1.在实践工作中,应注意各相对数的含义,避免以比代率的错误现象。2.计算相对数时分母应该有足够的数量,如资料的总数过少,直接报告原数据更为可取。 3.正确计算频数指

标的合并值。4.相对数的比较具有可比性。5.在随机抽样的情况下,从样本估计值推断总体相对数应该考虑抽样误差,因此需要对相对数指标进行参数估计和假设检验。

第三单元医学统计推断基础

1. 正态分布和标准正态分布的联系和区别?答:联系:均为连续型随机变量分布。区别:标准正态

分布是一种特殊的正态分布(均数为0,标准差为1)。一般正态分布变量经标准化转换后的新变量服从标准正态分布。

4. 简述二项的应用条件?

答:条件为: 1.每次试验只会发生两种互斥的可能结果之一,即两种互斥结果的概率之和为1;2.每次试验产生某种结果固定不变; 3.重复试验是相互杜立的,即任何一次试验结果的出现不会影响其他试验结果的概率。

5. 简述Q-Q 图法的基本原理?

答:U-变换可以把一个一般正态分布变量变换为标准正态分布变量,反之,U-变换的逆变

换也可以把一个标准正态分布变量变换为一个正态变量。Q-Q 图法实际上就是首先求的小于某个x 的积累频率,再通过该积累频率求得相应的u 值,如果该变量服从正态分布,则点(u,x)应近似在一条直线上(u —变换直线),否则(u, x)不会近似在一条直线上。Q —Q图法正是根据(u, x)是否近似在一条直线上来判断是否为正态分布。

第四单元参数估计与参考值范围的估计

1. 均数的标准差和标准误的区别和联系?答:区别和联系:标准差是描述个体值变异程度的指标,

为方差的算术平方根,该变异不能

通过统计方法来控制;而标准误则是指样本统计量的标准差,均数的标准误实质上是样本均

数的标准差,它反映了样本均数的离散程度,也反映了样本均数与总体均数的差异,间接反映了均数的抽样误差大小。

2. 简述t分布和标准正态分布间的区别与联系?

答:t分布是进行小样本总体参数区间估计和假设检验的理论基础,t分布比标准正态分布

的峰值低,且尾部翘的要高。此外随着自由度的增大,t分布逐渐趋近于标准正态分布,即

为自由度趋于无穷时,t分布就是标准正态分布。

3简述医学中参考值范围的含义和制定参考值范围的一般步骤?

答:含义:医学中把绝大多数正常人的某指标范围称为该指标的参考值范围,也叫正常值范围。步骤:1.定义“正常人”,不同的指标“正常人”的定义也不同; 2.选定足够数量的正常

人作为研究对象;3.用统一和准确的方法测定相应的指标; 4.根据不同的用途选定适当的百

分界限,常用95%和99% ; 5.根据此指标的实际意义,决定用单侧范围还是双侧范围; 6.根据此指标的分布决定计算方法,常用的计算方法有正态分布法、百分位数法。

第五单元t检验与单因素方差分析

1.1型错误和II型错误有何区别与联系,这两种错位有何实际意义?

答:I型错误是指实际上成立的H0所犯的“弃真”错误,其概率大小用a表示。II型错误则是指“接受”了实际上不成立的H0所犯的“取伪”错误,其概率大小用B表示。当样本

含量n确定时,a愈小,B愈大,反之亦然。意义:若在应用中要重点减少a, 则取a= 0.01 ;若在应用中要重点减少则取a= 0.05, 0.10 , 0.20甚至更高。

2. 假设检验和区间估计有何联系?

答:联系在于可信区间亦可以回答假设检验的问题,在判断两个或多个总体参数是否相等时,

假设检验和可信区间是完全等价的。

3. 为什么假设检验的结论不能绝对化?

答:因为通过假设检验的结论具有概率性,其结论不可能完全正确,有可能发生两类错误。

拒绝H0是可能犯I型错误;接受H0时可能犯II型错误。因此不能在结论中使用绝对化字词如“肯定”等。

5. 如何正确选取单侧或双侧检验?

答:单双侧检验首先应根据专业知识来确定,同时也应该考虑所要解决问题的目的。

1. 若从专业知识判断一种方法的结果可能低于或高于另一种方法的结果,则用单侧检验;

2.在尚不能从专业知识判断两种结果谁高谁低时,用双侧检验;

3.若研究者对低于或高于两种

结果都关系,用双侧检验;若只关系其中一种可能,用单侧检验。一般认为双侧检验较保守

和稳妥;单侧检验由于充分利用了另一侧的不可能性,故更易得出有差别的结论,但应慎用。6. 两样本t检验的应用条件?

答:条件为:两样本相互独立的;所来自的总体为正态总体;两总体方差相等。

7. 方差分析的应用条件?

答:条件是:1.各样本是相互独立的随机样本,均服从正态分布; 2.相互比较的各样本的总

体方差相等,即具有方差齐性。

第六单元列联表分析

1. R*C表的卡方检验中,对于理论频数太小的情况应如何处理?

答:处理方法:1.增加样本含量,以达到增大理论频数的目的,该方法为首先; 2.根据专业

知识,删除理论频数太小的格子所对应的行或列,可能损失样本信息或随机性,慎用; 3.根据专业知识,将理论频数太小的格子所对应的行或列与性质相近的或邻列合并,使重新计算的理论频数变大,但要合并的合理; 4.改用双向无序的R*C表的Fisher确切概率法,该

方法计算复杂,需要SAS软件实现。

第七单元非参数统计分析方法

1?简述非参数检验的应用条件?

答:条件:1?资料不符合参数统计法的应用条件或总体分布类型未知; 2.等级资料;3?个别

数值偏大或某一端为不确定数如<0.01 ; 4.在资料满足参数统计的要求时,应首选参数法,

以免降低检验效能。

4. 对同一资料,又出自同一研究目的,用参数统计和非参数统计所得结果不一致时,应以何种结果为准?

答:两种方法各有适用的条件。如果资料符合参数统计的要求,如满足正态、方差齐性等条

件,以参数统计的结果为准;如果资料不符合参数统计的应用条件,如总体为非正态或分布

类型不明确等,以非参数统计的结果为准。

第八单元回归与相关

1. 试总结从样本数据判断总体回归关系是否成立的统计方法有哪些?答:用tb、tr作t检验,用F 对b作方差分析,直接查r界值表。

2. 直线相关与秩相关的区别与联系:

答:二者的联系(1):两者嗦解决的应用问题相同,都可用来表示两个数值变量间关系的方

向和密切程度;(2):两个相关系数都没有单位,取值在【-1,1】之间;(3):计算上用秩次

作直线相关得到的就是秩相关系数数。二者的区别:(1):资料要求不同,直线相关系数要

求x、y从正态分布,秩相关可以是任意分布;(2):对于资料要求不同,二者分属于参数

和非参数统计方法,所以符合分布条件时,直线相关的效率高于秩相关;(3):二者假设检验方法不同。

3. 简述直线回归和直线相关的区别与联系

答:区别:(1)资料要求不同,直线回归要求Y服从正态分布,进行回归分析时成为2型回归,直线相关要求XY都服从正态分布,进行回归分析时成为2型回归;(2):应用目的不同,说明两变量的数量关系用回归分析,说明其关联用相关分析;(3):意义不同;(4):

计算方法不同;(5):取值范围不同;(6):单位不同;二者联系:(1):方向一致;(2):假设检验等价;(3):用回归解释相关,回归平方和越接近总平方和,r2越接近1,说明相关

性越好。

4. 经检验认为回归方程有意义,是否表明两变量间存在因果关系?

答:两变量间不一定存在因果关系,直线回归定量考察应变量与自变量间的线性关系,统计学检验表明回归方程有意义,

只是说明二者数量上的线性关系存在, 至于内在联系的性质尚

需借助医学专业知识确定。

5. 秩相关特别适用于哪些资料?

答:(1):不服从双变量正态分布而不宜作直线相关分析的资料;(2):总体分布类型未知的资料;(3):用等级表示的资料;(4):分布端点无确定数值的资料;(5):用相对数表示的资料。

第九章实验设计与调查设计

1. 简述试验中对照设立的形式

答:(1):空白对照是在不施加任何处理的“空白”条件下进行观察的对照;(2):实验对照是在某种与处理因素有关的实验条件下进行观察的对照;(3):标准对照是以标准值或正常

值作为对照,或对照组采用的处理方法为现有标准方法或常规方法;(4):潜在对照是不专

门设立对照组,而是已过去的间就结果作为对照;(5):相互对照是不专门设立对照组,各

实验组之间互为对照;(6):安慰剂对照是指对照组采用一种无药理作用的物质,但其剂量或处置上不能为受试者识别,这种物质成为安慰剂。

2. 什么是随机化?随机化作用是什么?在整个实验设计和实验过程中如何实验随机化?

答:随机化是使各种对比组间在大量不可控制的非研究因素的分布方面尽量保持均衡一致的重要措施,随机化保证了各对比组间的均衡可比性,也是资料统计分析时进行统计推断的前

提。随机化既机会均等,应贯穿实验设计和实施的全过程,具体体现在三方面(1)抽样随机,(2)分组随机;(3 )实验顺序随机。

3?常用的抽样方法有那些?

答:(1)单纯随机抽样又称简单随机抽样,其抽样原则是使调查总体中每个观察单位被选入

的概率完全相同;(2)系统抽样又称机械抽样或等距抽样,即先将调查总体中得所有观察单

位排序后按样本例数分段,并从第一段随机抽取一个单位作为起始点,然后以相同间隔机械

的从其他段中各抽取一个观察单位构成样本;(3)分层抽样又称类型抽样或分类抽样,即先将总体中所有观察单位按某项特征或标志划分为若干类型或组别,然后再按随机原则从每一

层中抽取若干观察单位组成样本;(4)整群抽样是将总体中所有观察单位按某种属性分成若

干群体,然后以“群”为初级抽样单位,从所有群体中随机抽取若干群体,由这些群体中的观察单位构成样本。

第十二单元多元线性回顾与相关分析

1?多元回归中截距和偏回归系数的意义分别是什么?

答:截距b0是多元回归方程的常数项,其意义为当X1,X2,…….Xk为0时,应变量Y的平

均值。偏回归系数bj表示在其他自变量固定不变的情况下,Xj每改变一个测量单位时所引

起的应变量Y的平均改变量。

2. 标准化偏回归系数与偏回归系数有何不同?

答:若先对应变量和自变量均实施标准正态离差交换,然后再建立回归方程,则所得回归方程中的偏回归系数b1' ,b2',…….bk'既为标准化偏回归系数。标准化偏回归系数bj'与其

自变量Xj的计量单位无关,可利用bj'绝对值的大小来直接评价Xj对应变量Y的贡献强

度,即bj'的绝对值越大,表明Xj对应变量Y的贡献越大。而偏回归系数bj与其变量Xj 的统计单位有关,不能直接用来评价Xj对应变量Y的贡献大小,bj表示在其他自变量固定

不变的情况下,Xj每改变一个测量单位时所引起的应变量Y的平均改变量。偏回归系数bj 与标准化偏回归系数bj'间的关系为bj' =bjSj/SY。这里Sj和SY分别为自变量Xj和Y的标准差。

3. 多元线性回归分析中,自变量筛选的方法有哪些?你认为哪种更好些?

答:方法有全局择优法、向前选择法、后向选择法、逐步选择法。从理论上讲,全局择优法最好,但由于实际中自变量的数目往往较大,采用全局择优法的计算量非常大,这种情况用逐步选择法较为合适。

4. 自变量筛选的检验水准如何把握?

答:对选入和剔除自变量的F检验,可以设置相同和不同的检验水准,一般对于小样本可

把a值定为0.10或0.15,对大样本把a值定为0.05.a值定的越小,表示选取自变量的标准越严格,被选入的自变量个数相对越少;反之,a值定的越大,表示选取的标准越宽,被选

入的自变量个数越多。

5. 多元线性回归分析的前提条件有哪些?

答:1.应变量Y为连续型随机变量;2.自变量之间不存在多重共线性,即自变量之间相对独立;3.自变量与残差是独立的; 4.残差服从均数为0,方差为1的正态分布,且各观察值的

残差之间的相互独立的。

6. 什么是多重共线性?多重共线性对多元线性回归分析的影响是什么?消除多重共线性的

方法有哪些?

答:在多元回归分析中,当一个或几个自变量可以有另外的自变量线性表达时,称为该自变量与另外的自变量间存在有多重共线性。如果自变量之间共线性呈高度很高(相关系数接近于1),使用最小二乘法建立的回归方程可能失效,偏回归系数的估计容易失真且稳定性差。

消除的方法有:1?剔除造成共线性的某个自变量; 2.将具有多重共线性的变量合并成一个新

的变量;3?逐步回归法。

7?多元线性回归可以使用哪些类型的变量?

答:典型的多元线性回归使用的自变量应该是连续的,但是如果自变量中含有分类变量,经过适当的处理后仍然适合作为多元回归分析。1?二分类变量可以直接使用。 2.如果自变量是

一个有序分类变量,则可以根据不同级别赋予不同分数后按连续变量处理,也可以按名义分类变量的方式处理。3.如果自变量是一个名义分类变量可将其转化为若干个二分类变量后进行处理。

8. 如何评价所建立的多元线性回归方程的优劣?残差分析有何作用?

答:一般情况下,可采用方差分析法和求决定系数R2法,方差分析的F检验是把所有的自

变量作为一个整体,检验他们对应变量Y的影响是否有统计学意义,F值越大,则P值越小,表示越有理由拒绝自变量与应变量没有线性关系的无效假设。决定系数R2表示方程中的自变量能够解释应变量Y变化的百分比,其值越接近1,说明模型对数据的拟合程度越好。

R2虽然可以直接度量回归方程的合适程度,但也有局限,即便增加一些无统计学意义的变量,其数值也会增加,为此可以选择校正决定系数。残差分析是检查资料是否符合回归模型条件的一种简单方法。通过残差分析,常可以检查出数据模型的错误,如应变量Y与自变量的非线性关系、异方差结构、离群值等。

第十四单元多因素方差分析

1.简述析因设计与正交设计的联系与区别?

答:联系:两者都是多因素设计,即实验至少有两个处理因素,每个处理因素至少有两个

水平。区别:析因设计是全面实验,g个处理组是各因素各水平的全面组合;正交设计则是

非全面实验,g个处理组是各因素各水平的部分组合。当实验因素较多时,采用正交设计可成倍的减少试验次数。要注意,正交设计之所以能成倍的减少试验次数,是以牺牲分析各处

理因素的部分或大部分交互作用为代价的。

2. 重复测量数据的主要特征是什么?

答:特征是:1.重复测量设计中“处理”是在区组间随机分配,区组内的各时间点固定的,

不能随机分配。2.重复测量设计区组内试验单位彼此不独立。

3. 前后测量设计、设立对照的前后测量设计为什么不等同于配对设计和随机区组设计?

答:1.前后测量设计不能同期观察实验结果,虽然可以在前后测量之间安排处理,但本质上

比较的是前后差别,推论处理是否有效是有条件的。配对设计中同一对子的两个实验单位可

以随机分配处理,两个试验单位同期观察结果,可以比较处理组间差别。2.前后测量设计前后两次观察结果通常与差值不独立,大多数情况第一次观察结果与差值存在负相关的关系。配对t检验和随机区组设计要求同一区组的试验单位的观察结果相互独立的。

4. 重复测量设计、随机区组设计、两因素析因试验有何联系与区别?

相关主题
相关文档
最新文档