医学统计学基本概念[资料]

医学统计学基本概念[资料]
医学统计学基本概念[资料]

医学统计学基本概念

1.医学统计学是以医学理论为指导,应用概率论与数理统计的有关原理和方法,研究医学资料的搜集、整理、分析和推断的一门应用科学。

2.统计工作的步骤:(1)设计(2)收集资料(3)整理资料(4)分析资料;或者分三步:(1)研究设计(2)资料分析(3)结论。

3.定量资料:又称为数值变量资料,特点:(1)各观察值之间有量的差别;(2)数据间有连续性。它是指变量的取值不止是可列个,而是可取某区间[a,b],(-oo,oo)

上的一切值。

4.定性资料:又称为分类资料、分类变量资料(包括二项分类、多项分类资料),特点:(1)各观察值之间有质的差别;(2)数据间有离散性。它是指变量的取值有

限的,至多是可列多个。附:无序分类:二项分类、多项分类

5.等级资料:又称为半定量资料,有序分类,指各类之间有程度的差别。特点:()各观察单位间或者相同,或者存在质的差别;(2)各等级间只有顺序,而无数值

大小,故等级之间不可度量。

6.个体individual:即每个观察单位。

7.总体population:根据研究目的确定的同质观察单位的全体。

8.样本:是从总体中随机抽取部分观察单位,其实测值的集合。样本包含的观察单位数称为样本含量或样本大小。

9.参数parameters:描述某总体特征的统计指标称为总体参数,简称参数。如总体均数、总体标准差等。特点:参数是未知的,固有的,不变的!

10.统计量:描述某样本特征的的统计指标称为样本统计量,简称统计量。特点:统计量是已知的,变化的,有误差的!

11.概率probability:是描述随机事件发生的可能性大小的数值。常用P表示。它的大小界于0和1之间。

12.随机事件:(1)可重复性:相同条件下可重复进行;(2)随机性:出现两种机两种以上结果;(3)偶然性:实验前不能肯定将出现哪种结果。

13.频率的稳定性:在重复试验中,事件A的频率随着试验次数的不断增加将愈来愈接近一个常数p,频率的这一特性称为频率的稳定性。

14.概率的统计定义:频率的稳定性充分说明随机事件出现的可能是事物本身固有的一种客观属性,因而是可以被认识和度量的。这个常数p就称为事件A出现的概

率(probability),记作P(A) 或P。这一定义称为概率的统计定义。它是事件A发生的可能性大小的一个度量。容易看出,频率为一变量,是样本统计量,而概率为常数,是一总体参数。实践中,当试验次数足够多时,可以近似地将频率作为概率的一个估计。

15.小概率原理:当某事件发生的概率小于或等于0.05时,统计学通常称该事件为小概率事件,其涵义为该事件发生的可能性很小,进而认为其在一次抽样中不可能

发生,此即为小概率原理。

16.同质(homogeneity):性质相同的事物称为同质的。

17.变异(variation):同质的事物内个体之间或同一个体重复测量间的差别称为变异。

18.参考值范围(reference interval)又称正常值范围(normal range)。由于正常人的形态、功能、生化等各种指标的数据因人而异,而且同一个人的某些指标还会随着时间、

机体内外环境的改变而变化,因此需要确定其波动范围,即正常值范围,简称正常值(normal value)。

19.正常值范围(normal ranges),是指绝大多数正常人的某指标范围。

20.抽样误差(sampling error):由于抽样造成的样本统计量和总体参数之间的差异。

21.标准误(standard error):样本统计量的标准差称为标准误。样本均数的标准差称为均数的标准误。

22.参数估计:由样本信息估计总体参数称为参数估计,包括点估计和区间估计。

23.点估计(point estimation) :直接用样本统计量作为总体参数的估计值。这种估计方法简单,但未考虑抽样误差的大小。

24.区间估计(interval estimation) :按一定的概率或可信度(1-α)用一个区间估计总体参数所在范围,这个范围称作可信度为1-α的可信区间(confidence interval, CI),又

称置信区间。这种估计方法称为区间估计。

25.可信度为1-α的可信区间的确切涵义是:每100个样本所算得的100(1-α)%可信区间,平均有100(1-α)个包含了总体参数。如取α=0.05,则每100个样本所算得

的100个95%可信区间,平均有95个包含总体参数在内,有5个不包含总体参数。

26.可信区间的两个要素:第一个要素是可靠性,常用可信度1-α的大小表示;第二个要素是精确性,常用可信区间的长度CU-CL衡量。

27.均数95%可信区间,其涵义是:如果重复100次抽样,每次样本含量均为n,每个样本均按(见课本P42)构建可信区间,则在此100个可信区间内,

理论上有95个包含总体均数,而有5个不包含总体均数。

28.可信度为95%的CI的涵义:每100个样本,按同样方法计算95%的CI,平均有95%的CI包含了总体参数。这里的95%,指的是方法本身!而不是某个区间!

29.第一类错误(I型错误):拒绝了实际上成立的H0假设,称为“假阳性”, 用α来表示。

30.第二类错误(II型错误):不拒绝实际上不成立的H0,称为“假阴性”,用β来表示。

31.检验效能(power of a test)或检验功效:1-β称检验效能(power of a test),过去称把握度。为当两总体确有差异,按检验水准α所能发现该差异的能力。1-β只取单

尾。

32.完全随机设计:根据某一试验因素,将试验对象完全按随机设计分为若干个组,每个组的样本例数可以相等,也可以不等,分别求出各组试验结果的均数,即为

单因素多个样本均数,单个因素可以有多个水平,R>2

33.随机区组设计又称配伍组设计(Random Block Design):即两因素多个样本均数的比较(或称两因素方差分析,two way analysis of variance)。

34.绝对数:在计数资料中,各组的观察数称绝对数。

35.相对数:是两个有联系的指标的比,计数资料的统计描述主要是相对数(relative number)。

36.率(rate):说明某现象发生的频率或强度,常用%、‰、1/万、1/10万等作单位,表示在一定范围内,某现象的发生数与可能发生某现象的总数之比。率的结果常

以保留1-2位整数为宜。

37.构成比(constituent ratio):说明一事物内部各组成部分所占的比例,常以%来表示。

38.比:也称相对比(relative ratio),两个有关指标之比。通常以某种现象的数量为1或100作基数,看另一种现象的数量是多少,说明一事物是另一事物的若干倍或百

分之几。两个相比的指标可以性质相同,如时间比、性别比;也可性质不同。比=A/B

39.秩次是指全部观察值按某种顺序排列的位序;秩和:是同组秩次之和。

40.秩变换:将等级变成秩次的方法称为秩变换。

41.秩和检验:就是通过秩次的排列求出秩和,从而对总体的分布进行假设检验的方法。

42.确定性关系:是指两变量间的关系是函数关系。

非确定性关系:是指两变量在宏观上存在关系,但并未精确到可以用函数关系来表达。

相关关系:指既是必然的又是不确定的关系称为相关关系。当两个变量之间出现如下关系,一个增大,另一个也同时增大,或缩小,我们称这种现象为共变,也就是说两个变量之间有相关关系。相关关系不一定是因果关系。相关关系可以是因果关系,也可以是伴随关系。

43.直线相关系数:简称为相关系数,用符号r表示,是用于说明具有直线关系两个变量之间,相关关系的密切程度和相关方向的指标。

44.等级相关的含义:等级相关反映的是两变量等级间的相关,并不反映两变量间的数值关系。

45.直线相关:这种直线关系,或分析这种直线关系的理论和方法,统称为直线相关。

46.直线回归: 直线回归是用于研究两个变量x与y之间的线性依存关系的一种统计分析方法。

47.试验研究设计:是指研究者根据研究目的、通过对受试对象施加干预,严格控制各种影响因素,获得干预研究结果。

48.双盲临床试验:是指观察者方和被观察者方在整个试验过程中不知道受试者接受的是何种处理;单盲临床试验是指仅被观察者方处于盲态。观察者方指的是研究

者、参与试验效应评价的研究人员、数据管理人员、统计分析人员;被观察者方指的是受试对象及其亲属或监护人。双盲双模拟:试验组:试验药+阳性对照药的安慰剂;对照组:阳性对照药+试验药的安慰剂。医学统计学相关知识

1.频数分布表的用途:(1)看出频数分布的两个重要特征:集中趋势、离散趋势(2)揭示资料的分布类型

2. 描述定量资料集中趋势的三个指标及其应用条件:(1)均数(也称算术均数):适用于单峰对称分布的资料;(2)几何均数:适用于等比资料、对数正态分布资料;(3)中位数:适用于偏态分布资料、分布不规则或未知分布资料、一端或两端有不确定数据(开口资料)的资料。

3. 描述定量资料离散程度的指标(极差、四分位数间距、标准差、变异系数)及其适用范围:这四个指标均反映定量资料的离散程度。极差和四分位数间距可用于任何分布(极差常用于描述单峰对称分布小样本分布资料的变异程度,或用于初步了解资料的变异程度;四分位数间距常用于描述偏态分布资料、两端无确切值或分布不明确资料的离散程度),后者比前者稳定,但均不能综合反映各观察值的变异程度;标准差最常用,要求资料近似服从正态分布;变异系数可用于比较度量单位不同的两组或多组资料的变异度或均数相差悬殊的两组或多组资料的变异度。

4. 正态分布的特征:(1)正态分布是一单峰分布,高峰位置在均数处;(2)正态分布以均数为中心,左右完全对称;(3)正态分布取决于两个参数,即均数μ和标准差σ。μ是位置参数,μ越大,则曲线沿横轴向右移动;μ越小,曲线沿横轴向左移动。σ为形态参数,表示数据的离散程度,若σ小,则曲线形态“瘦高”;σ大,则曲线形态“矮胖”。(4)有些指标不服从正态分布,但通过适当的变换后服从正态分布;(5)正态分布曲线下的面积分布是有规律的。

5.正态曲线下的面积规律

?正态曲线下面积总和为1;正态曲线关于均数对称;对称的区域内面积相等;

?对任意正态曲线,按标准差为单位,对应的面积相等;μ-1.64σ~μ+1.64σ内面积为90%;

?μ-1.96σ~μ+1.96σ内面积为95%;μ-2.58σ~μ+2.58σ内面积为99%。

?小于μ-3σ的面积为0.13%; 小于μ-2σ的面积为 2.28%; 小于μ-σ的面积为15.87%。

6. 标准误与标准差的关系

区别标准差s标准误s x

意义个体变异统计量的抽样误差

用途正常值范围(x±1.96s)总体均数的可信区间(x±t α, νs x)

与n关系n↑s趋于稳定n↑s x趋于0

联系 1.两者都是变异指标,说明个体之间的变异用标准差,说明统计量之间的变异用标准误。

2.当样本含量不变时,标准差大,标准误亦大,均数的标准差与标准误成正比。

7.下列说法正确吗?算得某95%的可信区间,则:

总体参数有95%的可能落在该区间。(错)有95%的总体参数在该区间内。(错)

该区间包含95%的总体参数。(错)该区间有95%的可能包含总体参数。(错)该区间包含总体参数,可信度为95%。(对)

8.影响可信区间大小的因素:(1)可信度:可信度越大,区间越宽;(2)个体变异:变异越大,区间越宽;(3)样本含量:样本含量越大,区间越窄。

9. 均数的可信区间和参考值范围的区别

区别 可信区间 参考值范围

意义 未知参数的可能范围 正常值的波动范围

公式 σ已知或σ未知,但n 足够大(x ±u α /2,sx )或(x ±u α /2 σ,x ) (x ±u α /2,sx )

σ未知( x ±t α, ν s x )

用途 估计总体均数 判断正异常

小结:均数的可信区间:均数±界值×标准误 个体的容许区间(参考值范围):均数±界值×标准差

10. 可信区间与容许区间的区别:见P44

11. 假设检验的基本思想:

? 提出一个假设(H 0); 验证这个假设。如果假设成立,会得到现在的结果吗?

两种可能的情况:(1)得到现在的结果可能性很小(小概率) →拒绝H 0 (2)有可能得到现在的结果(不是小概率) →没有理由拒绝H 0

假设检验的步骤:(1)建立检验假设;(2)确定检验水准α;(3)计算检验统计量并求P 值;(5)界定P 值并作结论。

12. I 型错误和 II 型错误 实际情况

假设检验的结果

拒绝 H 0

不拒绝 H 0 H 0 成立

I 型错误(α) H 0 不成立

把握度(1-β) II 型错误(β)

13. 差异检验和优度检验:差异检验之意义在于是否能够确认H 1成立,故希望所得P 值很小,因为P 值越小,表示手头样本从H 0总体随机获得之概率越小,即否定H 0而确认H 1成立的把握越大。

优度检验之意义在于是否能够确认H 0成立,故希望所得P 值较大,因为P 值越大,表示手头样本从H 0总体随机获得之概率越大。

14. 可信区间与假设检验区别和联系:可信区间说明量的大小即推断总体均数范围,假设检验推断质的不同即判断两总体均数是否不等;可信区间可回答假设检验问题,可信区间若包含了H0 ,按α水准,不拒绝H0;若不包含H0 ,按α水准,拒绝H0 ,接受H1;

可信区间不但能回答差别有无统计学意义,还能提示差别有无实际专业意义;可信区间不能够完全代替假设检验。可信区间只能在预先规定概率α的前提下进行计算,假设检验能获得一较为确切的P 值。

15. 下列说法正确吗?

?

P 是H 0成立的概率。(错) P 是 I 型误差的概率。(错)P 是 H 0 成立时,获得现有差别的概率。(错) ? P 是 H 0 成立时,获得现有差别以及更大的差别的概率。(对) 统计推断时的风险。(错) 拒绝H 0时所冒的风险。(对) 16.t 检验的应用条件:(1)独立性:各观察个体间是相互独立的,不能互相影响,亦不能一方影响另一方;(2)正态性:两组均数比较时,要求两组数据服从正态分布;配对设计时,要求差值服从正态分布。(3)方差齐性:两样本所对应的正态总体之方差相等。

17. 总体方差不相等的t 检验 :(1)数据变换后进行t 检验;(2)秩转换的非参数检验;(3)近似t 检验 ? t '检验。

18. 两样本均数比较方法的选择

方差齐 方差不齐

小样本 t 检验 t‘ 检验

大样本 u 检验 u 检验

19.方差分析的基本思想:方差分析(analysis of variance)又称为变异数分析,采用F 检验统计量,也称F 检验。这种方法的基本思想是对变异进行分解和分析,把全部观察值之间的变异—总变异,按照设计和需要分为两个或多个组成部分,再作分析, 从而达到统计推断之目的。总变异=组内变异+组间变异;组内变异:抽样(随机)误差(个体差异和测量误差);组间变异:组间本质差别+抽样(随机)误差;如果组间无本质差别,则组间变异=组内变异

或F =

20.方差分析的优点:(1)不受比较组数的限制;(2)可同时分析多个因素的作用;(3)可分析因素间的交互作用。

21. 方差分析的意义:是按照实验设计把总变异分成若干部分,划分得越细,各部分的涵义越明确,对结论亦较易解释;同时,残余的变异即误差部分越小,因而能够提高检验的灵敏度和结论的准确性。

22. F 分布是方差比的分布,常用于方差齐性检验,方差分析等。 F 分布特征:

(1) F 分布为一簇单峰正偏态分布曲线,与两个自由度有关。(2) 若F 服从自由度为(ν1,ν2)的F 分布,则其倒数1/F 服从自由度为(ν2,ν1)的F 分布。

(3) 自由度为(ν1,ν2)的F 分布,其均数为ν2/(ν2-2),与第一自由度无关。

(4) 第一自由度ν1=1时,F 分布实际上是t 分布之平方;第二自由度ν2=∞时,F 分布实际上等于χ2分布。

(5) 每一对自由度下的F 分布曲线下的面积分布规律,见方差分析用F 界值表,表中横标目为第一自由度,纵标目为第二自由度,表中分别给出了右侧尾部概率为0.051Between Within

MS MS =

和0.01时的F 界值。

23.方差分析表 变异来源

SS v MS F P 组间

SS 组间 k-1 SS 组间/v 组间 MS 组间/ MS 组内 组内

SS 组内 N -k SS 组内/v 组内 总

SS 总 N -1

24.方差分析与t 检验的关系

当比较两个均数时,从同一资料算得之 F 值与t 值有如下关系:F = t2 可见在两组均数比较时,方差分析与t 检验的效果是完全一样的。

25. 方差分析后的两两比较(多重比较)的几种方法:

一、SNK -q 检验(多个均数间全面比较) 二、LSD -t 检验(有专业意义的均数间比较)

三、Dunnett 检验 (多个实验组与对照组比较) 还有TUKEY 、DUNCAN 、 SCHEFFE 、 WALLER 、BON 等比较方法

各组间的比较用SNK 法; 各试验组与某一对照组间的比较用Dunnet 法。

26. 方差分析应用条件:① 各样本是相互独立的随机样本;② 各样本来自正态总体;③ 各组总体方差相等,即方差齐。

方差分析和t 检验要求: 独立性、正态性、方差齐性。

27. 总结:均数、方差的比较:

样本均数与总体均数的比较( t 检验) 配对设计样本均数的比较(配对t 检验)

两样本均数的比较 ( t 检验, u 检验, F 检验, SNK , Duncan )

多样本均数的比较( F 检验,ANOVA )

? 各组间的比较(SNK 法); 各试验组与某一对照组间的比较用(Duncan 法)

两个方差的比较( F 检验) 多个方差的比较( Bartlett 检验

28. 二项分布应用条件:医学领域有许多二分类记数资料都符合二项分布(传染病和遗传病除外),但应用时仍应注意考察是否满足以下应用条件:

(1)每次实验只有两类对立的结果;如阳性或阴性、生存或死亡,不允许考虑“可疑”等模糊结果,属于二项分类的资料。

(2) n 次事件相互独立;即每个观察单位的观察结果不会影响到其它观察单位的结果。如要求疾病无传染性、无家族聚集性等。

(3)每次实验某类结果的发生的概率是一个常数。已知发生某一结果(如阳性)的概率为π,其对应的概率必然是(1-π),我们知道总体率π一般是未知的,在实际工作中要求π是从大量观察中获得的比较稳定的数值。

29.二项分布的应用:(1)样本率与总体率的比较;(2)两样本率的比较。

30. Poisson 分布特征:① 非对称,但μ增大时趋于对称;② 均数与方差均为μ;③ 分布的可加性, n 个独立的Poisson 分布相加仍符合Poisson 分布,可使μ>20,使得可用正态近似。

31. Poisson 分布应用条件:(1)平稳性:X 的取值与观察单位的位置无关;(2)独立增量性:在某个观察单位X 的取值与前面各观察单位上X 的取值独立.;(3)普通性:在充分小的观察单位上X 的取值最多为1。

32. Possion 分布的应用:(1)总体均数估计;(2)样本均数与总体均数的比较;(3)两样本均数的比较。

33.χ2检验的用途:(1)推断多个总体率之间有无差别(2)推断几组总体构成比之间有无差别

(3)两个变量之间有无关联性(4)频数分布的拟合优度检验。

34. χ2检验的基本思想:χ2=

如果H0假设成立,那么实际频数与理论频数应该比较接近。如果实际频数与理论频数相差很大,超出了抽样误差所能解释的范围,则可认为H0假设不成立,即两样本对应的总体率不等。χ2值反映了实际频数与理论频数吻合的程度。如果两总体率相同的假设成立,则实际频数与理论频数之差异纯系抽样误差所致,故一般不会很大,χ2值也就不会很大;在一次随机试验中,出现大的χ2值的概率P 是很小的。因此,若根据实际样本资料求得一个很小的P ,且P ≤α(检验水准),根据小概率原理,就有理由怀疑H0假设的真实性,因而拒绝它;若P >α,则没有理由拒绝H0。χ2值的大小除取决于︱A-T ︱的差值外,还与基本数据的格子数有关,严格地说是与自由度有关。在x2检验中,自由度指在表中周边合计不变的前提下,基本数据可以自由变动的格子数 。

35. x 2检验的精髓:检验实际频数和理论频数的吻合程度。如果实际频数和理论频数越吻合,

说明H0假设成立的可能性就越大,反之,如果实际频数和理论频数相差越远,说明

H0越不可能成立。

36.普通四个表资料卡方检验公式的选用条件:

1) n ≥40,且T ≥5时,用未校正的值 ()

∑-T

T A 2

2) 1≤T<5,且n ≥40时,宜用校正χ2值

3) T<1或n<40时,宜用确切概率计算法

37. 行×列表的χ2值计算专用公式:

χ2=

38. 行×列表资料采用χ2检验时,注意事项:

(1)注意理论数的大小。行×列表资料采用χ2检验时,对理论数的要求与四格表资料相同,不能有T<1,T<5的个数不能超过所有理论数个数的1/5(四格表中有一个T<5即超过1/5),如出现上述情况,可用以下办法解决:

1)增加观察例数可使实际频数增加,从而使T 增大。

2)合并相邻行或列的实际数,从而使T 增大。合并时应注意合理性,一般有序分类可合并,无序分类则不可合并。

3)采用精确概率检验法或似然比χ2检验法,

(2)最小理论数求法。上述χ2检验时,采用专用公式计算χ2值无须理论数,但也必须求出最小理论数,观察其大小是否满足上述各项条件。最小理论数位于最小行列合计数相对应的位置上,因此可用行、列合计数中小者相乘除以总例数即得到最小理论数。

(3)多组资料比较经χ2检验拒绝H0时只能认为多组间总的看差别有统计学意义,并不说明两两之间差别均有统计学意义。若需分析两两之间构成差别有无统计学意义,可采用χ2分割法或改变检验水准法进行分析等。

39. 配对四格表资料的χ2检验步骤:(H0、H1写法特殊)

一.H 0: 两法检出阳性率相同,总体B =C ; H 1: 两法检出阳性率不同,总体B ≠C 。

α=0.05。

二. 计算统计量: χ2。

三. 查χ2界值表,判断P 与α大小

四. 按α=0.05水准,拒绝H 0 或接受H 1 。得出结论。

40. 列联表:将单一样本的每个观察单位,同时按两种因素,进行分组,分组以后就得到R ×C 表。然后对这个表进行x2检验,以判断两个因素的关联性。而这种配对设计而形成的双向交叉排列的统计表,用以描述行变量和列变量之间的关系,特称为列联表。

关于列联表内两个分类变量是否有关联性的统计推断,仍然是用x2检验,但是它的检验假设有所不同。

一. 列联表关联性分析的χ2检验步骤:(结合课件看)

H 0: 不同矽肺期次的患者肺门密度分布相同; H 1: 不同矽肺期次的患者肺门密度分布不同或不全相同。

α=0.05。

二. 计算统计量: χ2 , v 。

三. P=?

四. 按α=0.05水准,拒绝H 0 ,接受H 1 。

认为肺门密度与矽肺期次有关。结合本资料,肺门密度有随矽肺期次增高而增加的趋势。

41. R ×C 表资料中的行一般为研究因素的不同水平分组,列一般为研究结果(效应指标)的分类。根据行和列的分组或分类情况,可将R ×C 表资料分为以下几种情况:

1)双向无序R ×C 表

行和列的分组或分类均为无序。此时可采用χ2检验处理。

2)单向有序R ×C 表 若行的分组为有序(如药物剂量、患者年龄、病情轻重等),但率的效应为无序分类(如染色体损伤的类型、疾病的证型等),此时仍可按双向无序处理,采用χ2检验;若行的分组为无序(如三种药物处理),而列的效应为有序(如痊愈、显效、好转、无效),此时应采用秩和检验或Ridit 检验方可判断疗效上的优劣。因为χ2检验不考虑有序分类变量的顺序。如果固定有序分类变量的顺序,将列的频数互换后,检验的结论相同,显然不合理 。

3)双向有序R ×C 表

若行的分组为有序(如年龄),效应分类也为有序(如疗效等级),可按单向有序R ×C 表中,列为有序分类时的处理方法,采用秩和检验或Ridit 检验。若行和列均为同一观察对象的两个有序变量,如矽肺的期次和肺门密度的级别,病程与疗效等,此时为配对设计,可先采用χ2检验。 ))()()(()(22

d b c a d c b a n bc ad ++++-=χ()()()()()d b c a d c b a n n bc ad ++++=--2/2

2χ()T T A 5.022--=χ!

!!!!)!()!()!()!(n d c b a d v c a d c b a P ++++=???

? ??-∑12n n A C R n

医学统计知识点整理(1)

医学统计学知识点整理 第一节统计学中基本概念 一、同质与变异 同质:统计研究中,给观察单位规定一些相同的因素情况。 如儿童的生长发育,规定同性别、同年龄、健康的儿童即为同质的儿童。 变异:同质的基础上个体间的差异。 “同质”是相对的,是客观事物在特定条件下的相对一致性,而“变异”则是绝对的 二、总体与样本 1、总体:是根据研究目的所确定的,同质观察对象(个体)所构成的全体。 2、样本:是从总体中随机抽取的部分观察单位变量值的集合。 三、参数与统计量 总体参数:根据总体个体值统计计算出来的描述总体的特征量。用希腊字母表示。μ.δ.π 样本统计量:根据样本个体值统计计算出来的描述样本的特征量。用拉丁字母表示。X.S.p 总体参数一般是不知道的,抽样研究的目的就是用样本统计量来推断总体参数,包括区间估计和假设检验 四、误差:实测值与真值之差★ 1.随机误差:是一类不恒定的、随机变化的误差,由多种尚无法控制的因素引起。随机测量误差、抽样误差。 2.系统误差:是一类恒定不变或遵循一定变化规律的误差,其产生原因往往是可知的或可能掌握的。 3.非系统误差:过失误差,可以避免或清除。 五、概率 是用来描述事件发生可能性大小的一个量值,常用P表示。概率取值0~1。 统计上一般将P≤0.05或P≤0.01的事件称为小概率事件,表示其发生的概率很小,可以认为在一次抽样中不会发生。 第二节统计资料的类型★

变量:确定总体之后,研究者应对每个观察单位的某项特征进行观察或测量,这种特征能表现观察单位的变异性,称为变量。 一、数值变量资料 又称为计量资料、定量资料:观测每个观察单位某项指标的大小而获得的资料。表现为数值大小,带有度、量、衡单位。如身高(cm)、体重(kg)、血红蛋白(g)等。 二、无序分类变量资料 又称为定性资料或计数资料:将观察对象按观察对象的某种类别或属性进行分组计数,分组汇总各组观察单位后得到的资料。 分类:二分类:+ -;有效,无效;多分类:ABO血型系统 特点:没有度量衡单位,多为间断性资料 【例题单选】某地A、B、O、AB血型人数分布的数据资料是( ) A.定量资料 B.计量资料 C.计数资料 D.等级资料 【答案】C 【解析】ABO血型系统人数分布资料属于无序分类变量资料,又称为计数资料。因为是按照变量的血型分类,血型表现为互不相容的属性。所以本题选C。 【例题单选】测量正常人的脉搏数所得的变量是() A.二分类变量 B.多分类变量 C.定量变量 D.定性变量 【答案】C 【解析】脉搏数有数值大小,有度量衡,所以这个资料属于定量资料。本题选C。 三、有序分类变量资料 半定量资料或等级资料:将观察对象按观察对象的某种属性的不同程度分成等级后分组计数,分组汇总各组观察单位后得到的资料。 特点:每一个观察单位没有确切值,各组之间有性质上的差别或程度上的不同举例:- + ++ +++ 第三节统计工作的基本步骤★ 1.统计设计 2.收集资料

16种常用的数据分析方法汇总

一、描述统计 描述性统计是指运用制表和分类,图形以及计筠概括性数据来描述数据的集中趋势、离散趋势、偏度、峰度。 1、缺失值填充:常用方法:剔除法、均值法、最小邻居法、比率回归法、决策树法。 2、正态性检验:很多统计方法都要求数值服从或近似服从正态分布,所以之前需要进行正态性检验。常用方法:非参数检验的K-量检验、P-P图、Q-Q图、W检验、动差法。 二、假设检验 1、参数检验 参数检验是在已知总体分布的条件下(一股要求总体服从正态分布)对一些主要的参数(如均值、百分数、方差、相关系数等)进行的检验。 1)U验使用条件:当样本含量n较大时,样本值符合正态分布 2)T检验使用条件:当样本含量n较小时,样本值符合正态分布 A 单样本t检验:推断该样本来自的总体均数μ与已知的某一总体均数μ0 (常为理论值或标准值)有无差别; B 配对样本t检验:当总体均数未知时,且两个样本可以配对,同对中的两者在可能会影响处理效果的各种条件方面扱为相似;

C 两独立样本t检验:无法找到在各方面极为相似的两样本作配对比较时使用。 2、非参数检验 非参数检验则不考虑总体分布是否已知,常常也不是针对总体参数,而是针对总体的某些一股性假设(如总体分布的位罝是否相同,总体分布是否正态)进行检验。适用情况:顺序类型的数据资料,这类数据的分布形态一般是未知的。 A 虽然是连续数据,但总体分布形态未知或者非正态; B 体分布虽然正态,数据也是连续类型,但样本容量极小,如10以下; 主要方法包括:卡方检验、秩和检验、二项检验、游程检验、K-量检验等。 三、信度分析 检査测量的可信度,例如调查问卷的真实性。 分类: 1、外在信度:不同时间测量时量表的一致性程度,常用方法重测信度 2、内在信度;每个量表是否测量到单一的概念,同时组成两表的内在体项一致性如何,常用方法分半信度。 四、列联表分析 用于分析离散变量或定型变量之间是否存在相关。

医学统计学最佳选择题

---------------------------------------------------------------最新资料推荐------------------------------------------------------ 医学统计学最佳选择题 医学统计学最佳选择题一、绪论医学统计学最佳选择题一、绪论 1.下面的变量中,属于分类变量的是 A.脉搏 B.血型C.肺活量 D.红细胞计数 E.血压 2.下面的变量中,属于数值变量的是 A.性别 B.体重 C.血型 D.职业 E.民族 3.下列有关个人基本信息的指标,其中属于有序分类变量的是 A.学历 B.民族 C.职业 D.血型 E.身高 4.若要通过样本作统计推断,样本应是 A.总体中典型的一部分 B.总体中任意部分C.总体中随机抽取的一部分 D.总体中选取的有意义的一部分E.总体中信息明确的一部分 5. 统计量是指 A.是统计总体数据得到的量 B.反映总体统计特征的量 C.是根据总体中的全部数据计算出的统计指标 D.是用参数估计出来的量 E.是由样本数据计算出来的统计指标 6.下列关于概率的说法,错误的是 A.通常用 P 表示 B.大小在 0~1 之间 C.某事件发生的频率即概率 D.在实际工作中,概率是难以获得的 E.某事件发生的概率 P0.05 时,称为小概率事件。 7.减少抽样误差的有效途径是 A.避免系统误差 B.控制随机测量误差 C.增大样本含量 D.减少样本含量 E.以上都不对二、定量资料的统计描述 1.用均数和标准差能用于全面描述下列哪种资料的特征 A.正偏态分布 B.负偏态分布 C.正态分布 D.对数正态分布 E.任意分布 2.当各观察值呈倍数变 1 / 13

医学统计学试题和答案解析

第一套试卷及参考答案 一、选择题 (40分) 1、根据某医院对急性白血病患者构成调查所获得得资料应绘制( B ) A 条图 B 百分条图或圆图 C线图 D直方图 2、均数与标准差可全面描述 D 资料得特征 A 所有分布形式B负偏态分布 C 正偏态分布D正态分布与近似正态分布 3、要评价某市一名5岁男孩得身高就是否偏高或偏矮,其统计方法就是( A ) A 用该市五岁男孩得身高得95%或99%正常值范围来评价 B用身高差别得假设检验来评价 C用身高均数得95%或99%得可信区间来评价 D 不能作评价 4、比较身高与体重两组数据变异大小宜采用( A ) A变异系数 B 方差C标准差 D 四分位间距 5、产生均数有抽样误差得根本原因就是( A ) A、个体差异B、群体差异C、样本均数不同D、总体均数不同 6、男性吸烟率就是女性得10倍,该指标为( A ) (A)相对比(B) 构成比(C)定基比 (D)率 7、统计推断得内容为( D ) A、用样本指标估计相应得总体指标B、检验统计上得“检验假设”C、A与B均不就是D、A与B均就是 8、两样本均数比较用t检验,其目得就是检验( C ) A两样本均数就是否不同B两总体均数就是否不同C两个总体均数就是否相同 D两个样本均数就是否相同 9、有两个独立随机得样本,样本含量分别为n1与n2,在进行成组设计资料得t检验时,自由度就是( D ) (A) n1+ n2 (B) n1+ n2–1(C) n1+ n2 +1 (D)n1+ n2-2 10、标准误反映( A ) A 抽样误差得大小 B总体参数得波动大小 C 重复实验准确度得高低 D 数据得离散程度 11、最小二乘法就是指各实测点到回归直线得(C) A垂直距离得平方与最小 B垂直距离最小 C纵向距离得平方与最小D纵向距离最小 12、对含有两个随机变量得同一批资料,既作直线回归分析,又作直线相关分析。令对相关系数检验得t值为tr,对回归系数检验得t值为tb,二者之间具有什么关系?(C) A t r>t b B t r〈t b C t r= tb D二者大小关系不能肯定 13、设配对资料得变量值为x1与x2,则配对资料得秩与检验(D ) A分别按x1与x2从小到大编秩 B把x1与x2综合从小到大编秩 C把x1与x2综合按绝对值从小到大编秩 D把x1与x2得差数按绝对值从小到大编秩 14、四个样本率作比较,χ2>χ20、05,ν可认为( A ) A各总体率不同或不全相同 B各总体率均不相同 C各样本率均不相同D各样本率不同或不全相同 15、某学院抽样调查两个年级学生得乙型肝炎表面抗原,其中甲年级调查35人,阳性人数4人;乙年级调查40人,阳性人数8人。该资料宜选用得统计方法为( A ) A.四格表检验 B、四格表校正检验 C t检验 D U检验 16、为调查我国城市女婴出生体重:北方n1=5385,均数为3、08kg,标准差为0、53kg;南方n2=4896,均数为3、10kg,标准差为0、34kg,经统计学检验,p=0、0034〈0、01,这意味着( D )

医学统计学基本概念

习题-医学统计学基本概念 选择题: 1. 若以舒张期血压大于等于1 2.7kPa 为为高血压,调查某地1000 人,记录每人是否患有高血压。最后清点结果,其中有10 名高血压患者,有990 名非高血压患者。() A.这是计量数据 B.这是等级数据 C.还看不出是记数还是计量数据 D.这是连续型数据 E.这是计数数据 2、统计学中所说的样本是指() A.随意抽取的总体中任意的部分 B.有意识的选择总体中的典型部分 C.依照研究者要求选取总体中有意义的一部分 D.依照随机原则抽取总体中有代表性的一部分 E.按研究目的随意抽取有代表性的一部分 3、下列资料属等级资料的是() A.白细胞计数 B.住院天数 C.门、急症就诊人数 D.病人的病情分级(轻、中、重) E.疾病疗效(有效、无效) 4、总体是由() A.个体组成 B.研究对象组成 C.同质个体组成 D.研究指标组成 E.观察单位组成 5、抽样的目的是() A.研究样本统计量 B.由样本统计量推断总体参数 C.研究典型案例研究误差 D.研究总体参数 E.研究样本特征 6、参数是() A.参与个体数 B.总体的统计指标 C.样本的统计指标 D.样本的总和 E.参考值范围 7、关于随机抽样,下列哪一项说法是正确的() A.抽样时应使得总体中的每一个个体都有同等的机会被抽取 B.研究者在抽样时应精心挑选个体,以使样本更能代表总体 C.随机抽样即随意抽样个体 D.为确保样本具有更好的代表性,样本量应越大越好 E.以上均不对 8、统计工作各个步骤的首要基础是() A.收集资料 B.整理资料 C.核对资料 D.分析资料 E.医学研究设计 9、统计工作的基本步骤是:() A.调查资料、核对资料、整理资料 B调查资料、归纳资料、整理资料 C收集资料、核对资料、整理资料

统计学教案习题06分类资料的统计描述

第六章 分类资料的统计描述 一、教学大纲要求 (一)掌握内容 1. 绝对数。 2. 相对数常用指标:率、构成比、比。 3. 应用相对数的注意事项。 4. 率的标准化和动态数列常用指标:标准化率、标准化法、时点动态数列、时期动态数列、绝对增长量、发展速度、增长速度、定基比、环比、平均发展速度和平均增长速度。 (二)熟悉内容 1. 标准化率的计算。 2. 动态数列及其分析指标。 二、教学内容精要 (一) 绝对数 绝对数是各分类结果的合计频数,反映总量和规模。如某地的人口数、发病人数、死亡人数等。绝对数通常不能相互比较,如两地人口数不等时,不能比较两地的发病人数,而应比较两地的发病率。 (二)常用相对数的意义及计算 相对数是两个有联系的指标之比,是分类变量常用的描述性统计指标,常用两个分类的绝对数之比表示相对数大小,如率、构成比、比等。 常用相对数的意义及计算见表6-1。 表6-1 常用相对数的意义及计算 常用相对数 概念 表示方式 计算公式 举例 率 (rate ) 又称频率指标,说明一定时期内某现象发生的频率或强度 百分率(%)、千分率 (‰)等 单位时间内的发病率、患病 率,如年(季)发病率、时 点患病率等 构成比 (proportion ) 又称构成指标,说明某一事物内部各组成 部分所占的比重或分布 百分数 疾病或死亡的顺位、位次或所占比重 比 (ratio ) 又称相对比,是A 、B 两个有关指标之 比,说明A 是B 的若干倍或百分之几 倍数或分数 ①对比指标,如男:女 =106.04:100 ②关系指标,如医护人员:病床数=1.64 ③计划完成指标,如完成计划的130.5% (三) 应用相对数时应注意的问题 1. 计算相对数的分母一般不宜过小。 2. 分析时不能以构成比代替率 容易产生的错误有 (1)指标的选择错误如住院病人只能计算某病的病死率,不能认为是某病的死亡率; (2)若用构成指标下频率指标的结论将导致错误结论,如 某部队医院收治胃炎的门诊人数中军人的构成比最高,但不一定军人的胃炎发病率最高。 %100?=单位总数 可能发生某现象的观察数 发生某现象的观察单位率%100?= 观察单位总数 同一事物各组成部分的位数某一组成部分的观察单构成比B A = 比

医学统计学试题及答案

《医学统计学》课程考试试题(A卷) (评卷总分:100分,考试时间:120分钟,考核方式:□开卷 V 闭卷) 一、选择题(每题1分,共62分,只选一个正确答案) 1、医学科研设计包括( D ) A.物力和财力设计 B.数据与方法设计 C.理论和资料设计 D.专业与统计设计 2、医学统计资料的分析包括( D ) A.数据分析与结果分析 B.资料分析与统计分析 C.变量分析与变量值分析 D.统计描述与统计推断 3、医学资料的同质性指的是( D ) A.个体之间没有差异 B.对比组间没有差异 C.变量值之间没有差异 D.研究事物存在的共性 4、离散型定量变量的测量值指的是( D ) A.可取某区间内的任何值 B、可取某区间内的个别值 C.测量值只取小数的情况 D.测量值只取整数的情况5、变量的观察结果表现为相互对立的两种情况是( A ) A.无序二分类变量 B、定量变量. C.等级变量 D.无序多分类变量 6、计量资料编制频数表时,组距的选择( D ) A.越大越好 B.越小越好 C.与变量值的个数无关 D.与变量值的个数有关

7、比较一组男大学生白细胞数与血红蛋白含量的变异度应选( D )A.极差 B.方差 C.标准差 D.变异系数 8、若要用方差描述一组资料的离散趋势,对资料的要求是( D )A.未知分布类型的资料 B.等级资料 C.呈倍数关系的资料 D.正态分布资料 9、频数分布两端没有超限值时,描述其集中趋势的指标也可用( D ) A.标准差 B.几何均数 C.相关系数 D.中位数 10、医学统计工作的步骤是( A ) A、研究设计、收集资料、整理资料和分析资料 B、计量资料、计数资料、等级资料和统计推断 C、研究设计、统计分析,统计描述和统计推断 D、选择对象、计算均数、参数估计和假设检验 11、下列关于变异系数的说法,其正确的是( A ) A.没有度量衡单位的系数 B.描述多组资料的离散趋势 C.其度量衡单位与变量值的度量衡单位一致 D、其度量衡单位与方差的度量衡单位一致 12、10名食物中毒的病人潜伏时间(小时)分别为3, 4,5,3,2,5.5,2.5,6,6.5, 7,其中位数是( B ) A.4 B.4.5 C.3 D.2 13、调查一组正常成年女性的血红蛋白,如果资料属于正态分布,描

医学统计学知识点总结

医学统计学 1. 对定量资料进行统计描述时,如何选择适宜的指标 定量资料统计描述常用的统计指标及其适用场合描述内容指 标 意义适用场合 平均水平;均 数 个体的平均值· 对称分布 几何均数平均倍数取对数后对称分布 中位数[ 位次居中的观察值 ①非对称分布;②半定量资料;③末端开 口资料;④分布不明 众 数 频数最多的观察值不拘分布形式,概略分析 ? 调和均数 基于倒数变换的平均值正偏峰分布资料 变异度全 距 观察值取值范围不拘分布形式,概略分析 标准差 (方差) 观察值平均离开均数的 程度对称分布,特别是正态分布资料 四分位数 间距 ? 居中半数观察值的全距 ①非对称分布;②半定量资料;③末端开 口资料;④分布不明 变异系数标准差与均数的相对比①不同量纲的变量间比较;②量纲相同但 数量级相差悬殊的变量间比较 定性资料:阳性事件的概率,概率分布,强度和相对比。 ¥ 2. 应用相对数时应注意哪些问题 答:(1)防止概念混淆相对数的计算是两部分观察结果的比值,根据这两部分观察结果的特点,就可以判断所计算的相对数属于前述何种指标。 (2)计算相对数时分母不宜过小样本量较小时以直接报告绝对数为宜。 (3)观察单位数不等的几个相对数,不能直接相加求其平均水平。 (4)相对数间的比较须注意可比性,有时需分组讨论或计算标准化率。 3. 常用统计图有哪些分别适用于什么分析目的 常用统计图的适用资料及实施方法 < 图形 适用资料实施方法 条图组间数量对比用直条高度表示数量大小 直方图用直条的面积表示各组段的频数或频率

( 定量资料的分布 百分条图构成比用直条分段的长度表示全体中各部分的构成比 饼图构成比用圆饼的扇形面积表示全体中各部分的构成比 定量资料数值变动线条位于横、纵坐标均为算术尺度的坐标系 、 线图 半对数线图定量资料发展速度线条位于算术尺度为横坐标和对数尺度为纵坐标的坐标 系 散点图} 双变量间的关联点的密集程度和形成的趋势,表示两现象间的相关关系箱式图定量资料取值范围用箱体、线条标志四分位数间距及中位数、全距的位置茎叶图定量资料的分布' 用茎表示组段的设置情形,叶片为个体值,叶长为频数 第3章概率分布(连续随机变量的正态分布;离散随机变量的二项分布及Poisson分布)1. 服从二项分布及Poisson分布的条件分别是什么 二项分布成立的条件:①每次试验只能是互斥的两个结果之一;②每次试验的条件不变;③各次试验独立。 Poisson分布成立的条件:除二项分布成立的三个条件外,还要求试验次数n很大,而所关心的事件发生的概率 很小。 、 2. 二项分布、Poisson分布分别有什么特征 ①二项分布、Poisson分布都是离散型分布。 ②二项分布的形状取决于π与n的大小。π=时,不论n大小,对称分布。π≠时,图形呈偏态,随n增大而逐渐对称。当n足够大,π或1-π不太小,二项分布近似正态。 ③Poisson分布μ越小,分布越偏。μ越大,分布越对称。当n足够大时,分布接近正态。 4、正态分布应用 ①估计变量值的频数分布 《 ②制定参考值范围 ③质量控制 ④正态分布是很多统计方法的基础 5. 正态分布特征 ①以均数为中心,左右对称 ②正态曲线在横轴上方均数处取得最高点 ~ ③正态分布有两个参数,即均数(位置参数)和标准差(变异度参数)(μ,σ2 ;标准0,1)

医学统计学最佳选择题

医学统计学最佳选择题 一、绪论 1、下面的变量中,属于分类变量的就是 A、脉搏 B、血型 C、肺活量 D、红细胞计数 E、血压 2、下面的变量中,属于数值变量的就是 A、性别 B、体重 C、血型 D、职业 E、民族 3、下列有关个人基本信息的指标,其中属于有序分类变量的就是 A、学历 B、民族 C、职业 D、血型 E、身高 4、若要通过样本作统计推断,样本应就是 A、总体中典型的一部分 B、总体中任意部分 C、总体中随机抽取的一部分 D、总体中选取的有意义的一部分 E、总体中信息明确的一部分 5、统计量就是指 A、就是统计总体数据得到的量 B、反映总体统计特征的量 C、就是根据总体中的全部数据计算出的统计指标 D、就是用参数估计出来的量 E、就是由样本数据计算出来的统计指标 6、下列关于概率的说法,错误的就是 A、通常用P表示

B、大小在0~1之间 C、某事件发生的频率即概率 D、在实际工作中,概率就是难以获得的 E、某事件发生的概率P≤0、05时,称为小概率事件。 7、减少抽样误差的有效途径就是 A、避免系统误差 B、控制随机测量误差 C、增大样本含量 D、减少样本含量 E、以上都不对 二、定量资料的统计描述 1.用均数与标准差能用于全面描述下列哪种资料的特征 A、正偏态分布 B、负偏态分布 C、正态分布 D、对数正态分布 E、任意分布 2.当各观察值呈倍数变化(等比关系)时,平均数宜用 A、均数 B、几何均数 C、中位数 D、相对数 E、四分位数间距 3、某医学资料数据大的一端没有确定数值,描述其集中趋势适用的 统计指标就是 A、M B、G C、X D、P95 E、CV 4、对于正态分布的资料 ,理论上 A、均数比中位数大

医学统计学知识点汇总(精华)

医学统计学知识点汇总(精华) 一.概论 1,医学统计学:运用概率论和数理统计学的原理和方法,研究医学领域中随机现象有关数据的搜集、整理、分析和推断,进而阐明其客观规律性的一门应用科学。 2,医学统计学的主要内容: 1)统计研究设计调查研究设计和实验研究设计 2)医学统计学的基本原理和方法研究设计和数据处理中的基本统计理论和方法。 A:资料的搜集与整理 B:常用统计描述,集中趋势和离散趋势,相对数,相关系数,回归系数,统计表,统计图 C:统计推断,如参数估计和假设检验。 3)医学多元统计方法多元线性回归和逐步回归分析、判别分析、聚类分析、主成分分析、因子分析、logistic回归与Cox回归分析。 3,统计工作步骤: 1)设计明确研究目的和研究假说,确定观察对象与观察单位,样本含量和抽样方法,拟定研究方案,预期分析指标,误差控制措施,进度与费用。 2)搜集材料 A,搜集材料的原则及时、准确、完整 B,统计资料的来源医学领域的统计资料的来源主要有三个方面。一是统计报表,二是经常性工作记录,三是专题调查或专题实验。 C,资料贮存 3)整理资料 a检查核对b设计分组c拟定整理表d归表 4)分析资料统计分析包括统计描述和统计推断

4,同质(homogeneity):指被研究指标的影响因素相同。 变异(variation):同质基础上的各观察单位间的差异。 变量(variable):收集资料过程中,根据研究目的确定同质观察单位,再对每 个观察单位的某项特征进行测量或观察,这种特征称为变量变量值:变量的观察结果或测量值。 5,总体(population)根据研究目的所确定的同质研究对象中所有观察单位某 变量值的集合。总体具有的基本特征是:同质性 样本(sample)从总体中随机抽取部分观察单位,其变量值的集合构成样本。 样本必须具有代表性。代表性是指样本来自同质总体,足够的样 本含量和随机抽样的前提。

医学统计学考试重点整理

一、基本概念 1.总体与样本 总体:所有同质观察单位某种观察值(即变量值)的全体 样本:是总体中抽取部分观察单位的观察值的集合 2.普查与抽样调查 普查:就是全面调查,即调查目标总体中全部观察对象 抽样调查:是一种非全面调查,即从总体中抽取一定数量的观察单位组成样本,对样本进行调查 3.参数与统计量 参数:总体的某些数值特征 统计量:根据样本算得的某些数值特征 4.Ⅰ型与Ⅱ型错误 假设检验的结论 真实情况拒绝H0不拒绝H0 H0正确Ⅰ型错误(ɑ) 推断正确(1 ?ɑ) H0不正确推断正确(1?β) Ⅱ型错误(β) Ⅰ型错误(ɑ错误): H0为真时却被拒绝,弃真错误 Ⅱ型错误(β错误): H0为假时却被接受,取伪错误 5.随机化原则与安慰剂对照 随机化原则:是将研究对象随机分配到实验组和对照组,使每个研究对象都有同等机会被分配到各组中去,以平衡两组中已知和未知的混杂因素,从而提高两组的可比性,避免造成偏倚。(意义:①是提高组间均衡性的重要设计方法;②避免有意扩大或缩小组间差别导致的偏倚;③各种统计学方法均建立在随机化基础上) 安慰剂对照:是一种常用的对照方法。安慰剂又称伪药物,是一种无药理作用的制剂,不含试验药物的有效成分,但其感观如剂型、大小、颜色、质量、气味及口味等都与试验药物一样,不能被受试对象和研究者所识别。(安慰剂对照主要用于临床试验,其目的在于控制研究者和受试对象的心理因素导致的偏倚,并提高依从性。安慰剂对照还可以控制疾病自然进程的影响,显示试验药物的效应) 6.误差与标准误(区分率与均数) ㈠均数 抽样误差:由个体变异产生的、随机抽样引起的样本统计量与总体参数间的差异。 标准误:是指样本均数的标准差,反映抽样误差大小的定量指标,其公式表示为S x =S/√n ㈡样本率 率的抽样误差:样本率p和总体率π的差异 率的标准误:样本率的标准差,公式为σp=√π(1-π)/n

分类资料的统计分析(doc 24页)

第十章分类资料的统计分析 A型选择题 1、下列指标不属于相对数的是() A、率 B、构成比 C、相对比 D、百分位数 E、比 2、表示某现象发生的频率或强度用 A 构成比 B 观察单位 C 相对比 D 率 E 百分比 3、下列哪种说法是错误的() A、计算相对数尤其是率时应有足够数量的观察单位数或观察次数 B、分析大样本数据时可以构在比代替率 C、应分别将分子和分母合计求合计率或平均率 D、相对数的比较应注意其可比性 E、样本率或构成比的比较应作假设检验 4、以下哪项指标不属于相对数指标( ) A.出生率 B.某病发病率 C.某病潜伏期的百分位数 D.死因构成比 E.女婴与男婴的性别比 5、计算麻疹疫苗接种后血清检查的阳转率,分母为( ). A.麻疹易感人群 B.麻疹患者数 C.麻疹疫苗接种人数 D.麻疹疫苗接种后的阳转人数 E.年均人口数 6、某病患者120人,其中男性114人,女性6人,分别占95%与5%,则结论为( ).

A.该病男性易得 B.该病女性易得 C.该病男性、女性易患率相等 D.尚不能得出结论 E.以上均不对 7、某地区某重疾病在某年的发病人数为0α,以后历年为1α,2α,…,n α,则该疾病发病人数的年平均增长速度为( )。 A.1...10+++n n ααα B. 110+??n n ααα C.n n 0 α α D.n n 0 α α -1 E. 10 -a a n 8、按目前实际应用的计算公式,婴儿死亡率属于( )。 A. 相对比(比,ratio ) B. 构成比(比例,proportion ) C. 标准化率(standardized rate ) D. 率(rate ) E 、以上都不对 9、某年某地乙肝发病人数占同年传染病人数的9.8%,这种指标是 A .集中趋势 B .时点患病率 C .发病率 D .构成比 E .相对比 10、构成比: A.反映事物发生的强度 B 、反映了某一事物内部各部分与全部构成的比重 C 、既反映A 也反映B D 、表示两个同类指标的比 E 、表示某一事物在时间顺序上的排列

医学统计学最佳选择题

医学统计学最佳选择 一、绪论 1. 下面的变量中,属于分类变量的是 A. 脉搏 B. 血型 C. 肺活量 D. 红细胞计数 E. 血压 2. 下面的变量中,属于数值变量的是 A. 性别 B. 体重 C. 血型 D. 职业 E. 民族 3. 下列有关个人基本信息的指标,其中属于有序分类变量的是 A. 学历 B. 民族 C. 职业 D. 血型 E. 身高 4. 若要通过样本作统计推断,样本应是 A. 总体中典型的一部分 B. 总体中任意部分 C. 总体中随机抽取的一部分 D. 总体中选取的有意义的一部分 E. 总体中信息明确的一部分 5. 统计量是指

A. 是统计总体数据得到的量 B. 反映总体统计特征的量 C. 是根据总体中的全部数据计算出的统计指标 D. 是用参数估计出来的量 E. 是由样本数据计算出来的统计指标 6. 下列关于概率的说法,错误的是 A. 通常用P 表示 B. 大小在0?1之间 C .某事件发生的频率即概率 D. 在实际工作中,概率是难以获得的 E. 某事件发生的概率P< 0.05时,称为小概率事件。 7. 减少抽样误差的有效途径是 A. 避免系统误差 B. 控制随机测量误差 C. 增大样本含量 D. 减少样本含量

E. 以上都不对 二、定量资料的统计描述 1用均数和标准差能用于全面描述下列哪种资料的特征 A. 正偏态分布 B. 负偏态分布 C. 正态分布 D.对数正态分布 E. 任意分布 2. 当各观察值呈倍数变化(等比关系)时,平均数宜用 A.均数 B.几何均数 C.中位数 D.相对数 E.四分位数间距 3. 某医学资料数据大的一端没有确定数值,描述其集中趋势适用的统计指标是 A. M B. G C. X D. P95 E. CV 4. 对于正态分布的资料,理论上 A.均数比中位数大 B. 均数比中位数小 C. 均数等于中位数 D. 均数与中位数无法确定孰大孰小 E. 以上说法均不准确 5. 当资料两端含有不确定值时,描述其变异度宜采用

医学统计学部分试题及答案解析

第一章绪论 1.下列关于概率的说法,错误的是 A. 通常用P表示 B. 大小在0%与100%之间 C. 某事件发生的频率即概率 D. 在实际工作中,概率是难以获得的 E. 某事件发生的概率很小,在单次研究或观察中时,称为小概率事件 [参考答案] C. 某事件发生的频率即概率 2.下列有关个人基本信息的指标中,属于有序分类变量的是 A. 学历 B. 民族 C. 血型 D. 职业 E. 身高 [参考答案] A. 学历3.下列有关个人基本信息的指标,其中属于定量变量的是 A. 性别 B. 民族 C. 职业 D. 血型 E. 身高 [参考答案] E. 身高 4.下列关于总体和样本的说法,不正确的是 A. 个体间的同质性是构成总体的必备条件 B. 总体是根据研究目的所确定的观察单位的集合 C. 总体通常有无限总体和有限总体之分 D. 一般而言,参数难以测定,仅能根据样本估计 E. 从总体中抽取的样本一定能代表该总体

[参考答案] E. 从总体中抽取的样本一定能代表该总体 5.在有关2007年成都市居民糖尿病患病率的调查研究中,总体是 A. 所有糖尿病患者 B. 所有成都市居民 C. 2007年所有成都市居民 D. 2007年成都市居民中的糖尿病患者 E. 2007年成都市居民中的非糖尿病患者[参考答案] C. 2007年所有成都市居民 6.简述小概率事件原理。 答:当某事件发生的概率很小,习惯上认为小于或等于0.05时,统计学上称该事件为小概率事件,其含义是该事件发生的可能性很小,进而认为它在一次抽样中不可能发生,这就是所谓小概率事件原理,它是进行统计推断的重要基础。 7.举例说明参数和统计量的概念答:某项研究通常想知道关于总体的某些数值特征,这些数值特征称为参数,如整个城市的高血压患病率。根据样本算得的某些数值特征称为统计量,如根据几百人的抽样调查数据所算得的样本人群高血压患病率。统计量是研究人员能够知道的,而参数是他们想知道的。一般情况下,这些参数是难以测定的,仅能根据样本估计。显然,只有当样本代表了总体时,根据样本统计量估计的总体参数才是合理的 8.举例说明总体和样本的概念 答:研究人员通常需要了解和研究某一类个体,这个类就是总体。总体是根据研究目的所确定的观察单位的集合,通常有无限总体和有限总体之分,前者指总体中的个体数是无限的,如研究药物疗效,某病患者就是无限总体,后者指总体中的个体数是有限的,它是指特定时间、空间中有限个研究个体。但是,研究整个总体一般并不实际,通常能研究的只是它的一部分,这个部分就是样本。例如在一项关于2007

医学统计学知识点梳理

医学统计学知识点梳理 Revised as of 23 November 2020

医学统计学知识点梳理 医学统计学:是用统计学原理和方法研究生物医学问题的一门学科。他包括了研究设计、数据收集、整理、分析以及分析结果的正确解释和表达。 统计描述:用统计指标、统计图表对资料的数量特征及分布规律进行客观的描述和表达。 统计推断:在一定的置信度和概率保证下,用样本信息推断总体特征: ①参数估计:用样本的指标去推断总体相应的指标 ②假设检验:由样本的差异推断总体之间是否可能存在的差异 同质:一个总体中有许多个体,他们之所以共同成为人们研究的对象,必定存在共性,我们说一些个体处于同一总体,就是指他们大同小异,具有同质性。 总体(population)是根据研究目的确定的同质的观察单位的全体,更确切的说,是同质的所有观察单位某种观察值(变量值)的集合。总体可分为有限总体和无限总体。总体中的所有单位都能够标识者为有限总体,反之为无限总体。 样本:从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample)。样本应具有代表性。所谓有代表性的样本,是指用随机抽样方法获得的样本。 随机抽样:随机抽样(random sampling)是指按照随机化的原则(总体中每一个观察单位都有同等的机会被选入到样本中),从总体中抽取部分观察单位的过程。随机抽样是样本具有代表性的保证。 变异:在自然状态下,个体间测量结果的差异称为变异(variation)。变异是生物医学研究领域普遍存在的现象。严格的说,在自然状态下,任何两个患者或研究群体间都存在差异,其表现为各种生理测量值的参差不齐。 (1)计量资料:对每个观察单位用定量的方法测定某项指标量的大小,所得的资料称为计量资料(measurement data)。计量资料亦称定量资料、测量资料。.其变量值是定量的,表现为数值大小,一般有度量衡单位。 (2)计数资料:将观察单位按某种属性或类别分组,所得的观察单位数称为计数资料(count data)。计数资料亦称定性资料或分类资料。其观察值是定性的,表现为互不相容的类别或属性。 (3)等级资料:将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察单位数,称为等级资料(ordinal data)。

医学统计学试题和答案.doc

医学统计学试题和答案

(一)单项选择题 3.抽样的目的是( b )。 A.研究样本统计量 B. 由样本统计量推断总体参数 D. 研究总体统计量 C.研究典型案例研究误差 4.参数是指( b )。 A.参与个体数 B. 总体的统计指标 C.样本的统计指标 D. 样本的总和 5.关于随机抽样,下列那一项说法是正确的(a)。 A.抽样时应使得总体中的每一个个体都有同等的机会被抽取 B.研究者在抽样时应精心挑选个体,以使样本更能代表总体 C.随机抽样即随意抽取个体 D.为确保样本具有更好的代表性,样本量应越大越好 6.各观察值均加(或减)同一数后( b )。 A. 均数不变,标准差改变 B. 均数改变,标准差不变 C. 两者均不变 D. 两者均改变 7. 比较身高和体重两组数据变异度大小宜采用(a )。 A. 变异系数 B. 差 C. 极差 D.标准差 8. 以下指标中(d)可用来描述计量资料的离散程度。 A. 算术均数 B. 几何均数 C. 中位数 D.标准差 9. 偏态分布宜用(c)描述其分布的集中趋势。 A. 算术均数 B. 标准差 C. 中位数 D. 四分位数间距 10. 各观察值同乘以一个不等于 0 的常数后,(b)不变。 A.算术均数 B. 标准差 C. 几何均数 D.中位数 11.( a)分布的资料,均数等于中位数。 A. 对称 B. 左偏态 C. 右偏态 D.偏态 12.对数正态分布是一种( c )分布。 A. 正态 B. 近似正态 C. 左偏态 D.右偏态 13. 最小组段无下限或最大组段无上限的频数分布资料,可用( c )描述其集中趋势。 A. 均数 B. 标准差 C. 中位数 D.四分位数间距 14.( c)小,表示用该样本均数估计总体均数的可靠性大。 A. 变异系数 B. 标准差 C. 标准误 D. 极差 15. 血清学滴度资料最常用来表示其平均水平的指标是(c )。 A. 算术平均数 B. 中位数 C. 几何均数 D. 平均数

医学统计学练习题与答案

一、单向选择题 1. 医学统计学研究的对象是 E.有变异的医学事件 2. 用样本推论总体,具有代表性的样本指的是E.依照随机原则抽取总体中的部分个体 3. 下列观测结果属于等级资料的是 D.病情程度 4. 随机误差指的是 E. 由偶然因素引起的误差 5. 收集资料不可避免的误差是 A.随机误差 1.某医学资料数据大的一端没有确定数值,描述其集中趋势适用的统计指标是 A. 中位数 2. 算术均数与中位数相比,其特点是 B.能充分利用数据的信息 3. 一组原始数据呈正偏态分布,其数据的特点是 D.数值分布偏向较小一侧 4. 将一组计量资料整理成频数表的主要目的是E.提供数据和描述数据的分布特征 1. 变异系数主要用于 A .比较不同计量指标的变异程度 2. 对于近似正态分布的资料,描述其变异程度应选用的指标是E. 标准差 3.某项指标95%医学参考值范围表示的是D.在“正常”总体中有95%的人在此范围 4.应用百分位数法估计参考值范围的条件是B .数据服从偏态分布 5.已知动脉硬化患者载脂蛋白B 的含量(mg/dl)呈明显偏态分布,描述其个体差异的统计指标应使用 E .四分位数间距 1.样本均数的标准误越小说明 E.由样本均数估计总体均数的可靠性越大 2. 抽样误差产生的原因是D.个体差异 3.对于正偏态分布的的总体,当样本含量足够大时,样本均数的分布近似为C.正态分布 4. 假设检验的目的是 D.检验总体参数是否不同 5. 根据样本资料算得健康成人白细胞计数的95%可信区间为7.2×109 /L ~9.1×109 /L ,其含义是 E.该区间包含总体均数的可能性为95% 1. 两样本均数比较,检验结果05.0 P 说明 D.不支持两总体有差别的结论 2. 由两样本均数的差别推断两总体均数的差别, 其差别有统计学意义是指 E. 有理由认为两总体均数有差别 3. 两样本均数比较,差别具有统计学意义时,P 值越小说明 D.越有理由认为两总体均数不同 4. 减少假设检验的Ⅱ类误差,应该使用的方法是 E.增加样本含量 5.两样本均数比较的t 检验和u 检验的主要差别是B.u 检验要求大样本资料

医学统计学试题及答案

第一套试卷及参考答案 一、选择题(40分) 1、根据某医院对急性白血病患者构成调查所获得的资料应绘制( B ) A 条图 B 百分条图或圆图C线图D直方图 2、均数和标准差可全面描述 D 资料的特征 A 所有分布形式B负偏态分布C正偏态分布D正态分布和近似正态分布 3、要评价某市一名5岁男孩的身高是否偏高或偏矮,其统计方法是(A ) A 用该市五岁男孩的身高的95%或99%正常值范围来评价 B 用身高差别的假设检验来评价 C 用身高均数的95%或99%的可信区间来评价 D 不能作评价 4、比较身高与体重两组数据变异大小宜采用(A ) A 变异系数 B 方差 C 标准差 D 四分位间距 5、产生均数有抽样误差的根本原因是( A ) A.个体差异 B. 群体差异 C. 样本均数不同 D. 总体均数不同 6. 男性吸烟率是女性的10倍,该指标为(A ) (A)相对比(B)构成比(C)定基比(D)率 7、统计推断的内容为( D ) A.用样本指标估计相应的总体指标 B.检验统计上的“检验假设” C. A和B均不是 D. A和B均是 8、两样本均数比较用t检验,其目的是检验( C ) A两样本均数是否不同B两总体均数是否不同C两个总体均数是否相同D两个样本均数是否相同 9、有两个独立随机的样本,样本含量分别为n1和n2,在进行成组设计资料的t检验时,自由度是(D ) (A)n1+ n2(B)n1+ n2–1 (C)n1+ n2 +1 (D)n1+ n2 -2 10、标准误反映(A ) A 抽样误差的大小 B总体参数的波动大小 C 重复实验准确度的高低 D 数据的离散程度 11、最小二乘法是指各实测点到回归直线的(C) A垂直距离的平方和最小B垂直距离最小C纵向距离的平方和最小D纵向距离最小 12、对含有两个随机变量的同一批资料,既作直线回归分析,又作直线相关分析。令对相关系数检验的t值为t r,对回归系数检验的t值为t b,二者之间具有什么关系?(C) A t r>t b B t rχ20.05,ν可认为(A ) A各总体率不同或不全相同 B各总体率均不相同C各样本率均不相同 D各样本率不同或不全相同 15、某学院抽样调查两个年级学生的乙型肝炎表面抗原,其中甲年级调查35人,阳性人数4人;乙年级调查40人,阳性人数8人。该资料宜选用的统计方法为( A ) A.四格表检验 B. 四格表校正检验 C t检验 D U检验 16、为调查我国城市女婴出生体重:北方n1=5385,均数为3.08kg,标准差为0.53kg;南方n2=4896,均数为3.10kg,标准差为0.34kg,经统计学检验,p=0.0034<0.01,这意味着(D ) A 南方和北方女婴出生体重的差别无统计学意义 B 南方和北方女婴出生体重差别很大

(完整word版)医学统计学试题和答案

(一)单项选择题 3.抽样的目的是(b )。 A.研究样本统计量 B. 由样本统计量推断总体参数 C.研究典型案例研究误差 D. 研究总体统计量 4.参数是指(b )。 A.参与个体数 B. 总体的统计指标 C.样本的统计指标 D. 样本的总和 5.关于随机抽样,下列那一项说法是正确的( a )。 A.抽样时应使得总体中的每一个个体都有同等的机会被抽取 B.研究者在抽样时应精心挑选个体,以使样本更能代表总体 C.随机抽样即随意抽取个体 D.为确保样本具有更好的代表性,样本量应越大越好 6.各观察值均加(或减)同一数后( b )。 A.均数不变,标准差改变 B.均数改变,标准差不变 C.两者均不变 D.两者均改变 7.比较身高和体重两组数据变异度大小宜采用( a )。 A.变异系数 B.差 C.极差 D.标准差 8.以下指标中(d)可用来描述计量资料的离散程度。 A.算术均数 B.几何均数 C.中位数 D.标准差 9.偏态分布宜用(c)描述其分布的集中趋势。 A.算术均数 B.标准差 C.中位数 D.四分位数间距 10.各观察值同乘以一个不等于0的常数后,(b)不变。 A.算术均数 B.标准差 C.几何均数 D.中位数 11.( a )分布的资料,均数等于中位数。 A.对称 B.左偏态 C.右偏态 D.偏态 12.对数正态分布是一种( c )分布。 A.正态 B.近似正态 C.左偏态 D.右偏态 13.最小组段无下限或最大组段无上限的频数分布资料,可用( c )描述其集中趋势。 A.均数 B.标准差 C.中位数 D.四分位数间距 14.( c )小,表示用该样本均数估计总体均数的可靠性大。 A. 变异系数 B.标准差 C. 标准误 D.极差 15.血清学滴度资料最常用来表示其平均水平的指标是( c )。 A. 算术平均数 B.中位数 C.几何均数 D. 平均数

相关文档
最新文档