医学统计学整理

医学统计学整理
医学统计学整理

名词解释

1.医学统计学是一门“运用统计学的原理和方法,研究医学科研中有关数据的收集、整理和分析的应用科学,研究对象为医学中具有不确定性结果的事物。

2.总体(population):根据研究目的所确定的同质观察单位的全体。只包括(确定的时间和空间范围内)有限个观察单位的总体,称为有限总体(finite population)。假想的,无时间和空间概念的,称为无限总体(infinite population)。

3.参数(parameter):总体的统计指标或特征值。总体参数是事物本身固有的、不变的。

4.样本(sample):从总体中随机抽取的部分个体。

5.变量(variable):观察对象个体的特征或测量的结果。由于个体的特征或指标存在个体差异,观察结果在测量前不能准确预测.变量的观察值称为数据。

6.定量资料:指构成其的变量值是定量的,其表现为数值大小,有单位。对每个观察单位用定量的方法测定某项指标的数值,组成的资料。

7.计数资料:将全体观测单位按照某种性质或特征分组,再分别清点各组观察单位的个数。

8.有序数据:其取值是定性的,但各类别(属性)之间有程度或顺序上的差别。

9.变异(variation):同质事物间的差别.由于观察单位通常即为观察个体,故亦称为个体变异

10.同质:指根据研究目的所确定的观察单位其性质应大致相同。

11.抽样误差(sampling error):由于抽样造成的统计量与参数之间的差别,特点是不能避免的,可用标准误描述其大小。

12.误差:统计上所说的误差泛指测量值与真值之差,样本指标与总体指标之差。主要有系统误差和随机误差

13.可信区间(confidence interval, CI):按一定的概率或可信度(1-α)用一个区间估计总体参数所在范围,这个范围称作可信度1-α的可信区间

14.平均数:是一组(群)数据典型或有代表性的值.这个值趋向于落在根据数据大小排列的数据的中心,包括算术平均数(arithmetic mean)、几何平均数(geometric mean)、中位数(median)等。算术均数:简称均数,可用于反映一组呈对称分布的变量值在数量上的平均水平。几何均数:反映一组经对数转换后呈对称分布的变量值在数量上的平均水平,常适用于免疫学的指标。

15.中位数:将一组观察值按升序或降序排列,位次居中的数,常用M表示。适用于偏态分布资料或不规则分布资料和开口资料。

17.百分位数(percentile):是一种位置指标,以Px表示,一个百分位数Px将全部观察值分为两个部分,理论上有x%的观察值小于Px小,有(1-x%)的观察值大于Px。

18.极差:即一组变量值的最大值与最小值之差,可用于任何分布资料。四分位数间距:是把全部变量值分为四部分的分位数,即第1四分位数(QL=P25)、第2四分位数(M=P50)、第3四分位数(QU=P75)。四分位数间距QR= QU﹣QL,一般和中位数一起描述偏态分布资料的分布特征。方差:也称均方差,反映一组数据的平均离散水平,总体方差用σ2表示,样本方差记为S2。标准差:是方差的正平方根,其单位与原变量值相同,总体标准差用σ表示,样本标准差记为S。方差和标准差用于描述正态分布计量资料的离散程度。均数和标准差结合用于全面描述正态分布计量资料的集中趋势与离散趋势。

19.变异系数(coefficient of variance, CV):亦称离散系数,为标准差与均数之比,常用百分数表示。变异系数没有度量衡单位,常用于比较度量单位不同或均数相差悬殊的两组或多组资料的离散程度。

20. 统计表(statistical table):统计表就是以表格的形式,表达被研究对象的特征、内部构成及研究项目分组之间的数量关系。

21.频率(relative frequency):在n次随机试验中,事件A发生了m次,则比值称为事件A在n次试验中出现的频率,m称为出现的频数(frequency)。

22.概率(probability):在重复试验中,事件A的频率,随着试验次数的不断增加将愈来愈接近一个常数p,这个常数p就称为事件A出现的概率,记作P(A)或P。

23.小概率事件:我们把概率很接近于0(即在大量重复试验中出现的频率非常低)的事件称为小概率事件

24.相关系数(correlation coefficient):用以说明具有直线关系的两个变量间相关关系的密切程度和相关方向的指标,称为相关系数,总体相关系数用希腊字母ρ表示,而样本相关系数用r表示,取值范围均为[-1, 1]。

25.回归系数(regression coefficient):直线回归方程= a+bX的系数b称为回归系数,也就是回归直线的斜率,表示X 每增加一个单位,Y 平均改变 b 个单位。

26.参考值范围(reference range):也称为正常值范围(normal range),医学上常把绝大多数正常人的某指标值范围称为该指标的正常值范围。是指特定健康人群的解剖、生理、生化等各种数据的波动范围。习惯上是确定包括95%的人的界值。制定方法:①正态分布法:数据服从或近似服从正态分布;②百分位数法:偏态分布资料,样本含量不低于100。正常人:不是指健康人,而是指排除了影响所研究指标的疾病和有关因素的同质人群。

27.正偏态和负偏态分布:频数分布可分为对称分布和非对称分布两种类型。非对称分布又称为偏态分布,是指观察值偏离中央的分布。当尾部偏向数轴正侧(或右侧)时,称正偏态(或右偏态)分布,反之,尾部偏向数轴负侧(或左侧)时,则称为负偏态(或左偏态)分布。

28.统计推断(statistic inference):从总体中随机抽取一定含量的样本进行研究,目的是通过样本的信息判断总体的特征,这一过程称为统计推断。

29.标准误(standard error, SE):在统计理论上将样本统计量的标准差称为标准误,用来衡量抽样误差的大小。

30.参数估计(parameter estimation):由样本信息估计总体参数。它包括两种:点估计(point estimation)和区间估计(interval estimation)。点估计:直接用样本统计量作为对应的总体参数的估计值。区间估计:按一定的概率或可信度(1-α)用一个区间估计总体参数所在范围,这个范围称作可信度1-α的可信区间

40.构成比(proportion):又称构成指标,它说明一种事物内部各组成部分所占的比重或分布,常以百分数表示

41. 比(ratio):又称相对比,是A、B两个有关指标之比,说明A为B的若干倍或百分之几,它是对比的最简单形式。

简答题

1.医学统计工作的基本步骤:①设计(是影响研究能否成功的最关键环节,是提高观察或实验质量的重要保证);②收集资料(统计报表+经常性工作记录+专题调查或实验研究+统计年鉴和统计数据专辑);③整理资料(是将原始数据净化、系统化和条理化,以便为下一步计算和分析打好基础的过程);④分析资料/统计分析(统计分析包括统计描述和统计推断,统计学的主要任务是进行统计推断,包括参数估计和假设检验)。

2.频数分布表编制步骤:①找极值;②求极差(全距),即最大值和最小值之差R;③确定组段数和组距;④根据组距写出组段;⑤分组划记并统计频数;⑥列表并求出频率、累计频数、累计频率。

3。频数分布的用途:①描述频数分布的类型:频数分布分为对称分布和偏态分布②描述频数分布的特征;③便于发现一些特大或特小的离群值;④便于进一步做统计分析和处理。4.集中趋势:统计学用平均数这一指标体系来描述一组变量值的集中位置或平均水平,常用的平均数有算术均数、几何均数和中位数。离散趋势:描述数据变异大小的常用指标有极差、四分位数间距、方差、标准差、变异系数。

5.正态分布:德国数学家德莫阿弗尔于1733年提出,德国数学及高斯使正态分布广为人知。

特征:①在直角坐标的横轴上方呈钟型曲线,两端与X轴永不相交,且以X=μ为对称轴,左右完全对称。②在X=μ处f(X)取最大值;X越远离μ,f(X)值越小。③正态分布有两个参数,即位置参数μ和形态参数σ。若固定σ,改变μ值,曲线沿着X轴平行移动,其形状不变。若固定μ,σ越小,曲线越陡峭;反之,σ越大,曲线越平坦。④正态曲线下的面积分布有一定的规律:正态分布曲线下面积为1,X±1.96S的面积为95%,X±2.58S的面积为99%。标准正态分布:通过u=(X﹣μ)/ σ将X~N(μ,σ2)的正态分布转换为u~N (0,12)的标准正态分布,u称为标准正态变量。

6.标准正态分布(u分布)与t分布有何异同?

相同点:集中位置都为0,都是单峰分布,是对称分布,标准正态分布是t分布的特例(自由度是无限大时);不同点:t分布是一簇分布曲线,t 分布的曲线的形状是随自由度的变化而变化,标准正态分布的曲线的形状不变,是固定不变的,因为它的形状参数为1。

7.标准差与标准误有何区别和联系?

区别:(1)含义不同: ①s描述个体变量值(x)之间的变异度大小,s越大,变量值(x)越分散;反之变量值越集中,均数的代表性越强。②标准误是描述样本均数之间的变异度大小,标准误越大,样本均数与总体均数间差异越大,抽样误差越大;反之,样本均数越接近总体均数,抽样误差越小。(2)与n的关系不同:n增大时,①s→σ(恒定)。②标准误减少并趋于0(不存在抽样误差)。(3)用途不同: ①s:表示x的变异度大小,计算cv,估计正常值范围,计算标准误等②:参数估计和假设检验。

联系:二者均为变异度指标,样本均数的标准差即为标准误,标准差与标准误成正比。

8.抽样中要求每一个样本应该具有哪三性:从总体中抽取样本,其样本应具有“代表性”、“随机性”和“可靠性”。(1)代表性: 就是要求样本中的每一个个体必须符合总体的规定。(2)随机性: 就是要保证总体中的每个个体均有相同的几率被抽作样本。(3)可靠性: 即实验的结果要具有可重复性,即由科研课题的样本得出的结果所推测总体的结论有较大的可信度。由于个体之间存在差异, 只有观察一定数量的个体方能体现出其客观规律性。每个样本的含量越多,可靠性会越大,但是例数增加,人力、物力都会发生困难,所以应以“足够”为准。需要作“样本例数估计”。

9.简述直线回归与直线相关的区别:(1)资料要求上不同:直线回归分析适用于应变量是服从正态分布的随机变量,自变量是选定变量;直线相关分析适用于服从双变量正态分布的资料。

(2) 两种系数的意义不同:回归系数是表明两个变量之间数量上的依存关系,回归系数越大回归直线越陡峭,表示应变量随自变量变化越快;相关系数是表明两个变量之间相关的方向和紧密程度的,相关系数越大,两个变量的关联程度越大

10.假设检验:是利用小概率反证法思想,从问题的对立面(H0)出发间接判断要解决的问题(H1)是否成立,然后在H0成立的条件下计算检验统计量,最后获得P值来判断。基本思想:①小概率思想:小概率事件在一次试验中认为基本上不发生,其概率是相对的,在进行统计分析时要事先规定,即检验水准α。②反证法思想:首先提出一个假设,用适当的统计方法确定当假设成立时,获得现在样本的概率大小,如果是小概率事件,则推断假设是假的,拒绝它;如果不是小概率事件,则不能认为假设是假的,不能拒绝它。

11.方差分析的基本思想是什么?你所知道的其用途有哪些?

方差分析的基本思想就是按研究目的和设计类型,将总变异的离均差平方和SS和自由度v 分别分解成若干部分,并求得各相应部分的变异;其中的组内变异或误差主要反映个体差异或抽样误差,其它部分的变异与之比较得出统计量F值,由F值的大小确定P值,并做出推断。可用于:①两个或多个样本均数间的比较;②分析两个或多个因素间的交互作用;③回归方程的线性假设检验;④多元线性回归分析中偏回归系数的假设检验等。本章主要介绍完全随机设计资料的方差分析、配伍组设计资料的方差分析及重复测量数据的方差分析。

12.什么是假设检验中的两类错误?什么是检验效能?其大小与哪些因素有关?

答:假设检验中的第一类错误是指“拒绝了实际上成立的H0假设”时所犯的错误,当H0成立时犯第一类错误的概率等于检验水准α。假设检验中的第二类错误是指“不拒绝实际上不成立的H0假设”时所犯的错误,其概率通常用β表示,其大小与抽样误差大小及设定的检验水准α有关。由于假设检验的结论是依据小概率事件一次试验实际不可能发生的原理进行的,因此当拒绝检验假设时可能犯I型错误,当接受检验假设时可能犯II型错误。1-β为假设检验的检验效能,也就是两个总体确实有差别时检出该差别的能力。

13.试述假设检验中I 型错误与II 型错误的意义及关系。

一般地,β的大小和样本例数、α值、两总体的实际差距有关,它只有与特定的H1结合起来才有意义,而通常的检验假设其总是非特定的,所以β值的大小很难确切估计。仅知道样本例数确定时,α越小,β越大,反之,α越大,β越小。所以α和β是相互制约的,可以根据研究要求适当控制。要同时减少α及β,唯一的方法是增加样本例数,当样本例数确定后,可以通过选定α来控制β。若重点减少α,一般取较小的α;若重点减少β,一般取α=0.05,α=0.1或更高,因为虽属未知,但估计比取α=0.01时小些。

14.统计表和统计图的用途是:统计工作中,用统计表和统计图的形式说明资料在数量方面的大小,变动趋势,分布情况以及相互关系,以代替冗长的文字叙述,使结果一目了然,便于阅读,便于分析和比较。

15.t分布的特征:(1)一簇单峰分布曲线;(2)以0为中心,左右对称;(3)与自由度有关,①自由度越小,t分布的峰越低,而两侧尾部翘得越高;②自由度逐渐增大时,t分布逐渐逼近标准正态分布;③当自由度为无穷大时,t分布就是标准正态分布

16.两样本方差比较的F检验:即方差齐性检验,目的是判断两样本所代表的两总体方差是否不等,资料要求服从正态分布。若方差齐,采用一般的t检验;若方差不齐,则采用近似t检验。

医学统计学简答题

医学统计学简答题 1.简述标准差、标准误的区别与联系? 区别:(1)含义不同:标准差S表示观察值的变异程度,描述个体变量值(x)之间的变异度大小,S越大,变量值(x)越分散;反之变量值越集中,均数的代表性越强。标准误..估计均数的抽样误差的大小,是描述样本均数之间的变异度大小,标准误越大,样本均数与总体均数间差异越大,抽样误差越大;反之,样本均数越接近总体均数,抽样误差越小。 (2)与n的关系不同: n增大时,S趋于σ(恒定),标准误减少并趋于0(不存在抽样误差)。 (3)用途不同:标准差表示x的变异度大小、计算变异系数、确定医学参考值范围、计算标准误等,标准误用于估计总体均数可信区间和假设检验。 联系:二者均为变异度指标,样本均数的标准差即为标准误,标准差与标准误成正比。 2.简述假设检验的基本步骤。 1.建立假设,确定检验水准。 2.选择适当的假设检验方法,计算相应的检验统计量。 3.确定P值,下结论 3.正态分布的特点和应用:? 特点:?1、集中性:正态曲线的高峰位于正中央,即均数所在的位置;? 2、对称性:正态分布曲线位于直角坐标系上方,以x=u为中心,左右对称,曲线两端永远不与横轴相交; 3、均匀变动性:正态曲线由均数所在处开始,分别向左右两侧逐渐均匀下降;?

4、正态分布有两个参数,即均数μ和标准差σ,可记作N(μ,σ):均数μ决定正态曲线的中心位置;标准差σ决定正态曲线的陡峭或扁平程度。σ越小,曲线越陡峭;σ越大,曲线越扁平; ?5、u变换:为了便于描述和应用,常将正态变量作数据转换;?? 应用:?1.估计医学参考值范围?2.质量控制?3.正态分布是许多统计方法的理论基础 4.简述参考值范围与均数的可信区间的区别和联系 可信区间与参考值范围的意义、计算公式和用途均不同。 ?1.从意义来看?95%参考值范围是指同质总体内包括95%个体值的估计范围,而总体均数95%可信区间是指?95%可信度估计的总体均数的所在范围? 2.从计算公式看?若指标服从正态分布,95%参考值范围的公式是:±1.96s。?总体均数95%可信区间的公式是:??前者用标准差,后者用标准误。前者用1.96,后者用α为0.05,自由度为v的t界值。 5.频数表的用途和基本步骤。 用途:(1)揭示资料的分布特征和分布类型;(2)便于进一步计算指标和分析处理;(3)便于发现某些特大或特小可疑值。 基本步骤:(1)求出极差;(2)确定组段,一般设8~15个组段;(3)确定组距;组距=R/组段数,但一般取一方便计算的数字;(4)列出各个组段并确定每一组段频数。 6.非参数统计检验的适用条件。 (1)资料不符合参数统计法的应用条件(总体为正态分布、且方差相等)或总体分布类型未知;(2)等级资料;(3)分布呈明显偏态又无适当的变量转换方法使之满足参数统计条件;(4)在资料满足参数检验的要求时,应首选参数法,以免降低检验效能 7.线性回归的主要用途。

医学统计学复习资料讲解学习

一、名词解释 1.概率:在重复试验中,事件A的频率,随着试验次数的不断增加将愈来愈接近一个常数p,这个常数p就称为事件A出现的概率(probability),记作P(A)或P。 2.抽样误差:由于抽样造成的统计量与参数之间的差别,特点是不能避免的,可用标准误描述其大小。 3.医学参考值范围:是指绝大多数正常人的某指标值都在一定的范围内,其中最常用的是95% 4.总体:是指根据研究目的确定的、同质的全部研究的观测值,即某个随机变量X可能取的值得全体。 4.总体:根据研究目的所确定的同质观察单位的全体。 5.线性回归系数:直线回归方程y=a+bX的系数b称为回归系数,也就是回归直线的斜率(slope),表示X 每增加一个单位,Y 平均改变 b 个单位。 二、填空题 1.统计资料的类型分:计量资料、计数资料、等级资料。 2.统计工作的步骤分为:统计设计、收集资料、整理资料、分析资料。 3.统计表的结构为:标题、标目、线条、数字。 4.可信区间的两个要素是:准确度、精密度。 5.方差分析的应用条件为:①各组样本是相互独立的随机样本 ②来自正态总体③各组总体方差相等,即方差齐性。 6.描述正态分布曲线形态的指标是σ,描述t分布曲线形态的指标是ν。 7.从集中趋势、离散趋势两个方面来描述计量资料的分布特 征。 三、单项选择题(请把正确答案写在下面的表格里,每题2分,共20分) 1.将90名高血压病人随机等分成三组后分别用 A、B 和 C 方 法治疗,以服药前后血压的差值为疗效,欲比较三种方法的效果是否相同,正确的是 C A 作三个差值样本比较的 t 检验 B 作三个差值样本比较的方差分析 C 作配伍组设计资料的方差分析 D 作两两比较的 t 检验 2.某地1952和1998年三种死因别死亡率绘制成统计图,宜用 B A 直条图 B 百分条图 C 圆图 D 直方图 3.下列哪个变量为标准正态变量 B A s xμ - B σ μ - x C x s xμ - D x x σ μ - 4.某医院对30名麻疹易感儿童经气溶胶免疫一个月后,测得其血凝抑制抗体滴度,最合适描述其集中趋势的指标是 B A 均数 B 几何均数 C 标准差 D中位数 5.配对设计的目的 D A 提高测量精度 B操作方便 C为了可以使用t检验D提高组间可比性 6.测定尿铅含量有甲乙两种方法。现用甲乙两法检测10份相同样品,要比较两法测得的结果有无差别,宜用 A A 配对设计t检验 B 成组设计的t检验 C均数的u检验 D 方差分析 7.应变量Y的离均差平方和划分,可出现 A A SS剩=SS回 B SS总=SS剩 C SS总=SS回 D 以上均可 8.相关系数r与决定系数2r在含义上是有区别的,下面表述中最正确的是 C A r值的大小反映了两个变量之间是否有密切的关系 B r值接近于零,表明两变量之间没有任何关系

常用医学统计学方法汇总

选择合适的统计学方法 1连续性资料 1.1 两组独立样本比较 1.1.1 资料符合正态分布,且两组方差齐性,直接采用t检验。 1.1.2 资料不符合正态分布,(1)可进行数据转换,如对数转换等,使之服从正态分布,然后对转换后的数据采用t检验;(2)采用非参数检验,如Wilcoxon检验。 1.1.3 资料方差不齐,(1)采用Satterthwate 的t’检验;(2)采用非参数检验,如Wilcoxon检验。 1.2 两组配对样本的比较 1.2.1 两组差值服从正态分布,采用配对t检验。 1.2.2 两组差值不服从正态分布,采用wilcoxon的符号配对秩和检验。 1.3 多组完全随机样本比较 1.3.1资料符合正态分布,且各组方差齐性,直接采用完全随机的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey 法,Scheffe法,SNK法等。 1.3.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的Kruscal-Wallis法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用成组的Wilcoxon检验。 1.4 多组随机区组样本比较 1.4.1资料符合正态分布,且各组方差齐性,直接采用随机区组的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey 法,Scheffe法,SNK法等。 1.4.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的Fridman检验法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用符号配对的Wilcoxon检验。 ****需要注意的问题: (1)一般来说,如果是大样本,比如各组例数大于50,可以不作正态性检验,直接采用t 检验或方差分析。因为统计学上有中心极限定理,假定大样本是服从正态分布的。 (2)当进行多组比较时,最容易犯的错误是仅比较其中的两组,而不顾其他组,这样作容易增大犯假阳性错误的概率。正确的做法应该是,先作总的各组间的比较,如果总的来说差别有统计学意义,然后才能作其中任意两组的比较,这些两两比较有特定的统计方法,如上面提到的LSD检验,Bonferroni法,tukey法,Scheffe法,SNK法等。**绝不能对其中的两

医学统计知识点整理(1)

医学统计学知识点整理 第一节统计学中基本概念 一、同质与变异 同质:统计研究中,给观察单位规定一些相同的因素情况。 如儿童的生长发育,规定同性别、同年龄、健康的儿童即为同质的儿童。 变异:同质的基础上个体间的差异。 “同质”是相对的,是客观事物在特定条件下的相对一致性,而“变异”则是绝对的 二、总体与样本 1、总体:是根据研究目的所确定的,同质观察对象(个体)所构成的全体。 2、样本:是从总体中随机抽取的部分观察单位变量值的集合。 三、参数与统计量 总体参数:根据总体个体值统计计算出来的描述总体的特征量。用希腊字母表示。μ.δ.π 样本统计量:根据样本个体值统计计算出来的描述样本的特征量。用拉丁字母表示。X.S.p 总体参数一般是不知道的,抽样研究的目的就是用样本统计量来推断总体参数,包括区间估计和假设检验 四、误差:实测值与真值之差★ 1.随机误差:是一类不恒定的、随机变化的误差,由多种尚无法控制的因素引起。随机测量误差、抽样误差。 2.系统误差:是一类恒定不变或遵循一定变化规律的误差,其产生原因往往是可知的或可能掌握的。 3.非系统误差:过失误差,可以避免或清除。 五、概率 是用来描述事件发生可能性大小的一个量值,常用P表示。概率取值0~1。 统计上一般将P≤0.05或P≤0.01的事件称为小概率事件,表示其发生的概率很小,可以认为在一次抽样中不会发生。 第二节统计资料的类型★

变量:确定总体之后,研究者应对每个观察单位的某项特征进行观察或测量,这种特征能表现观察单位的变异性,称为变量。 一、数值变量资料 又称为计量资料、定量资料:观测每个观察单位某项指标的大小而获得的资料。表现为数值大小,带有度、量、衡单位。如身高(cm)、体重(kg)、血红蛋白(g)等。 二、无序分类变量资料 又称为定性资料或计数资料:将观察对象按观察对象的某种类别或属性进行分组计数,分组汇总各组观察单位后得到的资料。 分类:二分类:+ -;有效,无效;多分类:ABO血型系统 特点:没有度量衡单位,多为间断性资料 【例题单选】某地A、B、O、AB血型人数分布的数据资料是( ) A.定量资料 B.计量资料 C.计数资料 D.等级资料 【答案】C 【解析】ABO血型系统人数分布资料属于无序分类变量资料,又称为计数资料。因为是按照变量的血型分类,血型表现为互不相容的属性。所以本题选C。 【例题单选】测量正常人的脉搏数所得的变量是() A.二分类变量 B.多分类变量 C.定量变量 D.定性变量 【答案】C 【解析】脉搏数有数值大小,有度量衡,所以这个资料属于定量资料。本题选C。 三、有序分类变量资料 半定量资料或等级资料:将观察对象按观察对象的某种属性的不同程度分成等级后分组计数,分组汇总各组观察单位后得到的资料。 特点:每一个观察单位没有确切值,各组之间有性质上的差别或程度上的不同举例:- + ++ +++ 第三节统计工作的基本步骤★ 1.统计设计 2.收集资料

医学统计学考试重点整理

一、基本概念 1.总体与样本 总体:所有同质观察单位某种观察值(即变量值)的全体 样本:是总体中抽取部分观察单位的观察值的集合 2.普查与抽样调查 普查:就是全面调查,即调查目标总体中全部观察对象 抽样调查:是一种非全面调查,即从总体中抽取一定数量的观察单位组成样本,对样本进行调查 3.参数与统计量 参数:总体的某些数值特征 统计量:根据样本算得的某些数值特征 4.Ⅰ型与Ⅱ型错误 假设检验的结论 真实情况拒绝H0不拒绝H0 H0正确Ⅰ型错误(ɑ) 推断正确(1 ?ɑ) H0不正确推断正确(1?β) Ⅱ型错误(β) Ⅰ型错误(ɑ错误): H0为真时却被拒绝,弃真错误 Ⅱ型错误(β错误): H0为假时却被接受,取伪错误 5.随机化原则与安慰剂对照 随机化原则:是将研究对象随机分配到实验组和对照组,使每个研究对象都有同等机会被分配到各组中去,以平衡两组中已知和未知的混杂因素,从而提高两组的可比性,避免造成偏倚。(意义:①是提高组间均衡性的重要设计方法;②避免有意扩大或缩小组间差别导致的偏倚;③各种统计学方法均建立在随机化基础上) 安慰剂对照:是一种常用的对照方法。安慰剂又称伪药物,是一种无药理作用的制剂,不含试验药物的有效成分,但其感观如剂型、大小、颜色、质量、气味及口味等都与试验药物一样,不能被受试对象和研究者所识别。(安慰剂对照主要用于临床试验,其目的在于控制研究者和受试对象的心理因素导致的偏倚,并提高依从性。安慰剂对照还可以控制疾病自然进程的影响,显示试验药物的效应) 6.误差与标准误(区分率与均数) ㈠均数 抽样误差:由个体变异产生的、随机抽样引起的样本统计量与总体参数间的差异。 标准误:是指样本均数的标准差,反映抽样误差大小的定量指标,其公式表示为S x =S/√n ㈡样本率 率的抽样误差:样本率p和总体率π的差异 率的标准误:样本率的标准差,公式为σp=√π(1-π)/n

医学统计学总复习练习题(含答案)

医学统计学总复习练习题(含答案)

一、最佳选择题 1.卫生统计工作的步骤为 C A.统计研究调查、搜集资料、整理资料、分析资料 B.统计资料收集、整理资料、统计描述、统计推断 C.统计研究设计、搜集资料、整理资料、分析资料 D.统计研究调查、统计描述、统计推断、统计图表 E.统计研究设计、统计描述、统计推断、统计图表 2.统计分析的主要内容有 D A.统计描述和统计学检验 B.区间估计与假设检验 C.统计图表和统计报告 D.统计描述和统计推断 E.统计描述和统计图表 3.统计资料的类型包括E A.频数分布资料和等级分类资料 B.多项分类资料和二项分类资料 C.正态分布资料和频数分布资料 D.数值变量资料和等级资料 E.数值变量资料和分类变量资料 4.抽样误差是指 B A.不同样本指标之间的差别 B.样本指标与总体指标之间由于抽样产生的差别 C.样本中每个体之间的差别 D.由于抽样产生的观测值之间的差别 E.测量误差与过失误差的总称 5.统计学中所说的总体是指 B A.任意想象的研究对象的全体 B.根据研究目的确定的研究对象的全体 C.根据地区划分的研究对象的全体 D.根据时间划分的研究对象的全体 E.根据人群划分的研究对象的全体 6.描述一组偏态分布资料的变异度,宜用 D A.全距 B.标准差 C.变异系数 D.四分位数间距 E.方差7.用均数与标准差可全面描述其资料分布特点的是 C A.正偏态分布 B.负偏态分布 C.正态分布和近似正态分布 D.对称分布 E.任何分布 8.比较身高和体重两组数据变异度大小宜采用 A A.变异系数 B.方差 C.极差 D.标准差 E.四分位数间距 9.频数分布的两个重要特征是 C A.统计量与参数 B.样本均数与总体均数 C.集中趋势与离散趋势 D.样本标准差与总体标准差 E.样本与总体 10.正态分布的特点有 B A.算术均数=几何均数 B.算术均数=中位数 C.几何均数=中位数 D.算术均数=几何均数=中位数 E.以上都没有

医学统计学分析计算题-答案

第二单元 计量资料的统计推断 分析计算题 2.1 某地随机抽样调查了部分健康成人的红细胞数和血红蛋白量,结果见表4: 表4 某年某地健康成年人的红细胞数和血红蛋白含量 指 标 性 别 例 数 均 数 标准差 标准值* 红细胞数/1012·L -1 男 360 4.66 0.58 4.84 女 255 4.18 0.29 4.33 血红蛋白/g ·L -1 男 360 134.5 7.1 140.2 女 255 117.6 10.2 124.7 请就上表资料: (1) 说明女性的红细胞数与血红蛋白的变异程度何者为大? (2) 分别计算男、女两项指标的抽样误差。 (3) 试估计该地健康成年男、女红细胞数的均数。 (4) 该地健康成年男、女血红蛋白含量有无差别? (5) 该地男、女两项血液指标是否均低于上表的标准值(若测定方法相同)? 2.1解: (1) 红细胞数和血红蛋白含量的分布一般为正态分布,但二者的单位不一致,应采用变异系数(CV )比较二者的变异程度。 女性红细胞数的变异系数0.29 100%100% 6.94%4.18 S CV X = ?=?= 女性血红蛋白含量的变异系数10.2 100%100%8.67%117.6 S CV X =?=?= 由此可见,女性血红蛋白含量的变异程度较红细胞数的变异程度大。 (2) 抽样误差的大小用标准误X S 来表示,由表4计算各项指标的标准误。 男性红细胞数的标准误0.031 X S = ==(1210/L ) 男性血红蛋白含量的标准误0.374 X S = ==(g/L )

女性红细胞数的标准误0.018X S = ==(1210/L ) 女性血红蛋白含量的标准误0.639X S = ==(g/L ) (3) 本题采用区间估计法估计男、女红细胞数的均数。样本含量均超过100,可视为大样本。σ未知,但n 足够大 ,故总体均数的区间估计按 (/2/2X X X u S X u S αα-+ , )计算。 该地男性红细胞数总体均数的95%可信区间为: (4.66-1.96×0.031 , 4.66+1.96×0.031),即(4.60 , 4.72)1210/L 。 该地女性红细胞数总体均数的95%可信区间为: (4.18-1.96×0.018 , 4.18+1.96×0.018),即(4.14 , 4.22)1210/L 。 (4) 两成组大样本均数的比较,用u 检验。 1) 建立检验假设,确定检验水准 H 0:12μμ=,即该地健康成年男、女血红蛋白含量均数无差别 H 1:12μμ≠,即该地健康成年男、女血红蛋白含量均数有差别 0.05α= 2) 计算检验统计量 22.829X X u === 3) 确定P 值,作出统计推断 查t 界值表(ν=∞时)得P <0.001,按0.05α=水准,拒绝H 0,接受H 1,差别有统计学意义,可以认为该地健康成年男、女的血红蛋白含量均数不同,男性高于女性。 (5) 样本均数与已知总体均数的比较,因样本含量较大,均作近似u 检验。 1) 男性红细胞数与标准值的比较 ① 建立检验假设,确定检验水准 H 0:0μμ=,即该地男性红细胞数的均数等于标准值

医学统计学知识点总结

医学统计学 1. 对定量资料进行统计描述时,如何选择适宜的指标 定量资料统计描述常用的统计指标及其适用场合描述内容指 标 意义适用场合 平均水平;均 数 个体的平均值· 对称分布 几何均数平均倍数取对数后对称分布 中位数[ 位次居中的观察值 ①非对称分布;②半定量资料;③末端开 口资料;④分布不明 众 数 频数最多的观察值不拘分布形式,概略分析 ? 调和均数 基于倒数变换的平均值正偏峰分布资料 变异度全 距 观察值取值范围不拘分布形式,概略分析 标准差 (方差) 观察值平均离开均数的 程度对称分布,特别是正态分布资料 四分位数 间距 ? 居中半数观察值的全距 ①非对称分布;②半定量资料;③末端开 口资料;④分布不明 变异系数标准差与均数的相对比①不同量纲的变量间比较;②量纲相同但 数量级相差悬殊的变量间比较 定性资料:阳性事件的概率,概率分布,强度和相对比。 ¥ 2. 应用相对数时应注意哪些问题 答:(1)防止概念混淆相对数的计算是两部分观察结果的比值,根据这两部分观察结果的特点,就可以判断所计算的相对数属于前述何种指标。 (2)计算相对数时分母不宜过小样本量较小时以直接报告绝对数为宜。 (3)观察单位数不等的几个相对数,不能直接相加求其平均水平。 (4)相对数间的比较须注意可比性,有时需分组讨论或计算标准化率。 3. 常用统计图有哪些分别适用于什么分析目的 常用统计图的适用资料及实施方法 < 图形 适用资料实施方法 条图组间数量对比用直条高度表示数量大小 直方图用直条的面积表示各组段的频数或频率

( 定量资料的分布 百分条图构成比用直条分段的长度表示全体中各部分的构成比 饼图构成比用圆饼的扇形面积表示全体中各部分的构成比 定量资料数值变动线条位于横、纵坐标均为算术尺度的坐标系 、 线图 半对数线图定量资料发展速度线条位于算术尺度为横坐标和对数尺度为纵坐标的坐标 系 散点图} 双变量间的关联点的密集程度和形成的趋势,表示两现象间的相关关系箱式图定量资料取值范围用箱体、线条标志四分位数间距及中位数、全距的位置茎叶图定量资料的分布' 用茎表示组段的设置情形,叶片为个体值,叶长为频数 第3章概率分布(连续随机变量的正态分布;离散随机变量的二项分布及Poisson分布)1. 服从二项分布及Poisson分布的条件分别是什么 二项分布成立的条件:①每次试验只能是互斥的两个结果之一;②每次试验的条件不变;③各次试验独立。 Poisson分布成立的条件:除二项分布成立的三个条件外,还要求试验次数n很大,而所关心的事件发生的概率 很小。 、 2. 二项分布、Poisson分布分别有什么特征 ①二项分布、Poisson分布都是离散型分布。 ②二项分布的形状取决于π与n的大小。π=时,不论n大小,对称分布。π≠时,图形呈偏态,随n增大而逐渐对称。当n足够大,π或1-π不太小,二项分布近似正态。 ③Poisson分布μ越小,分布越偏。μ越大,分布越对称。当n足够大时,分布接近正态。 4、正态分布应用 ①估计变量值的频数分布 《 ②制定参考值范围 ③质量控制 ④正态分布是很多统计方法的基础 5. 正态分布特征 ①以均数为中心,左右对称 ②正态曲线在横轴上方均数处取得最高点 ~ ③正态分布有两个参数,即均数(位置参数)和标准差(变异度参数)(μ,σ2 ;标准0,1)

医学统计学分析计算题_与解析

第二单元 计量资料的统计推断 分析计算题 2.1 某地随机抽样调查了部分健康成人的红细胞数和血红蛋白量,结果见表4: 表4 某年某地健康成年人的红细胞数和血红蛋白含量 指 标 性 别 例 数 均 数 标准差 标准值* 红细胞数/1012 ·L -1 男 360 4.66 0.58 4.84 女 255 4.18 0.29 4.33 血红蛋白/g ·L -1 男 360 134.5 7.1 140.2 女 255 117.6 10.2 124.7 请就上表资料: (1) 说明女性的红细胞数与血红蛋白的变异程度何者为大? (2) 分别计算男、女两项指标的抽样误差。 (3) 试估计该地健康成年男、女红细胞数的均数。 (4) 该地健康成年男、女血红蛋白含量有无差别? (5) 该地男、女两项血液指标是否均低于上表的标准值(若测定方法相同)? 2.1解: (1) 红细胞数和血红蛋白含量的分布一般为正态分布,但二者的单位不一致,应采用变异系数(CV )比较二者的变异程度。 女性红细胞数的变异系数0.29 100%100% 6.94%4.18 S CV X = ?=?= 女性血红蛋白含量的变异系数10.2 100%100%8.67%117.6 S CV X =?=?= 由此可见,女性血红蛋白含量的变异程度较红细胞数的变异程度大。 (2) 抽样误差的大小用标准误X S 来表示,由表4计算各项指标的标准误。 男性红细胞数的标准误0.031 X S = ==(1210/L ) 男性血红蛋白含量的标准误0.374 X S = ==(g/L )

女性红细胞数的标准误0.018X S = ==(1210/L ) 女性血红蛋白含量的标准误0.639X S = ==(g/L ) (3) 本题采用区间估计法估计男、女红细胞数的均数。样本含量均超过100,可视为大样本。σ未知,但n 足够大 ,故总体均数的区间估计按 (/2/2X X X u S X u S αα-+ , )计算。 该地男性红细胞数总体均数的95%可信区间为: (4.66-1.96×0.031 , 4.66+1.96×0.031),即(4.60 , 4.72)1210/L 。 该地女性红细胞数总体均数的95%可信区间为: (4.18-1.96×0.018 , 4.18+1.96×0.018),即(4.14 , 4.22)1210/L 。 (4) 两成组大样本均数的比较,用u 检验。 1) 建立检验假设,确定检验水准 H 0:12μμ=,即该地健康成年男、女血红蛋白含量均数无差别 H 1:12μμ≠,即该地健康成年男、女血红蛋白含量均数有差别 0.05α= 2) 计算检验统计量 22.829X X u === 3) 确定P 值,作出统计推断 查t 界值表(ν=∞时)得P <0.001,按0.05α=水准,拒绝H 0,接受H 1,差别有统计学意义,可以认为该地健康成年男、女的血红蛋白含量均数不同,男性高于女性。 (5) 样本均数与已知总体均数的比较,因样本含量较大,均作近似u 检验。 1) 男性红细胞数与标准值的比较 ① 建立检验假设,确定检验水准 H 0:0μμ=,即该地男性红细胞数的均数等于标准值

医学统计学知识点汇总(精华)

医学统计学知识点汇总(精华) 一.概论 1,医学统计学:运用概率论和数理统计学的原理和方法,研究医学领域中随机现象有关数据的搜集、整理、分析和推断,进而阐明其客观规律性的一门应用科学。 2,医学统计学的主要内容: 1)统计研究设计调查研究设计和实验研究设计 2)医学统计学的基本原理和方法研究设计和数据处理中的基本统计理论和方法。 A:资料的搜集与整理 B:常用统计描述,集中趋势和离散趋势,相对数,相关系数,回归系数,统计表,统计图 C:统计推断,如参数估计和假设检验。 3)医学多元统计方法多元线性回归和逐步回归分析、判别分析、聚类分析、主成分分析、因子分析、logistic回归与Cox回归分析。 3,统计工作步骤: 1)设计明确研究目的和研究假说,确定观察对象与观察单位,样本含量和抽样方法,拟定研究方案,预期分析指标,误差控制措施,进度与费用。 2)搜集材料 A,搜集材料的原则及时、准确、完整 B,统计资料的来源医学领域的统计资料的来源主要有三个方面。一是统计报表,二是经常性工作记录,三是专题调查或专题实验。 C,资料贮存 3)整理资料 a检查核对b设计分组c拟定整理表d归表 4)分析资料统计分析包括统计描述和统计推断

4,同质(homogeneity):指被研究指标的影响因素相同。 变异(variation):同质基础上的各观察单位间的差异。 变量(variable):收集资料过程中,根据研究目的确定同质观察单位,再对每 个观察单位的某项特征进行测量或观察,这种特征称为变量变量值:变量的观察结果或测量值。 5,总体(population)根据研究目的所确定的同质研究对象中所有观察单位某 变量值的集合。总体具有的基本特征是:同质性 样本(sample)从总体中随机抽取部分观察单位,其变量值的集合构成样本。 样本必须具有代表性。代表性是指样本来自同质总体,足够的样 本含量和随机抽样的前提。

医学统计学复习资料

限总体。总体中的所有单位都能够标识者为有限总体,反之为无限总体。样本:从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample)。样本应具有代表性。所谓有代表性的样本,是指用随机抽样方法获得的样本。2.随机抽样:随机抽样(random sampling)是指按照随机化的原则(总体中每一个 观 察单位都有同等的机会被选入到样本中),从总 一、名词解释 1.概率:在重复试验中,事件A的频率,随着试验次数的不断增加将愈来愈接近一个常数p,这个常数p就称为事件A出现的概率(probability),记作P(A)或P。 2.抽样误差:由于抽样造成的统计量与参数之间的差别,特点是不能避免的,可用标准误描述其大小。 3.医学参考值范围:是指绝大多数正常人的某指标值都在一定的范围内,其中最常用的是95% 4.总体:是指根据研究目的确定的、同质的全部研究的观测值,即某个随机变量X可能取的值得全体。 4.总体:根据研究目的所确定的同质观察单位的全体。 5.线性回归系数:直线回归方程y=a+bX的系数b称为回归系数,也就是回归直线的斜率(slope),表示X 每增加一个单位,Y 平均改变 b 个单位。 二、填空题1.统计资料的类型分: 2.统计工作的步骤分为资料。 3.统计表的结构为:标 4.可信区间的两个要素 5.方差分析的应用条件来自正态总体③各组总 6.描述正态分布曲线形标是ν。 7.从集中趋势、离散趋 三、单项选择题(请把共20分) 1.将90名高血压病人 治疗,以服药前后血

限总体。总体中的所有单位都能够标识者为有限总体,反之为无限总体。 样本:从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample )。样 本应具有代表性。所谓有代表性的样本,是指用随机抽样方法获得的样本。 2.随机抽样:随机抽样(random sampling )是指按照随机化的原则(总体中每一个 观 察单位都有同等的机会被选入到样本中),从总 是否相同,正确的是 C A 作三个差值样本比较的 t 检验 B 作三个差值样本比较的方差分析 C 作配伍组设计资料的方差分析 D 作两两比较的 t 检验 2.某地1952和1998年三种死因别死亡率绘制成统计图,宜用 B A 直条图 B 百分条图 C 圆图 D 直方图 3.下列哪个变量为标准正态变量 B A s x μ- B σ μ-x C x s x μ- D x x σμ- 4.某医院对30名麻疹易感儿童经气溶胶免疫一个月后,测得其血凝抑制抗体滴度,最合适描述其集中趋势的指标是 B A 均数 B 几何均数 C 标准差 D 中位数 5.配对设计的目的 D A 提高测量精度 B 操作方便 C 为了可以使用t 检验 D 提 高组间可比性 6.测定尿铅含量有甲乙 品,要比较两法测得的 A 配对设计t 检验 方差分析 7.应变量Y 的离均差平 A SS 剩=SS 回 B 上均可 8.相关系数r 与决定系数 确的是 C A r 值的大小反映了两 B r 值接近于零,表明 C 2 r 值接近于零,表明

医学统计学知识点梳理

医学统计学知识点梳理 Revised as of 23 November 2020

医学统计学知识点梳理 医学统计学:是用统计学原理和方法研究生物医学问题的一门学科。他包括了研究设计、数据收集、整理、分析以及分析结果的正确解释和表达。 统计描述:用统计指标、统计图表对资料的数量特征及分布规律进行客观的描述和表达。 统计推断:在一定的置信度和概率保证下,用样本信息推断总体特征: ①参数估计:用样本的指标去推断总体相应的指标 ②假设检验:由样本的差异推断总体之间是否可能存在的差异 同质:一个总体中有许多个体,他们之所以共同成为人们研究的对象,必定存在共性,我们说一些个体处于同一总体,就是指他们大同小异,具有同质性。 总体(population)是根据研究目的确定的同质的观察单位的全体,更确切的说,是同质的所有观察单位某种观察值(变量值)的集合。总体可分为有限总体和无限总体。总体中的所有单位都能够标识者为有限总体,反之为无限总体。 样本:从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample)。样本应具有代表性。所谓有代表性的样本,是指用随机抽样方法获得的样本。 随机抽样:随机抽样(random sampling)是指按照随机化的原则(总体中每一个观察单位都有同等的机会被选入到样本中),从总体中抽取部分观察单位的过程。随机抽样是样本具有代表性的保证。 变异:在自然状态下,个体间测量结果的差异称为变异(variation)。变异是生物医学研究领域普遍存在的现象。严格的说,在自然状态下,任何两个患者或研究群体间都存在差异,其表现为各种生理测量值的参差不齐。 (1)计量资料:对每个观察单位用定量的方法测定某项指标量的大小,所得的资料称为计量资料(measurement data)。计量资料亦称定量资料、测量资料。.其变量值是定量的,表现为数值大小,一般有度量衡单位。 (2)计数资料:将观察单位按某种属性或类别分组,所得的观察单位数称为计数资料(count data)。计数资料亦称定性资料或分类资料。其观察值是定性的,表现为互不相容的类别或属性。 (3)等级资料:将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察单位数,称为等级资料(ordinal data)。

(完整word版)医学统计学上机考试复习题及答案

“医学统计学”上机考试模拟题A卷 1.测得10例某指标值治疗前后情况如下: 例号 1 2 3 4 5 6 7 8 9 10 治疗前76 64 60 62 72 68 62 66 70 60 治疗后74 62 64 58 68 70 56 60 66 56 1.用参数方法比较治疗前后该指标值的差异有无统计学意义,结果填入下表: 例数均数标准差治疗前 治疗后 差值(前-后) H0:治疗前后该指标值无差异。 H1:治疗前后该指标值有差异。 统计量t=2.512 P=0.0332 统计结论:P<0.05,拒绝H0,认为在α=0.05水平上差异有统计学意义,即治疗前后该指标值有差异。 2.上题资料,用非参数方法比较治疗前后该指标值的差异有无统计学意义。结果填入下面空格。 H0:治疗前后该指标值无差异。 H1:治疗前后该指标值有差异。 统计量s=19.5 P=0.0547 统计结论:P>0.05,不拒绝H0,认为在α=0.05水平上差异无统计学意义,即治疗前后该指标值无差异。

3.测得10例正常儿童身高(cm)和体重(kg)如下: 例号 1 2 3 4 5 6 7 8 9 10 身高(X)120 133 126 130 121 122 131 128 110 124 体重(Y)20 27 23 25 25 18 22 25 15 22 (1)求身高和体重的相关系数,并作显著性检验。 相关系数r =0.81211 H0:p=0 H1:p≠0 P= 0.0043 统计结论:P<0.05,拒绝H0,认为在α=0.05水平上差异有统计学意义,即认为身高和体重存在正相关。 (2)求身高推算体重的直线回归方程,并作显著性检验。 直线回归方程:y=-32.964+0.443*x H0:β=0 H1:β≠0 P=0.0043 统计结论:P<0.05,拒绝H0,认为在α=0.05水平上差异有统计学意义,即认为身高和体重之间存在直线回归关系。 三.10名氟作业工人在工作前后测定尿氟(mg/L)排出量结果如下: 编号 1 2 3 4 5 6 7 8 9 10 工前 1.7 1.6 1.4 2.3 1.9 0.8 1.4 2.0 1.6 1.1 工后 2.7 3.1 3.2 2.1 2.7 2.4 2.6 2.4 2.3 1.4 1.计算工后比工前尿氟排出量增加值的均数,标准差,标准误,变异系数和中位数。 均数0.91,标准差0.635,标准误 0.201,变异系数 69.78,中位数 0.900 2.检验氟作业工人在工作前后尿氟排出量的差异有无统计学意义。 H0:氟作业工人在工作前后尿氟排出量的差异无统计学意义。 H1:氟作业工人在工作前后尿氟排出量的差异有有统计学意义 统计量t=4.532 P=0.0014

医学统计学总结

医学统计学总结 一.绪论 1,医学统计学:运用概率论和数理统计学的原理和方法,研究医学领域中随机现象有关数据的搜集、整理、分析和推断,进而阐明其客观规律性的一门应用科学。 2,医学统计学的主要内容: 1)统计研究设计调查研究设计和实验研究设计 2)医学统计学的基本原理和方法研究设计和数据处理中的基本统计理论和方法。A:资料的搜集与整理 B:常用统计描述,集中趋势和离散趋势,相对数,相关系数,回归系数,统计表,统计图 C:统计推断,如参数估计和假设检验。 3)医学多元统计方法多元线性回归和逐步回归分析、判别分析、聚类分析、主成分分析、因子分析、logistic回归与Cox回归分析。 3,统计工作步骤: 1)设计明确研究目的和研究假说,确定观察对象与观察单位,样本含量和抽样方法,拟定研究方案,预期分析指标,误差控制措施,进度与费用。 2)搜集材料 A,搜集材料的原则及时、准确、完整 B,统计资料的来源医学领域的统计资料的来源主要有三个方面。一是统计报表,二是经常性工作记录,三是专题调查或专题实验。 C,资料贮存 3)整理资料 a检查核对b设计分组c拟定整理表d归表 4)分析资料统计分析包括统计描述和统计推断 4,同质(homogeneity):指被研究指标的影响因素相同。 变异(variation):同质基础上的各观察单位间的差异。 变量(variable):收集资料过程中,根据研究目的确定同质观察单位,再对每个观察单位的某 项特征进行测量或观察,这种特征称为变量 变量值:变量的观察结果或测量值。 5,总体(population)根据研究目的所确定的同质研究对象中所有观察单位某变量值的集合。总 体具有的基本特征是:同质性 样本(sample)从总体中随机抽取部分观察单位,其变量值的集合构成样本。样本必须具有代 表性。代表性是指样本来自同质总体,足够的样本含量和随机抽样的前提。 统计量(statistics)描述样本变量值特征的指标(样本率,样本均数,样本标准差)。

医学统计学知识点

实用标准 文档大全第一章绪论 1、统计学,是关于数据收集、整理、分析、表达和解释的普遍原理和方法。 2、研究对象:具有不确定性结果的事物。 3、统计学作用:能够透过偶然现象来探测其规律性,使研究结论具有科学性。 4、统计分析要点:正确选用统计分析方法,结合专业知识作出科学的结论。 5、医学统计学基本内容:统计设计、数据整理、统计描述、统计推断。 6、医学统计学中的基本概念 (1) 同质与变异 同质,指根据研究目的所确定的观察单位其性质应大致相同。 变异,指总体内的个体间存在的、绝对的差异。 统计学通过对变异的研究来探索事物。 (2) 变量与数据类型 变量,是反映实验或观察对象生理、生化、解剖等特征的指标。 变量的观测值,称为数据 分为三种类型:定量数据,也称计量资料,指对每个观察单位某个变量用测量或其他定量方法准确获得的定量结果。(如身高、体重、血压、温度等) 定性数据,也称计数资料,指将观察单位按某种属性分组计数的定性观察结果。包括二分类、无序多分类。(进一步分为二分类和多分类,如性别分为男和女,血型分为A、B、O、AB 等) 有序数据,也称半定量数据或等级资料,指将观察单位按某种属性的不同程度或次序分成等级后分组计数的观察结果,具有半定量性质。 统计方法的选用与数据类型有密切的关系。 (3)总体与样本 总体,指根据研究目的确定的所有同质观察单位的全体,包括所有定义范围内的个体变量值。 样本,是从研究总体中随机抽取部分有代表性的观察单位,对变量进行观测得到的数据。抽样,是从研究总体中随机抽取部分有代表性的观察单位。 参数,指描述总体特征的指标。 统计量,指描述样本特征的指标。 (4)误差 误差,指观测值与真实值、统计量与参数之间的差别。 可分为三种:系统误差,也称统计偏倚,是某种必然因素所致,不是偶然机遇造成的,误差的大小通常恒定,具有明确的方向性。 随机测量误差,是偶然机遇所致,误差没有固定的大小和方向。 抽样误差,是抽样引起的统计量与参数间的差异。 抽样误差主要来源于个体的变异。 统计学主要研究抽样误差。 (5)概率 概率,是描述某事件发生可能性大小的量度。 必然事件,事件肯定发生,概率P(U)=1; 随机事件,事件可能发生,可能不发生,概率介于0≤P(A)≤ 1; 不可能事件,事件肯定不发生,概率P(∮)=0; 小概率事件,事件发生的可能性很小,概率P(A)≤ 0.05、或P(A)≤ 0.01。

医学统计学分析计算题答案

第二单元计量资料的统计推断 分析计算题 2.1某地随机抽样调查了部分健康成人的红细胞数和血红蛋白量,结果见表 4: 表4某年某地健康成年人的红细胞数和血红蛋白含量 指标性另U例数均数标准差标准值* 红细胞数/1012L-1男360 4.660.58 4.84 女255 4.180.29 4.33 血红蛋白/g L-1男360134.57.1140.2 女255117.610.2124.7 请就上表资料: (1) 说明女性的红细胞数与血红蛋白的变异程度何者为大? (2) 分别计算男、女两项指标的抽样误差。 (3) 试估计该地健康成年男、女红细胞数的均数。 (4) 该地健康成年男、女血红蛋白含量有无差别? (5) 该地男、女两项血液指标是否均低于上表的标准值 (若测定方法相同)? 2.1 解: (1) 红细胞数和血红蛋白含量的分布一般为正态分布,但二者的单位不一致,应采用变异系数(CV)比较二者的变异程度。 S 0 29 女性红细胞数的变异系数CV = 100% —9 100% 6.94% X 4.18 女性血红蛋白含量的变异系数CV 2 100%竺2100% 8.67% X 117.6 由此可见,女性血红蛋白含量的变异程度较红细胞数的变异程度大。 (2) 抽样误差的大小用标准误S X来表示,由表4计算各项指标的标准误。 男性红细胞数的标准误S X -5-。竺0.031 (1012/L) J n 7360 5 7 1 男性血红蛋白含量的标准误S X丁丁一0.374 (g/L) J n V360

可视为大样本。 未知,但n 足够大,故总体均数的区间估计按 该地男性红细胞数总体均数的 95%可信区间为: (4.66— 1.96 0.031 , 4.66+ 1.96 E .031),即(4.60,4.72)1012/L 。 该地女性红细胞数总体均数的 95%可信区间为: (4.18— 1.96 0.018,4.18+ 1.96 0.018), 即(4.14,4.22)1012/L 。 (4)两成组大样本均数的比较,用 u 检验。 1) 建立检验假设,确定检验水准 H 0: 1 2 ,即该地健康成年男、女血红蛋白含量均数无差别 H 1: 1 2 ,即该地健康成年男、女血红蛋白含量均数有差别 0.05 2) 计算检验统计量 3) 确定P 值,作出统计推断 查t 界值表(尸呦寸)得PV0.001,按 0.05水准,拒绝H 。,接受H 1,差别 有统 计学意义,可以认为该地健康成年男、女的血红蛋白含量均数不同, 男性高 于女性。 (5)样本均数与已知总体均数的比较,因样本含量较大,均作近似 u 检验。 1)男性红细胞数与标准值的比较 ① 建立检验假设,确定检验水准 女性红细胞数的标准误S X S 0.29 ?、n .255 0.018(10 /L ) 女性血红蛋白含量的标准误 S X S 10.2 、、n . 255 0.639 (g/L ) (3)本题采用区间估计法估计男、 女红细胞数的均数。样本含量均超过100, (X u /2S X , X u /2S X )计算。 134.5 117.6 22.829 u X 1 X 2 2 2 7.1 10.2 360 255

《医学统计学》复习题

医学统计学复习题 一、名词解释 1.总体:根据研究目的确定的同质的观察单位的全体,更确切的说,是同质的所有观察单位某种观察值(变量值)的集合。总体可分为有限总体和无限总体。总体中的所有单位都能够标识者为有限总体,反之为无限总体。 2.样本:从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample)。样本应具有代表性。所谓有代表性的样本,是指用随机抽样方法获得的样本。 3.随机抽样:随机抽样(random sampling)是指按照随机化的原则(总体中每一个观察单位都有同等的机会被选入到样本中),从总体中抽取部分观察单位的过程。随机抽样是样本具有代表性的保证。 4.变异:在自然状态下,个体间测量结果的差异称为变异(variation)。变异是生物医学研究领域普遍存在的现象。严格的说,在自然状态下,任何两个患者或研究群体间都存在差异,其表现为各种生理测量值的参差不齐。 5.计量资料:对每个观察单位用定量的方法测定某项指标量的大小,所得的资料称为计量资料(measurement data)。计量资料亦称定量资料、测量资料。.其变量值是定量的,表现为数值大小,一般有度量衡单位。如某一患者的身高(cm)、体重(kg)、红细胞计数(1012/L)、脉搏(次/分)、血压(KPa)等。 6.计数资料:将观察单位按某种属性或类别分组,所得的观察单位数称为计数资料(count data)。计数资料亦称定性资料或分类资料。其观察值是定性的,表现为互不相容的类别或属性。如调查某地某时的男、女性人口数;治疗一批患者,其治疗效果为有效、无效的人数;调查一批少数民族居民的A、B、AB、O四种血型的人数等。 7.等级资料:将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察单位数,称为等级资料(ordinal data)。等级资料又称有序资料。如患者的治疗结果可分为治愈、好转、有效、无效、死亡,各种结果既是分类结果,又有顺序和等级差别,但这种差别却不能准确测量。 8.概率:概率(probability)又称几率,是度量某一随机事件A发生可能性大小的一个数值,记为P(A),P(A)越大,说明A事件发生的可能性越大。0﹤P(A)﹤1。 9.频率:在相同的条件下,独立重复做n次试验,事件A出现了m次,则比值m/n称为随机事件A在n次试验中出现的频率(freqency)。当试验重复很多次时P(A)= m/n。 10. 随机误差:随机误差(random error)又称偶然误差,是指排除了系统误差后尚存的误差。它受多种因素的影响,使观察值不按方向性和系统性而随机的变化。误差变量一般服从正态分布。随机误差可以通过统计处理来估计。 11.系统误差:是指由于仪器未校正、测量者感官的某种偏差、医生掌握疗效标准偏高或偏低等原因,使观察值不是分散在真值的两侧,而是有方向性、系统性或周期性地偏离真值。系统误差可以通过实验设计和完善技术措施来消除或使之减少。 12.参数:指总体的统计指标,如总体均数、总体率等。总体参数是固定的常数。多数情况下,总体参数是不易知道的,但可通过随机抽样抽取有代表性的样本,用算得的样本统

相关文档
最新文档