医学统计学知识点

医学统计学知识点
医学统计学知识点

第一章绪论

1、统计学,是关于数据收集、整理、分析、表达和解释的普遍原理和方法。

2、研究对象:具有不确定性结果的事物。

3、统计学作用:能够透过偶然现象来探测其规律性,使研究结论具有科学性。

4、统计分析要点:正确选用统计分析方法,结合专业知识作出科学的结论。

5、医学统计学基本内容:统计设计、数据整理、统计描述、统计推断。

6、医学统计学中的基本概念

(1) 同质与变异

同质,指根据研究目的所确定的观察单位其性质应大致相同。

变异,指总体内的个体间存在的、绝对的差异。

统计学通过对变异的研究来探索事物。

(2) 变量与数据类型

变量,是反映实验或观察对象生理、生化、解剖等特征的指标。

变量的观测值,称为数据

分为三种类型:定量数据,也称计量资料,指对每个观察单位某个变量用测量或其他定量方法准确获得的定量结果。(如身高、体重、血压、温度等)

定性数据,也称计数资料,指将观察单位按某种属性分组计数的定性观察结果。包括二分类、无序多分类。(进一步分为二分类和多分类,如性别分为男和女,血型分为A、B、O、AB等)

有序数据,也称半定量数据或等级资料,指将观察单位按某种属性的不同程度或次序分成等级后分组计数的观察结果,具有半定量性质。

统计方法的选用与数据类型有密切的关系。

(3)总体与样本

总体,指根据研究目的确定的所有同质观察单位的全体,包括所有定义范围内的个体变量值。

样本,是从研究总体中随机抽取部分有代表性的观察单位,对变量进行观测得到的数据。抽样,是从研究总体中随机抽取部分有代表性的观察单位。

参数,指描述总体特征的指标。

统计量,指描述样本特征的指标。

(4)误差

误差,指观测值与真实值、统计量与参数之间的差别。

可分为三种:系统误差,也称统计偏倚,是某种必然因素所致,不是偶然机遇造成的,误差的大小通常恒定,具有明确的方向性。

随机测量误差,是偶然机遇所致,误差没有固定的大小和方向。

抽样误差,是抽样引起的统计量与参数间的差异。

抽样误差主要来源于个体的变异。

统计学主要研究抽样误差。

(5)概率

概率,是描述某事件发生可能性大小的量度。

必然事件,事件肯定发生,概率P(U)=1;

随机事件,事件可能发生,可能不发生,概率介于0≤P(A)≤ 1;

不可能事件,事件肯定不发生,概率P(∮)=0;

小概率事件,事件发生的可能性很小,概率P(A)≤ 0.05、或P(A)≤ 0.01。

医学科研中,P(A)≤0.05作为事物差别有统计意义,P(A)≤ 0.01作为事物差别有高度统

计意义。

第二章定量数据的统计描述

定量数据的统计描述方法:频数表、直方图、统计指标。

(1)频数分布

频数分布的目的:了解数据的分布范围、集中位置以及分布形态等特征,以便根据资料分布情况选择合适的统计方法。

频数分布的用途:

①作为陈述资料的形式;

②便于观察数据的分布类型;

③便于发现数据中特大或特小的可疑值;

④当样本量大时,可用各组段的频率作为概率的估计值。

计算全距(range,R):是一组数据的最大值与最小值之差。R=Max-Min

确定组数与组距

样本量在100例左右,组数选择8~15之间,一般取10组左右。

组距≈全距/组数

确定组限

第一组段必须包括最小值,最后一组段必须包括最大值。

最后一组段包括最大值,且一般情况下应包含该组段上限,其余各组段区间左闭右开。

计算各组段频数(frequency):即计算各组段内观察值的个数。

计算各组段频率(percent):即计算各组段频数与总观察值个数之比,用百分数表示。

计算累计频数(cumulative frequency)和累计频率(cumulative percent):累计频数是由上至下将频数累加;累计频率是由上至下将频率累加。

(2)直方图

直方图,是以垂直条段代表频数分布的一种图形。

(3)频数分布表的用途

1、作为称述资料的形式,可以代替原始资料,便于进一步分析。

2、便于观察数据的分布类型。资料分布类型分为:对称分布和偏态分布。

在统计分析时常需要根据资料的分布形式选择相应的统计分析方法,因此对数据分布形式的判定非常重要。

3、便于发现资料中某些远离群体的特大或特小值。

4、当样本含量比较大时,可用各组段的频率作为概率的估计值。

集中趋势的统计指标

平均数,是描述一组观察值集中位置或平均水平的统计指标,常作为一组数据的代表值用于分析和进行组间的比较。

常用的有算术均数、几何均数、中位数、百分位数等。

算术均数,等于一个变量所有观察值的和除以观察值个数。

总体均数用希腊字母μ表示,样本均数用符号Χ拔表示。

算术均数适用于对称分布的资料,如分布均匀的小样本数据或近似正态分布的大样本数据。

算术均数易受极端值的影响,并且受极大值的影响大于受极小值的影响。

几何均数

几何均数(geometric mean,G),等于一个变量所有n个观察值的乘积的n次方根。

几何均数适用于取对数后近似呈对称分布的资料,尤其是右偏态分布数据。医学研究中常用于比例数据。

【注】计算几何均数的观察值不能小于或等于0,因为无法求对数。

中位数

中位数(median,M),是在按大小顺序排列的变量的所有观察值中,位于正中间的一个或两个数值。

当数据呈偏态分布、或频数分布两端无确定数值,均宜采用中位数描述集中趋势。

中位数的确定取决于它在数据序列中的位置,因此对极端值不敏感。

百分位数

百分位数(percentile),是一个位置指标,它将一组变量值排列后划分为若干相等部分的分割点数值。用Px表示,X用百分数表示。

表示在按照升序排列的数据中,其左侧(≤ Px )的观察值个数在整个样本中所占百分比为X %,其右侧(≥ Px )的观察值个数在整个样本中所占百分比为(100-X )%。

百分位数不论资料分布类型均可计算,在实际工作中常用于确定医学参考值范围;在假设检验中用作拒绝或不拒绝检验假设的界值。

百分位数并非由全部观察值综合计算得来,因此,它不如均数和标准差精确;然而中间部分的百分位数因不受资料中个别极端数据的影响,具有较好的稳定性。

变异程度的统计指标

变异指标,又称离散指标,用以描述一组计量资料各观察值之间参差不齐的程度。

变异指标越大,观察值之间差异愈大,说明变异程度越大;反之亦然。

常用的有极差、四分位数间距、方差、标准差和变异系数。

极差

极差(range,R),等于一个变量所有观察值中最大值与最小值之间的差值。

R =Max -Min

缺点:

①没有利用观察值的全部信息,不能反映其它数据的离散度;

②各样本含量大小悬殊时,不宜比较其极差;

③极差的抽样误差也较大,所以不够稳定。

极差仅适用于对未知分布的小样本资料作粗略的分析。

四分位数间距

四分位数,是统计学对特殊的三个百分位数P25% 、P50% 和P75%的统称

四分位数间距(quartile range,Q),等于第三四分位数与第一四分位数之间的差值。

Q =P75% -P25%

缺点:

①没有利用观察值的全部信息,不能反映其它数据的离散度;

四分位数间距仅用来描述大样本偏态资料的变异情况。

方差

方差(variance),是描述一个变量的所有观察值与总体均数的平均离散程度的指标。

总体方差用σ2表示,样本方差用S2表示。

标准差

标准差(standard deviation,S ),是描述一个变量的所有观察值与均数的平均离散程度的指标。

总体标准差用σ表示,样本标准差用S表示。

标准差

方差或标准差属同类变异指标,它们多用来描述均匀分布或近似正态分布的资料,大、小样本均可,其中以标准差的应用最广,通常与均数结合使用。比如在许多医学研究报告中常用X拔±S 的形式表达资料。

变异系数

变异系数(coefficient of variation,CV ),是一个度量相对离散程度的指标。

CV是无量纲的指标,可以用来比较几个量纲不同的指标变量之间的离散程度的差异,或比较量纲相同但均数相差悬殊的变量之间的离散程度的差异。

小结

第三章正态分布与医学参考值范围

正态分布,是一种连续型随机变量常见而重要的分布。

正态曲线,是一条高峰位于中央,两侧逐渐下降并完全对称,曲线两端永远不与横轴相交的钟型曲线。

如果随机变量X的分布服从概率密度函数和概率分布函数称连续型随机变量X服从正态分布,记为X~N (μ, σ2 )。

π为圆周率,

e为自然对数的底值,

σ为总体标准差,

μ为总体均数。

正态分布的特征

1、正态分布是单峰分布,以X =μ为中心,左右完全对称,正态曲线以X轴为渐近线,两端与X轴不相交。

2、正态曲线在X =μ 处有最大值,其值为f(μ)=1/(μ√2π) ;X越远离μ ,f(X)值越小,在X= μ± σ 处有拐点,呈现钟形。

3、正态分布完全由参数μ和σ决定。

μ是位置参数,决定正态曲线在X轴上的位置。在σ一定时,μ增大,曲线沿横轴向右移动;μ较小,曲线沿横轴向左移动。

σ是形状参数,决定正态曲线的分布形态。σ越大,曲线的形状越“矮胖”,表示数据分布越分散;σ越小,曲线的形状越“瘦高”,表示数据分布越集中。

正态曲线下面积分布规律

1、服从正态分布的随机变量在某一区间上的曲线下面积与其在同一区间上取值的概率相等。

2、曲线下的总面积为1或100%,以μ为中心左右两侧面积各占50%,越靠近μ 处曲线下面积越大,两边逐渐减少。

3、所有的正态曲线,在μ左右的任意个标准差范围内面积相同。

一些特殊情况,在μ±σ范围内的面积约为68.27%,在μ±1.96σ范围内的面积约为95.00%,在μ±2.58σ范围内的面积约为99.00%。

标准正态分布

对任意一个服从N (μ, σ2 )分布的随机变量X,经Z=X-μ/σ

变换都可以转为μ=0、σ=1的标准正态分布,也称随机变量的标准化变换。

标准正态分布的应用

实际应用中,经z变换可把求解任意一个正态分布曲线下面积的问题,转化成标准正态分布曲线下相应面积的问题。

正态分布的应用

1、制定医学参考值范围

2、质量控制

3、正态分布是很多统计方法的理论基础

医学参考值范围

医学参考值范围,指正常人的解剖、生理、生化、免疫及组织代谢产物的含量等各种数据的波动范围。

医学参考值范围,习惯上是包含95%的参照总体的范围。

制订的注意事项

a、抽取足够例数的同质“正常人”样本

★“正常人”的定义,样本量(n>120),随机化。

b、确定具有实际意义的统一测量标准

★指标的测量方法等要有规定,控制测量误差。

c、根据指标的性质确定是否要分组

★根据实际情况、专业知识。

d、根据指标含义决定单、双侧范围

★单侧下限,过低异常;单侧上限,过高异常;双侧,过高、过低均异常。

e、选择适当的百分范围

★绝大多数人,一般80%、90%、95%、99%;

★减少误诊,取较大范围;减少漏诊,取较小范围。

f、估计参考值范围

★根据资料分布类型:正态分布法、百分位数法。

第四章定性数据的统计描述

相对数,是两个有关的绝对数之比,也可以是两个统计指标之比。

计算相对数的意义主要是把基数化作相等,便于相互比较。

相对数主要用于定性资料的统计描述。

常用的指标有频率、构成比、相对比。

频率

频率(rate),表示在一定范围内某现象的发生数与可能发生的总数之比,说明某现象出现的频率或概率。

总体率用π来表示,样本率用P来表示。

需要注意的是,率在更多情况下是一个具有时间概念的指标,即用于说明在一段时间内某现象发生的强度或频率。

构成比

构成比,表示某事物内部各组成部分在整体中所占的比重。

构成比之和应为100%,某一构成部分的增减会影响其他构成部分相应的减少或增加;而某一部分率的变化并不影响其他部分率的变化,且其平均率不能简单地将各率相加后平均求得。

相对比

相对比,是A、B两个有关联指标之比,用以描述两者的对比水平。

相对危险度(relative risk,RR),用于流行病学中队列研究资料。

比数比(odds ratio,OR),用于流行病学中病例对照研究资料。

小结

构成比表示某事物内部各部分所占的比例或比重,频率是表明某现象发生的频率或概率。构成比的分子中的个体一定是分母中的一部分,而相对比则不一定;构成比是同一类事物的数值之比,相对比可以是任意两个数值之比。

相对数的使用注意

a、区别构成比和频率

★频率,强度相对数;构成比,结构相对数。

b、使用相对数时分母不宜过小

★如分母太小,用绝对数表示,如“3例中死亡1例”。

c、注意相对数的可比性

★研究对象要同质,方法要相同,观察时期要一致等。

d、考虑存在抽样误差

★对总体进行推断应作统计学检验。

率的标准化

标准化率,是为了在比较两个不同人群的患病率、发病率、死亡率等资料时,消除内部构成(如年龄、性别、工龄、病程长短等)不同而不能直接比较所产生的影响。

标准化率仅用于相互比较,不代表实际水平;当标准构成不同时,标准化率一般也不相同。

标准构成的选取

★从外部取一个公认的标准构成比,如全国范围或全省范围的数据、国际间比较时取世界通用标准。

★将几个组的观察例数合并,计算出合并的构成比,以其作为标准构成比。

★取某一个组的构成比为标准构成比。

医学中常用相对数指标

死亡率,又称粗死亡率,表示某年某地每千人中的死亡人数。反映当地居民总体死亡水平。

对不同地区的死亡率进行比较时,应注意不同地区人口年龄或性别构成的影响。若年龄或性别构成存在差异,需先将死亡率标化后再进行比较。

年龄别死亡率,表示某年某地某年龄组每千人口中的死亡数。

死因别死亡率,表示某年某地每10万人中因某种疾病死亡的人数。反映各类病伤死亡对居民生命的危害程度。

死亡(因)构成,也称相对死亡比,表示全部死亡人数中,死于某死因者占总死亡数的百分比。反映各种死因的相对重要性。

疾病统计指标

发病率,表示在一定期间内,一定人群中某病新发生的病例出现的频率。反映疾病对人群健康影响和描述疾病分布状态的一项测量指标。

患病率,也称现患率,表示某一时点某人群中患某病的频率。反映病程较长的慢性病的发生或流行情况。

病死率,表示某期间内,某病患者中因某病死亡的频率。反映该疾病的严重程度和医疗水平。

治愈率,表示接受治疗的病人中治愈的频率。

第五章统计表与统计图

统计表,把反映某事物的数量特征以及相互关系的统计数字用表格的形式归纳起来。

特点:

①避免冗长的文字叙述、减少篇幅;

②便于表达事物间的内在联系和区别;

③便于分析、比较并易于发现和纠正错误。

编制原则

a、重点突出,简单明了

★一张表表达一个中心内容或主题。

b、主谓分明,层次清楚

★定语在标题内,主语作为横标目,谓语作为纵标目。

c、数据表达规范、文字和线条从简

结构

a、标题

★位于统计表的最上部,应包括表的编号。

b、标目

★纵标目标示相应一列(或数列)的内容;横标目标示相应行的内容。

c、线条

★不宜太多,一般为三线表;

★不允许使用竖线与斜线。

★一律使用阿拉伯数字;

★同一指标的小数位数应一致,位次要对齐;

★数值为零时应写“0”,缺省用“…”表示,不存在或不需要用“—”表示。

e、备注

★不是统计表的必须项目,需要时才用;

★位于统计表的最下部,表格之外,用“*”号标出。

统计图

统计图,是指用几何图形(点、线段、直条等)显示统计指标的大小、对比关系或变化趋势。

特点:与统计表相比,统计图更加直观,更便于比较和分析。但它不能确切地显示数字大小,因此常与统计表一并使用。

常用的统计图有:条图、圆图、百分条图、线图、直方图等。

制作原则

a、根据资料性质、分析目的选用适当的统计图

b、一个图表达一个中心内容或主题。

c、图形应准确、美观。

结构

a、标题

★位于统计图的下方,应包括图的编号。

b、图域

★一般用直角坐标系第一象限的位置表示图域。

c、标目

★纵标目和横标目,表示纵轴和横轴数字刻度;

★一般有度量衡单位。

d、图例

★对图中不同颜色或图案代表的指标进行注释;

★图例放在横标目与标题之间,或放在图域中。

e、刻度

★刻度数值从小到大,纵轴由下向上,横轴由左向右。

描述定量数据的统计图

直方图,用于表示连续变量频数分布情况。

线图,适用于描述一个变量随另一个变量变化的趋势。

半对数线图,用来比较事物之间相对的变化速度。

箱图,适用于比较多组资料的集中趋势和离散趋势。一般选用五个描述统计量(Min、P25、M、P75、Max)来绘制。

误差条图,适用于比较多组资料的均值和可信区间。

散点图,用点的密集程度和变化趋势来表示两指标之间的直线或曲线关系。

条图,适用于各组资料之间指标的比较。

圆图,描述一组构成比资料。

百分条图,描述多组构成比资料

第六章参数估计

抽样误差:由个体差异和抽样造成的样本统计量与总体参数的差异。

包括:样本统计量与总体参数间的差异,样本统计量间的差异。

具有如下特点:1、各样本均数未必等于总体均数;

2、各样本均数间存在差异;

3、样本均数的分布围绕着总体均数呈现中间多、两边少、左右基本对称,近似服从正态分布;

4、样本均数的变异范围较之原变量的变异范围小;

5、随着样本含量的增大,样本均数的变异范围逐渐缩小。

均数的标准误

标准误(standard error ,SE),指样本统计量的标准差。

均数的标准误(standard error of mean,SEM),指样本均数的标准误。它反映样本均数间的离散程度,反映样本均数与相应总体均数间的差异,说明了均数抽样误差的大小。

在n一定的情况下,标准误与标准差呈正比,说明当总体中各观测值变异较小时,抽到的X拔与μ可能相差较小,X拔用估计μ的可靠程度高;反之,当总体中各观测值变异较大时,可靠程度较低。

标准误与样本含量的平方根呈反比,说明在同一总体中随机抽样,n越大,标准误越小。

率的抽样误差

率的标准误(standard error of rate,SER),指样本率的标准误。它反映样本率间的离散程度,反映样本率与相应总体率间的差异,说明了率抽样误差的大小。

总体率标准误用σp 表示,样本率标准误用Sp 表示。

总体均数的估计

概述

点估计(point estimation),是用样本统计量直接作为其总体参数的估计值。

区间估计(interval estimation),是按预先给定的概率(1-α)所确定的包含未知总体参数的一个范围。

点估计:优点:表达简单缺点:未考虑抽样误差,无法评价参数估计的准确程度

可信区间

在区间估计中,预先给定的概率(1-α) ,称为可信度(confidence level ),常取95% 或99% 。

通过可信度,计算得到的区间范围,称为可信区间(confidence interval ,CI )。

可信区间由两个数值界定的可信限(confidence limit ,CL )构成,较小的数值为下限(lower limit ,L ),较大的数值为上限(upper limit ,U ),一般表示为L~U 。可信度为95%可信区间的涵义:若重复100次样本含量相同的抽样,每个样本均按同一方法构建95%可信区间,则理论上平均有95个可信区间包含了总体均数,只有5个可信区间未包含。

可信区间估计的优劣:准确性,反映可信度1-α的大小,其值越接近1越好。

精确性,用可信区间的宽度CU-CL衡量,宽度越小越好。

t分布

t分布:主要用于总体均数的区间估计和t检验等。

ν为自由度(degree of freedom,df ),指能够自由取值的变量个数。

t 分布的特点:1、t 分布图是一簇曲线,曲线的形态变化与自由度有关。

2、随ν的增大,曲线越来越接近标准正态分布曲线;

3、当ν→∞时,t 分布的极限分布就是标准正态分布。

4、t分布的密度曲线下面积有一定的规律性。

在 t 界值表中,横标目为自由度,纵标目为尾部概率。一侧尾部面积称为单侧概率

( one-tailed probability ),两侧尾部面积之和称为双侧概率( two-tailed probability )。 从t 界值表中看出:在相同自由度时,│t│值越大,概率P 越小。

小 结

估计绝大多数观察对象某

项指标的分布范围

估计总体均数 用途 n 越大,参考值范围越稳定

n 越大,CI 越小;n→∞,CI→0 样本量 的作用

正态分布: ±z α/2S (双侧)

偏态分布:P x ~ P 100-x

(双侧) σ未知:

σ已知或σ未知但n>60: 计算 公式 参考值范围

总体均数的可信区间 区别点

两总体均数差值的区间估计

在实际工作中,常常需要估计两总体均数之差μ1-μ2的大小,需估计两总体均数差值的可

信区间。

总体率的区间估计

小样本率的区间估计:

在样本例数较小,且样本率接近1或0时,利用二项分布可估计其总体率的(1-α)可信区间。当n≤50,样本例数n和阳性例数X≤n/2时,直接查表得到95%和99%可信区间。

当阳性例数X>n/2时,用n-X查表,获得总体阴性率可信区间,再用1减去总体阴性率可

信区间,既为总体阳性率可信区间。

大样本率的区间估计

在样本例数较大,且p和1-p均不太小,如np与n(1-p)均大于5时,样本率p的抽样分布近似正态分布,可按正态分布近似法求总体率的(1-α)可信区间。

两总体率差值的区间估计

设两样本率分别为p1和p2,当n1与n2均较大,且p1 ,1-p1及p2 ,1-p2均不太小,如n1 p1 、n1(1-p1) 、n2 p2 、n2(1-p2)均大于5时,可采用正态近似法对两总体率

差值进行可信区间估计。

第七章假设检验

假设检验(hypothesis testing )也称显著性检验(significance test ),是用来判断样本与

样本,样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。

假设检验的基本思想

反证法思想:先提出假设,再用适当的统计方法确定假设成立的可能性大小,如可能性

小,则认为假设不成立。

小概率事件:是指在一次试验中基本上不大会发生的事件。

假设检验的基本步骤

a、建立假设

无效假设(null hypothesis),记为H0,指需要检验的假设,即μ1=μ2。

b、确定检验水准

检验水准(level of a test )也称为显著性水准(significance level ),是预先规定的判断小概率事件的概率尺度,记为α 。实际中一般取α=0.05 或α=0.01 。

c、选择检验方法,计算统计量

根据资料类型、研究设计方案和统计推断的目的,选择适当的检验方法和计算公式。

如:t 检验、u 检验、F 检验、χ2检验。

c、确定P 值,作出统计推断结论

P 值(probability value),指由H0所规定的总体做重复随机抽样,获得等于及大于当前检验统计量的概率。

确定P 值的方法:

依据检验统计量的自由度、检验水准,查检验统计量对应的界值表,通过检验界值,得到

与检验统计量相对应的P 值范围。如:u0.05/2=1.96对应的P 值为0.05。

d、确定P 值,作出统计推断结论

假设检验规定:如果一次试验结果

?P≤α,拒绝H0 ,结论为“差别有统计学意义”。

?P≥α,不拒绝H0 ,结论为“差别没有统计学意义”。

P 值的习惯表述:

P >0.05称“不显著”(not significant);

P ≤0.05称“显著”(significant);

P ≤0.01称“非常显著”(highly significant)。

假设检验中两类错误

假设检验是利用小概率反证法思想,从问题的对立面(H0)出发间接判断要解决的问题(H1)是否成立,然后在假定H0成立的条件下计算检验统计量,最后根据P值判断结果,此推断结论具有概率性,因而无论拒绝还是不拒绝H0,都可能犯错误。

检验效能(power of test ),指当两总体确有差别,按α 水准,假设检验能发现其差别

的能力。记为1- β 。

α愈小,β愈大;α愈大,β愈小。若要同时减小Ⅰ型错误和Ⅱ型错误,唯一方法是增加样

本量。

第七章

单样本t 检验(one sample t-test),适用于样本均X拔与已知均数μ0 的比较,目的是检验样本均数μ0所代表的未知总体均数μ 是否与已知总体均数μ0 有差别。

已知总体均数μ0一般指理论值、标准值或经过大量观察所得到的稳定值。

配对样本均数t 检验(paired t-test),适用于配对设计的计量资料两相关样本均数的比较,目的是检验两相关样本均数所代表的未知总体均数是否有差别。

配对设计(paired design),是将受试对象按某些重要特征相近的原则配成对子,每对中的

两个个体随机地给予两种处理。

配对设计处理分配方式:

?将同一受试对象处理前后的结果进行比较;

?同一受试对象随机分配接受不同处理;

?同一标本的两个部位测试同一指标;

?两个同质受试对象分别接受两种处理。

两独立样本均数t检验(two independent samples t-test),适用于完全随机设计两独立样本均数的比较,目的是检验两独立样本均数所代表的未知总体均数是否有差别。

完全随机设计(completely random design):从某研究总体随机抽取一定数量的研究对象,将其随机分配到两组,接受不同的处理后,测量某指标后进行组间比较。

两独立样本均数t检验要求两样本所代表的总体方差相等,即方差齐性注意事项:

a、假设检验结论正确的前提

★作假设检验用的样本资料,必须能代表相应的总体,各对比组具有良好的组间均衡性。

b、检验方法的选用及其适用条件

★根据分析目的、研究设计、资料类型、样本量大小等选用适当的检验方法。

c、双侧检验与单侧检验的选择

★根据研究目的和专业知识予以选择,一般选用双侧检验。

d、假设检验的结论不能绝对化

★列出概率的确切数值或给出范围,注明采用单侧检验还是双侧检验。

e、正确理解P值的统计意义

第八章方差分析

方差分析,能用于两个或两个以上样本均数的比较,还可分析两个或多个研究因素的交互作用以及线性回归方程的假设检验等。

基本思想是:分析变异,也就是分解变异,即将数据总的变异分解为处理因素引起的变异和随机误差引起的变异,通过对两者进行比较作出处理因素有无作用的统计推断。

应用条件

?各组样本是相互独立的随机样本

?各组样本都来自正态总体。

?各组总体方差相等,即方差齐性。

完全随机设计的方差分析

完全随机设计,是按一个处理因素随机分组,统计分析处理因素各个水平组间均数差别有无统计学意义。

a、变异的分解

b、自由度分解

c、估计方差(均方)

d、F统计量的计算

e、F分布及确定P值

随机区组设计的方差分析

随机区组设计(randomized block design),是先按对试验结果有影响的非研究因素将受试对象配成若干个区组,再分别将各区组内的受试对象随机分配到处理水平不同的各个组。

多个样本均数的两两比较

经方差分析,若各组的均数差别无统计学意义,则不需要作进一步的统计处理,但是当方差分析结果为P<α时,只说明各组总体均数不相同或不全相同,不能说明各组总体均数间有差别。

如果要分析哪两组间均数有差别,需进行多组均数间的多重比较。

多个样本均数两两比较方法选择策略

第九章卡方检验

方差齐性检验的作用:Bartlett检验法主要适用于正态分布资料的方差齐性检验问题。

卡方检验常用于推断两个总体率(或构成比)之间有无差别。

χ2值反映了实际频数与理论频数的吻合程度。

若假设成立,实际频数与理论频数的差值较小,χ2值也较小;

若假设不成立,实际频数与理论频数的差值较大,χ2值也较大。

配对四格表资料的卡方检验

计数资料的配对设计常用于两种检验方法、培养方法、诊断方法的比较。

特点是对样本中各观察单位分别用两种方法处理,然后观察两种处理方法的某两分类变量的计数结果

R×C列联表资料的卡方检验

用于多个样本率的比较、两个或多个构成比的比较。

基本数据为:

⑴多个样本率比较时,有R行2列;

⑵两个样本构成比比较时,有2行C列;

⑶多个样本构成比比较时,有R行C列。

采用Bonferroni法进行多个样本率的两两比较,步骤如下:①对需要比较的行×列表资料进行χ2分割,变成多个四格表;②对每个四格表进行χ2检验;③采用(α‘=α/比较次数)计算调整的水准,其中α为事先确定的水准;④以α‘调整作为检验检验水准,作出结论。

R×C列表表χ2检验注意事项:

①若有1/5以上的格子出现1≤T<5,则

②增大样本含量,以达到增大理论频数的目的;

③结合专业,删去理论频数太小的格子对应的行或列;

④结合专业,将理论频数太小的行或列与性质相近的行或列合并;

⑤用双向无序R×C表资料的Fisher确切概率法。

b、多个样本率比较,若统计推断为拒绝H0 ,接受H1 ,只能认为各总体率或构成比之间总的来说有差别。若要进一步了解哪两者之间有差别,可用卡方分割法,或者调整检验水准。

c、对于单向有序的R×C表资料,在比较各处理组的效应有无差别时,应该用秩和检验。

第十章非参数秩和检验

参数检验,是基于随机样本来自某已知分布的总体,推断两个或两个以上总体参数是否相同的方法。常用的方法有:t检验、方差分析。

特点主要有:

①对总体参数进行估计或检验是主要目的;

②要求总体分布已知;

③统计量有明确的理论依据;

④有严格的使用条件,要求总体分布符合正态分布、总体方差齐性、数据间相互独立。

非参数检验(nonparametric test),是在不考虑总体参数和分布类型的情况下,对总体的参数和分布位置进行检验的方法。常用的方法有:秩和检验、符号检验。

特点主要有:

①适用范围广,可应用于总体分布类型未知的计量资料、偏态分布的资料、等级资料、不满足参数检验条件的资料等;

②受限条件少,更适合一般情况;

③具有较好的稳健性;

④方法简便,易于理解和掌握。

秩和检验(rank sum test),是基于秩次的假设检验方法,属非参数检验范畴。

秩次(rank),是将数值变量值从小到大,或等级变量值从弱到强所排列的序号。

秩和(sum of ranks),是用秩次号代替原始数据后,所得某些秩次号之和。

配对设计资料的符号秩和检验

基本思想:假定两种处理效应相同,则差值的总体分布对称,总体中位数为0,也就是说样本的正负秩和绝对值应相近;

若两种处理效应不相同,则差值的总体中位数不为0,中位数偏离0越明显,样本的正负秩和绝对值就会相差越大,原假设H0成立的可能性越小。

第十五章实验设计与临床试验设计

实验设计(experimental design),是指研究者根据研究目的和条件,结合统计学要求,合理安排各种实验因素,严格控制实验误差,最大限度地获得丰富而可靠的数据。

包括:动物实验、临床试验

实验设计三要素:处理因素、研究对象、实验效应。

处理因素一般是主动施加的某种外部干预或措施。

非处理因素(confounding factor),除处理因素外能使研究对象产生效应的因素,混杂在处理因素中间。

确定处理因素时,要注意:

a、处理因素要标准化

b、明确处理因素和非处理因素

研究对象:是指根据研究目的而确定的观察总体。

a、应具有明确的纳入标准和排除标准

b、选择对处理因素敏感性强的研究对象

c、选择依从性好的患者作为研究对象

d、注意医学伦理学问题

实验效应:是处理因素作用于研究对象产生的反应和结果。

a、主观指标和客观指标

b、选择灵敏度和特异度高的指标

c、观察指标的准确度和精密度

实验设计三原则:对照原则、随机化原则、重复原则。

对照原则:在实验中应设立对照组,其目的是通过与对照组效应对比鉴别出实验组的效应大小。

1、空白对照

2、安慰剂对照

3、标准对照

4、实验对照

5、自身对照

6、相互对照

7、历史对照

随机化原则:是指每个受试对象有相同的概率或机会被分配到不同的处理组。

随机化的目的:是使各组非实验因素的条件均衡一致,以消除对实验结果的影响。

随机化的方法:简单随机化、区组随机化、分层随机化、分层区组随机化等。

重复原则:是指在相同实验条件下重复进行多次观察,是消除非处理因素影响的又一重要方法。

临床试验的特点:a、临床试验的分期b、主要指标的确定c、设立合理的对照d、对照的实施e、意向性分析的原则

临床试验的设计类型:平行组设计、交叉设计、析因设计。

平行组设计:指将受试者随机地分配到试验的各组,各组同时进行试验。

交叉设计:指每个受试者随机地在两个或多个不同试验阶段分别接受指定的处理。

析因设计:指通过不同因素不同水平的组合,对两个或多个处理及其交互作用同时进行评价。

临床试验的比较类型:优效性试验、非劣效性试验、等效性试验。

优效性试验:研究目的是显示所研究的药物反应优于对比制剂(阳性或安慰剂对照)的

试验。

非劣效性试验:研究目的是显示所试验药的反应,在临床意义上不差于(非劣于)对照药的试验。

等效性试验:研究目的是要显示两种或多种处理的反应间差异的大小,在临床上并无重要性的试验。

影响样本量的条件:

1、假设检验的Ⅰ类错误概率α的大小

概率α越小,样本量越大

2、假设检验的Ⅱ类错误概率β的大小

概率β越小,样本量越大

3、总体间差值δ的大小

差值δ越小,样本量越大

4、总体变异性的大小

总体标准差σ越大,或总体率π越接近50%,样本量越大

5、临床试验高优指标Δ的大小

优效性研究,选取的Δ越大,样本量越大;等效性研究和非劣性研究,选取的Δ越小,样本量越大。

医学统计知识点整理(1)

医学统计学知识点整理 第一节统计学中基本概念 一、同质与变异 同质:统计研究中,给观察单位规定一些相同的因素情况。 如儿童的生长发育,规定同性别、同年龄、健康的儿童即为同质的儿童。 变异:同质的基础上个体间的差异。 “同质”是相对的,是客观事物在特定条件下的相对一致性,而“变异”则是绝对的 二、总体与样本 1、总体:是根据研究目的所确定的,同质观察对象(个体)所构成的全体。 2、样本:是从总体中随机抽取的部分观察单位变量值的集合。 三、参数与统计量 总体参数:根据总体个体值统计计算出来的描述总体的特征量。用希腊字母表示。μ.δ.π 样本统计量:根据样本个体值统计计算出来的描述样本的特征量。用拉丁字母表示。X.S.p 总体参数一般是不知道的,抽样研究的目的就是用样本统计量来推断总体参数,包括区间估计和假设检验 四、误差:实测值与真值之差★ 1.随机误差:是一类不恒定的、随机变化的误差,由多种尚无法控制的因素引起。随机测量误差、抽样误差。 2.系统误差:是一类恒定不变或遵循一定变化规律的误差,其产生原因往往是可知的或可能掌握的。 3.非系统误差:过失误差,可以避免或清除。 五、概率 是用来描述事件发生可能性大小的一个量值,常用P表示。概率取值0~1。 统计上一般将P≤0.05或P≤0.01的事件称为小概率事件,表示其发生的概率很小,可以认为在一次抽样中不会发生。 第二节统计资料的类型★

变量:确定总体之后,研究者应对每个观察单位的某项特征进行观察或测量,这种特征能表现观察单位的变异性,称为变量。 一、数值变量资料 又称为计量资料、定量资料:观测每个观察单位某项指标的大小而获得的资料。表现为数值大小,带有度、量、衡单位。如身高(cm)、体重(kg)、血红蛋白(g)等。 二、无序分类变量资料 又称为定性资料或计数资料:将观察对象按观察对象的某种类别或属性进行分组计数,分组汇总各组观察单位后得到的资料。 分类:二分类:+ -;有效,无效;多分类:ABO血型系统 特点:没有度量衡单位,多为间断性资料 【例题单选】某地A、B、O、AB血型人数分布的数据资料是( ) A.定量资料 B.计量资料 C.计数资料 D.等级资料 【答案】C 【解析】ABO血型系统人数分布资料属于无序分类变量资料,又称为计数资料。因为是按照变量的血型分类,血型表现为互不相容的属性。所以本题选C。 【例题单选】测量正常人的脉搏数所得的变量是() A.二分类变量 B.多分类变量 C.定量变量 D.定性变量 【答案】C 【解析】脉搏数有数值大小,有度量衡,所以这个资料属于定量资料。本题选C。 三、有序分类变量资料 半定量资料或等级资料:将观察对象按观察对象的某种属性的不同程度分成等级后分组计数,分组汇总各组观察单位后得到的资料。 特点:每一个观察单位没有确切值,各组之间有性质上的差别或程度上的不同举例:- + ++ +++ 第三节统计工作的基本步骤★ 1.统计设计 2.收集资料

医学统计学知识点范文.doc

第一章绪论 1、统计学,是关于数据收集、整理、分析、表达和解释的普遍原理和方法。 2、研究对象:具有不确定性结果的事物。 3、统计学作用:能够透过偶然现象来探测其规律性,使研究结论具有科学性。 4、统计分析要点:正确选用统计分析方法,结合专业知识作出科学的结论。 5、医学统计学基本内容:统计设计、数据整理、统计描述、统计推断。 6、医学统计学中的基本概念 (1) 同质与变异 同质,指根据研究目的所确定的观察单位其性质应大致相同。 变异,指总体内的个体间存在的、绝对的差异。 统计学通过对变异的研究来探索事物。 (2) 变量与数据类型 变量,是反映实验或观察对象生理、生化、解剖等特征的指标。 变量的观测值,称为数据 分为三种类型:定量数据,也称计量资料,指对每个观察单位某个变量用测量或其他定量方法准确获得的定量结果。(如身高、体重、血压、温度等) 定性数据,也称计数资料,指将观察单位按某种属性分组计数的定性观察结果。包括二分类、无序多分类。(进一步分为二分类和多分类,如性别分为男和女,血型分为A、B、O、AB等) 有序数据,也称半定量数据或等级资料,指将观察单位按某种属性的不同程度或次序分成等级后分组计数的观察结果,具有半定量性质。 统计方法的选用与数据类型有密切的关系。 (3)总体与样本 总体,指根据研究目的确定的所有同质观察单位的全体,包括所有定义范围内的个体变量值。 样本,是从研究总体中随机抽取部分有代表性的观察单位,对变量进行观测得到的数据。抽样,是从研究总体中随机抽取部分有代表性的观察单位。 参数,指描述总体特征的指标。 统计量,指描述样本特征的指标。 (4)误差 误差,指观测值与真实值、统计量与参数之间的差别。 可分为三种:系统误差,也称统计偏倚,是某种必然因素所致,不是偶然机遇造成的,误差的大小通常恒定,具有明确的方向性。 随机测量误差,是偶然机遇所致,误差没有固定的大小和方向。 抽样误差,是抽样引起的统计量与参数间的差异。 抽样误差主要来源于个体的变异。 统计学主要研究抽样误差。 (5)概率 概率,是描述某事件发生可能性大小的量度。 必然事件,事件肯定发生,概率P(U)=1; 随机事件,事件可能发生,可能不发生,概率介于0≤P(A)≤ 1; 不可能事件,事件肯定不发生,概率P(∮)=0; 小概率事件,事件发生的可能性很小,概率P(A)≤ 0.05、或P(A)≤ 0.01。 医学科研中,P(A)≤0.05作为事物差别有统计意义,P(A)≤ 0.01作为事物差别有高度统

医学统计学总结

医学统计学总结 一、绪论 1,医学统计学:运用概率论与数理统计学得原理与方法,研究医学领域中随机现象有关数据得搜集、整理、分析与推断,进而阐明其客观规律性得一门应用科学。 2,医学统计学得主要内容: 1) 统计研究设计调查研究设计与实验研究设计 2) 医学统计学得基本原理与方法研究设计与数据处理中得基本统计理论与方法。A:资料得搜集与整 理 B:常用统计描述,集中趋势与离散趋势,相对数,相关系数,回归系数,统计表,统计图 C:统计推断,如参数估计与假设检验。 3)医学多元统计方法多元线性回归与逐步回归分析、判别分析、聚类分析、主成分分析、因子分析、 logistic回归与Cox回归分析。 3,统计工作步骤: 1) 设计明确研究目得与研究假说,确定观察对象与观察单位,样本含量与抽样方法,拟定研究方案,预 期分析指标,误差控制措施,进度与费用。 2) 搜集材料 A, 搜集材料得原则及时、准确、完整 B, 统计资料得来源医学领域得统计资料得来源主要有三个方面。一就是统计报表,二就是经常性工作记录,三就是专题调查或专题实验。 C, 资料贮存 3) 整理资料 a检查核对b设计分组c拟定整理表d归表 4) 分析资料统计分析包括统计描述与统计推断 4,同质(homogeneity):指被研究指标得影响因素相同。 变异(variation):同质基础上得各观察单位间得差异。 变量(variable):收集资料过程中,根据研究目得确定同质观察单位,再对每个观察单位得某项 特征进行测量或观察,这种特征称为变量 变量值:变量得观察结果或测量值。 5,总体(population) 根据研究目得所确定得同质研究对象中所有观察单位某变量值得集合。总体 具有得基本特征就是:同质性 样本(sample) 从总体中随机抽取部分观察单位,其变量值得集合构成样本。样本必须具有代表 性。代表性就是指样本来自同质总体,足够得样本含量与随机抽样得前提。 统计量(statistics)描述样本变量值特征得指标(样本率,样本均数,样本标准差)。 参数(parameter)描述总体变量值特征得指标(总体率,标准差,总体均数)。

医学统计学章节重点归纳

医学统计学章节重点归纳 第一节概述 1、主要内容:a、卫生统计学的基本原理和方法(研究设计和数据处理中的统计理论和方法)b、健康统计(医 学人口统计、疾病统计和生长发育统计)c、卫生服务统计(卫生资源、医疗卫生服务的需求和利用、医疗保健制度和管理中的统计问题)。 2、 卫生统计工作的步骤:设计、资料的搜集、资料的整理、资料的分析 3、医学统计资料主要四个方面:统计报表、报告卡(单)、日常医疗卫生工作记录,专题研究或实验。 4、观察单位:是获得数据的最小单位,观察单位是根据研究目的确定的,观察单位可以是人、标本、家庭、国 家等。 5、变异:是指客观事物的多样性和不确定性。 6、变量: 观察单位的某种特征,称为变量。a、数值变量(定量变量)b、分类变量(定型变量或字符变量)。 7、总体:根据研究目的所确定的同质研究对象的全体。确切的说是性质相同的所有观察单位的某种变量的集合。 8、样本:从总体中随机抽取部分观察单位,其变量值就构成样本,通过样本信息来推断总体特征。 9、概率:事件发生的可能性大小的量度,通常以符号P表示。 10、误差:测量值与真值之差或样本指标和总体指标之差。分为随机误差和系统误差。 第二节数值资料的统计描述 1、频数分布就是观察值在所取得范围内分布的情况。重要特征:集中趋势和离散趋势。 2、频数分布类型:正态分布型频数、正偏态分布型频数,负偏态分布型频数。 3、集中趋势指标:算术平均数(均数)、几何均数、中位数。 指标使用条件计算公式 算术平均数适用于正态或近似正态分布 的数值变量资料 几何均数①对数正态分布,即数据经 过对数变换后呈正态分布的 资料;②等比级数资料,即 观察值之间呈倍数或近似倍 数变化的资料。 中位数①非正态分布资料(对数正 态分布除外);②频数分布 的一端或两端无确切数据的 资料③总体分布不清楚的资 料。为奇数 , 为偶数, 4、离散型趋势指标:极差、标准差和变异系数 指标计算公式主要优缺点 极差R=Xmax-Xmin 计算简单,便于理解;只考虑最大值与最小值之差异,不能反映 组内其它观察值的变异度,不稳定,受样本量影响很大。

(完整版)医学统计学第六版课后答案

第一章绪论 一、单项选择题 答案 1. D 2. E 3. D 4. B 5. A 6. D 7. A 8. C 9. E 10. D 二、简答题 1答由样本数据获得的结果,需要对其进行统计描述和统计推断,统计描述可以使数据更容易理解,统计推断则可以使用概率的方式给出结论,两者的重要作用在于能够透过偶然现象来探测具有变异性的医学规律,使研究结论具有科学性。 2答医学统计学的基本内容包括统计设计、数据整理、统计描述和统计推断。统计设计能够提高研究效率,并使结果更加准确和可靠,数据整理主要是对数据进行归类,检查数据质量,以及是否符合特定的统计分析方法要求等。统计描述用来描述及总结数据的重要特征,统计推断指由样本数据的特征推断总体特征的方法,包括参数估计和假设检验。 3答统计描述结果的表达方式主要是通过统计指标、统计表和统计图,统计推断主要是计算参数估计的可信区间、假设检验的P 值得出相互比较是否有差别的结论。 4答统计量是描述样本特征的指标,由样本数据计算得到,参数是描述总体分布特征的指标可由“全体”数据算出。 5答系统误差、随机测量误差、抽样误差。系统误差由一些固定因素产生,随机测量误差是生物体的自然变异和各种不可预知因素产生的误差,抽样误差是由于抽样而引起的样本统计量与总体参数间的差异。 6答三个总体一是“心肌梗死患者”所属的总体二是接受尿激酶原治疗患者所属的总体三是接受瑞替普酶治疗患者所在的总体。 第二章定量数据的统计描述 一、单项选择题 答案 1. A 2. B 3. E 4. B 5. A 6. E 7. E 8. D 9. B 10. E 二、计算与分析 2

医学统计学知识点总结

医学统计学 1. 对定量资料进行统计描述时,如何选择适宜的指标 定量资料统计描述常用的统计指标及其适用场合描述内容指 标 意义适用场合 平均水平;均 数 个体的平均值· 对称分布 几何均数平均倍数取对数后对称分布 中位数[ 位次居中的观察值 ①非对称分布;②半定量资料;③末端开 口资料;④分布不明 众 数 频数最多的观察值不拘分布形式,概略分析 ? 调和均数 基于倒数变换的平均值正偏峰分布资料 变异度全 距 观察值取值范围不拘分布形式,概略分析 标准差 (方差) 观察值平均离开均数的 程度对称分布,特别是正态分布资料 四分位数 间距 ? 居中半数观察值的全距 ①非对称分布;②半定量资料;③末端开 口资料;④分布不明 变异系数标准差与均数的相对比①不同量纲的变量间比较;②量纲相同但 数量级相差悬殊的变量间比较 定性资料:阳性事件的概率,概率分布,强度和相对比。 ¥ 2. 应用相对数时应注意哪些问题 答:(1)防止概念混淆相对数的计算是两部分观察结果的比值,根据这两部分观察结果的特点,就可以判断所计算的相对数属于前述何种指标。 (2)计算相对数时分母不宜过小样本量较小时以直接报告绝对数为宜。 (3)观察单位数不等的几个相对数,不能直接相加求其平均水平。 (4)相对数间的比较须注意可比性,有时需分组讨论或计算标准化率。 3. 常用统计图有哪些分别适用于什么分析目的 常用统计图的适用资料及实施方法 < 图形 适用资料实施方法 条图组间数量对比用直条高度表示数量大小 直方图用直条的面积表示各组段的频数或频率

( 定量资料的分布 百分条图构成比用直条分段的长度表示全体中各部分的构成比 饼图构成比用圆饼的扇形面积表示全体中各部分的构成比 定量资料数值变动线条位于横、纵坐标均为算术尺度的坐标系 、 线图 半对数线图定量资料发展速度线条位于算术尺度为横坐标和对数尺度为纵坐标的坐标 系 散点图} 双变量间的关联点的密集程度和形成的趋势,表示两现象间的相关关系箱式图定量资料取值范围用箱体、线条标志四分位数间距及中位数、全距的位置茎叶图定量资料的分布' 用茎表示组段的设置情形,叶片为个体值,叶长为频数 第3章概率分布(连续随机变量的正态分布;离散随机变量的二项分布及Poisson分布)1. 服从二项分布及Poisson分布的条件分别是什么 二项分布成立的条件:①每次试验只能是互斥的两个结果之一;②每次试验的条件不变;③各次试验独立。 Poisson分布成立的条件:除二项分布成立的三个条件外,还要求试验次数n很大,而所关心的事件发生的概率 很小。 、 2. 二项分布、Poisson分布分别有什么特征 ①二项分布、Poisson分布都是离散型分布。 ②二项分布的形状取决于π与n的大小。π=时,不论n大小,对称分布。π≠时,图形呈偏态,随n增大而逐渐对称。当n足够大,π或1-π不太小,二项分布近似正态。 ③Poisson分布μ越小,分布越偏。μ越大,分布越对称。当n足够大时,分布接近正态。 4、正态分布应用 ①估计变量值的频数分布 《 ②制定参考值范围 ③质量控制 ④正态分布是很多统计方法的基础 5. 正态分布特征 ①以均数为中心,左右对称 ②正态曲线在横轴上方均数处取得最高点 ~ ③正态分布有两个参数,即均数(位置参数)和标准差(变异度参数)(μ,σ2 ;标准0,1)

常用医学统计学方法汇总

选择合适的统计学方法 1连续性资料 1.1 两组独立样本比较 1.1.1 资料符合正态分布,且两组方差齐性,直接采用t检验。 1.1.2 资料不符合正态分布,(1)可进行数据转换,如对数转换等,使之服从正态分布,然后对转换后的数据采用t检验;(2)采用非参数检验,如Wilcoxon检验。 1.1.3 资料方差不齐,(1)采用Satterthwate 的t’检验;(2)采用非参数检验,如Wilcoxon检验。 1.2 两组配对样本的比较 1.2.1 两组差值服从正态分布,采用配对t检验。 1.2.2 两组差值不服从正态分布,采用wilcoxon的符号配对秩和检验。 1.3 多组完全随机样本比较 1.3.1资料符合正态分布,且各组方差齐性,直接采用完全随机的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey 法,Scheffe法,SNK法等。 1.3.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的Kruscal-Wallis法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用成组的Wilcoxon检验。 1.4 多组随机区组样本比较 1.4.1资料符合正态分布,且各组方差齐性,直接采用随机区组的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey 法,Scheffe法,SNK法等。 1.4.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的Fridman检验法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用符号配对的Wilcoxon检验。 ****需要注意的问题: (1)一般来说,如果是大样本,比如各组例数大于50,可以不作正态性检验,直接采用t 检验或方差分析。因为统计学上有中心极限定理,假定大样本是服从正态分布的。 (2)当进行多组比较时,最容易犯的错误是仅比较其中的两组,而不顾其他组,这样作容易增大犯假阳性错误的概率。正确的做法应该是,先作总的各组间的比较,如果总的来说差别有统计学意义,然后才能作其中任意两组的比较,这些两两比较有特定的统计方法,如上面提到的LSD检验,Bonferroni法,tukey法,Scheffe法,SNK法等。**绝不能对其中的两

医学统计学知识点汇总(精华)

医学统计学知识点汇总(精华) 一.概论 1,医学统计学:运用概率论和数理统计学的原理和方法,研究医学领域中随机现象有关数据的搜集、整理、分析和推断,进而阐明其客观规律性的一门应用科学。 2,医学统计学的主要内容: 1)统计研究设计调查研究设计和实验研究设计 2)医学统计学的基本原理和方法研究设计和数据处理中的基本统计理论和方法。 A:资料的搜集与整理 B:常用统计描述,集中趋势和离散趋势,相对数,相关系数,回归系数,统计表,统计图 C:统计推断,如参数估计和假设检验。 3)医学多元统计方法多元线性回归和逐步回归分析、判别分析、聚类分析、主成分分析、因子分析、logistic回归与Cox回归分析。 3,统计工作步骤: 1)设计明确研究目的和研究假说,确定观察对象与观察单位,样本含量和抽样方法,拟定研究方案,预期分析指标,误差控制措施,进度与费用。 2)搜集材料 A,搜集材料的原则及时、准确、完整 B,统计资料的来源医学领域的统计资料的来源主要有三个方面。一是统计报表,二是经常性工作记录,三是专题调查或专题实验。 C,资料贮存 3)整理资料 a检查核对b设计分组c拟定整理表d归表 4)分析资料统计分析包括统计描述和统计推断

4,同质(homogeneity):指被研究指标的影响因素相同。 变异(variation):同质基础上的各观察单位间的差异。 变量(variable):收集资料过程中,根据研究目的确定同质观察单位,再对每 个观察单位的某项特征进行测量或观察,这种特征称为变量变量值:变量的观察结果或测量值。 5,总体(population)根据研究目的所确定的同质研究对象中所有观察单位某 变量值的集合。总体具有的基本特征是:同质性 样本(sample)从总体中随机抽取部分观察单位,其变量值的集合构成样本。 样本必须具有代表性。代表性是指样本来自同质总体,足够的样 本含量和随机抽样的前提。

医学统计学重点总结

医学统计学 第一章 医学统计中的基本概念 1 医学统计工作的内容:设计,收集资料,整理资料,分析资料。 2 资料的类型:计量资料(数值变量),计数资料(无序分类),等 变异(variation):在同质的基础上被观察个体的差异。级分组资料(有序分类)。 3 同质(homogeneity):对研究指标有影响的非实验因素相同。 4 总体(population):根据研究目的确定的同质的全部研究对象称总体 。 样本(sample):根据随机化的原则从总体中抽出有代表性的一部分观察单位组成的子集称样本。 5 参数(parameter):总体的设计指标称为参数。 统计量(statistic):样本的统计指标称为统计量。 6 变量(variable):观察对象的特征或指标称为变量,测量的结果即为变量值。 7 概率(probability):描述随机事件发生的可能性的大小的一个量度,其概率介于0与1之间。 第二章 集中趋势的统计描述 一 算术均法(mean)简称为均数,适用于正态或近似正态分布资料 (一)直接法 X n x n X X X n ∑= +?++= 21 (二)加权法(针对频数表)n fx n x f f f X k k ∑= +++= (21) 二 几何均数(geometic mean,G)适用于倍数关系变化,经对数转换后呈正态分布(如:抗体滴度, 血清凝集效价,细菌计数,某些物质浓度等) G= n n X X X ?21 为了计算方便,常改用对数的形式计算,即=G lg 1 -( n X ∑lg ) 对于频数表资料,可用公式 G=lg 1 -( n x f ∑lg ) 三 中位数(M)与百分位数 中位数:适用于偏态分布资料,末端无确切数值的资料及分布情况不确定 公式:M=L+( M L f f n -5.0) M i L,M i ,M f 分别为M 所在组段的下限,组距与频数,L f 为M 所在组段之前各组数的累积频数。 百分位数:用符号X P 表示,x 即百分位 公式:x P =L+( x L f f x n -%·)x i 式中L,x i ,x f 分别为x P 所在组段的下限,组距与频数,L f 为x P 所在组段之前各组段的累积频数

医学统计学知识点梳理

医学统计学知识点梳理 Revised as of 23 November 2020

医学统计学知识点梳理 医学统计学:是用统计学原理和方法研究生物医学问题的一门学科。他包括了研究设计、数据收集、整理、分析以及分析结果的正确解释和表达。 统计描述:用统计指标、统计图表对资料的数量特征及分布规律进行客观的描述和表达。 统计推断:在一定的置信度和概率保证下,用样本信息推断总体特征: ①参数估计:用样本的指标去推断总体相应的指标 ②假设检验:由样本的差异推断总体之间是否可能存在的差异 同质:一个总体中有许多个体,他们之所以共同成为人们研究的对象,必定存在共性,我们说一些个体处于同一总体,就是指他们大同小异,具有同质性。 总体(population)是根据研究目的确定的同质的观察单位的全体,更确切的说,是同质的所有观察单位某种观察值(变量值)的集合。总体可分为有限总体和无限总体。总体中的所有单位都能够标识者为有限总体,反之为无限总体。 样本:从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample)。样本应具有代表性。所谓有代表性的样本,是指用随机抽样方法获得的样本。 随机抽样:随机抽样(random sampling)是指按照随机化的原则(总体中每一个观察单位都有同等的机会被选入到样本中),从总体中抽取部分观察单位的过程。随机抽样是样本具有代表性的保证。 变异:在自然状态下,个体间测量结果的差异称为变异(variation)。变异是生物医学研究领域普遍存在的现象。严格的说,在自然状态下,任何两个患者或研究群体间都存在差异,其表现为各种生理测量值的参差不齐。 (1)计量资料:对每个观察单位用定量的方法测定某项指标量的大小,所得的资料称为计量资料(measurement data)。计量资料亦称定量资料、测量资料。.其变量值是定量的,表现为数值大小,一般有度量衡单位。 (2)计数资料:将观察单位按某种属性或类别分组,所得的观察单位数称为计数资料(count data)。计数资料亦称定性资料或分类资料。其观察值是定性的,表现为互不相容的类别或属性。 (3)等级资料:将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察单位数,称为等级资料(ordinal data)。

预防医学与医学统计学总结

绪论 进和维护健康,预防疾病、失能和早逝 二.预防医学特点:1.工作对象包括个体及确定的群体,主要着眼于健康和无症状患者;2研究方法注重微观和宏观相结合,但更侧重于影响健康的因素与人群的关系;3.采取的对策更具积极的预防作用,具有较临床医学更大的人群健康效应。 三.健康决定因素:指决定个体和人群健康状态的因素。包括:1、社会经济环境。2、物质环境3.个人因素。4卫生服务。 四.三级预防策略:1.第一级预防:又称病因预防,即防止疾病的发生。2.第二级预防:在疾病的临床前期做好早起发现、早期诊断、早起治疗的“三早”预防工作,以控制疾病的发展和恶化。3.第三级预防:对已患某些病者,采取及时的、有效的治疗措施,防止病情恶化,预防并发症和伤残,延长生命。 第一章流行病学概论 进健康的策略和措施的科学。 流行病学定义涵:1.流行病学的研究对象时人群。2.流行病学关注的事件包括疾病与健康状况。3.流行病学主要研究容是:(1)揭示现象(2)找出原因(3)评价效果。4.流行病学研究和实践的目的是防治疾病、促进健康。 二.流行病学基本原理:1.分布论。2.病因论。3.健康-疾病连续带。4预防控制理论(三级预防理论)5.数理模型。6.流行病学的几个基本原则:(1)群体原则(2)现场原则(3)对比原则(核心)(4)代表性原则 三.流行病学的用途:1.描述疾病及健康状况的分布。2.探讨疾病的病因。3.研究疾病自然史,提高临床诊断、治疗水平和预后评估。4.疾病的预防控制及其效果评价。5.流行病学分支。 第二章疾病分布 的存在方式及其发生、发展规律。 二.疾病分布的测量指标:1.发病率:指在一定期间(一般为1年)特定群中某病新病例出现的频率。 病频率的测量(日、周、旬、月),常用于疾病暴发或流行时的调查。 例。患病率=发病率*病程。 病的人数占所有易感接触者总数的百分率。 5.死亡率:指在一定时间期间(通常为1年),某人群中死于某病(或死于所有原因)的频率。死亡率是测量入群死亡危险最常用的指标。 6.病死率:表示一定时期,患某病的全部病人中因该病死亡者所占的比例。 三.疾病的分布形式(“三间分布”) 1.地区分布:疾病的地方性:由于自然环境和社会因素的影响而使一些疾病无需从外地输入,只存在于某一地区,或在某一地区的发病率水平总是较高,这种现象称为疾病的地方性。 2.时间分布 3.人群分布:出生队列分析:将同一时期出生的人划归为一组称为一个出生队列,对其随访观察若干年,观察死亡等情况。 4.判断疾病地方性的依据:(1)该病在当地居住的各群组

医学统计学考试重点整理

一、基本概念 1.总体与样本 总体:所有同质观察单位某种观察值(即变量值)的全体 样本:是总体中抽取部分观察单位的观察值的集合 2.普查与抽样调查 普查:就是全面调查,即调查目标总体中全部观察对象 抽样调查:是一种非全面调查,即从总体中抽取一定数量的观察单位组成样本,对样本进行调查 3.参数与统计量 参数:总体的某些数值特征 统计量:根据样本算得的某些数值特征 4.Ⅰ型与Ⅱ型错误 假设检验的结论 真实情况拒绝H0不拒绝H0 H0正确Ⅰ型错误(ɑ) 推断正确(1 ?ɑ) H0不正确推断正确(1?β) Ⅱ型错误(β) Ⅰ型错误(ɑ错误): H0为真时却被拒绝,弃真错误 Ⅱ型错误(β错误): H0为假时却被接受,取伪错误 5.随机化原则与安慰剂对照 随机化原则:是将研究对象随机分配到实验组和对照组,使每个研究对象都有同等机会被分配到各组中去,以平衡两组中已知和未知的混杂因素,从而提高两组的可比性,避免造成偏倚。(意义:①是提高组间均衡性的重要设计方法;②避免有意扩大或缩小组间差别导致的偏倚;③各种统计学方法均建立在随机化基础上) 安慰剂对照:是一种常用的对照方法。安慰剂又称伪药物,是一种无药理作用的制剂,不含试验药物的有效成分,但其感观如剂型、大小、颜色、质量、气味及口味等都与试验药物一样,不能被受试对象和研究者所识别。(安慰剂对照主要用于临床试验,其目的在于控制研究者和受试对象的心理因素导致的偏倚,并提高依从性。安慰剂对照还可以控制疾病自然进程的影响,显示试验药物的效应) 6.误差与标准误(区分率与均数) ㈠均数 抽样误差:由个体变异产生的、随机抽样引起的样本统计量与总体参数间的差异。 标准误:是指样本均数的标准差,反映抽样误差大小的定量指标,其公式表示为S x =S/√n ㈡样本率 率的抽样误差:样本率p和总体率π的差异 率的标准误:样本率的标准差,公式为σp=√π(1-π)/n

医学统计学总结

医学统计学总结 一。绪论 1,医学统计学:运用概率论和数理统计学的原理和方法,研究医学领域中随机现象有关数据的搜集、整理、分析和推断,进而阐明其客观规律性的一门应用科学. 2,医学统计学的主要内容: 1) 统计研究设计调查研究设计和实验研究设计 2)医学统计学的基本原理和方法研究设计和数据处理中的基本统计理论和方法.A:资料的搜集与整理 B:常用统计描述,集中趋势和离散趋势,相对数,相关系数,回归系数,统计表,统计图 C:统计推断,如参数估计和假设检验. 3)医学多元统计方法多元线性回归和逐步回归分析、判别分析、聚类分析、主成分分析、因子分析、logistic回归与Cox回归分析. 3,统计工作步骤: 1)设计明确研究目的和研究假说,确定观察对象与观察单位,样本含量和抽样方法,拟定研究方案,预期分析指标,误差控制措施,进度与费用。 2)搜集材料 A,搜集材料的原则及时、准确、完整 B, 统计资料的来源医学领域的统计资料的来源主要有三个方面。一是统计报表,二是经常性工作记录,三是专题调查或专题实验。 C,资料贮存 3)整理资料 a检查核对b设计分组c拟定整理表d归表 4)分析资料统计分析包括统计描述和统计推断 4,同质(homogeneity):指被研究指标的影响因素相同。 变异(variation):同质基础上的各观察单位间的差异。 变量(variable):收集资料过程中,根据研究目的确定同质观察单位,再对每个观察单位的某项 特征进行测量或观察,这种特征称为变量 变量值:变量的观察结果或测量值。 变量类型变量值表现实例资料类型 数值变量离散型 定量测量值,有计量单位产前检查次数 计量资料 连续型身高 分类变量无 序 二分类对立的两类属性性别(男女) 计数资料多分类不相容的多类属性血型(A,B,O,AB) 有 序 多分类类间有程度差异的属性受教育程度(小学,中 学,高中,大学…)等级资料5,总体(population) 根据研究目的所确定的同质研究对象中所有观察单位某变量值的集合。总体具有的基本特征是:同质性 样本(sample)从总体中随机抽取部分观察单位,其变量值的集合构成样本。样本必须具有代表性.代表性是指样本来自同质总体,足够的样本含量和随机抽样的前提。 统计量(statistics)描述样本变量值特征的指标(样本率,样本均数,样本标准差)。

医学统计学试题及答案

第一套试卷及参考答案 一、选择题(40分) 1、根据某医院对急性白血病患者构成调查所获得的资料应绘制(B ) A 条图 B 百分条图或圆图 C 线图 D 直方图 2、均数和标准差可全面描述D 资料的特征 A 所有分布形式B负偏态分布C正偏态分布D正态分布和近似正态分布 3、要评价某市一名5 岁男孩的身高是否偏高或偏矮,其统计方法是(A ) A 用该市五岁男孩的身高的95% 或99% 正常值范围来评价 B 用身高差别的假设检验来评价 C 用身高均数的95%或99% 的可信区间来评价 D 不能作评价 4、比较身高与体重两组数据变异大小宜采用(A ) A 变异系数 B 方差 C 标准差 D 四分位间距 5、产生均数有抽样误差的根本原因是(A ) A.个体差异 B. 群体差异 C. 样本均数不同 D. 总体均数不同 6.男性吸烟率是女性的10倍,该指标为(A ) (A)相对比(B)构成比(C)定基比(D)率 7、统计推断的内容为(D ) A.用样本指标估计相应的总体指标 B.检验统计上的“检验假设” C. A 和B 均不是 D. A 和B 均是 8、两样本均数比较用t 检验,其目的是检验(C ) A 两样本均数是否不同 B 两总体均数是否不同 C 两个总体均数是否相同 D 两个样本均数是否相同 9、有两个独立随机的样本,样本含量分别为n1和n2,在进行成组设计资料的t检验时,自由度是(D ) (A)n1+ n2 (B)n1+ n2 –1 (C)n1+ n2 +1 (D)n1+ n2 -2 10、标准误反映(A ) A 抽样误差的大小 B 总体参数的波动大小 C 重复实验准确度的高低 D 数据的离散程度 11、最小二乘法是指各实测点到回归直线的(C) A垂直距离的平方和最小B垂直距离最小C纵向距离的平方和最小D纵向距离最小 12、对含有两个随机变量的同一批资料,既作直线回归分析,又作直线相关分析。令对相关系数检验的t值为t r,对回归系数检验的t 值为t b,二者之间具有什么关系?(C) A t r>t b B t rχ20.05,ν可认为(A ) A 各总体率不同或不全相同 B 各总体率均不相同 C 各样本率均不相同 D 各样本率不同或不全相同 15、某学院抽样调查两个年级学生的乙型肝炎表面抗原,其中甲年级调查35人,阳性人数4人;乙年级调查40人,阳性人数8 人。该资料宜选用的统计方法为(A ) A.四格表检验B. 四格表校正检验C t 检验D U 检验 16、为调查我国城市女婴出生体重:北方n1=5385,均数为3.08kg,标准差为0.53kg;南方n2=4896,均数为3.10kg,标准差为0.34kg,经统计学检验,p=0.0034<0.01,这意味着(D ) A 南方和北方女婴出生体重的差别无统计学意义 B 南方和北方女婴出生体重差别很大

医学统计学总结

医学统计学总结 一.绪论 1,医学统计学:运用概率论和数理统计学的原理和方法,研究医学领域中随机现象有关数据的搜集、整理、分析和推断,进而阐明其客观规律性的一门应用科学。 2,医学统计学的主要内容: 1)统计研究设计调查研究设计和实验研究设计 2)医学统计学的基本原理和方法研究设计和数据处理中的基本统计理论和方法。A:资料的搜集与整理 B:常用统计描述,集中趋势和离散趋势,相对数,相关系数,回归系数,统计表,统计图 C:统计推断,如参数估计和假设检验。 3)医学多元统计方法多元线性回归和逐步回归分析、判别分析、聚类分析、主成分分析、因子分析、logistic回归与Cox回归分析。 3,统计工作步骤: 1)设计明确研究目的和研究假说,确定观察对象与观察单位,样本含量和抽样方法,拟定研究方案,预期分析指标,误差控制措施,进度与费用。 2)搜集材料 A,搜集材料的原则及时、准确、完整 B,统计资料的来源医学领域的统计资料的来源主要有三个方面。一是统计报表,二是经常性工作记录,三是专题调查或专题实验。 C,资料贮存 3)整理资料 a检查核对b设计分组c拟定整理表d归表 4)分析资料统计分析包括统计描述和统计推断 4,同质(homogeneity):指被研究指标的影响因素相同。 变异(variation):同质基础上的各观察单位间的差异。 变量(variable):收集资料过程中,根据研究目的确定同质观察单位,再对每个观察单位的某 项特征进行测量或观察,这种特征称为变量 变量值:变量的观察结果或测量值。 5,总体(population)根据研究目的所确定的同质研究对象中所有观察单位某变量值的集合。总 体具有的基本特征是:同质性 样本(sample)从总体中随机抽取部分观察单位,其变量值的集合构成样本。样本必须具有代 表性。代表性是指样本来自同质总体,足够的样本含量和随机抽样的前提。 统计量(statistics)描述样本变量值特征的指标(样本率,样本均数,样本标准差)。

医学统计学知识点梳理

第一章绪论 一、名词解释 1.统计学:是一门关于收集、分析、解释和表达数据的科学。 2.设计(design):根据研究的问题与目的,从统计学的角度对各步提前做出的周密计 划和安排。是整个研究的基础,是关键的一步。 3.收集资料(data collection):获得研究所需要的原始数据的过程。 4.整理资料(data storing):对收集到的原始资料进行归类整理汇总的过程。 5.分析资料(data analysis):对整理的资料进行统计分析,获取资料中有关信息的过程。 6.n同质(homogeneity):对观察指标影响较大且可以控制的主要因素尽可能的相同。 7.n变异(variation):同质基础上个体间的差异。 8.n.总体(population):根据研究目的确定的,所有同质研究对象的某些指标的集合。 9.n样本(sample):从总体中随机抽取的、数量足够的、能代表总体特征的部分研究 对象某些指标的集合。 10.参数(parameter):描述总体特征的指标称为参数。 11.统计量(statistic):描述样本特征的指标 12.变异(variation):对同质研究对象某指标值得波动性称为变异。 13.误差(error):实际观察值与客观真实值之差 14.系统误差(systematic error):在实际观测过程中,由受试对象、研究者、仪器设备、 研究方法、非实验因素影响等原因造成的有一定倾向性或规律性的误差。 15.过失误差:由科研工作者的失误或过错造成的误差。 16.n.抽样误差(Sampling error):由个体变异产生的,由于抽样造成的样本统计量与总 体参数的差异,称为抽样误差。 17.随机误差(random error):在没有过失误差和系统误差的条件下仍存在大量偶然无 法消除的不确定因素所引起的误差为随机误差。 18.n频率(frequency):在相同条件下,独立重复实验n次,其中事件A出现了m次, 那么事件A发生的频率记为f(A)=m/n,0≤f(A)≤1 19.变量(variable):观察结果的取值不能事先确定的某一特征叫随机变量(random variable)简称变量 20.n概率(Probability):描述随机事件发生可能性大小的度量(P)。取值范围:不可能 事件0~1。估计方法:当n足够大时,用频率估计概率。小概率事件:P ≤0.05(5%)或P ≤0.01(1%)称为小概率事件(习惯),统计学上认为不大可能发生。小概率原理即某事件发生的概率很小,可以视为只进行一次实验时,我们说这个事件是“不会发生的”,这句话在大多数情况下是正确的,但他一定有犯错误的时候。 21.资料(data):变量全部或部分测量值构成资料 22.计量资料(measurement data):每个研究对象的变量值为一数值,表现出有量的大 小,由这样一组研究对象定量观测值所构成的资料为计量资料。 23.计数资料(enumeration data):每个研究对象的变量值为互不相同的属性之一,由 这样一组研究对象定性变量值组成的资料为技术资料。 24.等级资料(ranked data):每个研究对象变量值为互不相容的属性之一,且这些属性 间有程度的递进或递减关系,有这样一组研究对象变量值组成的资料为等级资料。 25.实验因素(study factor):研究者根据研究目的在实验中需要观察并阐明其效应的因 素

医学统计学知识点

实用标准 文档大全第一章绪论 1、统计学,是关于数据收集、整理、分析、表达和解释的普遍原理和方法。 2、研究对象:具有不确定性结果的事物。 3、统计学作用:能够透过偶然现象来探测其规律性,使研究结论具有科学性。 4、统计分析要点:正确选用统计分析方法,结合专业知识作出科学的结论。 5、医学统计学基本内容:统计设计、数据整理、统计描述、统计推断。 6、医学统计学中的基本概念 (1) 同质与变异 同质,指根据研究目的所确定的观察单位其性质应大致相同。 变异,指总体内的个体间存在的、绝对的差异。 统计学通过对变异的研究来探索事物。 (2) 变量与数据类型 变量,是反映实验或观察对象生理、生化、解剖等特征的指标。 变量的观测值,称为数据 分为三种类型:定量数据,也称计量资料,指对每个观察单位某个变量用测量或其他定量方法准确获得的定量结果。(如身高、体重、血压、温度等) 定性数据,也称计数资料,指将观察单位按某种属性分组计数的定性观察结果。包括二分类、无序多分类。(进一步分为二分类和多分类,如性别分为男和女,血型分为A、B、O、AB 等) 有序数据,也称半定量数据或等级资料,指将观察单位按某种属性的不同程度或次序分成等级后分组计数的观察结果,具有半定量性质。 统计方法的选用与数据类型有密切的关系。 (3)总体与样本 总体,指根据研究目的确定的所有同质观察单位的全体,包括所有定义范围内的个体变量值。 样本,是从研究总体中随机抽取部分有代表性的观察单位,对变量进行观测得到的数据。抽样,是从研究总体中随机抽取部分有代表性的观察单位。 参数,指描述总体特征的指标。 统计量,指描述样本特征的指标。 (4)误差 误差,指观测值与真实值、统计量与参数之间的差别。 可分为三种:系统误差,也称统计偏倚,是某种必然因素所致,不是偶然机遇造成的,误差的大小通常恒定,具有明确的方向性。 随机测量误差,是偶然机遇所致,误差没有固定的大小和方向。 抽样误差,是抽样引起的统计量与参数间的差异。 抽样误差主要来源于个体的变异。 统计学主要研究抽样误差。 (5)概率 概率,是描述某事件发生可能性大小的量度。 必然事件,事件肯定发生,概率P(U)=1; 随机事件,事件可能发生,可能不发生,概率介于0≤P(A)≤ 1; 不可能事件,事件肯定不发生,概率P(∮)=0; 小概率事件,事件发生的可能性很小,概率P(A)≤ 0.05、或P(A)≤ 0.01。

医学统计学重点总结

<<医学统计学>>重点总结 1. 总体:根据研究的目的确定的同质研究对象中所有的观察单位变量值的集合。 2. 样本:按随机化原则从同质总体中随机抽取的部分观察单位某变量值的集合。 3. 同质:影响研究指标的主要因素易控制的因素基本上相同。 4. 抽样误差:在抽样研究中,由于变异的存在,即使在同一总体中抽取的几个样本,各样本统计量往往不等。样本统计量与总体参数也不等,这种由于抽样研究所至样本之间和样本与总体之间的差异称为。。。 5. 变量:观察指标在统计学上统称为指标变量,它反应的是生物个体间的变异情况,根据其性质可分为定性变量(分类)和定量变量(连续)。 6. 截尾数据:生存时间观察过程被人为的截止称为截尾,又称删失或终检。原因:失访/退出/ 终止(研究时限已到而终止观察)。 7. 卡方基本思想:X2分布是一种连续型分布,可用于检验资料的实际频数和按检验假设计算的理论频数是否相等等问题。X2反应实现了实际频数与理论频数的吻合程度。如果检验假设成立,则A-T 一般不大,X2应很小,即出现大X2值概率很小。即X2越大,P越小,若P≤a时,就怀疑假设的成立,拒绝H0。若P>a则没有理由拒绝H0。 8. X2用途: (1)实际频数与拟合频数拟合优度:A推断两个或两个以上总体率或构成比有无差别(四格表/行x 列表)。B两变量之间有无相互关系。C频数分布的拟合优度检验(判断次样本是否来自某种分布)。(2)某些分布可用X2近似。 (3)间接应用:如t分布和F分布就是在X2分布基础上推导出来的。 9. 方差分析的基本思想:根据研究目的和设计类型,把总体变异中离均差平方和分解成两部分或更多部分,也把总变异中的自由度相应分成两部分或更多部分,然后再进行比较,评价由某种因素引起的变异是否具有统计学意义。 10. 假设检验中P,a,b(倍他)的关系及统计学意义: a:检验水准,即显著性检验,在此概率之下的认为是小概率事件,统计学上以为此事件“不可能发生”,以此判断是否不拒绝H0无效假设,在假设检验中,按a检验水准,拒绝了原来正确的H0,即犯了第1类错误,犯此错误的概率为a。 b:在T假设检验中,按照a检验标准,没有拒绝原来错误的无效假设,即犯了第2类错误,犯次错误的概率是b。 P:是在H0成立时大于等于用样本计算的统计值出现的概率用P值与检验水准a比较,根据比较的结果作出统计判断。如果P≤a时,就怀疑假设的成立,拒绝H0。若P>a则接受H0拒绝H1。P值越小只能说明作出拒绝H0,接受H1的推论时犯错误的机会越小。 11.行x列表X2检验应注意: (1)行x列表中不宜有1/5以上格子的理论频数小于5或有一个格子的理论频数小于1,若发生上述情况可采用:A将理论频数过小的格子所在的行或列与性质相近的邻近行或列中的实际频数合并,使重新计算的理论频数增大。B删去理论频数过小的行或列。C增大样本含量以增大理论频数。 (2)当效应按强弱分为若干级别,则按实验结果可整理为单向有序行x列表,在比较各处理组的效应有无差别时,宜用秩和检验,ridit分析等。如作X2检验只说明各组构成比的差异有无统计学意义。

相关文档
最新文档