医学统计学复习重点

合集下载

医学统计学复习重点

整理分析和2.计描述4.（集合）。

1.抽样随机2.分组随机3.实验顺序随机。

称全距，用离散系数，为标准差与均数只比，常：CV=s/x究，1.抽样研究2.个体变异。

系统误差：指数据搜集和测量过程中由于仪器不准确、造成观察结果呈倾向性的偏大或偏小，这种误差称为系统误差由于一些非人真实性（validity）：观察值与真值的接近程度，受系统误差的影响( （reliabiliy）——也称精密度(precision)或重复性（repeatability）是直接用样本统计量作为对应的总体参数最常用的是95%10095有5在描述两变量间的关系时，若散点图呈直线趋势或有直线相关关系，可进行直线回归分析。

参数：根根据样本的分布特征而计算得到的1、★医学统计学工作基本步骤：统计设计；收集资料.；整理资料；分析资料2、★统计分析包括：统计描述、统计推断3、频数分布的两个重要特征：集中趋势和离散趋势4、正态分布的两个参数：均数；标准差。

5、★频数表的用途：揭示计量资料的分布类型；揭示计量资料的分布特征；便于发现特大值和特小值；便于进一步进行统计分析★常见的统计资料的类型有：计量资料；计数资料；等级资料7、★t检验的应用条件是：①正态分布：当样本含量较小时，要求样本来自正态总体。

②方差齐性：两样本均数比较时，要求两总体方差相等。

U检验的应用条件是：①大样本（如n>50）；②小样本，σ已知且样本来自正态总体。

8、★.描述分类变量常用的指标有率、构成比、相对数。

9、率是指某种现象在一定条件下，实际发生的观察单位数与可能发生该现象的总观察单位数之比，常用来描述某种现象发生的频率大小或强度构成比是指一事物内部某一组成部分的观察单位数与该事物各组成部分的观察单位总数之比，常用来描述某一事物内部各组成部分所占的比重或分布。

10、★四格表卡方专用公式应用条件n≥40，且Tmin≥5 研究事物或现象间的线性关系用相关分析，研究事物或现象间的线性数量依存关系用回归分析。

医学统计学复习资料

医学统计学第一章绪论第一节医学统计学的定义和内容1.医学统计学的主要内容 :统计推断、统计描述第二节统计工作的基本步骤1.医学统计工作可分为四个步骤：统计设计搜集资料整理资料分析资料第三节统计资料的类型医学统计资料按研究指标的性质一般分为：定量资料、定性资料、等级资料一、定量资料（计量资料）定量资料（quantitative data）是用定量的方法测定观察单位（个体）某项指标数值的大小，所得的资料称定量资料。

如身高（㎝）、体重（㎏）、脉搏（次/分）、血压（kPa，mmHg）等为数值变量，其组成的资料为定量资料。

二、定性资料（计数资料）定性资料（qualitative data）是将观察单位按某种属性或类别分组，清点各组的观察单位数，所得的资料。

亦称无序分类资料。

如：男-女分组；中医的虚、实，阴、阳等分组；按生存-死亡分组；A、B、O、AB分组。

三、等级资料等级资料（ranked data）是将观察单位按属性的等级分组，清点各组的观察单位数，所得的资料为等级资料。

亦称有序分类资料。

如治疗结果分为治愈、显效、好转、无效四个等级。

：疾病的严重程度可以分为，轻、中、重；中医辨证中舌象的颜色有，淡、红、暗、紫。

♦根据需要，各类变量可以互相转化。

♦若按贫血的诊断标准将血红蛋白分为四个等级：重度贫血、中度贫血、轻度贫血、正常，可按等级资料处理。

有时亦可将定性资料或等级资料数量化，如将等级资料的治疗结果赋以分值，分别用0、1、2…等表示，则可按定量资料处理。

第四节统计学中的几个基本概念一、同质与变异同质（homogeneity）是指观察单位或研究个体间被研究指标的主要影响因素相同或基本相同。

如研究儿童的生长发育，同性别、同年龄、同地区、同民族、健康的儿童即为同质儿童。

变异（variation）由于生物个体的各种指标所受影响因素极为复杂，同质的个体间各种指标存在差异，这种差异称为变异。

如同质的儿童身高、体重、血压、脉搏等指标会有一定的差别。

医学统计学考试重点资料

一、名解：1、定量资料：以定量值表达每个观察单位的某项观察指标2、定性资料：以定性方式表达每个观察单位的某项观察指标3、等级资料：以等级方式表达每个观察单位的某项观察指标4、总体：是指按研究目的所确定的研究对象中所有观察单位某项指标取值的集合。

5、样本：是指从研究总体中随机抽取具有代表性的部分观察单位某项指标取值的集合。

6、参数：描述某总体特征的指标称为总体参数。

7、统计量：描述某样本特征的指标称为样本统计量。

8、小概率事件：当某事件发生的概率小于或等于0.05时，统计学上称该事件为小概率事件9、小概率原理：其涵义为该事件发生的可能性很小，进而认为其在一次抽样中不可能发生,此即为小概率原理。

小概率原理是进行统计推断的依据。

(8&9常写在一起)10∙变异,是以具有同质性的观察单位为载体，某项观察指标在其单位之间显示的差别。

11标准化率：用统一的标准对内部构成不同的各组频率进行调整和对比，对比后的率为标准化率。

12参考值范围：又称正常值范围，大多数人正常人某观察指标所在的范围。

由于正常人的形态、功能、生化等各种指标的数据因人而异，而且同一个人的某些指标还会随着时间、机体内外环境的改变而变化，因此需要确定其波动范围，即正常值范围，简称正常值。

13、抽样误差：由抽样引起的样本统计量与总体参数间的差别。

14、中心极限定理：①从均数为U,标准差为。

的总体中独立随机抽样，当样本含量？增加时，样本均数的分布将趋于正态分布，均数为标准差为。

X②从非正态分布的总体中随机抽样，只要样本含量足够大，样本均数趋于正态分布。

15、统计推断：就是根据样本所提供的信息，以一定的概率推断总体的性质。

16、区间估计/参数估计/可信区间：包括点估计和区间估计，由样本信息估计总体参数。

按一定的概率或可信度(La)用一个区间估计总体参数所在范围。

这个范围称作可信度为l-α的可信区间(ConfidenCeinterval,Cl),又称置信区间。

医学统计学重点概要

第一章绪论总体：根据研究目的确定的同质的所有观察单位某种变量值的集合。

总体包括有限总体和无限总体。

样本：从总体中随机抽取的部分观察单位，其实测值的集合。

获取样本仅仅是手段，通过样本信息来推断总体特性才是研究的目的。

资料的类型计量资料、计数资料和等级资料。

误差包括随机误差、系统误差和非系统误差。

抽样误差：由抽样造成的样本统计量和总体参数之间的差异或者是各个样本统计量之间的差异称为抽样误差。

概率：是描述随机事件发生可能性大小的一个度量。

取值范围0≤P ≤1。

小概率事件：表示在一次实验或观察中该事件发生的可能性很小，可以认为很可能不发生。

P ≤0.05或P ≤0.01。

医学统计学的步骤：设计、收集资料、整理资料和分析资料。

统计分析包括：统计描述和统计推断。

统计推断包括：参数估计和假设检验。

第二章计量资料的统计描述频数表和频数分布图的用途：（1）描述频数分布的类型，以便选择相应的统计指标和分析方法。

对称分布：集中位置在中间，左右两侧頻数基本对称。

偏态分布：正、负偏态分布正偏态集中位置偏向值小一侧，负偏态反之。

（2）描述頻数分布的特征；（3）便于发现资料中的可疑值；（4）便于进一步计算统计指标和进行统计分析。

计量资料集中趋势包括算术均数、几何均数和中位数。

算术均数：直接法（样本小）：n x x ∑=；頻数表法（样本大）x =nfx ∑ 几何均数：直接法：)lg (lg 1n x G ∑-=；頻数表法)lg (lg )lg (lg 11n x f fx f G ∑∑∑--==（常用于等比资料或对数正态分布资料）中位数：直接法：n 为奇数2/)1(+=n x M ，n 为偶数2/)(12/2/++=n n x x M ；頻数表法：∑-⨯+=)%50(L M M f n f iL M 。

中位数的应用注意事项：可用于各种分布资料，不受极端值的影响，主要用于（1）偏态分布资料（2）端点无确切值的资料（3）分布不明确的资料。

医科大学医学统计学重点知识总结

第一章绪论1、统计学的定义：统计学研究数据的收集、整理、分析的一门学科。

医学统计学：医学统计学是以医学理论为指导，应用概率论与数理统计的有关原理、方法，研究医学资料的搜集、整理、分析和推断的一门科学。

2、医学统计研究三个步骤：研究设计、资料分析、结论3、（必考的）几个概念：（1）同质：性质相同异质：性质不同观察单位间的同质性是进行研究的前提同质是相对的（不同研究中或同一研究中不同观察指标对观察对象的同质性的要求不同）（2）个体变异：同质个体间的差异。

变异的两个方面：不同观察单位（个体）间的差别；同一个体在不同阶段的差别（重复测量）个体变异是普遍存在的；个体变异是有规律的。

注意：由于个体变异的存在，同质个体指标的取值会存在差异！（例：体温波动）（3）总体：按研究目的所确定的同质研究对象的全体。

有限总体：有时间、空间的概念，观察单位有限无限总体：无时间、空间的概念（例：某种治疗措施的效果，就包括接受这种治疗措施的所有病人过去、现在、未来，因而观察单位无限）（4）个体：组成总体的基本单位。

样本：从研究总体中随机抽取具有代表性的部分观察单位随机性的三个体现：抽样随机、分组随机、试验顺序随机（5）随机变量：观察对象个体的特征或测量的结果观察结果在一定范围内以一定的概率分布随机取值的变量，表示随机现象。

在一定条件下，并不总是出现相同结果变量值：个体观察指标具体取值（6）总体参数：总体的统计指标或特征值固有的、不变的，但往往是未知的（7）样本统计量：由样本所算出的统计指标或特征值已知的，且随着试验的不同而不同，但分布是有规律的（8）样本含量：样本中包含个体的数量（9）频率f=m/n，f的值随n的增大接近常数p，概率P（A）=p即：频率为一变量，是样本统计量；概率为常数，是一总体参数小概率事件：概率小于等于0.05小概率原理：小概率事件在一次试验中是不会发生的（10）抽样误差：两个表现：样本统计量与总体参数间的差别；不同样本统计量间的差别两个原因：个体变异；抽样过程抽样误差不可避免，但是有规律。

医学统计学复习重点.doc

t检验t检验应用条件：%1小样本（n<100），且总体标准差。

未知%1样本取自正态分布的总体，；%1两样本总体方差相等（。

12二。

22）o1）总之，六个字：正态性、方差齐（1）建立假设、确定检验水准HO： n = pO铅作业工人与正常成年男性血红蛋白平均值相等H1：日走口0铅作业工人与正常成年男性血红蛋白平均值不等a =0.05（2）选定检验方法，计算检验统计量（3）确定P值，作出推断结论一、单样本t检验单样本t检验--- 例4-1（1）正态性检验Analyze-* Descriptive statistics-* Explore-* "皂忒含量" 选入Dependent list 框中—点击plots 复选框并选中Normlity plots with test 一Continue -* OK（2）t检验Analyze —Compare Means—One-samples T Test —"皂贰含量"选入Test Variables 框中Test Value 框中填“8.9” 一Continue — OK二、配对样本t检验配对t检验一一例4-3（1）计算差值dTransform —Compute variable —Target variable （d） = Numeric Express （new・ old）— OK （2）正态性检验（同前）（3）t检验Analyze —Compare Means— Paired-samples T Test —“new "、“old"选入Paired Variables 框中一OK三、独立样本的方差齐性检验与t检验两独立样本t检验——例4-4（1）正态性检验和方差齐性检验Analyze— Descriptive statistics — Explore-* “转化率” 选入Dependent list 框中一“group” 选入Factor框中一点击plots复选框并选中Normlity plots with test 同时选中Spread vs level with levene test 勺untransformed 按钮—Continue — OK（2）t检验Analyze —Compare Means Independent-samples T Test-* u转化率”选入Dependent list 框中一“Group” 选入Grouping Variables 框中，并点击u Define Groups nGroupl对应的框中填“1” Group2对应的框中填“2”方差分析方差分析的应用条件：⑴各样本是相互独立的随机样本。

医学统计学重点重点知识总结

医学统计学重点选择1.几何均数：平均血清抗体滴度（如P9例2.4）2.正态分布：横轴为μ（界值、面积）2.5% I1.962.5%单侧双侧90%： 1.6495%： 1.64 1.9699%： 2.583.P值与α的关系，α是人为规定的，它们之间没有关系；P值f,Qt（X）4.方差分析自由度V的计算，V总=nT;V组间=组数（k）-1；V组间=V总-V组间5.理论秩和（n（n+1）∕2）,实际秩和（通过平均秩次算）6.可信区间的正确应用：总体参数有95%的可能落在该区间内（X）；有95%的总体参数在该区间内（X）；该区间包含95%的总体参数（X）；该区间有95%的可能包含总体参数。

（X）;这个区间的可信度为95%（√）；总体参数只有一个，要么在区间内，要么不在7.相关系数与回归系数：相关系数为0,两个变量之间没有相关关系（X）；回归系数t,相关系数t（X）;（要做假设检验）二、名解1.参考值范围：根据正常人的数据估计绝大多数的正常人所在的范围2.区间估计（可信区间）：按一定的概率或可信度（bα）用一个区间估计总体参数所在范围。

这个范围称作可信度为1-a的可信区间，又称置信区间。

3.P值：拒绝HO时所冒的风险（或“作出拒绝HO而接受H1”结论时冒了P风险）4.a（第一类错误）：HO真实时被拒绝（或HO真实时,拒绝H0,接受H1）5.β（第二类错误）：HO不真实时不拒绝（或HO不真实时，不拒绝HO）1-β检验效能：对真实的H1做肯定结论之概率6.秩次：是指全部观察值按某种顺序排列的位序；7.秩和：同组秩次之和8.剩余标准差：扣除了X的影响后,Y方面的变异；引进回归方程后，Y方面的变异。

三、简答1.假设检验与可信区间的联系与区别分辨多个样本是否分别属于不同的总体，并对总体作出适当的结论。

分辨一个样本是否属于某特定总体等。

区间估计（可信区间）：按一定的概率或可信度（1-a）用一个区间估计总体参数所在范围。

2024年度-医学统计学重点笔记一复习必备

u分布
即标准正态分布，当样本量足够大时（n>30），t分布近似u分布。
14
总体均数置信区间估计
置信区间的概念
按一定的置信水平（1-α），根据样本统计量估计总体参数所在的范围。
置信区间的计算
根据样本均数、标准差和样本量计算置信区间。常用的置信水平为95%和
99%。
置信区间的意义
表示总体参数有100(1-α)%的可能性落在此区间内。
适用条件
01
R×C列联表资料，即多行多列列联表，用于分析两个多分类变
量之间的关联。
检验统计量
02
卡方值，计算公式为χ2=∑(O-E)2/E，其中O为观察频数，E为
理论频数。
拒绝域
03
根据自由度和显著性水平确定拒绝域，自由度为(R-1)(C-1)。
29
配对设计四格表资料卡方检验
01
适用条件
配对设计四格表资料，即两个相关样本的二分类变量之间的关联分析。
26
06
卡方检验
27
四格表资料卡方检验
适用条件
四格表资料，即2×2列联表，用于分析两个二分类变量之间的关联。
检验统计量
卡方值，计算公式为χ2=(ad-bc)2N/(a+b)(c+d)(a+c)(b+d)，其中N为样本总量。
拒绝域
根据自由度和显著性水平确定拒绝域，自由度为1。
28
R×C列联表资料卡方检验
正态分布在医学中的应用许多医学指标如身高、体重、血压等服从或近似服从正态分布；在估计医学参考值范围、质量控制等方面有广泛应用。
正态性检验方法图形法（直方图、P-P图、Q-Q图）、计算法（偏度系数和峰度系数检验、Shapiro-Wilk检验、KolmogorovSmirnov检验等）。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

医学统计学复习重点
统计设计：调查设计、实验设计
第一章绪论
1.基本概念：
总体——根据研究目的确定，所有同质观察单位某种观察值的全体。

样本——总体中抽取的一部分具有代表性的个体组成的集合。

参数——刻画总体特征的统计指标。

一般用希腊字母表示μ、σ、π
统计量——刻画样本特征的统计指标。

抽取的样本不同，统计量会变化；一般用拉丁字母或英文字母表示X、S、p
抽样误差：个体变异所致，抽样研究中样本信息与总体特征间的差异。

抽样误差是不可避免的。

属于随机误差，无方向性，重复抽样可以呈现一定的规律性。

小概率事件P≤0.05
2.*统计工作的四个步骤：设计、收集资料、整理资料、分析资料。

（用工作实例解释）
第二章调查研究设计
第三章实验研究设计
1.调查研究(观察性研究)：
特点：无人为施加处理因素
调查研究的分类：按调查涉及的对象划分：全面调查（普查）、抽样调查、典型调查
注意：收集的资料要有可比性
*随机抽样方法（做统计推断有意义）：单纯随机抽样、系统抽样、分层抽样、整群抽样
非随机抽样方法（不能做统计推断，可能有偏差）：偶遇抽样、判断抽样、滚雪球抽样等
2.实验研究
特点：与调查研究最本质的区别：根据研究目的主动施加干预措施
实验设计的三个基本要素：受试对象、处理因素、实验效应
实验设计的基本原则：对照原则、随机化原则、重复原则
第四章定量资料的统计描述
第五章定性资料的统计描述
1.定量资料
（1）定量资料——*频数分布表、直方图、箱式图——判断分布类型——
集中位置离散趋势（变异程度）*对称分布
（正态分布）
X±S 均数X标准差S
*偏态分布M（P25~P75）中位数M=P50四分位数间距Q=P25~P75
对数正态分布几何均数G 对数标准差S lgX
（2）描述离散趋势的统计指标：
✓极差R=最大值-最小值、
✓四分位数间距Q：常用于描述*偏态分布资料的离散趋势、一端或两端无确切值的资料、分布不明确资料
✓方差（总体、样本S2）&标准差（、S）：*正态或近似正态分布
✓变异系数
%
100
⨯
=
X
S
CV
（3）
（4）正态分布及其应用：**制定医学参考值范围
步骤：判断分布类型——正态分布——*双侧95%参考值范围：X±1.96S、
单侧95%参考值范围：下限为X-1.64S、上限为X+1.64S
——偏态分布——*双侧95%参考值范围：(百分位数法)P2.5~P97.5
单侧95%参考值范围：下限为P5、上限为P95
2.定性资料
*率：指某现象实际发生数与某时间点或某时间段可能发生该现象的观察单位总数之比。

用以说明该现象发生的频率或强度。

*构成比：即比例，指事物内部某一组成部分观察单位数与同一事物各组成部分的观察单位总数
之比。

用以说明事物内部各组成部分所占的比重。

%
100观察单位总数同一事物各组成部分的位数
某一组成部分的观察单构成比⨯=
相对比：简称比，是两个有关联的指标之比值。

用以说明一个指标是另一个指标的几倍或几分之
几。

%)
100或(乙指标甲指标
相对比⨯=
应用相对数的注意事项：
（1） *计算相对数时分母应有足够的数量（2） *分析时不能以构成比代替率
（3）应分别将分子分母求和计算合计率
（4） *注意资料的可比性：常用标准化法解决率的可比性问题（5）样本相对数的统计推断（6）某些情况下最好使用绝对数 *合计率（平均率、粗率）：应将分子和分母分别合计。

第六章参数估计
1. 定量资料：用样本均数X 估计总体均数μ。

抽样误差：均数的标准误*
均数的标准误越大，样本均数的分布越分散，样本均数离总体均数就越远，样本均数与总体均数的差别越大，抽样误差越大；抽样误差越大，由样本均数估计总体均数的可靠性越差。

反之亦然。

2. 定性资料：用样本率p 估计总体率π。

抽样误差：率的标准误
3. 参数估计的方法：
（1）点估计：抽取一个样本资料后，获得样本统计量；直接用样本统计量作为总体参数的估计值；缺点是没有考虑抽样误差。

*（2）区间估计：结合样本统计量和抽样误差，按一定的置信度（1－α）估计包含总体参数的区间
范围，该区间称为（1－α）置信区间（CI）
总体均数的95%置信区间的含义：从正态总体中重复100次抽样，每次样本含量均为n，
每个样本均按计算95%置信区间，则在这100个置信区间中，理论上有95个置信区间包含了总体均数。

a)样本均数估计总体均数的方法：
✧*t分布法：
✧*正态分布：样本量足够大时（n＞100）。

b)率的的置信区间：
✧查表法
✧*正态近似法：样本量足够大时（n＞50且np、n(1-p)均≥5）。

95%的总体率的置信区间
*
第七章假设检验
1.基本原理：反证法、小概率事件推断
2.*假设检验的基本步骤：1.建立检验假设，确定检验水准
2.（选择检验方法），计算检验统计量
3.确定P值，作出推断结论
3.建立检验假设(H0和H1)
H0零假设或无效假设——通常为两总体参数相等或服从某分布；
H1备择假设——通常为两总体参数不相等或不服从某分布。

第八章~第十四章（不含第十章）
.
.
直线回归分析 LINE （线性、独立性、正态性、等方差性）
t 检验
*配对设计：① 配对的两个受试对象分别接受两种处理 ② 同一样品用两种方法(或仪器)检验的结果 ③ 同一受试对象两个部位的数据。

推断目的：两种处理(或方法)的结果有无差别。

.
方差分析
总变异：所有观察值与总均值的离均差平方和
组间变异：不同处理组样本均数之间的差异。

用组间离均差平方和表示。

反映的是处理因素所致变异及个体变异和测量误差。

组内变异：处理组内每个观察值之间的差异。

用组内离均差平方和
表示。

反映的是个体变异和测量误差。

**
随机区组设计：是配对设计的扩大
可以安排两个因素的作用：
•研究因素：处理组间有无差异
•区组因素：控制非研究因素(重要的可控的混杂因素)
** .
.
χ2检验
χ2检验的基本思想：实际频数用A表示，根据H0确定的理论频数用T表示，则构造的χ2统计量为
1.*独立样本2×2列联表资料的χ2检验
*应用条件：n≥40，理论频数T≥5，
n≥40，1＜最小T＜5，计算校正的χ2值：
2.独立样本R×C列联表资料的χ2检验
*应用条件：理论数不能小于1，理论数在1和5之间的格子数不能超过总格子数的1/5 不满足条件时可合并或删除部分信息
3.*配对2×2列联表资料的χ2检验
**应用条件：b+c＞40，
.
b+c＜40，校正公式：
秩和检验（不考细节）*应用条件：定量资料不满足参数检验条件
*等级资料的统计推断
1.符号秩和检验：（1）单一样本与总体中位数比较
（2）*配对设计
配对设计假设检验步骤：
.
.
2. 成组设计两样本比较：Wilcoxon 秩和检验
（1）原始数据两样本比较
（2） *等级资料两样本比较
3. 成组设计多个样本比较：K-WH 秩和检验
（1）原始数据的多个样本比较
.
（2）等级资料的多个样本比较
4. 多个独立样本间的多重比较：K-WH 秩和检验
5.随机区组设计的秩和检验：Friedman秩和检验
双变量关联性分析
1.*直线相关（连续性变量）（两定量变量）
*条件：**双变量正态分布。

不满足用秩相关。

*步骤：绘制散点图，如呈现线性趋势——计算统计指标：相关系数r——对r做假设检验——如P＜0.05，解释相关系数的统计学意义
.
.
2. 秩相关（连续型变量或等
级变量间） *条件：连续型两变量不满足双变量正态分布。

*等级变量（有序变量）相关分析。

常用的为Spearman 秩相关分析
直线回归分析
*
回归系数b：描述y与x在数量上的依存关系。

*解释：b 表示x 每增加(减)一个单位，
y平均改变
b个单位
*
直线回归分析的基本步骤：
1.绘制散点图（观察是否有直线趋势、异常点）
2.估计回归参数，列出回归方程
3.对回归方程进行假设检验
4.解释回归系数的统计学意义
5.评价回归方程的拟合效果
.
（）
.
.
*
.。