医学统计学抽样误差与统计推断

合集下载

医学统计学复习重点

整理分析和2.计描述4.（集合）。

1.抽样随机2.分组随机3.实验顺序随机。

称全距，用离散系数，为标准差与均数只比，常：CV=s/x究，1.抽样研究2.个体变异。

系统误差：指数据搜集和测量过程中由于仪器不准确、造成观察结果呈倾向性的偏大或偏小，这种误差称为系统误差由于一些非人真实性（validity）：观察值与真值的接近程度，受系统误差的影响( （reliabiliy）——也称精密度(precision)或重复性（repeatability）是直接用样本统计量作为对应的总体参数最常用的是95%10095有5在描述两变量间的关系时，若散点图呈直线趋势或有直线相关关系，可进行直线回归分析。

参数：根根据样本的分布特征而计算得到的1、★医学统计学工作基本步骤：统计设计；收集资料.；整理资料；分析资料2、★统计分析包括：统计描述、统计推断3、频数分布的两个重要特征：集中趋势和离散趋势4、正态分布的两个参数：均数；标准差。

5、★频数表的用途：揭示计量资料的分布类型；揭示计量资料的分布特征；便于发现特大值和特小值；便于进一步进行统计分析★常见的统计资料的类型有：计量资料；计数资料；等级资料7、★t检验的应用条件是：①正态分布：当样本含量较小时，要求样本来自正态总体。

②方差齐性：两样本均数比较时，要求两总体方差相等。

U检验的应用条件是：①大样本（如n>50）；②小样本，σ已知且样本来自正态总体。

8、★.描述分类变量常用的指标有率、构成比、相对数。

9、率是指某种现象在一定条件下，实际发生的观察单位数与可能发生该现象的总观察单位数之比，常用来描述某种现象发生的频率大小或强度构成比是指一事物内部某一组成部分的观察单位数与该事物各组成部分的观察单位总数之比，常用来描述某一事物内部各组成部分所占的比重或分布。

10、★四格表卡方专用公式应用条件n≥40，且Tmin≥5 研究事物或现象间的线性关系用相关分析，研究事物或现象间的线性数量依存关系用回归分析。

医学统计学---统计推断

第一节常用相对数
例5-1 某医院1998年在某城区随机调查了8589例60岁及以上老人，体检发现高血压患者为2823例。高血压患病率为： 2823 / 8589 100% = 32.87% 。

第一节常用相对数
二、构成比构成比：表示事物内部某一部分的个体数与该事物各部分个体数的总和之比，用来说明各构成部分在总体中所占的比重或分布。通常以100%为比例基数。其计算公式为
表 5-4 甲、乙两种疗法治疗某病的治愈率比较治愈率（%） 60.0 35.0 53.8 病人数 100 300 400 乙疗法治愈数 65 125 190 治愈率（%） 65.0 41.7 47.5
病
型
普通型重型合计
病人数 300 100 400
甲疗法治愈数 180 35 215
第三节率的标准化法

第三节率的标准化法
标准化法计算的关键是选择统一的标准构成。选择标准构成的方法通常有三种： 1.两组资料中任选一组资料的人口数（或人口构成）作为两者的“共同标准”。这种方法适用于直接法。 2.两组资料各部分人口之和组成的人口数（或人口构成）作为两者的“共同标准”。这种方法适用于直接法。 3.另外选用一个通用的或便于比较的标准作为两者的“共同标准”，如采用全国、全省或全地区的数据作为标准。

式中两指标可以是绝对数、相对数或平均数。
第一节常用相对数
例5-3 某年某医院出生婴儿中，男性婴儿为370 人，女性婴儿为358人，则出生婴儿性别比例为 370/358×100 = 103，说明该医院该年每出生 100名女婴儿，就有103名男性婴儿出生，它反映了男性婴儿与女性婴儿出生的对比水平。据大量观察，出生婴儿男多于女，出生性别比一般在104~107之间。这个医院的出生性别比为103，说明该年该医院出生女婴相对较多。

医学统计学复习资料

医学统计学第一章绪论第一节医学统计学的定义和内容1.医学统计学的主要内容 :统计推断、统计描述第二节统计工作的基本步骤1.医学统计工作可分为四个步骤：统计设计搜集资料整理资料分析资料第三节统计资料的类型医学统计资料按研究指标的性质一般分为：定量资料、定性资料、等级资料一、定量资料（计量资料）定量资料（quantitative data）是用定量的方法测定观察单位（个体）某项指标数值的大小，所得的资料称定量资料。

如身高（㎝）、体重（㎏）、脉搏（次/分）、血压（kPa，mmHg）等为数值变量，其组成的资料为定量资料。

二、定性资料（计数资料）定性资料（qualitative data）是将观察单位按某种属性或类别分组，清点各组的观察单位数，所得的资料。

亦称无序分类资料。

如：男-女分组；中医的虚、实，阴、阳等分组；按生存-死亡分组；A、B、O、AB分组。

三、等级资料等级资料（ranked data）是将观察单位按属性的等级分组，清点各组的观察单位数，所得的资料为等级资料。

亦称有序分类资料。

如治疗结果分为治愈、显效、好转、无效四个等级。

：疾病的严重程度可以分为，轻、中、重；中医辨证中舌象的颜色有，淡、红、暗、紫。

♦根据需要，各类变量可以互相转化。

♦若按贫血的诊断标准将血红蛋白分为四个等级：重度贫血、中度贫血、轻度贫血、正常，可按等级资料处理。

有时亦可将定性资料或等级资料数量化，如将等级资料的治疗结果赋以分值，分别用0、1、2…等表示，则可按定量资料处理。

第四节统计学中的几个基本概念一、同质与变异同质（homogeneity）是指观察单位或研究个体间被研究指标的主要影响因素相同或基本相同。

如研究儿童的生长发育，同性别、同年龄、同地区、同民族、健康的儿童即为同质儿童。

变异（variation）由于生物个体的各种指标所受影响因素极为复杂，同质的个体间各种指标存在差异，这种差异称为变异。

如同质的儿童身高、体重、血压、脉搏等指标会有一定的差别。

抽样误差区间估计(统计学)

P(t≤-1.812)=0.05或P(t≥1.812)=0.05
例如，当 =10，双尾概率 =0.05时，查表得双尾t0.05,10＝2.228，表明，按t分布的规律，从正态分布总体中抽取样本含量为n=11的样本，则由该样本计算的t值大于等于2.228的概率为0.025，小于等于-2.228的概率亦为0.025。可表示为： P(t≤-2.228)+P(t≥2.228)＝0.05 或：P(-2.228<t<2.228)=1-0.05=0.95。
所以样本均数的标准差称为均数的标准误标准误的计算计算公式为其中为总体标准差n为抽样的样本例数在研究工作时由于总体标准差常常未知可以利用样本标准差近似估计标准误的计算例9根据7岁男童的身高资料在已知总体标准差时标准误为438100438cm而若以第一次抽样的样本标准差来代替总体标准差则标准误为445100445cm标准误的意义反映了样本统计量样本均数样本率分布的离散程度体现了抽样误差的大小
x
=144.0681 S= 4.7245 x1,x2,x3…x10
样本含量n =10
x
=142.7203 S= 9.2473 x1,x2,x3…x10
点估计的缺陷
（2）区间估计
例11：为了解某地 1 岁婴儿的血红蛋白浓度，从该地区随机抽取 25 名 1 岁婴儿，测得其血红蛋白均数 = 123.7(g/L) 标准差 =11.9(g/L) 试估计该地区1岁婴儿的平均血红蛋白浓度。
CL、CU 称为可信限
理论基础： t 值的分布
均数的抽样分布
v＝24
P ( 2.064 t 2.064) 0.95
-2.064
0
2.064
区间估计：

医学统计学习题二

医学统计学习题二一、名词解释：1、参数2、统计量3、检验水准4、概率5、抽样误差6、医学参考值范围7、统计推断8、标准误9、可信区间10、Ⅰ型错误11、Ⅱ型错误12、标准化死亡比13、非参数检验14、回归系数15、相关系数二、简答题1、医学统计学工作的步骤。

2、正态分布有什么基本特征？有哪几个参数？3、医学正常值范围与可信区间有何区别？4、假设检验中应注意哪些问题？6、应用相对数时应注意的事项？8、非参数检验的适用条件、优缺点？三、是非题1、对数正态分布资料最好计算几何均数以表示其平均水平。

2、不论数据呈什么分布，用算术均数和用中位数表示平均水平都一样合理。

3、理论上只有服从正态分布条件的变量的算术均数等于中位数。

4、随机抽样就是指在抽样研究中不要主观挑选研究个体。

8、同一总体中随机抽样，样本含量越大，则样本标准差越小。

9、只要单位相同，用s和用CV来比较两套变量值的离散度，结论是完全一样的。

10、从同一总体随机抽取的两组数据中，平均数大的组标准差也大。

11、同一批计量数据的标准差不会比标准误大。

12、t检验是对两样本均数的差别作统计检验的方法之一。

13、当总体方差已知时，检验样本均数和某个已知总体均数差别有无统计意义只能用t检验。

14、在配对t检验中，用药前数据减去用药后数据和用药后数据减去用药前数据，作t检验后的结论是相同的。

15、方差分析中均方就是方差。

16、随机区组设计和完全随机设计方差分析的统计效能总是一样的。

17、4个均数作差别的统计检验，可以分别作两两比较的6次t检验以作详细分析。

18、回归系数越大，两变量的数量关系越密切。

19、双变量正态分布资料，样本回归系数小于零，可认为两变量呈负相关。

20、某事物内部某一部分所占的比重就是比例，患病率也是一种比例。

21、要消除甲乙两地各年龄组死亡率不同的影响而对两总的死亡率作比较，可以计算标准化死亡率后再作比较。

22、非参数统计方法不对特定分布的参数作统计推断，但仍要求数据服从正态分布。

医学统计学重点概要

第一章绪论总体：根据研究目的确定的同质的所有观察单位某种变量值的集合。

总体包括有限总体和无限总体。

样本：从总体中随机抽取的部分观察单位，其实测值的集合。

获取样本仅仅是手段，通过样本信息来推断总体特性才是研究的目的。

资料的类型计量资料、计数资料和等级资料。

误差包括随机误差、系统误差和非系统误差。

抽样误差：由抽样造成的样本统计量和总体参数之间的差异或者是各个样本统计量之间的差异称为抽样误差。

概率：是描述随机事件发生可能性大小的一个度量。

取值范围0≤P ≤1。

小概率事件：表示在一次实验或观察中该事件发生的可能性很小，可以认为很可能不发生。

P ≤0.05或P ≤0.01。

医学统计学的步骤：设计、收集资料、整理资料和分析资料。

统计分析包括：统计描述和统计推断。

统计推断包括：参数估计和假设检验。

第二章计量资料的统计描述频数表和频数分布图的用途：（1）描述频数分布的类型，以便选择相应的统计指标和分析方法。

对称分布：集中位置在中间，左右两侧頻数基本对称。

偏态分布：正、负偏态分布正偏态集中位置偏向值小一侧，负偏态反之。

（2）描述頻数分布的特征；（3）便于发现资料中的可疑值；（4）便于进一步计算统计指标和进行统计分析。

计量资料集中趋势包括算术均数、几何均数和中位数。

算术均数：直接法（样本小）：n x x ∑=；頻数表法（样本大）x =nfx ∑ 几何均数：直接法：)lg (lg 1n x G ∑-=；頻数表法)lg (lg )lg (lg 11n x f fx f G ∑∑∑--==（常用于等比资料或对数正态分布资料）中位数：直接法：n 为奇数2/)1(+=n x M ，n 为偶数2/)(12/2/++=n n x x M ；頻数表法：∑-⨯+=)%50(L M M f n f iL M 。

中位数的应用注意事项：可用于各种分布资料，不受极端值的影响，主要用于（1）偏态分布资料（2）端点无确切值的资料（3）分布不明确的资料。

医学统计学复习资料(名解+简答)

医学统计学复习资料（名解+简答）一、名词解释1.统计量 (statistic)：统计量是统计理论中用来对数据进行分析、检验的变量。

2.同质 (homogeneity)：是指观察单位(研究个体)间被研究指标的影响因素相同。

3. 抽样误差 (sampling error)：由于随机抽样造成的样本均数与总体均数的差别。

4. 总体 (population)：根据研究目的而确定的同质观察单位的全体称为总体，更确切的说，它是同质的所有观察单位某种观察值的集合。

5. 变异 (variation)：变异就是标志在同一总体不同总体单位之间的差别。

6. 参数 (parameter)：参数，也叫参变量，是一种变量。

7. 样本 (sample)：研究中实际观测或调查的一部分个体称为样本，研究对象的全部称为总体。

8. 概率 (probability)：概率是对随机事件发生的可能性的度量，一般以一个在0到1之间的实数表示一个事件发生的可能性大小。

越接近1，该事件更可能发生;越接近0，则该事件更不可能发生。

1. 正态分布 (normal distribution)：靠近均数分布的频数最多，离开均数越远，分布的数据越少，左右两侧基本对称，这种中间多、两侧逐渐减少的基本对称的分布，称为正态分布2. 中位数 (median)：一组数据按从小到大(或从大到小)的顺序依次排列，处在中间位置的一个数(或最中间两个数据的平均数，注意:和众数不同，中位数不一定在这组数据中)3. 方差 (variance)：是各个数据与其算术平均数的离差平方和的平均数，通常以σ2表示。

4. 四分位数间距 (quartile interval)：是上四分位数与下四分位数之差,用四分位数间距可反映变异程度的大小。

5. 正偏态分布 (positively skewed distribution)：为统计学概念，即统计数据峰值与平均值不相等的频率分布。

如果频数分布的高峰向左偏移，长尾向右侧延伸称为正偏态分布，也称右偏态分布。

(完整版)医学统计学重点总结

1.简述总体和样本的定义，并且举例说明。

总体是研究目的确定的所有同质观察单位的全体。

样品是从研究总体中抽取部分有代表性的观察单位。

2.简述参数和统计量的定义，并且举例说明。

描述总体特征的指标称为参数，描述样本特征的指标称为统计量。

3.变量的类型有哪几种？举例说明各种类型变量有什么特点。

①定量数据：计量资料；定量的观测值是定量的，其特点是能够用数值的大小衡量其水平的高低。

②定性数据：计数资料；变量的观测值是定性的，表现为互不相容的类别或属性。

③有序数据：半定量数据/等级资料；变量的观测值是定性的，但各类别（属性）有程度或顺序上的差异。

4.请举例说明一种类型的变量如何变换为另一种类型的变量。

定量数据>有序数据>定性数据--------------->5.请简述什么是小概率事件？概率是描述事件发生可能性大小的度量，P 0.05事件称为小概率事件。

≤6．举例说明什么是配对设计。

配对设计是将受试对象按某些重要特征相近的原则配成对子，每对中的两个个体随机地给予两种处理。

①同源配对：同一受试对象或同一标本的两个部分，随机分配接受两种不同处理；②异源配对：为消除混杂因素的影响，将两个同质受试对象配对分别接受两种处理。

7.非参数假设检验适合什么类型数据进行分析？①总体分布类型未知或非正态分布数据；②定量或半定量数据；③数据两端无确定的数值。

8．简述P 25 P 5０ P ７5的统计学意义。

（条件：明显偏态且不能转化为正态或近似对称；一端或两端无确定数值；分布情况未知）用来描述资料的观测值序列在某百分位置的水平，四分位数间距可以作为说明个体差异的指标（说明个体在不同位置的变异情况）。

9.直条图、直方图、圆饼图的使用条件是什么？直条图：各自独立的统计指标的数值大小和他们之间的对比；直方图：连续变量频数分布情况；圆饼图：全体中各部分所占的比例。

10.统计分析包括哪两个方面的内容？为什么要进行统计推断？统计描述和统计分析；统计描述用来描述及总结一组数据的重要特征，其目的是使实验或观察得到的数据表达清楚并便于分析。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

矛
盾，则拒绝H0 ，接受H1；否则（即实际结果与理论假设H0不矛盾），接受H0 （严格讲应是“尚不能拒绝H0 ”）
（二）Ⅰ类错误与Ⅱ类错误
Ⅰ类错误： H0本质上是成立的，但下结论时却拒绝了H0 ，即“弃真” 的错误，概率水平为。
Ⅱ类错误： H0本质上是不成立的，但下
结论时却接受了H0 ，即“取伪”的错误，概率水平为。
则SS误差
SS总= SS干预+ SS误差
二、方差分析的基本原理
1.完全随机设计的方差分析
SS总= SS组间+ SS误差不考虑混杂因素的作用，即干预措施仅为试验因素（如药物）
完全随机设计
完全随机设计方差分析的数据格式
组别编号
12
3
…
X11 X 21
X 31
…
X 12 X 22
X 32
…
估计总体（参数）？
一致问题(检验统计量t值)
X
抽样误差 S X
影响
消除影响
本质差异
t|X |
SX
估计问题（解下面的不等式）
|
X SX
|
t
总体均数的（1-a）可信区间
X t S X
假设检验
（一）检验的基本原理及步骤
1.建立无效假设 H0：… 无… H1：…有…
2.选择判别水平（=0.05或0.01） 3.计算检验统计量：评价H0是否成立？ 4.作出判别结论：实际结果与理论假设H0
正交、交叉、拉丁方、析因设计等
一、方差分析的基本思想
总体
？
1 2 ……k
k个样本是否来自同一总体？
k个样本是否来自同一总体？
是
否
k个样本均数本质上是相等的
k个样本均数本质上是不相等的
干预措施的作用相同干预措施的作用不相同
计算出的均数不相等主计算出的均数不相等则主要是由抽样误差造成的要不是由抽样误差造成的
** 拒绝H0 时，往往犯Ⅰ类错误；接受H0 时，往往犯Ⅱ类错误。
** 增大，则变小；降低，则变大。只
有通过增大样本含量n才能同时降低和。
t—检验
一、样本均数与总体均数的比较
总体
样本
该样本是否来自已知总体？
？
样本均数与总体均数的比较
检验的基本步骤
1.建立无效假设 H0： 1
H1： 1
及t
...
四、方差齐性检验
F
S
2 m
ax
Sm2 in
三、配对资料的t-检验 (同源配对或1:1异源配对）
i 甲方法
1
★1
2ቤተ መጻሕፍቲ ባይዱ
★2
n ★n
乙方法 d= ▲- ★ ▲1 d1 ▲2 d2
…… ▲n dn
|d 0| t
Sd
方差分析
解决多个均数的比较问题
方差分析
完全随机设计的方差分析
随机区组设计的方差分析
2 X 12 X 22
X 32
…
X k2
……
…
…
…
……
…
…
b X1b X2b
X 3b
…
X 1j X 2j X 3j
…
… X kb
X kj
随机区组设计方差分析
随机区组设计方差分析表
变异来源总变异处理间
离均差平方和(SS) SS总 SS处理
自由度v 均方MS N－1 k－1 SS处理/v处理
F配= MS配÷MS误差（4）. 作出判别结论 :若F>Fa ,则拒绝H0，接
受H1；否则，接受H0，拒绝H1。
3.多重比较问题
（1）其他各组均与对照组比较：复新极差法（Dunnett--t检验）或LSD法
F MS处理/MS误差
配伍间
SS配伍
b－1 SS配伍/v配伍 MS配伍/MS误差
误差 SS总－SS处理－SS配伍 N-k-b+1 SS误差/(N-k-b+1)
随机区组设计方差分析
基本步骤
（1）.作出无效假设H0：….； H1 ：…...
（2）.确定判别水平a=0.05 （或0.01）（3）.计算检验统计量：F处= MS处÷MS误差
一、抽样误差
抽样误差的评价
SX
S n
S X 为均数的标准差，称之为标准误。
其大小就反映了抽样误差的大小。
二、统计推断
➢参数估计 ➢假设检验
参数估计
✓点估计------ x ✓区间估计
区间估计
两个问题： 1.样本的性质特征（统计量）与总体
的性质特征（参数）是否一致？ 2. 一致时，如何用样本（统计量）去
造成样本间均数不相等的原因有两类： 1.抽样误差 2.干预措施（药物及
均数不等体现在个体间的变异上。若将k个样本可合并为一整体，则总的变
混杂因素）
异SS总可分为两部分：
若变异主要在抽样误差， 1.由抽样误差造成的部分SS误差
则SS误差
2.由干预措施造成的部分SS干预
若变异主要在干预措施，
2.随机区组设计的方差分析
随机区组设计的方差分析
SS总= SS处理+SS配伍 +SS误差
既考虑试验因素（如药物）的作用，同时，又考虑混杂因素的作用，即干预措施为试验因素+混杂因素。
随机区组设计方差分析
随机区组设计方差分析的数据格
组别编号
i1 2
3
…
k
1 X11 X 21
X 31
…
X k1
t | X1 X2 | S X1 X 2
Sc2
(n1
1) S12 n1
(n2 1)S22 n2 2
S X1X 2
Sc
2
(
1 n1
1 n2
)
两样本均数的t-检验 2. 两样本方差不相等（即所谓的 “方差不齐”）
t | X1 X2 | S X1 X 2
SX1X 2
S12 n1
S22 n2
F MS组间÷MS组内
组内(误差) SS总－SS组间
N－k SS组内/(N-k)
完全随机设计
基本步骤
1.作出无效假设H0：….； H1 ：…... 2.确定判别水平a=0.05 （或0.01） 3.计算检验统计量： F= MS组间÷MS组内 4. 作出判别结论：
若F>Fa ,则拒绝H0，接受H1；否则，接受H0，拒绝H1。
2.选择判别水平a（=0.05或0.01）
|X |
t SX
3.计算检验统计量：t= …
4.作出判别结论：若t>ta，则拒绝H0 ，（即 1 ）；否则，不拒绝H0 （即 1 ）。
二、两样本均数的比较
总体
样本Ⅰ 样本Ⅱ
两样本是否来自同一总体？
两样本均数的t-检验
1. 两样本方差相等或近似相等（即所谓的 “方差齐”）
……
…
…
X 1j X 2j
X 3j
…
……
…
…
X1n1 X2n2
X 3n3
…
k X k1 X k2 … X kj … X knk
X 1j X 2j
X 3j
…
X kj
完全随机设计
完全随机设计方差分析表
变异来源离均差平方和(SS) 自由度v 均方MS
总变异组间
SS总 SS组间
N－1 k－1 SS组间/(k-1)