医学统计学 第九章
医学统计学09秩和检验

22
u=
|11186 − 88(216 + 1) / 2 − 0.5 128 × 88 × (216 + 1) /12
(t 3 − t j ) ∑ j (N 3 − N )
= 3.628
C = 1− = 1−
823 − 82 ) + ( 783 − 78 ) + ( 303 − 30 ) + ( 263 − 26 ) ( 216 − 216
9
秩和
A组: - 、±、+、+、+、 ++ 秩和: 1 2 4.5 4.5 4.5 8.5
TA=25
B组: +、++、++、++、+++、+++ 秩和: 4.5 8.5 8.5 8.5 11.5 11.5 TB=53
TA+TB=N(N+1)/2=78
10
秩次:在一定程度上反映了等级的高低; 秩和:在一定程度上反映了等级的分布位置。 对等级的分析,转化为对秩次的分析。 秩和检验就是通过秩次的排列求出秩和,对总 体的分布进行假设检验。
α =0.05。
编秩 ,求秩和T。 确定检验统计量T 若两样本例数不等,以例 数较少者为n1,检验统计量T=T1=560.5。 确定P值,作出推断结论
29
560.55 − 24 × (68 + 1) / 2 − 0.5 u= = 3.4265 24 × 44 × (68 + 1) / 12
(16 3 − 16) + ( 28 3 − 28) + (19 3 − 19) + (5 3 − 5) C = 1− 68 3 − 68
医学统计学-第9章 关联性分析

关于两种属性的关联程度,我们用pearson
列联系数表达:
对于2×2列联表
关联系数r介于
(9-10)(110-1~2) 0.5 = 0.71 之 间, 该值越大,关
联程度越高。
理论上我们还要作总体为列联系数为0的假设 检验,但这个假设等价于以上的χ2检验。
例9-3 为观察行为类型与冠心病的关系,某研究
r的取值范围在±1之间,为正值时,正相关。 为负值时,负相关。 r=0时为零相关。 ρ是总 体相关系数,r是ρ的估计值。 假设是建立ρ的基础上。。。
相关系数的计算
利用例题的资料试计算凝血酶浓度X与凝 血时间Y之间的样本相关系数。
4.相关分析条件
用于双变量正态分布资料, X、Y都是正态分布。
9.2 两个连续随机变量间的相关分析
例 某地研究2-7岁急性白血病患儿的血小
板数与出血症状程度之间的相关性,结果见下 表:试用秩相关进行分析。
首先先将实测原始数据由小到大排序 编秩,以pi表示Xi秩次;qi表示Yi的
次,见上表所示。
观察值相同的取平均秩次;将pi、qi直接 替换(9-1)中的X和Y的均数,直接得 到如下算式:
计算结果如下:
九
(9-11)
关联系数为:
关联系数的范围:
其中,R是列联表的行数,C是列联表列数。
双向有序分类资料的关联性检验
医学统计学 第九章 第二十二讲PPT课件

增加量(g)
190
180
170
160
150
140
130
120
110
600
700
800
900
1000
进食量(g)
图9.1 大白鼠进食量与体重增加量的散点图
➢ 直线回归分析在于找出两个变量有依存关系的直线方程, 以确定一条能代表这些数据关系的、最接近各实测点的直 线,使各实测点的与该线的纵向距离的平方和为最小。为 了区别于一般的函数方程,我们称之为直线回归方程
200
170
140
110 650 750 850 950 1050 1150
9.2.2 回归方程的建立与检验
直线回归方程的一般表达式为:
Yˆ abX
a是回归直线在Y轴上的截距 ,即X=0时的值;
b为回归系数,即直线的斜率。 b>0,表示直线从左下方走向右上方,即Y随X的增大而增大; b<0,表示直线从左上方走向右下方,即Y随X的增大而减小; b=0,表示回归直线与X轴平行,即X,Y无回归关系。
0.0005 0.001 636 31
10
1.372 1.812 2.228 2.764 3.169 4.144 4.587
11
1.363 1.796 2.201 2.718 3.106 4.025 4.437
9.2.3 回归方程的应用
1.描述两变量间的依存关系 通过回归系数的假设检验,若认为两变量间 存在着直线回归关系,则可用直线回归方程 来描述两变量间的依存关系
b l XY l XX
(2)假设检验:在同一资料中,r与b值的假设检 验的统计量t值相等,即 tr=tb。
医学统计学9 χ2检验

卡方检验的基本原理
反映实际频数与理论频数的吻合程度可用统计量
A
T T
2
来表示
案例分析
某医院采用甲乙两种方法测定60例结核杆菌阳性率, 如下图。试问这两种检测方法阳性率是否相同。
测定方法 阳性数 阴性数 合计
阳性率
甲法
42
18
60
70.0%
乙法
23
37
60
38.3%
合计
65
55
120
54.2%
错误的方法
根据2*2四格表卡方检验方法进行 可求得 2 =12.62, p<0.001;
2
(ad bc)2n
(a b)(a c)(bd )(c d )
c2
(
29 26 5 2 42
2 5 )( 26 9 )( 2 26 )( 5
9
)
5.49
x2,1 3.84
P 0.05
结论与之相反。
配对四格表资料的 χ2 检验
与计量资料推断两总体均数是否有差别有成组设 计和配对设计一样,计数资料推断两个总体率(构 成比)是否有差别也有成组设计和配对设计,即四 格表资料和配对四格表资料。
若检验假设H0:π1=π2成立,四个格子的实际频 数A与理论频数T 相差不应该很大,即统计量不
应该很大。如果上述统计量值很大,从而怀疑H0 的正确性,继而拒绝H0,接受其对立假设H1,即 π1≠π2 。
这个统计量就称为卡方统计量。
医学统计学 -第09章 卡方检验

0.4 f(x)
v=1
0.3
2分布
0.2
v=4
v=6 v=9
0.1
0.0
0
3
6
9
12
15 x
(2)计算检验统计量
2 (A T )2
T
(41 36.5625)2 (4 8.4375)2 (24 28.4375)2 (11 6.5625)2
36.5625
8.4375
28.4375
6.5625
理论基础:超几何分布,不属于卡方检验
谢谢
表 慢性咽炎两种药物疗效资料
分组
兰芩口服液 银黄口服液
合计
有效
41 24 65
无效
4 11 15
有效率 (%) 91.11
68.57 81.25
合计
45 35 80
问题: 两个总体有效率是否相等?
(1)建立检验假设 H0:π1=2 两药的总体有效率相同 H1:π1≠π2 两药的总体有效率不同 检验水准=0.05
bc
= 1
若b+c<40,采用以下校正公式
2 (| b c | 1)2
= 1
bc
第三节 行×列表资料的2检验
(一)R×C表 最常见的形式是
2×C列联表(一般为2个构成比的比较) R ×2列联表(一般为多个样本率的比较)
R×C列联表2检验的原理与2×2列联表2 检验的原理完全一样
统计量计算公式
合计 40 30 32 102
有效率(%) 87.50 66.67 21.88 60.78
(1)建立检验假设,确定检验水准
H0 :1 2 3
H1
:
1
,
医学统计学题库一

第九章医学统计学的基本内容一、单选题1.以下有关小概率事件的描述,正确的是A、在一次抽样中就会发生的事件B、在一次抽样中发生的概率≤0.05C、在一次抽样中不可能发生的事件D、即使多次抽样也不可能发生的事件E、在多次抽样中发生的概率≤0.052.医学统计学的研究内容是A、样本B、个体C、变量之间的相关关系D、总体E、资料或信息的收集、整理和分析3.医学统计工作的基本步骤是A、搜集资料、整理资料、描述资料、设计B、搜集资料、整理资料、推断资料、设计C、设计、搜集资料、整理资料、分析资料D、统计描述、统计推断、统计设计E、搜集资料、描述资料、推断资料4.用某种新药治疗白血病患者50名,治疗的结果如下死亡恶化好转显效治愈治疗结果369284治疗人数该资料的类型是A、计量资料B、计数资料C、等级资料D、分层资料E、定量资料5.随机样本的特点是A、能消除系统误差B、能消除随机测量误差C、能减少抽样误差D、能消除研究者有意无意带来的样本偏性E、能消除过失误差6.统计学中的总体是指A、任意想象的研究对象的全体B、根据研究目的确定的研究对象的全体C、根据地区划分的研究对象的全体D、根据时间划分的研究对象的全体E、根据人群划分的研究对象的全体7.为了由样本推断总体,样本应该是A、总体中任意的一部分B、总体中的典型部分C、总体中有意义的部分D、总体中有价值的一部分E、总体中有代表性的一部分8.抽样误差是指A、不同样本指标之间的差别B、样本指标与总体指标之间由于抽样产生的差别C、样本中每个个体之间的差别D、由于抽样产生的观测值之间的差别E、系统误差与过失误差之间的差别9.可以通过增加例数的方法减少的误差是A、系统误差B、随机测量误差C、抽样误差D、过失误差E、以上均无法减少10.关于统计学中的过失误差、系统误差、随机测量误差和抽样误差,正确的是A、4种误差均不可避免B、系统误差和随机测量误差不可避免C、系统误差和抽样误差不可避免D、随机测量误差和抽样误差不可避免E、过失误差和抽样误差不可避免11. P(A)=0时,表示事件A、很可能发生B、极可能发生C、不可能发生D、在一次抽样中不会发生E、已经发生二、判断题1.概率是描述随机事件发生的可能性大小的一种度量,用P表示,其值介于0.01~100之间。
医学统计学-第9章 关联性分析

线性?程度如何?是正相关还是负相关? ⑵统计推断:两者的关系是否有统计学意
义?根据专业知识下结论。
9.2.2 相关系数的统计推断
r是样本相关系数,是总体相关系数ρ的估计
值,要想判断X、Y间是否有相关关系,就要检
验r是否来自总体相关系数ρ为零的总体。方法
本例 ν=n对-2=15-2=13,r0.05,13=0.514, 得到: p<0.05,即相关系数有统计学意义。
tr =
− 0.926 = −8.874,
1 − (0.926)2
ν = 15 − 2 = 13
15 − 2
可按公式(9-2) 计算
查附表C2(教材560),t 0.05,13=2.160;t> t 0.05,13,按α=0.05水准,拒绝H0,接受H1,故 可以认为凝血酶浓度与凝血时间呈负相关关系。
9.2.3 Spearman 秩相关
一、秩相关的概念及其统计描述 前面指出:Pearson积矩相关的假设检验要求
X和Y均服从正态分布。对那些不服从正态 分布或等级资料、总体分布未知的资料,因 难以进行分析,所以就不宜用积矩相关系数 来描述相关性。
此时,可采用等级相关(rank correlation), 或称秩相关来描述两个变量间相关的程度与方 向。该法是利用两变量的秩次大小作线性相关 分析,对原变量的分布不作要求,属非参数统 计方法。
例 某地研究2-7岁急性白血病患儿的血小
板数与出血症状程度之间的相关性,结果见下 表:试用秩相关进行分析。
首先先将实测原始数据由小到大排序 编秩,以pi表示Xi秩次;qi表示Yi的
次,见上表所示。
观察值相同的取平均秩次;将pi、qi直接 替换(9-1)中的X和Y的均数,直接得 到如下算式:
第九章 卡方检验

H0 :π1=π2= π3,即三种疗法的有效率相等 H1 :三种疗法的有效率不全相等 α=0.05
χ2 =532(1992/206×481+72/206×51+…+262/144×51-1)
=21.04
υ= ( 3-1)( 2-1) = 2
查χ2界值表:得P<0.005.按 α=0.05 拒绝 H0,接受H1,可 以认为三种疗法治疗周围性面神经麻痹的有效率有差别。
χ2 =∑
(︱A-T︱-0.5)2
T
χ2
=
(︱ad-bc︱-n/2)2 n (a+b)(c+d)(a+c)(b+d)
医学统计学 · 第九章 χ2 检验
例2 某医师用两种疗法治疗心绞痛,结果如表2,问
两种疗法的疗效有无差别?
表2
组 别 甲疗法 乙疗法 合 计
两种疗法治疗心绞痛的效果率
有效 23 27 50 无效 6 (4.42) 3 9 合计 29 30 59 有效率(%) 79.31 90.00 84.75
医学统计学 · 第九章 χ2 检验
H0: H1:
π1= π2 即两种疗法的疗效相等 π1≠ π2 即两种疗法的疗效不等
α=0.05 T=29×9/59=4.42(计算行合计和列合计均为最小的理论数)
2×59 ( 23 × 3 - 6 × 27 - 59/2) χc2 = =0.61 29×30×50×9
(三)、双向无序分类资料的关联性检验
例7 测得某地5801人的ABO血型和MN血型结果如表
7,问两种血型系统之间是否有关联?
表7 某地5801人的血型
ABO 血型 M O A B AB 合计 431 388 495 137 1451 MN血型 N 490 410 587 179 1666 合计 MN 902 800 950 32 2684 1823 1598 2032 348 5801
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
9.2 直线回归
9.2.1直线回归的概念 • 直线回归分析的目的:建立一个线性函数,来描 述两个变量的依存关系。 • 回归分析中两变量的地位是不相同的: 通常把一个变量称为自变量,用X表示;另一个 变量称为应变量,用Y表示。
• 散点图的带状分布有线性趋势 • 直线回归分析在于找出两个变量有依存关系 的直线方程,以确定一条能代表这些数据关 系的、最接近各实测点的直线,使各实测点 的我们称之为直线回 归方程
• 相关系数的假设检验亦可按υ=n-2,直接查 r rα(υ)时,P 相关系数r界值表(附表),当 < r rα(υ)时,P≤α 。本例r=0.8529, >α ;当 ≥ 按 υ=n-2=12-2=10, 查 r 界 值 表 , r0.01(10)=0.708,因r> r0.01(10),故P<0.01。
• 如果仅仅研究变量间相互关系的密切程度和 变化趋势,并用适当的统计指标表达,这就 是相关分析。 • 如果要把变量间数量上依存关系用函数形式 表示出来,用一个或多个变量来推测另一变 量的估计值及波动范围,这就是回归分析。
• 回归一词最早由Golton在一项有关父亲与儿子 身高的研究中提出。儿子的高度与父亲的高度 自然是相关的。他发现身材高大的父亲所生儿 子的高度不少要比其父亲矮,而身材矮小的父 亲所生儿子的高度不少要比父亲高;也就是说, 无论是身材高还是矮的父亲所生儿子的身高有 向人群的平均身高回归的趋势,这就是回归的 生物学内涵,后来人们借用回归这个词来描述 通过自变量的数值预测反映变量的平均水平。
9.2.2 回归方程的建立与检验
• 直线回归方程的一般表达式为:
ˆ a bX Y
a是回归直线在Y轴上的截距 ,即X=0时的值;
b为回归系数,即直线的斜率。 b>0,表示直线从左下方走向右上方,即Y 随X的增大而增大; b<0,表示直线从左上方走向右下方,即Y 随X的增大而减少; b=0,表示回归直线与X轴平行,或随X改变 无增减变化。
• 求回归方程的关键是要求a和b的值,根据数 学上的最小二乘法(least square method)原理, 使各实测值Y与回归直线上对应的估计值之差 的平方和为最小,可导出a、b的最小二乘法 估计如下:
( X X )(Y Y ) l b l (X X )
2
XY XX
a y bx
3)相关系数的假设检验 相关系数r是样本相关系数,它是总体相关系 数ρ 的估计值。和其他统计量一样,根据 样本资料计算出来的相关系数也有抽样误 差。在ρ =0的总体中随机抽样,由于抽样 误差的影响,所得r值常不等于零。因此, 在计算得到相关系数后,还不能根据的大 小对X、Y间是否有相关关系作判断,而应 进行r是否来自ρ =0的假设检验。相关系 数的假设检验可用t检验法,其计算统计量 t值的公式为:
r
( X X )(Y Y ) ( X X ) (Y Y )
2
2
l XY l XX lYY
2)计算相关系数 例9-2 现仍用例9-1的资料,试分析大白鼠进食 量与体重增加量之间有无直线相关关系? 1.作散点图,判断是否有线性趋势。从图9-1 可知,两变量有线性趋势,成正相关。 2.列相关系数计算表 3.按公式9-1得相关系数 r
SY X
2 ˆ (Y Y )
n2
t b > t0.001(10) , 查t界值表,t0.001(10)=4.587, P<0.001,按α =0.05水准,拒绝H0,接受H1, 认为在某代乳粉营养价值试验中,大白鼠进 食量与体重增加量之间存在直线回归关系, 即所拟合的样本直线回归方程有意义。
4 . 回归系数的假设检验 (1)回归系数假设检验的意义 所求得的回归方程是否能表达X、Y存在直线关 系,这是回归分析首要考虑的问题 总体回归系数 与样本回归系数b
(2)回归系数的t检验 ,即使X、Y的总体回归系数β 为零(总体并不 存在回归关系),由于存在抽样误差,其样 本回归系数b也不一定为零。因此,当用样本 求得不等于零的回归系数b后,我们还不能立 即认为β ≠0,即X与Y间存在回归关系,必须 考虑回归系数的抽样误差问题,因此需对β 是否为零进行假设,可用按Y服从正态分布的 假定,回归系数的假设可用方差分析或t检验。
第九章 直线相关与回归
• 医学研究中,常常要研究两个或两个以上变 量的关系。如成人的身高与体重、青少年的 身高与年龄、体温与脉搏次数、年龄和血压、 反应物浓度与反应速度、溶液浓度与渗透压 等。相关与回归就是研究这种关系的统计方 法。 • 变量与变量之间的关系,可以分成两种类型: 一种是确定性关系(函数关系),另一种是 非确定性关系。
9.1 直线相关
9.1.1 直线相关的概念 当所研究的两个事物或现象之间,既存在着密 切的数量关系,又不象函数关系那样,能以 一个变量的数值精确地求出另一个变量的数 值,我们称这类变量之间的关系称为相关关 系。 直线相关分析关心的是两个变量间是否有线性 的协同变化的关系、变化的趋势、变化的密 切程度和方向。
9.4.2设计与应用直线相关与回归的注意事项 1 .作相关与回归分析要有实际意义。不要把毫无关 联的两个事物或现象用作相关、回归分析, 2 .对相关分析的作用要正确理解。相关分析只是以 相关系数来描述两个变量间直线关系的密切程度和 方向,并不能阐明两事物或现象间存在联系的本质; 即使存在相关关系,也并不能证明是因果关系 ( 相 关关系中有的是因果关系,有的不是因果关系 ) 。 要证明两事物间的内在联系,必须凭借专业知识从 理论上加以阐明。但是,当事物间的内在联系尚未 被认识时,可根据相关分析的数量关系给理论研究 提供线索。
9.4 直线相关与回归应用时的注意问题 9.4.1直线相关与回归的区别与联系: 一、直线相关与回归的区别与联系 1.区别: (1)在资料要求上,如果X可以精确测量和严格 控制,回归只要求应变量Y作为随机变量且服 从正态分布,此种回归属于Ⅰ型回归;如果X 和Y需要相互推断,则要求X、Y为随机变量且 都要服从双变量正态分布,此资料类型属于 Ⅱ型回归。可以计算两个回归方程:由 X 推 Y 的回归方程;由Y推X的回归方程。
检验假设为: H0:总体回归系数β=0,即大白鼠进食量与体重 增加量间无回归关系。 H1:总体回归系数 β≠0,即大白鼠进食量与体 重增加量间有回归关系。 α=0.05。
检验统计量
tb
b0 Sb
, n 2
式中Sb为样本回归系数的标准误:
SY X Sb l XX
为剩余标准差,亦称标准估计误差 :
• 直线相关的性质可由散点图(scatter diagram)直 观地说明。通常以自变量(independent variable)X为横坐标,应变量(dependent variable)Y为纵坐标,在方格坐标中,每对变 量值(X、Y)的交叉点处,描出一个点,就成 为散点图。从散点图上可以粗略地看出,两 个变量间相关的方向和密切程度以及两变量 间是否呈直线关系。
例9-1 某医师研究某种代乳粉营养价值时,用 大白鼠做实验,得大白鼠进食量与体重增加 量的资料(表9-1)。
表9-1 大白鼠进食量与体重增加量的关系
编 号 进食量(g) 增加量(g) 1 800 185 2 780 158 3 720 130 4 867 180 5 690 134 6 787 167 7 934 186 8 750 133 9 820 165 10 679 145 11 639 120 12 820 150
3.相关和回归都是分析两变量间关系的统计方 法。相关表示相互关系,回归表示从属关系。 与相关分析一样,回归分析前也必须先作散 点图,以判断两变量间的关系是否为线性趋 势,有无离群点等。 4.积差和法相关与等级相关。积差和法相关计 算相关系数 r 适用于正态资料;一般来说,能 用积差和法相关计算的资料不应用等级相关 计算。资料明显呈偏态分布或者原始资料只 能用等级划分或难以判定资料属何种分布的, 才宜按等级相关处理。有关等级相关资料的 处理方法见非参数统计一章。
(4) 用回归解释相关:相关系数 r 的平方称为决 定系数,也称为相关指数。公式为:
l xy l xy / lxx SS回 r lxxl yy l yy SS 总
2
2
2
其值在 0-1 之间。决定系数表示 Y 的变异中可 由 X解释的部分占总变异的比例。因此r2越接 近于1,说明应用相关分析的意义越大,即贡 献越大;相反的意义亦成立。
9.2.3 回归方程的应用 1. 描述两变量间的依存关系 通过回归系数的假设检验,若认为两变量间存在着 直线回归关系,则可用直线回归方程来描述两 变量间的依存关系 2.利用回归方程进行预测 所谓预测就是把预报因子(自变量X)代入回归方程 对预报量(应变量Y)进行估计,其波动范围可按 求y值容许区间的方法计算。 3.利用回归方程进行统计控制 统计控制是利用回 归方程进行逆估计,如果要求应变量Y在一定范 围内波动,可以通过控制自变量X的取值来实现
(1)建立假设,确定检验水准
H0 : 0 H1 : 0
0.05
(2)计算检验统计量
n2 tr r , n 2 2 1 r 12 2 t r 0.8529 5.1667 2 1 0.8529
(3)查表确定p值 P<0.001 (4)做出统计结论 可认为大白鼠进食量与体重增加量之间呈正相 关。
(2)在应用上,相关分析用于说明两变量间的相 互关系,描述两变量X、Y相互之间呈线型关系 的密切程度和方向;回归分析用于说明两变量 间的依存关系,可以用一个变量的数值推算另 一个变量的数值。
2.联系: (1)正负符号:在同一资料中,计算r与b值的符 号应该相同。 (2)假设检验:在同一资料中,r与b值的假设检 验的统计量t值相等,即 tr=tb。 (3)r与b换算关系如下:
190 180 170 160 150
• 图9-1大白鼠进食量与体重增加量的散点图