(医学)北京大学医学部医学统计学进阶1第1讲 多重线性回归与相关
合集下载
回归与相关(卫生统计学课件)

• a - 截距(intercept)或常数项(constant term);
• b - 回归系数(regression coefficient)。
Francis Galton
实例
➢ 例1 研究成人BMI(kg/m2)与肝脏硬度指数LSM间的关系,得到了表中所示的资料,试 进行线性回归分析。
表1 成人BMI(kg/m2)与肝脏硬度指数LSM回归分析数据
直线回归系数的假设检验
线性回归的假设检验
一、方差分析
➢ 回归方程检验的基本思想:
(Y -Y )2 = (Yˆ -Y )2 +(Y -Yˆ)2
SS总 SS回归 SS残差
图4 变异划分示意图
➢ 如果 X 与Y 之间无线性回归关系,则 SS回归 与 SS残差 都只包含随机因素对Y 的影响,因 此其均方 MS回归 与 MS残差 应近似相等,如果两者差别较大,并超出能够用随机波动解 释的程度,则认为回归方程具有统计学意义。
Sb
SY |X lXX
SY |X
SS残差
残差
MS残差
➢ Sb 为样本回归系数的标准误,反映样本回归系数的抽样误差; SY|X 为剩余标准差,表 示因变量 Y 值对于回归直线的离散程度。
实例 对例1数据建立的回归方程后,进行 t 检验,过程如下:
1. 建立检验假设,确定检验水准 H0 :回归系数 0,即BMI和LSM间无线性回归关系
图3 成人BMI(kg/m2)与肝脏硬度指数LSM间关系散点图
小结
1. 线性回归分析常用于分析两个变量之间是否存在线性依存关系,通过散点图可以直观描述两个变量的数量变化关系, 参数估计可以使用最小二乘法。 2. 在回归分析中,因变量是随机变量,自变量既可以是随机变量,也可以是给定的量,在两个变量都是随机变量的情 况,应以变异小的变量作为自变量 3.线性回归则反映两个变量之间单向的依存关系,更适合分析因果关系的数量变化。 4. 对同一资料进行相关与回归分析,r 与 b 正负号相同,r 和b 为正,说明 X 与 Y 的数量变化的方向是一致的,X 增 大,Y 也增大;反之亦然。 5. 如果散点图显示两变量间不是直线关系,但可以通过某种变量变换转变为直线相关关系,则可以对变换后的数据采 用上述公式建立模型。
• b - 回归系数(regression coefficient)。
Francis Galton
实例
➢ 例1 研究成人BMI(kg/m2)与肝脏硬度指数LSM间的关系,得到了表中所示的资料,试 进行线性回归分析。
表1 成人BMI(kg/m2)与肝脏硬度指数LSM回归分析数据
直线回归系数的假设检验
线性回归的假设检验
一、方差分析
➢ 回归方程检验的基本思想:
(Y -Y )2 = (Yˆ -Y )2 +(Y -Yˆ)2
SS总 SS回归 SS残差
图4 变异划分示意图
➢ 如果 X 与Y 之间无线性回归关系,则 SS回归 与 SS残差 都只包含随机因素对Y 的影响,因 此其均方 MS回归 与 MS残差 应近似相等,如果两者差别较大,并超出能够用随机波动解 释的程度,则认为回归方程具有统计学意义。
Sb
SY |X lXX
SY |X
SS残差
残差
MS残差
➢ Sb 为样本回归系数的标准误,反映样本回归系数的抽样误差; SY|X 为剩余标准差,表 示因变量 Y 值对于回归直线的离散程度。
实例 对例1数据建立的回归方程后,进行 t 检验,过程如下:
1. 建立检验假设,确定检验水准 H0 :回归系数 0,即BMI和LSM间无线性回归关系
图3 成人BMI(kg/m2)与肝脏硬度指数LSM间关系散点图
小结
1. 线性回归分析常用于分析两个变量之间是否存在线性依存关系,通过散点图可以直观描述两个变量的数量变化关系, 参数估计可以使用最小二乘法。 2. 在回归分析中,因变量是随机变量,自变量既可以是随机变量,也可以是给定的量,在两个变量都是随机变量的情 况,应以变异小的变量作为自变量 3.线性回归则反映两个变量之间单向的依存关系,更适合分析因果关系的数量变化。 4. 对同一资料进行相关与回归分析,r 与 b 正负号相同,r 和b 为正,说明 X 与 Y 的数量变化的方向是一致的,X 增 大,Y 也增大;反之亦然。 5. 如果散点图显示两变量间不是直线关系,但可以通过某种变量变换转变为直线相关关系,则可以对变换后的数据采 用上述公式建立模型。
医学统计学-第11章 多重线性回归精简1-1

18
复相关系数R
(multiple correlation coefficient)
定义:Biblioteka R = SS回 SS总(11-6)
意义:表示变量Y与p个自变量(X1,X2, ‥,Xp) 的密切相关程度。本例: R = 0.7312 = 0.8551
表示四个变量的复相关关系
19
复相关系数有缺点:
当回归方程中包含有很多自变量,即使其中有一些自 变量对反应变量变异的贡献极小,随着回归方程的自 变量的增加,R2值表现为只增不减。此时要用调整的 确定系数(常用),定义为:
问题:我们能不能根据回归方程下结论?
13
11.2.3 统计推断
一、整体回归效应的假设检验(方差分析)
对例题1,整体方程进行假设检验,方差分析结果 见下表所示,建立假设检验:
H0 : β1 = β2 = β3 = β4 = 0
由上表显示:P<0.0001,拒绝H0。说明 从整体上而言,用这四个自变量构成的 回归方程解释糖尿病患者体内脂联素的 变化是有统计学意义的。
一、概述 例1 为了研究有关糖尿病患者体内脂联素水平
的影响因素,某医师测定了30名患者的体重 指数BMI(㎏/㎡)、病程DY(年)、瘦素 LEP(ng/ml)、空腹血糖FPG(mmol/L)及脂联 素水平,数据如下表所示:
以上数据表可见,除增加了自变量的列数之外,数据结 构与简单回归的数据表完全相同。
(11-5)
见例1
公式(11-5)
20
二、回归系数的假设检验
偏回归系数的t检验是在回归方程具有统计学 意义的情况下,检验某个总体偏回归系数等于 零的假设,以判断是否相应的自变量对回归确 有贡献。如欲检验
H0 : βi = 0 , H1 : βi ≠ 0
复相关系数R
(multiple correlation coefficient)
定义:Biblioteka R = SS回 SS总(11-6)
意义:表示变量Y与p个自变量(X1,X2, ‥,Xp) 的密切相关程度。本例: R = 0.7312 = 0.8551
表示四个变量的复相关关系
19
复相关系数有缺点:
当回归方程中包含有很多自变量,即使其中有一些自 变量对反应变量变异的贡献极小,随着回归方程的自 变量的增加,R2值表现为只增不减。此时要用调整的 确定系数(常用),定义为:
问题:我们能不能根据回归方程下结论?
13
11.2.3 统计推断
一、整体回归效应的假设检验(方差分析)
对例题1,整体方程进行假设检验,方差分析结果 见下表所示,建立假设检验:
H0 : β1 = β2 = β3 = β4 = 0
由上表显示:P<0.0001,拒绝H0。说明 从整体上而言,用这四个自变量构成的 回归方程解释糖尿病患者体内脂联素的 变化是有统计学意义的。
一、概述 例1 为了研究有关糖尿病患者体内脂联素水平
的影响因素,某医师测定了30名患者的体重 指数BMI(㎏/㎡)、病程DY(年)、瘦素 LEP(ng/ml)、空腹血糖FPG(mmol/L)及脂联 素水平,数据如下表所示:
以上数据表可见,除增加了自变量的列数之外,数据结 构与简单回归的数据表完全相同。
(11-5)
见例1
公式(11-5)
20
二、回归系数的假设检验
偏回归系数的t检验是在回归方程具有统计学 意义的情况下,检验某个总体偏回归系数等于 零的假设,以判断是否相应的自变量对回归确 有贡献。如欲检验
H0 : βi = 0 , H1 : βi ≠ 0
医学统计学 多重线性回归分析

SS回归
检验统计量: F
MS回归 MS残差
回归 残差
SS残差
SS回归 SS残差 n2
查F界值表(P468),确定单侧临界值Fa(v回归, v残差),
求概率值 P,下结论
检验过程:
1. 建立假设,确定检验水准 H0 : β1=β2=β3=…=βi=0 ; H1 :至少有一个 βi ≠ 0。
之间的线性相关程度,即Y 和该组自变量的密切程度。
SS回归 SS总
本题:R
1773 .343 0.8551 2425 .301
3. 调整确定系数(adjust coefficient of determination, Rad2)
R
2 ad
p 1 R R n p 1
2 2
数模: Y X , X ,...,X 0 1 X 1 2 X 2 ... p X p
1 2 n
β0:截距参数,是常数项。 βi:变量Xj的总体偏回归系数(partial regression coefficient)
表示在其它自变量固定不变的情况下,Xj每增加或减少 一个计量单位,反应变量Y的平均变化 βi 个单位,或说所 引起应变量Y的平均改变量为βi个单位。
由表13-3可以看出,BMI、病程和空腹血糖对脂联素的 影响无统计学意义,P > 0.05,而瘦素的影响有统计学意 义P< 0.05。
回归方程的解释: ——这四个因素对糖尿病患者体内脂联素水平的 影响有多大?
1. 确定系数/决定系数
(coefficient of determination ,R2 )
ˆ2 SS残差: Y Y
总变异中无法用X1、 反应自变量X以外因素对Y X2…等和Y的回归关 的变异的影响。表示考虑 (残差平方和) 系解释的那部分变异 回归之后,Y的随机误差。
检验统计量: F
MS回归 MS残差
回归 残差
SS残差
SS回归 SS残差 n2
查F界值表(P468),确定单侧临界值Fa(v回归, v残差),
求概率值 P,下结论
检验过程:
1. 建立假设,确定检验水准 H0 : β1=β2=β3=…=βi=0 ; H1 :至少有一个 βi ≠ 0。
之间的线性相关程度,即Y 和该组自变量的密切程度。
SS回归 SS总
本题:R
1773 .343 0.8551 2425 .301
3. 调整确定系数(adjust coefficient of determination, Rad2)
R
2 ad
p 1 R R n p 1
2 2
数模: Y X , X ,...,X 0 1 X 1 2 X 2 ... p X p
1 2 n
β0:截距参数,是常数项。 βi:变量Xj的总体偏回归系数(partial regression coefficient)
表示在其它自变量固定不变的情况下,Xj每增加或减少 一个计量单位,反应变量Y的平均变化 βi 个单位,或说所 引起应变量Y的平均改变量为βi个单位。
由表13-3可以看出,BMI、病程和空腹血糖对脂联素的 影响无统计学意义,P > 0.05,而瘦素的影响有统计学意 义P< 0.05。
回归方程的解释: ——这四个因素对糖尿病患者体内脂联素水平的 影响有多大?
1. 确定系数/决定系数
(coefficient of determination ,R2 )
ˆ2 SS残差: Y Y
总变异中无法用X1、 反应自变量X以外因素对Y X2…等和Y的回归关 的变异的影响。表示考虑 (残差平方和) 系解释的那部分变异 回归之后,Y的随机误差。
《医学统计学》之多元(重)线性回归

多元(重)线性回归模型的假设
1 线性关系
假设自变量与因变量之间存在线性关系,即因变量可以用自变量的线性组合来表示。
2 独立性
假设误差项之间相互独立,即每个观测值的误差项不受其他观测值的影响。
3 常数方差
假设误差项具有常数方差,即各个观测值的误差方差相同。
多元(重)线性回归模型的估计方法
最小二乘法
多元(重)线性回归模型的模型选择方法
前向选择法
从不包含自变量的空模型开 始,逐步添加自变量,选择 最佳的组合。
后向消除法
从包含所有自变量的全模型 开始,逐步删除自变量,选 择最简单且最有效的模型。
逐步回归法
结合前向选择法和后向消除 法,逐步调整自变量,找到 最优的模型。
多元(重)线性回归模型的实际应用
医学研究
用于分析多个影响因素对疾病发生、病程进展和治 疗效果的影响。
市场分析
用于预测市场需求和销售量,并确定最佳的市场推 广策略。
财务预测
社会科学
用于预测企业的财务状况,并制定相应的经营决策。
用于研究社会现象和群体行为,解释和预测社会现 象的变化。
通过方差膨胀因子等指标,判断自变量之间是否存在高度相关性,以避免估计结果的不 准确性。
多元(重)线性回归模型的模型检验
1
残差分析
通过观察残差的分布和模式,检验回归模型是否符合基本假设。
2
拟合优度检验
通过比较拟合优度指标(如决定系数R²)和假设分布,评估回归模型的拟合程度。
3
异常值检验
通过检测异常值对回归分析结果的影响,判断数据中是否存在异常观测值。
《医学统计学》之多元 (重)线性回归
在医学统计学中,多元(重)线性回归是一种强大的数据分析方法,可用于探索 和建立多个自变量与因变量之间的关系。
《医学统计学》之多元(重)线性回归

《医学统计学》之多元 (重)线性回归
在本课程中,我们将深入研究医学统计学中的多元(重)线性回归分析。掌握回 归模型的基础知识,并学习如何评估模型、诊断回归方程以及拟合策略。
模块一:回归分析基础知识
了解回归分析的基本原理和应用场景,掌握回归方程的建立和参数估计的方 法。
模块二:多元线性回归模型
学习多元线性回归模型的概念、假设条件和模型参数的估计方法。
模块七:应用案例与实战经验
通过真实的医学案例和实战经验,加深对多元(重)线性回归的理解,并了解统计概念,包括方差膨胀因子、共线性检验和异常值检测。
模块四:模型评估与解释
学习如何评估回归模型的拟合优度和预测精度,并解释模型中的系数含义。
模块五:回归诊断
掌握回归诊断的基本方法,包括残差分析、离群值检测和共线性诊断。
模块六:回归模型拟合策略
学习选择合适的自变量、建立最佳模型和验证模型的方法,以及防止过拟合和欠拟合。
在本课程中,我们将深入研究医学统计学中的多元(重)线性回归分析。掌握回 归模型的基础知识,并学习如何评估模型、诊断回归方程以及拟合策略。
模块一:回归分析基础知识
了解回归分析的基本原理和应用场景,掌握回归方程的建立和参数估计的方 法。
模块二:多元线性回归模型
学习多元线性回归模型的概念、假设条件和模型参数的估计方法。
模块七:应用案例与实战经验
通过真实的医学案例和实战经验,加深对多元(重)线性回归的理解,并了解统计概念,包括方差膨胀因子、共线性检验和异常值检测。
模块四:模型评估与解释
学习如何评估回归模型的拟合优度和预测精度,并解释模型中的系数含义。
模块五:回归诊断
掌握回归诊断的基本方法,包括残差分析、离群值检测和共线性诊断。
模块六:回归模型拟合策略
学习选择合适的自变量、建立最佳模型和验证模型的方法,以及防止过拟合和欠拟合。
医学北京大学医学部医学统计学进阶1多重线性回归与相关

相关就是用于研究和解释两个变量之 间相互关系的。
复习: 直线相关
Linear Correlation
一、相关的类型 二、相关系数 三、相关系数的假设检验
为了研究父亲与成年儿子 身高之间的关系,卡尔.皮 尔逊测量了1078对父子的 身高。把1078对数字表示 在坐标上,如图。 它的形状象一块橄榄状的 云,中间的点密集,边沿 的点稀少,其主要部分是 一个椭圆。
产 儿 体重
**. Correlation is significant at the 0.01 level (2-tailed).
另外的例子:
识字数,鞋大小 游泳票与冰激凌销售量
21
24
3.0
2.8
29
30
22
25
4.0
3.9
15
16
15
16
3.2
3.2
31
24
4.3
SPSS计算程序
1.做散点图: GRAPHS-SCATTERT-SIMPLE-DEFINE
2. 相关分析: ANALYZE--CORRELATION – BIVARIATE -VARIABLES
孕妇尿中雌三醇含量与产儿体重之间的关系
一个产科医师发现孕妇尿中雌三醇含量与产儿的 体重有关。 于是设想,通过测量待产妇尿中雌三醇含量,可 以预测产儿体重,以便对低出生体重进行预防。 因此收集了31例待产妇24小时的尿,测量其中的 雌三醇含量,同时记录产儿的体重。
问尿中雌三醇含量与产儿体重之间相关系数是多 少?是正相关还是负相关?
对相关系数的假设检验,常用t检验,选用 统计量t的计算公式如下:
t
r 0
sr
医学统计学多重回归

4.逐步选择(stepwise selection)
逐步选择法又称逐步回归,其本质是前向选择法,为了 克服向前选择法在后续变量进入模型后可能使已在方程中 的变量变得不重要的缺点,同时吸收了向后剔除的作法。即 在逐步选择过程中,把经 F 检验有意义的变量引入方程后, 又对已在方程中的自变量进行一次关于剔除的 F 检验,保留 有统计学意义的变量,而剔除无统计学意义的变量。反复进 行引入、剔除过程,直到既没有变量被引入,也没有变量被 剔除为止。
bj为自变量Xj 的偏回归系数(partial regression coefficient),是βj的估计值,表示当方程中其他 自变量保持常量时,自变量Xj变化一个计量单位, 反应变量Y的平均值变化的单位数。
X
* i
Xi Si
Xi
标准化偏回归系数(standardized partial regression coefficient),又称为通径系数(path coefficient)。标准化偏回归系数b’j较大的自变 量在数值上对反应变量Y的作用较大。
先指定的临界值( Fin )比较,如果 F < Fin 程序停止,否则将其最
大 F 值所对应的自变量引入模型;然后在有一个自变量的模型基础 上,重复以上比较过程;如此反复,每次加一个变量到模型中,直到
剩下的变量中再无一个能使其 F 值大于 Fin 值为止。
3. 后向选择 (backward selection)
R2 0.06396 0.7874 0.08123
由此说明,用包含气车流量、气温、气湿与 风速这四个自变量的回归方程可解释交通 点空气 NO 浓度变异性的 78.74%。
复相关系数(multiple correlation coefficient) R
【卫生统计学】12章 多重线性相关与回归

0.05
27
SS总=
2
(Y Y )
(Yˆ
Y
2
)
(Y
Yˆ
2
)
=SS回归+SS 误差
SS回归= yˆ y 2 b1l1y b2l2y bmlmy
ν总 = n-1 ν回归=m ν剩余=n-m-1
SS误差 = SS总 - SS回
归
F
MS回归 MS误差
SS回归/回归 SS误差/ 误差
增加或减少一个单位时Y的平均变 化量。不能用各bj来比较各自变 量对应变量的影响大小。
标准化回归系数无单位,用来 比较各自变量对应变量的影响大 小,bj '越大,自变量对应变量的23
l11
41467
8812 20
2658 .95
l22
137953
.5 1656 .02 20
836.70
SS总=58.9388
Yˆ 0.6815 0.0546 X1 0.1944 X 2
21
标准化回归系数
变量标准化是将原始数据减去相应变量的均数,然后再
除以该变量的标准差。
X
' j
(X
jX Sj
j)
计算得到的回归方程称作标准化回归方程, 相应的回归系数即为标准化回归系数。
b
' j
bj
l jj lYY
b j
Sj SY
XiX j
Xi X j , i , j=1,2, ,k n
ljY
( X j X j )(Y Y )
X jY
Xj
Y , j 1, 2 , k
n
统计软件
多重线性回归方程
14
多重线性回归的概念及其统计描述
27
SS总=
2
(Y Y )
(Yˆ
Y
2
)
(Y
Yˆ
2
)
=SS回归+SS 误差
SS回归= yˆ y 2 b1l1y b2l2y bmlmy
ν总 = n-1 ν回归=m ν剩余=n-m-1
SS误差 = SS总 - SS回
归
F
MS回归 MS误差
SS回归/回归 SS误差/ 误差
增加或减少一个单位时Y的平均变 化量。不能用各bj来比较各自变 量对应变量的影响大小。
标准化回归系数无单位,用来 比较各自变量对应变量的影响大 小,bj '越大,自变量对应变量的23
l11
41467
8812 20
2658 .95
l22
137953
.5 1656 .02 20
836.70
SS总=58.9388
Yˆ 0.6815 0.0546 X1 0.1944 X 2
21
标准化回归系数
变量标准化是将原始数据减去相应变量的均数,然后再
除以该变量的标准差。
X
' j
(X
jX Sj
j)
计算得到的回归方程称作标准化回归方程, 相应的回归系数即为标准化回归系数。
b
' j
bj
l jj lYY
b j
Sj SY
XiX j
Xi X j , i , j=1,2, ,k n
ljY
( X j X j )(Y Y )
X jY
Xj
Y , j 1, 2 , k
n
统计软件
多重线性回归方程
14
多重线性回归的概念及其统计描述
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、相关的类型
★正相关 ★负相关 ★完全正相关 ★完全负相关 ★零相关
二、相关系数
◆样本的相关系数用r (correlation coefficient) ◆相关系数r的值在-1和1之间。正相关时,r值在0
和1之间,这时一个变量增加,另一个变量也增 加;负相关时,r值在-1和0之间,此时一个变量 增加,另一个变量将减少。 ◆r的绝对值越接近1,两变量的关联程度越强,r 的绝对值越接近0,两变量的关联程度越弱。
41.20
r
0.61
677.42 6.74
从计算结果可以知道,31例待产妇尿中雌三醇含 量与产儿体重之间呈正相关,相关系数是0.61。
根据资料类型选择不同的方法计算r
Pearson: 连续变量,双变量正态分布资料 Kendall: 资料不服从双变量正态分布或
总体分布未知,等级资料。 Spearman:等级资料
产儿体重 kg(3)
3.2 3.2 3.4 3.4 3.4 3.5 3.5 3.4 3.5 3.6 3.7 3.8 4.0 3.9 4.3
SPSS计算程序
1.做散点图: GRAPHS-SCATTERT-SIMPLE-DEFINE
2. 相关分析: ANALYZE--CORRELATION – BIVARIATE -VARIABLES
孕妇尿中雌三醇含量与产儿体重之间的关系
4.5
4.0
3.5
3.0
产儿体重
2.5
2.0
0
10
20
30
尿雌三醇
Correlations
尿雌三醇 产儿体重
尿 雌 三 醇 Pear son C or relation
1
.610* *
Sig. (2-tailed)
.
.000
N
31
31
产 儿 体 重 Pear son C or relation
另外的例子:
识字数,鞋大小 游泳票与冰激凌销售量
一个产科医师发现孕妇尿中雌三醇含量与产儿的 体重有关。
于是设想,通过测量待产妇尿中雌三醇含量,可 以预测产儿体重,以便对低出生体重进行预防。 因此收集了31例待产妇24小时的尿,测量其中的 雌三醇含量,同时记录产儿的体重。
问尿中雌三醇含量与产儿体重之间相关系数是多 少?是正相关还是负相关?
分析问题:总体-样本、 目的、变量、关系
编号 (1)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
待产妇尿雌三醇含量与产儿体重关系
尿雌三醇 mg/24h(2
7 9 9 12 14 16 16 14 16 16 17 19 21 24 15 16
产儿体重 kg(3)
=0.05 r=0.61, n=31, 代入公式 t= r
t=4.14
n2 1 r2
=n-2=31-2=29
查t值表,t0.05 (29) =2.045,
查t值表, t0.05(29) =2.045, 上述计算t=4.14>2.045,由t所 推断的P值小于0.05 按=0.05水准拒绝??,接受?? 认为待产妇24小时内尿中雌三醇浓度与产儿体重之间有 正相关关系。
.610* *
1
Sig. (2-tailed)
.000
.
N
31
31
**. C orrelation is significant at the 0.01 lev el (2-tailed).
r
(x x) (y y) lxy
(x x)2 (y y)2 lxx lyy
多重线性回归与相关
王海俊 北京大学公共卫生学院
主要内容
第一节 偏相关 第二节 多元线性回归
医学上,许多现象之间都有相互联系,例 如:身高与体重、父亲身高与儿子身高、 体温与脉搏、产前检查与婴儿体重、乙肝 病毒与乙肝等。
在这些有关系的现象中,它们之间联系的 程度和性质也各不相同。
关系:可以说乙肝病毒感染是前因,得了乙肝 是后果,乙肝病毒和乙肝之间是因果关系;但 是,有的现象之间因果不清,只是伴随关系, 例如丈夫的身高和妻子的身高之间,就不能说 有因醇含量与产儿体重之间成正相关, 相关系数是0.61?为什么?
三、相关系数的假设检验
上例中的相关系数r等于0.61,说明了31例样本中雌三醇 含量与出生体重之间存在相关关系。但是,这31例只是 总体中的一个样本,由此得到的相关系数会存在抽样误 差。
因为,总体相关系数()为零时,由于抽样误差,从
相关就是用于研究和解释两个变量之 间相互关系的。
复习: 直线相关
Linear Correlation
一、相关的类型 二、相关系数 三、相关系数的假设检验
为了研究父亲与成年儿子 身高之间的关系,卡尔.皮 尔逊测量了1078对父子的 身高。把1078对数字表示 在坐标上,如图。
它的形状象一块橄榄状的 云,中间的点密集,边沿 的点稀少,其主要部分是 一个椭圆。
总体抽出的31例,其r可能不等于零。 这就要对r进行假设检验,判断r不等于零是由于抽样误差
所致,还是两个变量之间确实存在相关关系。
对相关系数的假设检验,常用t检验,选用 统计量t的计算公式如下:
t r0 r r n2
sr
1 r2
1 r2
n2
=n-2
H0 : =0 H1 : ≠0
2.5 2.5 2.5 2.7 2.7 2.7 2.4 3.0 3.0 3.1 3.0 3.1 3.0 2.8 3.2 3.2
编号 (1)
17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
尿雌三醇 mg/24h(2)
17 25 27 15 15 15 16 19 18 17 18 20 22 25 24
Correlations
尿雌三醇 产儿体重
尿 雌 三 醇 Pear son C or relation
1
.610* *
Sig. (2-tailed)
.
.000
N
31
31
产 儿 体 重 Pear son C or relation
.610* *
1
Sig. (2-tailed)
.000
.
N
31
31
**. C orrelation is significant at the 0.01 lev el (2-tailed).