第12章 回归分析[研究材料]
第12章 线性相关与回归

所以当计算出样本相关系数r后,
应对r是否来自ρ=0的总体作假设
检验,以判断两变量的总体是否有 直线相关关系。常用的假设检验方 法为t检验,其t值的计算公式为:
r 0 r tr 2 sr 1 r n2 n2
例10.2 对例10.1求得的r值作假
设检验。
1)建立假设并确定检验水准
如果我们主要目的是分析两变 量间是否存在直线相关关系,这时 我们就应进行x和y之间的线性相关
分析。如:我们要分析女大学身高
与体重之间的关系,通过散点图发
现两者有直线趋势,可对两个变量
进行线性相关分析。
直线相关(linear correlation): 是指两变量间存在的关系为直线关 系。又称为简单相关(simple
230 .455 r 0.8012 1000 .909 82.727
即表示男青年身高与前臂长之间存在正 相关关系。但还需作假设检验
三、相关系数的假设检验
相关系数r是根据样本资料计算
出来的,它是总体相关系数ρ的估
计值。若从ρ=0的总体中进行随机
抽样,抽取的样本相关系数也可能
不等于0,这是抽样误差所致。
(3,8365)和(21,36.06)两点,就 可做出本例的直线回归方程的图示。
ˆ 注意:直线必须通过( x ,y )和
纵轴上(0,a)两点,因此,这两点可
以用来核对回归直线绘制是否正确。
四、回归系数的假设检验
抽样研究中,计算出的回归系数 b为样本回归系数,故应考虑假设检 验的问题。即使我们从x、y的总体
r
( x x )( y y ) ( x x ) ( y y)
22Biblioteka l xy l xxl yy
第12章-多重线性回归分析

6 因变量总变异的分解
P
(X,Y)
Y
(Y Y) (Y Y)
(Y Y)
Y X
Y
Y
9
Y的总变异分解
Y Y Yˆ Y Y Yˆ
Y Y 2 Yˆ Y 2 Y Yˆ 2
总变异 SS总
回归平方和 剩余平方和
SS回
SS剩
10
Y的总变异分解
病程 (X2)
10.0 3.0 15.0 3.0 4.0 6.0 2.9 9.0 5.0 2.0 8.0 20.0
表 12-1 脂联素水平与相关因素的测量数据
空腹
回归模空型腹 ?
瘦素
脂联 BMI 病程 瘦素
脂联
(X3)
血糖 (X4)
素(Y)
(X1)
(X2)
(X3)
血糖 素(Y) (X4)
5.75 13.6 29.36 21.11 9.0 4.90 6.0 17.28
H 0: 1 2 3 4 0 ,即总体中各偏回归系数均为0; H 1:总体中各偏回归系数不为0或不全为0;
= 0.05。
2 计算检验统计量: 3 确定P值,作出推断结论。
拒绝H0,说明从整体上而言,用这四个自变量构成 的回归方程解释糖尿病患者体内脂联素的变化是有统 计学意义的。
的平方和 (Y Yˆ)2为最小。
只有一个自变量
两个自变量
例12-1 为了研究有关糖尿病患者体内脂联素水平的影响因 素,某医师测定30例患者的BMI、病程、瘦素、空腹血糖, 数据如表12-1所示。
BMI (X1)
24.22 24.22 19.03 23.39 19.49 24.38 19.03 21.11 23.32 24.34 23.82 22.86
社会统计学第十二章 相关与回归分析

2. 相关方向:正相关和负相关 所谓正相关关系是指一个变量的值增加时,另一变
量的值也增加。例如,受教育水平越高找到高薪水工作的 机会也越大。而负相关关系是指一个变量的值增加时,另 一变量的值却减少。例如,受教育水平越高,理想子女数 目越少。要强调的是,只有定序以上测量层次的变量才分 析相关方向,因为只有这些变量的值有高低或多少之分。 至于定类变量,由于变量的值并无大小、高低之分,故定 类变量与其他变量相关时就没有正负方向了。
父母智力 组合
优+优
优+劣 一般+一般
劣+劣
子女智力 子女智力
优秀
一般
71.6 25.4
33.6 42.7
18.6 66.9
5.4 34.4
子女智力 低下
3.0 23.7 14.5 60.2
通过列联表研究定类变量之间的关联性,这 实际上是通过相对频数条件分布的比较进行的。 如果对不同的X,Y的相对频数条件分布不同,且 和Y的相对频数边际分布不同,则两变量之间是 相关的。而如果变量间是相互独立的话,必然存 在着Y的相对频数条件分布相同,且和它的相对 频数边际分布相同。后者用数学式表示就是
r×c相对频数联合分布列联表
控制X,Y相对频数条件分布列联表
控制Y,X相对频数条件分布列联表
[例A1]试把下表所示的频数分布列联表,转 化为自变量受到控制的相对频数条件分布列联 表,并加以相关分析。
投票行为
受教育程度X
Y
大学以 大学以
FY
上
下
投票
160
129
289
弃权
7
61
68
合计:FX 167
r×c相对频数分布列联表的一般形式
在相对频数分布列联表中,各数据为各分类
第12章简单回归分析2

假设检验
例: 用上例资料检验脐带血TSH水平对母血TSH水 平的直线关系是否成立?
Ho:β=0 即母血TSH水平与脐带血TSH水平之间 无线性关系
H1:β≠0 即母血TSH水平与脐带血TSH水平之间有 线性关系
α =0.05
方差分析表
已知 υ1=1, υ2=8,查F界值表,得P<0.05,按 α=0.05水准拒绝Ho,接受H1,故可以认为脐带血 TSH水平与母血TSH水平之间有线性关系
残差(residual)或剩余值,即实测值Y与假定回
归线上的估计值 Y ˆ 的纵向距离 Y Yˆ。
求解a、b实际上就是“合理地”找到一条能最好
地代表数据点分布趋势的直线。
原则:最小二乘法(least sum of squares),即可 保证各实测点至直线的纵向距离的平方和最小。
最小二乘法
两部分构成,即:
(yy)(y ˆy)+(yy ˆ)
上式两端平方,然后对所有的n点求和,则有
(yy)2 [(y ˆy)+(yy ˆ)2 ]
离差平方和的分解
(三个平方和的关系)
1. 从图上看有
y y y y ˆ+ y ˆ y
2. 两端平方后求和有
n
求X,Y,l XX,lYY,l XY X 15.79 8 2.00,Y 249.01 8 31.13
lXX 47.0315.972 8 15.15 lYY 8468.78 249.012 8 718.03
lXY 594.4815.97249.01 8 97.39
另一次抽样研究 50岁年龄组舒张压得总体均数估
第十二章 线性回归分析

回归是回归分析中最基本、最简单的一种,
回归方程
一、直线回归方程的一般表达式为
ˆ a bX Y
(12 1)
ˆ Y 为各X处Y的总体均数的估计。
回归方程的应用
一、线性回归的主要用途 1.研究因素间的依存关系 自变量和应变 量之间是否存在线性关系,即研究一个或多个 自变量对应变量的作用,或者应变量依赖自变 量变化而变化的规律。
否存在实际意义。 3.两变量间存在直线关系时,不一定
表明彼此之间就存在因果关系。
4.建立回归方程后,须对回归系数
进行假设检验。
5. 使用回归方程进行估计与预测时,
一般只适用于原来的观测范围,即自变量
的取值范围,不能随意将范围扩大。
6. 在线性回归分析时,要注意远离
群体的极端值对回归效果的影响。
表12-1 12只大白鼠的进食量(g)与体重增加量(g)测量结果
序号 (1) 1 2 3 4 5 6 7 8 9 10 11 12 合计
X 进食量(g)
(2) 305.7 188.6 277.2 364.8 285.3 244.7 255.9 149.8 268.9 247.6 168.8 200.6 2957.9 (Σ X)
目前,“回归”已成为表示变量 之间某种数量依存关系的统计学术语, 并且衍生出“回归方程”“回归系数”
等统计学概念。如研究糖尿病人血糖
与其胰岛素水平的关系,研究儿童年 龄与体重的关系等。
两相关变量的散点图
一、直线回归的概念
目的:研究应变量Y对自变量X的数量依 存关系。
特点:统计关系。 X值和Y的均数的关系,
不同于一般数学上的X 和Y的函数 关系。
为了直观地说明两相关变量的线性 依存关系,用表12-1第(2)、(3)
12章多重线性回归与相关

一、自变量筛选的标准与原则
2.残差均方缩小与调整决定系数增大 MS残=SS残/(n-p-1) MS残缩小的准则可以看做是在SS残缩小准则的基础上 增加了(n-p-1)-1因子,该因子随模型中自变量个数 p的增加而增加,体现了对模型中自变量个数增加而 施加的“惩罚”。 调整决定系数Ra2越大越好,与MS残等价。
包含汽车流量、气温、气湿与风速这四个自变量的回
归方程可解释交通点空气NO浓度变异性的78.74%
2.复相关系数R (multiple correlation coefficient)
定义为确定系数的算术平方根,
R SS回 SS总
表示变量Y与k个自变量的线性相关的密切程度。 对本例R=0.8837,表示交通点空气NO浓度与汽车流量、
表12-5 空气中NO浓度与各自变量的相关系数与偏相关系数
自变量 车流X1 相关系数 0.80800 偏相关系数 0.6920 偏相关系数P值 0.0005
气温X2
气湿X3 风速X4
0.1724
0.2754 -0.67957
0.47670
-0.00218 -0.59275
0.0289
0.9925 0.0046
第十二章
第一节 第二节 第三节 第四节
多重线性回归与相关
多重线性回归的概念与统计描述 多重线性回归的假设检验 复相关系数与偏相关系数 自变量筛选
一、整体回归效应的假设检验(方差分析)
表12-2 检验回归方程整体意义的方差分析表
变异来源 回归模型
残差 总变异
SS
0.0639 6 0.0172 7 0.0812 3
风速
(X4) 2.00 2.40 3.00 1.00 2.80 1.45 1.50 1.50 0.90 0.65 1.83 2.00
第十二章相关与回归分析

第十二章 相关与回归分析四、名词说明1.消减误差比例变量间的相关程度,能够用不知Y 与X 有关系时预测Y 的误差0E ,减去明白Y 与X 有关系时预测Y 的误差1E ,再将其化为比例来气宇。
将削减误差比例记为PRE 。
2. 确信性关系当一个变量值确信后,另一个变量值夜完全确信了。
确信性关系往往表现成函数形式。
3.非确信性关系在非确信性关系中,给定了一个变量值,另一个变量值还能够在必然范围内转变。
4.因果关系变量之间的关系知足三个条件,才能判定是因果关系。
1)连个变量有共变关系,即一个变量的转变会伴随着另一个变量的转变;2)两个变量之间的关系不是由其他因素形成的,即因变量的转变是由自变量的转变引发的;3)两个变量的产生和转变有明确的时刻顺序,即一个在前,另一个在后,前者称为自变量,后者称为因变量。
5.单相关和复相关单相关只涉及到两个变量,因此又称为二元相关。
三个或三个以上的变量之间的相关关系那么称为复相关,又称多元相关。
6.正相关与负相关正相关与负相关:正相关是指一个变量的值增加时,另一变量的值也增加;负相关是指一个变量的值增加时,另一变量的值却减少。
7.散点图散点图:将相关表所示的各个有对应关系的数据在直角坐标系上画出来,以直观地观看X 与Y 的彼此关系,即得相关图,又称散点图。
8.皮尔逊相关系数r皮尔逊相关系数是协方差与两个随机变量X 、Y 的标准差乘积的比率。
9.同序对 在观看X 序列时,若是看到i j X X <,在Y 中看到的是i j Y Y <,那么称这一配对是同序对。
10.异序对 在观看X 序列时,若是看到i j X X <,在Y 中看到的是i j Y >Y ,那么称这一配对是异序对。
11.同分对若是在X 序列中,咱们观看到i j X =X (现在Y 序列中无i j Y =Y ),那么那个配对仅是X 方向而非Y 方向的同分对;若是在Y 序列中,咱们观看到i j Y =Y (现在X 序列中无i j X =X ),那么那个配对仅是Y 方向而非X 方向的同分对;咱们观看到i j X =X ,也观看到i j Y =Y ,那么称那个配对为X 与Y 同分对。
第十二章 回归分析

回归分析
如果我们将存在相关的两个变量,一个作为自变 量,另一个作为因变量,并把两者之间不十分稳 定的、准确的关系,用数学方程式来表达,则可 利用该方程由自变量的值来估计、预测因变量的 估计值,这一过程称为回归分析。 相关表示两个变量之间的双向相互关系,回归表 示一个变量随另一个变量做不同程度变化的单向 关系。
• 线性回归的基本假设
– – – – 线性关系 正态分布 独立性假设 误差等分散性假设
• 回归方程的建立
– 步骤:1)作散点图;2)设直线方程;3)选定具体方 法,计算表达式中的a和b;4)将a和b代入表达式,得 到回归方程。 – 方法:1)平均数法;2)最小二乘法。 • 最小二乘法:在配置回归线时,回归系数b的确定原则是 使散布图上各点距回归线上相应点的纵向距离平方和为最 小,这种求b的方法即最小二乘法。
• 回归分析与相关分析的关系
– 理解: • 同属相关分析; • 对称设计与不对称设计。 – 回归系数与相关系数的关系 • 相关系数是两个回归系数的几何平均数。
第二节 一元线性回归方程的检验
• 估计误差的标准差
某一X值相对应的诸Y 值,是以Y的平均数YX 为中 ˆ 心呈正态分布的。而与某一X值相对应的回归值 Y 就是与该X值相对应的那些诸Y值的平均数YX的估 ˆ 计值。由 Y 估计YX 会有一定的误差。误差大小 与X值相对应的诸Y值分布范围有关,范围大,误 差大,估计的准确性、可靠性小,范围小,误差小, 估计的准确性、可靠性大。 ˆ 我们需要一个用来描述由Y 估计YX 时误差大小的 指标,即估计误差的标准差。平均数与标准差未知, 样本的无偏估计量为:
a YX Y bYX X
• 列回归方程式(见教材)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
调研学习
15
调研学习
16
调研学习
17
三、估计回归方程
估计回归方程(Estimated regression equation) 就是用样本统计量作为参数的估 计值所建立的回归方程。
yˆ b0 b1x
yˆ :y 的估计值
(12.4)
b0 :0 的估计值
b1 : 1 的估计值
调研学习
2
案例讨论: 1.这个案例都告诉了我们哪些信息?
2.通过阅读这个案例你受到哪些启发?
调研学习
3
根据一个变量(或更多变量)来估计 某一变量的方法,统计上称为回归分析 (Regression analysis)。
回归分析中,待估计的变量称为因变 量(Dependent variables),用y表示;用来 估计因变量的变量称为自变量 (Independent variables),用x表示。
32
决定系数的取值
R2的取值范围是[0,1]。 R2越接近于1,表明回归平方和占总离差
平方和的比例越大,回归直线与各观测点 越接近,回归直线的拟合程度就越好。
指标是测定系数,(又称可决系数、判定
系数)。
该指标是建立在对总离差平方和进
行分解的基础之上的。
调研学习
30
离差分解图
y
(xi , yi )
{ } y yˆ
yy
}yˆ y
yˆ ˆ0 ˆ1x
y
离差分解图
调研学习
x
31
离差平方和的分解
y y ( yˆ y) ( y yˆ ) (12.9)
b1
xi yi x y
x2
2
nx
b1
n
xi yi n x2
xi yi x2
12.7a 12.7b
b0 y b1 x (12.8)
调研学习
23
调研学习
24
b1
n
xi yi n x2
xi yi x2
12 4462.220 930 56.690
12 73764 9302
0.0407
调研学习
25
b0 y b1 x
n
y
b1
n
x
56.690 0.0407 930
12
12
1.570
调研学习
26
(四)将b0和 b1 的计算结果代入式
(12.5)有:
yˆi 1.570 0.0407 xi
结论:
计算结果表明,在其他条件相同情况下, 12条航线上波音737飞机各条航线每次飞行时 每增加1名乘客,将会使飞行成本平均增加 40.70元。
程称为回归方程(Regression equation)。
调研学习
12
E y 0 1x (12.3)
在简单线性回归中 1.回归方程的图形是一条直线(如图12.1
所示);
调研学习
13
调研学习
14
2. 0 :y 的截距;
3. 1:斜率(回归系数); 1 的含义:当自变量 x 给定一个具体变动值
0、1 :参数
:误差项(随机变量),含义为说明在 y
中不能被x 和y 之间线性关系解释的变异
性。
调研学习
11
在有关 假设中,有一个假设就是的
期望值或均值等于0,即
E 0
(12.2)
如果简单线性回归模型满足了这个条
件,那么就意味着 y 的均值或期望值就是
一个线性函数。
描述 y 的均值与 x 的关系如何的方
调研学习
27
yˆi 1.570 0.0407 70
4.419千元
**Y = 4.48千元二者差0.061千元或61元。
调研学习
28
第三节 一元线性回归方程的评价
测定系数 估计标准误差
调研学习
29
一、测定系数
回归直线与各观测数据的接近程度 称为回归直线的拟合优度。
度量回归直线的入手
用回归分析可以预测运行一条商业航空 线的成本吗?
如果可以,那么哪些变量与这一成本有 关呢?
调研学习
6
飞机型号
飞行距离 乘客数量
行李或货物重量
飞机运行成本
天气状况
……
调研学习
7
为了减少自变量个数,我们做如下假定:
飞机类别——波音737飞机 飞行距离——500公里 航线——可比,而且在每年的相同季节 在这种条件下,可以用乘客数来预测飞行
第十二章 回归分析
学习目标 掌握简单线性回归模型基本原理。 掌握最小平方法。 掌握测定系数。 了解模型假定。 掌握显著性检验 学会用回归方程进行估计和预测。 了解残差分析。
调研学习
1
习题
1. P370-1 2. P372-7 3. P380-18
4. P380-20 5. P388-28 6. P393-35
调研学习
18
调研学习
19
第二节 最小平方法
最小平方法(Least squares method), 也称最小二乘法,是将回归模型的方差之 和最小化,以得到一系列方程,从这些方 程中解出模型中需要的参数的一种方法。
调研学习
20
(一)画散点图,以初步观察成本与乘客 数量之间是否呈回归直线。
调研学习
的成本吗?
调研学习
8
表12-1是每年相同季节波音737飞机在 12条500公里的不同航线不同乘客数时的飞 行成本。我们用这些数据以乘客数作为自 变量构造模型来预测成本。
调研学习
9
调研学习
10
二、回归模型和回归方程
y 0 1x
y :因变量(随机变量)
x :自变量(给定变量)
(12.1)
调研学习
4
第一节 简单线性回归模型
只涉及两个变量(一个自变量和一 个因变量)之间关系的回归分析称为简
单回归分析(Simple regression analysis)。
两个变量之间的关系大约呈一条直
线的简单回归分析称为简单线性回归分
析(Simple linear regression analysis)。
两端平方后求和有
yi y2 yˆi y2 yi yˆ 2 (12.10)
{ { {
总离差平方和 (SST)
回归平方和 (SSR)
残差平方和 (SSE)
R2 SSR ( yˆi y)2 1 ( yi yi )2
SST (yi y)2
( yi y)2
(12.11)
调研学习
21
(二)建立估计回归方程
yˆi b0 b1xi i 1,2,,12 (12.5)
最小平方法运用样本数据求出 b和0
使得因变量的实际观察值 与其yi 估计值
的b1 值,
之
yˆi 差的平方和最小,即
yi yˆi 2 min
(12.6)
调研学习
22
(三)估计回归方程斜率和截距的计算公式