第十二章回归分析

合集下载

第12章-多重线性回归分析

8
6 因变量总变异的分解
P
(X,Y)

Y
（Y Y）（Y Y）

（Y Y）
Y X

Y
Y
9
Y的总变异分解
Y Y Yˆ Y Y Yˆ
Y Y 2 Yˆ Y 2 Y Yˆ 2
总变异 SS总
回归平方和剩余平方和
SS回
SS剩
10
Y的总变异分解
病程 (X2)
10.0 3.0 15.0 3.0 4.0 6.0 2.9 9.0 5.0 2.0 8.0 20.0
表 12-1 脂联素水平与相关因素的测量数据
空腹
回归模空型腹？
瘦素
脂联 BMI 病程瘦素
脂联
(X3)

血糖 (X4)
素(Y)
(X1)
(X2)
(X3)
血糖素(Y) (X4)
5.75 13.6 29.36 21.11 9.0 4.90 6.0 17.28
H 0： 1 2 3 4 0 ，即总体中各偏回归系数均为0； H 1：总体中各偏回归系数不为0或不全为0；
= 0.05。
2 计算检验统计量： 3 确定P值，作出推断结论。
拒绝H0，说明从整体上而言，用这四个自变量构成的回归方程解释糖尿病患者体内脂联素的变化是有统计学意义的。
的平方和 (Y Yˆ)2为最小。
只有一个自变量
两个自变量
例12-1 为了研究有关糖尿病患者体内脂联素水平的影响因素，某医师测定30例患者的BMI、病程、瘦素、空腹血糖，数据如表12-1所示。
BMI (X1)
24.22 24.22 19.03 23.39 19.49 24.38 19.03 21.11 23.32 24.34 23.82 22.86

社会统计学第十二章相关和回归分析

自己志愿
快乐家庭理想工作增广见闻
总数
知心朋友志愿
快乐家理想工增广见
庭
作
闻
28
9
3
2
41
7
2
4
4
32
54
14
总数
40 50 10 100
两个边际分布：
r
F Xi fi1fi2 fij fir fij j1 c
F Yj f1jf2j fi j fcj fi j i 1
cr
F X 1F X 2 F X i F X c fijn i 1j 1
rc
F Y 1F Y 2 F Y j F Y r fi jn j 1i 1
条件频数表中各频数因基数不同不便作直接比较，因此有必要将频数化成相对频数，使基数标准化。这样，我们就从频数分布的列联表得到了相对频数分布的列联表(或称频率分布的列联表)。下表是r×c相对频数分布列联表的一般形式。
第十二章相关与回归分析
第一节相关关系及种类第二节定类变量的相关分析第三节定序变量的相关分析第四节定距变量的相关分析第五节回归分析
社会上，许多现象之间也都有相互联系，例如：身高与体重、教育程度和收入、学业成就和家庭环境、智商与父母智力等。在这些有关系的现象中，它们之间联系的程度和性质也各不相同。
本书第十章提出了两总体的检验及估计的问题，这意味着我们开始与双变量统计方法打交道了。双变量统计与单变量统计最大的不同之处是，客观事物间的关联性开始披露出来。这一章我们将把相关关系的讨论深入下去，不仅要对相关关系的存在给出判断，更要对相关关系的强度给出测量，同时要披露两变量间的因果联系，其内容分为相关分析和回归分析这两个大的方面。

第12章简单回归分析2

Y ˆ2.99+40.9 39X 73
假设检验
例：用上例资料检验脐带血TSH水平对母血TSH水平的直线关系是否成立?
Ho:β＝0 即母血TSH水平与脐带血TSH水平之间无线性关系
H1:β≠0 即母血TSH水平与脐带血TSH水平之间有线性关系
α ＝0.05
方差分析表
已知 υ1＝1， υ2＝8，查F界值表，得P<0.05，按 α＝0.05水准拒绝Ho，接受H1，故可以认为脐带血 TSH水平与母血TSH水平之间有线性关系
残差(residual)或剩余值，即实测值Y与假定回
归线上的估计值 Y ˆ 的纵向距离 Y Yˆ。
求解a、b实际上就是“合理地”找到一条能最好
地代表数据点分布趋势的直线。
原则：最小二乘法(least sum of squares)，即可保证各实测点至直线的纵向距离的平方和最小。
最小二乘法
两部分构成，即：
(yy)(y ˆy)+(yy ˆ)
上式两端平方，然后对所有的n点求和，则有
(yy)2 [(y ˆy)+(yy ˆ)2 ]
离差平方和的分解
（三个平方和的关系）
1. 从图上看有
y y y y ˆ+ y ˆ y
2. 两端平方后求和有
n
求X，Y，l XX，lYY，l XY X 15.79 8 2.00，Y 249.01 8 31.13
lXX 47.0315.972 8 15.15 lYY 8468.78 249.012 8 718.03
lXY 594.4815.97249.01 8 97.39
另一次抽样研究 50岁年龄组舒张压得总体均数估

第十二章线性回归分析

回归是回归分析中最基本、最简单的一种，
回归方程
一、直线回归方程的一般表达式为
ˆ a bX Y

(12 1)
ˆ Y 为各X处Y的总体均数的估计。
回归方程的应用
一、线性回归的主要用途 1．研究因素间的依存关系自变量和应变量之间是否存在线性关系，即研究一个或多个自变量对应变量的作用，或者应变量依赖自变量变化而变化的规律。
否存在实际意义。 3．两变量间存在直线关系时，不一定
表明彼此之间就存在因果关系。
4．建立回归方程后，须对回归系数
进行假设检验。
5. 使用回归方程进行估计与预测时，
一般只适用于原来的观测范围，即自变量
的取值范围，不能随意将范围扩大。
6. 在线性回归分析时，要注意远离
群体的极端值对回归效果的影响。
表12-1 12只大白鼠的进食量（g）与体重增加量(g)测量结果
序号 (1) 1 2 3 4 5 6 7 8 9 10 11 12 合计
X 进食量(g)
(2) 305.7 188.6 277.2 364.8 285.3 244.7 255.9 149.8 268.9 247.6 168.8 200.6 2957.9 (Σ X)
目前，“回归”已成为表示变量之间某种数量依存关系的统计学术语，并且衍生出“回归方程”“回归系数”
等统计学概念。如研究糖尿病人血糖
与其胰岛素水平的关系，研究儿童年龄与体重的关系等。
两相关变量的散点图
一、直线回归的概念
目的：研究应变量Y对自变量X的数量依存关系。
特点：统计关系。 X值和Y的均数的关系，
不同于一般数学上的X 和Y的函数关系。
为了直观地说明两相关变量的线性依存关系，用表12-1第（2）、（3）

12章多重线性回归与相关

一、自变量筛选的标准与原则
2.残差均方缩小与调整决定系数增大 MS残=SS残/（n-p-1） MS残缩小的准则可以看做是在SS残缩小准则的基础上增加了（n-p-1）-1因子，该因子随模型中自变量个数 p的增加而增加，体现了对模型中自变量个数增加而施加的“惩罚”。调整决定系数Ra2越大越好，与MS残等价。
包含汽车流量、气温、气湿与风速这四个自变量的回
归方程可解释交通点空气NO浓度变异性的78.74%
2.复相关系数R (multiple correlation coefficient)
定义为确定系数的算术平方根，
R SS回 SS总
表示变量Y与k个自变量的线性相关的密切程度。对本例R=0.8837，表示交通点空气NO浓度与汽车流量、
表12-5 空气中NO浓度与各自变量的相关系数与偏相关系数
自变量车流X1 相关系数 0.80800 偏相关系数 0.6920 偏相关系数P值 0.0005
气温X2
气湿X3 风速X4
0.1724
0.2754 -0.67957
0.47670
-0.00218 -0.59275
0.0289
0.9925 0.0046
第十二章
第一节第二节第三节第四节
多重线性回归与相关
多重线性回归的概念与统计描述多重线性回归的假设检验复相关系数与偏相关系数自变量筛选
一、整体回归效应的假设检验(方差分析)
表12-2 检验回归方程整体意义的方差分析表
变异来源回归模型
残差总变异
SS
0.0639 6 0.0172 7 0.0812 3
风速
(X4) 2.00 2.40 3.00 1.00 2.80 1.45 1.50 1.50 0.90 0.65 1.83 2.00

(完整版)第十二章相关和回归分析练习试题

第十二章相关与回归分析一、填空1.如果两变量的相关系数为0，说明这两变量之间_____________。

2.相关关系按方向不同，可分为__________和__________。

3.相关关系按相关变量的多少，分为______和复相关。

4．在数量上表现为现象依存关系的两个变量，通常称为自变量和因变量。

自变量是作为（变化根据）的变量，因变量是随（自变量）的变化而发生相应变化的变量。

5．对于表现为因果关系的相关关系来说，自变量一般都是确定性变量，因变量则一般是（随机性）变量。

6．变量间的相关程度，可以用不知Y与X有关系时预测Y的全部误差E1，减去知道Y与X有关系时预测Y的联系误差E2，再将其化为比例来度量，这就是（削减误差比例）。

7．依据数理统计原理，在样本容量较大的情况下，可以作出以下两个假定：（1）实际观察值Y围绕每个估计值cY是服从（）；（2）分布中围绕每个可能的cY值的（）是相同的。

7.已知：工资（元）倚劳动生产率（千元）的回归方程为xyc8010+=，因此，当劳动生产率每增长1千元，工资就平均增加 80 元。

8．根据资料，分析现象之间是否存在相关关系，其表现形式或类型如何，并对具有相关关系的现象之间数量变化的议案关系进行测定，即建立一个相关的数学表达式，称为（回归方程），并据以进行估计和预测。

这种分析方法，通常又称为（回归分析）。

9．积差系数r是（协方差）与X和Y的标准差的乘积之比。

二、单项选择1．欲以图形显示两变量X和Y的关系，最好创建（D ）。

A 直方图 B 圆形图 C 柱形图 D 散点图2．在相关分析中，对两个变量的要求是（ A ）。

A 都是随机变量B 都不是随机变量C 其中一个是随机变量，一个是常数D 都是常数3. 相关关系的种类按其涉及变量多少可分为( )。

A. 正相关和负相关B. 单相关和复相关C. 线性相关和非线性相关D. 不相关、不完全相关、完全相关4．关于相关系数，下面不正确的描述是（ B ）。

第十二章分层回归分析--Hierarchy Regression

分层回归其实是对两个或多个回归模型进行比较。

我们可以根据两个模型所解释的变异量的差异来比较所建立的两个模型。

一个模型解释了越多的变异，则它对数据的拟合就越好。

假如在其他条件相等的情况下，一个模型比另一个模型解释了更多的变异，则这个模型是一个更好的模型。

两个模型所解释的变异量之间的差异可以用统计显著性来估计和检验。

模型比较可以用来评估个体预测变量。

检验一个预测变量是否显著的方法是比较两个模型，其中第一个模型不包括这个预测变量，而第二个模型包括该变量。

假如该预测变量解释了显著的额外变异，那第二个模型就显著地解释了比第一个模型更多的变异。

这种观点简单而有力。

但是，要理解这种分析，你必须理解该预测变量所解释的独特变异和总体变异之间的差异。

一个预测变量所解释的总体变异是该预测变量和结果变量之间相关的平方。

它包括该预测变量和结果变量之间的所有关系。

预测变量的独特变异是指在控制了其他变量以后，预测变量对结果变量的影响。

这样，预测变量的独特变异依赖于其他预测变量。

在标准多重回归分析中，可以对独特变异进行检验，每个预测变量的回归系数大小依赖于模型中的其他预测变量。

在标准多重回归分析中，回归系数用来检验每个预测变量所解释的独特变异。

这个独特变异就是偏相关的平方（Squared semi-partial correlation）-sr2（偏确定系数）。

它表示了结果变量中由特定预测变量所单独解释的变异。

正如我们看到的，它依赖于模型中的其他变量。

假如预测变量之间存在重叠，那么它们共有的变异就会削弱独特变异。

预测变量的独特效应指的是去除重叠效应后该预测变量与结果变量的相关。

这样，某个预测变量的特定效应就依赖于模型中的其他预测变量。

标准多重回归的局限性在于不能将重叠（共同）变异归因于模型中的任何一个预测变量。

这就意味着模型中所有预测变量的偏决定系数之和要小于整个模型的决定系数（R2）。

总决定系数包括偏决定系数之和与共同变异。

第十二章回归分析

第十二章回归分析
回归分析
如果我们将存在相关的两个变量，一个作为自变量，另一个作为因变量，并把两者之间不十分稳定的、准确的关系，用数学方程式来表达，则可利用该方程由自变量的值来估计、预测因变量的估计值，这一过程称为回归分析。相关表示两个变量之间的双向相互关系，回归表示一个变量随另一个变量做不同程度变化的单向关系。
• 线性回归的基本假设
– – – – 线性关系正态分布独立性假设误差等分散性假设
• 回归方程的建立
– 步骤：1）作散点图；2）设直线方程；3）选定具体方法，计算表达式中的a和b；4）将a和b代入表达式，得到回归方程。 – 方法：1）平均数法；2）最小二乘法。 • 最小二乘法：在配置回归线时，回归系数b的确定原则是使散布图上各点距回归线上相应点的纵向距离平方和为最小，这种求b的方法即最小二乘法。
• 回归分析与相关分析的关系
– 理解： • 同属相关分析； • 对称设计与不对称设计。 – 回归系数与相关系数的关系 • 相关系数是两个回归系数的几何平均数。
第二节一元线性回归方程的检验
• 估计误差的标准差
某一X值相对应的诸Y 值，是以Y的平均数YX 为中 ˆ 心呈正态分布的。而与某一X值相对应的回归值 Y 就是与该X值相对应的那些诸Y值的平均数YX的估 ˆ 计值。由 Y 估计YX 会有一定的误差。误差大小与X值相对应的诸Y值分布范围有关，范围大，误差大，估计的准确性、可靠性小，范围小，误差小，估计的准确性、可靠性大。 ˆ 我们需要一个用来描述由Y 估计YX 时误差大小的指标，即估计误差的标准差。平均数与标准差未知，样本的无偏估计量为：

a YX Y bYX X
• 列回归方程式（见教材）

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

-131-第十二章回归分析前面我们讲过曲线拟合问题。

曲线拟合问题的特点是，根据得到的若干有关变量的一组数据，寻找因变量与（一个或几个）自变量之间的一个函数，使这个函数对那组数据拟合得最好。

通常，函数的形式可以由经验、先验知识或对数据的直观观察决定，要作的工作是由数据用最小二乘法计算函数中的待定系数。

从计算的角度看，问题似乎已经完全解决了，还有进一步研究的必要吗?从数理统计的观点看，这里涉及的都是随机变量，我们根据一个样本计算出的那些系数，只是它们的一个（点）估计，应该对它们作区间估计或假设检验，如果置信区间太大，甚至包含了零点，那么系数的估计值是没有多大意义的。

另外也可以用方差分析方法对模型的误差进行分析，对拟合的优劣给出评价。

简单地说，回归分析就是对拟合问题作的统计分析。

具体地说，回归分析在一组数据的基础上研究这样几个问题：（i ）建立因变量y 与自变量m x x x ,,,21 之间的回归模型（经验公式）；（ii ）对回归模型的可信度进行检验；（iii ）判断每个自变量),,2,1(m i x i =对y 的影响是否显著；（iv ）诊断回归模型是否适合这组数据；（v ）利用回归模型对y 进行预报或控制。

§1 多元线性回归回归分析中最简单的形式是x y 10ββ+=，y x ,均为标量，10,ββ为回归系数，称一元线性回归。

它的一个自然推广是x 为多元变量，形如m m x x y βββ+++= 110 (1)2≥m ，或者更一般地)()(110x f x f y m m βββ+++= （2）其中),,(1m x x x =，),,1(m j f j =是已知函数。

这里y 对回归系数),,,(10m ββββ =是线性的，称为多元线性回归。

不难看出，对自变量x 作变量代换，就可将（2）化为（1）的形式，所以下面以（1）为多元线性回归的标准型。

1.1 模型在回归分析中自变量),,,(21m x x x x =是影响因变量y 的主要因素，是人们能控制或能观察的，而y 还受到随机因素的干扰，可以合理地假设这种干扰服从零均值的正态分布，于是模型记作⎩⎨⎧++++=),0(~2110σεεβββN x x y m m （3）其中σ未知。

现得到n 个独立观测数据),,,(1im i i x x y ，m n n i >=,,,1 ，由（3）得⎩⎨⎧=++++=ni N x x y i i im m i i ,,1),,0(~2110 σεεβββ （4）记-132-⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=nm n m x x x x X 111111， ⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=n y y Y 1 （5） T n ][1εεε=，T m ][10ββββ =（4）表为 ⎩⎨⎧+=),0(~2σεεβN X Y （6） 1.2 参数估计用最小二乘法估计模型（3）中的参数β。

由（4）式这组数据的误差平方和为∑=--==n i T i X Y X Y Q 12)()()(ββεβ （7）求β使)(βQ 最小，得到β的最小二乘估计，记作βˆ，可以推出 Y X X X T T 1)(ˆ-=β （8）将βˆ代回原模型得到y 的估计值 mm x x y βββˆˆˆˆ110+++= （9）而这组数据的拟合值为βˆˆX Y=，拟合误差Y Y e ˆ-=称为残差，可作为随机误差ε的估计，而∑∑==-==n i ni i i i y y eQ 1122)ˆ( （10）为残差平方和（或剩余平方和），即)ˆ(βQ 。

1.3 统计分析不加证明地给出以下结果：（i ）βˆ是β的线性无偏最小方差估计。

指的是βˆ是Y 的线性函数；βˆ的期望等于β；在β的线性无偏估计中，βˆ的方差最小。

（ii ）βˆ服从正态分布 ))(,(~ˆ12-X X N T σββ （11）（iii ）对残差平方和Q ，2)1(σ--=m n EQ ，且)1(~22--m n Q χσ （12）由此得到2σ的无偏估计22ˆ1σ=--=m n Q s （13） 2s 是剩余方差（残差的方差），s 称为剩余标准差。

-133-（iv ）对Y 的样本方差∑=-=n i i y yS 12)(进行分解，有U Q S +=， ∑=-=n i i y yU 12)ˆ( （14）其中Q 是由（10）定义的残差平方和，反映随机误差对y 的影响，U 称为回归平方和，反映自变量对y 的影响。

1.4 回归模型的假设检验因变量y 与自变量m x x ,,1 之间是否存在如模型（1）所示的线性关系是需要检验的，显然，如果所有的|ˆ|jβ ),,1(m j =都很小，y 与m x x ,,1 的线性关系就不明显，所以可令原假设为),,1(0:0m j H j ==β当0H 成立时由分解式（14）定义的Q U ,满足 )1,(~)1/(/----=m n m F m n Q m U F (15) 在显著性水平α下有α-1分位数)1,(1---m n m F α，若)1,(1--<-m n m F F α，接受0H ；否则，拒绝。

注意拒绝0H 只说明y 与m x x ,,1 的线性关系不明显，可能存在非线性关系，如平方关系。

还有一些衡量y 与m x x ,,1 相关程度的指标，如用回归平方和在样本方差中的比值定义SU R =2 （16） ]1,0[∈R 称为相关系数，R 越大，y 与m x x ,,1 相关关系越密切，通常，R 大于0.8（或0.9）才认为相关关系成立。

1.5 回归系数的假设检验和区间估计当上面的0H 被拒绝时，j β不全为零，但是不排除其中若干个等于零。

所以应进一步作如下m 个检验),,1(m j =：0:)(0=j j H β由（11）式，),(~ˆ2jj j j c N σββ，jj c 是1)(-X X T 对角线上的元素，用2s 代替2σ，由（11）~（13）式，当)(0j H 成立时 )1(~)1/(/ˆ----=m n t m n Q c t jj j j β （17）对给定的α，若)1(||21--<-m n t t j α，接受)(0j H ；否则，拒绝。

(17)式也可用于对j β作区间估计（m j ,,1,0 =），在置信水平α-1下，j β的置信区间为-134- ])1(ˆ,)1(ˆ[2121jj j jj jc s m n t c s m n t --+-----ααββ （18）其中1--=m n Q s 。

1.6 利用回归模型进行预测当回归模型和系数通过检验后，可由给定的),,(0010m x x x =预测0y ，0y 是随机的，显然其预测值（点估计）为mm x x y 001100ˆˆˆˆβββ+++= （19）给定α可以算出0y 的预测区间（区间估计），结果较复杂，但当n 较大且i x 0接近平均值i x 时，0y 的预测区间可简化为]ˆ,ˆ[210210s u y s u y αα--+- （20）其中21α-u 是标准正态分布的21α-分位数。

对0y 的区间估计方法可用于给出已知数据残差i i i yy e ˆ-=),,1(n i =的置信区间，i e 服从均值为零的正态分布，所以若某个i e 的置信区间不包含零点，则认为这个数据是异常的，可予以剔除。

1.7 Matlab 实现Matlab 统计工具箱用命令regress 实现多元线性回归，用的方法是最小二乘法，用法是：b=regress(Y,X) 其中Y ,X 为按（5）式排列的数据，b 为回归系数估计值mβββˆ,,ˆ,ˆ10 。

[b,bint,r,rint,stats]=regress(Y ,X,alpha)这里Y ,X 同上，alpha 为显著性水平（缺省时设定为0.05），b,bint 为回归系数估计值和它们的置信区间，r,rint 为残差（向量）及其置信区间，stats 是用于检验回归模型的统计量，有三个数值，第一个是2R （见（16）式），第二个是F （见（15）式），第3个是与F 对应的概率p ，α<p 拒绝0H ，回归模型成立。

残差及其置信区间可以用rcoplot(r,rint)画图。

例1 合金的强度y 与其中的碳含量x 有比较密切的关系，今从生产中收集了一批数据如下表： x 0.10 0.11 0.12 0.13 0.14 0.15 0.16 0.17 0.18y 42.0 41.5 45.0 45.5 45.0 47.5 49.0 55.0 50.0试先拟合一个函数)(x y ，再用回归分析对它进行检验。

解先画出散点图：x=0.1:0.01:0.18;y=[42,41.5,45.0,45.5,45.0,47.5,49.0,55.0,50.0];plot(x,y,'+')可知y 与x 大致上为线性关系。

设回归模型为x y 10ββ+= （21）-135-用regress 和rcoplot 编程如下：clc,clearx1=[0.1:0.01:0.18]';y=[42,41.5,45.0,45.5,45.0,47.5,49.0,55.0,50.0]';x=[ones(9,1),x1];[b,bint,r,rint,stats]=regress(y,x);b,bint,stats,rcoplot(r,rint)得到b =27.4722 137.5000bint =18.6851 36.259475.7755 199.2245stats =0.7985 27.7469 0.0012即4722.27ˆ0=β，6194.140ˆ1=β，0ˆβ的置信区间是[18.6851,36.2594]，1ˆβ的置信区间是[75.7755,199.2245]；7985.02=R ，7469.27=F ，0012.0=p 。

可知模型（21）成立。

观察命令rcoplot(r,rint)所画的残差分布，除第8个数据外其余残差的置信区间均包含零点，第8个点应视为异常点，将其剔除后重新计算，可得b =30.7820 109.3985bint =26.2805 35.283476.9014 141.8955stats =0.9188 67.8534 0.0002应该用修改后的这个结果。

例 2 某厂生产的一种电器的销售量y 与竞争对手的价格1x 和本厂的价格2x 有关。

下表是该商品在10个城市的销售记录。

1x 元 120 140 190 130 155 175 125 145 180 1502x 元 100 110 90 150 210 150 250 270 300 250Y 个 102 100 120 77 46 93 26 69 65 85试根据这些数据建立y 与1x 和2x 的关系式，对得到的模型和系数进行检验。

第十二章 回归分析

第12章-多重线性回归分析

社会统计学第十二章 相关和回归分析

第12章简单回归分析2

第十二章 线性回归分析

12章多重线性回归与相关

(完整版)第十二章相关和回归分析练习试题

第十二章 分层回归分析--Hierarchy Regression

第十二章 回归分析

第十二章回归分析

社会统计学第十二章相关和回归分析

第十二章线性回归分析

第十二章分层回归分析--Hierarchy Regression

第十二章回归分析