讲述回归分析讲义教材
合集下载
CHAP11 回归分析精品PPT课件

回归分析的模型
按是否线性分:线性回归模型和非线性回 归模型 按自变量个数分:简单的一元回归,多元 回归
回归分析的模型
基本的步骤:利用SPSS得到模型关系式, 是否是我们所要的,要看回归方程的显著 性检验(F检验)和回归系数b的显著性检 验(T检验),还要看拟合程度R2 (相关系数 的平方,一元回归用R Square,多元回归 用Adjusted R Square)
奇异值(Casewise或Outliers)诊断
概念 奇异值指样本数据中远离均值的样本数
据点,会对回归方程的拟合产生较大偏差影响。 诊断标准
一般认为,如果某样本点对应的标准化残 差值超出了[-3,+3]的范围,就可以判定该 样本数据为奇异值。
线性回归方程的预测
点估计
y0 区间估计
95%的近似置信区间: [y02Sy,y0+2Sy]. x0为xi的均值时,预测区 间最小,精度最高.x0越远离均值,预测区 间越大,精度越低.
11.1 线性回归(Liner)
一元线性回归方程: y=a+bx a称为截距 b为回归直线的斜率 用R2判定系数判定一个线性回归直线的拟合
程度:用来说明用自变量解释因变量变异的 程度(所占比例)
回归方程
回归方程的显著性检验 目的:检验自变量与因变量之间的线性关系是否 显著,是否可用线性模型来表示. 检验方法: t检验 F检验(一元回归中,F检验与t检验一致, 两种检 验可以相互替代)
回归分析的过程
Байду номын сангаас在回归过程中包括:
Liner:线性回归 Curve Estimation:曲线估计 Binary Logistic: 二分变量逻辑回归
回归分析的过程
《回归分析三》课件

观察残差的分布、正态性、异方差性和自相关性 等特征,以检验模型的假设是否成立。
03 诊断工具
如残差图、杠杆值、DW检验等,用于进一步诊 断模型的潜在问题。
模型的预测与评估
1 2
预测
基于已知的自变量x值,使用回归模型预测因变 量y的值。
预测精度评估
通过计算预测值与实际值之间的均方误差(MSE )或均方根误差(RMSE)来评估预测精度。
半参数回归在处理复 杂数据和解释性建模 方面具有广泛应用, 如生物医学、环境科 学和经济学等领域。
THANKS
感谢观看
3
模型评估
将模型应用于新数据或实际情境中,以评估模型 的实用性和预测能力。
03
多元线性回归分析
多元线性回归模型
多元线性回归模型
模型形式
假设条件
描述因变量与多个自变量之间 的关系,通过最小二乘法估计 参数。
$Y = beta_0 + beta_1X_1 + beta_2X_2 + ... + beta_pX_p + epsilon$,其中$Y$是因变 量,$X_1, X_2, ..., X_p$是自 变量,$beta_0, beta_1, ..., beta_p$是待估计的参数, $epsilon$是误差项。
分位数回归在金融、医学、环境科学 等领域有广泛应用。
半参数回归分析
半参数回归是一种非 完全参数化的回归分 析方法,它结合了参 数回归和非参数回归 的优点。
半参数回归模型既包 含参数部分,也包含 非参数部分,能够更 好地拟合数据的复杂 性和不确定性。
常见的半参数回归模 型包括部分线性模型 、可加模型和单指标 模型等。
01 预测模型
通过回归分析建立预测模 型,预测未来的趋势和结 果。
03 诊断工具
如残差图、杠杆值、DW检验等,用于进一步诊 断模型的潜在问题。
模型的预测与评估
1 2
预测
基于已知的自变量x值,使用回归模型预测因变 量y的值。
预测精度评估
通过计算预测值与实际值之间的均方误差(MSE )或均方根误差(RMSE)来评估预测精度。
半参数回归在处理复 杂数据和解释性建模 方面具有广泛应用, 如生物医学、环境科 学和经济学等领域。
THANKS
感谢观看
3
模型评估
将模型应用于新数据或实际情境中,以评估模型 的实用性和预测能力。
03
多元线性回归分析
多元线性回归模型
多元线性回归模型
模型形式
假设条件
描述因变量与多个自变量之间 的关系,通过最小二乘法估计 参数。
$Y = beta_0 + beta_1X_1 + beta_2X_2 + ... + beta_pX_p + epsilon$,其中$Y$是因变 量,$X_1, X_2, ..., X_p$是自 变量,$beta_0, beta_1, ..., beta_p$是待估计的参数, $epsilon$是误差项。
分位数回归在金融、医学、环境科学 等领域有广泛应用。
半参数回归分析
半参数回归是一种非 完全参数化的回归分 析方法,它结合了参 数回归和非参数回归 的优点。
半参数回归模型既包 含参数部分,也包含 非参数部分,能够更 好地拟合数据的复杂 性和不确定性。
常见的半参数回归模 型包括部分线性模型 、可加模型和单指标 模型等。
01 预测模型
通过回归分析建立预测模 型,预测未来的趋势和结 果。
《回归分析概述》PPT课件

2021/8/17
14
§8.2 一元线性回归
一. 一元线性回归模型
设被解释变量 Y 与 解释变量 X 间存在线形相关关 系,则
Y = 0 + 1X + ; ~N(0, 2 )
其中 X 是普通变量。
则
Y ~ N( 0+ 1X, 2 )
称 Y 的条件期望
E( Y|X ) = 0 + 1X
为 Y 对 X 的回归。
的残差平方和
Q (β ˆ0,β ˆ1) (yiy ˆi)2(yiβ ˆ0β ˆ1xi)2
反映了全部观察值与回归直线间总的偏离程度。 显然,Q 的值越小,就说明回归直线对所有样本数据的
拟和程度越好。 所谓最小二乘法,就是要使
Q(ˆ0,ˆ1) 为最小。
只要令
2021/8/17
Q ˆ 0
0
;
Q ˆ1
0
23
【案例1】商品价格与消费量的关系
以三口之家为单位,某种食品在某年各月的家庭平 均月消费量 Y (kg)与其价格 X (元/kg) 间的调查数据如 下,试分析该食品家庭平均月消费量与价格间的关系。
价 格 x i 4 .04 .04 .85 .46 .06 .07 .07 .27 .68 .09 .01 0 消 费 量 y i 3 .03 .82 .62 .82 .02 .91 .92 .21 .91 .21 .51 .6
这是一个典型的产品质量控制问题,可以使 用回归分析方法求解。
2021/8/17
5
一. 变量间的两类关系
1. 确定性关系
——也即函数关系,即
Y = ƒ(X) ; Y = ƒ(X1, X2, ···, Xp) 或 F(X, Y) = 0; F(X1, X2, ···, Xp, Y) = 0 例:价格不变时商品销售收入与销售量的关系。
数理统计CH7回归分析ppt课件

回归分析就是对相关关系中的函数 部分进行估计和检验
6/3/2019
王玉顺:数理统计07_回归分析
7
7.1 变量间的关系
(5)为什么称作“回归分析”
生物学家F·Galton和统计学家K·Pearson 的种族身高研究(1889)。
高个父亲群体的平均身高
高个父亲群体儿子们的平均身高
整个种族的平均身高
低个父亲群体儿子们的平均身高 低个父亲群体的平均身高
11 12
Cov
e
21
22
n,1 n,2
n阶协差阵
1,n
1 0
2,n
In
0
1
n,n
0
0
0
0
1
nn
n阶单位阵
6/3/2019
王玉顺:数理统计07_回归分析
16
7.2 一元线性回归
(4)回归分析内容
7.1 变量间的关系
Correlation between Variables
6/3/2019
王玉顺:数理统计07_回归分析
3
7.1 变量间的关系
(1)函数关系
Pstress 100 sint
6/3/2019
王玉顺:数理统计07_回归分析
4
7.1 变量间的关系
(2)随机关系
Pstress
27
7.2.1 回归最小二乘估计
(3)回归最小二乘估计
克莱姆法则
1y
bˆ nx xy xy nxy
x2 nx 2
x2 nx 2
6/3/2019
王玉顺:数理统计07_回归分析
7
7.1 变量间的关系
(5)为什么称作“回归分析”
生物学家F·Galton和统计学家K·Pearson 的种族身高研究(1889)。
高个父亲群体的平均身高
高个父亲群体儿子们的平均身高
整个种族的平均身高
低个父亲群体儿子们的平均身高 低个父亲群体的平均身高
11 12
Cov
e
21
22
n,1 n,2
n阶协差阵
1,n
1 0
2,n
In
0
1
n,n
0
0
0
0
1
nn
n阶单位阵
6/3/2019
王玉顺:数理统计07_回归分析
16
7.2 一元线性回归
(4)回归分析内容
7.1 变量间的关系
Correlation between Variables
6/3/2019
王玉顺:数理统计07_回归分析
3
7.1 变量间的关系
(1)函数关系
Pstress 100 sint
6/3/2019
王玉顺:数理统计07_回归分析
4
7.1 变量间的关系
(2)随机关系
Pstress
27
7.2.1 回归最小二乘估计
(3)回归最小二乘估计
克莱姆法则
1y
bˆ nx xy xy nxy
x2 nx 2
x2 nx 2
《回归分析 》课件

参数显著性检验
通过t检验或z检验等方法,检验模型中各个参数的显著性,以确定 哪些参数对模型有显著影响。
拟合优度检验
通过残差分析、R方值等方法,检验模型的拟合优度,以评估模型是 否能够很好地描述数据。
非线性回归模型的预测
预测的重要性
非线性回归模型的预测可以帮助我们了解未来趋势和进行 决策。
预测的步骤
线性回归模型是一种预测模型,用于描述因变 量和自变量之间的线性关系。
线性回归模型的公式
Y = β0 + β1X1 + β2X2 + ... + βpXp + ε
线性回归模型的适用范围
适用于因变量和自变量之间存在线性关系的情况。
线性回归模型的参数估计
最小二乘法
最小二乘法是一种常用的参数估计方法,通过最小化预测值与实 际值之间的平方误差来估计参数。
最大似然估计法
最大似然估计法是一种基于概率的参数估计方法,通过最大化似 然函数来估计参数。
梯度下降法
梯度下降法是一种迭代优化算法,通过不断迭代更新参数来最小 化损失函数。
线性回归模型的假设检验
线性假设检验
检验自变量与因变量之间是否存在线性关系 。
参数显著性检验
检验模型中的每个参数是否显著不为零。
残差分析
岭回归和套索回归
使用岭回归和套索回归等方法来处理多重共线性问题。
THANKS
感谢观看
04
回归分析的应用场景
经济学
研究经济指标之间的关系,如GDP与消费、 投资之间的关系。
市场营销
预测产品销量、客户行为等,帮助制定营销 策略。
生物统计学
研究生物学特征与疾病、健康状况之间的关 系。
通过t检验或z检验等方法,检验模型中各个参数的显著性,以确定 哪些参数对模型有显著影响。
拟合优度检验
通过残差分析、R方值等方法,检验模型的拟合优度,以评估模型是 否能够很好地描述数据。
非线性回归模型的预测
预测的重要性
非线性回归模型的预测可以帮助我们了解未来趋势和进行 决策。
预测的步骤
线性回归模型是一种预测模型,用于描述因变 量和自变量之间的线性关系。
线性回归模型的公式
Y = β0 + β1X1 + β2X2 + ... + βpXp + ε
线性回归模型的适用范围
适用于因变量和自变量之间存在线性关系的情况。
线性回归模型的参数估计
最小二乘法
最小二乘法是一种常用的参数估计方法,通过最小化预测值与实 际值之间的平方误差来估计参数。
最大似然估计法
最大似然估计法是一种基于概率的参数估计方法,通过最大化似 然函数来估计参数。
梯度下降法
梯度下降法是一种迭代优化算法,通过不断迭代更新参数来最小 化损失函数。
线性回归模型的假设检验
线性假设检验
检验自变量与因变量之间是否存在线性关系 。
参数显著性检验
检验模型中的每个参数是否显著不为零。
残差分析
岭回归和套索回归
使用岭回归和套索回归等方法来处理多重共线性问题。
THANKS
感谢观看
04
回归分析的应用场景
经济学
研究经济指标之间的关系,如GDP与消费、 投资之间的关系。
市场营销
预测产品销量、客户行为等,帮助制定营销 策略。
生物统计学
研究生物学特征与疾病、健康状况之间的关 系。
回归分析演讲PPT

情况称为普通相关。其中,R 的绝对值愈大,表示相关程度愈高。 当|R|>0.7,即 R2 >0.49 时,称为高度相关; 当|R|<0.3,即 R2 <0.09 时,称为低度相关; 当 0.3 | R | 0.7 时,称为中度相关。
13
经济预测与决策方法讲义
1.2 一元线性回归预测法—模型构建
回归预测模型 回归分析是对具有相关关系的变量之间的数量变化规律进
变量 yˆi 相应增加(减少)多少。 ➢ b 0 时, x 与 y 正相关,当 b 0 时, x 与 y 负相关。
16
经济预测与决策方法讲义
1.2 一元线性回归预测法—参数估计
估计模型的回归系数方法有很多,最广泛的是最小二乘法;
中心思想:通过数学模型,配合一条较为理想的趋势线;
(1) 原数列的预测值与模型估计值的离差平方和最小;
当显著性水平 0.05时,试估计 2004 年
其国内生产总值的预测区间。
20
年份
1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003
固定资产投 资完成额 x 241.23 317.12 371.87 320.23 356.3 439.98 711.7 1144.2 1331.13 1680.17 1949.53 2203.09 2535.5 2744.65 2995.43 3304.96 3849.24 5335.8
➢ 因变量 y 就是我们的预测对象;服从 y N(a bx, 2) ➢ 常数 a, b 是待定的参数。
15
经济预测与决策方法讲义
1.2 一元线性回归预测法—模型构建 设
13
经济预测与决策方法讲义
1.2 一元线性回归预测法—模型构建
回归预测模型 回归分析是对具有相关关系的变量之间的数量变化规律进
变量 yˆi 相应增加(减少)多少。 ➢ b 0 时, x 与 y 正相关,当 b 0 时, x 与 y 负相关。
16
经济预测与决策方法讲义
1.2 一元线性回归预测法—参数估计
估计模型的回归系数方法有很多,最广泛的是最小二乘法;
中心思想:通过数学模型,配合一条较为理想的趋势线;
(1) 原数列的预测值与模型估计值的离差平方和最小;
当显著性水平 0.05时,试估计 2004 年
其国内生产总值的预测区间。
20
年份
1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003
固定资产投 资完成额 x 241.23 317.12 371.87 320.23 356.3 439.98 711.7 1144.2 1331.13 1680.17 1949.53 2203.09 2535.5 2744.65 2995.43 3304.96 3849.24 5335.8
➢ 因变量 y 就是我们的预测对象;服从 y N(a bx, 2) ➢ 常数 a, b 是待定的参数。
15
经济预测与决策方法讲义
1.2 一元线性回归预测法—模型构建 设
回归分析法PPT课件

线性回归模型的参数估计
最小二乘法
通过最小化误差平方和的方法来估计 模型参数。
最大似然估计
通过最大化似然函数的方法来估计模 型参数。
参数估计的步骤
包括数据收集、模型设定、参数初值、 迭代计算等步骤。
参数估计的注意事项
包括异常值处理、多重共线性、自变 量间的交互作用等。
线性回归模型的假设检验
假设检验的基本原理
回归分析法的历史与发展
总结词
回归分析法自19世纪末诞生以来,经历 了多个发展阶段,不断完善和改进。
VS
详细描述
19世纪末,英国统计学家Francis Galton 在研究遗传学时提出了回归分析法的概念 。后来,统计学家R.A. Fisher对其进行了 改进和发展,提出了线性回归分析和方差 分析的方法。随着计算机技术的发展,回 归分析法的应用越来越广泛,并出现了多 种新的回归模型和技术,如多元回归、岭 回归、套索回归等。
回归分析法的应用场景
总结词
回归分析法广泛应用于各个领域,如经济学、金融学、生物学、医学等。
详细描述
在经济学中,回归分析法用于研究影响经济发展的各种因素,如GDP、消费、投资等;在金融学中,回归分析法 用于股票价格、收益率等金融变量的预测;在生物学和医学中,回归分析法用于研究疾病发生、药物疗效等因素 与结果之间的关系。
梯度下降法
基于目标函数对参数的偏导数, 通过不断更新参数值来最小化目 标函数,实现参数的迭代优化。
非线性回归模型的假设检验
1 2
模型检验
对非线性回归模型的适用性和有效性进行检验, 包括残差分析、正态性检验、异方差性检验等。
参数检验
通过t检验、z检验等方法对非线性回归模型的参 数进行假设检验,以验证参数的显著性和可信度。
第二章回归分析ppt课件

U和Q的相对大小反映了因子x对y的影响程度, 在n固定的情况下,如果回归
方差所占y方差的比重越大,剩余方差所占的比重越小,就表明回归的效果
越好, 即:x的变化对y的变化起主要作用, 利用回归方程所估计出的ŷ也会
越接近观测值y。
ŷ的方差占y的方差的比重(U/(U+Q))可作为衡量回归模型效果的标准:
ŷ
y -y
ŷ -y
y
x
syy
1 n
n t 1
( yt
y)2
1 n
n t 1
( yt
y)2
1 n
n t 1
( yt
yt )2
“回归平方和”与“剩余平方和”
对上式两边分别乘以n,研究各变量的离差平方和的关系。为避免过多数学符
号,等号左边仍采用方差的记号syy。
n
n
syy ( yt y)2 ( yt yt )2 U Q
回忆前文所讲, y的第i个观测值yi服从怎样的分布?
yi ~ N (β0 +βxi , σ2)
e=yi- (β0 +βxi ) 服从N(0, σ2)
于是, yi (0 xi ) 服从标准正态分布N (0,1)
0.4
在95%的置信概率下:
因为定理: 若有z ~ N (, 2 ), 则有 z ~ N (0,1)
通过方差分析可知,可用“回归平方和”U与“剩余平方和”Q的比值来衡 量回归效果的好坏。可以证明,假设总体的回归系数为0的条件下,统计 量:
U
F=
1 Q
注意Q的自由度为n-2, 即:残差e的方差的无 偏估计为:Q/(n-2)
n2 服从分子自由度为1,分母自由度为n - 2的F分布
上式可以用相关系数的平方来表示:
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2020/7/30
•
以X預測Y(X
Y)
^
Y
ay.xby.xX
• By.x 是迴歸係數,表示每當X變動一個單 位時,Y的變動量
– 例:以身高預測體重, YYyy..xxXX Y= -165.35 +1.3426X, 表示身高每變動一公分, 體重增加 1.3426公斤
• 標準化迴歸係數(standardized regression coefficient),去除特定單位
– 例:以智商、閱讀時間和與他人討論頻率,三個變項 來預測學業表現
– Y率(學)+業表現)=b1X1(智商)+b2x2 (閱讀時間)+b3x3(討論頻 – b、1、x3(b討2、論b頻3三率個)三迴個歸變係項數對代Y表的X預1(智測商能)力、 x2 (閱讀時間)
.002
.
個數
FINAL
10
10
MIDTERM
10
10
期中考和期末考的Pearson相關係數為0.822,在 0.01水準下達到顯著,進一步檢驗其影響關係
2020/7/30
模 式摘
調過後的 模式 RR 平 R 估 方 平 計 方 R 的平 標方 準改 誤 F 1 .822.a676.635 2.73 .61 76 6
• 必須再進一步作殘差分析,以判定該模式 是否符合簡單線性迴歸模型的假設。
2020/7/30
殘差分析
直方圖
依變數: FINAL
5
4
3
2
次 數1
標準差 = .94 平均數 = 0.00
0
N = 10.00
-2. 50
-1. 50
-.50
.50
-2. 00
-1. 00
0.00
1.00
迴歸 標準化殘差
迴歸 標準化殘差 的常態 P-P 圖
2020/7/30
2020/7/30
迴歸
• 線性關係的分析 • 相關分析可以描述兩個連續變數的線性關係,若要
進一步確認兩個變數之間的因果關係,則應採用迴 歸分析 • 迴歸分析係用以由自變項(獨立變項)預測依變項 ,或是研究實驗控制(因)對被觀察的變項(果) 的影響
– 例:由父母身高預測子女身高; 用人口成長(自變項)預測(解釋)電話用戶數的成長
a預 . 測變數:(常數), M
變異 數分b析
模式
平方和自由度 平均平方和 F 檢定 顯著性
1
迴歸 12 4. 038
1124.038 16.660 .004a
殘差59 .5 62
8 7.445
總和 18 3. 600
9
a.預測變數:(常數), MIDTERM
b.依變數\:FINAL
適合度檢定: 期中考可以解釋期末考67.6%的變異。調整後的R 平方為63.5%,F=16.66,p=0.004在0.01水準下達 到顯著。 表示此模式適合,即期中考可以用來解 202釋0/7或/30預測期末考。
– 逐步迴歸分析(stepwise) – 刪除(remove)::強制剔除式迴歸分析法 – 向後(backward) :後向剔除迴歸分析法 – 向前(forward)
2020/7/30
• Durbin-Watson統計量
– 檢定迴歸模型中殘差獨立的假設 – 如果相鄰殘差項間是相關,則其總差異必小或
2020/7/30
Y y.xX
‧ ‧
‧‧
‧‧ ‧‧
‧‧ ‧
‧ ‧ ‧‧ ‧
‧
‧‧
身高 vs. 體重
2020/7/30
簡單迴歸分析
• 程序:
– 分析>迴歸方法>線性
2020/7/30
2020/7/30
2020/7/30
2020/7/30
• 迴歸方法
– 強迫進入(enter):強制一次進入式迴歸分析法 ,為預設
• 利用常態點圖(normal plot),將每個殘差分別描 繪在圖上,若誤差變數是常態分配,則圖上點之連 線應近似一直線
2020/7/30
相關
FINAL MIDTERM
Pearson 相關 FINAL
1.000
.822
MIDTERM
.822
1.000
顯著性 (單尾)FINAL
.
.002
MIDTERM
係數 標準 迴 化 歸 係 係數 未標準化係 數 數 模 B式 之估 標 計 B 準 e 值 t誤 a 分配 t 顯著下 性 1 4 (常 9 .3數 6 89 .)57 7 5.75 6 .0 20 90 .5 69 M.I4 D 3T 4 .E 1 0 R 6 .M 8 2 42 .08 2 .0 04 .1 8 a依 . 變數\:FINAL
– 例2:由圖書館利用頻率,預測圖書館網站的利用頻率
2020/7/30
• Y = a + bX • 在線性關係中,若兩變項之關係是完全相關時(
r=1正相關或r=-1負相關),X與Y的關係呈一直線 ,兩變項之觀察值可以完全被方程式所涵蓋,其 中b為斜率, a為截距,代入X可求得Y,代入Y可 求得X,無須預測。 • 但是當兩變項間的關係未達到完全相關時(r±1 ),X與Y的關係是分佈在一個區域內,無法以一 條直線來表示,而必須以最小平方法來求取一條 最具代表性的線,此線稱為最適線(best-fit line )或迴歸線(regression line),再利用迴歸線來 預測因果關係。
大
• 若殘差項間是正相關,則其差異必小 • 若殘差項間是負相關,則其差異必大
– 當DW值愈接近2時,殘差項間愈無相關 – 當DW值愈接近0時,殘差項間正相關愈強 – 當DW值愈接近4時,殘差項間負相關愈強
2020/7/30
• 驗證常態分配
• 驗證誤差變項是否具常態分配,可繪殘差次數分配 圖,概略判斷母群體的誤差變數是否是常態分配? 平均數是否為零
依變數: FINAL
1.00
預 .75 期
累 積 .50 機
率 .25
0.00
0.00
.25
.50
觀察累積機率
.75
1.00
由標準化殘差次數分配圖(左)和標準化殘差常態機率分 配P-P圖(右),可看出殘差
2020/7/30
多元迴歸
• multiple regression • 複迴歸 • 利用多個預測變數(自變數)去預測另一依變數
簡單線性迴歸方程式為: Final = 49.369 + 0.434 Midterm
期中考成績能夠有效預測期末考成績,Beta係數達 0.822(t=4.082, p=0.004),表示期中考成績愈高,期 末考成績也愈高。
2020/7/30
• 由上述分析可知,以期中考來解釋或預測 期末考成績是相當合適的,而且所建立的 模式也令人滿此,但是是否真能用該模式 呢?
•
以X預測Y(X
Y)
^
Y
ay.xby.xX
• By.x 是迴歸係數,表示每當X變動一個單 位時,Y的變動量
– 例:以身高預測體重, YYyy..xxXX Y= -165.35 +1.3426X, 表示身高每變動一公分, 體重增加 1.3426公斤
• 標準化迴歸係數(standardized regression coefficient),去除特定單位
– 例:以智商、閱讀時間和與他人討論頻率,三個變項 來預測學業表現
– Y率(學)+業表現)=b1X1(智商)+b2x2 (閱讀時間)+b3x3(討論頻 – b、1、x3(b討2、論b頻3三率個)三迴個歸變係項數對代Y表的X預1(智測商能)力、 x2 (閱讀時間)
.002
.
個數
FINAL
10
10
MIDTERM
10
10
期中考和期末考的Pearson相關係數為0.822,在 0.01水準下達到顯著,進一步檢驗其影響關係
2020/7/30
模 式摘
調過後的 模式 RR 平 R 估 方 平 計 方 R 的平 標方 準改 誤 F 1 .822.a676.635 2.73 .61 76 6
• 必須再進一步作殘差分析,以判定該模式 是否符合簡單線性迴歸模型的假設。
2020/7/30
殘差分析
直方圖
依變數: FINAL
5
4
3
2
次 數1
標準差 = .94 平均數 = 0.00
0
N = 10.00
-2. 50
-1. 50
-.50
.50
-2. 00
-1. 00
0.00
1.00
迴歸 標準化殘差
迴歸 標準化殘差 的常態 P-P 圖
2020/7/30
2020/7/30
迴歸
• 線性關係的分析 • 相關分析可以描述兩個連續變數的線性關係,若要
進一步確認兩個變數之間的因果關係,則應採用迴 歸分析 • 迴歸分析係用以由自變項(獨立變項)預測依變項 ,或是研究實驗控制(因)對被觀察的變項(果) 的影響
– 例:由父母身高預測子女身高; 用人口成長(自變項)預測(解釋)電話用戶數的成長
a預 . 測變數:(常數), M
變異 數分b析
模式
平方和自由度 平均平方和 F 檢定 顯著性
1
迴歸 12 4. 038
1124.038 16.660 .004a
殘差59 .5 62
8 7.445
總和 18 3. 600
9
a.預測變數:(常數), MIDTERM
b.依變數\:FINAL
適合度檢定: 期中考可以解釋期末考67.6%的變異。調整後的R 平方為63.5%,F=16.66,p=0.004在0.01水準下達 到顯著。 表示此模式適合,即期中考可以用來解 202釋0/7或/30預測期末考。
– 逐步迴歸分析(stepwise) – 刪除(remove)::強制剔除式迴歸分析法 – 向後(backward) :後向剔除迴歸分析法 – 向前(forward)
2020/7/30
• Durbin-Watson統計量
– 檢定迴歸模型中殘差獨立的假設 – 如果相鄰殘差項間是相關,則其總差異必小或
2020/7/30
Y y.xX
‧ ‧
‧‧
‧‧ ‧‧
‧‧ ‧
‧ ‧ ‧‧ ‧
‧
‧‧
身高 vs. 體重
2020/7/30
簡單迴歸分析
• 程序:
– 分析>迴歸方法>線性
2020/7/30
2020/7/30
2020/7/30
2020/7/30
• 迴歸方法
– 強迫進入(enter):強制一次進入式迴歸分析法 ,為預設
• 利用常態點圖(normal plot),將每個殘差分別描 繪在圖上,若誤差變數是常態分配,則圖上點之連 線應近似一直線
2020/7/30
相關
FINAL MIDTERM
Pearson 相關 FINAL
1.000
.822
MIDTERM
.822
1.000
顯著性 (單尾)FINAL
.
.002
MIDTERM
係數 標準 迴 化 歸 係 係數 未標準化係 數 數 模 B式 之估 標 計 B 準 e 值 t誤 a 分配 t 顯著下 性 1 4 (常 9 .3數 6 89 .)57 7 5.75 6 .0 20 90 .5 69 M.I4 D 3T 4 .E 1 0 R 6 .M 8 2 42 .08 2 .0 04 .1 8 a依 . 變數\:FINAL
– 例2:由圖書館利用頻率,預測圖書館網站的利用頻率
2020/7/30
• Y = a + bX • 在線性關係中,若兩變項之關係是完全相關時(
r=1正相關或r=-1負相關),X與Y的關係呈一直線 ,兩變項之觀察值可以完全被方程式所涵蓋,其 中b為斜率, a為截距,代入X可求得Y,代入Y可 求得X,無須預測。 • 但是當兩變項間的關係未達到完全相關時(r±1 ),X與Y的關係是分佈在一個區域內,無法以一 條直線來表示,而必須以最小平方法來求取一條 最具代表性的線,此線稱為最適線(best-fit line )或迴歸線(regression line),再利用迴歸線來 預測因果關係。
大
• 若殘差項間是正相關,則其差異必小 • 若殘差項間是負相關,則其差異必大
– 當DW值愈接近2時,殘差項間愈無相關 – 當DW值愈接近0時,殘差項間正相關愈強 – 當DW值愈接近4時,殘差項間負相關愈強
2020/7/30
• 驗證常態分配
• 驗證誤差變項是否具常態分配,可繪殘差次數分配 圖,概略判斷母群體的誤差變數是否是常態分配? 平均數是否為零
依變數: FINAL
1.00
預 .75 期
累 積 .50 機
率 .25
0.00
0.00
.25
.50
觀察累積機率
.75
1.00
由標準化殘差次數分配圖(左)和標準化殘差常態機率分 配P-P圖(右),可看出殘差
2020/7/30
多元迴歸
• multiple regression • 複迴歸 • 利用多個預測變數(自變數)去預測另一依變數
簡單線性迴歸方程式為: Final = 49.369 + 0.434 Midterm
期中考成績能夠有效預測期末考成績,Beta係數達 0.822(t=4.082, p=0.004),表示期中考成績愈高,期 末考成績也愈高。
2020/7/30
• 由上述分析可知,以期中考來解釋或預測 期末考成績是相當合適的,而且所建立的 模式也令人滿此,但是是否真能用該模式 呢?