1.1回归分析概述——8.20

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
25
A
20 15 10 5 0 0 2 4 6 8 10 12
25 20 15
B
10 5 0 0 2 4 6 8 10 12
C
35 30 25 20 15 10 5 0 0 5 10 15
1.2 相关分析与回归分析
回归的古典意义: 高尔顿遗传学的回归概念
父母身高与子女身高的关系: 无论高个子或低个子的子女 都有向人的平均身高回归的 趋势
模型和回归模型。
问题二:在线性回归模型中,e是用bx+a预报真实值y的随机误差, 它是一个不可观测的量,那么应如何研究随机误差呢? 问题三:如何发现数据中的错误?如何衡量随机模型的拟合效果? 问题四:结合例1思考:用回归方程预报体重时应注意什么?
问题五:归纳建立回归模型的基本步骤。
问题六:若两个变量呈现非线性关系,如何解决?(分析例2)
求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为 172cm的女大学生的体重。 解:1、选取身高为自变量x,体重为因变量y,作散点图:
2.回归方程:
ˆ 0.849x 85.172 y
身高172cm女大学生体重 ˆ = 0.849×172 - 85.712 = 60.316(kg) y
4
5 6 x(万辆)
图1 . 1 函数关系图
1 .1-3 变量间的函数关系与统计关系
相关关系:不确定(随机性)依存关系
子女身高 (y)与父亲身高(x)之间的关系 收入水平(y)与受教育程度(x)之间的关系
粮食亩产量(y)与施肥量(x1) 、降雨量(x2) 、温度(x3)之间
的关系
商品的消费量(y)与居民收入(x)之间的关系
坐标图(散点图)
35 30 25 20 15 10 5 0
Y
0
10 X
20
30
1 .1-6 相关关系的类型
● 从涉及的变量数量看 简单相关 多重相关(复相关) ● 从变量相关关系的表现形式看 线性相关——散布图接近一条直线(左图) 非线性相关——散布图接近一条曲线(右图)
25 20 15 10 5 0 0 2 4 6 8 10 12
1.2-2 回归的现代意义
一个因变量对若干解释变量依存关系的研究 回归的目的(实质): 由固定的自变量去估计因变量的平均值
总 体
样 本
自变量固定值
1.2-3 相关分析与回归分析的联系
●共同的研究对象:都是对变量间相关关系的分析 ●只有当变量间存在相关关系时,用回归分析去寻 求相关的具体数学形式才有实际意义 ●相关分析只表明变量间相关关系的性质和程度, 要确定变量间相关的具体数学形式依赖于回归分 析 ● 相关分析中相关系数的确定建立在回归分析的 基础上
最小二乘估计
1. 使因变量的观察值与估计值之间的离差平方和达 ˆ ˆ 到最小来求得 和 的方法。即 0 1
2 2 ˆ ˆ ˆ ( yi yi ) ( yi 0 1 xi ) 最小 i 1 i 1 n n
2. 用最小二乘法拟合的直线来代表 x 与 y 之间的关系 与实际数据的误差比其他任何直线都小
y 是 x 的线性函数(部分)加上误差项 线性部分反映了由于 x 的变化而引起的 y 的变化 误差项 是随机变量 反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影 响 是不能由 x 和 y 之间的线性关系所解释的变异性 0 和 1 称为模型的参数
1 .4 建立实际问题回归模型
1.4-6 相关性检验
我们可用回归平方和占总偏差平方和的比重的大小来 检验回归模型与实际变量之间的近似程度。据此,相 关系数可表示为:
r
1
2 ( y y ) i i 2 ( y y ) i

当r越接近于1时,表示y与x的关系越接近于线性;当r=1时,回 归直线通过每一个数据点,这种情况称为完全线性相关;r越接 近于0,y与x的关系与线性关系相差就越远,甚至根本不能用所 得到的回归方程来描述,当r=0时,称完全无线性相关。
y
( xn , yn )
( x2 , y 2 ) ( x1 , y 1 )
ˆ ˆx ˆ y 0 1

( x i , y i)

ei = yi-yi^
x
1.4-5 确定回归系数
在此例子中,基于已有数据,应用最小二乘法 的相关公式即可求得回归系数a,b。 得到回归直线的方程为:
y bx a e
其中a和b为模型的未知参数,e称为随机误差.
函数模型与“回归模型”的关系
函数模型:因变量y完全由自变量x确定
回归模型: 预报变量y完全由解释变量x和随机误差e确定
思考:产生随机误差项e的原因
是什么?
注:e 产生的主要原因: (1)所用确定性函数不恰当; (2)忽略了某些因素的影响; (3)观测误差。
问题二:在线性回归模型中,e是用bx+a预报真实值y的随机误差,
它是一个不可观测的量,那么应如何研究随机误差呢?
e=y-(bx+a)
残差:一般的对于样本点(x1 ,y1),(x2 ,y2 ),...,(xn ,yn ),它们的随机误差为 ei yi bxi a, i 1, 2,...n, 其估计值为ei yi y i yi b xi a, i 1, 2,...n ei 称为相应于点(xi ,yi )的残差。
1.4-7 模型的其他检验
除了前面所述的相关性检验,在我们接受某一 模型之前,还需对它进行回归方程的显著性检 验,回归系数的显著性检验,随机误差项的序 列相关检验,异方差性检验,解释变量的多重 共线性检验等一系列统计检验。 我们将下以后的课程中一一详述,在此略过。
1.4-8 预测及其置信区间
y 69.8587 0.0073 x
1.4-6 相关性检验
对于若干组具体数据 都可算出回归系 数a,b,从而得到回归方程。至于y与x之间是否 真有如回归模型所描述的关系,或者说用所得 的回归模型去拟合实际数据是否有足够好的近 似,并没有得到判明。因此,必须对回归模型 描述实际数据的近似程度,也即对所得的回归 模型的可信程度进行检验,称为相关性检验。
第1章
回归分析概述
问题:现实生活中两个变量间的关系有哪些呢? 不相关 1、两个变量的关系
函数关系
因果关系
相关
关系
互为因Fra Baidu bibliotek关系
共变关系
相关关系:对于两个变量,当自变量取值一定时,因 变量的取值带有一定随机性的两个变量之间的关系。
1 .1 变量间的函数关系与统计关系
函数关系:确定性依存关系
商品的销售额与销售量之间的关系
例: 全国每年的技术贸易额与很多因素有关,但 经过分析,它主要受全国GDP这一因素的影响 和制约,于是,我们来寻求二者之间的统计规 律,并进行预测。 以x表示自变量-----全国GDP数量,以y表 示因变量-----全国技术贸易额。根据国家统计 局公布的数字,将15年的数据列于下表
1.4-2 全国GDP数量和全国技术贸易额数据
1.2-4 相关分析与回归分析的区别
描述的方式不同
变量的地位不同 描述的内容不同
1 .3 回归分析的主要内容及其一般模型
一元线性回归 一元线性回归 线性回归多元线性回归 多元线性回归 多个因变量与多个自变量的回归 讨论如何从数据推断回归模型基本假设的合理性 当基本假设不成立时如何对数据进行修正 回归诊断 判定回归方程拟合的效果 选择回归函数的形式 自变量选择的准则 回归变量的选择 回归分析 逐步回归分析方法 岭回归 参数估计方法的改进主成分回归 偏最小二乘法 一元非线性回归 一元非线性回归 非线性回归分段回归 多元非线性回归 多元非线性回归 自变量含定性变量的情况 含有定性变量的回归 因变量是定性变量的情况 最常见,应用最广 泛的回归模型
11.2 11 10.8 10.6 10.4 10.2 10 0 2 4 6 8 10
1 .1-7 相关关系的类型
● 从变量相关关系变化的方向看 正相关——变量同方向变化 同增同减 (A) 负相关——变量反方向变化 一增一减 (B) ● 从变量相关的程度看 完全相关 (B) 不完全相关 (A) 不相关 (C)
问题一:结合例1得出线性回归模型及随机误差。并且区 分函数模型和回归模型。
例1 从某大学中随机选取8名女大学生,其身高和体重数据如表1-1所示。 编号 身高/cm 体重/kg 1 165 48 2 165 57 3 157 50 4 170 54 5 175 64 6 165 61 7 155 43 8 170 59
很多情况下可转化 为线性回归问题
1.3-1 一元线性回归
涉及一个自变量(X)的回归 因变量y与自变量x之间为线性关系 因变量与自变量之间的关系用一条线性方程来 表示
1.3-2 一元线性回归模型
描述因变量 y 如何依赖于自变量 x 和误差项 的 方程称为回归模型 一元线性回归模型可表示为 y = 0 + 1 x +
商品销售额(y)与广告费支出(x)之间的关系
1 .1-4 变量间的函数关系与统计关系
y
x 图 1. 2 y 与x 非确定性关系图
1 .1-5 变量间的函数关系与统计关系
◆ 确定性的函数关系 Y=f (X) ◆不确定性的统计关系—相关关系 Y= f(X)+ε (ε为随机变量) ◆没有关系
变量间关系的图形描述:
1.4-3 全国GDP数量(x)和全国技术贸易额 (y)对应散点图
根据列表数据,我们可以在直角坐标系中绘出散点图:
1.4-4 设定回归方程
从散点图中,我们假定y与x之间大致呈线性关 系,则可用直线方程 y=a+bx 近似地描述散点的分布情况。这条直线称为y 对x的回归直线,上式称为回归方程,a、b称 为回归系数。
对应于本例,若按照现有的增长速度7%( 2002年全国GDP为102398亿元),到2010年 时我国的GDP将达到175938.8284亿元,则据 此可以预测2010年全国技术贸易额将为:
y0 69.8587 0.0073175938 .8284 1214 .4947 (亿元)
1.4-8 预测及其置信区间
探究:身高为172cm的女大学生的体重一定是60.316kg吗?如果 不是,你能解析一下原因吗?
答:用这个回归方程不能给出每个身高为172cm的女大学生的体重的预测值, 只能给出她们平均体重的估计值。
由于所有的样本点不共线,而只是散布在某一直线的附近,所 以身高和体重的关系可以用线性回归模型来表示:
1.4-6 相关性检验
在前例中,用上述公式得到 r=0.9471 现f=n-2=13; 若取 ,查表可得相应的相 关系数临界值 r 0.5139 ,显然有r r ,相关 性检验通过。所以,可用前面求得的直线回归 方程
y 69.8587 0.0073x
来描述技术贸易额与全国GDP之间的关系,其 置信度为95%。
y = px
圆的面积与半径之间的关系
S=R2
原材料消耗额与产量 (x1) 、单位产量消耗
(x2) 、原材料价格(x3)之间的关系
y = x1 x2 x3
1 .1-2 变量间的函数关系与统计关系
y(万元)
6000 5000 4000 3000 2000 1000 0 0 1 2 3
y = 1000x
由于回归方程是由数理统计得出的,它反映的 是实际数据的统计规律,所以,根据回归方程 所得的预测值 y0 只是对应于 x0 的单点预测估 计值,预测值应该有一个置信区间。
在置信度为95%的情况下2010年全国技术贸易 额的预测区间为(983.6105,1445.3789)亿元
教学情境设计
问题一:结合例1得出线性回归模型及随机误差。并且区分函数
1.4-5 确定回归系数
回归系数a、b的确定可以采用最小二乘法。 最小二乘法是测量工作和科学实验中最常用的 一种数据处理方法,其基本原理是,根据实验 观测得到的自变量x和因变量y之间的一组对应 关系,找出一个给定类型的函数y=f(x),使得它 所取的 与观测值 在某种尺度下最接近,即在各点处的偏差的平 方和达到最小。
相关文档
最新文档