R语言OLS回归_光环大数据培训机构

R语言OLS回归_光环大数据培训机构
R语言OLS回归_光环大数据培训机构

https://www.360docs.net/doc/c416586854.html,

R语言OLS回归_光环大数据培训机构

前面讲到了假设检验,可以检验某个简单的结论,判断两个总体是否显著不同,今天,讲统计学中非常经典的一个知识,这就是回归,回归的分类很多,今天主要讲其中的OLS回归,OLS回归包括三大部分,分别是简单线性回归,多项式回归,多元线性回归.回归在数据分析中应用的非常广泛,可以做分类,也可以做预测,当然,更注重预测.接下来,我们讲讲回归的原理及流程.

一.简单线性回归

1.要解决的问题

简单线性回归是要找出一个变量与另一个变量的函数关系,这比相关分析更高一级,相关分析只能找出两个变量是否有线性关系,而线性回归则能找出具体的函数关系.

2.原理

简介:通过样本训练集的数据,运用最小二乘法,即根据拟合的理论值与实际观测值的误差最小化,来找出线性表达式的各个参数.

前提假设:待预测的变量y与自变量x具有线性关系,固定x则对应的y服从正太分布,每一y的值其分布的方差相同

那么,由此我们可以根据训练数据找到一条直线,它近似的表达了x与y的函数关系,其形式如同:y=ax+b,当然,由此式子计算出的y值,我们称之为理论值,它和y的实际观测值有一定的误差,我们把这个误差之和求出来,使之达到最小

https://www.360docs.net/doc/c416586854.html,

的情况下,对应的那个函数式子就是我们拟合的线性回归函数

3.操作

模型拟合:

查看模型结果:其中residuals是残差,就是实际值与理论模拟值的误差,intercept是截距,后面的pr(>|t|)是p值,越小越拒绝原假设,结果越显著,还有adjusted R-squared表示模型拟合优度,越大越好.fitted即是通过模型拟合出的理论值.

模型可视化:

拓展:当自变量为多个时,这时未满需要拟合出一个函数,将y用几个自变量来表示,这在数据挖掘中还有另外一个作用,就是可以降维,将多属性多维数据降维1维,这样来避免维灾,这在以后也会讲到.

检验:由于我们是假设x和y服从一定条件下,推导出来的一些式子.那么,我们就需要来验证假设是否为真,当假设为真时,我们就承认推导出的式子有用,这时我们用可视化的方式来检验,当然数学中有公式可以检验,但是,比较复杂,我们不必了解,只需知道,当我们用R做假设验证的时候,出来的结果怎么样就可以通过,怎么样就不能通过,不能通过后,我们怎么修改模型即可.

这四幅图分别是1.残差拟合图(左上)

2.QQ图(右上)

3.位置比例图(左下)

https://www.360docs.net/doc/c416586854.html,

4.残差杠杆图(右下)

正态性 :当预测变量值固定时,因变量成正态分布,则残差值也应该是一个均值为0的正态分布。正态Q-Q图(Normal Q-Q,右上)是在正态分布对应的值下,标准化残差的概率图。若满足正态假设,那么图上的点应该落在呈45度角的直线上;若不是如此,那么就违反了正态性的假设。

独立性: 你无法从这些图中分辨出因变量值是否相互独立,只能从收集的数据中来验证。上面的例子中,没有任何先验的理由去相信一位女性的体重会影响另外一位女性的体重。假若你发现数据是从一个家庭抽样得来的,那么可能必须要调整模型独立性的假设。

线性 :若因变量与自变量线性相关,那么残差值与预测(拟合)值就没有任何系统关联。换句话说,除了白噪声,模型应该包含数据中所有的系统方差。在“残差图与拟合图”(Residuals vs Fitted,左上)中可以清楚的看到一个曲线关系,这暗示着你可能需要对回

归模型加上一个二次项。

同方差性: 若满足不变方差假设,那么在位置尺度图(Scale-Location Graph,左下)中,水平线周围的点应该随机分布。该图似乎满足此假设。

最后一幅“残差与杠杆图”(Residuals vs Leverage,右下)提供了你可能关注的单个观测点的信息。从图形可以鉴别出离群点、高杠杆值点和强影响点。下面来详细介绍。

一个观测点是离群点,表明拟合回归模型对其预测效果不佳(产生了巨大的或正或负的残差)。

一个观测点有很高的杠杆值,表明它是一个异常的预测变量值的组合。也就是说,在预测变量空间中,它是一个离群点。因变量值不参与计算一个观测点的杠杆值。

一个观测点是强影响点(influential observation),表明它对模型参

https://www.360docs.net/doc/c416586854.html,

数的估计产生的影响过大,非常不成比例。强影响点可以通过 Cook距离即Cook’s D统计量来鉴别。

4.改进:

1. 删除离群点和强影响点

2. 变换—当y不服从正太分布时,

3. 方差不相同,变换Y的形式.

为什么大家选择光环大数据!

大数据培训、人工智能培训、Python培训、大数据培训机构、大数据培训班、数据分析培训、大数据可视化培训,就选光环大数据!光环大数据,聘请大数据领域具有多年经验的讲师,提高教学的整体质量与教学水准。讲师团及时掌握时代的技术,将时新的技能融入教学中,让学生所学知识顺应时代所需。通过深入浅出、通俗易懂的教学方式,指导学生较快的掌握技能知识,帮助莘莘学子实现就业梦想。

光环大数据启动了推进人工智能人才发展的“AI智客计划”。光环大数据专注国内大数据和人工智能培训,将在人工智能和大数据领域深度合作。未来三年,光环大数据将联合国内百所大学,通过“AI智客计划”,共同推动人工智能产业人才生态建设,培养和认证5-10万名AI大数据领域的人才。

https://www.360docs.net/doc/c416586854.html,

参加“AI智客计划”,享2000元助学金!

【报名方式、详情咨询】

光环大数据网站报名:https://www.360docs.net/doc/c416586854.html,

手机报名链接:http:// https://www.360docs.net/doc/c416586854.html, /mobile/

相关主题
相关文档
最新文档