多元线性回归分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 1、残差平方和(SS残)缩小或决定系数(R2)增大 R2=1- SS残/ SS总 • 2、残差均方(MS残)缩小或调整决定系数(R2ad)增大 MS残= SS残/(n-p-1) • 3、Cp统计量减小
自变量筛选的方法
• 向前选择法 • 建模时没有自变量,逐个加入自变量。并通过F 检验加入自变量对模型的影响是否显著。显著则 保留此变量。 • 向后删除法 • 建模时加入所有自变量,通过F检验,逐个剔除 在当前模型中最不显著的自变量,直到模型的变 量都显著为止。 • 逐步筛选法 • 为上述两种方法的综合,即每次首先加入一个变 量,如果其对模型影响显著,则保留,然后对当 前模型中的所有变量进行检查,剔除不显著的变 量。直到没有显著变量加入且没有不显著变量剔 除为止。 • • • • • 最大R2改进法 最小R2改进法 R2选择法 修正R2选择法 Cp选择法
利用PLOT语句绘制模型的残差图
proc reg data=house; model price=land ratio area; plot residual.*predicted.; run;
谢谢!
基本思想:利用收集到的因变量 和自变量建立线性函数,使得每 一个实际测量的Yi与估计的Yi之 间的离差的平方和尽可能的小。 只有一个自变量时,回归结果 为二维平面的一条直线,而有两 个自变量时,结果为三维空间的 一个平面,有更多的自变量时, 回归的结果则是在三维以上空间 的“超平面”,无法直观图形表 达,只能想象。
proc reg data=house; /*采用reg过程进行多元回归分析*/ model price=land tax ratio bedrooms rooms area /selection=stepwise; /* 采用逐步筛选法*/ run;
Price=36942+6967.58365*land+71.36620*area-63.06941*ratio
多元线性回归
(multiple linear regression)wk.baidu.com
李国奇 安贞医院
主要内容
• • • • • • 第一节:多元线性回归概念及统计描述 第二节:多元线性回归假设检验 第三节、多元线性回归自变量的筛选 第四节:多元线性回归应用 第五节:多元线性回归应注意问题 第六节:实例分析(SAS)
• • • • •

━━━━━━━━━━━━━━━━━━━━━━ 例号 X1 X2 … Xm Y ───────────────────── 1 X11 X12 … X1m Y1 2
3
X21 ┆
X22 ┆


X2m ┆
Y2 ┆
• •
n Xn1 Xn2 … Xnm Yn ━━━━━━━━━━━━━━━━━━━━━━
第二节:多元线性回归假设检验
在多元线性回归模型中,由于变量众多, 需要对模型的合理性以及参数的显著性进 行检验。
一、回归方程的假设检验(F检验) H0 :β1=β2=…=βp=0 H1: β1,β2…βp不全为0 如果H0成立,认为回归方程不显著,如果拒 绝H0 ,认为回归方程显著。
二、回归系数的假设检验(t检验) 在F检验中,如果拒绝H0假设,只能说β1,β2…βp 不全为0,还需要进一步检查每个自变量的总体 偏回归系数。 H0 : βi=0, H1 : βi≠0 (i=1,2…p) 如果H0成立,认为偏回归系数βi不显著,如果拒 绝H0 ,认为偏回归系数βi显著。
第三节、自变量的筛选
• 多元回归分析时收集的某些自变量对因变量无影 影响或影响甚微;也不敢保证自变量之间是相互 独立的,因而在建立多元线性回归方程时,需要 使回归方程尽可能包含对解释因变量有较大贡献 的自变量,而把贡献不大的或无贡献以及与其他 自变量有密切关系的自变量排除。
自变量筛选的标准和原则
占地面积 0.85 … 税率 72 … 教师学生比 卧室间数 30.76 … 4 … 总间数 7 … 居住面积 1850 … 价格 152900 …







SAS分析过程
采用REG过程对数据进行多元线性回归分析,编程如下:
• data house; /*建立数据集house*/ • input land tax ratio bedrooms rooms area price; /*要输入的变量*/ • cards; • 。。。。 • ; • proc reg data=house; /*采用reg过程进行多元回归分析*/ • model price=land tax ratio bedrooms rooms area; • run;
残差分析
• 通过残差分析可以深入了解实际资料是否符合回归模型假 设(如正态、方差齐)
多元线性回归决定系数
• 决定系数:回归平方和(SS回)在总平方和( SS总 )中比例。 R2=SS回/SS总
• 0≤R2≤1,R2接近1, 表示样本数据很好的拟 合了所用的线性回归模型。 R2反映了线性回
归模型能多大程度上解释Y的变异。
多元线性回归模型
多元线性回归数学模型: y平均值 0 1x1 2 x2 p x p 相应的由样本估计而得到的回归模型: ˆ y b0 b1 x1 b2 x2 bp x p
其中Ỷ表示Y的总体平均值的估计值, b0为常数项,也称为截 距,bi为Xi的偏回归系数,表示当方程中其他自变量不变时, 自变量Xi变化一个计量单位,反应变量Y的总体平均值的估计 值变化的单位数.
多元线性回归分析前体条件——LINE
(1)linear : Y与X1, X2,…, Xm之间具有线性关系。 (2)independent :各个体观测值间相互独立。 (3)normal distribution :在一定范围内,对任意一 组自变量X1, X2,…, Xm值,Y都服从正态分布。 (4)equal variance :在一定范围内,不同组自变量 对应的Y具有相同方差。
非同质性资料合并
哑变量设置
多元线性回归分析中自变量可以是连续的(年龄、血压) ,也可以是二分类的(性别),不能把有序变量(高、中 、低)和无序多分类变量直接纳入分析。必须先将有序变 量或多分类无序变量转换成多个二分类变量,再进行回归 分析。
通径分析
当多元回归自变量较多时,相互间的关系十分复杂,有的自变量并不 是直接对反应变量产生影响,而是通过对其他自变量的作用间接地影 响反应变量。通径分析是一种在回归基础上的拓展,用以处理这种具 有复杂变量关系的方法。 例如:回归模型后,自变量X1 、 X2对Y贡献甚微,但从专业知识考虑 X1 、 X2是通过X3 、 X4影响Y的,这时就需要通径分析。
最简单的处理办法就是删除变量:在相关性较强的变量中删除测量误差较大
的、缺失数据多的,专业角度看不是很重要的,也可采用主成分回归法。
交互效应 当回归模型中有多于2个的自变量,变量之间可能存在交 互作用(一自变量对应变量的作用大小与另一个自变量的 取值有关),此时可建立包含各自变量及其某些有交互作 用的自变量的乘积( X1X2)的回归模型。 例如:A、B两种药物对帕金森综合症都有作用,而且相信 联合用药效果更好,为探讨联合用药可行性,进行了随机 对照临床试验。最终的得到的回归方程为: Ỷ=49-2.5X1+1.9X2+0.2X1X2
第四节:多元线性回归应用
• 定量的建立一个反应变量和多个自变量之间 的线性关系 • 筛选危险因素 • 通过较易测算的变量估计不易测量的变量 • 通过反应变量控制自变量
第五节:多元线性回归应注意问题
多重共线性 除了LINE前提条件外,多元线性回归还需要注意自变量之间的关系。当自变 量之间高度相关,则称自变量存在多重共线性。共线性可使回归系数极不稳 定,表现为回归系数标准误很大,以至于本来非常重要的自变量无统计意义 而不能进入方程,甚至使样本回归系数可大可小,可正可负,专业知识无法 进行解释。
第一节:多元线性回归概念及统计描述
概念:用于分析一个连续型因变量与多个自 变量之间的线性关系的统计学分析方法。 例:血压值与年龄、性别、劳动强度、饮食习 惯、吸烟状况、家族史 糖尿病人的血糖与胰岛素、糖化血红蛋白、 血清总胆固醇、甘油三脂
多元线性回归数据结构
假定对n例观察对象逐一测定了因变量Y与m个自变量 X1,X2,„Xm的数值。
标准化偏回归系数
• 因为各自变量都有各自的计量单位以及不同的变异 度,所以不能直接用普通偏回归系数的大小来比较 方程中各个自变量对反应变量Y的影响大小。需要求 出标准化偏回归系数。 • 设:与一般回归系数bi对应的标准化偏回归系数为 Bi,则
SXi、SY分别为Xi和Y的标准差。
偏回归系数的估计--最小二乘法
步骤:1、根据专业知识绘制变量间的通径图。2、按照通径图建立线性方程 。3、将各系数添加到通径图上。4、根据通径图计算各变量对Y的直接、间 接效应。
第六节:实例分析(SAS)
• 为分析各大学附近房屋价格及其相关因素, 统计了近期成交房屋售价和基本情况。试用 回归分析方法确定哪些因素对价格有明显影 响,并建立模型。
相关文档
最新文档