关于波士顿房价影响因素的探究
【北美购房网】波士顿租房市场与以房养学

【北美购房网】波士顿租房市场与以房养学波士顿被誉为“美国的雅典”,聚集着众多世界闻名的高等学府。
哈佛大学(Harvard University)、麻省理工大学(Massachusetts Institute of Technology)、东北大学(Northeastern University)、波士顿学院(Boston Collage)和波士顿大学(Boston University)等几大高校形成了波士顿的几个主要学区。
无论是常年在此求学的学生,短期交流的访问学者,还是慕名而来的游客,都有很高的租房需求。
波士顿的学区周边房价也就水涨船高,即使是席卷全球的金融危机也丝毫没有影响此地学区房的身价。
投资该地区的学区房,以房养学,回报率将相当可观。
下面我们就和大家一起了解一下近几年波士顿的租房市场及以房养学的相关案例。
波士顿房租走势波士顿环球报(Boston Globe)指出:大波士顿地区公寓房租在2015年整体上涨了6%,同比全美最大的25个都会地区中,大波士顿地区的火爆程度位于全美第二,波士顿的房屋空置率更是仅为2.6%。
同时,据人口普查局的数据,波士顿的房屋自有率进一步下跌,为近十年最低水平。
这些数据反映了波士顿人在购房时面临房价攀升的重重压力。
但也有专家认为,这些数据也可以被更为积极地解读——随着波士顿地区经济走强,越来越多的年轻人从父母的家中搬出,来到了都会区奋斗,这些青年正成为租房市场的中坚力量,对于大波士顿地区的房东们来说,确实是好消息。
年轻人口暴增,居住区数量跟不上根据大波士顿房屋公司的研究报告,2000年到2010年,波士顿24岁的人口增长20-25%,2014-15年,20至34岁的人口净增长为75%。
东北大学的杜卡基斯中心城市与区域政策的创始主任Barry Bluestone说,尽管波士顿年轻人口有显著的增长,但居住区数量却没有跟上。
东北大学经济学和公共政策教授Alicia Sasser Modestino说,波士顿的租赁市场很难定位,低空置率也受到结构性问题而复杂化。
深度学习3:波士顿房价预测(1)

深度学习3:波⼠顿房价预测(1)转载:波⼠顿房价问题房价的预测和前两期的问题是不同的,最⼤的区别就是这个问题不是离散的分类,他是⼀个连续值,那么在搭建⽹络时候的技巧就有所区别。
代码实例分析from keras.datasets import boston_housing(train_data, train_targets), (test_data, test_targets) = boston_housing.load_data()12导⼊数据train_data.shapetest_data.shape看⼀下数据的尺⼨,发现训练集的尺⼨是404,13;测试集的尺⼨是102,13;说明这些数据不多,这⼗三个数据特征是各种数值,包括犯罪率,住宅平均房间数,道路的通畅程度等。
很明显,这些数据都看起来没什么关系,相互之间⽆法联系,还有⼀个最要命的就是我们⽆法确定那个数据更加的重要。
另外,这些数据的范围也不同,想要使⽤,必须要做⼀些处理。
train_targets看⼀下targets,就可以看到当时房⼦的房价了,这就是训练集中对应的结果集,类似于上两个例⼦中的标签集。
mean = train_data.mean(axis=0)train_data -= meanstd = train_data.std(axis=0)train_data /= stdtest_data -= meantest_data /= std这⾥就是应对数据范围不同的办法,⽅法叫标准化,含义就是加⼯每个特征,使他们的数据满⾜平均值为0,标准差为1.具体的⽅法就是每列取平均值,减去平均值,再除以减掉之后的标准差。
这⾥要注意标准化所⽤的数据必须是在训练集上得到,实际操作中不能让任何数据从验证集上得到,不然会导致模型过拟合的问题。
from keras import modelsfrom keras import layersdef build_model():model = models.Sequential()model.add(layers.Dense(64, activation='relu',input_shape=(train_data.shape[1],)))model.add(layers.Dense(64, activation='relu'))model.add(layers.Dense(1))pile(optimizer='rmsprop', loss='mse', metrics=['mae'])return model这⾥就是搭建学习模型的步骤,因为这个模型要重复使⽤,所以我们把它写成函数的形式。
【北美购房网】波士顿房产投资指南

波士顿简介波士顿(Boston)是美国马萨诸塞(Massachusetts)州的首府和最大城市,也是美国大陆东北部新英格兰地区的最大城市;它是美国东海岸的主要海港之一,也是西半球最古老的仍然活跃的商埠和渔港之一。
该市创建于1630年,是美国最古老、最具历史文化价值的城市。
波士顿是十八世纪末美国独立战争期间一些重要事件的发生地,如今已成为全球高等教育、科研、金融、生物技术和医疗保健产业的中心。
大波士顿都会区以波士顿为核心,包括整个萨福克县(SuffolkCounty)和剑桥(Cambridge)、昆西(Quincy)、牛顿(Newton)、萨默维尔(Somerville)、里维尔(Revere)和切尔西(Chelsea)等城市,还包括新罕布什尔(NewHampshire)州的一部分。
教育波士顿被誉为“美国雅典”,这里分布着超过100所大学,超过25万名大学生在波士顿就读。
波士顿建有美国最古老的公立学校系统,从幼儿园到12年级,学生人数将近6万。
该系统包括145所学校,最古老的波士顿拉丁学校就是其中之一,设7-12年级,在7-9年级通过公开考试招收学生;还有成立于1821年的英文中学和成立于1639年的马特学校,等等。
波士顿还拥有私立学校、教会学校和特许学校(charterschool)。
3000名少数族裔学生通过大都会教育机会委员会(METCO)得到在郊区学校就学的机会。
2002年,《福布斯杂志》将波士顿公立学校系统列为美国最好的大城市学校系统,毕业率达到82%。
波士顿地区是全美教育水平最高、历史最悠久也是当地居民综合素质最高的城市,全国排名总是在前十名以内,从来没有任何负面评论,而其他几个大城市比如纽约、芝加哥和旧金山等城市的相关评论却是好坏掺半。
这里是全世界著名高等学府最集中的地方。
美国现任总统就毕业于哈佛大学,前任的布什总统与以前的老布什总统、肯尼迪总统等均毕业于波士顿附近的PhilipsAcademy;蒋介石夫人宋美玲及其姐妹和克林顿总统夫人希拉里都毕业于波士顿西南的韦斯利Wellesley女子学院波士顿当地著名的高校包括: BayStateCollege海湾州立学院BerkleeCollegeofMusic伯克利音乐学院BostonArchitecturalCenter波士顿艺术中心学院BostonCollege波士顿学院BostonConservatory波士顿音乐学院BostonUniversity波士顿大学BunkerHillCommunityCollege邦克海尔社区学院CambridgeCollege剑桥学院EmersonCollege爱默生学院EmmanuelCollege 以马利学院FisherCollege费雪学院FranklinInstituteofBoston波士顿法兰克林学院HarvardUniv.哈佛大学KatherineGibbsSchool凯瑟琳吉布斯学院LesleyUniversity莱斯利大学LongySchoolofMusic郎基音乐学院MassachusettsCollegeofArt麻州艺术学院MassachusettsCollegeofPharmacy&HealthSciences麻州医药卫生学院MIT(MassachusettsInstituteofTechnology)麻省理工学院NewEnglandCollegeofOptometry新英格兰视力测定学院NewEnglandConservatory新英格兰音乐学院NewEnglandSchoolofLaw新英格兰法学院NortheasternUniversity东北大学RoxburyCommunityCollege若可斯伯瑞社区学院SaintJohn’sSeminary圣约翰神学院SchoolofTheMuseumofFineArts精美艺术博物馆学院SimmonsCollege塞蒙学院SuffolkUniversity萨克福大学TuftsUniversity塔夫兹大学UrbanCollegeofBoston波士顿城市学院UMassBoston麻州大学波士顿分校WentworthInstituteofTechnology温氏技术学院WheelockCollege韦罗可学院☆波士顿高校附近公寓的价格和租金情况 一般情况下,40-50万美金很难在波士顿地区买到性价比较好的适合居住的房产。
回归算法波士顿房价预测PPT课件

1
任务实施
我们采用了几种不同的回归算法对波士顿房价问题进行拟合:
• 首先,使用sklearn.model_selection模块的train_test_split()方法来划分测试集和训练集。
• 接着,我们需要定义R2函数,用于衡量回归模型对观测值的拟合程度。它的定义是R2 = 1“回归平方和在总平方和中所占的比率”,可见回归平方和(即预测值与实际值的误差平
1
一、单变量线性回归
1.模型定义
一般用来表示参数集合,即通用公式为:
其中的x是数据的特征属性值,例如上面例子中房子的面积;y是目标值,即房子的价格。
这就是我们常说的线性回归方程。和是模型的参数,参数的学习过程就是根据训练集来确
定,学习任务就是用一条直线来拟合训练数据,也就是通过学习找到合适的参数值。
方和)越小,则R2越接近于1,预测越准确,模型的拟合效果越好。
1.多项式回归
如果训练集的散点图没有呈现出明显的线性关系,而是类
似于一条曲线的样子,就像图中这样。我们尝试用多项式
回归对它进行拟合。
我们先看一下二次曲线的方程y=ax^2+bx+c,如果将
x^2理解为一个特征,将x理解为另外一个特征,那么就
可以看成有两个特征的一个数据集,这个式子依旧是一个
线性回归的式子。这样就将多项式回归问题,转化为多变
对应的真实结果y(即真实房价),那么可以将模型用矩阵形式表达为:
1
二、多变量线性回归
2.损失函数
3.最小二乘法求解
对损失函数求偏导并令其等于0,得到的θ就是模型参数的值。
1
二、多变量线性回归
4.梯度下降法求解
梯度下降法的基本思想可以类比为一个下山的过程。一个
房地产波士顿矩阵研究分析报告

市场 增长率
明星 高
波士顿矩阵
婴儿
现金牛
。
瘦狗
高
相对市场份额
明星产品
包装,旗帜!
具备差异性优势以及稀缺物业类型的最高端产品, 形成项目标杆价值。客户需求量高、可实现高市 场价值。
现金牛产品 利润主力
成熟市场中的领导者,具有广泛的客户关注,它 是项目资金的主要来源。客户需求量较高、可实 现较高价值。
推盘理由:10、11号楼压 轴,景观最佳,位置最优 之楼栋,进一步拔升销售 价格,成为本项目压轴大 戏,并使其成为项目利润 的主力。
12
8
6 115/85/100
5
2 1
11
10
9 7
4 3
上海世联天地源项目组
全盘销售节奏汇总
期数
时间
推出楼号
套数 建筑面积 销售均价 销售率
回收资金
第一期 06/11-07/2 5、6、8(西)号 234 22231.96
婴儿产品
培育、转化
需要不断投入以增强其竞争能力,可通过持续投 资,发展为明星单位。即目前缺乏展示、包装、 推广的单位;目前客户需求较低、条件转化后可 实现较高市场价值。瘦狗产品Fra bibliotek尽早出货
产品优势较弱,市场承接度低,客户需求量较低、 市场可实现价值较低。
上海世联天地源项目组
全盘销售节奏
市场 增长率
波士顿矩阵
相对市场份额
132
141
140
18
82
61 51 2
12
93 73
42 32
上海世联天地源项目组
全盘销售节奏
第一期:5、6、8(西)号楼 推出时间:06年11月-07年2月 推出套数:约234套 建筑面积:约22231.96平方米 入市均价:5400元/平方米 销售目标:90% 资金回收:约10804.73万元
利用三种回归模型预测波士顿房价的问题描述

利用三种回归模型预测波士顿房价的问题描述
波士顿房价预测是基于波士顿地区的一些特征来预测房屋价格的问题。
我们收集了一些关于波士顿地区的数据,包括犯罪率、住宅平均房间数、低于贫困线的比例等等。
我们的目标是建立一个回归模型,根据这些特征来预测房屋的价格。
为了达到这个目标,我们可以选择三种回归模型进行预测。
第一种是线性回归模型,它假设房价与特征之间存在线性关系。
我们可以通过拟合一个线性方程来预测房价。
第二种是决策树回归模型,它通过构建一棵决策树来预测房价。
决策树模型可以捕捉到特征之间的非线性关系,并且可以处理离散和连续型特征。
第三种是支持向量回归模型,它通过找到一个最优的超平面来拟合数据。
支持向量回归模型可以处理高维特征,并且可以处理离群点的影响。
我们可以使用这些回归模型对波士顿房价进行预测,并通过评估模型的性能来选择最优的模型。
预测结果可以帮助房地产开发商、投资者和买家做出更明智的决策。
尽管我们要避免敏感内容的讨论,但在实际应用中,还会考虑到其他因素如地理位置、交通便利性等对房价的影响。
城市规划管理经验美国波士顿房地产项目开发过程给予的某些启示

都市规划管理经验(2023,No.2北京规划建设)——美国波士顿房地产项目开发过程予以旳某些启示高岩 Te-MingChang波士顿重建局(如下简称重建局)是美国马萨诸塞州波士顿市(市辖区内人口为58.9万人面积125.4平方公里)主管都市规划与经济发展旳机构它是美国为数不多旳将规划与发展合二为一旳例子。
这就决定了它既要设置规划法规来限制盲目旳房地产开发又要采用多种形式来鼓励发展和管理房地产项目。
笔者有幸在波士顿重建局工作数年,直接或间接参与了都市规划与管理行为切身体会到它是怎样充足行使州立法赋予旳权力,将看似矛盾旳双重功能有效旳处理和发挥。
从它对房地产项目开发过程旳参与、协调、审批、管理中可以予以我们诸多旳启示。
一、重建局简介及地区规划分区法旳发展历史重建局成立于1957年,经马萨诸塞州立法法案同意,因此它旳立法权利来自于州一级,但又是专门针对波士顿市旳机构在某些问题上旳处理可以独立于波士顿市政厅。
它旳财政预算也与波士顿市政厅分开进行。
重建局当年成立旳重要原因是美国正在进行如火如茶旳都市更新运动许多大都市为了振兴衰落旳都市中心.大量征用市内土地建立一系列大型公共设施或由私人企业开发商业住房将搬家到郊区旳人口吸引回都市。
因此不管与否是居住还是商业用地,重建局具有可认为了公众利益而征用都市土地旳权力(这种权力称为“征用权”)付给原拥有者当时旳市场价格。
这可以说是美国版旳“拆迁办”。
同步它还具有买卖土地及为增进居住和商业房地产开发而实行税收优惠政策旳权力。
除了前述成立旳初始原因外发明良好旳经济发展和居住就业环境提高市民旳生活质量也一直是重建局旳工作宗旨由于它也被赋予规划控制都市旳物质形态旳权利。
它自身既拥有都市中旳许多土地(大多是20世纪60年代都市衰落期买来旳).并积极去开发经营这些土地;同步又立法管理监督其他旳私有土地开发,提供最需要旳住宅、办公楼等,从而指导都市旳发展方向。
这两种功能旳合并使得它可以完整地将规划制定旳方针、原则贯彻执行到实际旳房地产开发项目中做到最小偏差因此规划与发展在这里是相辅相成旳关系。
基于经典和稳健方法的波士顿房价研究成果综述

王园园
摘 要: 利用波士顿房价数据,通过比较 lm、lmrob、LMS 和 tau 四种方法,重点是对经典估计方法和三种稳健估计方法进行分
析,研究四种方法的差异及优劣,探讨在统计模型中,当实际观测数据偏离假设,在异常值不可避免的情况下,究竟是选择建立在
某种理想分布基础上的经典估计理论模型,还是选择建立在符合数据实际分布基础上的稳健估计方法。
关键词: 稳健估计; 最小二乘法; M 估计; MM 估计; LMS 估计
中图分类号: F222.1
文献标识码: A
文章编号: 1008-4428( 2019) 03-0040-04
一、引言
( 一) 研究目的
线性回归模型( Linear regression model) 是统计中用来确
定变量间相互依赖关系的基本模型,应用十分广泛。求解线
二、文献综述 ( 一) 稳健估计发展 线性回归模型在科学研究和实践中应用非常广泛,并且 取得了丰硕成果。它是许多模型的基础模型,它的理论成果 以及实践应用会 影 响 到 其 他 一 些 复 杂 模 型,因 此,在 统 计 模 型中占有重要的地位。估计回归系数的经典方法是最小二 乘法( OLS) ,然而最小二乘法很容易受到异常值的影响,是 不稳健的。真实观 测 数 据 中,异 常 值 很 难 避 免,这 时 候 利 用 最小二乘法进行 估 计,结 果 会 比 较 差,进 而 使 得 预 测 结 果 也 比较差,在一定程度上限制了线性模型的应用。因此探讨研 究线性模型的稳健估计方法很有必要。 1953 年,G. E. P. Box 首先提出 Robustness 概念。随后, J. W. Tukey,P. J. Huber 等人对参数稳健估计进行了有成效 的研究。J. W. Tukey 反复研究传统统计方法的不稳健性,并 确定了切尾均值及平均绝对离差等估计方法的优良稳健性。 P. J. Huber 提出了一类未知参数的稳健估计方法———M 估 计,并解决了相应的渐进极大极小问题。Huber 于 1973 年又 将稳健估计方法推广到多维参数回归模型的参数估计问题。 20 世纪 80 年代以来,Huber、F. R. Hampel 和 Rousseeuw 等人 先后发表了很有 影 响 的 论 著,为 稳 健 估 计 理 论 奠 定 了 基 础。 Huber 于 1981 年正式给出稳健估计定义,稳健统计学至此趋 于成熟。截 至 今 天,稳 健 统 计 已 经 取 得 了 许 多 进 展。 在 国 内,许多学者比如陈希孺、赵林城等,在线性、非线性、部分线 性模型以及稳健投影寻踪的 M 估计大样本特性方面取得了 一系列成果。 在统计建模中,统 计 的 结 果 既 依 赖 于 观 测 数 据,又 依 赖 于我们对所研究 总 体 的 一 些 特 定 的 假 设,比 如 分 布 形 式、独 立性等。稳健估计旨在克服当观测数据显著偏离假设时,经 典统计学所面临的一些困难。稳健估计是在异常值不可避 免的情况下,通过 选 择 适 当 的 估 计 方 法,尽 可 能 减 免 未 知 量 估计值受异常值的影响,得出正常模式下的最佳估计。稳健 估计的目标如下: 在假设的观测分布模型下,估计值应该是
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
关于波士顿房价影响因素的探究第三组组长:潘岚锋组员:姜洋杜娟程夏莹报告课件名称:boston目录1数据介绍 (3)1.1概述 (3)1.2变量介绍 (3)1.3数据变形 (4)2方法说明 (5)2.1评价标准 (5)2.2交叉验证 (6)2.3异常点 (6)3参数模型—最小二乘回归 (6)3.1模型建立 (6)3.2拟合效果 (8)3.3模型诊断 (8)图3.1 (9)4非参数模型—k最近邻 (9)4.1原理 (9)4.2K的选择 (10)4.3OLS与KNN之间的比较 (11)5相加模型 (12)5.1LASSO和ADALASSO (13)5.1GROUPLASSO (13)6复杂的非参数方法 (14)6.1Gradient Boosting (14)6.2随机森林 (15)6.3BOOSTING和RANDOM FOREST的方法比较 (16)7结论 (17)1数据介绍1.1概述原始数据为波士顿1970年人口普查中506个人口调查区域的房屋数据,其中自变量变量有13个,分别CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX, PTRATIO,B,LSTAT,因变量是自住房屋价值的中位数(单位1000美元),记为MEDV。
我们的主要研究目的是通过研究自变量与因变量之间的关系,筛选出影响房价的主要因素,从而对波士顿房价进行预测。
1.2变量介绍1.1.33数据变形在对各变量作描述统计的过程中,CRIM,B的分布图虽然范围比较广,但大都集中在0附近,存在严重偏态,为了更好的建模,有必要对这两个数据做对数变化,变化如下:图1.1CRIME=log(CRIM)图1.2BB=log(400-B)2方法说明2.1评价标准本文评价不同建模方法表现的好坏所选用的指标是SASPE(标准均方预测误差),SASPE越小,表明方法效果越好。
其计算公式如下:ASPESASPE=VAR(MEDV)其中ASPE为训练集的均方预测误差,VAR(MEDV)为房价中位数的方差,当数据进行标准化后,SASPE与ASPE等价。
值得说明的是,由一个测试集和一个训练集得出的SASPE有一定的随机性,这里我们选用的是一个平均的SASPE,即将数据分为三部分,每次取其中两部分做训练集,剩下一部分作为测试集,这样每种方法都将得到3个SASPE结果,最终用来评价的SASPE为三次的平均。
2.2交叉验证所有方法都通过划分训练集,使用了交叉验证的方法。
2.3异常点为了更好的建模,我们在稍后的方法中(除最小二乘回归外)剔除了三个异常点,分别为369,371,372所代表的样本信息。
3参数模型—最小二乘回归3.1模型建立首先用全数据建立进行最小二乘回归,Coefficients:Estimate Std.Error t value Pr(>|t|)(Intercept)43.043564 6.491545 6.6311.39e-10***CRIME-0.0033540.355747-0.0090.992484ZN0.0414260.017576 2.3570.019021*INDUS-0.0549120.081803-0.6710.502524CHAS 2.461923 1.119787 2.1990.028613*NOX-19.677472 5.103782-3.8550.000139***RM 3.9100690.5293317.3871.28e-12***AGE-0.0019590.017205-0.1140.909400DIS-1.6000200.258965-6.1791.93e-09***RAD0.1943070.094766 2.0500.041129*TAX-0.0102870.004584-2.2440.025484*PTRATIO-1.0178570.169313-6.0124.93e-09***B-0.1686190.219752-0.7670.443451LSTAT-0.4942480.062242-7.9413.31e-14***Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1Residual standard error:4.914on325degrees of freedomMultiple R-squared:0.7439,Adjusted R-squared:0.7336F-statistic:72.61on13and325DF,p-value:<2.2e-16计算结果表明,虽然R方值比较大且方程通过了回归方程检验,但CRIME,AGE,INDUS和B没有通过回归系数检验,是不显著的变量,因此采用逐步回归的方法以AIC准则筛选变量。
Coefficients:Estimate Std.Error t value Pr(>|t|)(Intercept)43.554988 6.270556 6.9462.02e-11***ZN0.0431700.016880 2.5580.01099*CHAS 2.417330 1.107929 2.1820.02983*NOX-20.999477 4.553230-4.6125.72e-06***RM 3.8913350.5104787.6232.68e-13***DIS-1.5617490.238241-6.5552.15e-10***RAD0.2074670.070868 2.9270.00366**TAX-0.0121030.003965-3.0520.00246**PTRATIO-1.0285120.162929-6.3138.87e-10***LSTAT-0.5071140.055765-9.094<2e-16***Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1Residual standard error:4.893on329degrees of freedomMultiple R-squared:0.743,Adjusted R-squared:0.736F-statistic:105.7on9and329DF,p-value:<2.2e-16依次剔除了CRIME,AGE,INDUS和B后,方程通过了回归方程检验和回归系数检验。
3.2拟合效果通过以下拟合图,我们可以看出逐步回归后的效果,经过计算,我们得到了最小二乘回归方法的SASPE=0.315,在以后的研究中,我们发现这个值相对其他方法还是较大的。
图3.13.3模型诊断逐步回归后所建立的回归方程的系数虽然都是显著的,但是我们在做模型诊断的时候,发现残差QQ图明显不是正态分布,不满足模型假设条件,而且残差预测图的分布也表明模型用线性关系建立是不合适的,所以最小二乘方法并不是最优的,我们需要尝试其他的方法。
另外,从残差图中我们发现369,371,372的异常情况,为了便于研究,将它们作为异常点剔除,以后用到数据集为剔除异常点的样本量为503的数据集。
图3.14非参数模型非参数模型——k最近邻前面我们研究了参数模型中较常规的线性模型,那么在非参数模型中能否有较好的模型的呢?K最近邻(k-Nearest Neighbor,KNN)是在非参数模型中的一个理论上比较成熟的方法,也是最简单的机器学习算法之一,基于此特点,我们研究一下它的效果如何。
4.1原理KNN算法不仅可以用于分类,还可以用于回归。
通过找出一个样本的k个最近邻居,将这些邻居的属性的平均值赋给该样本,就可以得到该样本的属性。
更有用的方法是将不同距离的邻居对该样本产生的影响给予不同的权值(weight),如权值与距离成正比。
4.2K的选择K最近邻是选取与样本最近接近的k个点的平均值作为该点的预测值,那么这个k的选择就会影响到模型的好坏,在此我们将k从1取到15来观察SASPE 的变化情况。
从上图我们可以看出,标准均方预测误差大致在0.17到0.23之间变化,当k=4的时候,SASPE最小,为0.1750945,下图表明的是KNN方法的拟合情况。
4.3OLS与KNN之间的比较从图4.3和4.4可以看出,KNN能够较好的拟合所有的点,这些点较集中在预测误差为0的直线附近,而相形之下,OLS的点分布比较离散。
验证表明,线性模型的SASPE为0.27090203(平均水平),k最近邻的为0.1755921,用非参数的KNN模型降低了标准均方误差,说明KNN模型相较于线性模型是比较好的。
可即使如此,是否还有更好的模型呢?5相加模型既然通过前面的探索分析可知,简单的线性模型无法对数据进行好的拟合和预测,并且残差也无法满足模型的假设条件,因此,在此尝试用可加模型:01()(|)()pl l l m x E Y X x x αα====+∑对相加部分()l l x α用B 样条函数估计,本数据有13个自变量,其中CHAS 为0-1变量,无法进行基函数展开,在建模时候剔除,从变量筛选中也可以看出,这个变量对最终的预测影响不大;ZN 只有26个数值,也无法进行基函数展开,因此将其本身带入模型中进行预测。
对剩余的11个变量分别用5个基函数进行展开,因此总共需要估计的参数为11*5+1=56个。
接下来分别用LASSO 、ADALASSO 和GROUP LASSO 进行变量选择。
5.1LASSO 和ADALASSO在2/3的训练集中进行五折交叉验证以选择合适的惩罚系数,最终模型选择了46个变量,将模型运用于测试集得到的标准化预测均方误差为0.1542364。
接下来,进一步尝试了ADALASSO 的方法,提高了计算的速度和精度,最终筛选的变量时30-40,尽管变量数目有效减少,但是因为对原始的12个变量进行了基函数展开,在最终变量选择的时候可能没有一个变量能被剔除,比如对于CRIM 变量,其前三个基函数的系数都为0,但是因为后两个不为0,因此CRIM 变量无法剔除模型。
这种方法得到的预测误差是0.15261。
表5.1CRIM1CRIM2CRIM3CRIM4CRIM5000-6.23-14.05因此,基于模型在变量选择的特殊性,尝试用GROUP LASSO 的方法。
5.1GROUPLASSOGROUP LASSO 是一种将变量分组后进行筛选的方法,其模型的形式如下:2111||||||||2j J J j j j K j j Y X βλβ==−+∑∑其中,1/2||||()j T j K j j j K βββ=,在组间变量选择的时候采用L1范数,在组内变量选择的时候采用L2范数。
根据BIC准则,依据惩罚项的不同,最终得到的变量数目也不一样,下图是随着惩罚参数的变化,变量数目变化的情况,其中相同颜色为同一变量的基函数。