浅析房地产评估中大数据技术的应用

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

浅析房地产评估中大数据技术的应用

作者：王岩

来源：《中国房地产业·下旬》2020年第07期

【摘要】本文以探究如何將大数据运用在房地产评估领域为重点进行分析，以当下房地产行业的大数据基础为主要依据，为大数据的获取和分析提供了系统方法，试图为人工智能时代下的房地产预测提供一种新的思路和解决方式。

【关键词】房地产评估;大数据

房地产行业是我国的支柱型产业，对国民经济发展影响深远。当前，大数据的发展与应用为房地产评估行业带来了巨大的机遇和挑战，基于大数据分析下的评估结果，企业能够最大限度地消除评估过程中的主观性，改善融资链条下风控中的房地产评估环节，进而控制资产交易的风险。

1、大数据下房地产数据信息概况

1.1大数据技术简介

大数据通常指系统地抽取并处理信息的一系列方式，这些信息可以指任何类型，包括数字、文本、照片、视频、音频和其他形式，海量信息由廉价且众多的信息传感物联网设备收集，揭示行业内存在的问题和规律。大数据中所包含的数据集大小和计算复杂度，通常超过了常用软件工具在有限时间内对数据的捕获，整理，管理和存储能力，因此大数据往往依赖于云计算等并行计算处理工具，例如在数十，数百甚至数干台服务器上运行的大规模并行软件。从本质上说，大数据扩大了数据分析的抽样方法和范畴，降低了对精确性的要求，更多地转向揭示房地产经济领域的复杂联系，并且预测其经济行为。在大数据时代这一大背景下，企业评估人员需从数据中提炼有效信息，并与具体业务知识进行结合分析，从而引导企业评估环节的有效变革。

1.2房地产行业大数据构成

房地产评估行业是一个典型的数据密集型行业。各房地产土地评估机构通过长期经营，已经逐步积累了海量的数据信息。比如以房地产行业为中心的交易活动便派生出各种交易数据，包括房价评估数据，抵押登记数据，各渠道消费数据等。而宏观经济、土地、人口等数据作为传统房地产行业的基本评估维度，其信息主要包括土地规划，宏观经济政策，土地应用等级及金融投资等，这些同样是房地产企业开展评估工作不可或缺的。此外，通过获知消费者群体的年龄分布，性别分布，消费能力，分析不同时间段的人口流动轨迹和人口聚集情况等数据，企业也能轻易完成目标消费者画像，判断市场的消费活力。房地产行业庞大的结构性数据资源集

合了本行业受到产业上下游的综合作用，收集房地产大数据是确保评估工作顺利进行的有利条件。

2、房地产大数据获取技术

2.1传感器

传感器是房地产城市大数据最经典的形式，它们被放置在建筑物及道路之间，以各种物理信息作为输入，包括光线，温度，空气质量，噪音污染水平等。例如声光传感器可以放置在地块中的十字路口或桥头，测得这些区域的交通状况和人流量;光纤传感器可以监控地块的土质状况并标记裂缝。随着传感器价格持续走低，性能不断提升，数据共享和传输得以实现持续化与便捷化。

2.2APP

随着智能手机的广泛应用，APP成为了新的大数据渠道。大量的开放式公交应用与滴滴，共享单车定位等商业应用提供的大量交通数据，能够判断地块是否处于高速发展国内，以及是否存在配套生活设施的虹吸效应。部分应用程序还允许用户有意识的输入数据。通过对在线评价数据的研究，地产商可以定位潜在消费者，并预测他们的购买力和购买偏好，从而预测商圈的前景。

2.3GIS与遥感技术

地理信息系统（GIS）和遥感技术能提供一套完整的空间数据获取，存储，显示，和处理的模式，其综合了房地产空间位置，形状，大小，分布状况和拓扑关系等空间方面的信息，并且借助计算机技术实现了对数据的批量管理和可视化。由于房地产的价值严重依赖地理位置，周边环境等信息，GIS和遥感技术能使得评估人员能够更有效的分析影响房地产价格的空间区位因素，从而提高评估结果的准确性。

3、房地产大数据分析技术

几十年来，房地产评估的准确性一直是业界争论和研究的话题。传统的房地产评估方法过于依赖过去的价格，然而由于市场变化难以预期，所选的可比实例与持估房地产不可能完全相同，通过过去市场变化情况预测未来房地产价格时通常会产生很大偏差。同时，评估人员对房地产状况的勘察难以做到细致入微，仅仅依靠卖家，买家或时中介人员的陈述势必会造成评估结果的主观偏差。

尽管房地产估价领域的不精确性和低效性依然存在，然而随着机器学习技术的出现，房地产行业数据的可用性已经显著增加。将大数据应用于某些复杂的建模技术中，即可实现用于房地产开发发自动商业估价模型。

3.1基于决策树

决策树模型是将数据按顺序划分为子集的一种算法。每一次划分之后，数据将向下被传递到树分支的下一个结点，直到所有实例具有相同的分类。根据目标数据的性质，有两种类型的决策树，分类树（预测类别）和回归树（预测连续变量）。因为资产的价值是连续的，通常使用回归树作为大数据分析模型。

回归树算法通过最小化平方误差在当前特征集中选取最佳的预测因子，进而根据特征的重要性生成一个序列，序列中的每一个特征表示决策树中的一个节点。第一个节点（也成为根节点）包含整个数据集，根节点数据集的分割方法基于成本函数确定的预测因子，该因子可以使得两个子数据集的回归方差最小化。在叶子节点中继续对数据集进行分析，选出表现最好的特征进行划分，这一过程在树的所有分支中都是递归的，直到达到树的期望深度。

与传统的回归模型相比，决策树易于理解和应用，统计显著性明显，即使数据量很大也可以在短时间内做出预测。尽管有这些优点，决策树也有一些局限性，一方面训练集中可以使决策树无限制垂直增长，这样的深树产生了非常复杂的模型，对未知数据的预测存在较大偏差，这种现象称为过拟合。另一方面，如果决策树太浅，训练数据的小变化就会导致预测结果的大变化，这样的模型是欠拟合的。为了克服决策树模型的局限性，可以通过创建多个决策树获得平均预测。最流行的决策树集合是随机森林模型，其在减少方差上表现优异，适用于降低单一决策树的过拟合现象。另一种著名的集成方法是梯度增强模型，其根据初始决策树的残差生成新树，各决策树预测结果的加权和即为分析结果。随着迭代次数的增加，梯度增强模型的精度逐步提高，减少了决策树的欠拟合现象。

3.2基于神经网络

神经网络是由大量处理单元广泛互联而成的网络，它反应人脑的基本特征，是对人脑的抽象，简化和模拟。人工神经网络由一个输入层一个输出层和若干个隐含层组成，不同层之间的节点通过权进行连接。除输入节点之外的任意节点都可以用激活函数表示，可选择线性型，阈值型或S型等。实际中以影响房地产价格的因素作为输入信号，上层节点的数据经由连接权的处理，通过激活函数变换并输出到下层，最终得到房地产的估计价格。

神經网络的训练由两阶段组成，信息正向传递与误差反向传播。首先通过输入学习样本，层层激活神经网络中的节点，得到实际输出。然后计算神经网络估计值与学习样本标签之间的误差，反向传播该误差，得到各节点对误差的贡献，并修改各层的连接权，再次进行预测。正向传递与反向传播两个阶段循环进行，直到网络收敛为止。传统的神经网络采用最速下降法，通过梯度方向来确定各连接权的修改幅度，这样能保证每次迭代之后输出的误差逐步减小。

传统BP神经网络是一种依赖梯度下降的算法，这种优化算法有着诸多缺点，例如过于依赖空间误差表面的瞬间梯度值，使得算法的收敛速度不能保证。若误差曲面对权值的导数很