二手数据分析 马亮 博士-副教授

合集下载

基于随机森林回归模型的二手车价格评估研究

基于随机森林回归模型的二手车价格评估研究

基于随机森林回归模型的二手车价格评估研究
宁苑添;朱芹;韦金明;阴鹏飞;朱虹霖
【期刊名称】《桂林航天工业学院学报》
【年(卷),期】2024(29)1
【摘要】通过特征价格理论分析和RStudio软件构建二手车交易样本,计算每个特征的重要性值,获取二手车价格评估参数;搭建二手车价格评估随机森林回归模型,利用测试样本数据对模型进行测试,获取最优模型并与重置成本法评估二手车价格进行对比,得出模型预测的价格更接近真实价格,其评估效果更优于重置成本法,满足我国二手车市场的评估需求.
【总页数】12页(P82-93)
【作者】宁苑添;朱芹;韦金明;阴鹏飞;朱虹霖
【作者单位】桂林航天工业学院汽车工程学院
【正文语种】中文
【中图分类】F426.471;TP18
【相关文献】
1.基于随机森林和XGBoost算法的二手车价格预测
2.基于层次分析法和随机森林回归算法的谷物资源风险评估模型
3.基于随机森林模型的房产价格评估
4.基于岭回归的上海地区大众品牌二手车价格预测模型
5.基于线性回归和神经网络模型的二手车交易价格预测分析
因版权原因,仅展示原文概要,查看原文内容请购买。

基于线性回归和神经网络模型的二手车交易价格预测分析

基于线性回归和神经网络模型的二手车交易价格预测分析

基于线性回归和神经网络模型的二手车交易价格预测分析二手车交易市场一直以来都备受关注,人们关注交易价格的预测和波动趋势。

本文将探讨基于线性回归和神经网络模型的二手车交易价格预测分析方法,以提供决策参考。

1. 研究背景二手车交易市场的波动性给卖家和买家都带来了很大的不确定性。

因此,价值预测模型的建立是市场参与者预测价格的重要工具之一。

2. 数据集介绍本研究所使用的数据集是从二手车交易平台上获取的真实交易数据,并经过处理和清洗。

数据集包含了诸如品牌、型号、车龄、里程数、燃油类型、变速器类型等多个特征,以及对应的交易价格。

3. 线性回归模型线性回归模型是一种建立特征和目标变量之间线性关系的预测模型。

通过对数据集进行线性回归分析,可以建立二手车交易价格与其特征之间的数学模型,并基于该模型进行价格预测。

4. 特征选择在建立线性回归模型之前,需要对特征进行选择。

常用的特征选择方法包括相关系数分析、方差分析、主成分分析等。

通过这些方法,可以选择出与交易价格相关性较高的特征,从而提高预测模型的准确度。

5. 模型训练与评估将数据集划分为训练集和测试集,利用训练集对线性回归模型进行训练,并使用测试集评估模型的预测效果。

评估指标可以采用均方误差(MSE)、决定系数(R-squared)等。

6. 神经网络模型神经网络模型是一种模拟人脑神经元工作原理的预测模型。

与线性回归模型相比,神经网络模型可以学习更为复杂的非线性关系,提高价格预测的准确性。

7. 网络结构设计设计合适的神经网络结构对模型的准确性起着重要作用。

常见的神经网络结构包括前馈神经网络、循环神经网络和卷积神经网络。

根据数据集的特点,选择合适的网络结构是十分必要的。

8. 训练与优化利用数据集对神经网络模型进行训练,并通过反向传播算法不断优化模型的权重和偏置,从而提高模型的预测能力。

此外,还可以采用正则化和批归一化等方法避免过拟合问题。

9. 模型比较与选择通过对线性回归模型和神经网络模型的训练和评估,比较两种模型的预测准确性。

基于聚类分析的二手房推荐研究----以北京市为例

基于聚类分析的二手房推荐研究----以北京市为例

基于聚类分析的二手房推荐研究----以北京市为例作者:毛凤华来源:《科技创业月刊》 2018年第5期摘要:为了从属性相似的房源中挑选出性价比更高的二手房,提高二手房交易市场的价格调整效率,运用聚类分析方法及爬取数据,针对北京市二手房进行研究,在各属性相似的簇中挑选出价格更低的房源推荐。

北京市的二手房主要分为5类,近城蜗居房、近城中型房、近城大型房、远城中型房和远城大型房,每个类簇中价格更低的房源认为具有更高性价比,也是在推荐时需要重点关注的项目。

关键词关键词:二手房;聚类分析;数据挖掘;属性分析中图分类号中图分类号:TP391.3文献标识码:ADOIdoi:10.3969/j.issn.16722272.2018.05.041基金项目*基金项目:作者简介作者简介:毛凤华(1997),女,华中师范大学学生,研究方向:推荐系统。

收稿日期收稿日期:201803150引言住房一直是人们长期关注的热点话题。

近年来,房价更是一涨再涨,二手房的价格也逐步攀升,尤其是"北上广深"4大城市。

但是二手房房价的高涨没有影响人们买房的热情。

二手房房价除了受到最基本的面积、地理位置与设施等影响,更受到了很多社会因素影响。

如何寻找条件合适(如老人更适合低楼层住房,家庭人数较多的需要更多的卧室等),价格合适的二手房成为人民群众关注的焦点,同时这也是二手房网站在对消费者进行推荐时亟待解决的问题。

1文献综述通过对已有研究进行梳理发现,目前与聚类相结合的推荐主要有基于用户的聚类和基于情景的聚类两个层面。

在以用户聚类为基础进行推荐的研究中,陈克寒等提出了一种基于两阶段聚类的推荐算法,实现了基于用户兴趣的主题推荐。

王晓耘等将粗糙用户聚类与协同过滤推荐相结合,离线时利用粗糙kmeans用户聚类生成用户的初始近邻集,在线时从初始近邻集中寻找最近邻进行推荐。

明小红从离线用户聚类和用户相似度计算两个方面改进了传统的协同过滤推荐算法。

媒体问计 专家解惑

媒体问计 专家解惑

媒体问计专家解惑作者:来源:《科学导报》2021年第80期山西科技报:您曾是山西农业大学的学生,在选择创业方向以及定好创业方向时该怎么做方面有没有什么经验要与学弟学妹们分享?马亮:缺少创业的充分准备是新手创业者创业成功率低的一个重大原因。

想创业千万不能盲目跟风,一定要选择自己了解且有能力做好的行业。

创业前期还需要做到未雨绸缪,并做好充足的知识储备,包括书本上没有的知识,比如亲自去工厂学习,同时需要做好人员储备以及资金的储备,在创业期需要做到考虑周全,运筹帷幄,做好团队的运作,人员的协调以及市场销售的运作,同时需要新技术的开发与创新,并将产品附加值提高,且做好经验的总结与不足积极改进。

生活晨报:作为一名高校老师,带领指导大学生进行创新创业课题多年,积累了丰富经验与心得体会。

在您看来,高校老师应如何发挥好大学生在创业创新过程中的指导与引导作用呢?武志明:创业者经常会遇到各种各样的困难,有的时候会遭遇失败和打击。

因此,也特别需要得到老师的安慰、鼓勋和支持。

老师是最值得学生信赖的人。

安慰、鼓励学生也是教师的工作内容之一。

大学生的创业梦想有时也需要老师们去点燃。

老师们可以组织各种活动,如请创业成功的校友回校给大学生们做创业报告,请企业家返校谈创业人生;请专家介绍国家的创业环境等,让学生看到目前的创业热潮中的各种机会,激励学生踊跃投身创业热潮中去。

生活晨报:您农业从业20年,与玉米结缘十余年,请您结合自身经历,在这条充满艰辛与激情的创新创业道路上,您认为农业创新人应具备哪些具体的素质与能力,创业成功的密钥是什么?张世元:首先做农业必须要有情怀,可光有情怀也不行,必须还要有市场洞察力。

我在创业的2011年遇到了困难,马上在2012年就转型,所以必须要有敏锐的市场洞察力。

同时也要坚持,一定不能半途而废,别人可以辞职,而在这方面我没有半点退路。

在刚开始创业的时候,大家不要图大图强,反而做的越多压力越大,而要整合好资源,趋利避害,先易后难。

政府2.0的扩散及其影响因素——一项跨国实证研究

政府2.0的扩散及其影响因素——一项跨国实证研究

作者: 马亮
作者机构: 南洋理工大学南洋公共管理研究生院,新加坡639798
出版物刊名: 公共管理学报
页码: 127-136页
年卷期: 2014年 第1期
主题词: 政府2 0 社交媒体 创新扩散 电子政务 跨国研究
摘要:本文旨在识别影响社交媒体或Web2.0技术在政府中扩散的关键因素。

利用《联合国电子政务调查报告》中各国政府采用社交媒体的数据,使用Logit模型实证分析政府2.0在全球扩散的影响因素。

研究结果显示,包括政府规模、财富状况、电子服务和电子民主等在内的政府资源与能力因素是驱动政府2.0在全球扩散的主要因素,而公众的需求与压力、政府自身的规范、国际竞争与学习等并未产生显著影响。

研究局限在于关注各国中央政府,结果可能不适于地方政府;研究基于截面数据,无法检验变量之间的因果关系。

实践价值在于,本研究发现对于理解政府2.0及其扩散具有重要启示,并有助于政府部门推动其广泛使用并发挥积极影响。

作为较早对政府2.0扩散展开的实证研究,本研究有助于理解新兴信息技术在政府部门的应用及其驱动因素,并填补了已有文献的不足。

节点风压解算通风网络的改进方法

节点风压解算通风网络的改进方法

差( 又称不平衡差 ) 全部集 中在那些按需供风分 支上 , 这给风 量调 节实施 带来一定的 困难 , 因为这 些分 支常常是 工作 场地 . 决此 为解 问题 , 出了一种新的 节点风压 法通风 网络 解算思路 . 提 该思路 通过使所有节点风量代 数和归零误差的平方和最 小化 , 建立 了节点风 压法通风 网络解算模型 , 获得 了一种新的节 点风 压法风 网解算算法. 并 解算结果表明 : 某节点的不平衡 差恰好 为 0 则该 节点相 若 , 关分支不需进行风 量调节 ; 否则 , 与该节点相关 的分 支需要进 行风量调 节来消除该不平衡差. 这样一来 , 可将最 小不平衡 误差根据 工程实 际需要 分散 到所有或部 分节点的相关分 支上 , 不是将 不平衡 差完全集 中在 少数按 需供 风分 支上 . 而 该方法理论 上考虑到 了 通 风 系统按 需供风分 支的存在 , 具有理论 完善 、 结果正确、 降低风量调节 实施的难度的特点. 1参 1. 可 图 , 1 关键词 : 通风 系统 ; 通风 网络解算 ; 节点风压法
维普资讯
l 按需 分风条件下节点 风压法 通风网 算模型 络解
11 通 用模型 及其解 法 .
转化为 如下求 误差极小 值 问题 :
mJ ̄A i= 。 n
, ( )∑ ), . )5 ∑ ∑ ( 2 ) . (
假设通风系统中的节点数为 , , 个 其编号的集合 D为 D {,, 1; =12 …, ) 分支数为 Ⅳ个 , 其分支的编号为 12 …, . ,, Ⅳ 分支的编号与节点的编号是独立的.i ) (j 表 示起始节点和终止节点编号分别为 i 『 和- 的分支 , 若该
种 新 的改进 方法 ,该方 法理论 上考 虑到 了通风 网络 中

接口技术-OPC DA服务器的设计与实现

接口技术-OPC DA服务器的设计与实现

OPC DA服务器的设计与实现马亮, 张志鸿(郑州大学信息工程学院,河南郑州 450001)摘要:本文对OPC技术做了详细的分析,在OPC DA标准的基础上,给出了一个OPC数据存取访问服务器框架的设计方案,并介绍了实现的主要步骤。

在设计中引入了适配器模式,用来针对不同数据源进行快速开发。

关键词:OPC;数据访问;COM;适配器模式中图分类号:TP273 文献标识码:BDesign and Implement of OPC Data Access ServerMA Liang , ZHANG Zhi-hong(School of Information Engineering, Zhengzhou University, Zhengzhou Henan 450001, China ) Abstract: This paper presented a detailed analysis of OPC technical, gave an OPC Data Access Server framework on the basis of OPC DA standards, and introduced the main steps of realization. In the design, we exploited the Adapter Pattern to accelerate the implement for different data sources.Key words: OLE for Process Control; Data Access; COM; Adapter pattern0 引言OPC全称OLE for Process Control,它是由OPC基金会制定的自动化领域过程控制标准。

实际上,OPC代表一系列的标准,包括OPC 数据访问(OPC Data Access),OPC报警与事件(Alarms & Events ),历史数据访问(OPC Historical Data Access),OPC XML-DA(1.0)等[3]。

南京市二手房房价影响因素的多元线性回归分析

南京市二手房房价影响因素的多元线性回归分析

南京市二手房房价影响因素的多元线性回归分析
刘冰;金跃强;王书营
【期刊名称】《南京工业职业技术学院学报》
【年(卷),期】2017(017)001
【摘要】通过分析南京市8个区12479个二手房数据,建立了影响单位面积房价的多元回归模型.通过比较8个变量对单位面积房价的影响,得到区域和是否有电梯对单位面积房价影响较大,面积及卧室数对单位面积房价影响较小的结论.
【总页数】3页(P17-19)
【作者】刘冰;金跃强;王书营
【作者单位】南京工业职业技术学院公共基础课部,江苏南京 210023;南京工业职业技术学院公共基础课部,江苏南京 210023;南京工业职业技术学院公共基础课部,江苏南京 210023
【正文语种】中文
【中图分类】F293.3
【相关文献】
1.基于特征价格模型的学区二手房价格影响因素分析——以南京市为例 [J], 高明媚;唐焱;张子婴
2.南宁市二手房价格影响因素分析及房价走势的预测 [J], 邝文竹;刘琳
3.南京市二手房房价影响因素的主成分回归分析 [J], 刘冰;朱建国;金跃强
4.基于Box-Cox变换的南京市二手房房价模型实证分析 [J], 刘冰;金跃强;李朝阳
5.基于Box-Cox变换的南京市二手房房价模型实证分析 [J], 刘冰;金跃强;李朝阳
因版权原因,仅展示原文概要,查看原文内容请购买。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

《公共管理与政策研究方法论》
第9讲
2016年11月14日二手数据分析
马亮博士副教授
中国人民大学公共管理学院
多元的方法——
管理学
资料来源:
Scandura & Williams (2000)
多元的方法——管理学
对2008-2011年间涉及战略管理研究的四本顶尖学术期刊SMJ、AMJ、OS、JIBS 进行分析,其所发表的实证论文中,二手数据的占比达到“半壁江山”。

资料来源:周长辉(2012, p. 217)。

定量研究方法的分支及占比:
二手数据共计210篇,合计44.8%。

Groeneveld, S., Tummers, L., Bronkhorst, B., Ashikali, T., & Van Thiel, S. (2015). Quantitative Methods in Public Administration: Their Use and Development Through Time.International Public Management Journal, 18(1).
多元的方法——中国公共管理学
资料来源:
Wu, He, Sun (2011)
不同学科的二手数据
•经济学:主要是二手数据,特别是各类统计年鉴•金融学:证券市场股价、上市公司年报、各类二次数据库
•社会学:主要是一手调查数据,包括问卷和访谈•心理学:主要是一手数据,通过调查或实验获取•政治学:各类政策、决策、报告、履历
•管理学:
–宏观研究:主要是一手企业调查和二手案例分析
–微观研究:基本上都是一手员工调查
•公共管理学、公共政策学、公共财政学
–约20-40%的数据来源是二手数据(调查或非调查)。

二手数据分析的意涵
•什么是二手数据?倒几手才是二手?三手、四手?•定义:数据的目的与来源
–一手或原始数据(primary/first hand/original
data)
–二手数据(secondary data)
•孰优孰劣?孰主孰次?相互补充?“非你莫属”?•数据驱动还是理论驱动?数据在先还是理论在先?
–Cook:the theory-data match
•一手与二手数据的边界日趋模糊。

–商业调查中的“搭车调查”、与政府部门的合作实验–网络搜索、API数据抓取、大数据
为什么要用二手数据?•“在我看来,中国可以说遍地都是数据金矿。

我这里说的数据金矿,就是指二手数据。


•“但二手数据确如金矿,只不过丰富而珍贵的二手数据大多是以‘矿石’的形式存在着,它等待着有心人去探索、识别和开发。

研究者要像淘金者一样去‘淘’。

虽说‘淘’金的过程并不容易,但终归比问卷调研更能做到自主可控。


周长辉. (2008/2012). 二手数据在组织管理学研究中的使用
.陈晓萍, 徐淑英, & 樊景立. 组织与管理研究的实证方法(第
九章). 北京:北京大学出版社.
二手数据的优势是什么?
•总体(population)或大样本(large-N)
–通常来说,二手数据的样本量较大,且多数可以提供跨年、跨季的纵贯数据,进而有利于构造面板数据。

•客观性、可复制和可重复性
–信度(validity)与科学本质
–“他律性”与学术伦理,可以减少学术造假。

•多源数据和三角测量(triangulation)
–避免共同方法偏误(CMB/CSB)
–多角度认识事物,从而更精确地观测并发现规律。

•数据采集成本低廉
–许多情况下甚至是免费的
–成本是相对而言,因为数据清洗和处理成本未必低。

•非侵入性或无干涉的研究
二手数据的局限与劣势
•数据的可靠性(信度)可能欠缺
–“官出数字,数字出官。

”层层上报的遗漏、误差与蒙骗。

•中国官方GDP数据的水分、空气污染等环境数据造假。

–不同地区和国家的定义和测量方式不同。

•数据不“解渴”,测量的效度不高
–没有问到最需要的问题,没有使用成熟量表提问,或者无法匹配到具体的地区(如县)、组织乃至个人。

–理论构念无法得到最佳的衡量,或者操作方式不同。

•例如,犯罪率的低估或低报、对交通事故的认定。

•数据分析与处理都很“费劲”
–数据编码、清洗、匹配、合并、管理等需要大量工作。

•数据的开发与再开发程度
–数据被“用烂了”,有人“捷足先登”,数据的再开发和再利用程度有限,需要“绞尽脑汁”和“独辟蹊径”。

数据公开与复制研究(Replication)(King, 1995)
二手量化数据的处理
•数据来源
–中国各级政府的统计年鉴、年报、季报、月报
–国际组织等的跨国数据、区域数据
–其他国家的统计年鉴和调查数据
–商业咨询公司数据(Compustat、国泰安、零点)–其他研究者分享的数据
•量化数据的清洗与合并
–一个数据库的内部清洗与整理
•“情人眼里出西施”
–多个数据库的合并管理
•“变废为宝”、“化腐朽为神奇”
质性数据的二次分析(secondary analysis of qualitative data)•数据来源
–文本:访谈记录、问卷开放题、实地手记、日记、年谱、档案等。

–影像:录音、图片/照片、录像/视频。

–共享:英国质性数据中心(Qualidata,1994)
•质性数据的二次分析(质性→质性)
–区别于文档分析:是否曾被其他研究者使用过?
–分析类型:原始数据的收集者是否参与?
–区别于质性数据的量化分析:元分析/系统综述?
•质性数据的转换(质性→量化)
–从文本、图片、视频等质性数据转化到量化数据
–编码(coding)至关重要
•内容分析(content analysis)或扎根理论(grounded theory)
几个实例
•治理研究的挑战:多层模型(Heinrich & Lynn, 2001)。

•公务员调查数据的二次利用(Fernandez, et al., 2015)。

•公共政策/计划/项目绩效的数据(Moynihan, 2013)。

大数据技术
•数据开放、数据共享与云计算
•科学2.0、研究2.0与政府2.0
•原始获取的大数据
–电子病历、网上投诉、政府采购、审判文书等。

•二次开发的大数据
–谷歌流感、百度迁徙、淘宝消费、微博热度等。

•实例与趋势
–经济学的应用(Einav& Levin, 2014)
值得讨论的问题
•在条件允许的情况下,尽可能开展一手数据收集,特别是通过调查和观察,抢救式记录中国公共管理的历史进程。

–中国公务员价值观、态度、动机与行为调查
–中国政府部门决策、行为、绩效调查
•如果有可用的数据,为什么不用?培养数据敏锐性和嗅觉,让数据找你,而不是你找数据!
–“好记性不如烂笔头”,随时随地记录和整理数据。

•“万事万物是普遍联系的。


–研习如何嫁接和联系多个数据库,如跨层分析或分层
线性模型的使用。

•实证公共管理研究:理论与数据的水乳交融
下一次课程研讨的论文清单
1.Brower, R. S., Abolafia, M. Y., & Carr, J. B. (2000). On improving
qualitative methods in public administration research.
Administration & Society, 32(4), 363-397.
2.Gerring, J. (2004). What is a case study and what is it good for?
American Political Science Review, 98(02), 341-354.
3.Ospina, S. M., & Dodge, J. (2005). It's about time: Catching
method up to meaning -the usefulness of narrative inquiry in
public administration research. Public Administration Review,
65(2), 143-157.
4.Cappellaro, G. (2016). Ethnography in public management
research: A systematic review and future directions. International Public Management Journal, 1-35.
5.Suddaby, R. (2006). From the editors: What grounded theory is
not. Academy of Management Journal, 49(4), 633-642.
谢谢!
Email: liangma@。

相关文档
最新文档