出租车GPS大数据的道路行车可视分析_何贤国
出租车GPS轨迹大数据在智能交通中的应用

出租车GPS轨迹大数据在智能交通中的应用张红;王晓明;过秀成;曹洁;朱昶胜;郭义戎【期刊名称】《兰州理工大学学报》【年(卷),期】2016(42)1【摘要】安装了GPS的出租车可实现大范围、全天候的车辆行驶数据采集,这些量大、时刻变化的GPS轨迹数据记录了城市交通、人群移动的动态变化信息,对研究城市交通起着重要的意义.从研究基于数据驱动的智能交通角度出发,综述国内外基于出租车GPS轨迹大数据的城市智能交通研究现状,经过归纳总结,将目前的研究工作分为交通状态分析、运营管理及支持、路径规划及预测三个方面,总结并阐述出租车GPS轨迹大数据在这三个方面的研究及应用情况,并指出该领域目前面临的问题和不足以及进一步需要研究的方向.【总页数】6页(P109-114)【作者】张红;王晓明;过秀成;曹洁;朱昶胜;郭义戎【作者单位】兰州理工大学电气工程与信息工程学院,甘肃兰州730050;兰州理工大学计算机与通信学院,甘肃兰州730050;兰州理工大学电气工程与信息工程学院,甘肃兰州730050;东南大学交通学院,江苏南京210096;兰州理工大学计算机与通信学院,甘肃兰州730050;兰州理工大学计算机与通信学院,甘肃兰州730050;兰州理工大学电气工程与信息工程学院,甘肃兰州730050【正文语种】中文【中图分类】TP399;U491.1【相关文献】1.基于轨迹大数据离线挖掘与在线实时监测的出租车异常轨迹检测算法 [J], WANG Wei;TAN Song-rong2.出租车GPS轨迹数据挖掘应用研究进展 [J], 杨琼3.出租车GPS轨迹大数据在智能交通中的应用研究 [J], 胡雪春4.基于轨迹大数据离线挖掘与在线实时监测的出租车异常轨迹检测算法 [J], 王伟[1];谭松荣[1]5.GPS轨迹大数据在优化成品油配送路径中的应用 [J], 刘柏东因版权原因,仅展示原文概要,查看原文内容请购买。
基于出租车GPS大数据的城市道路交通运行状态判别方法刍议

B a X i n g Q i a n g ,Z h u Ha i t a o ,L i S h e n ,J i a n g B o H a n ,L e i J i e ,G u J i Ha i
( 1 . T r a f f i c C o l l e g e ,N o r t h e a s t F o r e s t r y U n i v e r s i t y ,H a r b i n 1 5 0 0 4 0 ;
理 者 和 出行 者提 供 信 息依 据 。 关 键 词 :城 市道 路 ; 交通 状 态 ; 出租 车 ;地 图 匹配 中图 分 类 号 :S 7 7 6 . 3 6 1 文献 标 识 码 :A 文 章 编 号 :1 0 0 1 一 O 0 5 X ( 2 0 1 5 )0 5— 0 l 1 0一 o 4
( 1 .东北林业大学 交通学 院,哈尔滨 1 5 0 0 4 0 ;2 .哈尔滨商业 大学 轻工学院 ,哈尔滨 1 5 0 0 2 8 )
摘
要 :随着城 市道路 交通需求的持续增加 ,快速 、准确地发 现路 网中发 生的 交通拥 堵 ,制定合理 有效的拥堵 疏导策
略 具有重要 意义。介绍 了 G P S 数 据在 国 内的挖 掘 与应 用,G P S数 据 的组成 结构 ,G P S数据 的 处理方 法,如错误 数据 的检 测 ,如 何与 电子地 图匹配。将安装有 G P S的 出租 车采集到的城 市交通流数 据进 行数据过滤 、地 图匹配和 坐标 转换 ,实现 出
Di s c u s s i o n o n t h e Me t h o d o f J u d g i n g t h e S t a t e o f Ur b a n Ro a d
基于GPS数据采集的出租汽车交通运行特点研究

基于GPS数据采集的出租汽车交通运行特点研究
胡小文;冯均佳
【期刊名称】《城市交通》
【年(卷),期】2007(005)002
【摘要】对装载GPS的出租汽车采集到的数据进行预处理和地图匹配,实现了出租汽车路径的跟踪,确定了出租汽车上下客点的位置,据此可得到反映出租汽车交通运行特点的相关数据,为出租汽车交通管理乃至城市交通管理提供了科学依据.以深圳市装载GPS的出租汽车数据为例进行分析,通过一定的数据处理方法,利用Visual Basic和ArcView的组件Mapobject相结合进行编程,得到了深圳市出租汽车交通运行的特点,如出租汽车交通出行需求的空间分布、出租汽车出行距离分布、出租汽车出行时长分布等.
【总页数】5页(P91-95)
【作者】胡小文;冯均佳
【作者单位】同济大学交通运输工程学院,上海,200092;同济大学交通运输工程学院,上海,200092
【正文语种】中文
【中图分类】U4
【相关文献】
1.基于GPS数据的出租车交通运行特征研究 [J], 覃正桃;赵靖;王家儒;蔡肖;罗凯
2.基于出租车GPS数据的道路交通运行分析--以乌鲁木齐市为例 [J], 程志华
3.基于出租车GPS大数据的城市道路交通运行状态判别方法刍议 [J], 巴兴强;朱海涛;李燊;姜博瀚;雷杰;谷吉海
4.基于GPS的计算机数据采集处理系统设计 [J], 贾鑫
5.基于GPS的计算机数据采集处理系统设计 [J], 杜海涛
因版权原因,仅展示原文概要,查看原文内容请购买。
出租车GPS数据轨迹化方法研究

出租车GPS数据轨迹化方法研究安实;匡伟明【期刊名称】《科学技术与工程》【年(卷),期】2015(015)011【摘要】为提高出租车行业理论研究与实际应用的GPS轨迹数据质量,针对原始的出租车GPS数据,提出一套考虑出租车行业特性的完整的GPS数据轨迹化方法.分析了哈尔滨市出租车GPS数据的采样率、误差及与路网的匹配情况;提出一种考虑车头朝向、临近距离、路段连通性及转弯限制四种权重的拓扑地图匹配算法;提出一种出租车出行轨迹识别方法,并在此条件下建立了出租车GPS轨迹的存储结构模型.结果表明,提出的地图匹配算法有较高的准确率,能够满足理论研究及实践应用的需要;而轨迹识别方法及存储模型在实际中成功应用,为哈尔滨市出租车智能管理调度平台提供数据支撑.【总页数】6页(P125-130)【作者】安实;匡伟明【作者单位】哈尔滨工业大学交通科学与工程学院,哈尔滨150090;哈尔滨工业大学交通科学与工程学院,哈尔滨150090【正文语种】中文【中图分类】U495【相关文献】1.基于出租车GPS数据和免疫优化模型的出租车停靠站布局研究 [J], 谢超;董洁霜;刘魏巍2.基于出租车运营GPS数据的城市公交线路优化方法研究 [J], 巴兴强;姜博瀚;朱海涛;陈思宁;郭维奇3.基于出租车GPS数据聚类分析的交通小区动态划分方法研究 [J], 吕玉强; 秦勇; 贾利民; 董宏辉; 贾献博; 孙智源4.基于出租车GPS数据聚类分析醮交通小区动态划分方法研究 [J], 吕玉强; 秦勇; 贾利民; 董宏辉; 贾献博; 孙智源5.考虑轨迹相似度的综合客运枢纽出租车合乘方法研究 [J], 吴玥琳; 袁振洲; 陈秋芳; 肖清榆; 王文成; 魏来因版权原因,仅展示原文概要,查看原文内容请购买。
基于GPS数据的出租车交通运行特性研究及应用共3篇

基于GPS数据的出租车交通运行特性研究及应用共3篇基于GPS数据的出租车交通运行特性研究及应用1基于GPS数据的出租车交通运行特性研究及应用近年来,随着GPS技术的不断发展和应用,基于GPS数据的出租车交通运行特性研究也得到了越来越广泛的关注。
GPS技术能够实时获取车辆位置、行驶路线、速度等信息,为城市交通规划和管理提供了重要的数据支持。
本文将从出租车GPS数据的获取、出租车交通运行特性的分析、基于GPS数据的出租车调度及路线规划等方面进行探讨。
一、出租车GPS数据的获取基于GPS数据的出租车交通运行特性研究的前提是能够获取充分的数据。
出租车GPS数据的获取主要有两种方式:一是安装GPS设备在出租车上进行数据采集,二是通过出租车移动应用程序实现数据的实时采集。
第一种方式需要出租车公司或政府进行设备安装和维护,成本较高;第二种方式则需要合作的出租车公司或商家提供数据接口,数据的真实性需要得到保证。
无论采用哪种方式,都需要得到出租车司机的配合和理解。
二、出租车交通运行特性的分析基于GPS数据能够获取出租车的位置、速度、时间等信息,从而对出租车的行驶轨迹、行驶时速、载客量等进行统计和分析。
通过分析不同路段的车流量、拥堵情况以及道路状态等,可以为城市交通规划和管理提供重要的决策依据。
同时,对于出租车公司和司机来说,分析不同时段、地点的载客量和营收情况也可以帮助他们进行业务决策和调整。
三、基于GPS数据的出租车调度和路线规划除了分析出租车交通运行特性,基于GPS数据还可以为出租车调度和路线规划提供支持。
出租车GPS数据可以实时显示车辆的位置和状态,在出租车公司或调度中心的管理下,能够实现车辆调度的优化和管理。
同时,基于GPS数据还能实现出租车路线规划的个性化和实时化,给司机提供更加准确、高效的路线指引,提高载客量和效益。
四、出租车GPS数据的应用前景基于GPS数据的出租车交通运行特性研究和应用具有广阔的应用前景。
出租车GPS定位数据的时空特征分析

出租车GPS定位数据的时空特征分析出租车是城市交通网络中重要的一部分,它们通常被视为城市有机交通体系的“最后一公里”。
随着GPS技术的发展和成本的下降,越来越多的出租车配备了GPS设备,这些设备可以在出租车上实时记录车辆的位置、速度、方向等信息,并将这些信息上传到后台数据库。
这些GPS定位数据可以为城市交通管理者提供丰富的数据来源,帮助他们了解城市交通流动情况,制定更好的交通规划和管理策略。
因此,对于出租车GPS定位数据的时空特征分析显得非常重要。
一、时空特征概述出租车GPS定位数据的时空特征涉及到时间和空间两个维度。
时间维度指的是出租车在一段时间内的移动情况,可以根据时间周期化分析。
空间维度指的是出租车在城市内部的路网中的行驶情况。
具体而言,出租车GPS定位数据的时空特征包括以下要素:1. 时间特征时间特征主要涉及出租车的行驶速度和行驶方向。
通过对时间特征进行分析,可以更好地理解城市交通流动的时空节律,如赶上高峰期的交通拥堵、市中心的交通压力等。
此外,时间特征还有利于对出租车的行驶轨迹进行优化,提高行驶效率,进一步减轻交通拥堵问题。
2. 空间特征空间特征主要涉及出租车在城市道路网中的行驶轨迹。
出租车行驶轨迹的长度、密度和与路网拓扑结构的匹配程度都是反映城市交通流动情况的重要指标。
通过对空间特征进行分析,可以更好地揭示城市道路网络的拥堵状况,进一步帮助交通管理者优化城市道路网络结构,提高城市交通运行效率。
二、时空分析方法为了更好地揭示出租车GPS定位数据的时空特征,需要采用一些常见的时空分析方法。
下面介绍两种常见的时空分析方法:1. 所在簇分析所在簇分析是一种空间数据分析方法,常用于寻找聚类性质。
在出租车GPS定位数据分析中,所在簇分析的目的是寻找交通拥堵区域。
具体而言,该方法首先将出租车轨迹数据划分为若干“簇”,然后对簇内的数据进行分析,计算每个簇的密度、半径和中心等指标。
最终,根据簇的特性和位置,可以定位出城市交通拥堵区域。
出租车GPS大数据可视化研究的开题报告
出租车GPS大数据可视化研究的开题报告一、背景与研究意义在当前的城市交通中,出租车作为公共交通的一种手段,扮演着重要的角色。
而出租车在运营过程中,通过GPS全球定位系统,记录了大量的位置数据,这些数据包含了出租车在城市中运行的轨迹、速度、流量等丰富信息。
这些大量的数据,如果能够进行有效的利用,将为城市治理、交通规划、商业分析等提供有益的参考。
因此,本研究旨在通过对出租车GPS大数据的采集、清洗、处理,并应用可视化技术研究出租车在城市中的运行规律、交通流量分布情况,旨在为城市规划、交通管理、商业分析等提供参考依据。
二、研究内容本研究拟采用以下内容进行研究:1. GPS数据采集和清洗通过网络爬虫等方式,采集出租车在城市中的GPS定位数据,并进行数据清洗,剔除无效数据、异常数据等。
2. GPS数据处理和分析将清洗后的GPS数据进行处理和分析,以获得出租车在城市中运行规律、交通流量分布情况等信息。
3. 可视化展示通过可视化技术,将分析得到的信息以可视化的形式展现出来,包括地图、图表、热力图等形式,以方便用户进行数据分析、理解和决策。
三、研究方法本研究拟采用以下方法进行研究:1. 数据挖掘和机器学习技术利用数据挖掘和机器学习技术,对采集得到的数据进行清洗和加工,挖掘数据中的规律、趋势和关联信息。
2. 可视化技术采用可视化技术,将挖掘分析得到的信息以可视化的形式进行展示和呈现,使用户能够快速理解和分析数据。
3. 统计学方法运用统计学方法,进行数据的概率论和数理统计分析,快速获取有效数据特点,并对数据进行建模。
四、研究目标本研究拟实现以下目标:1. 完成出租车GPS数据采集和清洗,并进行可视化展示。
2. 建立出租车GPS数据的分析模型,了解出租车在城市中的运行规律、交通流量分布情况等信息,并进行可视化展示。
3. 对基于出租车GPS大数据的商业分析进行尝试,为商业用户提供参考分析。
五、预期成果1. 出租车GPS数据采集和清洗程序。
基于出租车GPS数据的信息挖掘与可视化研究
基于出租车GPS数据的信息挖掘与可视化研究基于出租车GPS数据的信息挖掘与可视化研究随着城市化和汽车普及的快速发展,出租车作为城市交通中重要的一环,其GPS数据蕴含着丰富的信息。
对这些数据进行信息挖掘与可视化研究,可以帮助我们深入了解城市交通状况、优化交通规划、改善交通流量等问题。
本文旨在探讨基于出租车GPS数据的信息挖掘与可视化研究,从而为城市交通管理和规划提供科学依据。
城市出租车GPS数据是由每辆出租车上的GPS定位设备定时上传的位置信息组成的大数据集合。
这些数据包括出租车的行驶轨迹、速度、载客时间和地点等。
通过对这些数据进行挖掘与分析,我们可以获得各个时间段和区域的交通流量情况、道路拥堵状况以及乘客搭乘热点等信息。
首先,我们可以通过聚类算法对出租车GPS数据进行空间聚类,从而得到不同区域的交通流量情况。
比如,在早晚高峰期,我们可以发现市中心和商业区的交通流量相对较大,而住宅区和远离市区的地方交通相对较少。
这些信息可以帮助交通管理部门优化交通信号灯控制,减少拥堵情况。
其次,我们可以对出租车GPS数据进行时间序列分析,从而得到城市交通的拥堵情况。
通过分析每个时间段的平均车速和行驶时间,我们可以了解到交通拥堵的高峰时段和拥堵的区域。
这有助于交通管理部门及时采取措施,疏导道路和减轻交通压力。
此外,我们还可以将出租车GPS数据与其他城市数据进行交叉分析,揭示城市交通与其他因素的关系。
比如,可以将出租车GPS数据与天气数据结合,分析不同天气条件下的交通流量和拥堵情况。
这有助于我们了解天气因素对城市交通的影响,并做出相应的交通调整和决策。
可视化是对出租车GPS数据进行研究的重要手段之一。
通过地图、图表和动画等方式,将数据可视化展示给用户,使数据更加直观易懂。
比如,可以将出租车行驶轨迹绘制在地图上,用颜色表示车速,以便观察拥堵情况;也可以将交通流量情况通过热力图的方式展示出来,帮助交通管理部门进行交通管控。
出租车GPS数据挖掘与分析研究
出租车GPS数据挖掘与分析研究第一章绪论随着城市交通的日益发展,出租车在城市中的地位越来越重要。
出租车GPS数据是出租车相关研究领域的重要数据来源,具有时间连续性、空间连续性、数量庞大等特点。
因此,对出租车GPS数据进行挖掘和分析,对于优化城市交通、提升出租车业务管理水平、改善城市居民的出行体验具有重要意义。
本文通过对出租车GPS数据的挖掘和分析,探讨如何从中发掘出租车行驶特征,为制定城市交通规划和出租车业务管理提供科学依据。
第二章数据挖掘数据挖掘是一种从数据中提取模式和隐含关系的技术。
出租车GPS数据具有时空连续性,可以通过数据挖掘的方法挖掘出其中的规律和性质。
2.1 数据预处理数据预处理是数据挖掘的重要环节,其目的是对原始数据进行清洗和预处理,以便后续的算法能够处理这些数据。
对于出租车GPS数据,数据预处理的主要内容包括数据清洗、采样和数据合并。
2.2 数据挖掘算法数据挖掘算法包括关联规则挖掘、分类、聚类、决策树等。
对出租车GPS数据进行挖掘的主要算法有:(1)关联规则挖掘:通过关联规则挖掘可以发现出租车行驶中的频繁事件,如常用的路线、出现次数较多的时间段等;(2)分类算法:可以通过分类算法对出租车进行分类,如商务出租车和普通出租车,以便后续的业务管理和规划;(3)聚类算法:通过聚类算法可以将出租车按照一定规则划分成不同的类别,如按照出租车在不同时段出现的频率划分成高峰出租车和非高峰出租车;(4)决策树:可以通过决策树分析不同因素对出租车行驶的影响,如天气、时间、目的地等。
第三章数据分析数据分析是依据数据挖掘所得结果,对数据进行进一步的分析与优化。
出租车GPS数据分析的主要内容包括出租车昼夜行驶规律、路线规律、高峰时段等。
3.1 出租车昼夜行驶规律通过对出租车GPS数据的挖掘,可以得到不同时段的出租车数量分布情况。
根据这些数据,可以进一步分析出租车昼夜行驶规律。
例如,在晚上人口密度较低的地区出租车数量会减少,行驶速度可能会加快,而在早上则会相反。
基于出租车GPS数据的出行行为研究
基于出租车GPS数据的出行行为研究基于出租车GPS数据的出行行为研究摘要:本文利用出租车GPS数据对出行行为进行了研究。
通过对出租车在城市道路网络的轨迹数据分析,可以得到出租车的出行路径、出行时间、速度、停留时间等信息,可以对城市的出行特征、交通状况、出租车司机的行驶习惯等进行深入分析。
基于对出租车GPS数据的研究,我们发现运用数据挖掘技术可以识别出出租车司机的行驶模式,进而为城市交通管理提出了一些有效的解决方案。
关键词:出租车GPS数据;出行路径;出行时间;速度;停留时间;数据挖掘一、引言出租车是现代城市的重要交通工具之一,也是城市交通运行系统中最重要的一环。
出租车GPS数据的广泛应用使得我们能够更好地了解城市的交通状况和出行特征,对城市交通管理具有重要意义。
本文以出租车GPS数据为研究对象,从出行路径、出行时间、速度、停留时间等方面对城市的出行特征进行深入分析,探讨出租车司机的行驶习惯等问题。
二、数据源本文采用的数据为北京市出租车GPS数据,数据采集时间为2018年1月至2018年12月期间。
数据采用的采集频率为每3秒一次,其中包括了出租车的经度、纬度、速度和时间等信息。
三、数据处理1.数据的基本特征对GPS数据进行初步分析,发现该数据包含了北京市出租车全年的运行轨迹,共有155,013个出租车,259,966,977个GPS数据点。
其中,出租车行驶总距离为29,430,953千米,平均速度为27.3公里/小时。
2.出行路径分析通过对GPS数据进行处理,可以得到出租车的出行路径,进而对城市的出行特征进行分析。
首先,对于每一次出行,我们计算了车辆移动的总距离,得到总路程分布图。
从总路程分布图中可以发现,出租车的出行路径呈现出一定的分布规律,分布较为集中在城市中心区域。
3. 出行时间分析通过对出租车GPS数据的处理和分析,可以得到出行时间分布图。
从出行时间分布图可以看出,北京市出租车的出行时间主要分布在早高峰和晚高峰时段。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第26卷第12期2014年12月计算机辅助设计与图形学学报Journal of Computer-Aided Design &Computer GraphicsVol.26No.12Dec.2014收稿日期:2013-10-15;修回日期:2014-02-20.基金项目:国家自然科学基金(61379017,61202205);浙江省自然科学基金(LY12A01027);浙江省钱江人才计划项目(2013R10054);浙江省公益技术应用研究项目(2014C33077).何贤国(1989—),男,硕士,主要研究方向为时空数据可视化;孙国道(1988—),男,博士研究生,主要研究方向为时空数据可视化;高家全(1972—),男,博士,副教授,硕士生导师,论文通讯作者,主要研究方向为高性能计算、大数据信息处理和分析;郑春益(1990—),男,硕士研究生,主要研究方向为时空数据可视化;梁荣华(1974—),男,博士,教授,博士生导师,主要研究方向为信息可视化、医学图像可视化.出租车GPS大数据的道路行车可视分析何贤国,孙国道,高家全*,郑春益,梁荣华(浙江工业大学计算机科学与技术学院 杭州 310023)(gaojq@zjut.edu.cn)摘要:针对出租车GPS数据因其数据量庞大和时空信息特征复杂而带来的分析难题,提出一种基于出租车GPS大数据的道路行车可视分析方法.该方法用OpenStreetMap得到开阔道路的地图,采用离散和连续型2种编码方式对道路上的车流量、行车方向和速度等情况进行分析;离散编码采用箭头图表示,并用速度区间聚类算法优化颜色布局;连续编码采用栈图表示,并用特征点提取算法加速图表绘制.最后以杭州市出租车GPS数据为样例,将数据分布式存储在云计算平台上,采用MapReduce加快数据查询和处理,应用文中的2种可视编码方式进行可视分析,结果表明,该方法能准确地反映杭州市道路交通状况.关键词:大数据可视分析;云计算平台;离散编码;连续编码;箭头图;出租车GPS大数据中图法分类号:TP319Visual Analytics of Road Traffic with Large Scale Taxi GPS DataHe Xianguo,Sun Guodao,Gao Jiaquan*,Zheng Chunyi,and Liang Ronghua(College of Computer Science,Zhejiang University of Technology,Hangzhou 310023)Abstract:With large-scale and complicated spatio-temporal characteristics,visual analytics of taxi GPSdata is a challenging issue.In this paper,we present a visual analytic method for road traffic analysisbased on taxi GPS data,and we adopt two encoding schemes,the discrete arrow graph and thecontinuous stack graph,to explore the volume,direction,speed and other information of road trafficflow on widened roads based on OpenStreetMap.Douglas-Peucker algorithm and the velocityclustering algorithm are used for data reduction and improving rendering respectively.Thepreprocessed taxi GPS data are stored in a cloud computing platform in a distributed manner,andMapReduce is utilized to accelerate data and query processing.We test the validities of our proposedencoding schemes on Hangzhou taxi GPS data.Experimental results show that our method caneffectively and accurately reveal the status of road traffic in Hangzhou.Key words:visual analytics of big data;cloud computing platform;discrete encoding;continuousencoding;arrow graph;taxi GPS data 随着GPS地理感知设备的快速发展,车辆、动物和人的移动轨迹数据量急剧增加,例如浙江省一天的出租车数据量可达10GB,庞大的数据量和复杂的时空信息特征为数据存储、查询和分析提出了挑战.基于此背景,为从局部和整体数据变化观察车辆行车情况,本文针对出租车GPS大数据提出了2类信息可视化方法———离散型编码图表和连续型编码图表,分别以离散和连续型方式可视化数据,通过车流量、车速的时序变化和车流方向展示数据,以解决现有可视化技术在处理带有地理信息的大数据时所造成的可视元素覆盖、展示空间限制.将道路按路段划分,分离数据中车辆的双向行驶轨迹,从道路的多个路段分析道路双向行车情况是本文可视化方法关注的重点.最后通过多个实验分析讨论本文提出的可视化方法的优势.本文提出的可视化方法着眼于在大量时空数据可视和有限展示空间中寻找平衡点,探索在地图上分析大量数据的新方法,也为解决在展示带有方向的地理数据与人习惯思维之间产生矛盾时,最大限度地发挥人在可视分析时的主动性、结合多个可视方法分析地理空间数据隐藏的信息提供一条新路径.1 相关工作国内外对于可视化带有时间属性的数据已有大量的研究成果.较早的有Playfair[1]在18世纪提出并应用于进出口贸易、政治投票选举等领域的统计图.现在统计图依然应用在多个行业,如Fu等[2]使用大量股票走势的折线图表来反映大规模股票变化趋势,然而折线图在同时表示多个时间序列数据时会出现线段重叠和颜色混乱,降低数据可见度.栈图[3]是对折线图的一个改良,旨在同时表现大量时间序列数据集.ManyEyes[4]较早提供了栈图可视化的在线工具,现有的D3[5]和prefuse库也提供了大量时序数据可视化的应用.辫式流图[6]是另一种用于多个时间序列可视化的方法,其将多个序列在相同位置叠加解决了折线图相互遮挡问题,提高水平流图[7]的空间利用率.时序可视化方法广泛应用于带有地理信息的时间序列数据.William等[8]提出采用周期性ARIMA模型分析英国城市交通,并结合多种图表分析车流量的变化规律.文献[9]使用自适应组织映射结合几种经典的可视化方法,综合分析及预测北京城区的交通状况.多种简明的可视化方式结合分析的模式[10-11]一直是可视分析的经典手段,简单的图表往往更容易反映事物变化规律.城市智能交通的兴起促进了交通数据领域的研究,而信息可视化作为重要的数据分析手段在地理数据领域的发展也不断成熟.地图是可视地理信息数据的重要元素[12],常与其他数据表现方式结合用于分析数据与地理位置的关系,对于展示某个时间段内的统计量,如Tobler①在简化地图上绘制静态的箭头图展示了美国1965—1970年人口迁移数据.但过多的箭头造成了相互遮挡和方向不明确;相比之下,同样用于多个国家移民信息的Speckmann等[13]采用以地图为中心向外扩展空间的方式得到清晰的效果.时空数据的分析目的是探索移动物体在空间中的位置及其周围信息[10],可直接在地图上嵌入流图、柱状图等可视图表[14].在交通领域中应用时通常需要与时序数据可视方法相结合,例如Liu等[15]开发了一个可视化系统,其中采用地图、平行坐标及柱状图等多种方法对出租车路线多样性进行可视分析;Guo等[16]开发的TripVista则采用了主题河、平行坐标等可视化方法,从空间、时间和多视图3个角度探讨一个路口内的微观交通模式和异常行为.对于移动轨迹的分析,Andrienko等[17-18]已提出了马赛克图聚类轨迹点、分段聚类车辆轨迹等方法,并将它们应用到米兰车辆GPS数据[19],从时间、空间和车辆属性3个方面分析了城市交通运行情况,但复杂可视化元素的堆砌在有限的地图空间上显得捉襟见肘,反而让人产生眼花缭乱的效果.针对二维平面图表间的相互覆盖问题,有些研究者大胆提出了三维方式布局可视方法,将数据以立体的形式展现在三维地图上.Dang等[20]提出了包括散点图和平行坐标2种可视化方法的三维堆叠排列方式,Tominski等[21]则通过栈式流图解决了如何同时展示数量庞大的水平图问题.三维布局虽然可以在三维空间上解决二维平面图表空间重合的问题,但大量的数据集仍会造成视觉遮挡,用户需要通过多次交互才能获得完整的信息.出租车作为城市交通的重要组成部分[22],对城市道路运营有着重大影响,通过对杭州市出租车数据进行分析,可以发现城市车辆的行驶规律、道路规划的潜在问题,为城市交通调度部门提供决策支持.本文以杭州市出租车大数据为例,从地图空间结合多种可视化方法着手,解决现有的地理空间数据可视化方法中存在的可视区域狭小、有限地图空间难以容纳大量的可视化元素以及在常规地图上结合复杂的可视化方法造成的视觉负担等问题.本文利用OpenStreetMap对地图上的道路进行扩展获得开阔的道路空间,将出租车数据映射到扩展后的道路上进行直观分析,提出了一条探索单视图结合数据可视化分析方法的新途径.4612计算机辅助设计与图形学学报 第26卷①http:??www.colorado.edu?ibs?POP?ccemconf?tobler_display_analysis.pdf2 本文算法描述2.1 数值区间聚类算法大数据量分析的首要任务是将其合理地归类,而聚类分析就是将数据合理归类的一种方法,它把分类对象按一定的规则分组或归类.聚类分析作为数据挖掘中常用的分析方法,是对于静态数据分析的一门技术,用于从大量数据中寻找隐含的数据分布和模式,在机器学习、数据挖掘、模式识别、图像分析以及生物信息等许多领域受到广泛应用.比较有代表性的聚类技术是基于几何距离的聚类方法,如欧氏距离、曼哈顿距离等,本文采用欧氏距离计算类簇间的距离.聚类在数据可视化领域的成功应用有Andrienko等提出的马赛克图聚类轨迹点[17]、分段聚类车辆轨迹[18],以及基于词分析、因素分析和聚类分析的文本聚类.通过聚成类簇将原始数据划分为若干类,需要人的参与在每一类中寻找模式或各种潜在的有用信息,这也是可视分析的惯用模式.对于密集型的数据可视化,往往由于过于密集的可视图标而使得过多的细节信息无法在狭小的空间中得出整体规律.从实时数据处理和数据存储角度考虑,交互过程中绘制过多的详细信息会耗费大量云端服务器的处理时间和绘制效率.为此,本文参考RankExplorer[23]中采用的集合分割算法,使用贪心策略将处于同一区间内的元素值按类簇均值聚成多个类簇,聚类准则如下:1)当前类簇的均值与下一个包含的速度值的距离尽量小,每个类簇内的元素值要尽可能地接近,使得类簇后集合均值尽可能真实地反映原有的元素值.类簇与类簇之间的均值差应该尽可能的大.2)尽可能将拥有相近数值的元素聚合在一起,以减少原有数值随时间的波动.这个准则已普遍用于大多数聚类算法,可用于有序和无序数值数据在指定区间范围内的类簇,其数学模型表示如下:大小为N的原始数据集为D={vi有序或无序数值,i∈[1,N]},D上的聚类结果为C={ck=[gk,lk]|k∈[1,K],gk和lk分别是第k个类簇的起点下标和长度,l为类簇个数}.根据方差第一条聚类准则f1(ck)=D(gk,lk)=X2(gk,lk)-X(gk,lk),其中,X2(gk,lk)=1lk∑gk+lk-1i=gkv2i,X(gk,lk)=1lk∑gk+lk-1i=gkvi.第二条聚类准则表示为f2(ck)=N?lk.结合以上2条准则,聚类的目标是使fc=∑Kk=1(1-α)f1(ck)+αf2(ck)(1)的值最小.根据用户输入的α聚类因子,调整类簇长度改变聚类结果偏向离散或规整,以达到合理的分析结果.聚类算法流程如下:输入.指定区间的离散数值数据,聚类因子α,类簇距离阈值δ.输出.聚类结果C={c1,c2,…,cK}.Step1.初始化k=0,i=0.Step2.初始化当前聚类ck的起始位置为gk=i,lk=1.Step3.将当前数据点vi加入类簇ck,lk=lk+1,计算类簇中心.Step4.如果已遍历所有数据点,则执行下一步.Step5.判断是否扩展类簇ck使其囊括下一个数据点的方法如下:如果vi+1与类簇ck中心的距离超过阈值δ,则停止扩充当前类簇,k=k+1,i=i+1,转Step2,开始扩充下一个类簇;否则,继续扩充当前类簇,i=i+1,转Step3.Step6.输出聚类结果C.在式(1)中,聚类因子α用来平衡这2条准则对聚类结果的影响.当1-α<α时,类簇数量多且分散和杂乱;反之,聚类效果规整.为获得式(1)的最优解,即最佳的聚类效果,采用贪心策略尽可能多地将邻近值加入当前类簇中,减少类簇值的波动.本文通过实验发现,当α=0.15及α=0.3时,应用样例数据可获得较好的聚类效果,分别保留了原始数据集中36%和21%的数值变化信息,可以减少局部数值频繁变化对数值规律的影响.本文中的实验数据采用杭州市出租车GPS数据,其有序地记录了从t1~tn时刻的车辆速度均值v1,v2,…,vn,若对相邻的元素根据速度值赋予不同的颜色,如速度值<20km?h使用红色、速度值为20~40km?h使用黄色、速度值>40km?h使用深绿色,则可视效果会因为元素颜色变化纷乱而难觅规律.对其应用上文的聚类算法后,原有颜色变化过于频繁的元素被聚集成数个类簇,根据类簇均值赋予离散颜色,规整后的统计图有利于发现数值整体变化规律.但是,数值区间聚类不可避免地会出现细节的丢失,单个元素的数值信息被隐藏,可通过聚类因子α调整类簇数目,控制可视化效果的全局、细节效果和绘制效率.5612第12期何贤国,等:出租车GPS大数据的道路行车可视分析2.2 矢量曲线特征点提取算法大数据量的压缩处理技术在地形分析、三维建模、数据挖掘中被大量使用,现阶段大量技术可支持快速降维,如主成分分析和离散傅里叶变换[24],或者针对时空数据降维的多维时空数据回归[25],减少空间数据的数据量对数据的加工处理、数据的管理及传输具有重要意义.矢量曲线压缩在地理仿真、地图数据库建设及地理信息研究中具有重要的意义,数据压缩的主要目的是删除冗余数据、减少数据的存储量及加快后继处理速度.由于本文是按小时统计的密集数据点的曲线绘制,过多的数据点被绘制在狭小的地图空间会造成曲线控制点冗余和不平滑,因此,降低存储的数据密度可减少服务器端数据存储量,达到实时处理、绘制数据的目的.本文采用经典的Douglas-Peucker算法[26-27],以少量体现曲线特征的数据点替代原有密集的时序数据,保留原有曲线的走势特征,其中特征点称为PIPs(perceptually important points).实现过程可简单描述如下:首先将曲线的首尾点相连得到直线方程L(x,y)=Ax+By+C,然后在起点ps(xs,ys)和终点pe(xe,ye)之间的数据点集合中找出到此线段最大垂直距离的点p(xp,yp),采用VD(ps,pe,p)=ys+(ye-ys)·xp-xsxe-x()s-yp(2)进行迭代得到曲线特征坐标,利用D(L,p)=A·xp+B·yp+CA2+B槡2(3)保留距离D(L,p)<阈值δ的坐标值.本文通过实验发现,当曲线特征阈值δ=1时,应用于实验(曲线数据点大于168个,绘制在180像素大小的区域)数据集后,可将曲线数据点减少原有的78%左右而不丢失曲线特征.对比原曲线,曲线走势与原有曲线相同,波峰、波谷位置保持原位特征不丢失,有效地减少了曲线绘制点,在减轻服务器端数据处理和传输压力的同时也加快了展示端的绘制速率.3 可视方法设计定制化地图目前在互联网上已有较成熟的应用,较主流的有Google Maps,Cloudmade,OpenStreetMap,它们允许用户通过API定制个性化地图.针对现有地图道路空间过小,难以达到在其上放置可视化元素而不遮挡地图信息的目的,本文利用在线的地图工具OpenStreetMap得到开阔道路的地图,从而获得了更多的道路空间.如图1a所示,通过拓展道路空间得到图1b,图1c拓展了地图上的所有道路,可以看出,原有狭长的道路空间变成了开阔的道路区域,可嵌入复杂的可视化图表.在开阔的道路上内嵌本文提出的2类可视化图表,最大程度地保留地图空间信息,用户在观察图表时可快速参照周围地理信息.本文以可交互的定制地图为背景,基于Hadoop平台开发完成出租车GPS数据可视分析系统,旨在依靠云平台的大数据存储和处理能力,利用可视化技术展示道路双向车辆运行情况(如平均车辆速度、车流量和车辆通过路段花费时间),解决大量时序数据在地图空间展示所造成的视觉混乱以及车辆方向与内嵌图表传达方向矛盾问题.图1 道路拓展示意图 对于在地图道路上绘图的颜色,本文采用Bergman等[28]提供的颜色分类法以及ColorBrewer①中离散型的颜色建议,地图主干道路采用黄色或浅黄色表示,为突出展示效果,可视化组件颜色表不包含黄色系.将速度分为8个递增区间,从0km?h开始,每个速度区间增量为10km?h,分别对应于绿色、橙色和红色.本文中使用的可视化方法均用相同的离散颜色方案编码速度,采用颜色映射以减少因速度值过多或变化频繁所造成的颜色混乱.在有限的平面空间内使用图表等可视方式表现大量数据,接近或超过空间承载能力的可视图称之为“高密度图”,其数据集称为“高密度数据集”,如在6612计算机辅助设计与图形学学报 第26卷①http:??colorbrewer2.org4088×2224像素大小的地图平面中路段长度为180像素,需展示24×7个可视化组件,使得每个组件仅占1.07个像素甚至更小.高密度图由于在有限平面上重复、大量地堆砌可视化元素,图表保留过多的细节信息难以展示其他的属性维度信息,有用信息被遮蔽.本文采用不同的图形编码和特征点提取的方式,减少高密度图带来的视觉混淆.3.1 离散型编码图箭头的本质属性是指示方向,通常用于指示数值变化方向,如X,Y轴数值变化方向以及地理空间上物体移动轨迹或趋势变化,如大范围的人口迁移、疾病传播.以Tobler提出采用箭头指示人口迁徙方向为参考,本文中将箭头作为图表组成元素直接嵌入到打开的道路内,利用其固有属性指示车流方向,箭头的颜色和大小分别表示车辆速度和车流量大小,分析车速与车流量的时序关系.为节省所占空间以容纳更多图标,箭头图使用的箭头图标为无箭尾的箭头元素,采用2种布局方式:高密度数据集(≥1个星期,数据点大于24×7个)和低密度数据集(≤1天,数据点小于24个).每个箭头表示一个数据点,为以小时为单位的车辆统计信息:1)展示低密度数据集,以箭头宽度编码车流量,即图2a所示的编码方式A,图中的时间标签标示该箭头所处1h时间段的起点时刻;2)展示高密度数据集,如在4088×2224大小的地图平面,杭州市西湖区的道路段宽平均为180像素,而每个箭头约占1.5像素的位置,为高密度图,对于此情况箭头宽度相同而使用箭头高度表示车流量,即图2b所示的编码方式B.图2a,图3a是2种编码方式应用到本文样例数据的效果图,图3a中灰色的长箭头是单日分割线.2种编码方式之间通过交互选择切换,在查看大量统计数据时采用编码方式B,用户选择某时间段的时间后以编码方式A显示某一天内的数据细节.图2 2种箭头图编码方式图3 箭头图编码方式B 采用编码方式B展示高密度数据集时,虽然可容纳大跨度的时序数据,但也会因数据点过多、效果图细节特征过多导致颜色突变频繁,从中难以直接得出某时间段内速度值的变化规律,采用速度区间聚类算法对箭头图进行聚类(如图3所示).相比于图3a,从图3b中可明显看出箭头图的颜色变化趋于规整,如自东向西方向的车流,星期三11:00~23:00颜色均为淡绿色,该时间段车辆速度一直处于30~40km?h之间,车流量居高不下,可知该路段在这段时间内可能会有拥堵情况发生,聚类后的箭头图更容易得出速度变化规律.3.2 连续型编码图栈图常用于可视化带有类别特征的时序数据[3,29],数据类别层与层之间通常采用堆栈布局或非对称布局,可清晰地展示不同层之间数值随时间变化的趋势.本文中将道路的双向车流作为层数据,对于可视化双向道路数据,数值变化方向始终与其中一个车流方向相反,在每层内嵌方向箭头指示车流方向,减弱双向车流量数值变化所造成的视觉误导.2种栈图布局方式如下:1)沿坐标轴单侧排列层,以道路一侧作为栈图基线,适合同向对比数据变化趋势,如图4a所示;2)沿坐标双侧排列栈图层,以道路中心线作为双侧层的基线,适合单独观察车流量变化趋势,如图4b所示.从图4可以看出,栈图展示1个星期的车辆统计数据共有24×7个数据点,在地图路段内每个7612第12期何贤国,等:出租车GPS大数据的道路行车可视分析图4 2种栈图布局方式数据点间隔仅为1.07个像素,曲线绘制点密集为高密度图,应用特征点提取算法将曲线数据点从24×7删减到50个点左右,保留了30%的原始位置点信息.从提取后的特征点绘制效果图可以看出,应用特征点提取算法并未损失原图像波峰、波谷特征,曲线整体变化趋势依然相同,处理后的数据点可加快服务器端的数据读?写速度和绘制效率.栈图可增加速度编码信息,从图5a可以看出,添加速度属性后,通过观察颜色可知速度均在20~40km?h之间,但因速度值波动较大造成颜色繁多无规律,难以得出在某一时间范围内的车辆速度趋势.针对此问题,对其应用速度区间聚类算法规整速度值,取聚类因子α=0.3,从图5b可明显看出,颜色波动减少趋于平整,如自东向西方向星期二13:00~24:00、自西向东方向星期日9:00~20:00速度值均保持在30~40km?h.图5 栈图添加速度属性效果图4 实验结果及分析本节以杭州市出租车GPS大数据为样例,应用本文提出的2类可视化方法分析城市道路交通状况.采用的样例数据为2011年7—11月杭州市出租车GPS数据,数据集中总共包含了约8 000辆出租车,每天的车辆位置点记录大约有1 200万条,数据集大小为500GB左右,将其分布式存储在Hadoop平台上,其中每条GPS记录包含出租车的7个主要属性如下:ID、车牌号、经纬度坐标、载客标志、记录入库时间、行驶方向和瞬时速度.本文将道路按路段分割,从路段角度分析道路不同区间的行车情况.异常记录处理在保证数据完整性的前期处理过程中有着重要意义.对原始数据集中主要的异常数据处理方式如下:1)若记录的数据属性项均为空值,仅有ID和车牌号,或数据项整体偏移,数值内容与记录属性不对应,则剔除该项记录;2)若数据属性项中表示位置(经纬度值缺失或记录错误)或时间的属性(入库时间项空值或时间值错误)错误,则以车辆载客标志位变化作为车辆轨迹分割点,找出包含该项记录的在轨迹中的前后位置点,取前后记录的经纬度或时间进行插值补充缺失项,对于车辆瞬时速度的缺失采用相同方法取前后车辆速度的平均值;3)若轨迹中记录点的日期时间属性非顺序排列,需对记录点所在的轨迹进行排序后重新插入到数据库.得到无异常的数据集后,将原始车辆位置点通过经纬度转换映射到地图平面,根据点对点和点对线的匹配算法进行位置点与地图匹配,将位置点坐标对p(xp,yp)与地图路段坐标S(xs,ys),E(xe,ye)进行比对,计算位置点到轨迹的距离,取最小值min(DpS,DpE,DpSE),其中DpS,DpE分别表示p点到路段起点和终点的距离,DpSE表示p点到路段SE的欧氏距离.得到基于路段按时间统计的车辆数据:双向车流量、平均车速和行驶时间.将处理后的数据分布式存储到云平台上,搭建系统框架图,如图6所示.在此平台中,为降低服务器由于底层操作系统而消耗的内存、硬盘等硬件资源,本文采用VMware公司推出的vSphere软件直接在裸机上创建虚拟机,并建立一个VCenter用于管理虚拟机.为实现数据分布式处理,在虚拟机上搭建了Hadoop,采用HBase数据库对出租车GPS数8612计算机辅助设计与图形学学报 第26卷据进行存储管理,同时利用Hive将类SQL转换为MapReduce任务,执行分布式查询HBase中的出租车GPS数据[30].用本文提出的2类可视方法分析杭州市道路行车情况,通过对出租车行车情况的分析可从侧面反映出杭州市车辆的运行状况,为城市交通调度提供决策支持.图6 可视化分析平台总体框架图4.1 道路单行线特征分析单行或限行车辆道路是为缓解城市交通压力所设置的特殊车道,仅允许单方向通车,可以通过车流量的变化判断单行道路.杭州市西湖区文三路和文二路是特征较明显的单行道路,文三路上莫干山路到古翠路段车辆自东向西行驶,文二路同一区间内车辆行驶方向相反,2条主干道的行车方向构成西湖区的车流循环.从图7a箭头图编码方式B中可以看出,文三路(图下方)由东向西的指向箭头高度大于反方向箭头,且自西向东方向的箭头呈灰色(无车辆)或高度仅为最小高度(≤10辆?h),表明由东向西方向全天的车流量远大于相向车流量,文二路(图上方)自西向东方向发现同样规律,可知箭头图真实地反映了道路段上车流量情况.图7a中箭头高度随时间变化的趋势,反映了2条道路的4个路段车辆单行方向的车流量变化规律:深夜到凌晨车流量回落且车速维持在40km?h以上,直到上班高峰期车辆逐渐增多、车速下降再至道路出现拥堵,此后午间到下午时间段车流减少,到下班高峰期后车流量回升且车速下降到30km?h以下,车流量经过短暂的下落后在深夜增多.我们通过实地调研了解到,文二路、文三路作为西湖区的主干道,沿线有多个高新软件园和散布的多家公司,且东西方向是郊区到城区的主干道路,因此该道路上车流量在早高峰过后仅有少量的回落,晚高峰过后以及深夜随着大部分出租车出城休息才逐渐减少.对比图7b中聚类后的效果,观察古翠路到学院路段,文二路、文三路单行道路箭头图颜色趋于整齐,从图上方红色箭头所指之处可以看出,文二路由西到东的车速在星期一、星期二、星期四箭头聚类区域有明显特征:07:00~20:30时段车辆速度基本维持在20~40km?h之间,而车流量保持在160辆?h,表示文二路在该路段上工作日内道路畅通情况不良,易出现拥堵.从图7b下方红色箭头位置可以看出,文三路的车速在1个星期内保持40~50km?h的速度,如图下方红色箭头处,星期四、星期五在凌晨~20:00车速均保持在40km?h以上,凌晨时段车速偶尔会达到60km?h.从图7c采用以箭头宽度表示车流量的箭头图编码方式A中可以看出,星期二文三路上教工路到学院路段符合单行线特征,在8:00~20:00车流量呈现从低到高再到低的变化规律,在12:00达到最大值.图7c所示为2011-11-08统计数据的效果图,我们通过调查了解到该日为杭州植物园菊花展,游客可选择在文三路上经学院路到达附近的玉泉植物园,对中午车流量的增大产生一定影响.用户通过调整聚类算法中的聚类因子α,对采用箭头图编码方式B的图7a进行聚类,控制类簇数量(α越小类簇数越多,与原始图越接近,反之越少,类簇颜色趋于规整),得到图7b的聚类效果,聚类图可容纳更大时间跨度数据的展示,适合大规模9612第12期何贤国,等:出租车GPS大数据的道路行车可视分析。