基于公交IC卡数据的乘客出行时间特征研究

合集下载

基于公交IC卡与GPS数据的公交客流可视化分析

基于公交IC卡与GPS数据的公交客流可视化分析

基于公交IC卡与GPS数据的公交客流可视化分析李文锋;林艳玲;程远;林小伟;王桦泉【期刊名称】《交通科技与经济》【年(卷),期】2018(020)005【摘要】公交客流特征与规律是公交高效运营与服务提升的主要研究内容,也是城市公交线网规划的重要决策依据.随着城市人口的增长及公交出行需求的增加,产生海量多元的公交IC卡刷卡数据.为实现对公交客流特征与规律的全方位精准分析,并优化展示分析结果,运用海量IC卡刷卡数据,结合公交车辆GPS数据,建立数据之间的关联,消除信息孤岛,对公交客流建立多维度数学分析模型.从客流OD、断面客流、候车时长、客流堆积等方面分析公交客流特征与规律,并将结果可视化,开发出客流可视化分析应用系统,能够为公交运营调度、线网规划提供科学的决策依据.在构建的客流分析系统中导入厦门BRT的实际刷卡数据,运行结果表明,该系统能够准确统计BRT的客流量,并分析客流特征与出行规律.【总页数】6页(P55-59,80)【作者】李文锋;林艳玲;程远;林小伟;王桦泉【作者单位】厦门卫星定位应用股份有限公司 ,福建厦门 361000;厦门卫星定位应用股份有限公司 ,福建厦门 361000;厦门卫星定位应用股份有限公司 ,福建厦门361000;厦门卫星定位应用股份有限公司 ,福建厦门 361000;厦门卫星定位应用股份有限公司 ,福建厦门 361000【正文语种】中文【中图分类】U491.17【相关文献】1.基于公交IC卡信息的公交客流推算 [J],2.基于公交IC卡信息的公交客流推算 [J], 游婷;范桂莲;马兴慧;3.基于公交IC卡和GPS数据的公交OD量推算研究 [J], 邓红星;赵志恒;王玮琦;4.基于公交IC卡和AVL数据的公交客流OD推算 [J], 张文胜;卢梦;朱冀军;闫涛;段钊宁5.基于公交IC卡数据的成都市地铁与常规道路公交换乘客流特征分析 [J], 管娜娜;王波因版权原因,仅展示原文概要,查看原文内容请购买。

基于公交IC卡数据的乘客出行分类研究

基于公交IC卡数据的乘客出行分类研究

基于公交IC卡数据的乘客出行分类研究
李军;邓红平
【期刊名称】《重庆交通大学学报(自然科学版)》
【年(卷),期】2016(035)006
【摘要】为得到体现公交乘客出行时空规律的数据,采用基于出行链方法推导出公共汽车乘客的下车站点;建立了描述单个乘客多天出行的完整数据框架;根据乘客参加不同活动所产生的出行时空特征定义了3类出行:通勤类出行、普通类出行和随机类出行,将出行频次与出发时间的标准差作为分类标准对公交乘客出行进行分类.研究表明:39.1%的乘客具有普通类或通勤类出行,生成总客流的76.4%;60.9%的乘客只具有随机类出行,生成总客流的23.6%.通过对乘客出行的分类研究可以更好地掌握乘客公交出行的规律和需求.
【总页数】6页(P109-114)
【作者】李军;邓红平
【作者单位】中山大学广东省智能交通系统重点实验室,广东广州 510006;中山大学广东省智能交通系统重点实验室,广东广州 510006
【正文语种】中文
【中图分类】U121
【相关文献】
1.基于公交IC卡和GPS数据的乘客上下车站点研究 [J], 秦政
2.基于公交IC卡和GPS数据的乘客上下站点模型研究 [J], 魏硕;李文勇;余子威;王
涛;杨岸磊
3.基于公交IC卡数据的跨区通勤出行者识别研究 [J], 李娜;严海;曹佳;齐岩
4.基于公交IC卡数据的跨区通勤出行者识别研究 [J], 李娜;严海;曹佳;齐岩
5.基于公交IC卡数据的跨区通勤出行者识别研究 [J], 李娜;严海;曹佳;齐岩
因版权原因,仅展示原文概要,查看原文内容请购买。

基于IC卡数据的城市地铁客流特性分析

基于IC卡数据的城市地铁客流特性分析

基于IC卡数据的城市地铁客流特性分析
郭瑞军;李天琦;唐博林
【期刊名称】《大连交通大学学报》
【年(卷),期】2022(43)2
【摘要】通过IC卡数据分析城市轨道交通客流运行特性,对杭州地铁近一个月的地铁连续刷卡数据进行分析.利用调查数据研究客流出行特征,如高峰小时断面客流量,每小时上下车人数和高峰时段内出行人数,各站点OD,线路换乘人数和换乘比例,线路客流量等,从而分析客流特性指标的方法.结论显示:杭州地铁全网日均出行量约120万人次,其中1号线客流量最大;1,2号线之间的换乘次数最大,平均每日可达到20万人次;建议根据实时统计的进出站客流量,调整发车频次,增加运力等手段避免造成客流量大量积压导致交通瘫痪,为有效进行地铁站的人流疏导做支持.
【总页数】7页(P14-20)
【作者】郭瑞军;李天琦;唐博林
【作者单位】大连交通大学交通运输工程学院;北京工业大学城市交通学院
【正文语种】中文
【中图分类】U23
【相关文献】
1.基于公交IC卡与GPS数据的公交客流可视化分析
2.基于公交IC卡数据的公共交通客流分析——以南京为例
3.基于海量IC卡数据的公交客流时空分析
4.基于IC
卡数据的长距离公交客流特征分析5.基于公交IC卡数据的成都市地铁与常规道路公交换乘客流特征分析
因版权原因,仅展示原文概要,查看原文内容请购买。

基于IC卡数据的公交出行OD推算方法研究

基于IC卡数据的公交出行OD推算方法研究

收稿日期:2018-01-08。费晔,工程师,主研领域:信息技术应用,智能交通。
第 8期
费晔:基于 IC卡数据的公交出行 OD推算方法研究
191
扩至全样目前尚无有效方法和验证手段[3]。针对传统 人工调查方法的种种不足,以及当前上海市地面公交 客流分布特 征 变 化 快、供 需 关 系 不 稳 定 的 现 状,动 态 的、智能的公交出行 OD调查方法必将成为 OD调查相 关研究的发展方向。
换乘 的 出 行 进 行 出 行 起 止点的推算。
图 1 推算图像
2 OD推算数据的准备和获取
公交系统的 OD数据获取困难一直是限制公交运 营决策和公共交通规划的瓶颈之一。传统的人工调查 有着数据更新不及时、抽样率低等不足之处,在城市化 进程快速推进、客流特征迅速变化的背景下,公交系统 的管理和规划都对智能化动态获取 OD数据的方法提 出了要求。常见的几种智能化 OD调查方法,在实践 上由于技术限制或方法上的缺陷,难以满足上海市地 面公交系统的调查需要。而基于 IC卡和公交 GPS数 据的 OD反推技术,则是短期内实现公交出行客流 OD 的动态智能化获取最为可行的途径。
环保的公交运营管理措施之关键,同时也为公交设施 的优化布局提供有力依据。
现有发展中,上海广泛发行公交 IC卡,基于按里 程计费、进出站两次刷卡的轨道交通网络能较好地掌 握其出行客流的动态时空分布。而地面公交则由于大 部分城市采取单一票价、单次刷卡或投币的形式,其动 态出行 OD数据难以从刷卡信息中直接获取[2]。人工 出行调查仍是获取需求分布的主要方式,如上海市每 年会进行一次公交客流大调查,每五年进行一次居民 出行调查。人工调查的方法在城市发展稳定期,客流 变化不大的情况下,对于公交管理和规划具有一定的 作用。但目前,上海市居民出行时空分布也处于不稳 定期,将每年一次的人工调查数据作为较长时间内居 民出行需求分析的依据显然有失偏颇。此外,人工调 查往往以抽样的方式进行,而低抽样率水平下的数据

基于大数据的城市公交客流分析与可视化实践

基于大数据的城市公交客流分析与可视化实践

基于大数据的城市公交客流分析与可视化实践发布时间:2023-02-16T02:38:04.162Z 来源:《工程建设标准化》2022年第19期作者:熊冰蕾[导读] 城市公交客流分析可为城市公共交通规划编制、设施配套、线网优化、资源配置等提供量化数据支撑熊冰蕾(深圳市综合交通与市政工程设计研究总院有限公司,广东深圳 518000)摘要:城市公交客流分析可为城市公共交通规划编制、设施配套、线网优化、资源配置等提供量化数据支撑。

本文以公交乘客刷卡扫码数据、公交GPS数据以及公交车载客流仪数据为基础,对海口市公交客流特征进行了时空分析,获取到公交乘客出行OD,后又通过将公交线网与路网进行匹配,对海口市主城区主要公交客运走廊进行了识别,为城市公交线网优化提供了关键数据支撑。

关键词:公交客流分析、OD推算、客运走廊识别、数据可视化0引言公交客流分析数据的获取最常见的方法是人工调查,通过跟车、驻站等方法获取站点流量以及客流OD等数据,但所需人力物力巨大,且数据可信度也较难以保障。

随着智能公交系统的发展,公交运营过程中可采集到更加丰富的公交数据,且随着大数据处理技术的日趋成熟,数据处理效率上得到了较大提升,为基于大数据的客流分析提供了基础。

目前国内公交客流分析研究越来越多的以公交日常运营系统中获取到的数据为基础。

不少研究者通过IC卡数据[1-3],利用公交客流出行特征,通过迭代计算得到单条线路的公交出行OD。

而后随着公交GPS系统与IC卡收费系统结合的推广,结合二者进行的公交客流与出行OD研究成为热点。

涂一霜[4]基于出行链、出行规律和概率计算三种方法结合计算乘客上下车站点。

张清华[5]等人采用距离、时间阀值推算公交出行乘客的上下车站点信息。

刘颖杰[6]杨万波[7]孙凯[8]等人运用到了站点吸引强度和乘客出行站数规律推算公交OD 矩阵。

崔紫薇等[9]基于历史出行记录扩充方法推算下车站点。

上述研究着重考虑了在不同假设前提下在算法层面的优化,缺乏对技术的应用实践,本文将以公交乘客刷卡扫码数据、公交GPS数据以及公交车载客流仪数据为基础,对包括公交出行OD在内的一系列客流数据进行计算分析,进一步将对客流数据的分析运用于公交线网优化当中。

基于公交IC卡数据的上车站点推算研究

基于公交IC卡数据的上车站点推算研究

基于公交IC卡数据的上车站点推算研究马晓磊;刘从从;刘剑锋;陈锋;于海洋【摘要】In order to analyze urban bus passengers' travel characteristic, this paper proposes several data mining algorithms for boarding stop inference based on IC card and GPS data. For those buses with GPS devices, a data-fusion method with GPS data is developed to estimate individual passenger's boarding stop. For those buses without GPS devices, an improved Bayesian decision tree algorithm with varying steps is presented to calculate the likelihood of each possible boarding stop. In addition, Markov Chain optimization technique is applied to reduce the computational complexity. Empirical data from Beijing transit route are used to validate the effectiveness of the proposed algorithms. The results demonstrate that the accuracy of identified boarding stop can be guaranteed and the algorithm complexity can be well controlled to meet the requirements of practical application. As a result, the methods can be widely adopted for urban public transportation system.%为了分析城市公交乘客的出行特征,本文利用公交IC卡及GPS数据对公交IC卡乘客上车站点推算进行研究.针对安装车载GPS设备的车辆,运用GPS数据与IC卡数据融合算法进行推算;对于无车载GPS设备的情况,为适应一票制IC卡数据挖掘,对贝叶斯决策树算法进行改进,允许节点跳跃,推算上车站点,并且利用Markov链特性降低算法的运算复杂度.同时,本文以北京公交数据为例,对提出的两种方法进行验证.结果表明,利用本文提出的方法推算上车站点,3站之内误差的准确率达到90%以上,算法在兼顾算法精度的同时合理地控制了运算复杂度,可以实际运用于城市公交系统.【期刊名称】《交通运输系统工程与信息》【年(卷),期】2015(015)004【总页数】7页(P78-84)【关键词】城市交通;公共交通;上车站点推算;贝叶斯决策树算法;IC卡数据;GPS数据【作者】马晓磊;刘从从;刘剑锋;陈锋;于海洋【作者单位】北京航空航天大学车路协同与安全控制北京市重点实验室,北京100091;北京航空航天大学车路协同与安全控制北京市重点实验室,北京100091;北京城建集团有限责任公司,北京100037;北京交通发展研究中心,北京100073;北京航空航天大学车路协同与安全控制北京市重点实验室,北京100091【正文语种】中文【中图分类】U491Abstrraacctt:: In order to analyze urban bus passengers' travel characteristic, this paper proposes several data mining algorithms for boarding stop inference based on IC card and GPS data. For those buses with GPS devices, a data-fusion method with GPS data is developed to estimate individual passenger’s boarding stop. For those buses without GPS devices, an improved Bayesian decision tree algorithm with varying steps is presented to calculate the likelihood of each possible boarding stop. In addition, Markov Chain optimization technique is applied to reduce the computational complexity. Empirical data from Beijing transitroute are used to validate the effectiveness of the proposed algorithms. The results demonstrate that the accuracy of identified boarding stop can be guaranteed and the algorithm complexity can be well controlled to meet the requirements of practical application. As a result, the methods can be widely adopted for urban public transportation system.Key worrddss:: urban traffic; public transit; boarding stop inference; Bayesian decision tree algorithm; IC card data; GPS data随着我国公共交通信息化建设的不断推进,公交IC卡广泛应用于公交系统,为公交线网规划、运行调度管理及公交系统辅助决策提供了重要的数据支撑.在利用IC卡数据进行公交出行分析的过程中,上车站点信息对分析乘客出行规律是必不可少的.但是,我国目前大部分公交采用的是一票制收费模式,即乘客仅在上车刷卡收费,系统中的记录信息仅有乘客上车刷卡时间,无上下车站点信息.因此,准确、快速地推算乘客上车站点,实现IC卡数据有效利用,对于提高公交运营效率,促进城市现代化,具有重要的现实意义.近年来,围绕基于公交IC卡数据的上车站点推算,国内外学者开展了大量研究工作.在国外,Jinhua[1]结合AFC及AVC数据获取上车站点,Barry[2]等人利用GPS数据和IC卡数据进行融合,获取到公交车行驶日志,利用行驶日志及融合数据推算上车站点.然而,国外城市公交系统与我国城市公交系统差异性较大.在国内,针对无GPS数据下单一票制的公交车上车站点推算问题,戴宵等[3]提出了对公交卡乘客的刷卡时间进行聚类分析判断乘客上车站点的方法,郭婕等[4]在对上车站点进行聚类分析的基础上,重点分析了相邻车站的时间间隔,于勇等[5]结合公交运营调度时刻表所提供的车辆及其发车信息,推算各车次到达各站点的时间,提高了上车站点推算精度.但以上研究在数据不完整情况下准确率难以保证.针对具有GPS数据情况,陈君、杨东援[6]将公交IC卡数据与公交GPS数据进行关联,结合调度数据推算公交IC卡乘客上车站点.徐建闽[7]等利用公交GPS定位数据和GIS电子地图中的车站位置获取公交车的到站地点.因此,本文在充分考虑基础数据缺失的基础上,利用海量公交数据进行深度挖掘,对有无车载GPS数据的情况,分别提出了IC卡数据和GPS数据融合算法和基于移动步距的贝叶斯决策树算法,用于上车站点的推算,同时以北京市公交系统为例对算法的有效性进行分析和验证.2.1 数据采集在进行上车站点推算时,涉及到的公交基础数据主要有IC卡数据、GPS数据和GIS站点位置数据.在进行数据采集时,需要采用一些处理海量数据的技术,如分布式数据库管理、并行计算等,将这些多源数据有效地管理,利用数据统计特性进行初步挖掘和存储.2.2 数据解析和质量控制在进行上车站点推算前需要对采集到的数据进行解析和质量控制.主要内容包括:对错误和缺失数据进行纠正和补全;排除冗余文件、错误文件及无法识别计价方式的车辆.在城市公交系统中,为实现车辆运营的实时监控与智能化调度,部分车辆安装了公交车载GPS设备.但是,由于GPS数据只包含速度、经纬度等信息,不包含车辆行驶方向,必须利用已知的公交GIS数据来估计公交车到站时间和站号,并通过获取的到站时间等推算信息和公交IC卡数据进行融合,从而得到一票制IC卡数据的上车站点信息. IC卡数据与GPS数据融合处理的流程如图1所示.3.1 数据整合与匹配在进行IC卡和GPS数据融合之前,需对数据进行整合和匹配,由于GPS数据通常存在于文本文件中,需要将有用的信息进行提取,并存储到GPS数据库中,同时通过车辆信息表和GPS数据中的SIM卡信息,获取线路号与车辆号,并更新到数据库,完成数据预处理.3.2 公交行驶方向和到站时间的推算Step 1车辆行驶方向的推算.本文利用站点信息辅助判定车辆的行进方向.例如:657路,上行,站点7,造甲村,所对应link号为5 713,起点为4 703,终止点为4 676,起点的坐标为(39.844 709 38, 116.295 533 09),终点的坐标为(39.842 489 38,116.298 062 45),根据经纬度确定站点方向,并与GPS记录的方向信息进行比对,从而确定公交行驶方向.Step 2到站时间的推算.遍历每一个站点,检索站点方向和GPS记录方向符合的所有记录,获取距离站点最近的GPS轨迹点,通过计算车载GPS轨迹点与站点之间的距离实现车辆到站时间的推算.图2所示的五角星即为距离该站最近的GPS数据点.其中,对于没有获取的到站时间,利用时间关系搜索原始GPS数据补全,具体的算法流程如图3所示.3.3 IC卡数据和GPS数据的融合将系统中交易记录与推算的到站时间进行逐条比对,确定距离该站点到站时间最近的数据,将该交易记录标记为该数据的站点号.对于交易时间与到站时间相差大于5 min的记录,默认为无匹配的站点数据,匹配好的IC卡数据片段如表1所示.3.4 算法验证由于车辆很难准确停靠在停车站点位置,并且推算的车辆到站时间与刷卡时间进行匹配会出现错误,所以与车辆到站时间相比,车辆开门时间与刷卡时间更加匹配.本文采用人工调查的方式验证数据融合算法的准确性.人工调查使用手持GPS设备获取651路公交车GPS数据,手持数据是由若干志愿者手动记录的每15 s公交车地理空间位置信息,调查时间为2011年1月13日8:00 AM–1:00 PM,共手动记录75辆车开门时间.利用车辆开门时间与417位乘客刷卡时间进行匹配,并判定推算出的上车站点为真值.利用GPS数据融合算法推算上车站点,并与真值进行比对,结果表明,上述算法共准确推算出408个上车站点记录,误差为1站的共11个,无误差大于或等于2个站点的记录,上车站点推算准确率达到97.4%. 对于未安装车载GPS的公交车无法获取车辆准确的到站时间,仅有IC卡交易时间作为已有数据.针对该情况,本文对传统的贝叶斯决策树算法进行了改进,提出了基于移动步距的贝叶斯决策树算法,允许结点跳跃,用于上车站点的推算.算法中决策目标是判定刷卡记录所在聚类具体对应的实际站点,决策的依据是计算并比较当前聚类对每个候选站点的隶属度.具体算法流程如图4所示.4.1 IC卡刷卡时间聚类交易刷卡时间按照站点进行分类.在聚类过程中,一票制系统无上车站点的名称和标识,同时对于某个站点存在无交易的概率,即相邻的两个类别不等于两站点相邻.4.2 换乘关系推算假设乘客由前一条线路换乘到一票制线路,可得到3种换乘关系:分段计价换一票制、地铁换一票制和一票制换一票制.对于第一种和第二种情况,由于分段计价和地铁IC卡数据下车站点已知,根据换乘距离和换乘时间得到相应的一票制上车站点.对于第三种情况,由于并不确定两条单一票制线路的方向,所以假设在规定的换乘距离和换乘时间限定下得到的上车站点唯一,则把该站点设为一票制的上车站点.实际上得到的换乘关系包括两个站点,分别是上行换乘站点和下行换乘站点.4.3 基于移动步距的贝叶斯决策树的公交站点推算公交站点推算主要分为生成速度特征矩阵、分割聚类序列和分割片段处理等步骤,具体如下:Step 1速度特征矩阵的生成.站间速度可表示为:式中d为站间距;t为站间刷卡时间间隔.站间速度的概率密度函数可以表示为:式中为归一化的站间速度;u和σ分别为任意两站站间速度的平均值和标准差,数据取自GPS到站时间表,包括每辆车的站间速度.其中平均速度分时段计算.对每一辆公交车来说,任意两站点间的平均站间速度为式中Vij为站点i到站点j的站间速度,Dij为站点i到站点j的站间距,Dn为站点n到站点n-1的站间距,Vn为站点n到站点n-1的站间速度.站间距从站距表中获得,站间速度从到站时间表中获得.Step 2分割聚类序列.在将聚类序列分割为若干片段过程中,需要将生成的聚类序列关联起来,其中每个节点都包含可能的若干换乘站点,并且从车次分割点开始分裂.因为从车次分割点处理不确定因素最小.图5是一分割好的聚类序列,聚类对应的时间差为20 min,每个片段的两个端点均对应可能的换乘站点.对于片段1,可能的起始点为上行5,下行13;对于片段2,可能的终止点为上行11,下行2,共4种可能的组合,如表2所示.Step 3分割片段处理.为了解决车次分割和滞后站点问题,本文通过基于片段概率函数方式对每个片段进行处理.已知每个相邻站点间的距离和速度,先计算任意两相邻站点的最大和最小旅行时间,再计算总旅行时间方差和均值,并且判定该旅行时间服从正态分布.设根据聚类的时间差tij,可得到所在片段的概率密度函数式中uij,σij分别为站点i到站点j的平均速度和标准差.在给定置信度下,其速度的置信区间为:[uij-z⋅σij,uij+z⋅σij],其中z为置信区间对应的临界值.假设在置信度为0.95,对应临界值z= 1.96条件下,四个可能的组合概率密度分别为0.54,0.87,0.000 3,0.因此,组合2,即聚类片段从上行5开始到下行2终止,概率最大,结果如图5所示,与实际站点一致,实现基于贝叶斯决策树算法的IC卡时间聚类公交站点推算.4.4 算法优化原始贝叶斯决策树算法的算法复杂度为O(mn),其中m表示候选站点的个数,n 代表整个站点序列的长度.在决策树构造过程中,若计算节点数过多,会导致决策树过度膨胀.降低算法复杂度的方法是充分利用Markov链特性,即保留节点概率大于删除节点概率.式(5)表明,在决策树第n+1层,路径概率最大的唯一站点序列为Sk+1,Sk,Sk-1,…,S1.即对于决策树为n层节点来说,第n+1层的节点的选取仅仅与第n层的节点有关.式中Xn表示第n层站点序号;P表示节点的隶属函数.由上可得,基于Markov链的贝叶斯决策树算法的复杂度为O(mn) .通过该方法可在不损失算法精度的前提下,把指数级别贝叶斯决策树生成算法的计算量降到线性级别.4.5 算法验证本文针对一票制IC卡数据,对单一票制的线路进行上车站点推算,并将结果与通过GPS到站时间算法得到的上车站点进行比对.使用的IC数据是22路公交数据,时间为2010年4月7日.22路的站距表和实际运行轨迹相符,基础数据完善,不存在站距表缺失情况.所用参数为默认参数,即5%路径选择概率误差界限,3个树杈数,30 min车次强行分割时间间隔.算法所得结果如表3所示,22路公交共有12 675刷卡记录与GPS数据匹配,决策树法推算出12 043个上车站点,占总记录比重的95%.55.8%的结果与GPS数据所示结果精确匹配,3站之内误差的准确率达到总记录的91.9%.与其他大部分国家的一票制公交系统不同,国内的公交系统在乘客上车刷卡时,并不记录上车站点.因此,本文围绕公交上车站点推算问题,针对是否具备GPS数据条件分别提出了IC卡数据和GPS数据融合算法及基于移动步距的贝叶斯决策树算法.在基于移动步距的贝叶斯决策树算法中利用Markov链对算法的运行效率进行优化,在将算法复杂度降为线性的同时保持了推算精度.算法具有较好的适应性,大部分线路三个站点误差内算法精度可以达到90%以上.另外,算法较好地解决了滞后刷卡和车次分割问题.在进行站点的推算过程中,由于IC卡数据和GPS数据融合算法是基于时间来确定站点信息的,当车辆到站时间推算不够精确时,站点识别精度会受到一定影响.同时,站点识别算法依赖于GIS数据,贝叶斯决策树算法也在一定程度上依赖基础数据的准确度.因此,为了进一步提高算法精度,可采用其他辅助信息进一步完善算法,如考虑站点周围土地利用类型,通过其他关联信息联合判断上车站点等.【相关文献】[1] Barry J J, Freimer R, Slavin H. Use of entry-only automatic fare collection data to estimate linked transittrips in New York City[J]. Transportation Research Record: Journal of The Transportation Research Board, Transportation Research Board of The National Academies, Washington, D.C., 2009.[2] Jinhua Zhao. Estimating a rail passenger trip origindestination matrix using automatic data collection systems[J]. Computer-Aided Civil and Infrastructure Engineering. 2007,22(1):376-387.[3]戴霄,陈学武,李文勇.公交IC卡信息处理的数据挖掘技术研究[J].交通与计算机, 2006,24: 40-42. [DAI X, CHEN X W, LI W Y. Data mining technology research of transit IC card information processing[J]. Computer and Communications, 2006, 24: 40-42.][4]郭婕,陈学武.公交IC卡乘客上车站点确定方法及其应用[C].上海:第一届中国智能交通年会论文集, 2005. [GUO J, CHEN X W. The method confirming the station of bus IC card passengers and its application[C]. Proceedings of The 1st China ITS Annual Meeting, Shanghai, 2005.][5]于勇,邓天民,肖裕民.一种新的公交乘客上车站点确定方法[J].重庆交通大学学报, 2009,28(1):121-125. [YU Y, DENG T M, XIAO Y M. A novel method of confirming the boardingstation of bus holders[J]. Journal of Chongqing Jiaotong University, 2009, 28(1): 121-125.] [6]陈君,杨东援.基于智能调度数据的公交IC卡乘客上车站点判断方法[J].交通运输系统工程与信息, 2013,13(1):76-80. [CHEN J, YANG D Y. Identifying boarding stops of bus passengers with smart cards based on intelligent dispatching data[J]. Journal of Transportation Systems Engineering and Information Technology, 2013, 13(1):76-80.][7]徐建闽,熊文华,游峰.基于GPS和IC卡的单线公交OD生成方法[J].微计算机信息, 2008,24(8-1):221-222. [XU J M, XIONG W H, YOU F. The method of singal-line public transportation OD base on GPS and intelligent card[J]. Microcomputer Information, 2008, 24 (8-1):221-222.]。

基于公交IC卡客流数据的站点匹配方法

基于公交IC卡客流数据的站点匹配方法

混合处理 ,通过公交车辆在不 同站点 的行驶 时 间与乘客的刷卡时间进行 比对 ,从而将地理信
停靠站 点及相应方 向的上下游位置 )等信 息; K. me a n s聚类算法是 目前聚类算法 中十分 息 位 置 和 乘 客 的 上 车 站 点 进 行 匹配 。 在 基 于 另 一 方 面 ,我 们 需 要 通 过 I C卡号查询 出某乘 常用 的算法 。K. me a n s 算 法高效便捷 、简 GP S技 术 的公交站 点匹配 上 由于 GP S数据存 客 当 日 的所 有 上 车 信 息 ,包 括 站 点位 置 、上 车 速,但是在实 际的操作 中我们不难 发现 , 在 延时性,即非实时数据 ,因此与公交车辆 的 时 间、车辆线路号等 。 l e a n s算 法在 确 定初 始 K值 、初始 凝 聚 点 实时地理位置存在一定偏差 ,需要量化两者 的 “ 闭合 ”线路 判 断条件 :对某 乘 客当 日 等 问题上 仍存 在很 大 的不确 定性 。加 之 时 间偏 差 ,由于不 同 的公交系 统 GP S数据延 的所 有 上 车站 点根 据 时 间排 序 后 ,对 于每 一 次 l e a n s算 法 采 用 欧几 里 得距 离 最 为 相 似 性 度 时不同,本文对该偏差不予 以考虑。 上车信 息,都满 足下一 次上车站 点在此次上 车 j 依据 ,而欧几里得距离仅适用于 分布均 匀
可 以 代表 此 批 次 乘 客刷 卡 时 间 的 特 征 时 间 点 。
多次 ,我们可 以进一步分析 出此种 出行线路是
否具有长期性规律 。
该算法对 两个数据 之间 的距 离进行测 量。 i 个数据之间 的距离较远时 ,结果值 较大; : 一致 时结果值为 0 。m作 为不同簇 的生成
析 ,有助 于掌握 市民 出行 规律 ,

基于公交IC卡和GPS数据的乘客上下车站点研究

基于公交IC卡和GPS数据的乘客上下车站点研究

基于公交IC卡和GPS数据的乘客上下车站点研究秦政【摘要】文章通过对公交IC卡和GPS数据的分析,给出了利用IC卡和GPS数据推导乘客上下车站点的判别方法.通过充分挖掘两类公交数据中的信息,考虑乘客刷卡滞后的情况,采用相邻站点进站时间与刷卡时间匹配的方法识别上车站点;同时考虑到同行人员代刷卡行为,改进了下车站点的判断机理;最后结合成都市公交IC卡和GPS数据进行实例分析,结果表明所采用的判别方法上车站点识别率较高,下车站点的判断结果符合实际情况,具有较高的准确性.【期刊名称】《西部交通科技》【年(卷),期】2017(000)008【总页数】5页(P115-119)【关键词】交通大数据;IC卡数据;GPS数据;上下车站点【作者】秦政【作者单位】西南交通大学交通运输与物流学院,四川成都 610031【正文语种】中文【中图分类】U495公交客流OD是城市公共交通规划与管理的重要基础数据,传统人工采集数据的方法在获取公交客流OD数据时,不仅存在着费时、费力、长时间调查导致数据质量不高等问题,而且数据的不连续性也使得其分析出的客流特征存在一定的误差。

随着智能公交系统在全国范围内的快速发展,IC卡的自动收费系统和GPS的自动定位系统得到广泛使用,利用IC卡数据和GPS数据进行公交客流OD的分析是一种全新的分析手段,其数据具有采集成本低、信息量大、数据准确可靠、时间连续等优点,更能反映居民公交出行行为特征[1]。

目前,已有一些对于利用公交IC卡数据和GPS数据进行客流特征的研究。

陈君[2]利用智能公交系统数据,提出一种根据早、晚高峰的出行频率判断公交通勤乘客以及其OD分布的方法,但是该方法仅适用于通勤乘客的判断;李海波,陈学武[3]利用公交IC卡和AVL数据建立了不同公交出行链的下车站点推导模型;章玉[4]在其硕士论文中利用IC卡数据和GPS数据,对北京市乘客公交出行乘车距离分布进行研究,由此推断出乘客的下车站点。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于公交IC卡数据的乘客出行时间特征研究李海波 陈学武 陈峥嵘【摘要】公交乘客出行特征是公交规划、设计和运营管理的重要依据。

本文以苏州市的公交IC优惠卡数据为例,详细介绍了公交IC卡数据的数据结构和数据内容,以及公交IC卡数据的清洗方法。

基于公交客流的时变特征,将一天划分为7个典型时段,建立了公交乘客出行时间分布数据集。

然后采用经典的k均值聚类算法,对苏州市公交IC优惠卡乘客的出行时间分布模式进行了分类。

并以此为基础,分析了公交IC优惠卡所服务的三大人群的出行时间特征。

【关键词】公交IC卡;出行时间分布;k均值算法;聚类分析;出行时间特征1引言自上世纪90年代开始,公交IC卡开始应用于城市公共交通自动收费系统。

截止至2012年,我国公交卡累计发行量已经达到1.8亿张。

其中,北京和上海的公交IC卡发行量均已超过4000万张。

公交IC卡收费系统的广泛应用,不仅为公交乘客出行提供了便利,同时系统的运行积累了大量的数据,为公交客流分析提供了全新的途径[1, 2]。

目前国内外针对公交IC卡数据的研究,主要是宏观层面的公交客流OD推导和微观层面的乘客出行行为研究。

具体来说,在公交客流OD推导方面:陈学武等[3]对单一IC卡数据条件下的公交乘客的出行起点、换乘站点和出行讫点的判断方法进行了论述;章威等[4]引入车辆GPS定位数据,提出了基于GPS与IC卡数据的公交OD推导方法;Alex Cui[5]综合考虑了公交自动收费系统、自动定位系统和乘客自动计数系统的数据,建立了单条线路的OD和换乘OD的推导算法;高永等[6]从连续两次刷卡的时间间隔入手,提出了一种基于IC 卡数据的公交换乘识别方法,并深入分析了该方法的影响因素以及换乘识别结果的应用方法;彭晗等[7]通过对公交IC卡大量信息的处理,得到了城市公交线路间的换乘量和换乘矩阵。

在乘客出行行为方面,Bruno Agard等[2]采用聚类分析方法对公交IC卡乘客进行了分类研究;Sanggu Lee等[8]分析了普通乘客的出行时间特征和换乘站点分布特征;Hiroaki Nishiuchi等[9]对公交乘客出行模式的时空变化特征。

2公交IC卡数据本文研究所采用的是苏州市的公交IC优惠卡数据,数据时间范围是2013年05月04日(星期六)至2013年05月31日(星期五),共4周时间。

2.1数据结构一般而言,公交IC卡原始数据包含了涵盖持卡者信息、消费信息、所乘线路信息和所乘车辆信息等多种信息在内的数十个字段。

本文根据研究需要,从苏州市的公交IC优惠卡基金项目:国家重点基础研究发展计划(2012CB725402)原始数据中筛选出卡编号、数据类型、消费日期、消费时间、线路编号和汽车编号等6个字段。

其中,数据类型的第一个字母代表卡类型,第二个十六进制数字代表持卡者的登记居住区域。

公交IC卡数据中各字段的详细含义如下表所示:表1 苏州市的公交IC优惠卡数据中各字段的含义字段含义卡编号公交卡的唯一编号数据类型第一个字母:公交卡的类型,分为爱心卡、老年月票卡、高龄免费卡、学生月票卡和教育免费E卡,具体如表2所示第二个十六进制数字:公交卡登记的居住区域,分为平江区、高新区、园区、吴中区、相城区、沧浪区和金阊区消费日期刷卡上车的日期,格式为YYYY-MM-DD消费时间刷卡上车的时间,24小时格式线路编号公交线路的编号汽车编号公交车辆的编号2.2卡类型如上文所述,苏州市的公交IC优惠卡分为爱心卡、老年月票卡、高龄免费卡、学生月票卡和教育免费E卡五类,服务于残障人士、老年人和学生三大特殊人群。

其中,爱心卡、高龄免费卡和教育免费E卡享受免费乘坐公交车的优惠,老年月票卡和学生月票卡则需要缴纳一定的月使用费,但是不限制使用次数。

苏州市公交IC优惠卡的卡类型分类详见表2:表2 苏州市公交IC优惠卡的分类卡类型服务人群使用限制爱心卡 70周岁以下的残疾人免费使用老年人老年月票卡 60~69周岁的老年人月使用费20元高龄免费卡年满70周岁的老人免费使用学生学生月票卡6~18周岁中小(含技校、职高)学生月使用费20元教育免费E卡义务教育阶段学生免费使用2.3数据清洗在公交IC卡数据的采集、传输和存储过程中,会不可避免地产生不完整的数据、错误的数据或重复的数据。

根据苏州市公交IC卡数据的实际情况和研究的需要,本文通过数据格式检查、卡类型一致性检查和代刷记录识别三个步骤来清除公交IC卡原始数据中的问题数据。

①时间格式检查。

即通过逐条记录判断,筛选出显示时间超出正常时间范围(如“24:43:01”),或字段内含有非数字字符(如“A5:42:BC”)的时间格式错误的数据,并予以删除;②卡类型一致性检查。

在正常情况下,一个卡号对应一个卡类型。

但是由于系统错误或持卡者信息更新等原因,会发生一个公交IC卡卡号对应多个卡类型的现象。

由于该类错误仅涉及极少部分的公交IC卡,因此本文直接删除问题卡号所对应的刷卡记录;③代刷记录识别。

本文研究中默认公交IC卡是与公交乘客一一对应的,而代人刷卡所产生的刷卡记录并不是公交IC卡持卡者的出行记录,故应予以删除。

本文以30s作为阀值进行代刷记录的判断,即同一张公交IC卡在同一辆公交车上的多次刷卡记录中,若其中两条连续刷卡记录的时间间隔少于30 s,则认为第二条刷卡记录为代刷记录。

图1 公交IC卡数据清洗流程通过数据清洗,共删除27708条问题记录,最终得到约1319万条出行记录,平均每周3298467次出行。

由于问题记录仅占原始数据的0.2%,故可以认为删除问题数据不会影响本文的研究结果。

表3 公交IC优惠卡数据清洗情况汇总数据清洗阶段IC卡用户 IC卡记录个数百分比条数百分比原始数据361688 100% 13221576 100% 时间格式检查- - 1800.001%卡类型一致性检查416 0.1% 27250 0.2% 代刷记录识别- - 2780.001%清洗后样本361252 99.9% 13193868 99.8%3方法与数据集本文拟通过聚类分析方法的运用,挖掘公交IC卡乘客的出行时间特征。

3.1聚类分析聚类分析(Cluster Analysis)是一种将研究对象分为相对同质的群组的统计分析技术。

聚类分析也叫分类分析或数值分类。

聚类分析是一种探索性的分析,在分类的过程中,不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。

聚类分析的方法有多种,其中k均值(k-means)算法是聚类分析的一种经典算法。

自James MacQueen在1967年首次提出k均值算法后,该算法在科学研究和工业应用中得到了广泛运用。

k均值算法的主要思想是,将各个聚类子集内的所有数据样本的均值作为该聚类的代表点,通过迭代过程把数据集划分为不同的类别,使得评价聚类性能的准则函数达到最优,从而使生成的每个聚类内紧凑,类间独立。

k均值算法不适合处理离散型属性,但是对于连续型具Serv 3.2 要比形似00:017:3峰时根据05月整理布存其中具有较好的聚由于研究所ver 数据库存数据集构造如图2所示比周末的早晚似两个高峰峰00-06:00,T230~20:00和T 时段,T5(15据上文的时段划段所示的数据以卡编号“31日的4理后得到7个存在很大的差中,周日则仅聚类效果。

同所使用的公交存储公交IC 卡造示,苏州市的晚高峰显著。

峰型的组合。

2:06:00~08:0T7:20:00~25:00~17:30)分,统计公交i T 的平均出行据集。

数据集“2777605333周时间内,个出行时间分差异,工作日仅有T4时段有时,该算法在交IC 卡数据卡数据,使用的公交IC 优惠但是值得注基于以上特00,T3:08:024:00。

其中,属于晚高峰图2 苏州市IC 优惠卡数据行次数,最终得集中的每一行36”(教育免共计出行24分布数据。

从表的出行主要集有出行,且平在处理大数据据的时间跨度用C#编程语言惠卡客流具有意的是,工作特征,本文将00~10:00,T ,T2(06:00峰时段。

市公交IC 优惠卡据中的各个卡号得到1755838个行代表一个出免费E 卡)为4天,产生出表中数据可知集中在T6时平均出行次数据集时,具有较长,数据量言来进行公交有明显的早晚作日优惠卡客将一天划分成T4:10:00~150~08:00)和卡客流时变图号在一周中不同个的出行时间出行时间分布为例:在20出行32次。

根知,该学生在时段,周末的数仅有0.5有较高的时间量庞大,因此交IC 卡数据的晚高峰,且工客流的早高峰7个时间段5:00,T5:15T3(08:00~1同日期(星期一分布数据,构成样本。

013年05月根据本文的数在工作日和周的出行分布在次/日。

间效率。

此本文采用的预处理。

工作日的早晚峰峰型比较特段,分别为T 5:00~17:30,10:00)属于一至星期日)不成04日至201数据集构造方周末的出行时在T4至T6时SQL晚高峰特殊,T1:T6:早高不同时13年方法,间分时段。

表4 公交IC卡乘客出行时间分布数据集示例卡编号数据类型星期T1 T2 T3 T4 T5 T6 T727776053336 TA 六0 0 0 0.5 0.251.25 027776053336 TA 日0 0 0 0.5 0 0 0 27776053336 TA 一0 0 0 0 0 1 0 27776053336 TA 二0 0 0 0 0 1 0 27776053336 TA 三0 0 0 0 0 1 0 27776053336 TA 四0 0 0 0 0 1 0 27776053336 TA 五0 0 0 0.25 0 1.25 0 注:T1为00:00~06:00;T2为06:00~08:00;T3为08:00~10:00;T4为10:00~15:00;T5为15:00~17:30;T6为17:30~20:00;T7为20:00~24:004公交出行时间特征4.1基于聚类的出行时间分布模式划分运用k均值算法对出行时间分布数据集中的175万条样本数据进行分类,将出行时间分布模式划分7类:聚类-1是7类中所含样本量最多(50.8%),覆盖公交IC卡用户最广(44.5%)的一个类别。

该类别的出行时间分布呈单峰型,即从T1时段到T7时段,出行次数先增加后减少,在T4时段(10:00~15:00)的出行次数最多。

但是由于该类别的日均出行次数较低,仅有0.84次,以致聚类-1中的出行量只有总出行量的22.6%。

总体而言,聚类-1的出行时间分布具有随机性和偶然性。

聚类-2是所有类别中唯一一个同时具有明显早晚高峰的类别,其中早高峰为T2时段(06:00~08:00),晚高峰为T5时段(15:00~17:30)。

相关文档
最新文档