轨迹数据挖掘：概述

合集下载

车辆轨迹预测技术及其在智能交通中的应用研究

车辆轨迹预测技术及其在智能交通中的应用研究随着科技的不断发展，智能交通系统原本只是一个高科技的概念，已经逐渐成为现实。

作为智能交通系统的核心技术之一，车辆轨迹预测技术在智能交通中的应用备受关注。

本文将探讨车辆轨迹预测技术的研究现状和应用前景。

一、车辆轨迹预测技术简介车辆轨迹预测技术是指基于历史数据以及车辆动态特性、路况等信息，利用数据挖掘、机器学习和人工智能等技术手段来预测车辆在未来一段时间内的运动轨迹。

车辆轨迹预测技术分为两种类型：单车轨迹预测和群体轨迹预测。

单车轨迹预测是指预测某辆车在未来的移动轨迹，而群体轨迹预测则是指预测某一群车在未来的移动轨迹。

二、车辆轨迹预测技术在智能交通中的应用研究1. 交通拥堵管理交通拥堵一直是城市交通管理的难点，而车辆轨迹预测技术可以通过对历史数据和实时路况信息的分析，预测道路拥堵的时间和地点，并为交通管理部门提供重要参考信息。

此外，车辆轨迹预测技术还可以帮助优化交通信号灯的控制，减少交通拥堵。

2. 自动驾驶技术随着自动驾驶技术的发展，车辆轨迹预测技术在自动驾驶技术中扮演着重要的角色。

在道路上，不同车辆之间的状态和轨迹都是相互影响的，通过车辆轨迹预测技术，自动驾驶车辆可以更加准确地了解周围环境和其他车辆的状态，在道路上行驶更加安全高效。

3. 停车场管理车场停车位的数量和车位的使用情况对停车场管理至关重要。

通过对车辆轨迹预测技术的应用，可以更加准确地预测停车场内的空位数量和车场的流量情况，从而解决车位资源相对短缺的问题，提高停车场的利用率。

4. 物流管理车辆轨迹预测技术还可以在物流管理中发挥重要作用。

通过对历史数据的分析和车辆轨迹的预测，物流公司可以更加准确地规划物流线路和时间，优化物流运输效率，提高服务质量和用户满意度。

三、车辆轨迹预测技术研究现状目前，车辆轨迹预测技术的研究已经取得了不少进展。

从预测方式角度来看，主要分为基于深度学习和基于传统机器学习算法两种类型。

轨迹数据可视分析研究_王祖超

第27卷第1期计算机辅助设计与图形学学报Vol. 27 No.1 2015年1月Journal of Computer-Aided Design & Computer GraphicsJan. 2015修回日期：2014-11-06. 基金项目：国家自然科学基金(61170204, 61232012), 国家“九七三”重点基础研究发展计划项目(2015CB352500). 王祖超(1988—), 男, 博士研究生, 主要研究方向为轨迹数据可视分析; 袁晓如(1975—), 男, 博士, 研究员, 博士生导师, 论文通讯作者, 主要研究方向为可视化与可视分析.轨迹数据可视分析研究王祖超, 袁晓如*(北京大学信息科学技术学院, 机器感知与智能教育部重点实验室北京 100871) (xiaoru.yuan@)摘要: 轨迹数据大量产生于交通、气象、生态和移动服务等领域. 有效地理解和利用这些数据不仅需要自动高效的分析方法, 也需要直观生动的可视化; 这两者相互结合形成了可视分析技术. 文中概述了轨迹数据可视分析中的主要方法和交互技术, 并介绍了一系列应用案例. 最后, 文中总结了轨迹数据可视分析研究中的问题和面临的挑战.关键词：可视分析; 轨迹数据; 交通数据; 移动数据中图法分类号：TP391Visual Analysis of Trajectory DataZuchao Wang and Xiaoru Yuan *(Key Laboratory of Machine Perception (Ministry of Education), School of Electronic Engineering and Computer Science, Peking University, Beijing 100871)Abstract: Large volumes of trajectory data are generated in transportation, meteorology, ecology and location based services. Effective understanding and utilization of such data require not only e cient automatic analysis, but also intuitive and vivid visualization. Visual analysis is the combination of analysis and visualization. In this paper, we will introduce the major methodologies and interaction techniques in trajectory visual analysis, fol-lowed by its applications. Finally, we summarize the problems and challenges in this research area.Key words: Visual Analysis; Trajectory Data; Transportation Data; Movement Data 轨迹数据描述物体的空间位置和属性随时间的变化, 它多见于交通、气象、生态和移动服务等领域. 分析和理解这些轨迹数据能帮助人们研究许多重要问题. 然而, 要从庞杂的轨迹数据中挖掘出清晰和结构化的知识并不容易. 尽管统计分析、机器学习等自动分析技术已经相当强大, 但这些技术通常要求数据本身完整、正确、静态和结构化, 且数据的语义和分析的目标也必须是清晰明确[1]. 在真实的数据分析中, 以上的条件往往达不到, 因此完全自动的分析往往得不到理想的结果. 人们逐渐认识到, 人的参与在数据分析中有着的巨大作用.可视分析结合了可视化、人机交互和自动分析, 并使数据分析过程透明化. 在一个典型的可视分析流程中[1], 系统将自动分析的结果通过可视化展示给用户, 用户通过人机交互技术评价、修改和改进自动分析模型, 从而得到新的自动分析结果. 在这一过程中, 由人来定义分析任务和识别复杂的模式, 由机器来存储和分析大量的数据. 分析结果的可视化则成为人与机器合作的桥梁. 可视分析技术使得人们可以从轨迹数据中得到更多、更有用的知识.10计算机辅助设计与图形学学报第27卷图1 轨迹数据可视分析的3种方法在进行可视分析前, 通常需要对轨迹数据进行预处理, 包括轨迹的切分重建、清理、压缩和存储. 特别是对于车辆轨迹数据来说, 一般还需要进行路网绑定处理来将轨迹的采样点对应到道路上. 这些预处理工作一般都通过自动算法完成[2–4].在可视分析中, 人们关注的研究对象一般包括移动物体、空间区域、时间特征和移动事件[5]. 而分析中会涉及各式各样的轨迹参数[6], 既包括最原始的位置、时间参数, 也包括派生得到的距离、方向、空间分布、加速度等参数. 基于这些参数可以定义出一系列移动特征, 并将它们分为一般特征和行为特征. 其中一般特征适用于所有轨迹, 但缺少语义信息; 而行为特征通常对应了移动物体的具体行为, 有很强的语义性. 在不同的应用场景中可以定义不同的行为特征.在过去几十年间, 国内外的研究者在轨迹数据可视分析方面做了大量的研究工作, 其中涉及的可视分析方法多种多样. 如图1[7]所示, 根据Andrienko 等的总结[7]按照可视化在分析流程中位置的不同, 相关方法大体可以分为3种：直接可视化. 一一将每条轨迹绘制出来. 聚集可视化. 先计算轨迹的聚集数据, 然后再绘制这些聚集数据.特征可视化. 先计算出轨迹的特征, 然后通过直接或者聚集的方法绘制这些特征.近年来, Andrienko 等相继发表了轨迹数据可视分析的英文综述论文[8]和英文著作[5]. 本文将在其基础上进行进一步总结, 并以中文进行介绍. 相较于Pu 等[9]的中文综述论文, 本文加入了许多近年来的新工作, 并将更详尽地介绍了各类可视分析方法, 总结目前研究的问题和面临的挑战. 本文将更多关注可视化的部分, 关于自动分析的部分可以参考Zheng 等的著作[4].本文将依次介绍轨迹数据的3种可视分析方法, 以及交互方法; 并介绍轨迹数据可视分析的应用案例, 以及相关研究面临的主要问题与挑战; 最后进行总结.1 直接可视化直接可视化是最基本的可视分析方法, 它将轨迹数据一一绘制出来, 并显示给用户观察. 在这种方法中, 计算机做的主要是“可视”的部分, 而“分析”大部分依靠人来完成. 直接可视化的优点如下：几乎不对数据做任何假设和建模, 因此可以较好地容忍数据中的噪音和异常值.不要求有明确的分析任务, 因此很适合进行探索式分析.不需要进行特别的计算, 结果简单明了, 而且最准确地保留了数据中的信息.方法简单直接, 易于编程实现. 然而, 由于直接可视化方法过于直接, 它存在以下缺点：不适用于大量轨迹的分析, 当轨迹很多时, 相互间的遮挡将非常严重.第1期王祖超, 等: 轨迹数据可视分析研究 11人工分析相当漫长, 并且不够系统, 会漏掉许多特征.用户需要完成大部分的分析工作, 任务繁重.用户有时不知道需要观察和分析什么. 用户的分析过程有时候难以重现, 结果也难以评价.直接可视化方法可以进一步分为位置动画、路径可视化、时空立方体、时间轴可视化以及平行坐标.位置动画就是将移动物体的位置变化通过动画的方式播放出来. 移动物体的实时位置通常用一个点、方形或图标表示, 后面可以带一个小尾巴提示方向. 这种方法最为生动直观, 并且广泛应用. 例如, 图2a 所示为OpenDataCity [10]根据会场的无线网络记录制作了一个参会者的位置动画; 其中每一个点表示一个参会者, 其位置表示网络接入点. 当参会者在会场移动时, 小点会变成短线, 在不同的接入点之间飞来飞去. 动画方法强于展示数据和验证分析结果, 但是一般不适合分析比较.图2 轨迹数据的直接可视化路径可视化将轨迹路径绘制成地图上的一条折线, 以突出轨迹的空间位置信息. 这种方法的应用十分广泛, 包括车辆轨迹[11-12]、图2b 所示船舶轨迹[13]、飓风轨迹[14]、人的轨迹[15-16]. 对于飞机[17]或者海洋生物[18]的轨迹, 其高度或深度也很重要, 这时可以将轨迹路径绘制成三维折线. 为了显示轨迹的属性随着位置的变化, 人们可以使用折线的颜色[11]、高度[16]和纹理[18]等视觉编码. Tominski 等[19]将折线扩展成彩色条带, 并在高度方向将不同轨迹的条带堆叠起来, 以方便轨迹间的比较. 有时为了表示移动物体位置的不确定性, 可以将某一时刻的位置点扩展为位置带, 由此来表示其处于各个位置的可能性[20]. 有些移动物体的路径完全固定, 例如公交车, 这时人们可以不用地图, 而使用普通的折线图表示其属性随位置的变化[21].时空立方体技术[22]可以精确地表现二维轨迹位置随时间的变化. 如图2c [24]所示, 该技术使用x 和y 轴表示轨迹的二维位置, z 轴表示时间. 这样, z 方向的斜率就大致表示了移动速度. 在时空立方体中, 人们可以比较容易地看到单条轨迹的高速运动和停止, 以及多条轨迹的相遇与分离. Geo-Time 软件[23-24]在时空立方体技术的基础上, 进一步允许用户标注轨迹事件, 并可以将这些事件以文本的形式导出. 尽管时空立方体技术有众多的优点, 但由于轨迹间严重的相互遮挡, 它通常只能支持少数轨迹的可视分析.时间轴可视化主要表现轨迹的属性或位置随时间的变化. Tominski 等[19]使用时间条带图表示车辆行驶速度随时间的变化, 如图2d [19]所示. 而Wang 等[25]试验了多种轨迹属性的时变可视化, 并使用12计算机辅助设计与图形学学报第27卷了三维的时间折线图. Thudt 等[26]进一步尝试了使用时间轴表示二维轨迹位置的变化; 其主要做法是先对轨迹分段, 然后将每段轨迹单独绘制在一个圆形的小窗口中, 最后将这些小窗口排列在时间轴上.平行坐标(parallel coordinates)[27]是一种通用的高维数据可视化方法, 它可以展示轨迹在不同属性上的数值分布, 以及不同属性之间相关性. 如图2e [11]所示, Guo 等[11]在研究路口交通轨迹时, 使用平行坐标绘制了每条轨迹的多种属性, 包括起始时间、移动物体类别、平均速度、最大加速度等. 他们研究了这些属性之间的关系, 并通过属性筛选寻找到了一些异常交通事件. Lundblad 等[13]则使用平行坐标研究了气象条件对船舶航行过程的影响.2 聚集可视化当轨迹数据较大时, 直接可视化由于轨迹间严重的相互遮挡问题已经不适用. 这时, 人们可以考虑使用聚集可视化. 在这种方法中, 轨迹数据先经过聚集计算得到一些聚集数据, 然后这些聚集数据被显示给用户观察. 聚集可视化的优点如下：可以支持大量轨迹的可视分析.可以直接回答许多涉及聚集特性的问题. 计算机分担了一些低层次的分析任务, .同时, 聚集可视化存在一些缺点：聚集计算需要保留一些重要信息, 同时丢弃一些不重要的信息. 然而, 有时用户并不清楚哪些信息是重要的, 尤其是在探索性较强、分析任务不明确时.聚集数据有时不容易理解, 例如, 北京市交通流量最大的地区一天内的最小流量.聚集可视化难以研究轨迹间的相互作用和相对运动[28].聚集计算需要额外的编程实现. 轨迹数据的聚集计算在思想上和数据挖掘中的空间数据立方体[29]很相关, 它们都是基于一个多维数据模型, 并在每个维度上对数据做统计. 对于轨迹数据, 这些维度包括时间(记为T )、空间(记为S )、轨迹的路径(记为R)以及每个轨迹记录点上的属性值(记为A). 基于所选维度的不同, An-drienko 等[28]将聚集可视化方法分为时空和属性聚集(S×T×A )、出发点-目的地聚集(S×S )和路径聚集(R ). 下面将一一介绍这3种方法.2.1 时空和属性聚集时空和属性聚集方法可以只作用于单个维度, 如空间聚集(S )、时间聚集(T )、属性聚集(A ); 它也可以作用于多个维度, 如时间属性聚集(T×A )、空间属性聚集(S ×A )、时空聚集(S×T )和时空属性聚集(S ×T ×A ). 它们的主要区别在于是否包含空间维度的聚集, 因此本节先介绍时间和属性聚集, 再介绍基于空间的聚集.2.1.1 时间和属性聚集时间聚集主要关注轨迹数目随时间的变化, 这在许多系统中都属于基本功能. 如图2a 所示, OpenDataCity [10]制作的位置动画界面下方的时间轴内嵌一个蓝色的直方图, 表示参会者数量随着时间的变化;用户可以利用该直方图直接跳跃到他感兴趣的时间段. Guo 等[11]的路口交通轨迹分析系统中也有类似的时间轴.属性聚集主要关注轨迹属性的分布以及属性之间的相互关系, 一个例子是Willems 等[30]设计的船舶安全监控系统. 如图3a [30]所示, 界面左侧的直方图显示了船舶数据在单个属性上的分布, 而中央的轨迹属性关联表(trajectory contingency ta-ble)则显示了一对属性的相互作用.时间属性聚集研究时间和属性之间的关系, 主要是属性分布随时间的变化. Zhao 等[31]的活动圆环图(activity ringmap)可以显示人们不同类型活动的强度随时间的变化; Liu 等[12]则通过类似的设计来表示出租车数量和速度随时间的变化; Guo 等[11]使用主题河技术(ThemeRiver) [32]表现一个路口不同类型的交通流量随时间的变化; 他们还在主题河中嵌入了一些白色小图标, 用来表示移动方向.不同于以上工作, Landesberger 等[33]关注的是个体属性随时间的转换. 以人的活动轨迹为例, 他们关心的是, 在某段时间内有多少人的状态属性从“工作”转变为了“下班”, 之后又有多少人的状态属性从“下班”转变为了“在家”? 如图3b [33]所示, 他们采用了一个类似于平行集合(parallel sets) [34]的设计方式, 其中每根轴表示一个关键的时间点, 而相邻轴之间的条带表示了状态变化. 条带前后的颜色对应了前后的状态, 而条带宽度则对应发生此种状态变化的人数.第1期王祖超, 等: 轨迹数据可视分析研究 13图3 轨迹数据的时空和属性聚集可视化2.1.2 基于空间的聚集空间聚集主要关注轨迹的空间密度绘制, 通常它需要先将空间划分为有限个互不重叠的区域, 然后分别统计每个空间单元内轨迹或位置点的密度, 最后将密度用各种形式展示出来. 其中颜色为最常用, 如图3d, 3e, 3g, 3i, 3j, 3k 所示; 此外, 还可以使用如图3f, 3h 所示圆圈的大小、图3c 所示柱状图的高度或者三维曲面的高度等形式.不同空间聚集方法的主要区别在于它们所使用的空间划分方法的不同. 最简单的情况是, 原始数据中的空间位置仅限于一些有限的预定义的地点, 例如蓝牙传感器或无线网络接入点, 这时就不14 计算机辅助设计与图形学学报第27卷需要进行空间划分. 图3c所示赛车数据的可视化[35]就是这样一个例子, 整个赛车场安装有17个蓝牙传感器, 可以记录经过的赛车; 其中红色的柱状图表示赛车经过每个传感器的次数. 为了显示每个预定义地点的时间信息, Bak等[36]设计了生长圆环图(growth ring map). 如图3f[36]所示, 其研究的是RFID传感器记录的小鼠行为数据, 当小鼠经过传感器时就会产生一条记录. 图中每个圆形图案对应一个传感器, 其大小表示小鼠经过的总次数, 颜色的深浅表示经过的时间.大多数时候, 轨迹数据中的空间位置是任意的, 这时必须先进行空间划分. 空间划分的方式包括按照屏幕像素划分、按照均匀网格划分、按照行政区域划分和按照数据本身的密度进行多边形划分. 如果按照屏幕像素划分, 那么每个像素就对应了一个区域. 空间热度图(heat map)是这种划分下的一种典型的可视化方法, 它简单直接, 应用最为广泛; 不过, 它存在一些不足. 图3d[37]所示为美国特拉华海岸的船舶轨迹的热度图, 如图右下方的颜色过于均匀, 缺少信息量; 而左上方的颜色又比较杂乱, 表现出的热度很不连续, 而这种不连续一般是采样不足所造成的假象. Willems等提出的密度图(density map)[38]在这2点上要优于热度图, 如图3e[38]所示密度图使用核函数(kernel)对原始的密度进行了平滑. 特别地, 这里通过使用2种不同大小的核, 可以得到一个在空间上平滑变化的密度场D1和一个显示轨迹细节的密度场D2. 前者映射成颜色, 保证了颜色的连续性; 后者映射成高度, 结合光照效果能显示出轨迹细节. 在后续的工作[39]中, 密度图支持使用不同颜色显示多个密度场, 这样就可以在密度图中显示时间和属性信息[39]. 他们还增强了密度图的表达性和灵活性[40], 允许用户对轨迹进行筛选, 自己编辑公式计算新的属性值, 并且自己定义密度图的计算和渲染流水线. 此外, Peters等[41]尝试在密度图中添加更明显的方向信息, 而Demsar等[42]则尝试将密度图应用于时空立方体, 但效果都不理想. Willems等[43]通过用户实验研究了密度图在轨迹分析中的实际效果, 结果显示密度图主要强于表现轨迹中的停止特征; 而对于其他一些特征的表现, 密度图可能略差于动画或者时空立方体技术.当用户需要更高层次的密度时, 可以采用均匀网格划分. 例如, Andrienko等将意大利米兰城划分成均匀网格区域, 并绘制了各区域的交通流方向分布和时间分布[44]. 图3i[44]所示为他们设计的用来表示交通流时间分布的马赛克图表(mosaic diagram). 他们在米兰城的每个区域内镶嵌了一个矩形的马赛克图案, 该图案有7列和24行, 分别对应一周的7天和一天的24小时, 颜色表示该区域在相应时刻的平均车辆行驶速度. 进一步, 他们对时间和空间进行了聚类分析[45]：可以将不同的区域按照时间特征进行聚类, 也可以将不同的时间段按照空间特征进行聚类. Pu等的工作[46]参考了马赛克图表, 使用环形图案来表示城市各区域车辆密度或者平均行驶速度随时间的变化. 用户也可以选择按照行政区域划分. 如图3j[47]所示, Fer- reira等[47]绘制了纽约市不同行政区域的出租车上下客次数; Zhao等[31]在行政地图上嵌入环形图案, 用以表示人们在不同区域的活动强度随一天24小时的变化, 如图3k[31]所示. 以上的空间划分方法都未考虑数据本身的空间分布, 因此可能造成一些不理想的情况. 例如, 可能只有少数区域密度高, 而其他大部分区域密度极低. 此外, 数据自然形成的高密度区域更接近多边形的, 而不是均匀网格或者行政区域. 为了解决以上问题, 如图3g[48]所示, Andirenko等[48]发展了一种基于数据本身空间分布的多边形划分方法. 该方法首先提取所有的轨迹记录点, 或者只是其中的关键点; 然后, 对这些点进行密度聚类, 并按照得到的点类位置对空间做Voronoi划分. 在后续的工作中[49], 他们将这种划分方法运用于分析手机通话数据和Flicker上的照片数据. Scheepens等[50]将某一时刻所有的船舶按照位置分成了许多簇, 对于每一簇统计出了其船舶类型、航行方向和移动比例的分布, 并用一个类似饼图的符号表现出来, 如图3h[50]所示. 该算法保证了这些绘制出来的符号不会相互遮挡. 2.2出发点-目的地聚集出发点-目的地聚集考虑的是物体在空间区域之间的移动, 例如, 从A区域到B区域平均每天有多少车辆经过? 这类聚集方法同样要求空间区域的数量是有限的, 否则需要先进行空间划分. 接着, 该方法会计算任何一对区域之间的移动特征(例如流量). 这样, 轨迹数据实际上已经被转化成出发点- 目的地数据(origin-destination data, OD). OD数据描述的是物体在一对出发点、目的地之间的移动, 如人口迁移数据; 它和轨迹数据的区别是它不记录具体的移动路径. 因此, 接下来任何OD数据的可视化方法都可以使用, 包括流向图(flow map)、第1期王祖超, 等: 轨迹数据可视分析研究 15OD 矩阵(OD matrix)和OD 图(OD map).流向图最为直观, 它在地图上的区域之间直接绘制有向边, 并用边的宽度表示流量大小. To-bler [51]很早就研究了流向图, 并绘制了美国的人口迁移地图, 其中边的方向用箭头表示. 但是, 如图4a [52]所示, 流向图中的边经常会形成严重的相互遮挡,这是流向图的主要问题. 为了减少边遮挡, 研究者采取了各种各样的方法. Tobler [51]尝试了不同的箭头画法, 并提出过滤掉一些流量小的边. Guo [53]通过多层次的空间区域划分方法来控制边的数量. Selassie 等[54]采用了边捆绑(edge bundling)技术、通过弯曲边让相似的边相互靠近形成一束, 以减少相互遮挡, 如图4b [54]所示. 目前大部分边捆绑技术都不支持边的宽度, 因此无法用宽度表示流量大小. 但是, 如果用户选定一个中心区域, 只看和该区域相关的边, 那么已经有技术可以利用边的宽度了[55]. 流向图的一个变种是弧线图, 其中不同的空间区域并非画在地图上, 而是一字排开, 区域之间使用弧线表示流[56].流通常有不同的属性, 还会随时间变化. 对于属性信息, 最常用的方法是用不同颜色的箭头表示不同属性的流. 然而, 这种方法每次只能表现一个属性, 对于有多个属性的流, 它无法同时表现所有属性. 针对这个问题, Guo [53]对所有的流按照高维属性特性进行了聚类, 用箭头的颜色表示每一类流.对于时间信息, Boyandin 等[57]将流向图的3部分出发点、目的地和边分别画在3个界面中; 其中, 出发点和目的地分在左右2张地图上, 所有的边则按照时间对齐形成1张表放在中间. 这样可更清晰地表示流的时间信息, 并可以支持筛选排序等的分析任务.OD 矩阵的方法来自图的矩阵表示[58]. 如图4c [44]所示, Andrienko 等[44]在研究意大利米兰的交通轨迹数据时, 不仅使用了界面左侧的流向图, 还使用了右侧的OD 矩阵. 在矩阵中, 每一行和每一列对应一个区域, 而每个单元格对应一对区域间的流. OD 矩阵对于区域之间聚类性的显示比较清晰, 但其在空间信息的表现上很不直观.Wood 等[59]提出的OD 图利用嵌套的思想对OD 矩阵空间信息不直观的问题进行了改进. 如图4d [59]所示, 他们在研究美国人口迁移数据时, 将美国按照黑色的规则网格划分成一系列矩形区域, 得到的区域自然排列成了一个二维的矩阵; 接着, 在每个单元格内再嵌套这样一个二维区域矩阵. 这时, A 区域单元格内嵌套的B 区域单元格就对应A 到B 的流. 在其后续的工作[60]中, 还将该方法用于研究英国伦敦的公共自行车数据. OD 图本来只适用于按照规则网格划分的空间区域, 但Slingsby 等[61]在研究爱尔兰不同行政区之间的人口迁移时, 手动将这些区域排列成矩阵; 这样, 就将OD 图运用到了非规则网格划分的空间区域上.图4 轨迹数据的出发点-目的地聚集可视化16 计算机辅助设计与图形学学报第27卷2.3路径聚集前面介绍的聚集方法都是建立在事先对空间、时间或者属性进行划分的基础上, 而路径聚集则与它们不同. 路径聚集研究轨迹在路径上的分布, 但这些路径事先是未知的. 该方法先通过聚类算法得到经过不同路径的轨迹, 再将每类轨迹的路径显示出来. 比较有代表性的轨迹数据聚类算法包括基于概率的聚类[62]、基于分割的聚类(可以使用传统的K-means方法)、基于密度的聚类[63]、基于子轨迹的聚类[64]和基于流场的聚类[65]. 其中, 基于分割和密度的聚类使用最为广泛, 它们都需要预先指定合适的轨迹相似性函数(或者距离函数)[66]. 另外, 针对轨迹数据规模很大无法全都放在内存中、大部分的聚类方法都无法运行的情况, Andrienko等[67]提出了一些解决方案.在实际问题中, 面对复杂的轨迹数据, 完全自动的聚类算法往往不能得到满意的结果. 因此, 一些可视化研究人员发展了交互式聚类方法：如Rinzivillo等[68]的渐进式的轨迹聚类系统, 允许用户在聚类过程中依次采用多种相似性函数进行不同层次的聚类; 用户也可以选择一些轨迹或者一些已有的聚类, 手动将其指定为一类或多类. 图5a[68]展示了他们的聚类结果, 其中得到的不同类别的轨迹是用不同颜色绘制出来的. 而Schreck等[69]开发了一个基于SOM的半监督轨迹聚类系统, 用户可以在SOM聚类开始前指定神经元和参数, 运行中动态观察新出现的模型并评价当前聚类质量, 完成后手动修改结果, 图5b[69]所示为其系统界面.图5 轨迹数据的路径聚集可视化对于轨迹聚类结果, 最直接展示方法是如图5a所示把相应的轨迹一一画出来[68]; 然而, 这时轨迹间的相互遮挡经常会很严重. 因此, 许多时候人们会绘制一类轨迹的聚集结果. 如图5c[70]所示,Buliung等[70]为一类轨迹构建一个多边形包围盒,也可以进一步显示轨迹中心的移动趋势. An-drienko等[67]则利用出发点-目的地聚集的方法, 使用流向图显示每一类轨迹, 如图5e[67]所示. 如果聚类本身是基于某种模型, 那么对每一类轨迹可以显示对应的模型. 如图5d[65]所示, Ferreira等[65]的聚类算法将每一类轨迹拟合成一个流场; 因此,可以将相应的流场显示出来作为这一类轨迹路径的概括.3特征可视化可视分析最终的目的是帮助人们发现和分析数据中的特征, 从而获得知识. 如果人们所关心的特征比较确定并且能计算出来, 那么可以考虑特征可视化的方法. 特征可视化先通过分析轨迹数据提取出特征, 再将这些特征绘制出来.特征可视化有一系列优点：可以支持大量轨迹的可视分析.可以直接研究用户最关注的特征, 在分。

轨迹系列总结

轨迹系列总结1. 概述轨迹系列是一种用于记录和展示物体移动路径的技术。

它广泛应用于地理信息系统、航空航天、物流管理等领域。

本文将总结轨迹系列的主要特点、应用场景和常用的数据分析技术。

2. 特点轨迹系列具有以下主要特点：•时序性: 轨迹数据是按照时间顺序记录的，可以反映物体在不同时间点的位置信息。

•空间连续性: 轨迹数据的位置信息是空间上连续的，可以描绘出物体的移动路线。

•多维度性: 轨迹数据通常包含经度、纬度、高度等多个维度的信息，能够提供更多的位置详细信息。

•数据量大: 轨迹数据通常包含大量的位置点，需要借助专业的技术和算法进行有效存储和处理。

3. 应用场景轨迹系列在许多领域都有广泛的应用，以下是一些常见的应用场景：3.1 地理信息系统在地理信息系统中，轨迹系列常用于地图服务、行车导航和路径规划等功能。

用户可以通过轨迹系列数据查看地理位置的变化，并进行路线规划以及交通状况分析。

3.2 航空航天航空航天领域使用轨迹系列来记录飞行器的飞行轨迹，以实时监控飞行状态和进行飞行性能分析。

轨迹系列数据还可用于预测飞机的位置和航段，提高飞行安全性。

3.3 物流管理在物流管理中，轨迹系列常用于货物追踪和运输路径优化。

通过分析运输车辆的轨迹数据，可以优化送货路线、提高配送效率，并提供实时的物流服务。

3.4 运动轨迹记录轨迹系列还可以用于记录运动员的训练轨迹，如跑步、骑行等。

通过分析运动员的轨迹数据，可以监测运动状态、评估身体状况，并制定科学的训练计划。

4. 数据分析技术对轨迹系列数据进行分析可以揭示出许多有价值的信息。

以下是一些常用的数据分析技术：4.1 轨迹可视化轨迹可视化是将轨迹系列数据以地图或图表的形式展示出来，用于直观地观察物体的移动路径和速度变化。

常见的轨迹可视化工具包括ArcGIS、QGIS和Matplotlib等。

4.2 轨迹聚类轨迹聚类是将相似的轨迹归类到一起，用于发现轨迹数据中的规律和模式。

常用的聚类算法有K-means、DBSCAN和OPTICS等。

行人轨迹预测综述

行人轨迹预测综述全文共四篇示例，供读者参考第一篇示例：行人轨迹预测是计算机视觉领域中一个重要的研究方向，其目的是根据行人的历史轨迹数据预测其未来的移动路径。

行人轨迹预测技术在实际场景中有着广泛的应用，比如智能交通系统、人机交互、自动驾驶等领域。

本文将综述当前行人轨迹预测的研究现状，以及存在的挑战和未来发展方向。

一、行人轨迹预测的意义与挑战行人轨迹预测对于实现智能交通系统、提高人机交互体验、促进自动驾驶技术的发展具有重要意义。

通过对行人的轨迹进行准确预测，可以有效地提高交通系统的效率和安全性，避免交通事故的发生。

行人轨迹预测还可以帮助机器人等智能设备更好地理解人类行为，提升其与人类的交互效果。

行人轨迹预测面临着许多挑战。

行人的移动行为受到多种因素的影响，如环境、社会文化等，预测其轨迹具有一定的复杂性。

行人轨迹数据通常存在不确定性和噪声，如何准确地处理这些数据成为了挑战。

行人轨迹预测需要考虑多个相互作用的行人之间的关系，这增加了预测的难度。

当前，行人轨迹预测的方法主要分为基于规则的方法和基于数据驱动的方法两种。

基于规则的方法通常依靠人类对移动行为的理解和经验知识进行轨迹预测，但其准确性受到限制。

而基于数据驱动的方法则通过机器学习和深度学习等技术从历史轨迹数据中学习行人的移动模式，预测其未来的轨迹。

在基于数据驱动的方法中，常用的技术包括循环神经网络（RNN）、长短时记忆网络（LSTM）、卷积神经网络（CNN）等。

这些技术可以有效地捕捉行人之间的时空关系，提高轨迹预测的准确性。

一些研究者还提出了结合强化学习、注意力机制等技术的方法，进一步提升了行人轨迹预测的性能。

未来，随着深度学习等技术的不断发展和应用，行人轨迹预测的性能将进一步提升。

可以预见的是，行人轨迹预测技术将与智能交通系统、自动驾驶、智能家居等技术相结合，共同推动智能化社会的建设。

值得期待的是，行人轨迹预测技术将在未来的生活中发挥越来越重要的作用，为人类提供更加便捷、安全和智能的生活方式。

类自动车牌识别轨迹数据的伴随车辆组挖掘

Ａｂｓｔｒａｃｔ：ＡｕｔｏｍａｔｉｃＮｕｍｂｅｒＰｌａｔｅＲｅｃｏｇｎｉｔｉｏｎ（ＡＮＰＲ）ｄａｔａｉｓｅａｓｉｅｒｔｏｏｂｔａｉｎｔｈａｎｐｒｉｖａｔｅＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ（ＧＰＳ）ｄａｔａ，ａｎｄｉｔｃｏｎｔａｉｎｓｍｏｒｅｕｓｅｆｕｌｉｎｆｏｒｍａｔｉｏｎ，ｂｕｔｔｈｅｒｅｌａｔｉｖｅｌｙｍａｔｕｒｅＧＰＳｔｒａｃｋｄａｔａｍｉｎｉｎｇｗｉｔｈｖｅｈｉｃｌｅｇｒｏｕｐ
ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＡｐｐｌｉｃａｔｉｏｎｓ
ＩＳＳＮｌｏｏ１．９０８１
２０１７．１１．１０
计算机应用，２０１７，３７（１１）：３０６４— ３０６８，３０９４文章编号：１００１ — ９０８１（２０１７）１１－３０４— ６０５
王保全，一，蒋同海 ’ ，周喜，马博，赵凡，
（１．中国科学院新疆理化技术研究所，乌鲁木齐８３００１１；２．中国科学院大学，北京１０００４９；３．新疆理化技术研究所新疆民族语音语言信息处理实验室，乌鲁木齐８３００１１）（通信作者电子邮箱ｊｔｈ＠ｍｓ．ｘｊｂ．ａｃ．ｃａ）

轨迹预测综述

轨迹预测综述
轨迹预测是指通过对目标历史轨迹数据的分析和建模，预测该目标未来可能的运动轨迹。

在人工智能、自动驾驶、智能交通等领域得到广泛应用。

目前，轨迹预测技术主要包括基于物理学模型、基于统计学模型和基于深度学习模型三种方法。

基于物理学模型的轨迹预测主要基于牛顿力学和运动学原理，通过预测目标受到的外部力和其自身状态的变化，预测其未来运动轨迹。

该方法需要对目标的物理特性、环境因素等进行建模，具有较高的准确性，但受限于对物理模型的精确度和对环境的了解程度较大。

基于统计学模型的轨迹预测主要利用目标历史轨迹数据的统计
特征，如均值、方差、频率等，通过对这些特征进行分析和建模，预测目标未来运动轨迹。

该方法不需要对目标的物理特性和环境因素进行建模，具有较好的可扩展性和适应性，但受限于对历史数据的准确性和样本数量的影响。

基于深度学习模型的轨迹预测主要利用深度神经网络对目标历
史轨迹数据进行学习和建模，预测目标未来运动轨迹。

该方法不需要对目标的物理特性和环境因素进行建模，具有较高的准确性和可扩展性，但对数据质量和模型复杂度有较高的要求。

未来，轨迹预测技术将会在智能交通、自动驾驶、机器人等领域得到更广泛的应用，同时也需要进一步研究和发展，提高预测准确性和应用范围。

- 1 -。

车联网中的车辆位置定位与轨迹分析技术研究

车联网中的车辆位置定位与轨迹分析技术研究随着信息技术的快速发展，车联网以其强大的功能和无限的潜力成为了汽车行业的热门话题。

车联网的核心是通过无线通信技术实现车辆之间、车辆与基础设施之间的无缝连接和信息交互。

在车联网系统中，车辆位置定位和轨迹分析是至关重要的技术。

本文将就车联网中的车辆位置定位和轨迹分析技术进行研究。

一、车辆位置定位技术车辆位置定位技术是车联网系统中的关键技术之一，它可以精确地确定车辆在地球表面的位置。

现有的车辆位置定位技术主要包括全球卫星定位系统（GPS）、LTE定位、惯性导航系统（INS）和车载无线局域网（VANET）等。

1. 全球卫星定位系统（GPS）：GPS是目前最为主流和常用的车辆定位技术之一。

通过接收来自卫星的定位信号，GPS可以准确地确定车辆的经纬度坐标。

然而，GPS在高楼、密集城区和山区等特殊环境下信号容易受到干扰，造成定位精度下降。

2. LTE定位：LTE定位是利用4G网络中的测量值和信令进行车辆定位的技术。

相对于GPS，LTE定位可以在室内和复杂环境中提供更好的定位精度。

此外，随着5G网络的普及，车辆定位精度还将进一步提升。

3. 惯性导航系统（INS）：INS利用车辆上的加速度计和陀螺仪等传感器获取车辆的加速度和角速度数据，并结合车辆初始状态信息和地图数据，通过非线性滤波算法进行位置估计。

INS可以提供连续的定位信息，但在长期使用过程中会存在误差累积的问题。

4. 车载无线局域网（VANET）：VANET利用车辆之间的通信进行位置信息交换和共享，通过多个车辆的联合定位来获取准确的车辆位置。

VANET有很高的实时性和可靠性，但在车辆密集区域和通信质量较差的地区可能存在局限性。

二、车辆轨迹分析技术车辆轨迹分析技术是基于车辆位置定位技术的基础上，对车辆行驶轨迹进行挖掘和分析，以提供更多有益的信息和服务。

车辆轨迹分析技术主要包括轨迹数据采集、轨迹预处理、轨迹特征提取和轨迹数据挖掘等。

空间数据挖掘技术的基本原理与应用

空间数据挖掘技术的基本原理与应用在当今数据爆炸的时代，传统的数据处理方法已经无法满足日益增长的数据需求。

这时，空间数据挖掘技术应运而生。

空间数据挖掘技术是指通过对包含地理空间信息的数据进行挖掘和分析，从中发现隐藏在数据中的规律和关联，以支持决策和预测。

本文将介绍空间数据挖掘技术的基本原理和应用。

一、空间数据挖掘技术的基本原理1. 空间数据的特点空间数据包含了地理位置信息，与传统数据相比，其具有较高的维度和复杂性。

空间数据挖掘技术要求对地理位置信息进行有效的处理和分析，使其成为可应用于挖掘的数据形式。

2. 空间数据挖掘的主要任务空间数据挖掘的主要任务包括空间关联规则挖掘、空间聚类分析、空间预测和时空挖掘等。

其中，空间关联规则挖掘主要通过发现地理空间对象之间的关联关系，来揭示隐藏在数据中的规律。

而空间聚类分析则是将空间数据划分为不同的聚类群体，用于提取空间模式。

空间预测则是根据已有的空间数据，预测未来的空间变化趋势。

时空挖掘则是对时空数据进行综合分析，发现其中存在的模式和关联。

3. 空间数据挖掘的基本原理空间数据挖掘的基本原理包括数据预处理、特征提取、模式发现和结果解释等步骤。

在数据预处理中，首先需要对原始数据进行清洗、去重、缺失值处理等操作，以保证数据的质量。

然后，在特征提取阶段，需要从原始数据中提取出有效的特征，以支持后续的模式发现工作。

在模式发现中，可以运用分类、聚类、关联规则等方法，来发现隐藏在数据中的规律和关联。

最后，在结果解释阶段，需要对挖掘结果进行解释和评价，以便对决策和预测提供支持。

二、空间数据挖掘技术的应用1. 地理信息系统（GIS）中的空间数据挖掘GIS是一种整合了空间数据和非空间数据的信息系统，空间数据挖掘技术在其中有着广泛的应用。

比如，空间关联规则挖掘可以应用于定位设备的轨迹数据，发现不同地点之间的关联性；空间聚类分析可以将城市划分为不同的行政区域，为城市规划提供决策支持；空间预测可以对气象数据进行分析，预测未来的气候变化趋势等等。

面向大数据的时空数据挖掘综述

3.2生态环境
利用时空数据挖掘技术，可以对生态环境的变迁进行监测和分析，为环境保护和治理提供科学依据。例如，通过分析历史气候数据，可以预测未来气候变化趋势，为应对全球气候变化提供支持。
3.3社会安全
时空数据挖掘可以帮助政府部门和社会组织分析社会安全问题，如犯罪热点分析、公共安全事件预测等，从而采取有效的应对措施。
参考内容
基本内容
随着科技的快速发展，大数据技术已经成为现代社会中不可或缺的一部分。大数据技术主要涉及数据的收集、存储、处理和分析等过程，其中的数据处理和分析是大数据技术的核心。本次演示将主要讨论面向大数据的数据处理与分析算法的相关问题。
一、数据处理
大数据处理是一个对大量数据进行处理的过程，主要涉及数据的收集、清洗、整合和存储等方面。
2.1数据采集
时空数据采集是时空数据挖掘的首要环节，包括空间数据采集和时间数据采集。空间数据采集可以通过GIS技术、遥感技术、GPS技术等实现，而时间数据采集则需要收集不同时间点的数据，如历史数据和实时数据。
2.2数据预处理
时空数据预处理主要包括数据清洗、格式转换、投影转换等，旨在提高数据质量，为后续的数据挖掘打下基础。
谢谢观看
1、研究意义
时空数据挖掘是一种从大量时空数据中提取有用信息的过程，旨在发现数据的空间和时间关联模式、趋势和异常现象。通过对时空数据的挖掘，可以为城市规划、交通管理、生态环境、社会安全等领域提供决策支持，从而更好地应对各种挑战和问题。因此，时空数据挖掘具有重要的理论和应用价值。
2、技术与方法
5、结论
面向大数据的时空数据挖掘在多个领域具有广泛的应用前景，但也面临着一些挑战和问题。本次演示对时空数据挖掘的技术、应用领域、挑战和解决方案进行了综述。针对现有的研究不足和未来可能的研究方向，我们提出以下建议：进一步深入研究时空数据挖掘算法和模型的性能优化问题；加强时空数据挖掘在实际应用领域的探索和实践；时空数据隐私保护和安全问题；推动时空数据挖掘技术的普及和应用。

基于大数据的时空信息提取

基于大数据的时空信息提取近年来，随着大数据时代的到来，人类对于信息的获取、处理和分析能力也得到了极大的提升。

尤其是在时空信息方面，随着GPS导航、无人机等技术的发展，我们可以得到越来越精确的时空数据，这为时空信息的提取和分析提供了更加强大的工具。

基于大数据的时空信息提取，不仅可以应用于商业、城市规划、环境监测等领域，更能够改善人类生活质量，提升我们的生产力和社会发展水平。

本文将从数据来源、时空信息提取方法和应用三个方面进行分析和探讨。

一、数据来源大数据的时空信息提取的第一步，需要获取足够量、足够质量的数据。

目前，数据的来源主要来自于以下几个渠道：1.智能手机智能手机内置的GPS定位功能，可以记录日常生活中的人员现在位置、相关交通工具、使用时间等信息。

这些时空信息数据可以提供给商家用于消费者行为分析，或政府用于交通规划和城市规划。

2.摄像头随着摄像头安装的普及，在城市和农村，我们可以获取到许多独特的时空信息，例如车流量、道路状况、天气状况等，这些都可以为城市管理、公共安全、天气预报等领域提供宝贵的信息。

3.气象站气象数据源是关注城市空气质量、天气预警、环境监测等方面必不可缺的数据，通过分析大量的气象数据，我们可以建立起现实的天气预报，准确地判断短期内是否将发生有害天气现象，进而采取针对性的解决措施。

4.卫星遥感遥感数据通过卫星图像记录地球表面，可以广泛应用于环境变化监测、土地利用，以及植被分布等方面。

这些数据可以提供有关污染源的信息，提前预警自然灾害，优化土地利用等信息，对于保护生态环境和人民健康等方面贡献巨大。

二、时空信息提取方法大数据时空信息处理和分析涉及到许多复杂的方法和技术，以下是其中几种典型的方法：1.轨迹分析轨迹分析是GPS数据中的一个基础应用，通过轨迹，我们可以看到不同时刻个人或车辆的位置，以了解个人的行为模式或车辆的运行情况。

2.空间聚类使用空间聚类方法，我们可以将相似的数据点组成一个聚类。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

轨迹数据挖掘：概述Trajectory Data Mining: An Overview位置采集和移动计算技术的进步已经产生了大量的空间轨迹数据，这些数据代表了移动物体（如人，车辆和动物）的移动性。

在过去十年中，已经提出了许多技术来处理，管理和挖掘轨迹数据，促进了广泛的应用。

在本文中，我们对轨迹数据挖掘的主要研究进行了系统的调研，提供了该领域的全景及其研究课题的范围。

根据轨迹数据的推导，轨迹数据预处理，轨迹数据管理以及各种挖掘任务（如轨迹模式挖掘，异常值检测和轨迹分类）的路线图，调研探讨了连接，相关性，以及这些现有技术之间的差异。

这项调研还介绍了将轨迹转换为其他数据格式（如图，矩阵和张量）的方法，可以应用更多的数据挖掘和机器学习技术。

最后，提出了一些公共轨迹数据集。

这项调研可以帮助塑造轨迹数据挖掘领域，从而快速了解这一领域对社区的影响。

类别和主题描述符：H.2.8 [数据库管理]：数据库应用- 数据挖掘，空间数据库和GIS; I.2.6 [人工智能]：学习- 知识获取一般术语：算法，测量，实验附加关键词和短语：时空数据挖掘，轨迹数据挖掘，轨迹压缩，轨迹索引和检索，轨迹模式挖掘，轨迹异常值检测，轨迹不确定性，轨迹分类，城市计算1.引言空间轨迹是由地理空间中的运动物体产生的轨迹，通常由一系列时间顺序的点表示，例如p1 →p2 → · · · → p n，其中每个点包括地理空间坐标集和时间戳，如p = (x, y, t)。

位置采集技术的进步产生了无数的空间轨迹，代表了各种移动物体（如人，车辆和动物）的移动性。

这些轨迹为我们提供了前所未有的信息来了解移动物体和位置，促进了基于位置的社交网络[Zheng 2011]，智能交通系统和城市计算领域的广泛应用[Zheng et al. 2014b]。

这些应用的流行又要求系统地研究新的计算技术，以从轨迹数据中发现知识。

在这种情况下，轨迹数据挖掘已经成为越来越重要的研究课题，引起了计算机科学，社会学和地理学等众多领域的关注。

在轨迹数据挖掘领域进行了深入和广泛的个人研究。

然而，我们缺乏系统的评估，可以很好地塑造现有的研究领域和定位。

面对大量出版物，社区对这些现有技术的联系，相关性和差异性仍不甚清楚。

为此，我们根据图1所示的范例进行了全面探索轨迹数据挖掘领域的综合描述：第一，在第2节中，我们将生成轨迹的数据源分为四组，列出了每个组中轨迹数据可以启用的几个关键应用。

第二，在使用轨迹数据之前，我们需要处理诸如噪声过滤，轨迹分割和地图匹配等诸多问题。

这个阶段称为轨迹预处理，这是许多轨迹数据挖掘任务的基本步骤。

噪声滤波的目标是从轨迹中去除可能由位置定位系统的差信号（例如，在城市峡谷中行驶时）引起的一些噪声点。

轨迹压缩是为了压缩轨迹的大小（为了减少通信，处理和数据存储中的开销），同时保持轨迹的效用。

停留点检测算法识别移动物体在一定距离阈值内停留一段时间的位置。

停留点可以代表用户已经去过的餐厅或商场，比轨迹中的其他点具有更多的语义含义。

轨迹分割通过时间间隔，空间形状或语义含义将轨迹划分成片段，用于进一步的过程，如聚类和分类。

地图匹配旨在将轨迹的每个点投射到真正产生点的相应路段上。

我们详细介绍第3节中的轨迹预处理。

第三，许多在线应用程序需要即时挖掘轨迹数据（例如，检测交通异常），呼吁有效的数据管理算法可以从大轨迹语料库快速检索满足某些标准（例如时空约束）的特定轨迹。

通常有两种主要类型的查询：最近邻[the nearest neighbors]和范围查询[range queries]。

前者还与距离度量相关联，例如两个轨迹之间的距离。

另外，对于两种类型（历史和最近）的轨迹，需要不同的管理方法。

我们将在第4节介绍轨迹索引和检索。

第四，根据前两个步骤，我们可以进行挖掘任务，如轨迹模式挖掘，轨迹不确定性，异常值检测和分类。

- 轨迹不确定性：物体连续移动，而其位置只能在离散时间进行更新，从而使运动物体在两个更新之间的位置不确定。

为了增强轨迹的实用性，一系列研究试图建模和减少轨迹的不确定性。

另一方面，一个研究的分支旨在用户公开她的轨迹时保护用户的隐私。

我们在第5节回顾轨迹的不确定性。

- 轨迹模式挖掘：大量的空间轨迹提供了分析移动对象的移动模式的机会，这可以通过包含某种模式的个体轨迹或一组共享相似模式的轨迹来表示。

在第6节中，我们调研了四种模式策略：伴行模式，轨迹聚类，周期模式和频繁序列模式。

- 轨迹分类：使用受监督的学习方法，我们可以将轨迹或分段轨迹划分为某些类别，可以是行走（如远足和餐饮）或不同的运输模式，如步行和驾驶。

我们在第7节中给出了轨迹分类的例子。

- 轨迹异常检测：与轨迹数据中经常发生的轨迹模式不同，轨迹异常值可以是与某些相似度量方面与其他项显着不同的项（轨迹或轨迹段），也可以是不符合预期模式的事件或观察（由轨迹集合表示）（例如由车祸引起的交通拥堵）。

第8节介绍轨迹数据的异常检测。

最后，除了研究原始形式的轨迹之外，我们还可以将轨迹转换为其他格式，如图，矩阵和张量（见图1右侧）。

轨迹的新表征利用现有的挖掘技术（例如，图挖掘，协同过滤（CF），矩阵因式分解（MF）和张量分解（TD）），扩展和多样化了轨迹数据挖掘的方法。

在第9节中，我们给出转换的代表性例子。

这篇文章的贡献有四个方面。

首先，本文介绍了轨迹数据挖掘的框架，为该领域定义了范围和路线图。

该框架提供了人们可以快速了解并进入该领域的全景图。

第二，个人研究工作在这个框架的每一层都有良好的定位，分类和连接。

专业人员可以轻松找到解决问题所需的方法，或找到未解决的问题。

第三，本文提出了将轨迹转移到其他格式的愿景，可以应用多种现有的挖掘技术。

这扩大了轨迹数据挖掘的原始范围，推进了该领域的方法和应用。

第四，我们收集人们可以获得各种公共轨迹数据集进行研究的来源列表。

我们还介绍了关于轨迹数据研究的会议和期刊。

2.轨迹数据在本节中，我们将生成轨迹的数据源分为四个主要类别，简要介绍了每个类别中的几个应用场景。

代表人类流动性的轨迹数据可以帮助建立更好的社交网络[Bao et al. 2015; Zheng 2011; Zheng et al. 2012b]和旅游推荐[Zheng and Xie 2011b; Zheng et al. 2011c; Zheng et al. 2009b]。

（1）人员流动：长期以来，人们以空间轨迹的形式，被动地，积极地记录着现实世界的运动。

活动记录：旅行者使用GPS轨迹记录他们的旅行路线，以记住旅程并与朋友分享经验。

自行车和慢跑者记录运动分析的踪迹。

在Flickr中，一系列地理标记的照片可以制定空间轨迹，因为每张照片都有一个位置标签和一个对应于照片拍摄地点和时间的时间戳。

类似地，在基于位置的社交网络中的用户的“签入”可以被视为轨迹，按时间顺序排列。

无线记录：携带移动电话的用户无意中产生由具有相应转换时间的小区塔ID序列表示的许多空间轨迹。

此外，信用卡的交易记录还指示持卡人的空间轨迹，因为每个交易包含表示交易发生的位置的时间戳和商家ID。

（2）运输车辆的流动性：我们日常生活中出现了大量配备GPS的车辆（如出租车，公共汽车，船只和飞机）。

例如，主要城市的许多出租车都配备了GPS传感器，可以以一定的频率报告带时间戳的位置。

这样的报告制定了大量可用于资源分配的空间轨迹[Yuan et al. 2011b, 2013b]，流量分析[Wang et al. 2014; Yuan et al. 2013a]，改善交通网络[Zheng et al. 2011a]。

（3）动物流动：生物学家一直在收集动物像老虎和鸟类的移动轨迹，目的是研究动物的迁徙痕迹，行为和生活情况[Lee et al. 2007; Li et al. 2010c]。

（4）自然现象的流动：气象学家，环保人士，气候学家和海洋学家正在忙于收集一些自然现象的轨迹，如飓风，龙卷风和洋流。

这些轨迹捕捉到环境和气候的变化，帮助科学家处理自然灾害，保护我们生活的自然环境。

3.轨迹数据预处理本节介绍了在开始挖掘任务之前处理轨迹所需的四项基本技术，包括噪声滤波，停留点检测，轨迹压缩和轨迹分割。

3.1 噪声滤波由于传感器噪声和其他因素，如在城市峡谷中收到较差的定位信号，空间轨迹永远不会完全准确。

有时，错误是可接受的（例如，车辆的几个GPS点落在实际驾驶车辆的道路之外），这可以通过地图匹配算法来修复（在3.5节中介绍）。

在其他情况下，如图2所示，像p5这样的噪声点的误差太大（例如距离其真实位置几百米），以得出诸如行进速度等有用的信息。

因此，在开始采矿任务之前，我们需要从轨迹中滤除这些噪点。

虽然这个问题还没有完全解决，但现有的方法分为三大类。

均值（或中值）滤波器[Mean (or Median) Filter]：对于测量点z i，（未知）真实值的估计是z i 及其n-1个前驱在时间上的平均值（或中值）。

均值（中值）滤波器可以被认为是覆盖时间上相邻z i值的Sliding Window。

在图2所示的例子中，如果我们使用Sliding Window大小为5的均值滤波器，则。

处理极端误差时，中值滤波器比均值滤波器鲁棒性强。

均值（中值）滤波器适用于处理具有密集表示的轨迹中的各个噪声点，如p5。

然而，当处理多个连续的噪声点时，例如p10，p11和p12，需要较大尺寸的Sliding Window。

这导致计算的均值（或中值）和点的真实位置之间的误差更大。

当轨迹的采样率非常低（即两个连续点之间的距离可能长于几百米）时，均值和中值滤波器不再是很好的选择。

Kalman和粒子滤波器[Kalman and Particle Filters]：从Kalman滤波器估计的轨迹是测量和运动模型之间的折衷。

除了给出符合物理学规律的估计之外，Kalman滤波器还给出了诸如速度等高阶运动状态的原理估计。

虽然Kalman滤波器通过假设线性模型和Guass噪声来获得效率，但是粒子滤波器放宽了这些假设，以获得更一般但效率较低的算法。

Lee和Krumm [2011]可以找到使用Kalman和粒子滤波器修复噪声轨迹点的类似教程的介绍。

粒子滤波的初始化步骤是从初始分布生成P粒子，j =1, 2, . . . , P。

例如，这些粒子将具有零速度并且在Guass分布的初始位置测量周围聚集。

第二步是“重要性抽样”，它使用动态模型P(x i|x i-1)概率地模拟粒子在一个时间步长上的变化。

第三步使用测量模型计算所有粒子的“重要性权重”。

更重要的权重对应于更好地被测量支持的粒子。

然后重要的权重被归一化，所以它们相加到一个。

当从与归一化重要性权重成正比的中选择一组新的P粒子时，循环中的最后一步是“选择步骤”。