基于VGI数据的POI信息提取方法研究

学号 2009302590247

密级

武汉大学本科毕业论文

基于VGI数据的POI信息提取方法研究

院（系）名称：遥感信息工程学院

专业名称：遥感科学与技术

学生姓名：毋一舟

指导教师：余洋讲师

二○一三年六月

BACHELOR'S DEGREE THESIS OF WUHAN UNIVERSITY

Methods of POI information Extraction

based on VGI Data

College: School of Remote Sensing and Information

Engineering

Subject: Remote Sensing Science and Technology

Name: WU YIZHOU

Directed by: YU YANG Lecturer

June 2013

郑重声明

本人呈交的学位论文，是在导师的指导下，独立进行研究工作所取得的成果，所有数据、图片资料真实可靠。尽我所知，除文中已经注明引用的内容外，本学位论文的研究成果不包含他人享有著作权的内容。对本论文所涉及的研究工作做出贡献的其他个人和集体，均已在文中以明确的方式标明。本学位论文的知识产权归属于培养单位。

本人签名：________________ 日期：_________________

摘要

自发性地理信息（Volunteered Geographic Information）是以城市各色出行人员为载体的城市空间数据，其采集范围不易受路网和时间限制，且具备数据量大、社会化信息丰富、现势性强、覆盖区域广等特点。随着网络信息技术、移动定位技术的迅猛发展，VGI数据被大量聚集起来，为获取与分析地理信息提供了新的方法和途径。

本文从数据获取、数据预处理、数据清理以及可信度验证等几个方面研究了基于VGI数据提取POI信息的基本理论和方法，提出了从现有VGI平台提取POI信息的详细流程，并以新浪微博中的LBS签到信息数据为具体实例，结合空间关系分析与统计分析等方法，验证了本文提出技术流程和方法的可行性。

关键字：自发性地理数据，基于位置的服务，签到数据，兴趣点

ABSTRACT

Volunteered Geographic Information (VGI) is the spatial data basing on all kinds of traveling personnel in the city. Its acquisition is not subjective to road network and time limit, and it is massive in amount, diverse in social information, strong in up-to-date state and wide in area coverage. With the development of Internet information technology and mobile positioning technology, large quantity of VGI was collected and new methods for geographic information acquisition and analysis were researched based on VGI.

This dissertation focuses on POI extraction based VGI data from aspects including data acquisition, data cleaning, data processing and data verification. And the research proposes a basic theory and detailed framework on processing data from current VGI providers. Experimental system is developed based on check-in data from Sina microblog to verify the feasibility of the proposed methods and process.

Keywords: Volunteered Geographic Information (VGI), Location Based Service (LBS), Check-in data, Point of Interest (POI)

第1章绪论 (1)

1.1 研究背景及意义 (1)

1.2国内外研究现状和发展趋势 (3)

1.3主要研究内容 (5)

1.4论文组织结构 (5)

第2章基于VGI数据获取技术和方法 (8)

2.1基于VGI数据的POI信息提取技术框架与工作流程 (8)

2.2数据获取平台比较 (10)

2.3数据的加密获取及存储 (12)

2.4本章小结 (14)

第3章VGI数据预处理与分析 (15)

3.1数据预处理的基本原理与方法 (15)

3.2数据清理 (16)

3.3异构点合并 (17)

3.4本章小结 (21)

第4章POI信息的可信度验证方法 (23)

4.1VGI数据可信度验证技术路线 (23)

4.2VGI数据可信度验证效果评价 (25)

4.3本章小结 (26)

第5章系统实验分析 (27)

5.1系统实验环境与数据 (27)

5.2实验系统结构及开发工具 (27)

5.3实验分析 (29)

5.4数据可视化 (33)

5.5 可靠性分析 (35)

5.6本章小结 (37)

第6章结论与展望 (38)

致谢 (42)

附录 (43)

第1章绪论

1.1研究背景及意义

随着信息技术的迅猛发展，越来越多通过GPS、高分辨率卫星影像、基础测绘数据以及基于网络的自发性地理数据（Volunteered Geographic Information，简称VGI）所提供的地理数据被聚集起来。Miller & Han于2009年在《Geographic Data Mining and Knowledge Discovery》一书中提出，地理信息产业的发展已经从过去的“数据贫乏”时代逐渐走向了“海量数据”时代[1]。而在其中，基于位置的服务（Location Based Service, 简称LBS）更可谓是得到了长足的发展和研究。信息时代的移动通讯用户，不论何时何地都会在网络上留下数字脚印（Digital Footprint）。用户产生的地理数据主要分为两类，主动产生与被动产生。被动的方式获取的地理信息数据是通过基础地理信息设施，例如移动通讯网络，确定地理位置信息。主动方式则是用户通过签到分享照片等方式产生的地理标签信息[2]。这一基于移动终端的新技术，对传统地理信息技术产生了深远的影响，为地理信息的获取与分析提供了新的方法和途径。VGI数据是多技术支持下的产物，它涉及到了web2.0技术、地理参照系技术、地理标签技术、GPS技术、图像技术和网络通讯技术[3]。通过移动终端与GPS日志数据获取的POI信息可以判断用户的个人信息，包括：住址、工作地点、社交信息、家庭信息和日常行程[4]。

VGI数据是由大众用户所提供的，是不具备专业地理信息数据所要求的高精度、高准度要求的。VGI所提供的地理信息数据所追求的是高的现势性、广泛的用户兴趣度以及多维度的描述信息。而POI 则相对更具有专业性，对数据质量的要求更高。VGI数据的用户与数据双重性可以保障数据的获取是合适的、及时的、广泛的，而这些特性有助于城市的管理[5]。在地理信息系统中，POI是对房子、商铺、邮筒、公交站等点状地物的矢量表述。传统的地理信息采集方法需要地图测绘人员采用精密的测绘仪器去获取一个兴趣点的经纬度，然后再标记下来。正因为POI的采集是一个非常费时费事的工作，对一个地理信息系统来说，POI的数量在一定程度代表着整个系统的价值。每个POI包含四方面信息，名称、类别、经度、纬度[6]。而LBS签到数据的内容则比传统POI丰富的多。除了POI数据中应该包含的空间坐标信息、

名称和类别之外，LBS签到数据包含了更多的描述性属性信息。在新浪微博的基于位置的签到信息中，所包含的信息有兴趣点编号（poi id）、名称（title）、地址（address）、经度（longitude）、纬度（latitude）、类别（category）、城市（city）、签到次数（check-in number）以及签到用户数量（check-in-user number）等。虽然LBS签到信息所包含的信息量大于传统的POI数据，但其空间位置信息的精度却常常无法达到POI信息的要求。由于LBS签到信息的提供者为非专业的用户，移动终端的GPS定位结果会因为多路进、信号强度不足等原因产生偏移。

由于VGI数据具有高现势性、海量、成本低廉等特点，使得其可以作为一种新兴的地理信息数据源。通过对VGI数据的分析和处理，提高数据质量，可以使其满足社会经济属性分析、行为分析、地图兴趣点（Point of Interest，简称POI）更新等需求。同时，针对VGI的研究也存在诸多有待解决与规避的问题。例如，VGI数据质量的控制，VGI数据的管理，VGI数据中的信息提取，相关的政策和法律法规以及VGI研究工作的持续性问题[7]。如何有效的利用LBS、移动互联以及虚拟社交网络平台提供的数据和信息资源，实现对已有GIS技术的优化和补充,是当前国内外诸多学者致力于研究的重要问题。

由于VGI数据的数据源是普通大众，其提供的地理信息具备较强的地域属性知识，可以完善POI中缺失的地域性特有信息。例如对于某一特定地物的俗称或简称。但另一方面，由于VGI数据与POI数据之间具有相当的差异，其精度、格式、数据管理与应用都有很大的不同。根据李纳斯法则（Linus’s Law）,VGI的众源特性有助于提升由于用户非专业性而造成的精度缺陷[8]，当前利用VGI数据实现POI信息提取仍处于起步阶段。本文的研究目的在于从海量的非专业地理信息数据中，提炼出有效、丰富的POI信息，使得提取出来的POI数据具有更广泛的应用和分析价值，实现对传统POI更新的方法和内容的补充，提高POI数据更新的实时性。

1.2国内外研究现状和发展趋势

自2007年Goodchild提出自发性地理信息(VGI)的概念后，VGI便成为了炙手可热的研究对象[3]。钱新林曾提出针对VGI数据的特点，总结处理VGI数据主要包括合并于删除重复、发现与修正错误、确认与更新属性几个问题[9]。

目前针对众源数据的研究，国内外的学者的研究方向主要有两类。其一，将众源数据的获取、处理与传统GIS以及地图的更新、纠正结合起来，尝试利用VGI数据所提供的轨迹来优化已经存在的数字地图。这一类研究者主要利用基于OSM的用户GPS轨迹进行研究。其二，还有不少学者将LBS/SNS信息与行为、社交活动结合起来，力求通过综合地理信息与非地理信息达到找出社会运行内在规律或商业发展前景等具有人文社会经济价值的目的。这一类研究主要依托新浪微博、街旁、Foursquare、Facebook等虚拟LBS/SNS社交网络进行。

同时，随着移动互联网技术的发展和越来越大的竞争压力，服务提供商逐渐开始研究和应用智能LBS（Intelligent Location Based System,简称iLBS），智能LBS是建立在推技术（Push）或服务启动模型（Service-initiated Model）的基础上的。这种模型中，服务提供商按照预定义的兴趣主动向移动用户推出位置相关的信息，这种方式在没有发送明确请求的情况下，极大地提高了移动用户获取信息的能力[10]。

国内外针对VGI数据方面的研究已经慢慢由定性研究转变为定量研究，由单一的空间信息分析研究转变为多元化的综合信息分析研究。Goodchild认为，提高VGI 数据的质量，可以依靠众源特性、社会属性以及地理方法[8]。但这三类方法在针对目前主流的LBS平台应用时仍具有一定的局限性。对于目前的LBS平台，能够对空间信息产生影响的仅仅只有对于某一条签到地点的创建者，在其创建了地理对象后，之后在此地点签到的用户就不能再对其空间坐标信息进行修改，因此，若要依靠Linus法则提高空间信息的精度，必须使所有用户均能对已有的空间坐标信息进行修改。其二，目前的LBS平台仍不具备完善的反馈机制，供应商和用户没有达成有机的评价体系，对于用户提供的数据质量，没有能按照其准确性和精度对其进行评定，从而利用社会属性的方法来提高空间信息精度的方法在基于目前的LBS平台是不可

行的。因此，对于目前LBS平台所生成的签到信息，保障精度最有利的办法便是利用属性和描述信息对空间信息进行综合评判分析。将属性信息与描述信息转化为空间信息，在综合地图信息对VGI数据的空间信息进行评价、分析和纠正。这部分内容就涉及空间拓扑分析和文本语义信息提取。

名称分析是语义分析的最直观使用，对于名称属性，由于名称是以字符串的形式存在，因此要采用特定的算法来计算两个字符串之间的相似度问题。字符串相似度计算是寻找两个字符串的公共子字符串，利用公共子字符串的长度，依据相应的算法来衡量两个字符串的相似程度的过程。

目前，字符串相似度度量算法有很多，如编辑距离算法（Levenshtein Distance）、最长公共子串算法（Longest Common Subsequences, LCS）、Heckel算法、贪心字符串匹配算法（Greedy String Tiling, GST）及RKR-GST 算法（Running Karp-Rabin Greedy String Tiling）等。这些算法因为实现的原理不同，得到的字符串相似度也会有些差别，进而应用的领域也会有所不同[11]。

对于基于LBS签到数据的空间数据挖掘，GIS、空间数据仓库、C/S模型、SOA 以及开放性和扩展性是目前基于POI空间数据的主流信息挖掘系统的架构特征。同时，CRISP-DM，PMML，JDM，SQL/MM与XMLA则是部署数据挖掘系统中运用的产业标准。聚类、分类和同步则是对于POI进行数据挖掘的主要途径[12]。对POI 数据的分析，曾有学者提取了两种对地理热点进行分析的方法，分别是聚类探测法和可变分辨率分析法[13]。

对VGI数据而言，其具有独特的个性和特点，因此数据处理也必须针对其特点进行。面临的问题主要有两类：

(1)VGI数据的预处理

LBS数据存在精度低、数据冗余大、信息格式不标准等缺点。若要利用LBS签到数据提取POI，则必须对其进行数据预处理，提出错误信息、降低数据冗余、规范信息格式使其满足POI信息提取的要求。数据预处理主要是为了解决LBS签到数据质量不高、冗余大等缺点。因此，在预处理中所面临的主要问题包括签到点的热度过低，

不足以引起关注，或有明显空间错误；签到数据的信息不完善，不能明确指代特定的地物；大量的重复签到以及本体异构造成的数据冗余[14]。

(2)VGI数据的精度验证与提高

由于VGI数据的非专业性，在将其用于提取POI信息之前，必须先对其数据可信度进行验证，剔除精度不足的数据，利用VGI数据特有的属性描述信息提高其空间信息的精度。用户提供的LBS签到数据中往往包含有地址信息、地名信息、类别信息等，而这些文字描述的空间地理信息实际上也可以通过语义分析转化为空间坐标。将终端GPS定位的坐标信息和语义分析获取的坐标信息进行比较，就可以对VGI数据的空间坐标数据质量进行分析和提高。

1.3主要研究内容

在此项研究中，必须将所掌握的地理、GIS、数据处理和数据库技术等方面的知识与数据挖掘、地理本体、地理字典与语义分析等其他领域的专业知识相结合。与此同时，还需在这两方面的技术中找到其共通点，灵活运用，合理分析，最终找到合适的解决办法。主要任务如下：

（1）了解POI数据的基本内容和VGI数据的基本数据格式，掌握VGI数据清理的基本原理和方法；了解基于语义本体的空间数据集成方法，学习和掌握基于语义的空间信息分类方法等。

（2）对VGI进行属性和空间信息的综合分析，它提取有效属性信息和空间信息，包括地址、类型、签到用户数量和坐标。

（3）了解和掌握空间数据误差处理的基本原理和方法，并将其应用到VGI数据的坐标纠正中，实现VGI数据与真实地图坐标的匹配。

1.4论文组织结构

本文组织结构按照图1.1所示，分别探讨签到数据的获取、签到数据的预处理、签到数据的处理、系统实验和结论展望几部分。

图1.1 论文组织结构

(1)数据获取

第一部分从数据源，数据获取的方式和受限程度进行分析，说明什么样的众源地理信息数据源更适合于进行POI信息的提取。第一部分还对具体的LBS签到数据获取方法、数据格式以及适当的数据储存和管理进行了描述。

(2)数据预处理

第二部分着重解决众源数据的可靠性问题，从数据清理和重复数据合并两个方面进行研究。由于众源数据的提供者是非专业用户，因此在使用来源于大众的数据时，必须对其进行数据清理和合并，以提高数据的质量，保障后续步骤的有效性。

(3)数据处理

第三部分是从数据的可信度验证角度进行研究，通过外在或本地的数据库，对LBS签到数据的可信度进行验证，从而得到签到数据用作POI信息提取时的可靠性问题。同时第三部分还从技术操作的角度探讨了如何进行签到数据的可信度验证。

(4)实验分析

第四部分从实验分析的角度对原型系统、原始数据、操作步骤以及最终的结果进行了阐述和分析。最后通过对实验数据的统计分析得出了研究提出方法的可行性以及可靠性的度量。

(5)结论与展望

第五部分主要对研究中取得的成果，研究中还存在的问题，以及今后研究的主要发展方向进行了叙述。

图2.1 基于VGI数据获取POI信息技术流程图

(1)原始数据获取

LBS签到信息的数据源的数据格式多样，选择合理并信息量丰富的LBS签到数据源有助于系统化的提取POI信息并进行后期的数据挖掘工作。目前中国大陆广泛使用的LBS签到数据源有新浪微博、街旁网、人人网等。针对不同的数据源，第三章会做具体的比较分析。本文研究的对象为通过新浪微博开发工具API获取的武汉市中心城区签到数据。

(2)数据预处理

由于LBS签到数据是基于用户的众源数据，因此具有很多VGI数据的低质量特性。对于LBS签到数据的数据整理和剔除工作，是对后续空间和非空间信息分析，以及数据挖掘工作有效性的有力保障。

(3)空间与非空间属性数据分析

基于LBS的用户签到数据包含了大量空间与非空间属性信息，这些属性之间有些是相互独立的，有些则是相互关联的。本步骤的意义在于分析筛选出其中有意义的数据项加以保留，对于与本研究内容无关的信息进行剔除。同时，还需找出其中数据项之间的关联，以便进行后续的空间与非空间信息校正和数据挖掘。

(4)空间数据误差检测与纠正

用户使用的非专业级的GPS终端设备的定位精度偏低，同时用户所感兴趣的签到点，大多位于室内地点，而GPS接收机在室内定位时往往会产生几十到几百米不等的偏移，而这种偏移又不是系统误差所造成，由于地理条件的复杂性，也绝非数理统计能够解决。室内LBS对手机室内定位的精度要求更高，而室内比室外环境更多样化和复杂，因此室内定位技术困难较大[15]。所以需要利用LBS签到数据自身所包含的空间与非空间属性数据之间的关系相互约束，从外部条件上提高LBS签到数据空间信息的整体精确度。

(5)LBS签到数据提取POI信息及地图显示

LBS签到数据提取的POI信息是一个简单的二维图表，而这个表里所包含的信息，只有将其进行可视化的表达，才能被更为广泛的用户和非地图专业学者所接受和应用。因此，从LBS数据中提取的POI信息，必须对其进行地图投影可视化，将图表数据转化为普遍接受的地图信息。然后再在地图显示的基础上进行进一步的数据挖掘。

2.2数据获取平台比较

新浪微博和街旁网获取其用户的签到数据都是通过开发API接口实现。但新浪和街旁的用户群特点不同，获取权限不同，函数不同，返回值形式不同。在此我们将两个LBS平台进行比较，说明优劣。对新浪微博与街旁网的数据获取模式进行比较，得到如表2.1所示的结果。

表2.1 新浪微博与街旁网API接口比较

API接口查询的返回值为JSON格式，这种格式的数据具有其特点。JSON是一种轻量级的数据交换格式，文件不具有明显的强结构特征。在复杂的JSON对象中，因为它不像XML文件用规范的标签形式标记有效的内容，虽然对于人来说较难整理，但因为JSON文件结构简单，因此通过电脑分析JSON文件具有强大的处理能力。另外JSON文件中因为不再具有用于标记内容属性的说明性标签，所以JSON文件相比XML文件，查询相同内容的返回文件更小，因此更适合作为微博海量数据获取中的文件传输形式[16]。

返回值类型为JSON或XML格式文件，而微博用户在创建签到信息时常常会使用符合自身偏好的个性化字符，这些字符导致程序将无法法正确解析整个XML文档，因此采取JSON返回方式具有更高的稳定性[16]。

(1)数据平台

截至2012年12月底，新浪微博注册用户已超5亿，同比大幅增长74%，日活跃用户数达到4620万，微博用户数与活跃用户数保持稳定增长[17]。新浪微博是目前中国大陆用户数量最多，用户人群分布最广的微博与LBS平台，为商业、行政管理、科学研究提供了宝贵的数据基础。

街旁网是基于真实地理位置的虚拟社交移动网络应用。通过签到，街旁网用户可以将自己所处的地点通过数字化形式进行记录和分享。与新浪微博相比，街旁网的用户数量更少，人群趋于年轻化。街旁网功能相对单一，是专注与做LBS应用的应用供应商。根据2011年街旁网进行的统计显示，街旁网兴趣点最大签到信息量为165次/天，且街旁网也在基于用户的地理签到信息和描述信息的基础上进行了一系列的数据挖掘和分析，展示的结果充分的显示了LBS签到信息在商业和社会研究或管理方面的价值。

(2)返回值信息

在新浪微博与街旁网的比较中发现，其返回值各有侧重。新浪微博更关注地点发生的事件，例如用户所发布的微博、照片等，而街旁网则更关注地点本身，则在返回值中包含了地主用户ID与地点评分之类的属性信息。但对于POI信息提取而言，

他们都包含了基本的名称、类别和坐标信息，因此都可以满足基于VGI信息提取POI的工作要求。

(3)获取权限

新浪微博针对一个服务器IP的请求次数限制为表2.2所示。

表2.2新浪微博授权级别表

未通过审核的，开发中的应用，将适用测试授权，当应用通过审核成为正式应用，将自动升级为普通授权。

客户端类应用最高可申请至合作伙伴授权（授权有效期90天）级别，网页类应用、网站接入类应用最高可申请至高级授权（授权有效期30天）级别[18]。

街旁网调用API获取签到数据不需要验证。

2.3数据的加密获取及存储

在2.1节提到本研究主要运用新浪微博获取LBS签到数据，而一次访问所获取的数据只能是查询点目标范围内的200条数据。

在API的函数调用中，用户通过输入经纬度坐标，距离，数量等条件参数，限定查询的范围，使返回值为特定查询坐标点特定距离范围内的所有签到数据。当查询数据不足200条时，则全部作为返回值输出，当超多200条时，只返回距离相近的一部分。

在查询目标区域签到数据是，采用将经纬度分别按照一定距离生成格网，然后以格网点为查询的坐标点。因此，为了尽可能完整的获取目标区域的LBS签到数据，必须进行合理的加密后在进行查询。所谓加密，就是在查询特定地理坐标时，对签

到点密集处取较小的查询间隔，时返回值尽可能包含查询范围内所有的签到点。当某一特定查询坐标周边的返回值数量大于200时，说明还有规定距离范围内的签到信息点没有返回，因此，需要再对此范围内的签到点进行更为密集的查询，直到返回的签到点数量小于200条为止。

本研究过程主要是为了验证基于微博LBS签到数据提取POI信息的可行性和数据处理理论方法的合理性，因此对武汉市前签到数据获取时的加密原则不是为了获取全部有效的签到数据，而是获取一定范围内的代表性数据。加密效果如图2.2所示。

VGI数据的高效管理是VGI能够广泛应用的基础[19]。对于VGI数据管理，李德仁等人提出了动态线综合二叉树和缩放四叉树的设计思想，该思想能够较好地执行截窗查询和简化查询，支持动态更新，适合表达和存储大几何对象。可以用来解决VGI 图形数据管理的难题[20]。这样大小的数据量，选择采用基本的Excel工具进行数据存储和分析是比较合理的。

图2.2 武汉市签到数据获取加密图