地理空间数据不确定性与研究报告进展

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

地理空间数据不确定性与研究进展

王春,汤国安,赵牡丹,王雷,张婷

<西北大学城市与资源学系，陕西西安，710069）

摘要：在介绍空间数据不确定性概念、研究意义与常用的研究理论与方法的基础上，回顾了地理空间数据不确定性研究的历程，对地理空间数据不确定性研究的现状、所取得的主要成果问题进行了总结。分析了当前空间数据不确定性研究中所存在的基本问题：研究的内容与研究方法缺乏整体性与总览性，研究的对象与应用目标还不够明确。建议在今后的研究中应着重于：细化地理空间数据不确定性的内容；强化地理空间数据应用的不确定性研究；研究方法上注重多种理论和方法综合使用，以建立不确定性数据处理模型为其出发点和基础。

关键词：地理空间数据；不确定性；研究进展

中图分类号：TP391文献标识码：A文章编号：1000-274X(2004>0078-08

地理空间数据建设是国家空间数据基础设施

1误差与不确定性

误差通常被定义为观测数据与其真值之间的差异。对于一组数据的误差来说，它们可能是随机误差或系统误差，系统误差在其数值大小和符号上呈现出一定的规律，而随机误差的数值大小或符号呈现着随机性，但它们之间也有其统计规律。此外，在一组数据的误差中，还可能出现少量的异常值，或称之为粗

差。误差是地理空间数据的固然属性，因为：①变化和模糊是自然界的两个固有属性，它们直接影响着GIS信息的准确表达；②由于观测条件的限制，利用测量设备进行的任何测量都不可避免地要引入误差；

③测量结果等描述数据的模型只能是客观实体的一种近似和抽象。需要说明的是，通常情况下误差的大小并不能直接衡量地理空间数据质量的优劣，对于只含有随机误差的数据，人们一般用精度的概念来衡量。即：精度高是指小误差出现的概率大，大误差出现的概率小；精度低是指小误差出现的概率小，大误差出现的概率大，数据的精度反映了数据误差的离散程度。

对于数据的不确定性，早在20世纪70年代初的电子测量和计量学的文献中就已经出现。当时不确定性的实质其实仍主要指数据的误差，不确定性和误差常被任意选用，较多的还是使用误差这一简洁的概念。随着现代测量技术的迅速发展，以及地理空间数据信息来源的多源化，考虑误差的范围也从数字上扩大到概念上，虽然以数值误差为主，但也要顾及不能用数值来度量的误差。这样，传统的误差理论已远远不能满足需要，数据不确定性的研究逐渐得到重视。时至今日，人们趋向于认为，数据不确定性

2研究的基础理论

地理空间数据误差来源的复杂性以及地理信息很难重复采样，使得地理空间数据不确定性既有空间位置的不确定性和空间属性数据的不确定性，还具有与其空间位置相关的结构性问题，同时尺度也是不确定性研究要考虑的因素。不确定性问题是非线性复杂问题。因此，除了经典误差理论、概率论、数理统计仍是研究该问题的理论基础外，还需要寻找证据理论、模糊数学、空间统计学、熵理论、云理论、信息论、人工智能等非线性科学理论的支持，随机几何学、分形几何学、神经网络、遥感信息模型等基于边缘学科的不确定性分析处理方法也逐渐受到重视[3~12]。

2.1基于概率论及数理统计的不确定性研究

这方面的理论主要有概率论、证据理论、空间统计学。概率论主要用于处理由于随机误差而产生的不确定性。在概率论中，不确定性被描述成在给定某些观测值的条件下某一假设成真的条件概率。如在经典的测量理论中，点位误差的分布可看作二维正态分布或圆正态分布，一维点的不确定性指标用均方差表示，用点位中误差和误差椭圆代表平面点的不确定性模型。概率论可以使用相当复杂的联合概率研究地理

空间数据不确定性问题，但此时它需要大量的概率观测值，并且概率论本身不提供其可靠性的度量指标，很多情况下人们很难找到一个概率值质量的描述指标。

证据理论也称Dempster-Shafer理论，是对传统概率论的一个扩展。该理论的一个基本策略是把一个证据集合分解成一系列不相关的证据集合，在这些证据集合中分别作判断，最后利用Dempster结合规则将这些判断结合起来。在证据理论中，样本为真的概率量测值由满足这一假设的可获得的证据的概率来代替，它是基于可信度和可能函数所确定的一个区间。证据理论是概率论的更一般性表达，证据理论可以利用结合规则和两两比较的方法分析不确定性。其最大弱点在于，不能就矛盾证据或不同假设之间具有的微弱支持问题提出解决办法。

空间统计较之非空间统计是一个更一般的理论，它可以被认为是对非空间变量的一个空间扩展，而时-空统计则是更一般的扩展。空间统计学利用有序的模型描述无序事件，根据不确定性和有限信息分析、评价、预测或模拟空间趋势及其相互关系。在地理空间数据不确定的研究中，空间统计学运用空间自协方差结构、变异函数或与其相关的自协变量，或局部变量值的相似程度来描述空间属性的不确定性，改善GIS对随机过程的处理，估计模拟决策分析的不确定性范围，分析空间模型的误差传播规律，为分析连续域的空间相关性提供理论依据和量化工具。

2.2基于模糊集合、粗集理论的不确定性研究

模糊数学是由Zadeh(1965>提出的由计算机处理不精确概率的一种理论。它以模糊集合为基础，用模糊可行区间表示数据非统计不确定度。模糊数学的优点在于其处理不确定性的能力，如土地分类中土壤渐变区域的处理、基于自然语言的空间查询等。它的一个弱点是，没有严格证明的过程，它所处理的对象是可能性而不是概率。因此，模糊数学常用于处理不确定性中的不准确性而非随机性，如两线状地物连接处的不确定性、场模型中确定域与模糊域目标间拓扑空间关系的描述等。

粗集理论中，粗集(roughsets>由上近似集和下近似集组成，适于处理不精确、不确定和不完全的数据。粗集理论从集合论的观点出发，在给定论域中以知识足够与否作为实体分类的标准，并给出划分类型的精度。粗集理论不排斥不确定性，力求按照实体的原形来研究实体，非常适合用于不确定影像分类、模糊边界划分、属性不确定性及评定属性的绝对不确定性和相对不确定性、简化属性依赖和属性表等。2.3 基于云理论、信息熵的不确定性研究

云理论是一个分析不确定信息的新理论，包括云模型、不确定性推理和云变换三部分。云在空间由系列云滴组成，具有期望值、熵和超熵3个数字特征。期望值完全是一个定性的概念；熵是定性概念模糊度的度量，其值越大，概念越模糊；超熵反映云滴的离散程度，其值越大，隶属的随机离散度越大。以云理论为基础提出了云方法，它用期望值、熵和超熵这3个数字特征描述整个云团，实现定性和定量的转换，适用于空间关联规则的挖掘、空间数据库的不确定性查询及地理空间数据中模糊性和随机性为一体的属性不确定性问题。

熵是信息论中的一个基本概念，是用以度量信息源不确定性的惟一量，非常适合用来对测量结果的不