大数据时代的空间数据挖掘综述
空间数据挖掘的方法与技巧

空间数据挖掘的方法与技巧随着科技的不断发展,大数据时代已经来临。
而空间数据的挖掘成为了许多领域的重要工作,尤其是在地理信息系统、城市规划和环境科学等领域中。
本文将介绍一些空间数据挖掘的方法和技巧,以期帮助读者更好地理解和应用这一领域。
一、聚类分析方法聚类分析是一种常用的空间数据挖掘方法,用于将相似性较高的数据点或区域归类在一起。
在空间数据中,可以利用聚类分析来寻找相似的地理空间对象。
例如,可以将城市中的商业区划分为相似的集群或群组,以便更好地理解城市发展和市场规划。
在聚类分析中,常用的方法包括k-means算法和DBSCAN算法。
k-means算法是一种基于距离的聚类方法,通过计算数据点之间的距离,并将其划分为k个不同的聚类。
而DBSCAN算法则是一种基于密度的聚类方法,其根据数据点周围的密度来确定聚类结果。
这些算法在空间数据挖掘中都有广泛的应用,并且可以根据具体问题的需求进行调整和优化。
二、空间关联分析方法空间关联分析是一种用于研究空间数据之间的关系的方法。
通过空间关联分析,可以找到空间数据之间的相互依赖性和相关性。
例如,可以研究城市中不同商业设施之间的关联关系,以便更好地理解城市的商业布局。
在空间关联分析中,常用的方法包括空间自相关分析和空间回归分析。
空间自相关分析用于探索空间数据的局部和全局空间依赖性,以及相关因素之间的空间关系。
而空间回归分析则是用于分析空间数据之间的因果关系,并建立空间回归模型。
这些方法可以帮助研究人员深入了解空间数据的内在结构和特征,从而更好地进行预测和规划。
三、地理数据挖掘技巧除了上述的具体方法外,还有一些地理数据挖掘的技巧可以帮助研究人员更好地进行数据分析和推断。
首先是地理数据的预处理。
在进行空间数据挖掘之前,需要对原始数据进行预处理和清洗,以去除噪声和异常值。
同时,还需要进行地理数据的投影和标准化,以便于不同类型的数据进行比较和分析。
其次是空间权重矩阵的构建。
空间权重矩阵是衡量地理空间对象之间相互关系的一种方法。
空间数据挖掘技术的发展与应用

空间数据挖掘技术的发展与应用1. 引言空间数据挖掘技术是指利用数据挖掘算法和技术手段对空间数据中的有价值信息进行提取和分析的过程。
随着科技的不断进步和数据的大规模产生,对空间数据挖掘技术的需求也在逐渐增加。
在本文中,将探讨空间数据挖掘技术的发展与应用。
2. 空间数据挖掘技术的发展2.1 空间数据挖掘的概念与原理空间数据挖掘技术是将数据挖掘技术应用到空间数据中,通过对空间数据的挖掘和分析,挖掘出数据中的潜在规律和有价值的信息。
空间数据挖掘技术的核心任务包括:分类、聚类、关联规则挖掘和异常检测等。
2.2 空间数据挖掘技术的发展历程空间数据挖掘技术的发展可以追溯到上世纪80年代。
在当时,由于计算机技术的限制和数据量的有限,空间数据挖掘技术受到了很多限制。
但随着计算机技术和数据采集技术的不断进步,空间数据挖掘技术发展迅速。
现在,各种针对空间数据挖掘的算法和模型被提出,并且得到了广泛的应用。
3. 空间数据挖掘技术的应用3.1 地理信息系统地理信息系统(Geographic Information System,简称GIS)是空间数据挖掘技术最常见的应用之一。
利用空间数据挖掘技术,可以对地理数据进行分析和挖掘,从而提取出地理数据中的有价值信息。
这些信息可以用于城市规划、环境保护、交通管理等领域。
3.2 物流与交通管理空间数据挖掘技术也被广泛应用于物流与交通管理领域。
通过对交通数据和物流数据的挖掘,可以分析交通流量、相关道路的瓶颈问题,进而优化交通路线和物流方案,提高效率和降低成本。
3.3 智能导航系统智能导航系统是一个利用空间数据挖掘技术的应用。
通过对用户位置数据的挖掘,可以为用户提供个性化的导航服务。
智能导航系统可以根据用户的出行习惯和实时交通状况,提供最佳的导航方案,并且能够根据用户的反馈进行实时调整。
3.4 自然灾害预测与应对空间数据挖掘技术在自然灾害预测与应对方面也发挥着重要的作用。
通过对历史灾害数据的挖掘,可以分析出自然灾害的规律和趋势,提前预测自然灾害的发生概率和影响范围。
数据挖掘综述

数据挖掘综述引言:数据挖掘是一种通过自动或者半自动的方法,从大量数据中发现隐藏在其中的有价值的信息的过程。
随着大数据时代的到来,数据挖掘在各个领域中的应用越来越广泛。
本文将对数据挖掘的概念、应用领域、技术方法、挑战和未来发展进行综述。
一、数据挖掘的概念1.1 数据挖掘的定义数据挖掘是指通过应用统计学、机器学习、人工智能等技术,从大规模数据集中提取出实用的信息和模式的过程。
1.2 数据挖掘的目标数据挖掘的目标是通过发现数据中的潜在规律和关联,为决策提供支持,并发现新的商业机会。
1.3 数据挖掘的基本步骤数据挖掘的基本步骤包括问题定义、数据采集和清洗、特征选择和变换、模型构建、模型评估和应用。
二、数据挖掘的应用领域2.1 金融领域数据挖掘在金融领域中被广泛应用,如信用评估、风险管理、欺诈检测等。
2.2 零售领域数据挖掘在零售领域中可以匡助企业进行销售预测、市场细分、推荐系统等。
2.3 医疗领域数据挖掘在医疗领域中可以用于疾病预测、药物研发、医疗资源优化等。
三、数据挖掘的技术方法3.1 分类与预测分类与预测是数据挖掘中常用的技术方法,通过构建模型来预测未来的结果或者分类新的数据。
3.2 聚类分析聚类分析是将数据集中的对象划分为不同的组,使得组内的对象相似度高,组间的相似度低。
3.3 关联规则挖掘关联规则挖掘是寻觅数据集中的频繁项集和关联规则,用于发现数据中的相关性和规律。
四、数据挖掘的挑战4.1 数据质量问题数据挖掘的结果受到数据质量的影响,数据质量不高会导致挖掘结果不许确。
4.2 隐私保护问题在数据挖掘过程中,可能涉及到用户的隐私信息,如何保护用户隐私是一个重要的挑战。
4.3 大数据处理问题随着数据量的增加,如何高效地处理大规模数据成为数据挖掘中的难题。
五、数据挖掘的未来发展5.1 深度学习与数据挖掘的结合深度学习作为一种强大的机器学习方法,与数据挖掘的结合将会进一步提升数据挖掘的能力。
5.2 增强学习的应用增强学习是一种通过试错来优化决策的方法,将其应用于数据挖掘领域可以发现更多的隐藏规律。
大数据分析中的时空数据挖掘与预测模型研究

大数据分析中的时空数据挖掘与预测模型研究一、引言随着信息技术的快速发展和互联网的普及应用,大数据分析作为一种重要的数据分析方法,已经成为研究和应用领域的热点。
在大数据分析中,时空数据挖掘和预测模型是两个重要的研究方向。
本文将重点探讨大数据分析中的时空数据挖掘和预测模型的研究。
二、时空数据挖掘概述时空数据挖掘是指从时空数据中发现并提取有价值的信息和知识的一种方法。
时空数据具有时序性和空间性的特点,可以用于分析和预测各种现象和行为。
时空数据挖掘包括时空数据的预处理、时空模式的挖掘和时空关系的发现等过程。
这些过程可以从多个层面对时空数据进行建模和分析,帮助人们深入了解时空现象的规律和特征。
三、时空数据挖掘方法1. 数据预处理时空数据预处理是时空数据挖掘的第一步,主要目的是清洗和转换数据,以消除数据中的噪声和冗余。
常用的预处理方法包括数据清洗、缺失值处理、异常值检测和数据平滑等。
通过对时空数据进行预处理,可以更好地保证数据的质量和一致性,并为后续的数据分析提供可靠的基础。
2. 时空模式挖掘时空模式挖掘是时空数据挖掘的关键环节。
时空模式是指在时空数据中具有特殊规律或共同特征的数据模式。
时空模式挖掘主要包括聚类分析、关联规则挖掘和时空序列模式挖掘等方法。
通过挖掘时空数据中的模式,可以发现时空现象的规律和趋势,提取有价值的信息和知识。
3. 时空关系发现时空关系发现是指在时空数据中探索和分析不同时空对象之间的关联关系。
时空关系发现可以分为点对点的关联、点对面的关联和面对面的关联等类型。
常用的时空关系发现方法包括空间关联分析、时间关联分析和时空关联分析等。
通过分析时空数据中的关联关系,可以预测未来的时空变化和趋势,为决策提供科学依据。
四、时空数据预测模型时空数据预测模型是基于历史数据和趋势分析的基础上,通过建立数学模型来预测未来时空变化和趋势的一种方法。
时空数据预测模型主要包括时间序列模型、空间插值模型和时空插值模型等。
大数据时代文献综述

大数据时代文献综述近年来,随着信息技术的迅速发展,大数据时代已经来临。
大数据指的是规模庞大、来源多样、处理复杂的数据集合,其数量常常超出传统数据库处理能力。
在大数据时代,我们能够利用这些庞大的数据资源,从中发掘出有用的信息和知识,对于各个领域的发展具有重要的意义。
大数据的应用范围非常广泛,涉及到经济、科学、医疗、金融、社交网络等方方面面。
在经济领域,大数据分析可以帮助企业进行市场预测、消费者行为分析、产品研发等,从而提高企业的竞争力。
在科学领域,大数据可以帮助科学家更好地理解自然界的规律,加快科学研究的进程。
在医疗领域,大数据可以用于疾病预防、诊断和治疗,为患者提供更好的医疗服务。
在金融领域,大数据可以帮助银行和金融机构进行风险评估、信用评级和欺诈检测,提高金融系统的稳定性。
在社交网络领域,大数据可以用于推荐系统、用户行为分析,为用户提供更好的个性化服务。
然而,尽管大数据应用具有巨大的潜力,但也面临着一些挑战。
首先,大数据的处理需要大量的计算资源和存储空间。
其次,大数据涉及到用户隐私和数据安全等问题,如何保护用户的隐私和数据安全成为了亟待解决的问题。
再次,大数据的处理和分析需要专业的技术人才,如何培养和引进这些人才也是一个重要的问题。
此外,大数据时代涉及到法律、伦理等方面的问题,如何解决这些问题也是一个亟待解决的任务。
在大数据时代,有许多研究人员对于大数据的应用进行了广泛的研究。
他们提出了各种各样的方法和技术,用于处理和分析大数据。
其中最重要的一种技术是机器学习。
机器学习是一种通过训练模型来实现数据分析和预测的技术。
通过机器学习,我们可以从大数据中挖掘出有用的信息和知识,从而为决策提供支持。
此外,还有数据挖掘、自然语言处理、图像处理等相关技术,用于处理和分析大数据。
在大数据时代,各种各样的应用案例也被提出。
例如,在医疗领域,通过分析大数据可以预测疾病的发展趋势,提前采取预防措施。
在金融领域,大数据分析可以帮助银行进行风险评估,提高风险管理能力。
数据挖掘算法综述

数据挖掘算法综述数据挖掘算法综述随着信息技术的不断发展,数据量呈现爆炸式增长,如何从海量数据中提取有用的信息成为了一个重要的问题。
数据挖掘技术应运而生,它是一种从大量数据中自动提取模式、关系、规律等信息的技术。
数据挖掘算法是数据挖掘技术的核心,本文将对常用的数据挖掘算法进行综述。
1.分类算法分类算法是数据挖掘中最常用的一种算法,它通过对已知数据进行学习,建立分类模型,然后将未知数据分类到相应的类别中。
常用的分类算法包括决策树、朴素贝叶斯、支持向量机等。
决策树是一种基于树形结构的分类算法,它通过对数据进行分裂,构建一棵树形结构,从而实现对数据的分类。
朴素贝叶斯算法是一种基于贝叶斯定理的分类算法,它假设各个特征之间相互独立,通过计算先验概率和条件概率来进行分类。
支持向量机是一种基于间隔最大化的分类算法,它通过找到一个最优的超平面来实现分类。
2.聚类算法聚类算法是一种将数据分成不同组的算法,它通过对数据进行相似性度量,将相似的数据归为一类。
常用的聚类算法包括K均值、层次聚类、DBSCAN等。
K均值算法是一种基于距离的聚类算法,它通过将数据分成K个簇,使得簇内的数据相似度最大,簇间的数据相似度最小。
层次聚类算法是一种基于树形结构的聚类算法,它通过不断合并相似的簇,最终形成一棵树形结构。
DBSCAN算法是一种基于密度的聚类算法,它通过定义密度可达和密度相连的点来进行聚类。
3.关联规则算法关联规则算法是一种用于挖掘数据中项集之间关系的算法,它通过发现数据中的频繁项集,进而发现项集之间的关联规则。
常用的关联规则算法包括Apriori算法、FP-Growth算法等。
Apriori算法是一种基于频繁项集的关联规则算法,它通过不断扫描数据集,找到频繁项集,然后根据频繁项集生成关联规则。
FP-Growth 算法是一种基于FP树的关联规则算法,它通过构建FP树,发现频繁项集,然后根据频繁项集生成关联规则。
4.异常检测算法异常检测算法是一种用于发现数据中异常值的算法,它通过对数据进行分析,发现与其他数据不同的数据点。
时空大数据的分析与挖掘
时空大数据的分析与挖掘随着互联网和移动通信技术的日新月异,数字化社会的数据规模持续增长。
在此基础上,时空大数据应运而生。
时空大数据是指依靠综合传感、定位、通信、计算、存储和数据挖掘等技术手段所获得的具有时空特征、涉及多个领域、多个层次、多个时段的海量数据。
如何利用这样的数据资源进行分析和挖掘,是21世纪的挑战和机遇。
一、时空大数据的特点时空大数据与传统数据相比,具有以下特点:1.数据规模庞大:时空大数据的数量级非常大,超过一千亿条以上。
由于其容量巨大,非常难以高效地处理和存储。
2.数据类型多样:时空大数据来源广泛,可以是气象、地理、交通、通信、社交网络等各个领域的多维数据信息。
3.数据时效性强:时空大数据因其具有时效性,对数据实时性、准确性要求非常高。
4.数据空间分布广泛:时空大数据的采集需要分布式传感、地理定位等技术的支持。
因此,数据在时间和空间上的分布是不均匀的,例如人口、交通等在城市中心区域的数据要比郊区的数据密度更高。
二、时空大数据的应用1.智慧城市:城市大数据是由城市规划、环境、交通、社会安全、教育和旅游等众多领域的数据信息综合分析而得到的数据状态。
智慧城市是以人为本,将技术与城市管理相结合的新型城市模式。
在这个新型城市中,通过与人工智能、物联网技术相结合,可以实现城市的智能化、高效化、可持续化和公平化。
2.交通运输领域:交通运输体系是城市生命线之一,是社会发展的重要基础。
时空大数据可以帮助交通运输监测、预测、规划和运营,提高交通运输系统的安全性、可靠性和效率,并促进运输管理优化、资源配置合理化、运输体系智能化。
3.应急管理体系:时空大数据可以用于防灾减灾、精准救援和灾后重建等方面。
例如在地震、洪涝等灾害发生时,时空大数据技术可以快速、精准地定位灾区,提升救援效率,并指导灾后重建工作。
三、时空大数据的分析方法1.数据预处理:时空大数据往往是异构分布、不完整、缺失、冗余和噪声等多方面问题,因此需要对时空大数据进行清洗、去重、规整和压缩等预处理。
大数据分析的数据挖掘技术和方法
大数据分析的数据挖掘技术和方法近年来,随着大数据时代的到来,数据分析和数据挖掘技术的研究和应用已经成为一个热门的话题。
大数据分析技术已经被广泛应用于商业、医疗、能源、交通等诸多领域,并取得了良好的应用效果。
本文将聚焦于大数据分析的数据挖掘技术和方法,探讨其优点、技术路线和应用场景,并尝试提出一些问题和展望。
一、数据挖掘技术和方法概述数据挖掘是指从大规模数据集中提取有效信息的过程,是一种基于数据驱动的分析技术。
它通过设计合适的算法和模型,从海量数据中找出数据之间的联系和规律,以支持决策制定、商业预测、产品设计等企业和组织的决策活动。
数据挖掘技术包括关联规则挖掘、分类、聚类、预测和异常检测等方法。
具体来说,常用的数据挖掘技术有:决策树分析、聚类分析、关联规则分析、预测模型和异常检测等。
这些技术的目的都是为了从数据集合中挖掘出对决策和业务有用的信息。
二、大数据分析的技术路线大数据分析的过程主要包括数据采集、数据处理和数据分析三个阶段。
其中,数据采集是指从不同的来源获取数据,包括内部系统数据和外部数据,数据需求会议对数据的采集提出了要求。
数据处理阶段主要针对采集到的数据进行去重、清洗、预处理等处理,以保证数据的完整性和准确性。
数据分析阶段则是将处理后的数据应用于数据挖掘、统计分析、机器学习、深度学习等算法和模型,从而挖掘有价值的信息。
通常情况下,大数据分析的技术路线从数据采集、数据存储、数据预处理、数据挖掘、数据建模、数据可视化六个方面展开。
在这六个方面,数据挖掘、数据建模和数据可视化是大数据分析中的重要环节。
三、大数据分析的应用场景大数据分析技术具有很强的灵活性和适应性,广泛应用于金融、医疗、电子商务、保险、物流等领域。
以金融领域为例,数据挖掘技术能够通过对各类金融数据的挖掘和分析,对股票价格、汇率波动、基金收益等进行预测,帮助投资者实现理财增值。
在医疗领域,大数据分析技术可以运用在疾病预测、诊断和治疗等领域,为医生提供科学的治疗建议。
大数据分析中的时空数据挖掘技术研究
大数据分析中的时空数据挖掘技术研究随着信息化技术的发展,大数据已经成为了一个不可忽视的议题。
在大数据中,时空数据挖掘技术是十分重要的一环。
因为它可以让我们更深刻地理解从不同地点采集的数据、分析历史趋势和预测未来发展趋势。
在本文中,我们将深入探讨大数据分析中的时空数据挖掘技术研究。
一、介绍时空数据挖掘技术是指将地理位置、时间等因素考虑进去,从大大小小的时空数据集中提取有价值的信息,以便更好地理解因果关系、预测趋势和解决实际问题。
与传统数据挖掘不同,时空数据挖掘涉及到许多独特的因素,如空间自相关性、空间异质性、空间物理约束等等。
在实际应用中,时空数据挖掘技术涉及到许多领域,如健康、商业、城市规划、气象预报等等。
通过时空数据挖掘技术,我们可以更深入地理解这些领域中的问题,从而有针对性地解决这些问题。
二、时空数据挖掘技术的主要方法1. 轨迹分析轨迹分析是时空数据挖掘技术的一种主要方法。
它通过分析不同地点采集的数据,推断数据之间的联系。
例如,通过对出租车的GPS数据进行分析,我们可以了解出租车的活动路线和出租车司机的行为习惯。
轨迹分析是利用空间和时间维度的信息来识别潜在的模式,以便更好地理解时间和空间之间的关系。
2. 空间相似性分析空间相似性分析是指使用计算方法来衡量空间中某些对象的相似度。
在此过程中,空间间隔信息起到了关键作用。
例如,在地理信息系统(GIS)中,我们可以分析不同地区之间的相似性,以便更好地理解地区之间的差异。
3. 空间分类器和聚类方法空间分类器和聚类方法是将不同地点的数据进行有意义分类的一种方法。
通过将数据分组,我们可以更好地理解不同地区之间的差异。
例如,在城市规划方面,我们可以使用聚类方法来分析区域划分,以便更好地支持城市规划和发展。
三、时空数据挖掘的应用领域1. 城市规划在城市规划中,时空数据挖掘技术能够帮助城市规划者更好地了解各个区域之间的差异。
通过分析不同地区的数据,我们可以获得更深入的认识,此信息将有助于城市规划者做出更明智的决策。
空间数据挖掘及技术(综述)
01
水质监测
通过挖掘水质监测数据,评估水体质量 状况,为水环境治理和水资源保护提供 依据。
02
03
土壤质量监测
利用空间数据挖掘技术,监测土壤质 量状况,为土地资源保护和农业可持 续发展提供支持。
THANKS
感谢观看
空间聚类分析
将相似的空间对象归为同一类。
空间分类模型
根据已知的空间数据对新的空间对象进行分 类。
空间数据可视化
地图可视化
将空间数据以地图的形式呈现,便于理解和 分析。
三维可视化
利用三维图形技术展示空间数据,提供更直 观的视角。
可视化交互
允许用户通过交互操作来探索和查询空间数 据。
可视化分析工具
提供专业的可视化分析功能,帮助用户深入 挖掘空间数据的价值。
可解释性机器学习
研究如何让机器学习模型产生的结果更容易被人类理解和接受。
数据隐私保护
在空间数据挖掘过程中,保护用户隐私和数据安全是重要的问题,需 要研究如何在保证隐私的前提下进行有效的数据挖掘。
05
空间数据挖掘案例研究
城市规划中的空间数据挖掘应用
城市用地适宜性评价
利用空间数据挖掘技术,对城市用地进行适 宜性评价,为城市规划提供科学依据。
人工智能与机器学习在空间数据挖掘中的应用
深度学习
利用神经网络模型对空间数据进行特征提取和 模式识别,提高挖掘精度和效率。
强化学习
通过与环境的交互学习,自动优化空间数据挖 掘任务中的参数和策略。
迁移学习
将在一个任务上学到的知识应用于其他相关任务,减少重新训练模型的时间和 成本。
空间数据挖掘与其他领域的交叉研究
2
通过空间数据挖掘,可以发现隐藏在空间数据中 的知识,揭示出地理现象的内在规律,为解决实 际问题提供科学依据。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
摘 要: 随着大数据时代的到来,数据挖掘技术再度受到人们关注。本文回顾了传统空间数据挖掘面临的问题,
介绍了国内外研究中利用大数据处理工具和云计算技术,在空间数据的存储、管理和挖掘算法等方面的做法,并
指出了该类研究存在的不足。最后,探讨了空间数据挖掘的发展趋势。
关键词: 大数据; 空间数据挖掘; 云计算
图 2 空间数据挖掘的基本过程 Fig. 2 The basic process of spatial data mining
1. 1 空间挖掘理论和算法研究
经过近年来 的 研 究,空 间 数 据 挖 掘 继 承 和 发 展 相 关 的基础学科( 如机器学习、统计学等) 已有成果,并探索出 独具特色的理论体系,但也存在一些问题,主要表现为以 下几点:
1 传统空间数据挖掘存在的问题
1989 年 8 月于美国底特律市召开的第一届国际联合 人工智能学术 会 议 上,首 次 出 现 了 从 数 据 库 中 发 现 知 识 ( Knowledge Discovery in Database,简称 KDD) 。空间数据 挖掘研究比一般的关系数据库或事务数据库的数据挖掘 研究晚。1994 年在渥太华举行的 GIS 国际会议上,李德 仁院士第一次提出了从 GIS 数据库中发现知识 ( Knowledge Discovery from GIS,简称 KDG) 的概念,并系统分析了 空间知识发现的特点和方法,认为它能够把 GIS 有限的数 据变成无限的知识,精炼和更新 GIS 数据,促使 GIS 成为 智能化的信 息 系 统。 从 此,空 间 数 据 挖 掘 就 成 为 数 据 库 和信息决策领 域 的 一 个 重 要 研 究 方 向,虽 然 取 得 了 一 定 的进展,但还 有 很 多 问 题 需 要 研 究。 空 间 数 据 挖 掘 的 基 本过程如图 2 所示。
2) 空间数据含有随机不确定性和模糊性,但目前的 空间数据挖掘方法对空间数据的不确定性处理还存在一
些问题。有的 方 法 根 本 没 有 考 虑 空 间 数 据 的 不 确 定 性; 有的方法考虑了随机不确定性; 有的方法考虑空间数据 的模糊性。还没有一种方法既能较好地考虑空间数据随 机不确定性又考虑空间数据模糊性。
3) 空间数据挖掘的智能化。目前空间数据挖掘已经 应用了人工神 经 网 络 等 智 能 算 法,但 现 有 的 空 间 数 据 挖 掘系统的智 能 化 程 度 比 较 低,还 需 要 进 一 步 提 高。 例 如 依据数据的特 点 自 动 选 择 合 适 的 挖 掘 算 法,在 此 过 程 中 不需要或者需要少量的人工干预。
2) 空间数据挖掘系统适用范围有限。国际上最著名 且有代 表 性 的 通 用 SDM 系 统 有: GeoMiner,Descartes 和 ArcViewGIS 的 S_PLUS 接口。以上 SDM 系统的共同优点 是可以把传统 DM 与地图可视化结合起来,提供聚类、分 类等多种挖掘 模 式,但 它 们 在 空 间 数 据 的 操 作 上 实 现 方 式不尽相同。Descartes 是专门的空间数据可视化工具, 它和 DM 工具 Kepler 两者联合在一起才能完成 SDM 任 务。GeoMiner 是在 MapInfo 平台上进行二次开发而成,系 统庞大,造成较大的资源浪费。S_PLUS 的局限在于,它 是一种解释性语言( Script) ,功能的实现比用 C 和 C + + 直接实现要慢得多,所以只能在非常小的数据库中使用。
在这些数据 中,与 空 间 位 置 相 关 的 数 据 占 了 绝 大 多 数。传统的空间知识发现的科研模式在大数据情境下已 经不再适用,原 因 是 传 统 的 科 研 模 型 不 具 有 普 适 性 且 支 持的数据量受限,受到数据传输、存储及时效性需求的制 约等。为了从 存 储 在 分 布 方 式、虚 拟 化 的 数 据 中 心 获 取 信息或知识,这 就 需 要 利 用 强 有 力 的 数 据 分 析 工 具 来 将
以上各种获 取 手 段 和 途 径 的 汇 集,就 使 每 天 获 取 的
数据增长量达到 GB 级、TB 级乃至 PB 级。如中国遥感卫 星地面站现在保存的对地观测卫星数据资料达 260 TB, 并以 每 年 15 TB 的 数 据 量 增 长。比 如 2011 年 退 役 的 Landsat5 卫星在其 29 年的在轨工作期间,平均每年获取 8. 6 万景影像,每天获取 67 GB 的观测数据。而 2012 年 发射的资源三号( ZY3) 卫星,每天的观测数据获取量可以 达到 10TB 以上。类似的传感器现在已经大量部署在卫 星、飞机等飞行平台上,未来 10 年,全球天空、地空间部署 的百万计传感器每天获取的观测数据将超过 10 PB。这 预示着一个 时 代 的 到 来,那 就 是 大 数 据 时 代。 大 数 据 具 有“4V”特性,即数据体量大( Volume) 、数据来源和类型 繁多( Variety) 、数据的真实性难以保证( Veracity) 、数据增 加和变化的速度快 ( Velocity) 。对 地 观 测 的 系 统 如 图 1 所示。
1. 2 空间数据挖掘技术研究
目前,在 空 间 数 据 挖 掘 系 统 研 究 过 程 中 存 在 以 下 问题:
1) 空间数据集成问题。许多空间数据集中包含着复 杂的数据类型,如 关 系 型 数 据、半 结 构 化 数 据、非 结 构 化 数据、复杂的 空 间 数 据 对 象、超 文 本 数 据 和 多 媒 体 数 据、 时空数据、视频数据、声音数据等,局域网和广域网、国际 互联网上更是连接了更多的空间数据源并形成了巨大、 变化、分布式、分 层、异 构 的 空 间 数 据 仓 库。 具 有 不 同 数 据语义,来自不同的数据源,随时都有可能改变的空间数 据集,对空间数据挖掘提出了新的挑战,目前并不存在一 个强有力的空间能使数据挖掘系统有效地处理这些复杂 的数据类型。
5) 私有性、安全性与空间数据挖掘问题。知识发现 可能导致对于 私 有 权 的 入 侵,研 究 采 取 哪 些 措 施 防 止 暴 露敏感信息是十分重要的。当从不同角度和不同抽象级 上观察空间 数 据 时,数 据 安 全 性 将 受 到 严 重 威 胁。 这 时 空间数据 保 护 和 空 间 数 据 挖 掘 可 能 会 造 成 一 些 矛 盾 的 结果。
第 37 卷 第 7 期 2014 年 7 月
测绘与空间地理信息
GEOMATICS & SPATIAL INFORMATION TECHNOLOGY
Vol. 37,No. 7 Jul. ,2014
大数据时代的空间数据挖掘综述
马宏斌1 ,王 柯1 ,马团学2
( 1. 信息工程大学 地理空间信息学院,河南 郑州 450000; 2. 空降兵研究所,湖北 孝感 432000)
第7 期
马宏斌等: 大数据时代的空间数据挖掘综述
21
系统不够成熟,属于实验阶段,并未投入实际应用和后续 开发。
4) 空间挖掘方法和用户交互问题。由于不同的用户 可能对不同类 型 的 知 识 感 兴 趣,空 间 数 据 系 统 应 该 覆 盖 范围很广的数 据 分 析 和 知 识 发 现 任 务,在 相 同 的 空 间 数 据上发现不同的知识,有必要提供交互式手段,开发不同 的空间数据 挖 掘 技 术。 而 目 前,空 间 数 据 挖 掘 知 识 发 现 系统普遍交互 性 不 强,在 知 识 发 现 过 程 中 很 难 充 分 有 效 地利用领域专 家 知 识,用 户 不 能 很 好 地 掌 控 空 间 数 据 挖 掘过程。
收稿日期: 2014 - 01 - 22 作者简介: 马宏斌( 1982 - ) ,男,甘肃天水人,作战环境学专业博士研究生,主要研究方向为地理空间信息服务。20ຫໍສະໝຸດ 测绘与空间地理信息2014 年
图 1 对地观测系统 Fig. 1 Earth observation system
数据“坟墓”变成“知识金块”。这一需求使得数据挖掘在 大数据时代 再 度 受 到 人 们 的 重 视。 同 时,大 数 据 时 代 的 研究方法和数据处理技术也给空间数据挖掘研究的发展 带来了新的机遇。
4) 空间数据挖掘质量评价。空间数据挖掘的知识很 多,但挖掘的程度如何、挖掘的效益如何等这些问题目前 还没有进行研究。空间数据挖掘结果可能会发现数以千 计的模式,其中 有 些 模 式 是 错 误 的,对 于 给 定 的 用 户,许 多模式未必是 感 兴 趣 的,因 此,如 何 提 供 给 用 户 有 用 的、 确定的和可表示性的知识是一个需要研究的课题。
0引言
随着地理空 间 信 息 技 术 的 飞 速 发 展,获 取 数 据 的 手 段和途径都得 到 极 大 丰 富,传 感 器 的 精 度 得 到 提 高 和 时 空覆盖范围 得 以 扩 大,数 据 量 也 随 之 激 增。 用 于 采 集 空 间数据的可能 是 雷 达、红 外、光 电、卫 星、多 光 谱 仪、数 码 相机、成像光谱 仪、全 站 仪、天 文 望 远 镜、电 视 摄 像、电 子 显微镜、CT 成像等各种宏观与微观传感器或设备,也可能 是常规的野外测量、人口普查、土地资源调查、地图扫描、 地图数字化、统计图表等空间数据获取手段,还可能是来 自计算机、网络、GPS,RS 和 GIS 等技术应用和分析空间 数据。特别是近些年来,个人使用的、携带的各种传感器 ( 重力感应器、电子罗盘、三轴陀螺仪、光线距离感应器、 温度传感器、红外线传感器等) ,具备定位功能电子设备 的普及,如 智 能 手 机、平 板 电 脑、可 穿 戴 设 备 ( GOOGLE GLASS 和智能手表等) ,使人们在日常生活中产生了大量 具有位置信息的数据。随着志愿者地理信息 ( Volunteer Geographic Information) 的出现,使这些普通民众也加入到 了提供数据者的行列。