大数据时代的空间数据挖掘综述
空间数据挖掘的方法与技巧

空间数据挖掘的方法与技巧随着科技的不断发展,大数据时代已经来临。
而空间数据的挖掘成为了许多领域的重要工作,尤其是在地理信息系统、城市规划和环境科学等领域中。
本文将介绍一些空间数据挖掘的方法和技巧,以期帮助读者更好地理解和应用这一领域。
一、聚类分析方法聚类分析是一种常用的空间数据挖掘方法,用于将相似性较高的数据点或区域归类在一起。
在空间数据中,可以利用聚类分析来寻找相似的地理空间对象。
例如,可以将城市中的商业区划分为相似的集群或群组,以便更好地理解城市发展和市场规划。
在聚类分析中,常用的方法包括k-means算法和DBSCAN算法。
k-means算法是一种基于距离的聚类方法,通过计算数据点之间的距离,并将其划分为k个不同的聚类。
而DBSCAN算法则是一种基于密度的聚类方法,其根据数据点周围的密度来确定聚类结果。
这些算法在空间数据挖掘中都有广泛的应用,并且可以根据具体问题的需求进行调整和优化。
二、空间关联分析方法空间关联分析是一种用于研究空间数据之间的关系的方法。
通过空间关联分析,可以找到空间数据之间的相互依赖性和相关性。
例如,可以研究城市中不同商业设施之间的关联关系,以便更好地理解城市的商业布局。
在空间关联分析中,常用的方法包括空间自相关分析和空间回归分析。
空间自相关分析用于探索空间数据的局部和全局空间依赖性,以及相关因素之间的空间关系。
而空间回归分析则是用于分析空间数据之间的因果关系,并建立空间回归模型。
这些方法可以帮助研究人员深入了解空间数据的内在结构和特征,从而更好地进行预测和规划。
三、地理数据挖掘技巧除了上述的具体方法外,还有一些地理数据挖掘的技巧可以帮助研究人员更好地进行数据分析和推断。
首先是地理数据的预处理。
在进行空间数据挖掘之前,需要对原始数据进行预处理和清洗,以去除噪声和异常值。
同时,还需要进行地理数据的投影和标准化,以便于不同类型的数据进行比较和分析。
其次是空间权重矩阵的构建。
空间权重矩阵是衡量地理空间对象之间相互关系的一种方法。
空间数据挖掘技术的发展与应用

空间数据挖掘技术的发展与应用1. 引言空间数据挖掘技术是指利用数据挖掘算法和技术手段对空间数据中的有价值信息进行提取和分析的过程。
随着科技的不断进步和数据的大规模产生,对空间数据挖掘技术的需求也在逐渐增加。
在本文中,将探讨空间数据挖掘技术的发展与应用。
2. 空间数据挖掘技术的发展2.1 空间数据挖掘的概念与原理空间数据挖掘技术是将数据挖掘技术应用到空间数据中,通过对空间数据的挖掘和分析,挖掘出数据中的潜在规律和有价值的信息。
空间数据挖掘技术的核心任务包括:分类、聚类、关联规则挖掘和异常检测等。
2.2 空间数据挖掘技术的发展历程空间数据挖掘技术的发展可以追溯到上世纪80年代。
在当时,由于计算机技术的限制和数据量的有限,空间数据挖掘技术受到了很多限制。
但随着计算机技术和数据采集技术的不断进步,空间数据挖掘技术发展迅速。
现在,各种针对空间数据挖掘的算法和模型被提出,并且得到了广泛的应用。
3. 空间数据挖掘技术的应用3.1 地理信息系统地理信息系统(Geographic Information System,简称GIS)是空间数据挖掘技术最常见的应用之一。
利用空间数据挖掘技术,可以对地理数据进行分析和挖掘,从而提取出地理数据中的有价值信息。
这些信息可以用于城市规划、环境保护、交通管理等领域。
3.2 物流与交通管理空间数据挖掘技术也被广泛应用于物流与交通管理领域。
通过对交通数据和物流数据的挖掘,可以分析交通流量、相关道路的瓶颈问题,进而优化交通路线和物流方案,提高效率和降低成本。
3.3 智能导航系统智能导航系统是一个利用空间数据挖掘技术的应用。
通过对用户位置数据的挖掘,可以为用户提供个性化的导航服务。
智能导航系统可以根据用户的出行习惯和实时交通状况,提供最佳的导航方案,并且能够根据用户的反馈进行实时调整。
3.4 自然灾害预测与应对空间数据挖掘技术在自然灾害预测与应对方面也发挥着重要的作用。
通过对历史灾害数据的挖掘,可以分析出自然灾害的规律和趋势,提前预测自然灾害的发生概率和影响范围。
数据挖掘综述

数据挖掘综述引言:数据挖掘是一种通过自动或者半自动的方法,从大量数据中发现隐藏在其中的有价值的信息的过程。
随着大数据时代的到来,数据挖掘在各个领域中的应用越来越广泛。
本文将对数据挖掘的概念、应用领域、技术方法、挑战和未来发展进行综述。
一、数据挖掘的概念1.1 数据挖掘的定义数据挖掘是指通过应用统计学、机器学习、人工智能等技术,从大规模数据集中提取出实用的信息和模式的过程。
1.2 数据挖掘的目标数据挖掘的目标是通过发现数据中的潜在规律和关联,为决策提供支持,并发现新的商业机会。
1.3 数据挖掘的基本步骤数据挖掘的基本步骤包括问题定义、数据采集和清洗、特征选择和变换、模型构建、模型评估和应用。
二、数据挖掘的应用领域2.1 金融领域数据挖掘在金融领域中被广泛应用,如信用评估、风险管理、欺诈检测等。
2.2 零售领域数据挖掘在零售领域中可以匡助企业进行销售预测、市场细分、推荐系统等。
2.3 医疗领域数据挖掘在医疗领域中可以用于疾病预测、药物研发、医疗资源优化等。
三、数据挖掘的技术方法3.1 分类与预测分类与预测是数据挖掘中常用的技术方法,通过构建模型来预测未来的结果或者分类新的数据。
3.2 聚类分析聚类分析是将数据集中的对象划分为不同的组,使得组内的对象相似度高,组间的相似度低。
3.3 关联规则挖掘关联规则挖掘是寻觅数据集中的频繁项集和关联规则,用于发现数据中的相关性和规律。
四、数据挖掘的挑战4.1 数据质量问题数据挖掘的结果受到数据质量的影响,数据质量不高会导致挖掘结果不许确。
4.2 隐私保护问题在数据挖掘过程中,可能涉及到用户的隐私信息,如何保护用户隐私是一个重要的挑战。
4.3 大数据处理问题随着数据量的增加,如何高效地处理大规模数据成为数据挖掘中的难题。
五、数据挖掘的未来发展5.1 深度学习与数据挖掘的结合深度学习作为一种强大的机器学习方法,与数据挖掘的结合将会进一步提升数据挖掘的能力。
5.2 增强学习的应用增强学习是一种通过试错来优化决策的方法,将其应用于数据挖掘领域可以发现更多的隐藏规律。
大数据分析中的时空数据挖掘与预测模型研究

大数据分析中的时空数据挖掘与预测模型研究一、引言随着信息技术的快速发展和互联网的普及应用,大数据分析作为一种重要的数据分析方法,已经成为研究和应用领域的热点。
在大数据分析中,时空数据挖掘和预测模型是两个重要的研究方向。
本文将重点探讨大数据分析中的时空数据挖掘和预测模型的研究。
二、时空数据挖掘概述时空数据挖掘是指从时空数据中发现并提取有价值的信息和知识的一种方法。
时空数据具有时序性和空间性的特点,可以用于分析和预测各种现象和行为。
时空数据挖掘包括时空数据的预处理、时空模式的挖掘和时空关系的发现等过程。
这些过程可以从多个层面对时空数据进行建模和分析,帮助人们深入了解时空现象的规律和特征。
三、时空数据挖掘方法1. 数据预处理时空数据预处理是时空数据挖掘的第一步,主要目的是清洗和转换数据,以消除数据中的噪声和冗余。
常用的预处理方法包括数据清洗、缺失值处理、异常值检测和数据平滑等。
通过对时空数据进行预处理,可以更好地保证数据的质量和一致性,并为后续的数据分析提供可靠的基础。
2. 时空模式挖掘时空模式挖掘是时空数据挖掘的关键环节。
时空模式是指在时空数据中具有特殊规律或共同特征的数据模式。
时空模式挖掘主要包括聚类分析、关联规则挖掘和时空序列模式挖掘等方法。
通过挖掘时空数据中的模式,可以发现时空现象的规律和趋势,提取有价值的信息和知识。
3. 时空关系发现时空关系发现是指在时空数据中探索和分析不同时空对象之间的关联关系。
时空关系发现可以分为点对点的关联、点对面的关联和面对面的关联等类型。
常用的时空关系发现方法包括空间关联分析、时间关联分析和时空关联分析等。
通过分析时空数据中的关联关系,可以预测未来的时空变化和趋势,为决策提供科学依据。
四、时空数据预测模型时空数据预测模型是基于历史数据和趋势分析的基础上,通过建立数学模型来预测未来时空变化和趋势的一种方法。
时空数据预测模型主要包括时间序列模型、空间插值模型和时空插值模型等。
大数据时代文献综述

大数据时代文献综述近年来,随着信息技术的迅速发展,大数据时代已经来临。
大数据指的是规模庞大、来源多样、处理复杂的数据集合,其数量常常超出传统数据库处理能力。
在大数据时代,我们能够利用这些庞大的数据资源,从中发掘出有用的信息和知识,对于各个领域的发展具有重要的意义。
大数据的应用范围非常广泛,涉及到经济、科学、医疗、金融、社交网络等方方面面。
在经济领域,大数据分析可以帮助企业进行市场预测、消费者行为分析、产品研发等,从而提高企业的竞争力。
在科学领域,大数据可以帮助科学家更好地理解自然界的规律,加快科学研究的进程。
在医疗领域,大数据可以用于疾病预防、诊断和治疗,为患者提供更好的医疗服务。
在金融领域,大数据可以帮助银行和金融机构进行风险评估、信用评级和欺诈检测,提高金融系统的稳定性。
在社交网络领域,大数据可以用于推荐系统、用户行为分析,为用户提供更好的个性化服务。
然而,尽管大数据应用具有巨大的潜力,但也面临着一些挑战。
首先,大数据的处理需要大量的计算资源和存储空间。
其次,大数据涉及到用户隐私和数据安全等问题,如何保护用户的隐私和数据安全成为了亟待解决的问题。
再次,大数据的处理和分析需要专业的技术人才,如何培养和引进这些人才也是一个重要的问题。
此外,大数据时代涉及到法律、伦理等方面的问题,如何解决这些问题也是一个亟待解决的任务。
在大数据时代,有许多研究人员对于大数据的应用进行了广泛的研究。
他们提出了各种各样的方法和技术,用于处理和分析大数据。
其中最重要的一种技术是机器学习。
机器学习是一种通过训练模型来实现数据分析和预测的技术。
通过机器学习,我们可以从大数据中挖掘出有用的信息和知识,从而为决策提供支持。
此外,还有数据挖掘、自然语言处理、图像处理等相关技术,用于处理和分析大数据。
在大数据时代,各种各样的应用案例也被提出。
例如,在医疗领域,通过分析大数据可以预测疾病的发展趋势,提前采取预防措施。
在金融领域,大数据分析可以帮助银行进行风险评估,提高风险管理能力。
数据挖掘算法综述

数据挖掘算法综述数据挖掘算法综述随着信息技术的不断发展,数据量呈现爆炸式增长,如何从海量数据中提取有用的信息成为了一个重要的问题。
数据挖掘技术应运而生,它是一种从大量数据中自动提取模式、关系、规律等信息的技术。
数据挖掘算法是数据挖掘技术的核心,本文将对常用的数据挖掘算法进行综述。
1.分类算法分类算法是数据挖掘中最常用的一种算法,它通过对已知数据进行学习,建立分类模型,然后将未知数据分类到相应的类别中。
常用的分类算法包括决策树、朴素贝叶斯、支持向量机等。
决策树是一种基于树形结构的分类算法,它通过对数据进行分裂,构建一棵树形结构,从而实现对数据的分类。
朴素贝叶斯算法是一种基于贝叶斯定理的分类算法,它假设各个特征之间相互独立,通过计算先验概率和条件概率来进行分类。
支持向量机是一种基于间隔最大化的分类算法,它通过找到一个最优的超平面来实现分类。
2.聚类算法聚类算法是一种将数据分成不同组的算法,它通过对数据进行相似性度量,将相似的数据归为一类。
常用的聚类算法包括K均值、层次聚类、DBSCAN等。
K均值算法是一种基于距离的聚类算法,它通过将数据分成K个簇,使得簇内的数据相似度最大,簇间的数据相似度最小。
层次聚类算法是一种基于树形结构的聚类算法,它通过不断合并相似的簇,最终形成一棵树形结构。
DBSCAN算法是一种基于密度的聚类算法,它通过定义密度可达和密度相连的点来进行聚类。
3.关联规则算法关联规则算法是一种用于挖掘数据中项集之间关系的算法,它通过发现数据中的频繁项集,进而发现项集之间的关联规则。
常用的关联规则算法包括Apriori算法、FP-Growth算法等。
Apriori算法是一种基于频繁项集的关联规则算法,它通过不断扫描数据集,找到频繁项集,然后根据频繁项集生成关联规则。
FP-Growth 算法是一种基于FP树的关联规则算法,它通过构建FP树,发现频繁项集,然后根据频繁项集生成关联规则。
4.异常检测算法异常检测算法是一种用于发现数据中异常值的算法,它通过对数据进行分析,发现与其他数据不同的数据点。
时空大数据的分析与挖掘

时空大数据的分析与挖掘随着互联网和移动通信技术的日新月异,数字化社会的数据规模持续增长。
在此基础上,时空大数据应运而生。
时空大数据是指依靠综合传感、定位、通信、计算、存储和数据挖掘等技术手段所获得的具有时空特征、涉及多个领域、多个层次、多个时段的海量数据。
如何利用这样的数据资源进行分析和挖掘,是21世纪的挑战和机遇。
一、时空大数据的特点时空大数据与传统数据相比,具有以下特点:1.数据规模庞大:时空大数据的数量级非常大,超过一千亿条以上。
由于其容量巨大,非常难以高效地处理和存储。
2.数据类型多样:时空大数据来源广泛,可以是气象、地理、交通、通信、社交网络等各个领域的多维数据信息。
3.数据时效性强:时空大数据因其具有时效性,对数据实时性、准确性要求非常高。
4.数据空间分布广泛:时空大数据的采集需要分布式传感、地理定位等技术的支持。
因此,数据在时间和空间上的分布是不均匀的,例如人口、交通等在城市中心区域的数据要比郊区的数据密度更高。
二、时空大数据的应用1.智慧城市:城市大数据是由城市规划、环境、交通、社会安全、教育和旅游等众多领域的数据信息综合分析而得到的数据状态。
智慧城市是以人为本,将技术与城市管理相结合的新型城市模式。
在这个新型城市中,通过与人工智能、物联网技术相结合,可以实现城市的智能化、高效化、可持续化和公平化。
2.交通运输领域:交通运输体系是城市生命线之一,是社会发展的重要基础。
时空大数据可以帮助交通运输监测、预测、规划和运营,提高交通运输系统的安全性、可靠性和效率,并促进运输管理优化、资源配置合理化、运输体系智能化。
3.应急管理体系:时空大数据可以用于防灾减灾、精准救援和灾后重建等方面。
例如在地震、洪涝等灾害发生时,时空大数据技术可以快速、精准地定位灾区,提升救援效率,并指导灾后重建工作。
三、时空大数据的分析方法1.数据预处理:时空大数据往往是异构分布、不完整、缺失、冗余和噪声等多方面问题,因此需要对时空大数据进行清洗、去重、规整和压缩等预处理。
大数据分析中的时空数据挖掘技术研究

大数据分析中的时空数据挖掘技术研究随着信息化技术的发展,大数据已经成为了一个不可忽视的议题。
在大数据中,时空数据挖掘技术是十分重要的一环。
因为它可以让我们更深刻地理解从不同地点采集的数据、分析历史趋势和预测未来发展趋势。
在本文中,我们将深入探讨大数据分析中的时空数据挖掘技术研究。
一、介绍时空数据挖掘技术是指将地理位置、时间等因素考虑进去,从大大小小的时空数据集中提取有价值的信息,以便更好地理解因果关系、预测趋势和解决实际问题。
与传统数据挖掘不同,时空数据挖掘涉及到许多独特的因素,如空间自相关性、空间异质性、空间物理约束等等。
在实际应用中,时空数据挖掘技术涉及到许多领域,如健康、商业、城市规划、气象预报等等。
通过时空数据挖掘技术,我们可以更深入地理解这些领域中的问题,从而有针对性地解决这些问题。
二、时空数据挖掘技术的主要方法1. 轨迹分析轨迹分析是时空数据挖掘技术的一种主要方法。
它通过分析不同地点采集的数据,推断数据之间的联系。
例如,通过对出租车的GPS数据进行分析,我们可以了解出租车的活动路线和出租车司机的行为习惯。
轨迹分析是利用空间和时间维度的信息来识别潜在的模式,以便更好地理解时间和空间之间的关系。
2. 空间相似性分析空间相似性分析是指使用计算方法来衡量空间中某些对象的相似度。
在此过程中,空间间隔信息起到了关键作用。
例如,在地理信息系统(GIS)中,我们可以分析不同地区之间的相似性,以便更好地理解地区之间的差异。
3. 空间分类器和聚类方法空间分类器和聚类方法是将不同地点的数据进行有意义分类的一种方法。
通过将数据分组,我们可以更好地理解不同地区之间的差异。
例如,在城市规划方面,我们可以使用聚类方法来分析区域划分,以便更好地支持城市规划和发展。
三、时空数据挖掘的应用领域1. 城市规划在城市规划中,时空数据挖掘技术能够帮助城市规划者更好地了解各个区域之间的差异。
通过分析不同地区的数据,我们可以获得更深入的认识,此信息将有助于城市规划者做出更明智的决策。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第37卷第7期测绘与空间地理信息GEOMATICS &SPATIAL INFORMATION TECHNOLOGYVol.37,No.7收稿日期:2014-01-22作者简介:马宏斌(1982-),男,甘肃天水人,作战环境学专业博士研究生,主要研究方向为地理空间信息服务。
大数据时代的空间数据挖掘综述马宏斌1,王柯1,马团学2(1.信息工程大学地理空间信息学院,河南郑州450000;2.空降兵研究所,湖北孝感432000)摘要:随着大数据时代的到来,数据挖掘技术再度受到人们关注。
本文回顾了传统空间数据挖掘面临的问题,介绍了国内外研究中利用大数据处理工具和云计算技术,在空间数据的存储、管理和挖掘算法等方面的做法,并指出了该类研究存在的不足。
最后,探讨了空间数据挖掘的发展趋势。
关键词:大数据;空间数据挖掘;云计算中图分类号:P208文献标识码:B文章编号:1672-5867(2014)07-0019-04Spatial Data Mining Big Data Era ReviewMA Hong -bin 1,WANG Ke 1,MA Tuan -xue 2(1.Geospatial Information Institute ,Information Engineering University ,Zhengzhou 450000,China ;2.Airborne Institute ,Xiaogan 432000,China )Abstract :In the era of Big Data ,more and more researchers begin to show interest in data mining techniques again.The paper review most unresolved problems left by traditional spatial data mining at first.And ,some progress made by researches using Big Data and Cloud Computing technology is introduced.Also ,their drawbacks are mentioned.Finally ,future trend of spatial data mining is dis-cussed.Key words :big data ;spatial data mining ;cloud computing0引言随着地理空间信息技术的飞速发展,获取数据的手段和途径都得到极大丰富,传感器的精度得到提高和时空覆盖范围得以扩大,数据量也随之激增。
用于采集空间数据的可能是雷达、红外、光电、卫星、多光谱仪、数码相机、成像光谱仪、全站仪、天文望远镜、电视摄像、电子显微镜、CT 成像等各种宏观与微观传感器或设备,也可能是常规的野外测量、人口普查、土地资源调查、地图扫描、地图数字化、统计图表等空间数据获取手段,还可能是来自计算机、网络、GPS ,RS 和GIS 等技术应用和分析空间数据。
特别是近些年来,个人使用的、携带的各种传感器(重力感应器、电子罗盘、三轴陀螺仪、光线距离感应器、温度传感器、红外线传感器等),具备定位功能电子设备的普及,如智能手机、平板电脑、可穿戴设备(GOOGLE GLASS 和智能手表等),使人们在日常生活中产生了大量具有位置信息的数据。
随着志愿者地理信息(Volunteer Geographic Information )的出现,使这些普通民众也加入到了提供数据者的行列。
以上各种获取手段和途径的汇集,就使每天获取的数据增长量达到GB 级、TB 级乃至PB 级。
如中国遥感卫星地面站现在保存的对地观测卫星数据资料达260TB ,并以每年15TB 的数据量增长。
比如2011年退役的Landsat5卫星在其29年的在轨工作期间,平均每年获取8.6万景影像,每天获取67GB 的观测数据。
而2012年发射的资源三号(ZY3)卫星,每天的观测数据获取量可以达到10TB 以上。
类似的传感器现在已经大量部署在卫星、飞机等飞行平台上,未来10年,全球天空、地空间部署的百万计传感器每天获取的观测数据将超过10PB 。
这预示着一个时代的到来,那就是大数据时代。
大数据具有“4V ”特性,即数据体量大(Volume )、数据来源和类型繁多(Variety )、数据的真实性难以保证(Veracity )、数据增加和变化的速度快(Velocity )。
对地观测的系统如图1所示。
在这些数据中,与空间位置相关的数据占了绝大多数。
传统的空间知识发现的科研模式在大数据情境下已经不再适用,原因是传统的科研模型不具有普适性且支持的数据量受限,受到数据传输、存储及时效性需求的制约等。
为了从存储在分布方式、虚拟化的数据中心获取信息或知识,这就需要利用强有力的数据分析工具来将图1对地观测系统Fig.1Earth observation system数据“坟墓”变成“知识金块”。
这一需求使得数据挖掘在大数据时代再度受到人们的重视。
同时,大数据时代的研究方法和数据处理技术也给空间数据挖掘研究的发展带来了新的机遇。
1传统空间数据挖掘存在的问题1989年8月于美国底特律市召开的第一届国际联合人工智能学术会议上,首次出现了从数据库中发现知识(Knowledge Discovery in Database ,简称KDD )。
空间数据挖掘研究比一般的关系数据库或事务数据库的数据挖掘研究晚。
1994年在渥太华举行的GIS 国际会议上,李德仁院士第一次提出了从GIS 数据库中发现知识(Knowl-edge Discovery from GIS ,简称KDG )的概念,并系统分析了空间知识发现的特点和方法,认为它能够把GIS 有限的数据变成无限的知识,精炼和更新GIS 数据,促使GIS 成为智能化的信息系统。
从此,空间数据挖掘就成为数据库和信息决策领域的一个重要研究方向,虽然取得了一定的进展,但还有很多问题需要研究。
空间数据挖掘的基本过程如图2所示。
图2空间数据挖掘的基本过程Fig.2The basic process of spatial data mining1.1空间挖掘理论和算法研究经过近年来的研究,空间数据挖掘继承和发展相关的基础学科(如机器学习、统计学等)已有成果,并探索出独具特色的理论体系,但也存在一些问题,主要表现为以下几点:1)多数空间数据挖掘算法是由一般的数据挖掘算法移植而来,并没有考虑空间数据存储、处理及空间数据本身的特点。
空间数据不同于关系数据库中的数据,它有其特有的空间数据访问方法,因而传统的数据挖掘技术往往不能很好地分析复杂的空间现象和空间对象。
2)空间数据含有随机不确定性和模糊性,但目前的空间数据挖掘方法对空间数据的不确定性处理还存在一些问题。
有的方法根本没有考虑空间数据的不确定性;有的方法考虑了随机不确定性;有的方法考虑空间数据的模糊性。
还没有一种方法既能较好地考虑空间数据随机不确定性又考虑空间数据模糊性。
3)空间数据挖掘的智能化。
目前空间数据挖掘已经应用了人工神经网络等智能算法,但现有的空间数据挖掘系统的智能化程度比较低,还需要进一步提高。
例如依据数据的特点自动选择合适的挖掘算法,在此过程中不需要或者需要少量的人工干预。
4)空间数据挖掘质量评价。
空间数据挖掘的知识很多,但挖掘的程度如何、挖掘的效益如何等这些问题目前还没有进行研究。
空间数据挖掘结果可能会发现数以千计的模式,其中有些模式是错误的,对于给定的用户,许多模式未必是感兴趣的,因此,如何提供给用户有用的、确定的和可表示性的知识是一个需要研究的课题。
5)私有性、安全性与空间数据挖掘问题。
知识发现可能导致对于私有权的入侵,研究采取哪些措施防止暴露敏感信息是十分重要的。
当从不同角度和不同抽象级上观察空间数据时,数据安全性将受到严重威胁。
这时空间数据保护和空间数据挖掘可能会造成一些矛盾的结果。
1.2空间数据挖掘技术研究目前,在空间数据挖掘系统研究过程中存在以下问题:1)空间数据集成问题。
许多空间数据集中包含着复杂的数据类型,如关系型数据、半结构化数据、非结构化数据、复杂的空间数据对象、超文本数据和多媒体数据、时空数据、视频数据、声音数据等,局域网和广域网、国际互联网上更是连接了更多的空间数据源并形成了巨大、变化、分布式、分层、异构的空间数据仓库。
具有不同数据语义,来自不同的数据源,随时都有可能改变的空间数据集,对空间数据挖掘提出了新的挑战,目前并不存在一个强有力的空间能使数据挖掘系统有效地处理这些复杂的数据类型。
2)空间数据挖掘系统适用范围有限。
国际上最著名且有代表性的通用SDM 系统有:GeoMiner ,Descartes 和ArcViewGIS 的S_PLUS 接口。
以上SDM 系统的共同优点是可以把传统DM 与地图可视化结合起来,提供聚类、分类等多种挖掘模式,但它们在空间数据的操作上实现方式不尽相同。
Descartes 是专门的空间数据可视化工具,它和DM 工具Kepler 两者联合在一起才能完成SDM 任务。
GeoMiner 是在MapInfo 平台上进行二次开发而成,系统庞大,造成较大的资源浪费。
S_PLUS 的局限在于,它是一种解释性语言(Script ),功能的实现比用C 和C ++直接实现要慢得多,所以只能在非常小的数据库中使用。
3)没有公认的标准化空间数据挖掘查询语言。
虽然GeoMiner 在Oracle Spatial SQL 语言的基础上设计了GMQL (Geo -Mining Query Language ),方便了空间数据挖掘,但毕竟GeoMiner 只是加拿大Simon 大学开发的,原型02测绘与空间地理信息2014年系统不够成熟,属于实验阶段,并未投入实际应用和后续开发。
4)空间挖掘方法和用户交互问题。
由于不同的用户可能对不同类型的知识感兴趣,空间数据系统应该覆盖范围很广的数据分析和知识发现任务,在相同的空间数据上发现不同的知识,有必要提供交互式手段,开发不同的空间数据挖掘技术。
而目前,空间数据挖掘知识发现系统普遍交互性不强,在知识发现过程中很难充分有效地利用领域专家知识,用户不能很好地掌控空间数据挖掘过程。
5)性能问题。
许多现有的空间数据挖掘算法往往适合于常驻内存的、小数据集的空间数据挖掘,而如今大数据时代,大型空间数据库中存放了TB 级的数据,所有的空间数据无法同时导入内存,所以有效性和可伸缩性是实现空间数据挖掘系统的关键问题。
在大数据时代,以上研究都会遇到数据密集(Data in-tensity )、计算密集(Computing intensity )、并发访问密集(Concurrent intensity )和时空密集(Spatiotemporal intensi-ty )的问题。