环境的时空数据挖掘研究现状与展望

伦敦大学学院时空分析和大数据挖掘授课型研究生申请要求

伦敦大学学院简介学校名称伦敦大学学院学校英文名称University College London 学校位置英国 | 英格兰 | 伦敦 2020 QS 世界排名8 伦敦大学学院概述伦敦大学学院（University College London），英文简称UCL，建校于1826年，位于英国伦敦，世界著名的顶尖高等学府，为享有顶级声誉的综合研究型大学，其排名稳居世界各类权威榜单英国前五。伦敦大学学院位居2020QS世界大学排名世界第8 ，2020泰晤士高等教育世界大学排名世界第15，2020USNews世界大学排名世界第21 ， 2019软科世界大学学术排名（ARWU）世界第15 ，在REF 2014 英国大学官方排名中科研实力以及影响力均位列全英第1 。同时位列2018ARWU学科排名医疗技术世界第2，心理学、人体生命科学世界第3；2019QS学科排名中教育学、建筑学世界第1，人类学、考古学、解剖生理学世界前5 ，时空分析和大数据挖掘专业简介时空分析和大数据挖掘时空分析和大数据挖掘专业相关信息专业名称时空分析和大数据挖掘专业英文名称Spatio-temporal Analytics and Big Data Mining MSc 隶属学院工程科学学院学制1年语言要求雅思6.5（6）托福92（读写24听说20） GMAT/GRE 要求不需要

2020 Fall 申请时间11月学费(当地货币)28,530 时空分析和大数据挖掘课程内容序号课程中文名称课程英文名称 1 * 伦敦大学学院时空分析和大数据挖掘研究生申请要求由 Mastermate 收集并整理，如果发现疏漏，请以学校官网为准

数据挖掘研究现状综述

数据挖掘引言数据挖掘是一门交叉学科，涉及到了机器学习、模式识别、归纳推理、统计学、数据库、高性能计算等多个领域。所谓的数据挖掘（Data Mining）指的就是从大量的、模糊的、不完全的、随机的数据集合中提取人们感兴趣的知识和信息，提取的对象一般都是人们无法直观的从数据中得出但又有潜在作用的信息。从本质上来说，数据挖掘是在对数据全面了解认识的基础之上进行的一次升华，是对数据的抽象和概括。如果把数据比作矿产资源，那么数据挖掘就是从矿产中提取矿石的过程。与经过数据挖掘之后的数据信息相比，原始的数据信息可以是结构化的，数据库中的数据，也可以是半结构化的，如文本、图像数据。从原始数据中发现知识的方法可以是数学方法也可以是演绎、归纳法。被发现的知识可以用来进行信息管理、查询优化、决策支持等。而数据挖掘是对这一过程的一个综合性应用。

目录引言 (1) 第一章绪论 (3) 1.1 数据挖掘技术的任务 (3) 1.2 数据挖掘技术的研究现状及发展方向 (3) 第二章数据挖掘理论与相关技术 (5) 2.1数据挖掘的基本流程 (5) 2.2.1 关联规则挖掘 (6) 2.2.2 .Apriori算法：使用候选项集找频繁项集 (7) 2.2.3 .FP-树频集算法 (7) 2.2.4.基于划分的算法 (7) 2.3 聚类分析 (7) 2.3.1 聚类算法的任务 (7) 2.3.3 COBWEB算法 (9) 2.3.4模糊聚类算法 (9) 2.3.5 聚类分析的应用 (10) 第三章数据分析 (11) 第四章结论与心得 (14) 4.1 结果分析 (14) 4.2 问题分析 (14) 4.2.1数据挖掘面临的问题 (14) 4.2.2 实验心得及实验过程中遇到的问题分析 (14) 参考文献 (14)

时空关联性分析方法研究与应用

时空关联性分析方法研究与应用摘要：随着信息技术、通讯技术、数字存储技术和高速数据获取技术的迅猛发展，在交通、电力、物流、环境监控、工业生产等领域积累了大量与时间和地理空间相关的数据资源，可这些随时随地获取的、呈爆炸性增长的数据资源在给我们带来丰富信息的同时，“数据越丰富，知识越贫乏”的问题则日益突出。近年来，越来越多的学者认识到，通过研究空间对象随时间的变化规律，发现数据的时空关联规则，分析数据的时空变化趋势并预测未来的时空状态，对于规划建设、指挥调度、应急管理、信息服务等具有重要的应用价值。本文研究的目的是面向智能交通领域，在时空关联性分析基础上，利用时空关联规则挖掘方法获取含时空约束的关联规则，从而进行交通拥堵趋势分析，为道路导航、趋势查询、交通控制等提供辅助决策信息。时空关联性分析是研究空间对象随时间的变化规律，反映时空数据在时间和空间上的关联性，时空关联规则挖掘作为时空关联性分析的主要方法之一，目前已有不少学者对其进行了研究或应用。本文详细介绍了时空关联规则挖掘的研究现状，通过分析现有时空关联规则算法在同时考虑时间和空间约束方面的不足，实现了一种新的时空关联规则挖掘方法。文中首先对时空数据进行空间关联性分析和时间段划分形成事务表，然后对空间关联的项集进行连接并产生时空关联规则。在算法执行过程中，对关联规则挖掘相关的阈值进行了分析，使挖掘所得的结果能更好的满足用户的需求。算法分析和实验对比表明，同时考虑时间和空间约束，能够在分析过程中及时过滤不相关的数据，提高时空关联规则的获取效率，能够有效地发现时空关联规则。在理论研究的基础上，本文设计并实现了一个基于时空关联规则分析交通拥堵趋势的原型系统，可有效地实现时空关联性分析和结果的可视化。关键词：时空关联性分析，时空关联规则，可视化，阈值分析，交通拥堵时空关联性分析绪论当前像气象预报、环境监测和交通控制等领域，在问题的求解过程中越来越需要同时考虑时间和空间因素，而时空关联性分析的目标就是明确时空数据的时间有效性和空间可达性，从而在时间和空间上进行有效的趋势分析和预测。时空关联规则挖掘作为时空关联性分析的主要方法之一，将作为本文研究的重点，用时空关联规则挖掘方法来分析含时间和空间约束的时空关联性，从而进行趋势分析与预测。本章首先阐述了时空关联规则的研究背景，并介绍了国内外学者和研究人员在时空关

GIS技术的研究现状及未来发展趋势.

GIS 技术的研究现状及未来发展趋势摘要:GIS 是随着计算机技术发展而形成的一门新兴技术,其应用程度和范围也随之渗透、延伸,得到了人们的广泛关注。该文综述了地理信.息的发展现状,从多个角度分析当前 GIS 技术发展存在的不足,并在此基础上研究分析了 GIS 技术的未来发展趋势。关键词:GIS 研究现状发展趋势 0 引言随着计算机技术的飞速发展、空间技术的日新月异及计算机图形学理论的日渐完善, GIS(Geographic Information System技术也日趋成熟,并且逐渐被人们所认识和接受。近年来, GIS 被世界各国普遍重视,尤其是“数字地球”概念的提出,使其核心技术 GIS 更为各国政府所关注。目前,以管理空间数据见长的 GIS 已经在全球变化与监测、军事、资源管理、城市规划、土地管理、环境研究、农作物估产、灾害预测、交通管理、矿产资源评价、文物保护、湿地制图以及政府部门等许多领域发挥着越来越重要的作用。当前 GIS 正处于急剧发展和变化之中,研究和总结 GIS 技术发展,对进一步开展 GIS 研究工作具有重要的指导意义。因此,本文就目前 GIS 技术的研究现状及未来发展趋势进行总结和分析。 1 GIS 研究现状及其分析 1.1 GIS研究现状世纪 90年代以来,由于计算机技术的不断突破以及其它相关理论和技术的完善, GIS 在全球得到了迅速的发展。在海量数据存储、处理、表达、显示及数据共享技术等方面都取得了显著的成效,其概括起来有以下几个方面 [1]:①硬件系统采用服务器 /客户机结构,初步形成了网络化、分布式、多媒体 GIS ; ②在 GIS 的设计中, 提出了采用“开放的 CIS 环境” 的概念, 最终以实现资源共享、数据共享为目标; ③高度重视数据标准化与数据质量的问题, 并已形成一些较为可行的数据标准; ④ 面向对象的数据库管理系统已经问世, 正在发展称之为“对象 --关系 DBMS (数据库

数据挖掘研究现状及发展趋势

数据挖掘研究现状及发展趋势摘要：从数据挖掘的定义出发，介绍了数据挖掘的神经网络法、决策树法、遗传算法、粗糙集法、模糊集法和关联规则法等概念及其各自的优缺点；详细总结了国内外数据挖掘的研究现状及研究热点，指出了数据挖掘的发展趋势。关键词：数据挖掘；挖掘算法；神经网络；决策树；粗糙集；模糊集；研究现状；发展趋势 Abstract：From the definition of data mining，the paper introduced concepts and advantages and disadvantages of neural network algorithm，decision tree algorithm，genetic algorithm，rough set method，fuzzy set method and association rule method of data mining，summarized domestic and international research situation and focus of data mining in details，and pointed out the development trend of data mining. Key words：data mining，algorithm of data mining，neural network，decision tree，rough set，fuzzy set，research situation，development tendency 1引言随着信息技术的迅猛发展，许多行业如商业、企业、科研机构和政府部门等都积累了海量的、不同形式存储的数据资料[1]。这些海量数据中往往隐含着各种各样有用的信息，仅仅依靠数据库的查询检索机制和统计学方法很难获得这些信息，迫切需要能自动地、智能地将待处理的数据转化为有价值的信息，从而达到为决策服务的目的。在这种情况下，一个新的技术———数据挖掘(Data Mining，DM)技术应运而生[2]。数据挖掘是一个多学科领域，它融合了数据库技术、人工智能、机器学习、统计学、知识工程、信息检索等最新技术的研究成果，其应用非常广泛。只要是有分析价值的数据库，都可以利用数据挖掘工具来挖掘有用的信息。数据挖掘典型的应用领域包括市场、工业生产、金融、医学、科学研究、工程诊断等。本文主要介绍数据挖掘的主要算法及其各自的优缺点，并对国内外的研究现状及研究热点进行了详细的总结，最后指出其发展趋势及问题所在。江西理工大学

空间聚类的研究现状及其应用_戴晓燕

空间聚类的研究现状及其应用＊戴晓燕1　过仲阳1　李勤奋2　吴健平1 (1华东师范大学教育部地球信息科学实验室　上海　200062) (2上海市地质调查研究院　上海　200072) 摘　要　作为空间数据挖掘的一种重要手段,空间聚类目前已在许多领域得到了应用。文章在对已有空间聚类分析方法概括和总结的基础上,结合国家卫星气象中心高分辨率有限区域分析预报系统产品中的数值格点预报(HLAFS)值,运用K-均值法对影响青藏高原上中尺度对流系统(MCS)移动的散度场进行了研究,得到了一些有意义的结论。关键词　空间聚类　K-均值法　散度 1　前言随着GPS、GI S和遥感技术的应用和发展,大量的与空间有关的数据正在快速增长。然而,尽管数据库技术可以实现对空间数据的输入、编辑、统计分析以及查询处理,但是无法发现隐藏在这些大型数据库中有价值的模式和模型。而空间数据挖掘可以提取空间数据库中隐含的知识、空间关系或其他有意义的模式等[1]。这些模式的挖掘主要包括特征规则、差异规则、关联规则、分类规则及聚类规则等,特别是聚类规则,在空间数据的特征提取中起到了极其重要的作用。空间聚类是指将数据对象集分组成为由类似的对象组成的簇,这样在同一簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大,即相异度较大。作为一种非监督学习方法,空间聚类不依赖于预先定义的类和带类标号的训练实例。由于空间数据库中包含了大量与空间有关的数据,这些数据来自不同的应用领域。例如,土地利用、居住类型的空间分布、商业区位分布等。因此,根据数据库中的数据,运用空间聚类来提取不同领域的分布特征,是空间数据挖掘的一个重要部分。空间聚类方法通常可以分为四大类:划分法、层次法、基于密度的方法和基于网格的方法。算法的选择取决于应用目的,例如商业区位分析要求距离总和最小,通常用K-均值法或K-中心点法;而对于栅格数据分析和图像识别,基于密度的算法更合适。此外,算法的速度、聚类质量以及数据的特征,包括数据的维数、噪声的数量等因素都影响到算法的选择[2]。本文在对已有空间聚类分析方法概括和总结的基础上,结合国家卫星气象中心高分辨率有限区域分析预报系统产品中的数值格点预报(HLAFS)值,运用K-均值法对影响青藏高原上中尺度对流系统(MCS)移动的散度场进行了研究,得到了一些有意义的结论。 2　划分法设在d维空间中,给定n个数据对象的集合D 和参数K,运用划分法进行聚类时,首先将数据对象分成K个簇,使得每个对象对于簇中心或簇分布的偏离总和最小[2]。聚类过程中,通常用相似度函数来计算某个点的偏离。常用的划分方法有K-均值(K-means)法和K-中心(K-medoids)法,但它们仅适合中、小型数据库的情形。为了获取大型数据库中数据的聚类体,人们对上述方法进行了改进,提出了K-原型法(K-prototypes method)、期望最大法EM(Expectation Maximization)、基于随机搜索的方法(ClAR ANS)等。 K-均值法[3]根据簇中数据对象的平均值来计算 ——————————————— ＊基金项目:国家自然科学基金资助。(资助号: 40371080) 收稿日期:2003-7-11 第一作者简介:戴晓燕,女,1979年生,华东师范大学地理系硕士研究生,主要从事空间数据挖掘的研究。 · 41 · 2003年第4期上海地质 Shanghai Geology

数据挖掘研究的现状与发展趋势_郑继刚

数据挖掘研究的现状与发展趋势郑继刚,王边疆 (保山学院数学系,云南保山678000) 影响其空间分布的因素之间的关系;预测型的模型用来根据给定的一些属性预测某些属性,如分类模型和回归模型等. 目前,主要在空间数据挖掘的体系结构和挖掘过程做了大量研究,包括面向对象的空间数据库的数据挖掘、模糊空间关联规则的挖掘、不确定性挖掘、聚类挖掘、挖掘空间数据的偏离和演变规则、基于多专题地图的挖掘、交叉概化、基于时空数据的概化、并行数据挖掘、统计分析与数据挖掘的协同和遥感影像的挖掘等,主要采用了基于统计学和概率论、集合论、机器学习、仿生物学、地球信息学的研究方法. 4.2多媒体数据挖掘多媒体数据,包括图形、图像、文本、文档、超文本、声音、视频和音频数据等,数据类型复杂.随着信息技术的进步,人们所接触的数据形式越来越丰富, 多媒体数据的大量涌现,形成了很多海量的多媒体数据库[8].这些数据大多是非结构化数据、异构数据, 特征向量通常是数十维甚至数百维,转化为结构数据和降维成了多媒体数据挖掘的关键技术. 有研究者提出了多媒体数据挖掘的系统原型ＭＤＭＰ,将多媒体数据的建模表示、存储和检索等多媒体数据库技术与数据挖掘技术有机地结合在一起, 采用多媒体图像数据的相似性搜索、多维分析、关联规则挖掘、分类与聚类分析等挖掘方法,广泛地应用于医学影像诊断分析、卫星图片分析、地下矿藏预测等各种领域. 4.3时序数据挖掘时序数据挖掘通过研究信息的时间特性,深入洞悉事物进化的机制,揭示其内在规律(如波动的周期、振幅、趋势的种类等),成为获得知识的有效途径.关键问题是要是寻找一种合适的序列表示方式,基于点距离和关键点是常用的算法,但都不能完整表示出序列的动态属性.时序数据挖掘的主要技术有趋势分析和相似搜索,在宏观的经济预测、市场营销、客流量分析、太阳黑子数、月降水量、河流流量、股票价格波动等众多领域得到了应用.

文献综述_数据挖掘

数据挖掘简介数据挖掘的任务数据挖掘的任务就是从实例集合中找出容易理解的规则和关系。这些规则可以用于预测未来趋势、评价顾客、评估风险或简单地描述和解释给定的数据。通常数据挖掘的任务包括以下几个部分: 数据总结目的是对数据进行浓缩，给出它的紧凑描述。传统的也是最简单的数据总结方法是计算出数据库的各个字段上的求和值、平均值、方差值等统计值，或者用直方图、饼图等图形方式表示。数据挖掘主要关心从数据泛化的角度来讨论数据总结。数据泛化是一种把数据库中的有关数据从低层次抽象到高层次上的过程。数据泛化目前主要有两种技术:多维数据分析方法和面向属性的归纳方法。多维数据分析方法是一种数据仓库技术，也称作联机分析处理(OLAP，onLineAnalysisProeess)。数据仓库是面向决策支持的、集成的、稳定的、不同时间的历史数据集合。决策的前提是数据分析。在数据分析中经常要用到诸如求和、总计、平均、最大、最小等汇集操作，这类操作的计算量特别大。因此一种很自然的想法是，把汇集操作结果预先计算并存储起来，以便于决策支持系统使用。存储汇集操作结果的地方称作多维数据库。多维数据分析技术已经在决策支持系统中获得了成功的应用，如著名的SAS数据分析软件包、Businessobject公司的决策支持系统Businessobjeet，以及IBM公司的决策分析工具都使用了多维数据分析技术。采用多维数据分析方法进行数据总结，它针对的是数据仓库，数据仓库存储的是脱机的历史数据。为了处理联机数据，研究人员提出了一种面向属性的归纳方法。它的思路是，直接对用户感兴趣的数据视图(用一般的SQL查询语言即可获得)进行泛化，而不是像多维数据分析方法那样预先就存储好了泛化数据。方法的提出者对这种数据泛化技术称之为面向属性的归纳方法。原始关系经过泛化操作后得到的是一个泛化关系，它从较高的层次上总结了在低层次上的原始关系。有了泛化关系后，就可以对它进行各种深入的操作而生成满足用户需要的知识，如在泛化关系基础上生成特性规则、判别规则、分类规则，以及关联规则等。数据挖掘的分类数据挖掘所能发现的知识有如下几种: .广义型知识，反映同类事物共同性质的知识; .特征型知识，反映事物各方面的特征知识; .差异型知识，反映不同事物之间属性差别的知识; .关联型知识，反映事物之间依赖或关联的知识; .预测型知识，根据历史的和当前的数据推测未来数据; .偏离型知识。揭示事物偏离常规的异常现象。所有这些知识都可以在不同的概念层次上被发现，随着概念树的提升，从微观到中观再到宏观，以满足不同用户、不同层次决策的需要。例如，从一家超市的数据仓库中，可以发现的一条典型关联规则可能是“买面包和黄油的顾客十有八九也买牛奶”，也可能是“买食品的顾客几乎都用信用卡”，这种规则对于商家开发和实施客户化的销售计划和策略是非常有用的。数据挖掘的方法数据挖掘并非一个完全自动化的过程。整个过程需要考虑数据的所有因素和其预定的效用，然后应用最佳的数据挖掘方法。数据挖掘的方法很重要。在数据挖掘的领域里.有一点已经被广泛地接受，即不管你选择哪种方法，总存在着某种协定。因此对实际情况，应该具体分析，根据累积的经验和优秀的范例选择最佳的方法。数据挖掘中没有免费的午餐，也没

数据挖掘现状与前景

数据挖掘，这是个听起来既神秘，又具有诱惑性的词。就好像要去一片热带沙漠搜寻宝藏，宝藏的诱惑性很强，但是黄沙远处却看不透彻，不知此行是对是错，看到的光亮又是否只是虚幻的海市蜃楼。所以很多学习数据挖掘的，或是想选择数据挖掘方向的人会在是否踏出第一脚时犹豫不决。以下，我们就来分析看看数据挖掘的现状及前景。首先看看百科中数据挖掘的定义：数据挖掘（Data Mining，DM）是目前人工智能和数据库领域研究的热点问题，所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。基于数据挖掘可能产生的巨大价值，我国的各大重点院校都针对数据挖掘开了专业课程以及研究课题，不仅如此，政府以及大型企业也开始重视这一领域，投资人力物力支持数据挖掘项目。或许这样说还不够直观，那就就数字佐证。据IDC对欧洲和北美62家采用了商务智能技术的企业的调查分析发现，这些企业的3年平均投资回报率为401%，其中25%的企业的投资回报率超过600%。调查结果还显示，一个企业要想在复杂的环境中获得成功，高层管理者必须能够控制极其复杂的商业结构，若没有详实的事实和数据支持，是很难办到的。因此，随着数据挖掘技术的不断改进和日益成熟，它必将被更多的用户采用，使更多的管理者得到更多的商务智能。国外如此，那中国呢？随着我国信息化的发展，数据的积累及计算机的广泛应用，加上来自外资企业商业智能数据挖掘应用带来的竞争压力，商业智能及数据挖掘也逐渐在中国也形成了一个产业。随着成功案例的增多，不仅仅是金融保险电信等行业或是政府机构，中小企业也逐渐将商业智能应用于业务之中。信息化时代数据的潜力不容小觑，IT部门一直是企业的核心，而数据挖掘技术更是得到了前所未有的重视和期待。目前我国数据挖掘、商业智能技术的人才培养体系还未健全，而企业对这方面的需求却一直在增长。数据知识发展为核心竞争力是现在及未来必然的形势。因此数据挖掘、商业智能行业的前景还是非常可观的。所以，请坚定勇敢地踏出迈向数据挖掘的那一步吧，然后扎实地学好所需的知识理论及实践技巧，最后所收获到的，或许比你所期待的还多。

基于时空数据挖掘的案事件时空分析研究开题报告

如文档对您有帮助，欢迎下载支持，谢谢！福州大学硕士研究生论文开题报告

一、论文选题依据（包括本课题国内外研究现状述评，研究的理论与实际意义，对科技、经济和社会发展的作用等） 1. 选题依据 1.1研究背景上世纪90年代以来，为适应全球信息高速公路建设的潮流，我国先后启动了面向政府办公业务的十二个重点信息应用系统工程，简称“十二金工程”[1]。公安信息化工程（即“金盾工程”）就是其中重要的业务系统之一。经过十几年的发展，基本实现了以全国犯罪信息中心（CCIC）为核心，以各项公安业务应用为基础的信息共享和综合利用，为各项公安工作提供强有力的信息支持。与此同时，公安信息系统中也积累了海量的业务信息，其中案事件信息达数百万条，且以每年100至120万条的速度递增[2]。然而，面对日益庞大的案事件信息和日趋复杂的犯罪形势，以传统的查询、统计等方法和技术很难发现其中隐藏的关联、规律和发展趋势，数据丰富而知识贫乏在相当程度上制约了打击预防犯罪工作的开展。近年来，大数据成为新的创新、竞争和生产力的前沿领域，基于案事件全量大数据的获取、组织、管理和利用为解决上述问题提供了机遇，提出了挑战。因此，利用案事件大数据，分析、挖掘犯罪在空间和时间上的分布规律和变化趋势，获得其隐含的知识和洞察力，为制定犯罪控制策略、识别犯罪模式、优化警力部署和警区规划等提供科学依据，从而增强公安部门打击预防犯罪的能力，提高警务决策水平，具有重要的意义。 1.2 研究意义案事件的发生与所处的社会、经济、人口和环境之间构成一个复杂系统[3-4]。犯罪问题也是一个复杂的社会问题，受社会环境、经济、人口、文化、心理等多种因素的共同影响，所以可以认为案事件在微观上的技术、手段和宏观上的时空分布规律的变化存在着所处社会环境的表征。以边沁（Jeremy Bentham）为代表的古典犯罪学派和犯罪学之父龙勃罗梭（Cesare Lombroso）开创的实证学派都对犯罪成因做了相关研究。菲利（Enrico Ferri）还系统提出了犯罪原因三元论：人类学因素、自然因素和社会因素[5]，李斯特（Frantz von Liszt）认为自然因素只是社会因素的一种，主张二元论，即社会因素和个人因素[6]。这些理论只能定性地说明和解释犯罪行为产生的原因，包括现代犯罪成因研究采用多元回归等统计方法建立的各种犯罪学模型也只能在一定意义上验证已有理论，定量解释和预测较大时间、空间跨度下犯罪行为的变化趋势[7]，且具有一定的滞后性，而对于小范围、中短期警务决策所起的作用微乎其微。以往对案事件的分布研究主要集中于对犯罪空间集聚情况的识别与探测，对时间信息没有充分利用和深度挖掘[8-9]，越来越多的研究者发现，案事件从大时间尺度到小时间尺度都表现出一些季节性、周期性甚至是昼夜更替的时间分布特征，犯罪时空分布研究领域也越来越受到关注[10]。时空数据挖掘作为一个新兴的研究领域，正致力于开发和应用新兴的计算技术来分析海量、高维的时空数据，揭示时空数据中的有价

数据挖掘在中国的现状和发展研究

数据挖掘在中国的现状和发展研究导读：本文以科学引文索引数据库(SCI)、工程索引数据库(EI)以及清华全文数据库(CNKI)中有关“数据挖掘”研究文章的统计数据为研究基础，对数据挖掘在我国研究的总体趋势、研究热点、研究分支三个方面进行分析和研究。本文分析了数据挖掘在我国的发展，并对进一步发展我国数据挖掘的理论研究和实际应用提出了建议。关键字：数据挖掘 0 引言近年来，随着计算机对数据的生成、收集、存贮和处理能力的大大提高，数据量与日俱增，传统的数据分析工具对海量数据的处理力不从心，数据挖掘技术应运而生。中国科研工作者近几年来积极开展了对数据挖掘的研究，并在理论研究和实际应用上取得了一定的成绩，但是有关数据挖掘的成功应用还比较少。本文通过对中国有关数据挖掘研究文章数量的统计，对数据挖掘在中国发展的现状及发展趋势进行分析和研究，通过分析有关论文的发表，对数据挖掘在中国的理论研究和实际应用提出建议。 1 数据挖掘的应用与研究发展数据挖掘是指从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有用知识的过程。数据挖掘是一门新兴的边缘学科，近年来引起了中国学术界和产业界的广泛关注。数据挖掘出现于20世纪80年代后期，90年代有了突飞猛进的发展。2001年，Gartner Group的一次高级技术调查将数据挖掘和人工智能列为“未来三到五年内将对工业产生深远影响的五大关健技术”之首，并且还将并行处理体系和数据挖掘列为未来五年内投资焦点的十大新兴技术前两位。美国麻省理工学院在2001年1月份的《科技评论》(Technology Review)提出将在未来5年对人类产生重大影响的10大新兴技术，其中第3项就是数据挖掘。数据挖掘技术已被广泛的应用于各个领域，其中一些典型应用如加州理工学院喷气推进实验室与天文科学家合作开发的SKICAT系统，能够帮助天文学家发现遥远的类星体，是人工智能技术在天文学和空间科学上的第一批成功应用之一；生物学研究中用数据挖掘技术对DNA进行分析利用数据挖掘技术识别顾客的购买行为模式，对客户进行了分析；对银行或商业上经常发生的诈骗行为进行预测IBM公司

大数据时代的空间数据挖掘综述

第37卷第7期测绘与空间地理信息 GEOMATICS ＆SPATIAL INFOＲMATION TECHNOLOGY Vol．37，No．7收稿日期：2014－01－22 作者简介：马宏斌（1982－），男，甘肃天水人，作战环境学专业博士研究生，主要研究方向为地理空间信息服务。大数据时代的空间数据挖掘综述马宏斌1 ，王柯1，马团学 2（1．信息工程大学地理空间信息学院，河南郑州450000；2．空降兵研究所，湖北孝感432000）摘要：随着大数据时代的到来，数据挖掘技术再度受到人们关注。本文回顾了传统空间数据挖掘面临的问题，介绍了国内外研究中利用大数据处理工具和云计算技术，在空间数据的存储、管理和挖掘算法等方面的做法，并指出了该类研究存在的不足。最后，探讨了空间数据挖掘的发展趋势。关键词：大数据；空间数据挖掘；云计算中图分类号：P208 文献标识码：B 文章编号：1672－5867（2014）07－0019－04 Spatial Data Mining Big Data Era Ｒeview MA Hong －bin 1，WANG Ke 1，MA Tuan －xue 2 （1．Geospatial Information Institute ，Information Engineering University ，Zhengzhou 450000，China ； 2．Airborne Institute ，Xiaogan 432000，China ） Abstract ：In the era of Big Data ，more and more researchers begin to show interest in data mining techniques again．The paper review most unresolved problems left by traditional spatial data mining at first．And ，some progress made by researches using Big Data and Cloud Computing technology is introduced．Also ，their drawbacks are mentioned．Finally ，future trend of spatial data mining is dis-cussed． Key words ：big data ；spatial data mining ；cloud computing 0引言随着地理空间信息技术的飞速发展，获取数据的手段和途径都得到极大丰富，传感器的精度得到提高和时空覆盖范围得以扩大，数据量也随之激增。用于采集空间数据的可能是雷达、红外、光电、卫星、多光谱仪、数码相机、成像光谱仪、全站仪、天文望远镜、电视摄像、电子显微镜、CT 成像等各种宏观与微观传感器或设备，也可能是常规的野外测量、人口普查、土地资源调查、地图扫描、地图数字化、统计图表等空间数据获取手段，还可能是来自计算机、网络、GPS ，ＲS 和GIS 等技术应用和分析空间数据。特别是近些年来，个人使用的、携带的各种传感器（重力感应器、电子罗盘、三轴陀螺仪、光线距离感应器、温度传感器、红外线传感器等），具备定位功能电子设备的普及，如智能手机、平板电脑、可穿戴设备（GOOGLE GLASS 和智能手表等），使人们在日常生活中产生了大量具有位置信息的数据。随着志愿者地理信息（Volunteer Geographic Information ）的出现，使这些普通民众也加入到了提供数据者的行列。以上各种获取手段和途径的汇集，就使每天获取的数据增长量达到GB 级、 TB 级乃至PB 级。如中国遥感卫星地面站现在保存的对地观测卫星数据资料达260TB ，并以每年15TB 的数据量增长。比如2011年退役的Landsat5卫星在其29年的在轨工作期间，平均每年获取8．6万景影像，每天获取67GB 的观测数据。而2012年发射的资源三号（ZY3）卫星，每天的观测数据获取量可以达到10TB 以上。类似的传感器现在已经大量部署在卫星、飞机等飞行平台上，未来10年，全球天空、地空间部署的百万计传感器每天获取的观测数据将超过10PB 。这预示着一个时代的到来，那就是大数据时代。大数据具有 “4V ”特性，即数据体量大（Volume ）、数据来源和类型繁多（Variety ）、数据的真实性难以保证（Veracity ）、数据增加和变化的速度快（Velocity ）。对地观测的系统如图1所示。在这些数据中，与空间位置相关的数据占了绝大多数。传统的空间知识发现的科研模式在大数据情境下已经不再适用，原因是传统的科研模型不具有普适性且支持的数据量受限，受到数据传输、存储及时效性需求的制约等。为了从存储在分布方式、虚拟化的数据中心获取信息或知识，这就需要利用强有力的数据分析工具来将

讲堂郑宇：多源数据融合与时空数据挖掘(上)

讲堂郑宇：多源数据融合与时空数据挖掘（上）本文根据郑宇博士在中国人工智能学会AIDL第二期人工智能前沿讲习班所作报告《多源数据融合与时空数据》编辑整理而来，在未改变原意的基础上略作了删减。本文转载自“AI科技评论”，转载已获得授权。谢谢介绍，谢谢邀请！大家经常听到的机器学习、人工智能这些概念，大部分应用案例都是在图形图像以及自然语言处理方面，在城市里跟我们生活比较接近的，特别是应用在时空数据的例子比较少。现在我就用城市大数据为例子，来说明一下机器学习如何应用于时空数据领域。大家都知道我们现在生活越来越现代化，但是问题越来越多：交通拥堵、环境恶化、能耗增加。要解决这些问题在很多年前看似几乎不可能，因为城市设置非常复杂，环环相扣，牵一发而动全身，现在由于有了各种传感器技术的成熟和云计算单元的成熟，使得我们有各种各样的大数据，从社交媒体到交通流量，从气象条件到地理信息，如果使用得当的话，我们就能够用这些数据来发现城市面临的问题，并进一步通过组合这些数据来解决我们面临的挑战。基于这样的机遇和挑战，我们在2008年就提出了城市计算这样一个愿景，包括以下四个层面：从下往上（下图）有城市感知数据获取，城市数据的管理，城市数据的分析和挖掘到最后服务的提

供。虽然我们今天主题是叫机器学习，但是我想你们肯定想，机器学习到底能解决什么城市问题。在机器学习真正落地的过程中，可能还要依托于其他的平台甚至于其他的学科，包括数据管理。我就成体系地讲讲到底机器学习算法怎么改变我们生活中的方方面面。从最下面的层面来看，城市数据感知这部分，其实每个层面都发现我们都需要用机器学习的方法来做一些事情，这个层面是概念上划分的，实际说是互相有交集的。城市数据获取我们看城市数据的获取，获取方式主要有两种： ●第一种，以传统传感器为感知的方法●第二种，以人为中心的感知方法第一个，以传统传感器的感知方法进一步可以分成两个子类，要么把传感器放在一些固定的地方，要么把传感器装在一些移动的物体上面，比如说在公交车、出租车上装传感器，但是不管哪一种，一旦装完之后人就不参与了，这个数据自动传到我们后台。另外一个，以人为中心的感知，这是比较新的概念，也叫群体感知，这里面也分成两个方面，一个叫做被动式群体感知，一个叫主动式群体感知。被动式群体感知，每天每个人都在参与，我们并不知道我们打电话的时候，我们的数据可以拿去改进通话网络的质量；我们并不知道我们公交车上下车刷

数据挖掘文献综述

湘潭大学本科生专业文献综述题目: 数据挖掘文献综述姓名: 林勇学院: 信心工程学院学院专业: 自动化班级: 一班学号: 2010550113 指导教师: 张莹

0前言随着计算机技术的迅猛发展，人类正在步入信息社会。面对今天浩如烟海的信息，如何帮助人们有效地收集和选择所感兴趣的信息，更关键的是如何帮助用户在日益增多的信息中自动发现新的概念并自动分析它们之间的关系，使之能够真正地做到信息处理的自动化，这已成为信息技术领域的热点问题。数据挖掘就是为满足这种要求而产生并迅速发展起来的，可用于开发信息资源的一种新的数据处理技术。 1什么是数据挖掘数据挖掘(Data Mining)，也叫数据开采，数据采掘等，是按照既定的业务目标从海量数据中提取出潜在、有效并能被人理解的模式的高级处理过程。在较浅的层次上，它利用现有数据库管理系统的查询、检索及报表功能，与多维分析、统计分析方法相结合，进行联机分析处理，从而得出可供决策参考的统计分析数据。在深层次上，则从数据库中发现前所未有的、隐含的知识。OLAF'的出现早于数据挖掘，它们都是从数据库中抽取有用信息的方法，就决策支持的需要而言两者是相辅相成的。OLAP可以看作一种广义的数据挖掘方法，它旨在简化和支持联机分析，而数据挖掘的目的是便这一过程尽可能自动化。数据挖掘基于的数据库类型主要有：关系型数据库、面向对象数据库、事务数据库、演绎数据库、时态数据库、多媒体数据库、主动数据库、空间数据库、遗留数据库、异质数据库、文本型、Internet信息库以及新兴的数据仓库(Data Warehouse)等。而挖掘后获得的知识包括关联规则、特征规则、区分规则、分类规则、总结规则、偏差规则、聚类规则、模式分析及趋势分析等。 1.1 数据挖掘的任务数据挖掘的两个高层目标是预测和描述。前者指用一些变量或数据库的若干已知字段预测其它感兴趣的变量或字段的未知的或未来的值；后者指找到描述数据的可理解模式。根据发现知识的不同，我们可以将数据挖掘任务归纳为以下几类： (1)特征规则。从与学习任务相关的一组数据中提取出关于这些数据的特征式，这些特征式表达了该数据集的总体特征．例如可以从某种疾病的症状中提取

数据挖掘研究及发展现状

数据挖掘技术的研究现状及发展方向摘要：数据挖掘技术是当前数据库和人工智能领域研究的热点。从数据挖掘的定义出发，介绍了数据挖掘的神经网络法、决策树法、遗传算法、粗糙集法、模糊集法和关联规则法等概念及其各自的优缺点；详细总结了国内外数据挖掘的研究现状及研究热点，指出了数据挖掘的发展方向。关键词：数据挖掘；神经网络；决策树；粗糙集；模糊集；研究现状；发展方向 The present situation and future direction of the data mining technology research Abstract: Data mining technology is hot spot in the field of current database and artificial intelligence. From the definition of data mining, the paper introduced concepts and advantages and disadvantages of neural network algorithm, decision tree algorithm, genetic algorithm, rough set method, fuzzy set method and association rule method of data mining, summarized domestic and international research situation and focus of data mining in details, and pointed out the development trend of data mining. Key words: data mining, neural network, decision tree, rough set, fuzzy set, research situation, development direction 0 引言随着信息技术的迅猛发展，许多行业如商业、企业、科研机构和政府部门等都积累了海量的、不同形式存储的数据资料[1]。这些海量数据中往往隐含着各种各样有用的信息，仅仅依靠数据库的查询检索机制和统计学方法很难获得这些信息，数据和信息之间的鸿沟要求系统地开发数据挖掘工具，将数据坟墓转换成知识金砖，从而达到为决策服务的目的。在这种情况下，一个新的技术——数据挖掘(Data Mining，DM)技术应运而生[2]。数据挖掘正是为了迎合这种需要而产生并迅速发展起来的、用于开发信息资源的、一种新的数据处理技术。数据挖掘通常又称数据库中的知识发现（Knowledge Discovery in Databases），是一个多学科领域，它融合了数据库技术、人工智能、机器学习、统计学、知识工程、信息检索等最新技术的研究成果，其应用非常广泛。只要是有分析价值的数据库，都可以利用数据挖掘工具来挖掘有用的信息。数据挖掘典型的应用领域包括市场、工业生产、金融、医学、科学研究、工程诊断等。本文主要介绍数据挖掘的主要算法及其各自的优缺点，并对国内外的研究现状及研究热点进行了详细的总结，最后指出其发展趋势及问题所在。 1 数据挖掘算法数据挖掘就是从大量的、有噪声的、不完全的、模糊的、随机的实际应用数据中提取有效的、新颖的、潜在有用的知识的非平凡过程[3]。所得到的信息应具有先前未知、有效和实用三个特征。数据挖掘过程如图1所示。这些数据的类型可以是结构化的、半结构化的、甚至是异构型的。发现知识的方法可以是数学的、非数学的、也可以是归纳的。最终被发现了的知识可以用于信息管理、查询优化、决策支持及数据自身的维护等[4]。数据选择：确定发现任务的操作对象,即目标对象；预处理：包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换等；转换：消减数据维数或降维；数据开采：确定开采的任务，如数据总结、分类、聚类、关联规则发现或序列模式发现等，并确定使用什么样的开采算法；解释和评价：数据挖掘阶段发现的模式，经过用户和机器的评价，可能存在冗余或无关的模式，这时需要剔除，使用户更容易理解和应用。十大经典算法如图2：目前，数据挖掘的算法主要包括神经网络法、决策树法、遗传算法、粗糙集法、模糊集法、关联规则法等。

时空数据分析算法及其应用研究

时空数据分析算法及其应用研究空间和时间是现实世界最基本、最重要的属性，许多空间应用系统都需要表达地学对象的时空属性，例如在地理位置变更、环境监测、城市演化等领域都需是术对象的技要管理历史变化数据，以便重建历史、跟踪变化、预测未来。面向实体用在软件设计中的一种方法，它用在时空数据[1]表达中主要是为了克服给定题[2] 。下面从的空间或非空间属性在不同时间不同频率变化而出现的复杂问 KNN、RNN、SkyLine三种时空数据分析算法出发，论述时空数据分析算法的应用。 1、KNN分析算法的基本概述及应用分析 KNN算法是非参数回归模型的基本算法之一，通过在状态空间中搜索与待测点X相近的k个样本(X i ，Y i ) 估计g n(x) ，因此又称为k最近邻非参数回归，其预测函数[3]可表示为 k k Y=g(X)= W i （X；X k1，?，X k k）Y i = k i Y i （1） i 1 i 1 其中X k1．表示与x距离最近的点，并赋予权值k1；X k2则被赋予权值k2；以此 k个权函数k1，k2，?，k k，满足类推，得到 k k1≥k2≥?≥k k≥0，k =1 （2） i i 1 KNN算法通过计算样本个体之间的距离或者相似度来寻找与每个样本个体最相近的K个个体，在这个过程中需要完成一次样本个体的两两比较，所以算法的。时间复杂度，跟样本的个数直接相关 K最近邻算法通常情况下是用于分类的，这只是对K近邻算法用途的本质说明[4]。从实际来看，K近邻算法可以应用的地方还有很多，比如系统推荐等等。简单的讲，就是挖掘出客户喜欢的相同商品，来进行相似物品的推荐。另外区分客户群体，从而使我们更好的为客户服务。下面是KNN分类器构建实例。KNN的实现分训练和识别两步。训练时，把每类样本降维后的结果作为KNN的输入。如图1所示，圆圈表示待识别数据所处的位置，表的类；选择 K 圆中的3个数据，识别结果为三角形代为3时，选中实线选择 K值圆中的5个数据，识别结果为正方形代表的类。值为5时，选中虚线 - 1 -