基于时空数据挖掘的案事件时空分析研究开题报告
数据挖掘技术开题报告

数据挖掘技术开题报告数据挖掘技术开题报告一、引言数据挖掘技术是一种通过从大量数据中发现潜在模式、关联和趋势的方法。
随着互联网的发展和信息技术的进步,我们所面对的数据量呈指数级增长,因此数据挖掘技术的应用变得越来越重要。
本文将探讨数据挖掘技术的概念、应用领域以及挖掘过程中的挑战和方法。
二、数据挖掘技术的概念数据挖掘技术是一种从大规模数据集中提取知识和信息的过程。
它基于统计学、机器学习和数据库技术,通过使用各种算法和模型来发现数据中的隐藏模式和关联规则。
数据挖掘技术可以帮助人们更好地理解数据,预测未来趋势,做出更明智的决策。
三、数据挖掘技术的应用领域1. 商业领域:数据挖掘技术可以帮助企业发现市场趋势、分析客户行为、预测销售量等,从而优化产品定位和市场策略。
2. 医疗领域:通过挖掘医疗数据,可以帮助医生诊断疾病、预测患者风险、提供个性化治疗方案等,提高医疗服务的质量和效率。
3. 金融领域:数据挖掘技术可以用于风险评估、信用评级、欺诈检测等,帮助金融机构更好地管理风险和提供个性化的金融服务。
4. 社交媒体:通过挖掘社交媒体数据,可以了解用户兴趣、社交网络结构等,从而优化广告投放和个性化推荐。
四、数据挖掘的过程数据挖掘的过程可以分为以下几个步骤:1. 数据收集:收集需要挖掘的数据,可以是结构化数据(如数据库中的表格)或非结构化数据(如文本、图像等)。
2. 数据预处理:对数据进行清洗、集成、转换和规范化,以去除噪声和冗余,使数据适合挖掘。
3. 特征选择:选择最相关的特征,以减少数据维度和提高挖掘效果。
4. 模型选择与建立:选择适合的数据挖掘算法和模型,并根据实际情况建立模型。
5. 模型评估与优化:对建立的模型进行评估和优化,以提高预测准确性和可解释性。
6. 结果解释与应用:解释挖掘结果,并将其应用于实际问题中,为决策提供支持。
五、数据挖掘的挑战和方法在数据挖掘过程中,会面临以下挑战:1. 数据质量:数据可能存在噪声、缺失值和不一致性,需要进行数据清洗和预处理。
时空数据分析开题报告(3篇)

第1篇一、课题背景与意义随着信息技术的飞速发展,时空数据已成为现代城市规划、交通管理、环境监测、灾害预警等领域的重要数据资源。
时空数据分析作为一种跨学科的研究方法,旨在挖掘时空数据中的潜在规律,为决策提供科学依据。
本课题旨在研究时空数据分析的方法、技术及其在相关领域的应用,具有重要的理论意义和应用价值。
二、国内外研究现状1. 国外研究现状国外在时空数据分析领域的研究起步较早,已经形成了一套较为成熟的理论体系和技术方法。
例如,美国地理信息系统协会(AGILE)和欧洲地理信息系统协会(EURISA)等组织在时空数据分析方面开展了大量的研究工作。
国外的研究主要集中在以下几个方面:- 时空数据模型与表示方法:如时空立方体、时空数据流等。
- 时空数据挖掘与可视化:如时空关联规则挖掘、时空聚类分析等。
- 时空数据管理:如时空数据库、时空数据索引等。
2. 国内研究现状近年来,我国在时空数据分析领域也取得了显著成果。
国内的研究主要集中在以下几个方面:- 时空数据建模与处理:如时空数据压缩、时空数据质量评估等。
- 时空数据分析方法:如时空趋势分析、时空异常检测等。
- 时空数据应用:如城市规划、交通管理、环境监测等。
三、研究内容本课题拟研究以下内容:1. 时空数据模型与表示方法- 研究时空数据的基本概念、属性和特征。
- 探讨时空数据模型的设计与实现,如时空立方体、时空数据流等。
- 分析时空数据的表示方法,如时间序列、空间网格等。
2. 时空数据分析方法- 研究时空数据挖掘的基本方法,如关联规则挖掘、聚类分析等。
- 探讨时空数据的可视化技术,如时空地图、时空轨迹等。
- 研究时空数据的异常检测方法,如时空异常点检测、时空异常区域检测等。
3. 时空数据应用- 分析时空数据在城市规划、交通管理、环境监测等领域的应用需求。
- 研究时空数据在灾害预警、应急救援等领域的应用技术。
- 探讨时空数据在智慧城市、智能交通等领域的应用前景。
时空数据分析开题报告

时空数据分析开题报告时空数据分析开题报告一、引言时空数据分析是一种重要的数据分析方法,它将时空信息与数据分析技术相结合,可以帮助我们深入了解时空变化的规律和趋势。
本文将探讨时空数据分析的背景、意义,以及研究目标和方法。
二、背景与意义随着信息技术的发展和数据的快速积累,我们面临着大量的时空数据,例如地理信息系统(GIS)数据、移动设备定位数据等。
这些数据蕴含着丰富的时空信息,可以帮助我们更好地理解和解决许多实际问题,如城市规划、交通管理、疾病传播等。
然而,如何从这些海量的时空数据中提取有用的信息,成为了一个亟待解决的问题。
时空数据分析的意义在于,它可以帮助我们揭示时空数据背后的规律和趋势,为决策提供科学依据。
通过对时空数据的分析,我们可以了解不同地区、不同时间段的特点和变化趋势,进而优化资源配置、预测未来发展趋势,提供决策支持。
三、研究目标本研究的目标是利用时空数据分析方法,探索城市交通拥堵问题的规律和解决方案。
具体而言,我们将通过分析城市交通数据,挖掘交通拥堵的时空分布特征,找出影响交通拥堵的主要因素,并提出相应的优化策略。
四、研究方法1. 数据采集与预处理我们将从城市交通管理部门获取交通流量、速度等数据,并结合地理信息系统数据,构建城市交通网络模型。
在数据预处理阶段,我们将对数据进行清洗、去噪和校正,以确保数据的准确性和可靠性。
2. 时空数据分析方法我们将采用多种时空数据分析方法,包括时空聚类、时空关联分析、时空预测等。
通过时空聚类,我们可以将城市交通数据划分为不同的拥堵模式,进一步了解拥堵的时空分布特征。
时空关联分析可以帮助我们找出交通拥堵的主要因素,如道路状况、交通信号等。
时空预测则可以帮助我们预测未来的交通拥堵情况,为交通管理部门提供决策支持。
3. 优化策略提出与评估基于时空数据分析的结果,我们将提出一系列优化策略,包括道路改造、交通信号优化、交通管制等。
同时,我们将利用仿真模型对这些策略进行评估,以确定其对交通拥堵的影响和效果。
数据挖掘开题报告

数据挖掘开题报告数据挖掘开题报告在当今信息爆炸的时代,大数据已经成为了各个领域的关键词之一。
然而,海量的数据中蕴含着大量有价值的信息,如何从中提取出这些信息并进行分析,成为了一个重要的课题。
数据挖掘作为一种重要的技术手段,被广泛应用于商业、医疗、金融等领域。
本文将就数据挖掘的概念、应用领域和方法进行探讨。
一、数据挖掘的概念数据挖掘是指从大量数据中发现隐藏在其中的模式、关联和规律的过程。
它是通过运用统计学、机器学习和人工智能等技术,对数据进行分析和建模,以帮助人们做出决策、预测未来趋势、发现新的商机等。
数据挖掘的目标是从数据中提取有价值的信息,并将其转化为可用的知识。
二、数据挖掘的应用领域1. 商业领域在商业领域,数据挖掘被广泛应用于市场营销、客户关系管理、销售预测等方面。
通过对客户数据的挖掘,企业可以了解客户的购买习惯、喜好和需求,从而制定针对性的营销策略。
同时,数据挖掘还可以帮助企业预测销售趋势,优化供应链管理,提高运营效率。
2. 医疗领域在医疗领域,数据挖掘可以帮助医生发现疾病的早期预警信号、预测疾病的发展趋势,为患者提供个性化的治疗方案。
此外,数据挖掘还可以帮助医院进行资源调配,优化医疗服务流程,提高医疗质量和效率。
3. 金融领域在金融领域,数据挖掘可以帮助银行和保险公司进行风险评估和欺诈检测。
通过对客户的交易数据进行分析,可以发现异常交易行为,及时采取措施防止欺诈事件的发生。
此外,数据挖掘还可以帮助金融机构预测股市走势、优化投资组合,提高投资收益。
三、数据挖掘的方法数据挖掘的方法包括分类、聚类、关联规则挖掘等。
1. 分类分类是将数据集划分为若干类别的过程。
常见的分类算法有决策树、朴素贝叶斯、支持向量机等。
分类算法可以用于预测客户的购买意向、判断疾病的类型等。
2. 聚类聚类是将数据集中的对象划分为若干个组的过程。
聚类算法可以帮助人们发现数据集中的潜在分组结构,如将顾客划分为不同的购买群体。
基于机器学习的时空数据挖掘与分析技术研究

基于机器学习的时空数据挖掘与分析技术研究近年来,随着互联网和大数据的快速发展,时空数据的获取和应用变得日益重要。
时空数据挖掘与分析技术是一种利用机器学习方法对时空数据进行挖掘和分析的技术手段,它能够揭示时空数据中的模式、规律和关联性,对于决策支持、城市规划、移动互联网等领域具有重要意义。
时空数据包含时序数据和空间数据两个维度。
时序数据是指随时间变化的数据,比如气象信息、股票交易数据等;而空间数据则是指地理位置相关的数据,比如卫星遥感数据、交通流量数据等。
时空数据挖掘与分析的目标是在时序和空间的双重维度中发现隐藏在数据背后的潜在信息。
机器学习是一种实现自动化数据分析的方法,通过算法让计算机能够从数据中学习特征和模式,从而实现模型的构建和预测。
与传统的统计方法相比,机器学习拥有更高的自适应性和泛化能力,在时空数据挖掘与分析中具有广泛应用。
在时空数据挖掘与分析中,常用的机器学习算法包括聚类分析、分类分析和预测分析。
其中,聚类分析是将相似的样本数据划分为不同的群组,以揭示样本数据的内在结构和特征;分类分析则是利用已经分类好的训练数据,根据数据的特征将未分类数据进行分类;预测分析则是通过对当前数据的学习,预测未来的数据走势和变化。
在时空数据挖掘与分析技术中,还有一些特殊的方法和技术被广泛运用。
例如,时空关联规则挖掘是利用关联规则挖掘技术在时空维度上发现数据之间的关联性,以实现数据的预测和决策支持;时空数据压缩则是将大规模的时空数据进行有损或无损的压缩,既能减少存储空间,又能保留原始数据的关键特征。
时空数据挖掘与分析技术在许多领域都有广泛的应用。
例如,在城市规划和交通管理中,利用时空数据挖掘与分析技术可以实现城市交通流量的预测和拥堵状况的监测,从而提高交通运输的效率和安全性;在环境保护领域,通过时空数据挖掘与分析技术,可以实现对大气污染、水质污染等环境问题的预测和监测;在风险管理和金融领域,时空数据挖掘与分析技术可以用于风险评估、信用评级和金融市场预测等方面。
开题报告范文基于机器学习的XX数据挖掘与分析

开题报告范文基于机器学习的XX数据挖掘与分析开题报告范文:基于机器学习的XX数据挖掘与分析1. 研究背景与意义数据挖掘与分析是当今信息时代的重要课题,通过运用机器学习算法,可以挖掘海量数据中潜在的规律和价值信息。
XX数据作为一种新兴的数据类型,具有广泛的应用前景和商业价值。
本研究旨在运用机器学习技术,对XX数据进行挖掘与分析,以发现其中的隐藏知识和模式,为决策者提供科学依据,推动相关领域的发展。
2. 研究目标与内容本研究的主要目标是基于机器学习技术,实现对XX数据的挖掘与分析。
具体来说,包括以下几个方面的内容:(1)收集与整理XX数据:通过各种途径获取XX数据,并对其进行清洗、归纳与整理。
(2)建立机器学习模型:选择合适的机器学习算法,建立XX数据挖掘与分析模型,并对模型进行训练与测试。
(3)分析与挖掘XX数据:运用所建立的机器学习模型,对XX数据进行分析和挖掘,发现其中的有价值的信息和知识。
(4)结果评估与应用:对挖掘结果进行评估与验证,并将其应用于相关领域,提供决策支持和应用推广。
3. 研究方法与技术路线(1)数据收集与整理:通过调研、实地采集、网络爬虫等方式,获取XX数据,并进行清洗、预处理,包括数据去重、缺失值处理、异常值处理等。
(2)机器学习算法选择与模型建立:针对XX数据的特点,选择合适的机器学习算法,包括分类算法、聚类算法、关联规则算法等。
通过对数据集的训练和优化,建立适合XX数据的挖掘与分析模型。
(3)XX数据分析与挖掘:基于建立好的机器学习模型,对XX数据进行分析和挖掘,发现其中的规律和模式。
包括特征选择、模式挖掘、异常检测等。
(4)结果评估与应用:对挖掘结果进行评估和验证,通过对比实际情况和模型预测结果的差异,评估模型的准确性和可靠性。
将挖掘结果应用于相关领域,为决策者提供科学依据和决策支持。
4. 预期成果与创新点本研究的预期成果包括:(1)建立适用于XX数据的机器学习模型,实现对数据的挖掘与分析;(2)发现XX数据中的隐藏知识和模式,为相关领域的决策者提供科学依据;(3)通过对挖掘结果的评估和应用推广,验证模型的准确性和可靠性。
时空数据模型的建模研究与应用的开题报告

时空数据模型的建模研究与应用的开题报告一、选题背景和意义时空数据模型是指一种将时空数据与地理信息进行整合、分析与管理的数据模型。
它广泛应用于城市规划、农业、气象、环保、公共服务等领域,对于提高决策效率、推进社会发展、改善生态环境等具有重要的作用。
目前,随着移动互联网与大数据时代的到来,时空数据模型的研究与应用已经成为了各个领域的热点问题。
二、研究目标和内容本文旨在研究时空数据模型的建模方法和应用技术,探讨其在城市规划、农业、气象、环保、公共服务等领域中的具体应用。
具体研究内容包括:(1)时空数据模型的基本概念和构成要素。
介绍时空数据模型的定义、结构、特点和应用范围。
(2)时空数据的获取和处理方法。
阐述时空数据获取的方式、处理的流程以及相关技术手段。
(3)时空数据模型的建模方法。
介绍时空数据模型的建模原则、建模工具、建模语言等方面的内容。
(4)时空数据模型在城市规划、农业、气象、环保、公共服务等领域中的应用。
详细分析时空数据模型在各个领域中的应用场景、实现方法和效果。
(5)案例分析和结论总结。
选取具体的案例进行分析,在此基础上总结时空数据模型在各个领域中的应用效果和发展前景。
三、研究方法和技术路线本文采用文献法和实证法相结合的研究方法,为此,将进行以下步骤:(1)收集相关文献和数据。
使用学术搜索引擎检索国内外相关论文和专著、收集时空数据资源。
(2)分析和整理文献资料。
对文献资料进行逐一筛选,撰写读书笔记,整理时空数据。
(3)建立时空数据模型。
详细论述时空数据模型的建模方法和建模技术,利用专业软件建立时空数据模型。
(4)实现时空数据的应用。
研究时空数据模型在城市规划、农业、气象、环保、公共服务等领域中的应用实例。
(5)总结结论。
对本文研究内容进行总结,归纳出时空数据模型的发展趋势和未来研究方向。
四、预期成果和创新点(1)全面系统介绍了时空数据模型在各个领域中的应用,对于相关领域的从业人员具有一定的指导意义。
大数据处理中的时空分析与挖掘技术研究

大数据处理中的时空分析与挖掘技术研究在大数据时代,信息的获取、分析和应用已经成为企业竞争的重要手段。
而在大数据处理中,时空分析与挖掘技术则显得更为重要。
因为,很多数据都涉及到时间和空间的因素,而如何从中提取出有用的信息,进而发挥应用价值,则需要一定的时空分析与挖掘技术的支持。
下面将从数据之中的时空特征、时空数据预处理、时空数据挖掘和时空数据可视化四个方面,来探讨大数据处理中的时空分析与挖掘技术研究。
一、数据之中的时空特征时空数据是指利用时间和空间两个要素来描述现实世界的所有数据信息。
例如,交通车辆行驶轨迹、气象监测数据、人口分布等都是时空数据。
对时空数据的分析,需要考虑数据的时空特征,即时间和空间的两个因素在数据中的体现和影响。
时间特征体现在数据中的时间维度,包括时间精度、时间间隔、周期性等。
空间特征则体现在数据中的空间维度,包括空间尺度、空间分布、空间关系等。
只有深刻掌握时空特征,才能在大数据处理中实现更加准确、高效的数据挖掘和分析。
二、时空数据预处理与非时空数据相比,时空数据在处理和分析时需要特别注意时间和空间因素的影响。
首先,时空数据会涉及到采样和采集的时间和空间分布问题。
例如,气象监测数据的采集时间、地理位置等因素都会对最后的数据效果产生影响。
其次,时空数据必须进行有效的筛选和清洗,以保证数据的有效性和精度。
例如,在进行交通流量预测时,需要清洗无效数据和异常值,保障模型的正确性。
此外,时空数据的预处理还需要进行有效的数据结构化和格式化,以便后续的数据挖掘和分析能够顺利进行。
例如,将时空数据转换成空间坐标系和时间序列等形式,以便于后续的时间序列分析和空间统计分析。
三、时空数据挖掘时空数据挖掘是指利用数据挖掘技术对时间和空间因素进行分析和挖掘,从而发现其中所蕴含的信号和模式。
例如,可以利用时空数据挖掘技术进行异常检测、趋势分析、分类归类等分析。
这些分析将有助于企业进行业务规划、市场营销等工作,并提高企业的竞争力和经济效益。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
如文档对您有帮助,欢迎下载支持,谢谢!福州大学硕士研究生论文开题报告一、论文选题依据(包括本课题国内外研究现状述评,研究的理论与实际意义,对科技、经济和社会发展的作用等)1. 选题依据1.1研究背景上世纪90年代以来,为适应全球信息高速公路建设的潮流,我国先后启动了面向政府办公业务的十二个重点信息应用系统工程,简称“十二金工程”[1]。
公安信息化工程(即“金盾工程”)就是其中重要的业务系统之一。
经过十几年的发展,基本实现了以全国犯罪信息中心(CCIC)为核心,以各项公安业务应用为基础的信息共享和综合利用,为各项公安工作提供强有力的信息支持。
与此同时,公安信息系统中也积累了海量的业务信息,其中案事件信息达数百万条,且以每年100至120万条的速度递增[2]。
然而,面对日益庞大的案事件信息和日趋复杂的犯罪形势,以传统的查询、统计等方法和技术很难发现其中隐藏的关联、规律和发展趋势,数据丰富而知识贫乏在相当程度上制约了打击预防犯罪工作的开展。
近年来,大数据成为新的创新、竞争和生产力的前沿领域,基于案事件全量大数据的获取、组织、管理和利用为解决上述问题提供了机遇,提出了挑战。
因此,利用案事件大数据,分析、挖掘犯罪在空间和时间上的分布规律和变化趋势,获得其隐含的知识和洞察力,为制定犯罪控制策略、识别犯罪模式、优化警力部署和警区规划等提供科学依据,从而增强公安部门打击预防犯罪的能力,提高警务决策水平,具有重要的意义。
1.2 研究意义案事件的发生与所处的社会、经济、人口和环境之间构成一个复杂系统[3-4]。
犯罪问题也是一个复杂的社会问题,受社会环境、经济、人口、文化、心理等多种因素的共同影响,所以可以认为案事件在微观上的技术、手段和宏观上的时空分布规律的变化存在着所处社会环境的表征。
以边沁(Jeremy Bentham)为代表的古典犯罪学派和犯罪学之父龙勃罗梭(Cesare Lombroso)开创的实证学派都对犯罪成因做了相关研究。
菲利(Enrico Ferri)还系统提出了犯罪原因三元论:人类学因素、自然因素和社会因素[5],李斯特(Frantz von Liszt)认为自然因素只是社会因素的一种,主张二元论,即社会因素和个人因素[6]。
这些理论只能定性地说明和解释犯罪行为产生的原因,包括现代犯罪成因研究采用多元回归等统计方法建立的各种犯罪学模型也只能在一定意义上验证已有理论,定量解释和预测较大时间、空间跨度下犯罪行为的变化趋势[7],且具有一定的滞后性,而对于小范围、中短期警务决策所起的作用微乎其微。
以往对案事件的分布研究主要集中于对犯罪空间集聚情况的识别与探测,对时间信息没有充分利用和深度挖掘[8-9],越来越多的研究者发现,案事件从大时间尺度到小时间尺度都表现出一些季节性、周期性甚至是昼夜更替的时间分布特征,犯罪时空分布研究领域也越来越受到关注[10]。
时空数据挖掘作为一个新兴的研究领域,正致力于开发和应用新兴的计算技术来分析海量、高维的时空数据,揭示时空数据中的有价值知识[11]。
基于时空数据挖掘技术,从空间与时间视角观察犯罪问题,揭示其时空分布模式及内在关系,并探索案事件中短期分布预测方法,运用后期数据验证预测的准确性,使犯罪预防控制成为可能。
本文的研究将为案事件大数据分析应用研究提供经验和和思路,具有一定的理论意义与较大的实用价值。
2. 文献综述2.1 数据挖掘概述数据挖掘(data mining)是数据库知识发现(knowledge discovery in database, KDD)不可缺少的一部分,融合了数据库技术、机器学习、统计学、信息科学、可视化技术等多领域的理论和技术。
数据挖掘是从海量、高维和复杂的原始数据中自动的发现隐含规律和潜在的有用信息,抽取出模式并进行预测,以提供决策支持的过程[12-13]。
一般说来,数据挖掘可以分为四个步骤:(1)将与研究问题相关的数据库数据、数据仓库数据和事务数据进行预处理,实现数据的整合;(2)综合利用数据挖掘中的各种分类、关联、聚类、异常检测方法进行数据分析和模式提取,获得描述性(descriptive)和预测性(predictive)的知识;(3)利用可视化技术表达挖掘过程和结果,形象地解释研究对象的特征、关系以及演变规律;(4)对数据挖掘的结果进行分析与评估。
从1995年美国计算机年会(ACM)上正式提出“数据挖掘”这个概念以来,学术界对数据挖掘和知识发现理论与方法的研究已日臻成熟,相关学术会议不断推动着研究的交流与发展,具有代表性的如:ACM SIGKDD知识发现与数据挖掘国际会议(KDD)、IEEE数据挖掘国际会议(ICDM)、SIAM数据挖掘国际会议(SDM)等。
随着大数据时代的来临,越来越多的商业应用成为推动数据挖掘技术发展的关键因素,涉及零售业、金融业、电信业、互联网、医疗等领域。
近年来,数据挖掘技术研究得到迅猛发展,新的技术方法不断涌现,跨学科的综合应用使得数据挖掘扩展到很多新的研究领域。
数据流挖掘技术、时空数据挖掘技术、移动对象挖掘技术、Web挖掘技术、社交网络分析和图挖掘研究等正逐渐成为数据挖掘领域的研究热点[14]。
2.2 时空数据挖掘研究现状空间位置、属性特征和时域特征是地理空间分析的三大基本要素,同时也是时空数据的基本特征[15]。
时空数据是对现实世界中时空特征和过程的抽象概括[16]。
随着3S(GPS、GIS、RS)技术、传感器技术、移动通信和互联网技术的飞速发展,人类积累了海量的时空数据,这些数据呈现出复杂的时空关系。
根据数据挖掘的定义,并结合时空数据的特征我们可以将时空数据挖掘可以定义为:从组织具有海量、不完全、高维、随机、有噪声和非线性等特征的时空数据出发,利用各种数据分析方法、技术和模型,提取出隐含的、潜在有用的隐式或显式知识的过程。
时空数据挖掘的研究融合了空间数据挖掘和时态数据挖掘的理论和方法,以传统的数据挖掘和空间分析理论为基础,它与空间数据挖掘的主要区别见表1-1。
时空数据挖掘研究大都采用两种方式:在空间数据挖掘加入时间变量和在时态数据挖掘中结合空间分析,但是真正将两者结合进行数据挖掘的研究较少[17]。
表1-1时空数据挖掘和空间数据挖掘的比较Roddick(1999)对时空数据挖掘的体系结构做了较为全面的归纳与综述,明确了时空模式发现、时空聚类、时空异常检测、时空预测和分类几大主要挖掘任务,这也是国内外学术界主要的几大研究方向[18]。
在时空模式发现方面,研究人员主要从时空频繁模式、时空共现模式、时空关联模式入手,从时空数据中提取有价值的时空模式,既有探索将传统的Apriori算法在时空环境下加以改进,并提出新的算法[19-20],也有利用地理学的思想,通过定义空间支持度来探索时空模式[21-22];在时空聚类方面,时空轨迹聚类成为热点研究对象,研究人员从人类行为学的角度探究人口迁移习惯、犯罪行动轨迹等,为相关政策制定和犯罪预警等提供决策支持[23],也提出了用来衡量轨迹相似性的历史最近距离、Fréchet距离等指标[24];在时空异常检测方面,Cheng等人(2006)充分考虑了时空数据的尺度和分辨率对异常检测的影响,通过对时间尺度和空间尺度的变换对海岸线地貌的异常变化进行评估[25]。
Li等人(2008)提出了在多层次特征空间上检测对象轨迹异常的方法[26];在时空预测方面,研究人员结合模糊集、决策树、遗传算法等理论,在对象位置、轨迹预测[27]和地形地貌变化预测[28]等方面做了探索,也取得了不少成果,但时空预测仍然存在不稳定的问题,如何在多环境因素复杂变化影响下做出自适应的预测还有待研究。
此外,时空数据模型是进行时空数据挖掘的前提,通过它来组织和抽象时空数据,传统的空间模型无法很好的反映空间上的变化和迁移情况,而且很难承大数据量的存储和计算[29]。
目前,时空立方体模型、时空快照模型(又称时序快照模型)、时空修正模型(又称基态修正模型)和时空复合模型是较为常用的时空数据模型,在具体研究领域,国内外学者基本采用上述模型或者在此基础上进行延伸与扩展。
尽管近年来时空数据挖掘受到广泛的关注并得到快速的发展,但是还存在着一些问题和瓶颈,例如没有统一的、标准的理论框架和数据模型、底层索引建立比较困难、缺少高性能时空数据挖掘方法等。
另外,时空数据的模糊性、不确定性和其在不同时空尺度上的特征差异性等固有特征也制约着时空数据挖掘的发展,这些问题需要不断的探索。
2.3案事件时空分析与预测研究现状犯罪率除了受到宏观社会环境的影响之外,还与城市空间布局等微观环境有关。
美国地理学家托布勒(W.R.Tobler)提出的地理学第一定律指出:任何事物都与其周围事物存在联系,并且与其越相近的事物联系越紧密[30]。
从地理学的视角研究犯罪和犯罪的“格局”、“过程”关系,对于同类或相似案件的侦破和预防很好的参考价值,这也成为现代犯罪学分析的有机组成部分[31],由此也产生了犯罪地理学(Criminal Geography)、罪犯地理定位(Criminal Geography Targeting)等犯罪学的边缘学科和前沿研究领域[32]。
2.3.1 犯罪时空分布研究地理学第一定律中所说的相近可以理解为空间距离或者时空邻近度,犯罪时空分析的相关研究也发现案事件的时空分布不是随机和均匀分布的,而是存在一定的集聚性,倾向集中于某些热点(hotspots)[33],其在空间意义上指一个可识别的边界范围的犯罪聚集地点或区域,在时间意义上指犯罪高发的时间点或时间段[34]。
基于犯罪区域统计数据、案发地离散点或犯罪时空轨迹,对于犯罪空间分布的研究也主要包括以下几个方面:(1)基于区域统计数据的时空自相关分析研究人员一般采用全局和局部相关性这两种指标来度量案事件的集聚程度[35]。
全局空间自相关(Global Spatial Autocorrelation)用于描述区域单元案事件的整体分布状况,以判断其在空间上是否存在聚集性[36],Moran’s I、Geary’s C、Getis-Ord’s G和连接数是常用的检验统计量[37]。
局域空间自相关(Local Indicators of Spatial Association, LISA),包括Local Moran’s I和the Getis-Ord’s Gi/Gi*两种衡量指标,是以用来检验案事件局域平均值显著不同于全局平均值的指标[38]。
而这一指标的定义域犯罪热点的描述不谋而合,因而被普遍接受为描述研究区域内犯罪热点的具有统计学意义的判定指标[39-40]。
上述方法主要还是采用传统的空间分析的方法,描述了案事件空间分布的静态或者时间序列特征,在反应案事件时空相关性方面的研究实际上只是扩展了一般意义上的空间自相关的概念,例如,局部空间Moran’s I 系数可以扩展为局部时空相关度量:∑=≠=-=Nj i j j j t i t z z I 1,,τ (1-1)其中,i t z ,为t 时刻空间位置i 属性值i t y ,的标准化形式,j t z ,-τ为t -τ时刻空间位置i 相邻位置j 属性值j z t y ,-的标准化形式[17]。