基于数据挖掘的环境污染档案数据统计系统设计研究
环境污染治理中的数据挖掘技术研究

环境污染治理中的数据挖掘技术研究近年来,环境污染问题成为全球关注的焦点之一。
随着经济的发展和城市人口的增加,工业排放和交通尾气等因素加剧了环境污染的程度。
解决这一问题需要全面的环境治理措施,而数据挖掘技术则成为了一种有力的工具。
本文将探讨在环境污染治理中应用数据挖掘技术的研究进展和实践应用。
数据挖掘技术是通过从大量的数据中自动发现模式、规律和知识的过程。
在环境污染治理领域,数据挖掘技术可以帮助分析和理解环境污染的成因、传播路径和影响因素。
首先,数据挖掘可以应用于环境监测领域,从大量的监测数据中挖掘出有用的信息。
例如,通过对大气污染监测数据的分析,可以确定哪些因素对于空气质量的影响最大,从而指导制定相应的减排措施。
其次,数据挖掘可以应用于环境影响评估领域,帮助分析和预测环境污染的潜在影响。
例如,通过对土壤和地下水监测数据的分析,可以评估某工业区对周边环境的污染程度,为采取相应的修复措施提供科学依据。
此外,数据挖掘还可以应用于环境管理领域,帮助监测环境治理措施的效果和效率。
例如,通过对噪音监测数据的分析,可以评估噪音控制措施的实施效果,并及时调整措施以保障环境质量。
在环境污染治理中,数据挖掘技术的研究和应用主要包括以下几个方面。
首先,数据预处理是数据挖掘的重要步骤之一。
由于环境监测数据通常存在缺失值、异常值和噪音等问题,需要对数据进行清洗和修复,以保证后续分析的准确性和可靠性。
其次,特征选择是挖掘环境污染数据中有用信息的关键步骤。
环境污染数据通常包含大量的指标和特征,通过特征选择可以减少数据维度,提高模型的简洁性和可解释性。
第三,分类和聚类是数据挖掘在环境污染治理中常用的技术手段。
通过对环境污染数据进行分类和聚类分析,可以帮助识别环境污染的主要来源,找到治理的关键点和策略。
此外,关联规则挖掘和时间序列分析等技术也可以应用于环境污染数据中,帮助发现变量之间的关联性和趋势。
然而,环境污染治理中的数据挖掘技术仍面临一些挑战和问题。
数据挖掘在环境污染监测中的应用研究

数据挖掘在环境污染监测中的应用研究随着人类社会的快速发展和工业化进程的加快,环境污染成为了我们亟待解决的重要问题之一。
环境监测是对环境污染的实时监控和数据分析的重要手段。
而数据挖掘作为一种利用各种技术和方法从大规模数据中提取有价值信息的工具,具有在环境污染监测中得到广泛应用的潜力。
一、数据挖掘在环境污染监测中的数据预处理环境污染监测的第一步是收集大量的数据,包括气象数据、水质数据、土壤数据等。
然而,得到的原始数据通常包含噪声和缺失值,这些干扰因素会对分析结果产生负面影响。
因此,在使用数据挖掘技术前,我们需要对数据进行清洗和预处理。
首先,通过去除噪声和异常值,可以减少数据中的错误因素,提高数据的质量。
其次,对于缺失值的处理也非常重要,常用的方法有删除缺失值、插值和使用机器学习算法进行填充等。
最后,还可以通过特征选择的方法,挑选出对环境污染监测具有重要意义的特征。
二、数据挖掘在环境污染监测中的数据分析在数据预处理完成后,接下来需要进行数据挖掘和分析。
数据挖掘包括聚类分析、分类分析、关联规则挖掘等多种方法,通过这些方法可以从收集到的数据中提取出有用的信息,帮助我们理解环境污染的状况和变化规律。
1. 聚类分析聚类分析是将相似的数据对象归为一个组别或类别的过程。
在环境污染监测中,我们可以根据不同监测指标的数值将监测点进行聚类,进而在地理上划分不同的污染区域。
这对于制定针对性的环境治理方案非常有帮助。
2. 分类分析分类分析是将事先定义好的类别应用到新的数据上,将其分类至某个类别的方法。
在环境污染监测中,我们可以根据常见的污染源和传统的环境污染类型对数据进行分类。
基于分类结果,我们可以判断某个监测点是否存在污染问题,从而采取相应的措施。
3. 关联规则挖掘关联规则挖掘是发现数据中隐含的联系和规律的过程。
在环境污染监测中,我们可以通过关联规则挖掘找出一些常见的污染源和环境污染物之间的关系。
这有助于我们更好地理解环境污染的形成机制,从而有针对性地进行控制和治理。
基于数据挖掘的环境影响因素分析方法研究

基于数据挖掘的环境影响因素分析方法研究在当今社会,环境问题日益凸显,成为了全球关注的焦点。
为了更好地理解和应对环境变化,我们需要深入研究环境影响因素。
数据挖掘技术的出现为这一研究提供了有力的工具。
数据挖掘是从大量的数据中提取有价值信息的过程。
在环境领域,数据来源广泛,包括气象数据、地理信息数据、污染物监测数据、人口数据等等。
这些数据往往是海量的、复杂的,且存在着各种潜在的关联和模式。
通过数据挖掘,我们能够发现这些隐藏在数据背后的规律,从而为环境影响因素的分析提供科学依据。
首先,数据预处理是数据挖掘中的重要环节。
原始的环境数据可能存在缺失值、噪声和错误。
为了保证分析结果的准确性,我们需要对数据进行清洗、转换和集成。
例如,对于缺失值,可以采用均值填充、中位数填充或者基于模型的预测方法进行处理。
对于噪声数据,可以通过平滑处理或异常值检测与剔除来提高数据质量。
在环境影响因素分析中,常用的数据挖掘方法有分类算法、聚类分析和关联规则挖掘等。
分类算法能够将环境数据按照不同的类别进行划分。
比如,我们可以根据空气质量指标将不同地区的空气质量状况分为优、良、轻度污染、中度污染和重度污染等类别。
常见的分类算法有决策树、朴素贝叶斯和支持向量机等。
以决策树为例,它通过对数据的一系列特征判断,构建出一棵决策树,从而实现对新数据的分类预测。
通过对空气质量数据的分类分析,我们可以找出不同空气质量类别所对应的主要影响因素,如工业排放、交通流量、气象条件等。
聚类分析则是将相似的数据对象归为一组。
在环境研究中,我们可以利用聚类分析将具有相似环境特征的区域进行分组。
例如,根据气候条件、地形地貌和生态系统等因素,将不同的地理区域划分为不同的生态环境类型。
通过这种方式,我们可以发现不同环境类型之间的差异和共性,以及影响其形成的关键因素。
关联规则挖掘则用于发现环境数据中不同变量之间的关联关系。
比如,我们可能会发现某种污染物的浓度与特定的气象条件(如风速、温度、湿度等)之间存在着一定的关联。
基于数据挖掘的环境污染预测研究及其应用

基于数据挖掘的环境污染预测研究及其应用近年来,环境污染问题一直是社会关注的热点之一。
随着经济的发展和人民生活水平的提高,环保问题越来越受到人们的关注。
而环境污染的频繁发生也让人们不得不思考如何有效预测和预防,以降低环境污染对我们生活的影响。
数据挖掘技术是一种能够应对这一问题的有效方法,它能帮助我们快速准确地预测环境污染的发生及其趋势,从而为我们提供必要的数据支持,以便我们及时采取措施进行应对。
一、数据挖掘技术在环境污染预测中的应用数据挖掘是一种将大量数据集整合起来,通过各种算法,尽可能准确地挖掘出数据集中隐藏的信息的技术。
在环境污染预测中,数据挖掘技术主要应用于以下方面:1、建立污染物预测模型数据挖掘技术可以建立污染物预测模型,根据历史数据及环境因素来预测未来污染物浓度的趋势。
例如,可以利用多元线性回归方法来建立SO2、NOx、CO等污染物浓度的预测模型,实现对环境污染趋势的准确预测。
2、数据可视化分析数据挖掘技术还可以通过数据可视化,将数据转换为图形或组合,以便更好地观测和分析各种数据关系。
通过分析数据,我们可以找到存在污染问题的地区和污染源,并从而进行有针对性的措施。
3、自动分析数据自动数据分析是数据挖掘技术的重要应用之一。
通过算法、模型和技术,可以自动分析数据,并根据数据特征自我自适应,解决多元复杂的数据挖掘问题。
对于环境污染数据的分析中,自动分析数据可以降低人工干预的成本,并实现数据的快速处理。
二、数据挖掘技术在环境污染预测中的意义环境污染问题是一个综合性、系统性的问题,需要多学科、多领域的合作才能解决。
数据挖掘技术以其速度快、准确度高、可靠性强等优点,成为解决环境污染预测问题的有力工具。
数据挖掘技术可以使我们快速地获取大量数据,并通过模型和算法对数据进行分析,实现环境污染的预测,并为采取减排措施提供技术支持。
通过对环境污染趋势的预测,可以帮助我们及时发现潜在的风险,并在风险变成危害之前,采取必要的预防措施,以保护我们的环境健康。
环境监测与污染治理中的数据挖掘情况分析研究

环境监测与污染治理中的数据挖掘情况分析研究数据挖掘在环境监测与污染治理中的应用已经成为一个热门的研究领域。
随着环境保护意识的增强,人们对环境与污染问题的关注不断提高。
为了更好地理解环境污染的形成和发展机制,以及制定有效的治理策略,数据挖掘技术提供了宝贵的信息和洞察力。
一、数据挖掘在环境监测中的应用1. 数据预处理环境监测系统产生了大量的数据,包括空气污染、水质监测、噪声监测等方面的数据。
在这些数据中存在着噪声、缺失值和异常值等问题。
数据挖掘技术可以通过数据预处理的方式解决这些问题,使得数据更加准确、可靠。
2. 环境污染源识别数据挖掘可以通过分析环境监测数据,识别出造成污染的潜在源头。
通过挖掘大量的数据,可以找到与环境污染相关的特征和模式,从而确定造成污染的主要因素。
这样一来,环境管理者可以有针对性地采取相应的措施,减少环境污染的发生。
3. 环境污染风险评估数据挖掘可以帮助进行环境污染的风险评估。
通过分析历史数据和相关的环境因素,可以建立环境污染风险模型,预测未来的环境污染情况。
这对于制定环境保护政策和采取预防措施非常有益。
二、数据挖掘在污染治理中的应用1. 污染治理决策支持数据挖掘可以为污染治理提供决策支持。
通过分析大量的数据,可以发现不同治理策略的效果,并预测未来的污染趋势。
这样一来,决策者可以根据挖掘到的信息,制定出更加科学和有效的治理方案。
2. 污染物排放源追踪通过数据挖掘技术,可以对大气污染物和水体污染物的排放源进行追踪。
通过分析监测数据中的特征和模式,可以找到造成污染的源头,并及时采取相应的措施,减少环境污染的发生。
3. 污染物浓度预测数据挖掘可以通过分析历史数据来预测污染物浓度的变化趋势。
这对于限制污染物的排放和制定治理策略具有重要意义。
通过预测污染物的浓度变化,可以及时采取相应的措施,避免环境污染加剧。
三、数据挖掘在环境监测与污染治理中面临的挑战尽管数据挖掘技术在环境监测与污染治理中有着巨大的潜力,但它也面临着一些挑战。
基于数据挖掘的环境信息管理系统的设计与实现的开题报告

基于数据挖掘的环境信息管理系统的设计与实现的开题报告一、选题背景随着环境污染日益严重,人们对于环境保护的重视程度也不断提高。
现代社会中,各种环境数据不断涌现,例如空气、水质、噪声等数据,以及采取的防治对策和治理成效等等。
这些数据为环境保护提供了宝贵的参考价值。
但是,这些数据的获取和处理方式还存在不足。
传统的环境信息管理系统主要基于手动输入,耗费大量人力物力,且难以满足数据量大、数据种类多的需求。
因此,本项目将基于数据挖掘技术设计和实现一种环境信息管理系统,以提高数据处理效率和准确性,并为环境保护工作提供更加有效的支持。
二、研究内容本项目主要研究内容包括:1.研究环境信息管理中的数据挖掘技术,包括数据预处理、特征选择、模型构建等方面。
2.设计和实现一种基于数据挖掘的环境信息管理系统,通过数据可视化和智能分析,实现对各种环境数据的自动化提取和分析,并将分析结果有效地呈现给用户。
3.在系统中集成数据采集和数据存储等功能,支持各种数据源的自动化获取和存储。
三、研究方法本项目将采用如下研究方法:1.文献阅读:通过查阅相关文献,了解环境数据挖掘技术的最新进展和应用情况。
2.数据采集与预处理:选择一定数量和类型的原始数据,通过数据清洗、去噪等预处理技术,保证数据质量。
3.特征选择与模型构建:通过各种特征选择算法,选取与环境污染相关的特征数据,再基于分类、聚类、回归等算法进行模型构建和训练。
4.系统设计与实现:基于数据挖掘技术,设计和实现一个智能化的环境信息管理系统,结合数据可视化技术,将分析结果转化为可视化的图表等形式,以便用户更好地理解和利用。
四、预期成果1.环境数据挖掘技术研究成果:对各类数据挖掘技术进行综合研究,掌握其原理及应用方法。
2.基于数据挖掘的环境信息管理系统:设计和实现一种基于数据挖掘技术的环境信息管理系统,并开发相应的应用程序包。
3.验证测试与分析结果:通过实验和测试,对系统进行验证和分析,检验系统的性能和有效性。
环境监测系统中的数据挖掘与分析研究
环境监测系统中的数据挖掘与分析研究随着工业化、城市化的不断加速,环境问题越来越引人关注。
为了保护生态环境、推进可持续发展,环境监测系统逐渐得到了广泛应用,成为落实环保政策、提高环境管理水平的重要工具。
随着监测手段的不断更新,环境监测系统产生的数据也越来越庞大,如何对海量数据进行挖掘与分析,提取有用信息,成为环境监测与管理的一项重要技术挑战。
一、数据挖掘与环境监测系统环境监测系统包括数据采集、数据处理、数据存储、数据分析和数据呈现等多个环节。
其中,数据挖掘是对所获取的数据进行深入挖掘,以发现数据中的潜在关联、趋势和规律,并提供基于这些关联、趋势和规律的预测、决策和优化建议。
数据挖掘的方法包括分类、聚类、关联分析、时序分析等。
其中,分类是将数据分成不同的类别,例如对气象数据进行天气分类;聚类是将数据分成相似的群组,例如对工业废水进行污染源分类;关联分析是找到不同数据之间的联系,例如对大气污染物和天气因素进行关联分析;时序分析是用来分析在特定时间范围内的数据变化规律,例如对河流水质变化的季节性分析。
二、数据挖掘在环境监测系统中的应用1. 空气质量数据挖掘空气质量监测是环境监测中重要的一部分,而挖掘空气质量数据中的规律和趋势,则可以帮助我们更好地了解和预测未来的空气质量变化。
例如,使用关联分析算法,可以找到不同污染物之间的相关性,从而探究它们的来源和传播路径;使用聚类算法,可以将不同时间、不同区域的空气污染数据分为相似的群组,分析不同污染源的贡献。
2. 水质监测数据挖掘水质监测是环境监测中另一个重要的部分,而数据挖掘可以帮助我们更好地理解水质监测数据中隐藏的关系和规律。
例如,使用分类算法,可以将水质数据划分成不同的类别,例如优、良、差等级,从而评估水质的状况;使用时序分析算法,可以分析水质数据的季节性和时空变化规律,如何更好地控制工业污染和农业污染等。
3. 噪声监测数据挖掘城市的噪声污染已经成为了一个全球性的问题,而数据挖掘的方法可以用来挖掘噪声监测数据中的规律和趋势。
基于数据挖掘的环境污染预测和控制技术研究
基于数据挖掘的环境污染预测和控制技术研究一、引言环境污染已经成为全球共同关注的问题。
由于污染的复杂性和多样性,各种环境污染的预测和控制技术也随之应运而生。
本文旨在介绍基于数据挖掘的环境污染预测和控制技术的研究进展。
二、数据挖掘数据挖掘是一种从大量数据中提取相关信息的过程,通常包括数据清洗、数据集成、数据转换、数据挖掘和模型评估等步骤。
在环境污染预测和控制技术中,数据挖掘可以帮助我们更好地理解环境因素对污染的影响,从而提高预测精度和控制效果。
三、环境污染预测环境污染预测是指在发生污染前,通过对环境因素的监测和分析,预测可能产生的污染情况。
环境污染预测可以帮助我们事先做出针对性的计划和决策,从而最大限度地减少污染对环境和人体的危害。
1. 水污染预测水污染预测是指通过对水体环境因素的监测和分析,预测可能产生的水污染情况。
常用的数据挖掘方法包括决策树、神经网络、支持向量机等。
这些方法既可以用来预测水质的指标,也可以用来预测水体富营养化、水华和蓝藻等现象的发生。
2. 大气污染预测大气污染预测是指通过对大气环境因素的监测和分析,预测可能产生的大气污染情况。
常用的数据挖掘方法包括回归分析、神经网络、支持向量机等。
这些方法既可以用来预测污染物的浓度,也可以用来预测大气污染的类型和时空分布。
3. 噪声污染预测噪声污染预测是指通过对噪声环境因素的监测和分析,预测可能产生的噪声污染情况。
常用的数据挖掘方法包括高斯过程回归、随机森林等。
这些方法既可以用来预测噪声的频谱和强度,也可以用来预测噪声的传播和反射等现象。
四、环境污染控制环境污染控制是指在发生污染后,通过对环境因素的调整和管理,减轻或消除污染对环境和人体的危害。
环境污染控制可以采用多种技术手段,其中最为有效的手段之一是数据挖掘。
1. 智能监控智能监控是指通过对环境因素以及人为干扰因素的监测和分析,实时判断环境是否存在污染的情况,并及时采取相应的控制措施。
常用的数据挖掘方法包括时间序列分析、卡尔曼滤波等。
基于大数据的环境污染监测与治理研究
基于大数据的环境污染监测与治理研究随着工业化和城市化的快速发展,环境污染问题日益严重,给人类的生存环境带来了极大的威胁。
为了有效监测和治理环境污染,越来越多的研究者开始运用大数据技术,利用庞大的数据资源进行环境污染监测与治理研究。
一、大数据在环境污染监测中的应用大数据技术可以收集、存储和分析庞大的环境数据,为环境污染监测提供了更准确、全面的信息。
例如,通过传感器网络和卫星遥感技术,可以实时监测空气质量、水质和土壤污染等环境指标。
同时,大数据技术还可以分析人类活动与环境污染之间的关联,帮助政府和决策者制定科学的环境保护政策。
二、大数据在环境污染治理中的应用大数据技术在环境污染治理中发挥着重要作用。
首先,通过对环境数据的深度分析,可以帮助相关部门预测和预防环境污染事故的发生。
其次,大数据技术可以实现环境污染源的精确定位和溯源,帮助相关部门追踪责任,并采取相应的治理措施。
此外,大数据技术还可以通过模拟和预测,评估不同治理方案的效果,为环境污染治理提供科学依据。
三、大数据在环境污染监测与治理中的挑战尽管大数据技术在环境污染监测与治理中具有广阔的应用前景,但也面临着一些挑战。
首先,数据的质量和可靠性是影响大数据应用效果的关键因素。
要保证数据的准确性和可信度,需要建立健全的数据采集和处理机制。
其次,数据的隐私和安全问题也需要引起重视。
在大数据应用过程中,需要确保个人隐私的保护,并加强数据的安全管理。
此外,大数据技术的复杂性和成本也是制约其应用的因素之一,需要加强相关技术的研发和培训。
四、未来大数据在环境污染监测与治理中的发展方向随着大数据技术的不断发展和成熟,其在环境污染监测与治理中的应用将更加广泛和深入。
未来,可以通过进一步整合各类环境数据,建立全球性的环境污染监测与治理平台,实现全球环境污染的实时监测和治理。
同时,可以结合人工智能和机器学习等技术,开发智能化的环境污染监测与治理系统,实现自动化的环境污染预警和治理。
环境监测数据挖掘分析研究
环境监测数据挖掘分析研究随着工业化、城市化等现代化进程的不断推进,环境污染问题变得越来越严重,给人们的生命健康和生存环境造成了极大的威胁。
因此,环境监测和分析对于保障人民健康和生态安全具有重要作用。
在大数据和人工智能的推动下,环境监测数据挖掘分析成为了一个热门的研究课题。
一、环境监测数据环境监测数据是指利用各种技术手段对大气、水体、土壤、噪声等环境因素进行实时或定时的测量和监测,得出的一系列数值和统计数据。
从数据类型来看,环境监测数据主要分为以下几类:1.气象数据:温度、湿度、压力、风速等数据。
2.大气污染物数据:二氧化硫、氮氧化物、臭氧等数据。
3.水体污染物数据:化学需氧量、氨氮、总磷、总氮等数据。
4.土壤污染物数据:重金属含量、有机物含量等数据。
5.噪声数据:噪声强度、频谱分布、声音特性等数据。
二、环境监测数据挖掘分析在环境数据采集的基础上,环境监测数据挖掘分析是通过数据分析和数据挖掘技术,从大量的监测数据中挖掘有价值的信息,并通过可视化的方式呈现出来。
在数据挖掘分析中,数据预处理是一个比较关键的环节,它主要包括数据清理、数据集成、数据变换和数据规约等处理过程。
1.数据清理:数据清理是指对环境监测数据进行去重、去噪、缺失值处理和异常值处理等操作,即对原始数据进行预处理。
2.数据集成:数据集成是指将不同来源的数据集成成一个整体数据集,保证数据的一致性和完整性。
3.数据变换:数据变换是指对数据进行归一化、离散化、规范化、标准化等处理操作,使不同指标的数据可比较。
4.数据规约:数据规约是指将大量数据精简成少量的可用信息,从而减少数据计算和存储资源的浪费。
在数据预处理完成之后,可以使用数据挖掘和机器学习算法进行深度挖掘分析,得出环境监测数据中的关联规则、分类结果、聚类分析等。
三、环境监测数据挖掘分析应用环境监测数据挖掘分析具有很高的应用价值,其中最主要的应用领域包括:1.环境污染预警:通过对环境监测数据的挖掘分析,可以实现对环境污染的预测和预警,提高环境监测的效率,降低环境污染的危害程度,保护人们的健康与安全。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第44卷第4期2019年4月Vol.44Nc.4Apo2019环境科学与管理ENVIRONMENTAL SCIENCE AND MANAGEMENT文章编号:1674-6199(2019)04-0014-05基于数据挖掘的环境污染档案数据统计系统设计研究郭明,齐园园(沧州医学高等专科学校,河北沧州061953)摘要:针对目前中国自然环境污染档案数据统计效率较差的情况,基于数据挖掘技术,设计了新型环境污染数据统计系统。
以射频和基带芯片为核心,利用大数据链路构建数据挖掘处理器贝挖掘并缓存原始自然环境污染数据,设计系统自组织竞争网络,录入缓存数据并使用RBF神经网络对初始数据样本进行训练,将数据进行归一化处理,剔除原始环境数据中的错误数据,保证数据读入,将读入后的数据进行回归拟合和分布拟合并进行优化检验,确定函数特征,引入影响参数,分析环境数据的特征趋势,实现环境污染数据统计。
关键词:数据挖掘;数据读入;统计;特征提取中图分类号:X32文献标志码:ADesign of Environmextol Pollution AohivesDate Statistics System based on Ddate MiningGuo Ming,Qi Yuanyaan(Canyzhon Medical Colleye,Cangzhon061901,China)Abstract:Aiming at the low statistical ePicieacy of natural exvironmextal pollution aohiveu data in China,a new statistical system of exvironmextal pollution data was desianed based on data mininy technodyy.With O and basedand chip as the core,the use of big data lind pocessor h build data mining,mining and cache the oriyinal natural environmext data,self-oraanizing competitive networO design system,innutting the cached data,using RBF nearal networO h the initial traininy data sample,data nos-malization processing,6X111:(0110exon in the data,the oriyinal exvironmext data O s ensure data oaO,O s oaO in8仕0!the data repression fitting and distripution of fitting,and optimize test and deteonine the function characteristic,intobucing the)(^00 paometeo,analysis of the characteristics of the envionmental data,to complete the system design and implementation environ-mext pollution statistics•Key words:2ata mining;data oaO in;statistics;feature extraction刖百当前,针对中国自然环境治理工程,一般需要以原始的自然环境数据档案为基准,进行对应工收稿日期:2019-01-06作者简介:郭明(1981-),男,硕士研究生,档案馆员,主要研究方向:档案管理、信息技术管理。
通讯作者:齐园园程或科学技术的开发与研究。
所以对档案数据统计挖掘,成为自然环境保护相关技术数据的提取前提。
中国针对环境污染数据的相关统计系统一般采用人工提取和大篇幅性录入,整体统计效率较慢,相关数据提取耗时较长。
此外数据源过度依赖于现有数据统计端口,也有可能造成数据缺失或者数据重复。
为了有效提高数据统计效率,设计基于数据挖掘技术,提出自然环境污染档案的数据统计系统。
该系统以数据挖掘设备为核心,提高数据源广域度,设计新型原始数据录入和读取模块以及数据分析模块,将数据挖掘,数据录入以及数据分析三项工作进行有机聚合,从而实现环境污染档案数据统计。
1基于数据挖掘的环境污染档案数据统计系统设计设计的统计系统主要基于Window)平台,开发语言使用MaUab GU)语言。
整个系统按照C/S架构应用系统研发包括数据截面设计、数据代码添加以及图形显示等设计内容。
在实际系统设计中,为了使数据计算做到可视化,确保数据参数的选取以及计算数据可以出现在人工交互界面,提高操作的简便性,保证系统稳定快速运行。
系统逻辑架构见图1[1]o系统整体采用表准的三层架构,即功能表示层、业务处理层和数据层。
表示层的主要功能在于提供系统用户与系统的交互界面,并将用户的使用需求和逻辑指令传递给业务处理层2。
处理层主要负责数据挖掘和数据处理,并将加工处理后的数据保存。
系统平台可以看做数据层的延伸,主要负责将保存数据传递回表示层。
该系统的模块按照软硬件可以划分为两大核心区域。
1.1数据挖掘处理器设计为了能够获取最佳数据结构,数据挖掘通常需要使用大量的数据集J]o在高性能的计算时代,大规模的数据集挖掘势必需要与之相匹配的运算机制,同时也需要增加相应计算原件。
设计以芯片组为核心结构,建立数据挖掘处理器,为环境污染数据统计系统提供数据挖掘以及缓存能力。
数据挖掘处理器的设计中,使用了云计算技术,可以有效实现数据挖掘服务。
从整体结构上可以看出,挖掘处理器的整体业务应用依赖于芯片组和服务模块。
数据挖掘处理器的芯片组包括ETISTC公司生产的NJ1055信号射频芯片和NJ553A信号基芯片。
图1统计系统逻辑架构图数据挖掘处理器利用大数据网络链路先通过射频芯片将环境污染数据转化为数字化高频信号,再被输出到基带芯片中进行信号基带处理。
处理后的数据为系统信号串口数据。
通过系统数据挖掘处理器,以大数和中的环境污染数集,后数。
芯片组以,数据挖掘处理器的中央数据挖掘区域还包括一个环境数据信号接收装置以及视频外设。
经过射频芯片处理过的环境数据继续送至处理器基带芯片,直接得到处理数据。
但是这种数据因为没有经过精密运算,存在误差且受到大数据质量的影响较为严重,所以在设计数据挖掘处理器中架设FPG运算开发板,用于初步分析芯片处理后的数据,并将其缓存以待后续处理⑸O1.2自然环境数据读入通过数据挖掘处理器获取的环境污染数据虽然过初步,但是为初始数存处理器中。
需要将其读入系统,进行后续加工⑹。
原始数据转录与读入模块的流程见图2o数据读入主要就是将上述挖掘转录的环境数据读入到系统中,以便进行后续统计分析⑺。
因为原始的环境污染数据一般是按照月份进行存储的,针对环境污染数据特点,系统设计了一个自组织竞争图2原始环境数据读入流程网络进行数据录入处理。
首先采用RBF神经网络对初始数据样本进行训练,获取样本数据A;采用起点平均法对原始数据的奇异值进行处理,获取样本数据B o通过图形显示,对样本A进行分析,如果发现没有数据奇异值,则可以判定数据符合排列要求,可以作为基础数据。
通过图形显示对样本B进行奇异值分析,重复上述步骤。
对比样本A和样本B 的数值,可以找到样本A中因为RBF神经网络认为错误而自动删除的数据,确定其位置和相应数据值,进行数据录入。
RBF网络设置如下:将环境数据的相对湿度和温度分别作为录入竞争网络的输入层,竞争层设定为6个神经元(代表数据输入向量);网络二维神经元之间的相互距离使用mandif欧式距离权函数计算,其运算原理公式(1)为:D=sqrt[sum(-y)2]()在公式(1)中贝和y分别为数据向量的输入列向量;D为数据距离矩阵;学习速率定位0.1,数据录入时的训练迭代次数设置为1000;训练误差为5-5,其他参数采用数据默认值,进行网络数据训练。
完成数据训练后,需要将数据进行归一化处理。
为了方便计算,将不同环境数据指标参数,按照归一公式进行同数据处理,其公式(2)为:y()=mOn(2)在公式中,y为归一化后的环境污染数据;X为样本数据;mox[X()]则为最大样本数据。
数据归一化可以保证数据挖掘处理器获取的缓存数据成为统一形式的系统数据。
经过数据验证,建立的用神经网络对训练数据的温度、湿度两个参数可以保证两个训练精度要求,完成对原始数据中的错误数据进行剔除,从而实现数据读入。
53环境污染数据统计通过上述数据挖掘和数据读入,可以将环境污染档案数据以统一的格式存储于系统数据库内,通过对数据库内数据进行拟合以及优化检验和最优拟合函数确定等过程,即可完成系统设计,实现对环境污染档案数据的统计。
定义数据样本集%,环境数据样本总数用J描述。
则样本可以分别表示成衍,2,3,…,,j。
那么使用2mac=mOP(()和2mm=分别描述环境数据样本集的最大和最小样本。
由此可以获取数据样本兀的均值为M=sum(x)/no此时的样本标准差用公式(3)表N:公式(3)中J表示数据总类别数;引入线性回归分类思想,对环境数据的数量特征进行最值拟合,与周围环境数据进行内核检验。
检验设置参数如下:设置实验测试样本空间由厂组相互独立的数据空间构成,用X表示;设i组实测数据为;设置理论样本空间同样由厂组相互独立的数据空间构,第;组理论数据用m;表示。
则曲线拟合检验方程(4)为:2占5;-m;2X2=》----厶(4)=4m;根据数据自由度,提取X2的数据结果,如果X2<球.05,则证明数据曲线拟合度较高。
反之则需要对数据拟合曲线进一步优化。
对数据回归拟合完毕后,需要进行分布拟合。
设置样本空间由厂组相互独立的数据空间构成,用X表N,用从表示数据第;组的概率,其拟合公式(5)为:在公式(5)中,;表示真实测量数据出现的次数;m;则表示理论数据出现的次数;关于环境数据的排列情况,有且仅有自由度R 作为环境数据排列影响参数:R=r-s-1(6)在公式中,理论数据的预估量用)表示,其中当s为1时,环境数据处于泊松分布状态,当s为2时,数据处于正态分布状态。
基于上述方法,得出的环境数据特征最优拟合曲线和分布拟合曲线,引入影响参数,即可分析环境数据的特征趋势,进而实现环境污染数据统计。
2实验数据分析为了验证设计的基于数据挖掘的环境污染档案数据统计系统能否有效提高统计速率,设计对比试验。