支持向量机应用于大气污染物浓度预测
基于机器学习的大气污染物浓度预测

基于机器学习的大气污染物浓度预测近些年来,全球气候变化问题引起了人们的普遍关注。
其中,大气污染是一个不容忽视的问题。
而机器学习技术,正是一种被广泛应用于大气污染物浓度预测的技术。
基于机器学习技术,研究人员可以从大量的数据中提取规律,帮助我们更好地理解气象和空气质量之间的关系,并提供准确的预测模型。
一、机器学习技术简介机器学习是一种通过计算机算法从数据中学习规律和模式的技术。
它主要由三个部分组成:数据预处理、模型训练和模型评估。
在数据预处理阶段,研究人员需要从多个数据源中获取数据,并对数据进行清洗和特征工程;在模型训练阶段,他们需要选择适合的算法和模型来训练数据,在训练过程中,机器会自动调整参数,以找到与数据最好拟合的模型;在模型评估阶段,研究人员需要评估训练后的模型的精确度和可信度。
二、机器学习在大气污染物浓度预测中的应用机器学习技术在大气环境研究中有广泛的应用,能够帮助我们更好地理解气象和空气质量之间的关系,并预测未来的气象和空气质量。
下面分别介绍几种常见的机器学习技术。
1. 神经网络神经网络是一种模拟人类神经元工作原理的计算模型。
在大气污染物浓度预测中,神经网络被广泛应用。
研究人员会先收集各种与环境有关的数据,如空气温度、湿度、风速等。
然后,他们会设计一个神经网络模型,并用输入数据来训练神经网络模型,以便对未来的气象条件和空气质量进行预测。
一旦训练完成,神经网络可以作为一个预测模型来预测大气污染物的浓度。
2. 决策树决策树是一种决策支持工具,它基于树形结构,帮助用户评估各种选择的可能结果,以便选择最佳的行动方案。
在大气污染物浓度预测中,决策树可以用来确定哪些气象条件对大气污染物浓度有最大的影响。
通过这种方式,决策树可以帮助研究人员更好地预测未来污染物浓度。
3. 支持向量机支持向量机是一种机器学习算法,其目的是确定在不同类别之间的最佳边界。
在大气污染物浓度预测中,支持向量机可以用来分析各种气象和污染物参数之间的关系,以便找到最佳的预测模型。
雾霾天气预测中支持向量机的应用分析

雾霾天气预测中支持向量机的应用分析随着现代工业的发展和城市化进程的加速,人们生活环境中的空气质量受到了越来越大的影响。
在城市生活中,因为工厂排放、机动车尾气排放等原因,导致环境中的PM2.5这样的颗粒物浓度不断上升,使得真正清新的蓝天越来越难以见到。
因此,判断空气质量污染程度、预测雾霾天气发生时间和持续时间受到了广泛的关注。
使用机器学习算法,如支持向量机(Support Vector Machine,SVM),可以帮助预测雾霾天气发生的时间和程度,从而提高人们的生活质量。
支持向量机是一种监督学习算法,它可以用于分类和回归预测问题。
SVM的基本思想是基于数据点和类别之间的边界,通过创建一个最优的分隔超平面来分类数据。
在SVM中,我们最大化类别之间的间隔,这被称为间隔最大化。
最终,SVM找到最优的函数来将数据点区分为两个类别。
根据数据在高维空间中的分布情况,SVM将数据向量映射到一个更高维的空间,在该空间中,数据点可能更容易线性可分。
在应用SVM预测雾霾天气时,我们首先需要收集一些相关的天气数据,如空气质量指数、温度、湿度、气压、风向和风速等信息。
这些数据可以通过各种通信手段和传感器设备采集。
然后将这些数据进行预处理和特征提取,比如标准化、归一化、主成分分析、因子分析和频谱分析等方法。
接下来,将处理后的数据集分成训练集和测试集。
使用训练集对模型进行训练,选择最优的超平面,使得在该超平面之上的数据点属于一类,在超平面之下的数据点属于另一类。
在训练完成后,使用测试集来评估模型的性能和预测能力。
预测未来的雾霾天气时,我们需要使用当前时刻的天气数据集来预测未来若干个时间段内的雾霾天气,例如24小时或三天。
拟合过程中要进行超参数的选择。
常用的超参数有正则化系数、核函数、误差容忍度、核函数类型等,对超参数的选择影响模型的效果。
实验证明,SVM算法可以有效地应用于雾霾天气的时序分析和预测。
使用SVM进行雾霾天气预测可以帮助我们更好地防范和治理雾霾天气,为人们提供更加健康的生活环境。
《2024年北京大气污染物时空变化规律及评价预测模型研究》范文

《北京大气污染物时空变化规律及评价预测模型研究》篇一一、引言随着城市化进程的加速和工业化的深入发展,大气污染问题已经成为北京市面临的严峻挑战之一。
对北京大气污染物时空变化规律进行深入研究,建立相应的评价预测模型,对提高环境治理水平和促进城市可持续发展具有重要意义。
本文通过对北京大气污染物时空变化规律的研究,建立了基于统计学和机器学习方法的评价预测模型,以期为北京市大气污染治理提供科学依据。
二、研究区域与方法1. 研究区域本研究以北京市为研究区域,选取了多个具有代表性的监测站点,收集了大气污染物浓度数据。
2. 研究方法(1) 数据收集与处理:通过北京市环保局等部门获取大气污染物浓度数据,包括PM2.5、PM10、SO2、NOx等,对数据进行清洗和整理。
(2) 时空分析:采用GIS技术对大气污染物浓度进行时空分析,探究其时空变化规律。
(3) 评价预测模型建立:基于统计学和机器学习方法,建立评价预测模型,包括多元线性回归模型、支持向量机模型和神经网络模型等。
三、北京大气污染物时空变化规律1. 时间变化规律通过对北京市多个监测站点的大气污染物浓度数据进行时间序列分析,发现PM2.5、PM10等颗粒物浓度在冬季和春季较高,夏季和秋季较低。
而SO2和NOx等气态污染物浓度则受到工业生产和交通等因素的影响,呈现出不同的变化规律。
2. 空间分布特征通过GIS技术对大气污染物浓度进行空间分析,发现北京市大气污染物浓度呈现出明显的空间分布特征。
PM2.5、PM10等颗粒物浓度较高的区域主要分布在城市中心区和北部地区,而SO2和NOx等气态污染物则受到工业区和交通干线的影响,呈现出局部高值区。
四、评价预测模型建立与验证1. 多元线性回归模型多元线性回归模型是一种常用的统计预测方法,通过建立因变量和自变量之间的线性关系来预测大气污染物浓度。
本研究选取了气象因素、交通流量等因素作为自变量,建立了多元线性回归模型,对PM2.5浓度进行预测。
基于支持向量机的污染物浓度预测技术研究

基于支持向量机的污染物浓度预测技术研究近年来,环境污染成为一个备受关注的社会问题,不仅对人们的身体健康产生威胁,也对生态环境造成了严重的破坏。
在治理污染问题的过程中,如何准确预测污染物的浓度是非常重要的。
随着计算机技术的不断发展,人工智能技术在环境预测领域得到了广泛的应用,其中基于支持向量机的污染物浓度预测技术也逐渐受到重视。
支持向量机(Support Vector Machine, SVM)是一种经典的数据挖掘和机器学习算法,它能够从海量、高维、复杂的数据中自动学习规律并进行分类、回归和聚类等任务。
在环境预测领域,SVM通常用于研究污染物的浓度预测,通过对环境监测数据的分析,建立SVM模型,对未来的污染物浓度进行预测。
与传统的模型预测方法相比,基于SVM的污染物浓度预测技术有以下优势:1. 非线性能力强SVM本身具有强大的非线性拟合能力,在处理非线性问题时,可以通过核函数的选择来适应不同的数据特征。
而在环境预测时,由于受到许多复杂因素的影响,污染物浓度通常呈现出强烈的非线性特征,因此使用SVM进行预测比传统方法更具优势。
2. 鲁棒性高SVM具有较好的鲁棒性,即在处理随机误差和异常值时能够保持较好的稳定性。
由于环境监测数据往往存在一些偏差和异常值,这些数据通常会对预测结果产生较大的影响,而SVM可以通过对数据的分类和建模,自动剔除这些异常值,从而提高预测的准确性。
3. 数据维数不限相比其他机器学习模型,SVM对维数的要求较低。
在处理复杂的环境数据时,SVM能够处理高维数据,并通过降维等方法减少噪声和冗余信息的影响,提升预测结果的精度和泛化能力。
基于SVM的污染物浓度预测技术的应用主要分为以下几个方面。
1. 大气环境污染物浓度预测大气环境污染物是城市化进程中频繁遇到的环境问题之一,如何有效预测大气污染物浓度成为环境治理的关键。
利用SVM算法,可以从大量的环境监测数据中学习出具有强泛化能力的模型,实现对大气污染物浓度未来的预测,并为环境治理提供参考指标。
支持向量机在城市空气质量预测与污染管控中的应用指南

支持向量机在城市空气质量预测与污染管控中的应用指南城市空气质量一直是人们关注的热点问题之一。
随着城市化进程的加快和人口增长的不断加剧,城市空气污染问题日益严重。
为了有效预测和管控城市空气污染,支持向量机(Support Vector Machine,SVM)成为了一种重要的工具。
一、SVM的基本原理SVM是一种监督学习算法,主要用于分类和回归问题。
其基本原理是通过找到一个最优超平面,将不同类别的样本分开。
在预测城市空气质量和污染管控中,SVM可以利用已有的数据集,通过训练模型来预测未来的空气质量指数。
二、数据预处理在使用SVM进行城市空气质量预测之前,需要对数据进行预处理。
首先,收集大量的城市空气质量监测数据,包括PM2.5、PM10、O3等指标。
然后,对数据进行清洗,剔除异常值和缺失值。
接下来,对数据进行归一化处理,将各个指标的取值范围映射到0-1之间,避免不同指标之间的差异对预测结果造成影响。
三、特征选择在建立SVM模型之前,需要对特征进行选择。
特征选择的目的是从众多的指标中选择出对城市空气质量预测有重要影响的指标。
可以利用相关性分析、主成分分析等方法进行特征选择,选择出与空气质量相关性较高的指标作为输入变量。
四、模型训练与优化在进行模型训练之前,需要将数据集划分为训练集和测试集。
训练集用于建立模型,测试集用于评估模型的性能。
可以利用交叉验证的方法,将数据集分为多个子集,轮流作为训练集和测试集,避免模型对某一特定数据集过拟合。
在模型训练过程中,需要选择合适的核函数和正则化参数。
核函数可以将输入空间映射到高维特征空间,提高模型的拟合能力。
正则化参数可以控制模型的复杂度,避免模型过拟合。
五、模型评估与应用在模型训练完成后,需要对模型进行评估。
可以利用准确率、召回率、F1值等指标评估模型的性能。
同时,可以绘制ROC曲线和PR曲线,评估模型在不同阈值下的性能。
在实际应用中,可以利用训练好的SVM模型对未来的空气质量进行预测。
雾霾天气预测中支持向量机的应用分析

雾霾天气预测中支持向量机的应用分析一、支持向量机的基本原理支持向量机是一种二分类算法,其基本原理是将数据映射到高维空间中,找到一个超平面,将数据分隔开。
其中,超平面是在高维空间中进行分类的边界线。
具体来说,支持向量机的目标是找到一个可以最大间隔地将不同类别的样本分割开的超平面。
为了实现这个目标,支持向量机考虑了两个方面的问题。
首先,需要找到样本中离超平面最近的样本点,这些样本点被称为支持向量。
其次,需要确定如何选择和优化决策边界,即超平面的位置。
在选择超平面的位置时,支持向量机采用核函数将数据映射到更高维的空间中。
在这里,用核函数将数据转换到高维空间中是非常关键的,因为很多时候,数据在原始空间中的线性不可分,但在更高维的空间中则可以更加轻松地分割开来。
在雾霾天气预测中,支持向量机是一种非常有效的算法。
以下是支持向量机在雾霾天气预测中的具体应用分析:1、数据预处理支持向量机的预处理非常重要,因为预处理可以去除噪声和不必要的信息,从而提高预测的准确性。
在雾霾天气预测中,预处理通常包括数据清洗、标准化和降维等步骤。
2、特征提取在雾霾天气预测中,数据中的特征往往是非常重要的。
支持向量机可以利用不同的核函数对数据进行转换,从而提取不同的特征。
例如,多项式核可以提取多项式特征,而径向基核可以提取径向基特征。
3、模型训练在训练支持向量机模型时,需要选择合适的参数,例如核函数类型、核函数参数和正则化参数等。
过拟合和欠拟合也是需要注意的问题。
在训练的过程中,支持向量机会自动选择重要的数据点作为支持向量,并且通过优化来决定最优的超平面。
4、模型评估和预测支持向量机可以用来预测雾霾天气的发生概率,并根据预测结果给出相应的预防措施。
在进行模型评估时,通常采用交叉验证的方法来评估模型的性能。
在进行预测时,可以根据模型预测结果给出相应的预防建议,例如增加室内通风或者戴上口罩等。
三、结论支持向量机是一种非常强大的机器学习算法,在雾霾天气预测中有着广泛的应用。
小波分析及支持向量机应用于大气污染预测

小波分析及支持向量机应用于大气污染预测陈柳;吴冬梅;陈俏【摘要】针对大气污染物浓度时间序列有一定的年变化趋势,提出了大气污染物浓度的小波分析及支持向量机时间序列预测模型.应用小波分解和重构对大气污染物浓度进行年变化趋势分析,在此基础上将大气污染物浓度序列划分为若干时段.各时段分别独立应用支持向量机进行大气污染物浓度预测,各时段均使用v-支持向量回归机(v-SVR)算法和径向基函数.预测结果表明,所提出的预测方法应用于大气污染物浓度时间序列预测有较高的预测精度和良好的推广能力,而且明显优于一般的支持向量机模型.【期刊名称】《西安科技大学学报》【年(卷),期】2010(030)006【总页数】5页(P726-730)【关键词】小波分解和重构;支持向量机;大气污染预测;时间序列【作者】陈柳;吴冬梅;陈俏【作者单位】西安科技大学,能源学院,陕西,西安,710054;陕西省第三建筑工程公司,陕西,西安,710054;西安外事学院,商学院,陕西,西安,710077【正文语种】中文【中图分类】X823国内外对大气污染统计预测主要采用回归分析、时间序列、灰色系统等预测方法,但预测的准确率并不令人满意[1-5]。
近年来,人工神经网络模型在大气污染预测中应用较多。
如 Sofuoglu等人[6]利用BP网络预测 SO2浓度,Hoffman[7]直接应用 BP网络预测 NO2浓度的逐时值,Martin等人[8]利用 BP网络预测 CO的最大值,秦侠等人[9]应用 BP网络预测PM10的 24 h内的各小时浓度。
但是,这些神经网络模型的预测精度尚需进一步的提高。
由于大气污染物浓度具有一定的年变化规律[10],而小波分析具有良好的时频局部化功能,本文中拟将小波分析引入到支持向量机预测中,利用小波分解和重构判断大气污染物浓度序列的年变化趋势,并在此基础上建立大气污染物浓度的分时段支持向量机预测模型。
对获取的大气污染物时间序列进行小波分解和重构处理,从而判断大气污染物浓度的年变化趋势,并划分为若干时段。
基于混沌—支持向量机的大气污染物浓度预测模型

基于混沌—支持向量机的大气污染物浓度预测模型【摘要】针对传统大气污染物浓度预测模型涉及参数多,泛化能力差的缺点,提出了一种大气污染物浓度预测模型,该模型讨论了混沌时间序列的支持向量机模型的建模思路及参数的选取,并根据相空间重构理论计算实际污染浓度的延时,Lyapunov指数和嵌入维数,验证SO2浓度具有混沌特性。
通过实验表明,该模型对混沌时间序列具有很好的预测效果,相对于BP神经网络算法,本方法预测精度更高,泛化能力强,稳定性好,便于建模。
【关键词】支持向量机;混沌;大气污染物预测;相空间重构1.引言近年来,混沌理论以及非线性预测方法的发展为环境风险事件预警研究提供了新的思路。
支持向量机是在统计学习理论基础上发展起来的一种新的分类和回归工具,它是针对结构风险最小化理论提出的,泛化能力强,较好地解决了高维数、小样本、非线性等实际问题,已经应用于许多领域,成功用于回归时间序列预测,分类等领域。
其技术遵循结构风险最小化原则,预测性能优于神经网络。
目前,大气污染物浓度预测方法多是传统统计模型,难以模拟复杂大气浓度变化。
李军采用核函数为RBF神经网络对混沌序列进行预测;刘瑞平根据RBF神经网络预测混沌时间序列;罗贇赛将支持向量机理论应用于网络流量预测中,神经网络较传统模型能得到较好的预测结果,但其结构过于复杂且难于选择,收敛速度慢,容易陷入局部极值,预测精度低,且估计参数相对于较少的数据样本,导致所得到的神经网络模型相对于数据产出过拟合,即泛化能力不够。
本文仿真实验研究结果表明大气污染浓度存在混沌特性,混沌模型中相空间重构方法以及统计学习理论的支持向量机,可以将非线性序列映射到高维空间中去,此时高维空间数据便具有线性性质,并在这个空间进行线性回归。
3.大气污染浓度预测模型的建立3.1 混沌—支持向量机回归的空气污染浓度预测步骤混沌—支持向量机回归预测模型主要是基于混沌和支持向量机这两个理论,根据具体的大气污染具体参数的属性,建立具体模型,具体如图1所示。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
收稿日期:2009-04-27;修回日期:2009-07-09基金项目:陕西省教育厅专项科研计划项目(07JK312)作者简介:陈 俏(1980-),女,湖北武汉人,硕士研究生,研究方向为支持向量机的研究与应用;曹根牛,副教授,研究方向为最优化理论研究。
支持向量机应用于大气污染物浓度预测陈 俏1,曹根牛1,陈 柳2(1.西安科技大学理学院,陕西西安710054;2.西安科技大学能源学院,陕西西安710054)摘 要:支持向量机是基于统计学习理论的新一代机器学习技术,其非线性回归预测性能优越于传统统计方法。
提出了一种大气污染物浓度预测模型,该方法将支持向量机应用于大气污染物浓度预测,首先对各类影响因子进行分析并进行建模预测;而后利用主成分分析的方法对输入因子降维,从而形成支持向量机的训练样本集;在此基础上建立了基于RBF 核函数支持向量回归法的大气污染预模型。
大气污染预测实例表明,该方法具有泛化能力强、预测精度高、训练速度快、稳定性好、便于建模等优点,有良好的应用前景。
关键词:支持向量机;大气污染预测;核函数中图分类号:T P181 文献标识码:A 文章编号:1673-629X(2010)01-0250-04Application of Support Vector Machine toAtmospheric Pollution PredictionCH EN Qiao 1,CAO Gen -niu 1,CHEN Liu 2(1.College of Science ,Xi an U niversity of Science and T echnolog y,Xi an 710054,China;2.College of Energy,Xi an U niver sity of Science and T echno logy,Xi an 710054,China)Abstract:The support vector machine (SVM )as a new generation machinery learning technology based on statistical theory,has been re -ported to have better prediction performance of non-liner regression than traditional statis tical methods.First,the i nput variables are an -alyzed,then dimensi onality of input variables are reducted using principal component analysi s (PCA)to form the training sample of the support vector machine.Th e appropriate forecasting methods are chosen and an S VM regression model for atmospheri c pol lution predic -tion is establi sh ed.T he testing results show ed that the model based on support vector machine exhi bited its properties of high forecast ac -curacy,fast training,high generalization capabili ty and easy modeling.Key words:support vector machine (SVM );atmospheric pol lution prediction;kernel function0 引 言支持向量机(SVM )是Vapnik 开发的基于统计学习理论的新一代机器学习技术[1],能较好地解决小样本、非线性、高维数和局部极小点等实际问题,已成为机器学习界的研究热点之一,并成功应用于分类、回归和时间序列预测等领域[2~4]。
其遵循结构风险最小化原则,预测性能和推广能力优于神经网络,因而成为应用领域研究的热点。
目前,大气污染物浓度统计预测方法多是传统统计模型,难以模拟复杂多变的大气污染变化[5]。
神经网络较传统统计方法能更好地模拟大气污染因素的非线性关系,在大气污染预测应用中取得较好结果[6]。
然而,神经网络具有推广能力差、过拟合、易于陷人局部最优、寻找结构参数复杂等缺点。
文中通过实例论证,探讨支持向量回归方法应用于大气污染物浓度的可行性。
1 支持向量机原理利用SVM 进行回归与预测的基本思想[7,8]是通过非线性映射将数据映射到高维特征空间 中,并在该特征空间进行线性回归:f (x )=(w (x ))+b(1)考虑l 个独立分布的学习样本T ={(x 1,y 1), ,(x l ,y l )} (X ,Y)l ,其中x l X R n ,y l Y R,i =1,2, ,l,在高维特征空间 中构造回归超平面。
用于回归分析的SVM 主要有 -SVR 和v -SVR 。
在 -SVR 中,需要事先确定 -不敏感损失函数中的参数 ,然而在某些情况下选择合适的 并非易第20卷 第1期2010年1月 计算机技术与发展COM PUT ER TECHNOLOGY AND DEVELOPM ENTV ol.20 No.1Jan. 2010事。
相比之下,v-SVR能够自动计算。
因此文中以v-SVR为例予以说明。
v-SVR将回归分析问题转化为求解以下优化问题:回归超平面的对应优化问题是:min w,b, (*)12w 2+C(v +1lli=1( i+ *i)),s.t.(w (x))+b-y i + i,i=1,2, ,ly i-(w (x))-b + *i,i=1,2, ,l (*)i 0, 0,i=1,2, ,l(2)式中: (*)=( 1, *1, , l, *l)T,C是惩罚因子;v为控制支持向量机的个数; 为不敏感损失函数。
引入Lagrange乘子构造Lagrange泛函,得到原问题的对偶问题:max (*) li=1y i(a*i-a i)-12li,j=1(a*i-a i)(a*j-a j)K(xi,x j)s.t. li=1(a*i-a i)=00 a*i C l i=1,2, ,lli=1(a i+a*i) C v(3)其中v 0,C>0是常数。
所求的最优回归超平面可表示为:f(x)= l i=1(-a i+a*i)K(x i,x)+b(4)2 大气污染物浓度预测模型建立基于支持向量机的大气污染物浓度变化的预测模型,关键问题是输人模式的确定、训练样本的选取以及模型结构参数的选取。
文中拟以SO2为例,建立大气污染物浓度预测模型。
2.1 建立大气污染物浓度预测模型的步骤(1)构建有效的预测因子。
由于大气污染物浓度(y)主要受污染源的源强和气象因子的影响,故考虑将前一天的SO2浓度(x1)、平均风速(x2)、日均温度(x3)、日均湿度(x4)、日均气压(x5)、日照时数(x6)、总辐射量(x7)、净辐射量(x8)、总云量(x9)共9个因子作为预选预测因子。
(2)选择核函数及参数值。
常用的核函数有线性核函数、多项式核函数、径向基函数(RBF)核函数和sigmoid核函数。
(3)用训练样本训练具有优化参数的支持向量机预测模型,获得支持向量,确定支持向量机的结构。
(4)用训练过的支持向量预测器对测试样本预测。
2.2 预测模型的具体应用2.2.1 资料来源文中采用的SO2浓度资料由西安市环境监测站提供,监测SO2浓度值为全市日平均浓度值。
资料取2001,2002年1~12月。
对应的气象资料由陕西省气象局提供。
2.2.2 试验软件L ibsvm是台湾大学林智仁等开发设计的一个简单、易于使用、快速、有效的SVM模式识别与回归的软件程序。
它不但提供了编译好的基于Windows操作系统的执行文件,还提供了有关的软件程序源代码,方便改进、修改以及在其他操作系统上应用。
2.2.3 数据的预处理将前一天的SO2浓度、平均风速、日均温度、日均湿度、日均气压、日照时数、总辐射量、净辐射量、总云量共9个因子作为SVM预测模型的预选输入因子,输出为当日SO2浓度,为了防治数据溢出,同时加快运算速度,对训练前、后的数据均进行归一化处理,将输入输出数据变换为[-1,1]区间的值。
为了消除各输入因子间的相关性,对输入的9个因子进行主元分析,主元变换后的7个因子的矩阵的累计贡献率为93%,因此,用主元变换后的7个因子的矩阵作为SVM预测模型的输入因子。
2.2.4 SV M的学习训练及预测把2001年全年共365组数据作为训练样本,每组数据包括7个输入因子一个SO2实际值。
把2002年全年共365组数据作为测试样本,每组数据包括7个输入因子,对每日的SO2进行预测。
由于核函数和惩罚因子C是SVM模型的主要参数,它们对预测结果影响很大。
如何合理选择SVM模型的参数,目前尚无有效的方法。
文中通过交叉试验的方法选取核函数及惩罚因子。
(1)核函数对分析结果的影响。
核函数反映了训练数据样本的特性,对于系统的泛化能力影响较大。
通过交叉试验选择不同核函数建立的SVM预测模型,其预测的平均相对误差和均方根误差如表1所示。
表1 不同核函数对分析结果的影响核函数平均相对误差均方根误差线性核函数0.18140.0106多项式核函数0.17490.0107sigmoid核函数0.16710.0099RBF核函数0.15810.0098对比表1中的数据可知,核函数的选择不同,分析结果也不同。
因此,大气污染物支持向量机预测模型中核函数选用RBF核函数。
251第1期 陈 俏等:支持向量机应用于大气污染物浓度预测(2)惩罚因子C 对分析结果的影响。
惩罚因子C 为正常数,惩罚因子C 决定了对超出误差 的样本惩罚程度。
从结构风险的角度考虑,C 值取得过大,问题倾向于经验最小,忽略对结构复杂程度的考虑;反之则更多地考虑了问题的复杂程度,忽略了经验数据的作用。
因此也可以说,C 是支持向量机回归和泛化能力的平衡参数。
通过交叉试验选择不同惩罚因子C 建立的SV M 预测模型,表2为选择RBF 核函数,惩罚因子C 变化、其他参数不变时对分析结果的影响。
表2 惩罚因子C 对分析结果的影响惩罚因子C平均相对误差均方根误差10.17480.010220.17550.010340.17900.010560.18080.010690.18150.0106100.18100.0106200.17930.0105400.17540.0103800.17340.01021000.17220.01025000.16610.010010000.15810.009815000.24190.015120000.25270.0159100000.31160.0200惩罚因子C 取不同的常数值,对结果有不同的影响。