实验2分类预测模型_支持向量机

合集下载

机器学习SVM(支持向量机)实验报告

机器学习SVM(支持向量机)实验报告

实验报告实验名称:机器学习:线性支持向量机算法实现学员: 张麻子学号: *********** 培养类型:硕士年级:专业:所属学院:计算机学院指导教员:****** 职称:副教授实验室:实验日期:ﻬ一、实验目得与要求实验目得:验证SVM(支持向量机)机器学习算法学习情况要求:自主完成。

二、实验内容与原理支持向量机(Support Vector Machine,SVM)得基本模型就是在特征空间上找到最佳得分离超平面使得训练集上正负样本间隔最大。

SVM就是用来解决二分类问题得有监督学习算法。

通过引入了核方法之后SVM也可以用来解决非线性问题。

但本次实验只针对线性二分类问题。

SVM算法分割原则:最小间距最大化,即找距离分割超平面最近得有效点距离超平面距离与最大。

对于线性问题:假设存在超平面可最优分割样本集为两类,则样本集到超平面距离为:需压求取:由于该问题为对偶问题,可变换为:可用拉格朗日乘数法求解。

但由于本实验中得数据集不可以完美得分为两类,即存在躁点。

可引入正则化参数C,用来调节模型得复杂度与训练误差。

作出对应得拉格朗日乘式:对应得KKT条件为:故得出需求解得对偶问题:本次实验使用python编译器,编写程序,数据集共有270个案例,挑选其中70%作为训练数据,剩下30%作为测试数据。

进行了两个实验,一个就是取C值为1,直接进行SVM训练;另外一个就是利用交叉验证方法,求取在前面情况下得最优C值.三、实验器材实验环境:windows7操作系统+python编译器。

四、实验数据(关键源码附后)实验数据:来自UCI机器学习数据库,以Heart Disease数据集为例。

五、操作方法与实验步骤1、选取C=1,训练比例7:3,利用python库sklearn下得SVM()函数进行训练,后对测试集进行测试;2、选取训练比例7:3,C=np、linspace(0、0001,1,30)}。

利用交叉验证方法求出C值得最优解。

如何使用支持向量机进行多类别分类

如何使用支持向量机进行多类别分类

如何使用支持向量机进行多类别分类支持向量机(Support Vector Machine,SVM)是一种常用的机器学习算法,广泛应用于分类和回归问题。

在分类问题中,SVM可以有效地处理二分类任务。

但在面对多类别分类问题时,需要采取一些特殊的策略来适应多类别情况。

本文将介绍如何使用支持向量机进行多类别分类。

1. 一对多(One-vs-Rest)策略一对多策略是最常用的多类别分类方法之一。

它将多类别问题转化为多个二分类问题。

对于有N个类别的问题,我们需要训练N个SVM模型,每个模型都将一个类别作为正例,其他类别作为负例。

在预测时,将样本输入到这N个模型中,选择输出概率最高的类别作为最终的分类结果。

这种策略的优点是简单易懂,容易实现。

同时,由于每个模型只需要区分一个类别和其他类别,相对于直接使用多类别分类模型,计算量较小。

然而,这种方法可能会出现类别不平衡的问题,即某些类别的样本数量较少,导致模型对这些类别的预测效果较差。

2. 一对一(One-vs-One)策略一对一策略是另一种常用的多类别分类方法。

它将多类别问题转化为多个二分类问题,每个二分类问题只涉及两个类别。

对于有N个类别的问题,我们需要训练N*(N-1)/2个SVM模型,每个模型都将两个类别作为正例和负例。

在预测时,将样本输入到这些模型中,通过投票或者加权投票的方式确定最终的分类结果。

相对于一对多策略,一对一策略的优点是可以避免类别不平衡的问题。

每个模型只需要区分两个类别,相对于直接使用多类别分类模型,计算量较小。

然而,这种方法的缺点是需要训练大量的模型,计算复杂度较高。

当类别数量较多时,训练时间和内存消耗可能会成为问题。

3. 多类别扩展除了以上介绍的一对多和一对一策略,还有一些其他方法可以用于多类别分类。

例如,多类别扩展方法将多类别问题转化为二分类问题,但是通过一些技巧将多个二分类模型组合起来。

常见的多类别扩展方法有Error-Correcting Output Codes (ECOC)和Directed Acyclic Graph(DAG)等。

《数据挖掘与数据分析(财会)》支持向量机(SVM)及应用

《数据挖掘与数据分析(财会)》支持向量机(SVM)及应用


||||
因为 平 + 0 在平面内,所以其值为0。原式变为:

= + 0 =
||||

X在平面
内的分

=

||||
但是,距离应该是正数,但计算出来的可能为正,也可能为负,因
此需要加上绝对值
||
=
||||
但加上绝对值,无法微分,因此,我们加上一些约束
也就是说:
是平面(线) + 0 的法线
4
总结
假设直线(平面)的方程为 + = ,和点
集{ , , … . }那么,哪些点距离直线最近?
根据几何知识,能够使得| + |最小的点,
距离平面最近。
5
SVM原理以及基本概念
2.SVM基本概念
2.1 点到分离面的距离
大智移云下的财务管理创新思维
问题的提出
在平面上有这样的两组数据,如何将他们进行分类,
以便于在将来新的数据加入进来能将新的数据划分到
某一方:
1
SVM原理以及基本概念
1. 什么是SVM
SVM (support vectors machine,SVM ,支持向量机)
支持向量机(又名支持向量网络)一种二类分类模型,它的基本模型是的定
当()大于0时,我们规定 = 1,当()小于0时, = −1
因此,点到平面的距离就变成了:r =

||||
. .
8
= ||||2
= −1.
= 1.
> 0
<0
> 0.
即: + 0 > 0 = 1, −1

支持向量机

支持向量机
(2) 分类阶段,给计算机一些它从来没见过的文档, 让它分类。
智能信息处理实验室
6
2.1 引子
用向量空间模型简表示文档,比如
w2=(文本,5,统计学习,4,模型,0,……) w3=(文本,9,统计学习,4,模型,10,……) 这个向量表示在 w2 所代表的文本中,“文本”这个词出 现了 5 次(这个信息就叫做词频) ,“统计学习”这个词出 现了 4 次,而“模型”这个词出现了 0 次,依此类推w3。 把所有文档都要用到的词从向量中抽离出来,形成共用的 数据结构(也可以仍是向量的形式) ,这个数据结构就叫做 词典,或者特征项集合。比如
支持向量机方法是建立在统计学习理论的VC维理论和结 构风险最小原理基础上的,根据有限的样本信息在模型 的复杂性(即对特定训练样本的学习精度,Accuracy) 和学习能力(即无错误地识别任意样本的能力)之间寻 求最佳折衷,以期获得最好的推广能力(或称泛化能 力).
智能信息处理实验室
3
小样本
并不是说样本的绝对数量少(实际上,对任何算法来说, 更多的样本几乎总是能带来更好的效果),而是说与问题的复 杂度比起来,SVM 算法要求的样本数是相对比较少的.
Remp(w)是R(w)得估计,传统概率论中的定理只说明 了(在一定条件下)当样本趋于无穷多时Remp(w)将在概
率意义上趋近于R(w)。 经验风险泛化能力很差,原因。。。
智能信息处理实验室
14
2.3.3 结构风险最小化(SRM)
根据统计学习理论中关于函数集的推广性的 界的结论,对于两类分类问题中的指示函数
智能信息处理实验室
35
3.4.2 核函数
智能信息处理实验室
36
3.4.2核函数
智能信息处理实验室

地质灾害预测模型及其应用

地质灾害预测模型及其应用

地质灾害预测模型及其应用近年来,地质灾害频发,给人们的生产和生活造成了严重的影响。

为了提高预测地质灾害的可靠性和准确性,研究人员提出了许多地质灾害预测模型。

本文将介绍这些模型的基本原理和应用。

一、预测模型种类及其基本原理1. 支持向量机模型支持向量机模型是一种基于统计学习理论的分类方法,它的核心思想是将样本映射到高维空间中进行分类。

在这个高维空间中,线性可分的样本往往是可以通过分离超平面进行分类的。

但是在复杂的非线性问题中,样本往往不是线性可分的。

因此,支持向量机模型利用核函数将低维空间中的样本映射到高维空间,从而使得样本在高维空间中变得线性可分。

2. BP神经网络模型BP神经网络模型是一种常用的神经网络模型。

它的基本原理是通过学习算法来确定模型的结构和参数,从而实现非线性函数的逼近。

在地质灾害预测中,BP 神经网络模型可以通过输入不同的地质参数,预测发生地质灾害的可能性。

3. 遗传算法模型遗传算法模型是一种优化算法,它的基本原理是通过模拟自然界中的生物进化过程来搜索最优解。

在地质灾害预测中,遗传算法模型可以通过对地质参数进行优化,找到最优的预测方案。

与其他算法相比,遗传算法模型更加适用于复杂的非线性系统。

二、预测模型应用案例1. 云南滇中地区滑坡预测在云南地区,滑坡灾害频繁发生,给当地人民的生命财产带来了严重的威胁。

研究人员利用支持向量机模型对滑坡进行了预测。

通过收集云南滇中地区历史滑坡的信息和相关地质参数,建立了支持向量机模型。

实验结果表明,利用支持向量机模型可以对云南滇中地区滑坡进行准确的预测。

2. 四川汶川地震液化预测在汶川地震中,地表土层因为地震震动而失去稳定性,形成了大量的液化沙,给当地的救援工作带来了很大的困难。

研究人员利用遗传算法模型对汶川地震液化进行了预测。

通过收集历史液化事件的信息和相关地质参数,建立了遗传算法模型。

实验结果表明,遗传算法模型可以对汶川地震液化进行有效的预测和预防。

决策树、支持向量机、logistic、随机森林分类模型的数学公式

决策树、支持向量机、logistic、随机森林分类模型的数学公式

决策树、支持向量机、logistic、随机森林分类模型的数学公式决策树(Decision Tree)是一种基于树状结构进行决策的分类和回归方法。

决策树的数学公式可以表示为:对于分类问题:f(x) = mode(Y), 当节点为叶子节点f(x) = f_left, 当 x 属于左子树f(x) = f_right, 当 x 属于右子树其中,mode(Y) 表示选择 Y 中出现最频繁的类别作为预测结果,f_left 和 f_right 分别表示左子树和右子树的预测结果。

对于回归问题:f(x) = Σ(y_i)/n, 当节点为叶子节点f(x) = f_left, 当 x 属于左子树f(x) = f_right, 当 x 属于右子树其中,Σ(y_i) 表示叶子节点中所有样本的输出值之和,n 表示叶子节点中样本的数量,f_left 和 f_right 分别表示左子树和右子树的预测结果。

支持向量机(Support Vector Machine,简称 SVM)是一种非概率的二分类模型,其数学公式可以表示为:对于线性可分问题:f(x) = sign(w^T x + b)其中,w 是超平面的法向量,b 是超平面的截距,sign 表示取符号函数。

对于线性不可分问题,可以使用核函数将输入空间映射到高维特征空间,公式变为:f(x) = sign(Σα_i y_i K(x_i, x) + b)其中,α_i 和 y_i 是支持向量机的参数,K(x_i, x) 表示核函数。

Logistic 回归是一种常用的分类模型,其数学公式可以表示为:P(Y=1|X) = 1 / (1 + exp(-w^T x))其中,P(Y=1|X) 表示给定输入 X 的条件下 Y=1 的概率,w 是模型的参数。

随机森林(Random Forest)是一种集成学习方法,由多个决策树组成。

对于分类问题,随机森林的数学公式可以表示为:f(x) = mode(Y_1, Y_2, ..., Y_n)其中,Y_1, Y_2, ..., Y_n 分别是每个决策树的预测结果,mode 表示选择出现最频繁的类别作为预测结果。

机器学习建模实验报告(3篇)

机器学习建模实验报告(3篇)

第1篇一、实验背景随着大数据时代的到来,机器学习技术在各个领域得到了广泛应用。

本实验旨在通过实际操作,掌握机器学习建模的基本流程,包括数据预处理、特征选择、模型选择、模型训练和模型评估等步骤。

通过实验,我们将深入理解不同机器学习算法的原理和应用,提高解决实际问题的能力。

二、实验目标1. 熟悉Python编程语言,掌握机器学习相关库的使用,如scikit-learn、pandas等。

2. 掌握数据预处理、特征选择、模型选择、模型训练和模型评估等机器学习建模的基本步骤。

3. 熟悉常见机器学习算法,如线性回归、逻辑回归、决策树、支持向量机、K最近邻等。

4. 能够根据实际问题选择合适的机器学习算法,并优化模型参数,提高模型性能。

三、实验环境1. 操作系统:Windows 102. 编程语言:Python3.83. 机器学习库:scikit-learn 0.24.2、pandas 1.3.4四、实验数据本实验使用鸢尾花数据集(Iris dataset),该数据集包含150个样本,每个样本有4个特征(花瓣长度、花瓣宽度、花萼长度、花萼宽度)和1个标签(类别),共有3个类别。

五、实验步骤1. 数据导入与预处理首先,使用pandas库导入鸢尾花数据集,并对数据进行初步查看。

然后,对数据进行标准化处理,将特征值缩放到[0, 1]范围内。

```pythonimport pandas as pdfrom sklearn import datasets导入鸢尾花数据集iris = datasets.load_iris()X = iris.datay = iris.target标准化处理from sklearn.preprocessing import StandardScalerscaler = StandardScaler()X = scaler.fit_transform(X)```2. 特征选择使用特征重要性方法进行特征选择,选择与标签相关性较高的特征。

大数据分析中的预测模型研究

大数据分析中的预测模型研究

大数据分析中的预测模型研究一、引言随着互联网的快速发展和技术的进步,大数据已成为各个行业中不可忽视的重要资源。

大数据的崛起为企业和组织提供了更多优质的信息资源,但同时也带来了海量数据的处理问题。

为了更好地发掘和利用大数据中的信息,预测模型成为了大数据分析中非常重要的研究领域之一。

二、预测模型的概念与分类预测模型是指利用历史数据、统计方法和数学模型等手段,对未来的事件进行估计和预测的模型。

根据其应用领域和方法的不同,预测模型可以分为时间序列预测模型、回归预测模型、分类预测模型等。

1. 时间序列预测模型时间序列预测模型是根据时间序列的特点,采用一定的统计方法和模型来预测未来的数值。

常用的时间序列预测方法有移动平均法、指数平滑法和自回归移动平均模型等。

2. 回归预测模型回归预测模型是通过建立一个数学模型,利用历史数据中的变量之间的关系,来预测未来数值。

常用的回归预测方法有线性回归、逻辑回归和支持向量机等。

3. 分类预测模型分类预测模型是根据已知数据的特征,将其划分为不同的类别,并根据已知的分类规则,对未知数据进行分类。

常用的分类预测方法有决策树、朴素贝叶斯和神经网络等。

三、大数据分析中的预测模型应用大数据分析中的预测模型应用广泛,几乎涵盖了所有行业。

下面以金融行业和电商行业为例,介绍预测模型在大数据分析中的应用。

1. 金融行业金融行业是一个信息密集型行业,大量的金融数据对于决策者来说是非常宝贵的资源。

预测模型在金融行业中可以用来预测股市走势、利率波动、违约风险等。

通过对历史数据的分析和建模,预测模型可以帮助投资者制定有效的投资策略,降低风险。

2. 电商行业电商行业中的大数据包含了海量的用户行为和交易数据,借助预测模型,可以对用户的购买行为进行预测和分析,提升用户的购物体验和满意度。

另外,预测模型还可以用来预测产品的需求量、用户的流失情况等,为电商企业提供决策参考。

四、挑战与解决方案在大数据分析中应用预测模型时,面临着许多挑战。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

实验2分类预测模型——支持向量机SVM一、 实验目的1. 了解和掌握支持向量机的基本原理。

2. 熟悉一些基本的建模仿真软件(比如SPSS 、Matlab 等)的操作和使用。

3. 通过仿真实验,进一步理解和掌握支持向量机的运行机制,以及其运用的场景,特别是在分类和预测中的应用。

二、 实验环境PC 机一台,SPSS 、Matlab 等软件平台。

三、 理论分析1. SVM 的基本思想支持向量机(Support Vector Machine, SVM ),是Vapnik 等人根据统计学习理论中结构风险最小化原则提出的。

SVM 能够尽量提高学习机的推广能力,即使由有限数据集得到的判别函数,其对独立的测试集仍能够得到较小的误差。

此外,支持向量机是一个凸二次优化问题,能够保证找到的极值解就是全局最优解。

这希尔特点使支持向量机成为一种优秀的基于机器学习的算法。

SVM 是从线性可分情况下的最优分类面发展而来的,其基本思想可用图1所示的二维情况说明。

图1最优分类面示意图图1中,空心点和实心点代表两类数据样本,H 为分类线,H1、H2分别为过各类中离分类线最近的数据样本且平行于分类线的直线,他们之间的距离叫做分类间隔(margin )。

所谓最优分类线,就是要求分类线不但能将两类正确分开,使训练错误率为0,而且还要使分类间隔最大。

前者保证分类风险最小;后者(即:分类间隔最大)使推广性的界中的置信范围最小,从而时真实风险最小。

推广到高维空间,最优分类线就成为了最优分类面。

2. 核函数ω支持向量机的成功源于两项关键技术:利用SVM 原则设计具有最大间隔的最优分类面;在高维特征空间中设计前述的最有分类面,利用核函数的技巧得到输入空间中的非线性学习算法。

其中,第二项技术就是核函数方法,就是当前一个非常活跃的研究领域。

核函数方法就是用非线性变换 Φ 将n 维矢量空间中的随机矢量x 映射到高维特征空间,在高维特征空间中设计线性学习算法,若其中各坐标分量间相互作用仅限于内积,则不需要非线性变换 Φ 的具体形式,只要用满足Mercer 条件的核函数替换线性算法中的内积,就能得到原输入空间中对应的非线性算法。

常用的满足Mercer 条件的核函数有多项式函数、径向基函数和Sigmoid 函数等,选用不同的核函数可构造不同的支持向量机。

在实践中,核的选择并未导致结果准确率的很大差别。

3. SVM 的两个重要应用:分类与回归分类和回归是实际应用中比较重要的两类方法。

SVM 分类的思想来源于统计学习理论,其基本思想是构造一个超平面作为分类判别平面,使两类数据样本之间的间隔最大。

SVM 分类问题可细分为线性可分、近似线性可分及非线性可分三种情况。

SVM 训练和分类过程如图2所示。

图2 SVM 训练和分类过程SVM 回归问题与分类问题有些相似,给定的数据样本集合为 x i ,y i ,…, x n ,y n 。

其中,x ix i ∈R,i =1,2,3…n 。

与分类问题不同,这里的 y i 可取任意实数。

回归问题就是给定一个新的输入样本x ,根据给定的数据样本推断他所对应的输出y 是多少。

如图3-1所示,“×”表示给定数据集中的样本点,回归所要寻找的函数 f x 所对应的曲线。

同分类器算法的思路一样,回归算法需要定义一个损失函数,该函数可以忽略真实值某个上下范围内的误差,这种类型的函数也就是 ε 不敏感损失函数。

变量ξ度量了训练点上误差的代价,在 ε 不敏感区内误差为0。

损失函数的解以函数最小化为特征,使用 ε 不敏感损失函数就有这个优势,以确保全局最小解的存在和可靠泛化界的优化。

图3-2显示了具有ε 不敏感带的回归函数。

oxy图3-1 回归问题几何示意图o xy图3-2回归函数的不敏感地四、实验案例与分析支持向量机作为一种基于数据的机器学习方法,成功应用于分类和预测两个方面。

本实例将采用支持向量机的分类算法对备件进行分类,以利于对备件进行分类管理,然后运用支持向量机的回归算法对设备备件的需求进行预测,以确定备件配置的数量。

1.基于SVM的设备备件多元分类设备备件通常可分为三种类型,即设备的初始备件、后续备件和有寿备件。

a)初始备件:是指设备在保证期内,用于保持和恢复设备主机、机载设备与地面保障设备设计性能所必需的不可修复件和部分可修复件。

该类设备是随设备一起交付用户的,其费用计入设备成本。

b)有寿设备:由于规定了寿命期限,因此这基本上是一个确定性的问题。

c)后续设备:由于备件供应保障的目标是使设备使用和维修中所需要的备件能够得到及时和充分的供应,同时使备件的库存费用降至最低。

因此,对于某种备件是否应该配置后续备件以及配置多少都需要慎重考虑。

对于某种备件是否应该配置后续备件,需要综合考虑多方面的因素。

首先,我们必须考虑部件的可靠性水平。

配置备件的根本原因也在于此。

如果可靠性水平不高,则工作部件容易出现故障,那么跟换时就需要用到备件,因此工作部件的可靠性水平是影响备件配置的一个重要因素。

其次,是故障件的可维修性水平。

故障件的可维修性水平越高,维修处理故障的时间越短,故障设备就能快速恢复工作状态;相反,如果故障件的可维修性差,则需要长时间来排除故障,为了保证设备的正常运行,只有进行换件处理,即依靠备件来接替工作。

最后,是经济方面的因素。

统计表明,高价设备的配件虽少,但是其费用却占总备件费用的很大一部分。

此外,还有一些其他方面的因素,如关键性等。

后续备件的配置涉及一个分类的问题,根据不同的类别,因采取不同的配置方式。

因此,这里使用SVM构建多元分类模型对齐进行分析。

对于备件的属性选择,主要考虑可靠性、维修性和经济性三种因素,分别选择平均故障间隔时间(MTBF)、平均维修时间(MTTR)和单价作为备件的三种属性。

因此,SVM的输入学习样本为三维,选取RBF径向基核函数作为样本向高维特征空间映射的核函数。

表1所示为8种备件样本的属性及其经验分类。

从表1中可以看出,对于1号分类,如R4,其显著特征是可靠性差,维修费时,但是价格便宜,需要而且适合大量配置后续备件;对于2号分类,如R2,其典型特征是可靠性高,很少发生故障,因此不需要配置后续备件;对于3号分类,如R3,其典型特征是可靠性不高,但是价格较为昂贵,因此只适合配置少量的后续备件;对于4号分类,如R7,无明显特征,属于一般后续备件,可以根据具体情况决定备件的配置数量。

通过SPSS的Clementine 12.0软件进行仿真步骤:(1).构建SVM模型。

图4-1输入为3变量:品种、MTBF、MTTR、价格,输出为分类号。

图4-2模型选择RBF核函数,参数设置:目标函数的正则化参数C=10,损失函数中的ε=0.1,核函数中的σ=0.1。

图4-3 (2).利用训练数据训练模型。

图4-4图4-5(3).利用学习好的支持向量机,对测试样本进行分类。

图4-6图4-7(4). 结果分析:a)分类结果与实际分类完全一致,可以认为采用支持向量机对设备备件的分类是有效的。

根据分类号可以得出结论:R9属于一般备件,可以根据实际需求配置后续备件,R10需要大量配置后续备件。

b)输入样本对结果影响较大,核函数选择对结果影响不大。

c)$SP-1.0表示数据项属于分类1的概率,系统将需要分类的数据项归类到$SP最大的类中。

所以$SP越大时,分类的置信度越高。

2.基于SVM的设备需求预测设备备件的供应保障是否得力直接影响设备的完好率,而过多的备件设置又会导致存储费用的增加,只有合理的配置备件才能在有限费用的情况下,最大限度地保障设备的供应。

因此,科学、合理、准确地预测设备需求是解决这一问题的关键。

这里依然采用支持向量机构建备件需求预测模型,以已有的成功案例作为学习样本,然后进行未知备件需求的预测。

需要特别指出的是,支持向量的三个参数需要在学习之前指定,他们是目标函数的正则化参数C,损失函数中的ε,核函数中的σ。

虽然有些启发式的算法可以获取这些参数值,但都不是最理想的。

其中,正则化参数C控制着经验风险和VC维的平衡,一般都取一个极大的数来降低误差,以取得对训练效果的较好的拟合;损失函数中的ε控制着拟合管道的宽度,也就是误差的边界;核函数中的σ控制着支持向量机对输入变量变化的敏感程度。

这里通过一个预测sinc函数的实验来分析三个参数对支持向量的影响。

在[-3,3]区间均匀选取51个值作为自变量xi 由y=sinc x i+νi(其中,νi是满足正太分布N(0,0.04)的随机干扰)得到51个样本点。

由于正则化参数C控制着经验风险和VC 维的平衡,因此这里不再对其进行分析,将其固定在100,主要分析参数ε和σ的选择对于支持向量机的样本学习和预测的影响。

先选定σ=1,分析ε的取值影响,然后根据前面得到的较好预测结果的ε值,选定ε=0.24,分析σ的取值影响,支持向量机的学习及预测结果如图3所示。

通过图5(a)、(b)比较可知,ε的选取与干扰的强弱有关,干扰越强,需要的ε也越大,反之ε越小。

因此,应尽量让更多的支持向量位于预测的管道壁上,而非管道壁外。

图5(c)(d)说明:核函数中的σ决定了SVM对训练样本输入变化的敏感程度,过大的σ会使SVM反应迟钝,不能随着输入的变化迅速调整;反之,过小的σ则对输入过于敏感,以至于干扰对SVM影响很大,甚至导致样本学习的失败。

最后,在确定了ε和σ之后,改变C的值,发现C在较大的区域内变动时,SVM的学习和预测结果没有很大的变化,这也表明ε和σ的选取是合适的。

但是,最好在此基础上适当减少C的值,避免过大的C引起经验误差和VC维失去平衡,导致VC维急剧增大,泛化能力下降。

正则化参数C,损失函数中的ε,核函数中的σ图5支持向量机的学习及预测结果基于支持向量机的设备备件预测模型建模的基本步骤如下:(1). 寻找与备件需求相关的各个影响因素的特征量。

影响备件需求的因素很多,如单台设备上拥有该种备件的数量,数量越大,那么发生故障的概率也就越大,对于这种备件的需求也就越大。

此外,场外能否完成故障件的修理,修复能力如何等,都对备件的需求产生不同程度的影响。

(2). 确定能够描述各个影响因素的说明性变量,即备件需求驱动因子。

说明性变量的确定原则为:该说明性变量合乎逻辑地和各个影响因素相关系;该说明性变量的变化引起备件需求变化具有一贯性;该说明性变量的量值在综合保障分析中容易确定。

(3). 采用支持向量机对样本进行学习,说明性变量是输入参数,备件需求量是输出。

(4). 输入新的备件需求情况样本或者已有备件在不同情况下的需求样本,利用学习好的支持向量机模型进行备件需求预测。

(5). 增添新样本到支持向量机进行学习,不断提高备件需求的预测精度。

针对某设备的某型号备件一直不能满足保障需求,可以根据其他成功实现保障的备件数据情况,对该备件的需求进行预测。

相关文档
最新文档