BP神经网络的异常点检测应用可行性研究本科毕业论文
基于BP神经网络的疾病诊断模型(论文)

基于BP 神经网络的疾病诊断模型郑楷洪 兰妙萍中国矿业大学计算机学院摘要:医生诊断就诊人员是否患肾炎时,通常要化验人体内各种元素含量,通过分析元素含量来判断病人是否患病。
为了能够方便准确的诊断疾病,需要通过建立更加实用的数学模型来应用于诊断设备,实现更加准确的诊断。
本文引出了—种BP 神经网络预测模型,通过对已有数据记录进行数学分析,找出简单有效的肾炎诊断方法。
用Matlab 神经网络工具箱以7种元素化验结果作为网络的输入接点设计了三层神经网络模型,计算并对其检验,得到满意的结果,并对30组就诊病人数据进行了预测。
关键词:肾炎诊断;BP 神经网络;数学模型;数据分析一、 引言在现代生活当中,许多疾病困扰着我们的生活,在某种程度上说诊断疾病是一项相当复杂的过程,需要对许多因素进行分析,有时甚至会出现误诊,而且有时需要花销大量费用。
为了节约费用且能够方便准确的诊断疾病需要通过建立更加实用的数学模型来来应用于诊断设备,从而实现更加准确的诊断。
本文通过BP 神经网络构造出一个疾病诊断模型,通过对数据进行分析拟合来判断就诊人员是否患病。
二、 原理分析BP 神经网络可以是一种具有三层或三层以上的神经网络,包括输入层、中间层(隐层)和输出层,上下层之间实现全连接,而每层神经元间无连接。
当一对学习样本提供给网络后,神经元的激活值从输入层经各中间层向输出层传播,在输出层的各神经元获得网络的输入响应。
按照减少目标输出与实际误差的方向,从输出层经过各中间层逐层修正各连接权值,最后回到输入层,即BP 算法。
BP 算法通过“训练”这一事件来得到这种输入、输出间合适的线性或非线性关系。
“训练”的过程可以分为向前传输和向后传输两个阶段。
三、 实现方法或步骤流程下面我们就基于BP 人工神经理论来建模。
(1)初始化。
给每个连接权值mt lm v w ,,阈值t m γθ,赋予区间(-1,1)内的随机值。
(2)随机选取一组输入和目标样本),...,,(),...,,(n 21n 21k k k k k k k k s s s T a a a P ==、提供给网络。
改进BP神经网络在模式识别中的应用及研究

背景知识
BP神经网络是一种反向传播神经网络,它通过不断地调整神经网络的权重和偏 置,最小化输出结果与实际结果之间的误差。在模式识别中,BP神经网络可以 用于对输入数据进行分类和识别,它具有以下优点:
1、自适应能力强:BP神经网络能够自适应地学习输入数据的特征,从而自动 地识别出不同的模式。
2、鲁棒性好:它对输入数据的噪声和干扰具有较强的适应性,能够有效地降 低误识别率。
改进BP神经网络在模式识别 中的应用及研究
01 引言
03 参考内容
目录
02 背景知识
引言
模式识别是指通过计算机算法对输入的数据进行分类和识别,从而自动地识别 出对象或现象的模式。它是领域中的一个重要研究方向,被广泛应用于图像识 别、语音识别、自然语言处理等领域。BP神经网络是模式识别中常用的一种算 法,它具有自学习和自适应的能力,能够通过对输入数据的训练,自动地识别 出不同的模式。BP神经网络也存在一些问题和不足,需要进一步改进和完善。
改进措施
针对BP神经网络在手写数字识别中的不足,本次演示提出以下改进措施:
1、使用动量项:在梯度下降过 程中
其中,v(t)表示时刻 t的速度,g(t)表示时刻 t的梯度,w(t)表示时刻 t的 权重,α是动量项系数。
2、使用自适应学习率:传统BP 神经网络的学习率是固定的
lr(t+1) = lr0 * (1 - exp(-β*t)) 其中,lr(t)表示时刻 t的学习率,lr0是初始学习率,β是学习率调整系数。
2、性能更优:通过加入动量项和卷积层,改进后的模型在手写数字识别任务 中具有更好的性能表现。实验结果表明,准确率提高了20%以上。
3、鲁棒性更好:改进后的模型对噪声和干扰的抵抗能力更强,能够更好地适 应实际应用中的复杂环境。
BP神经网络-本科生毕业设计论文-小论文

基于智能计算的水质预测预警系统的设计与实现温子铭1,刘双印1(1.广东海洋大学信息学院,广东湛江524088)摘要:及时准确地掌握水质变化趋势是确保水产品健康养殖的关键,为此,本设计采用智能计算与现代Web开发技术有机结合,以软件工程为指导,按照面向对象程序设计的方法,构建5种基于智能计算的水质预测预警模型;采用J2EE为开发工具设计实现了B/S架构的水质预测预警系统。
该系统主要有水质数据管理、水质数据趋势展示、水质指标溶解氧浓度预测、水质预警管理等功能模块组成,用户界面友好,水质预测精度较高,能够满足水产养殖水质管理的需要。
该系统的研制为提前掌握水质未来发展趋势、水污染预警提供基础数据和手段,为应对突发水质事件、水质调节、水产养殖生产管理与规划提供科学的决策依据,有一定的实用价值。
关键词:水产养殖;水质趋势;J2EE;水质预测预警系统;智能计算;Design and Implementation of Water Quality Predicting and Early Warning SystemBase on Smart ComputingWen Ziming, Liu Shuangyin(1. Information Institute of Guangdong Ocean University, Zhanjiang,GuangDong 524088) Abstract:Have a good command of water quality trends in time and accurately is the key to assure health growth of the aquatic products. Therefore, this design is combined with intelligent computing and modern web development technology, on the guidance of software engineer, and also established five kinds of water quality predicting and early warning models based on intelligent technology according to the measure of Object-Oriented Programming; We adopted J2EE as development tool to achieve the water quality predicting and early warning system based on B/S framework. This system mainly included water quality data management module, water quality data trend module, dissolved oxygen prediction module and water quality early warning module. It’s useful for users and can meet the needs of aquatic water quality management. The establishment of this system provide the basic data and methods to handling the future water quality trend and water pollution early warning. And also provide the scientific decision for dealing with the water pollution events, water quality adjustment, aquaculture management and plans. It has practical value.Key words: Aquaculture, water quality trend, J2EE, water quality predicting and early warning system, intelligent computing.1引言我国是水产养殖大国,也是世界上唯一一个养殖产量超过捕捞产量的国家, 水产养殖为解决食品供给、粮食安全、改善民生,增加农民收入等方面发挥了重要作用。
BP神经网络的异常点检测应用

BP神经网络的异常点检测应用作者:张嘉一来源:《数字化用户》2013年第07期【摘要】异常点数据是指数据集中与众不同数据。
这部分数据的量小,但是对于我们的日常生产生活的影响极大。
因此,异常点检测被广泛应用于网络入侵检测,金融保险,天气预报以及新药研制等领域。
相对于大量的正常数据挖掘而言,异常点检测被称作小模式数据挖掘。
BP算法是一种常用的数据挖掘算法。
但是BP算法进行实际数据的异常点数据挖掘过程中存在:实际数据的维数较高,存在冗余特征的干扰,以及在高维特征下,数据量不充分的问题。
因此,本文分析BP神经网络处理各种数据的情况,并进行简单分析。
【关键字】BP BP模型神经网络预测一、BP神经网络介绍BP是在1986年通过科技小组设计研究出来的,它在目前网络运用BP神经网络的异常点检测应用张嘉一(276826 曲阜师范大学山东日照)是最为广泛的,是按照误差逆传播算法训练的网络。
能够学习和储存大量的映射关系,方便简单的操作和学习。
运用最速下降法的学习规则,通过自身不断的调整网络的要求值,从而以降低网络的误差平方和。
BP神经网络模型拓扑结构包括输入层(input)、隐层(hide layer)和输出层(output layer)。
就是在学习的过程中运用误差反传误差反向传播算法,主要是要信息的正、反向传播组成。
(一)输入层通过接收外来的输入信息,传递给中间层个神经元。
(二)中间层通过把信息进行处理和变换,然后根据信息的变化的需求,设计出相应的单隐层或者是多隐层的结构模式。
(三)隐层把消息传递给输出层,通过处理后,完成正向传播处理过程(四)输出层进行最后的处理,对结果进行传播。
当完成的实际的输出与所期望的输出不相符合的时候,就进入了误差的反向传播阶段。
误差通过输出层,根据误差的梯度下降的方式修正各层的权值。
向隐层与输入层逐层的进行反传。
通过不断的进行这种正反向的传播,来调整各个层面的权值,以达到神经网络学习训练的一种过程,并且这种过程需要极大程度上的减少误差,以达到预先的设置次数,被接受的程度。
BP神经网络风险评估论文-最新范文

BP神经网络风险评估论文摘要:软件需求分析不仅仅是为了让开发者满足用户要求,而且还可以帮助用户了解软件的性能和功能,具有一举两得的效果,但是如果软件需求不符合实际需求,就会出现风险,导致返工。
在BP神经网络的基础上,我们建立了软件需求分析风险评估模型,以减少软件开发的失败率,规避因软件需求分析失误而带来的实际存在的或潜在的风险。
关键词:风险;软件需求;BP神经网络;研究;分析软件开发过程中,需求分析是一个关键性的阶段。
导致它失败的原因有很多,例如开发者和用户之间的沟通障碍、软件本身的隐含性、需求信息的不对称等等。
这些问题导致的返工,增加了开发的成本,也损坏了企业形象,更可能流失掉部分用户。
因此,我们必须对软件需求分析进行风险评估管理,把负面影响降到最低。
现代商业发展中,各企业和企业之间的竞争日趋激烈,掌握最新的技术,对技术进行创新,才是企业在行业内立足脚跟,获得更加长远发展的方法,因此要想牢牢地把握企业的运命就需要我们保持对技术创新的热情,并在这条道路上乐此不疲。
21世纪,只有掌握了最新和最具有创造性的技术,才能赢的最后的胜利,本文把BP网络与软件需求分析风险评估模型相结合,具有十分重要的意义。
1BP神经网络BP神经网络是开发者使用最多的神经网络之一,它具有算法简单、极强的鲁棒性、收敛速度极快等优点。
最重要的一点是能够最大限度的接近其真实系统,非常适合于线性的、不确定的、模糊的软件风险数据。
BP算法是一种用于前向多层神经网络的的反传学习算法。
采用BP算法的数层感知器神经网络模型,它的基本思想是,学习过程由信号的正向传播和误差的反向传播两个过程组成。
模糊理论采用模糊数学的方法,通过抽象思维,对处于多种因素作用下的事物做出总体评价。
它的两大主要特征是:第一,结果清晰;第二,系统性强,这非常适合于各种非确定性问题的解决。
2软件需求分析风险评估模型开发过程中,了解软件需求是很重要的。
软件开发主要是依据需求的不同而设计出的产品。
BP神经网络在模式识别中的应用及研究

2014计算机应用技术谭灿云 20140608120303BP神经网络在模式识别中的应用及研究摘要人工神经网络具有强大的非线性映射能力,已经被应用于模式识别、智能控制、图像处理以及时间序列分析等各种领域,它特有的自组织、自学习和高容错性等功能使得其在解决复杂的非线性问题时有独特的功效,成为国内外广泛关注的热点。
本文首先详细介绍了应用神经网络进行模式识别的发展概况,通过与传统模式识别的比较,得出神经网络模式识别的优越性。
针对己有的神经网络模式识别系统,本文介绍了该系统中使用最广泛的BP神经网络,通过对其关键技术及算法的研究,分析了BP算法的不足。
关键词: 模式识别,人工神经网络,BP算法,遗传算法1 绪论迄今为止,模式识别技术在社会的各行业中都拥有广泛的应用。
例如:(1)对各种嵌入式系统如信息家电、手机、PDA等中进行人性化处理,进行语音识别、指纹识别或汉字识别;(2)自动化仪器如自动搬运机、自动售货机、监视装置等;(3)医疗仪器上,如x射线摄像、样本检查分析、肠镜摄像、胃镜等;(4)在工业自动检测上的如零件尺寸的动态检查、包装、产品质量监测、形状识别、表面缺陷检测等;(5)人工智能方面有无人自动驾驶、机器人视觉、邮件自动分检等;(6)军事上有卫星侦察、微光夜视、航空遥感、目标跟踪、导弹制导、军事图像通信等。
随着人们对自动化智能系统要求的不断提高以及相关技术和器件的发展,模式识别的应用范围变得越来越广泛,人们不仅要求自动化系统能够代替人类完成繁重单调或危险环境下的工作,更要求模式识别系统能使人们的生活更加方便和舒适,如智能机器人、安全防伪系统、智能卡等等的出现。
因而,模式识别技术所面临的挑战除了要求解决大数量模式类的识别和复杂畸变不变性识别的传统难题,而且开始了更复杂的带有感性色彩的识别,诸如运动员训练及姿势校正,根据人走路的姿势识别人,对人的嘴形变化甚至面部表情的识别等等。
人工神经网络(ArtificialNeuralNetwork,ANN)是当今最重要的模式识别技术,随着神经网络理论的不断发展,将会带来模式识别技术的提高和突破,从而进一步推动模式识别技术在各行各业中的应用,推动社会的进步。
神经网络在异常检测中的应用

基金项目: 国家 %EJ 应急项目信息安全技术( 项目号: ; “ 十五” 计划子课题: 入侵检测预警和安全管理技术( 编号: J"$NENE ) %EJN$"HN"! ) 作者简介: 宋歌, 硕士, 研究方向: 网络安全与入侵检测技术。闫巧, 女, 博士, 主要研究方向有信息安全, 计算机通信等。喻建平, 博士, 深圳大学副 教授。
$@3*0)(*: 5D(/) ?,@,’? 3 S),/D ,’()-6*0(,-’ -D &’()*+,-’ ./(/0(,-’, (=,+ 939/) )/9)/+/’(+ 3 4/(=-6 -D *+,’? T/*)3A T/(B U-)V+ ,’ 3’-43A; 6/(/0(,-’ (- 3’3A;R/ (=/ +=-)( +/W*/’0/+ -D +;+(/4 03AA+#<=/ 0=-,0/ -D 3A?-),(=4+ *+/6 ,’ T/*)3A T/(B U-)V+ ,+ +*??/+(/6 3’6 3A+- (U- V,’6+ -D ’/(U-)V 6/+,?’ 3’6 (=/,) 0-493),+-’ 3)/ ?,@/’ ,’ (=/ 939/)#MX9/),4/’(+ +=-U (=3( *+/ TT/( ,’ 5’-43A; ./(/0(,-’ (- 9)-D,A/ 9)-?)34 S/=3@,-)+ 03’ ?)/3(A; ,49)-@/ (=/ +;+(/47+ 3639(3S,A,(; (- ’/U /@/’(+ 3’6 @3),3’0/ -D ,’()*+,-’+#5’6 *+,’? (=/ Y/0*))/’( T/*)3A T/(U-)V U,(= 3 D//6S30V ,+ /+9/0,3AA; S/((/) +,’0/ ,( 03’ ,49)-@/ (=/ 6/(/0(,-’ )3(/ U,(=-*( ,’0)/3+,’? (=/ D3A+/ 9-+,(,@/+# A#51+0B3: &’()*+,-’ ./(/0(,-’ , 5’-43A; ./(/0(,-’ , +;+(/403AA, ’/*)3A ’/(U-)V+, )/0*))/’( TT/(
bp神经网络的异常点检测应用可行性研究_毕业论文设计

本科毕业设计(论文)BP神经网络的异常点检测应用可行性研究摘要异常点数据是指数据集中与众不同数据。
这部分数据的量小,但是对于我们的日常生产生活的影响极大。
因此,异常点检测被广泛应用于网络入侵检测,金融保险,天气预报以及新药研制等领域。
相对于大量的正常数据挖掘而言,异常点检测被称作小模式数据挖掘。
BP算法是一种常用的数据挖掘算法。
但是BP算法进行实际数据的异常点数据挖掘过程中存在:实际数据的维数较高,存在冗余特征的干扰,以及在高维特征下,数据量不充分的问题。
因此,本文分析BP神经网络处理各种数据的情况,并得到以下结果。
(1)BP神经网络能够较好的分离特征单一的仿真数据;但是(2)特征相似性较大的数据集,难以分离判断;(3)正常数据不充分或者不具有代表性,因此正常数据类学习不充分,从而导致异常无法判断。
针对以上问题,本文提出了以下的改进措施:(1)BP算法前进行特征约简(映射)从中选取有益于异常检测的特征(2)多神经网络融合,不同神经网络识别不同的特征,相互取长补短,融合后得到最终的结果。
关键字:异常,BP,异常点检测,神经网络注:本设计(论文)题目来源于教师的国家级(或部级、省级、厅级、市级、校级、企业)科研项目,项目编号为:。
AbstractOutlier data is the data set different data. This part of the small amount of data, but for our daily production and life of great. Therefore, the anomaly detection is widely used in network intrusion detection, finance, insurance, weather, and new drug development and other fields. Relative to the large number of normal data mining, the anomaly detection model is called data mining small. BP algorithm is a commonly used data mining algorithm. But the BP algorithm to real data outliers exist in the data mining process: the higher the dimension of the actual data, there are redundant features of the interference, and high-dimensional feature, the issue of inadequate data. Therefore, this paper analyzes a variety of BP neural network processing of data, and to get the following results. (1) BP neural network can better separation characteristics of a single simulation data; but (2) the characteristics of similar large data sets, separation is difficult to judge; (3) normal data is not sufficient or not representative, so the normal data class learning is not sufficient, leading to abnormal can not judge. To solve the above problem, this paper proposes the following improvements: (1) BP algorithm before feature reduction (map) benefit from anomaly detection features selected (2) integration of multiple neural networks, different neural network to recognize the different characteristics of each each other, the final fusion result.Key Words:Outliers-Data,BP,Algorithms,Neural Networks目录1引言 (5)1.1背景 (5)1.2传统已有异常点算法介绍 (5)1.2.1基于统计学的异常点检测算法 (5)1.2.2基于距离的异常点检测算法 (6)1.2.3基于密度的算法 (7)1.2.4基于偏差的异常点检测 (9)1.2.5基于聚类的异常点检测算法 (10)2基于属性特征在异常点检测中的研究 (11)3 BP神经网络介绍 (13)3.1模型简介 (13)3.2计算各层节点输出 (13)3.3 修正权值 (14)4 异常检测中BP神经网络的设计 (17)4.1可微阈值单元 (17)4.2单个BP网络结构设计 (17)4.3BP神经网络学习过程的基本步骤 (18)5实验研究 (21)5.1研究使用的数据库介绍 (21)5.2训练方案一实验:把bp神经网络相似性代替距离算法相似度量 (21)5.3训练方案二实验:用单个神经网络对训练数据库整体特性进行学习 (22)5.4训练方案三实验:多神经网络各种形式训练及其决策 (23)5.4.1实验设计思路 (23)5.4.2实验方案及步骤 (24)5.4.3实验分析 (26)5.4.4实验失败原因分析 (27)5.5BP调参实验 (29)5.5.1对实验一调整隐层实验 (29)5.5.2对实验二调整隐层实验 (30)5.5.3对实验三调整隐层实验 (33)5.6数据仿真实验 (35)5.6.1实验思路 (35)5.6.2实验步骤 (35)5.6.3实验结果 (36)5.6.4结果分析 (37)5.7实验整体分析 (37)总结与展望 (39)致谢 (43)1引言1.1背景异常点(离群点或者孤立点)检测是数据挖掘中一个重要方面,Hawkins[1]最早给出了异常点的本质定义:异常点是数据集中与众不同地数据,以至于使人怀疑这些数据并非随机偏差,而是产生与完全不同的机制。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
本科毕业设计(论文)BP神经网络的异常点检测应用可行性研究毕业设计(论文)原创性声明和使用授权说明原创性声明本人郑重承诺:所呈交的毕业设计(论文),是我个人在指导教师的指导下进行的研究工作及取得的成果。
尽我所知,除文中特别加以标注和致谢的地方外,不包含其他人或组织已经发表或公布过的研究成果,也不包含我为获得及其它教育机构的学位或学历而使用过的材料。
对本研究提供过帮助和做出过贡献的个人或集体,均已在文中作了明确的说明并表示了谢意。
作者签名:日期:指导教师签名:日期:使用授权说明本人完全了解大学关于收集、保存、使用毕业设计(论文)的规定,即:按照学校要求提交毕业设计(论文)的印刷本和电子版本;学校有权保存毕业设计(论文)的印刷本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文;在不以赢利为目的前提下,学校可以公布论文的部分或全部内容。
作者签名:日期:学位论文原创性声明本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。
除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。
对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。
本人完全意识到本声明的法律后果由本人承担。
作者签名:日期:年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。
本人授权大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。
涉密论文按学校规定处理。
作者签名:日期:年月日导师签名:日期:年月日摘要异常点数据是指数据集中与众不同数据。
这部分数据的量小,但是对于我们的日常生产生活的影响极大。
因此,异常点检测被广泛应用于网络入侵检测,金融保险,天气预报以及新药研制等领域。
相对于大量的正常数据挖掘而言,异常点检测被称作小模式数据挖掘。
BP算法是一种常用的数据挖掘算法。
但是BP算法进行实际数据的异常点数据挖掘过程中存在:实际数据的维数较高,存在冗余特征的干扰,以及在高维特征下,数据量不充分的问题。
因此,本文分析BP神经网络处理各种数据的情况,并得到以下结果。
(1)BP神经网络能够较好的分离特征单一的仿真数据;但是(2)特征相似性较大的数据集,难以分离判断;(3)正常数据不充分或者不具有代表性,因此正常数据类学习不充分,从而导致异常无法判断。
针对以上问题,本文提出了以下的改进措施:(1)BP算法前进行特征约简(映射)从中选取有益于异常检测的特征(2)多神经网络融合,不同神经网络识别不同的特征,相互取长补短,融合后得到最终的结果。
关键字:异常,BP,异常点检测,神经网络注:本设计(论文)题目来源于教师的国家级(或部级、省级、厅级、市级、校级、企业)科研项目,项目编号为:。
AbstractOutlier data is the data set different data. This part of the small amount of data, but for our daily production and life of great. Therefore, the anomaly detection is widely used in network intrusion detection, finance, insurance, weather, and new drug development and other fields. Relative to the large number of normal data mining, the anomaly detection model is called data mining small. BP algorithm is a commonly used data mining algorithm. But the BP algorithm to real data outliers exist in the data mining process: the higher the dimension of the actual data, there are redundant features of the interference, and high-dimensional feature, the issue of inadequate data. Therefore, this paper analyzes a variety of BP neural network processing of data, and to get the following results. (1) BP neural network can better separation characteristics of a single simulation data; but (2) the characteristics of similar large data sets, separation is difficult to judge; (3) normal data is not sufficient or not representative, so the normal data class learning is not sufficient, leading to abnormal can not judge. To solve the above problem, this paper proposes the following improvements: (1) BP algorithm before feature reduction (map) benefit from anomaly detection features selected (2) integration of multiple neural networks, different neural network to recognize the different characteristics of each each other, the final fusion result.Key Words:Outliers-Data,BP,Algorithms,Neural Networks目录1引言 (7)1.1背景 (7)1.2传统已有异常点算法介绍 (7)1.2.1基于统计学的异常点检测算法 (7)1.2.2基于距离的异常点检测算法 (8)1.2.3基于密度的算法 (9)1.2.4基于偏差的异常点检测 (11)1.2.5基于聚类的异常点检测算法 (11)2基于属性特征在异常点检测中的研究 (13)3 BP神经网络介绍 (15)3.1模型简介 (15)3.2计算各层节点输出 (15)3.3 修正权值 (16)4 异常检测中BP神经网络的设计 (19)4.1可微阈值单元 (19)4.2单个BP网络结构设计 (19)4.3BP神经网络学习过程的基本步骤 (20)5实验研究 (23)5.1研究使用的数据库介绍 (23)5.2训练方案一实验:把bp神经网络相似性代替距离算法相似度量 (23)5.3训练方案二实验:用单个神经网络对训练数据库整体特性进行学习 (24)5.4训练方案三实验:多神经网络各种形式训练及其决策 (25)5.4.1实验设计思路 (25)5.4.2实验方案及步骤 (26)5.4.3实验分析 (28)5.4.4实验失败原因分析 (29)5.5BP调参实验 (31)5.5.1对实验一调整隐层实验 (31)5.5.2对实验二调整隐层实验 (32)5.5.3对实验三调整隐层实验 (35)5.6数据仿真实验 (37)5.6.1实验思路 (37)5.6.2实验步骤 (37)5.6.3实验结果 (38)5.6.4结果分析 (39)5.7实验整体分析 (39)总结与展望 (41)致谢 (45)1引言1.1背景异常点(离群点或者孤立点)检测是数据挖掘中一个重要方面,Hawkins[1]最早给出了异常点的本质定义:异常点是数据集中与众不同地数据,以至于使人怀疑这些数据并非随机偏差,而是产生与完全不同的机制。
异常点可能由于度量或执行错误产生,也可能是由于固有数据可变性的结果。
例如,一个公司首席执行官的工资自然远远高于公司其他雇员的工资,成为一个异常点。
许多数据挖掘算法试图减少异常点的对挖掘结果的影响,或者在挖掘过程中排除异常点。
然而异常点可能隐藏着重要的信息,也许比一般的数据更有价值。
因此人们开始逐渐研究异常点挖掘算法。
目前异常点检测已经开始用于信用卡欺诈、网络入侵检测以及金融申请和交易欺诈等领域[2],近年来异常点检测已成为数据挖掘研究中的一个热点问题。
传统数据挖掘主要有以下几类:基于统计的方法,基于距离的方法,基于偏移方法,基于聚类方法,基于密度方法。
本文从特征与异常检测的关系出发进行研究。
BP神经网络适用于储存和描述这种复杂的关系。
但是异常检测过程,通常数据的位数较高,在高维特征存在冗余特征干扰,以及高维特征下数据不充分的问题,因此,本文研究了BP神经网络应用于不同情况。
1.2 传统已有异常点算法介绍1.2.1基于统计学的异常点检测算法早期的异常点检测算法大多数是基于统计学实现的,通常可以分为基于分布的检测算法和基于深度的检测算法两类。
前者一般通过先构造一个标准概率分布来拟合数据集,然后根据概率分布来确定异常点,例如Rosner提出的单样本多个异常检测算法ESD 算法,和Yamnishi等使用混合高斯模型的异常点检测算法。
此类算法估计多维分布的概率模型的难度较大,且准确性低。
基于深度方法主要以计算几何为基础,通过计算不同层的K-D凸包将外层的对象判定为异常点。
但当数据集较大,此类方法在维数上的伸缩性不好。
基于统计的异常点检测方法易于理解,实现方便,但此方法检测出来的异常点很可能被不同的分布模型检测出来,解释异常点意义时经常发生多义性。
其次,此方法在很大程度上依赖于待挖掘的数据集是否满足某种概率分布模型、模型的参数、异常点的数目等对基于统计的方法都有非常重要的意义,而确定这些参数通常比较困难;另外,此方法大多适合于挖掘单变量的数值型数据,然而许多数据挖掘问题要求在多维空间中发现异常点,目前几乎没有多元的不一致检验,当没有特定的检验时,或观察到的分布不能恰当地用任何标准的分布建模时,此类方法不能确保所有的异常点被发现。