在线自适应网络异常检测系统模型与算法(精)
基于快速自适应聚类算法的网络异常检测方法

关
键
词 : 常检 测 , 类算 法 , 据安 全 , 异 聚 数 www
等 同于入 侵性 活 动 , 么 它们 之 间存 在 以下 几 种组 那 合 的情况 : 入侵 但 非 异 常 , 入 侵 但 异 常 , 入侵 且 非 非 非异 常 , 入侵且 异 常 。因 此入 侵 检 测 要 解 决 的 问题 就是构 造 异常 活动 集并 从 中发现 入侵 活动 子集 。因 此 异常 检测方 法 与实 际系 统相 对无 关 , 用性 较强 , 通 能够 检测 出新 的和 未 知 的 人 侵 攻击 行 为 。但 是 , 由 于不 可 能对整 个 系统 内的所 有用 户 行为进 行 全面 的
误报率 较 高 J 国内外 的研 究 表 明 , 如 参 考 文献 。 正 [ 6 中介绍 的那 样 , 来越 多 的科 研人 员 将 聚类 2~ ] 越 算法用于异常检测 。本文提出了一种新型的快速 自 适应 异 常检测 算法 , 验结 果表 明 , 实 与现 有 的基于 聚
点进行入侵攻击方法的变种 。误用检测模型能针对 性 地建 立高效 的入侵检 测 系统 , 检 测准 确度 高 , 其 误 报率 低 , 但它对 未 知 的 入侵 活 动 或 已知 入 侵 活动 的
描述 , 每个用 户 行为 又不 是一 成不 变 的 , 以导致 且 所
关 注 。各种各 样 的病毒攻 击 和安 全 防卫手 段层 出不 穷, 入侵 检测 系统 (D ) IS 就是 当前 网 络 安 全 体 系 中
通信网络故障自愈系统

1.随着5G、物联网等新技术的不断发展,通信网络将更加复杂和庞大,需要更加智能和高效的故障 自愈系统来保障网络的稳定运行。 2.未来可以进一步探索将人工智能、机器学习等先进技术应用于通信网络故障自愈系统,提高系统 的智能化程度和自适应能力。 3.加强与其他行业和领域的合作与交流,探索通信网络故障自愈系统在智能制造、智慧城市等领域 的应用和推广,促进数字经济的发展。
系统性能和优化策略
▪ 优化硬件设备性能
1.选用高性能、高稳定性的硬件设备,提升系统整体性能。 2.定期对硬件设备进行维护和升级,确保设备运行在最佳状态。 3.通过硬件加速技术,提高数据处理能力和网络传输效率。
▪ 软件优化与定制
1.对软件系统进行优化,减少系统资源占用和提高运行效率。 2.针对特定业务需求,定制开发功能模块,提升系统的适用性和可扩展性。 3.加强软件系统的安全防护,确保数据安全和系统稳定。
系统引言和背景介绍
▪ 通信网络故障自愈系统的应用场景
1.故障自愈系统适用于各种通信网络,包括固定网络、移动网 络等。 2.在智能交通、智能制造等领域,故障自愈系统能够保证业务 的连续性和稳定性。 3.在物联网、边缘计算等领域,故障自愈系统能够提高设备的 可靠性和可用性。
▪ 通信网络故障自愈系统的经济效益和社 会效益
▪ 故障自愈系统的重要性
1.随着通信网络规模的扩大和复杂度的提高,故障发生的概率也在不断增加,故障自愈系统的 重要性愈加凸显。 2.故障自愈系统能够减少人工干预,提高网络维护的效率和质量,降低因故障造成的损失和影 响。 3.该系统能够提高通信网络的可靠性和稳定性,保证网络服务的连续性和可用性,为用户提供 更好的体验和服务。
故障检测和定位技术
▪ 故障检测和定位技术应用
自适应检测算法的性能分析及应用

自适应检测算法的性能分析及应用自适应检测算法的性能分析及应用摘要:随着信息技术的不断发展,自适应检测算法在各个领域都有着广泛的应用。
本文将对自适应检测算法的性能进行分析,并讨论其在实际应用中的潜力和局限性。
首先,我们将介绍自适应检测算法的基本原理和常用的实现方法。
然后,我们将重点讨论算法的性能评估指标,并通过实验对几种常见的自适应检测算法进行性能比较。
最后,我们将探讨自适应检测算法在网络安全、图像处理和智能交通等领域的应用前景。
一、引言随着互联网的快速发展和各类智能设备的普及,我们面临着越来越多的安全威胁和数据风险。
传统的检测算法往往只能针对特定的攻击模式进行检测,无法应对新型的未知攻击。
而自适应检测算法则可以根据不断变化的环境和攻击模式,实时调整检测策略,以应对多样化的威胁。
二、自适应检测算法的原理和实现方法自适应检测算法的核心思想是根据当前环境和攻击模式的变化,动态调整检测策略。
常见的实现方法包括基于机器学习的自适应检测算法和基于统计模型的自适应检测算法。
前者通过训练样本学习攻击模式的特征,然后根据实时数据判断是否存在异常;后者通过建立统计模型对数据进行建模,然后根据模型判断是否存在异常。
三、性能评估指标性能评估是衡量自适应检测算法优劣的重要指标。
常用的性能评估指标包括准确率、召回率、误报率和漏报率。
准确率是指检测算法正确判断的比例,召回率是指检测算法正确检测到的异常的比例,误报率是指检测算法错误判断为异常的比例,漏报率是指检测算法错误判断为正常的比例。
四、自适应检测算法的性能比较为了对不同的自适应检测算法进行性能比较,我们设计了一系列实验。
实验结果表明,在特定的应用场景下,基于机器学习的自适应检测算法表现出更高的准确率和召回率,而基于统计模型的自适应检测算法表现出更低的误报率和漏报率。
这意味着,在不同的应用场景中,我们选择合适的自适应检测算法可以最大程度地提高检测效果。
五、自适应检测算法的应用自适应检测算法在许多领域都有着广泛的应用。
面向异常流量检测的自适应抽样算法的探究

面向异常流量检测的自适应抽样算法的探究0 引言随着高速网络技术和栅格技术的快速发展,网络链路速率在不断提高,网络带宽和网络流量规模也在不断扩大,这使得对网络骨干链路上的流量进行实时在线的全采集测量变得越来越困难。
同时,对海量流量数据库进行维护和对数据进行分析处理也相当困难,并且开销很大。
为了解决上述问题,流量抽样技术研究已经成为当前甚至今后高速动态网络流量测量的研究重点之一。
抽样测量主要应用于网络异常流量检测和网络管理两方面,但其对前者的影响远远超过了后者。
这主要是因为异常流量检测的网络环境复杂,可能存在网络攻击和正常突发访问等情况,将会同时涉及正常流量和异常流量以及各种检测指标等多个因素,抽样过程对这些因素的特征和行为影响颇大。
在面向异常流量检测的抽样测量中,一方面,抽样数据流量必须逼近于真实数据流量,一般而言,抽样数据流量相对于真实数据流量分布必然存在着偏差,抽样获得的流量数据越多,网络异常流量检测的难度越小,检测结果也越可信; 另一方面,为了实现高速、海量信息的快速准确检测,人们希望需要分析处理的流量数据越少越好。
如何有效地缓解异常流量检测准确性与实时性之间的失衡是目前流量抽样技术研究面临的巨大挑战。
1 抽样技术分类面向网络异常流量检测的抽样方法多种多样,大致可分为静态抽样、自适应抽样、基于流的抽样和BF( bloom filter) 抽样四种。
1. 1 静态抽样技术1993 年,网络流量抽样技术首次得到应用,针对NSFNET主干流量测量中流量大的问题,Claffy 和Polyzos 采用了基于事件和时间驱动的两种经典静态抽样方法。
静态抽样技术也称传统抽样技术,主要有系统抽样、分层随机抽样和随机抽样三种静态抽样方法。
假设样本容量为N,抽样间隔为K,每个抽样间隔内有相等的样本数,系统抽样是抽取每个固定抽样间隔内的第一个样本,分层抽样是从每个固定抽样间隔内随机抽取一个样本,随机抽样是直接从样本容量中随机抽取K 个样本。
网络安全中的入侵检测方法及算法原理

网络安全中的入侵检测方法及算法原理随着互联网的快速发展,网络安全问题变得日益突出。
为了保护网络的安全,入侵检测成为了一项重要的任务。
入侵检测系统能够监视和分析网络中的数据流量,识别出潜在的入侵活动,并及时采取相应的措施。
本文将介绍网络安全中常用的入侵检测方法及其算法原理。
一、基于特征的入侵检测方法基于特征的入侵检测方法是一种常见的入侵检测方式。
该方法通过建立一系列的特征模型,检测网络流量中的异常行为。
这些特征模型可以基于已知的入侵行为进行定义和训练,也可以使用机器学习算法从大量数据中学习并自动识别新的入侵行为。
1.1 签名检测签名检测是一种常见的入侵检测方法,它通过比对网络流量与已知的入侵签名进行匹配来判断是否存在入侵行为。
入侵签名是已知入侵的特征集合,可以基于已有的安全知识进行定义。
然而,签名检测方法无法有效检测新型入侵行为,因为它只能识别已知的攻击模式。
1.2 统计检测统计检测方法使用统计模型分析网络流量的变化,并通过比较实际数据与期望模型之间的差异来检测入侵行为。
常见的统计检测方法包括:基于异常的检测和基于异常的检测。
基于异常的检测依赖于对正常行为的建模,当网络流量的行为与已定义的模型出现明显偏差时,就会发出警报。
基于异常的检测则是通过建立正常流量的统计模型,当流量中的某些特征值与期望模型差异较大时,就认为存在异常行为。
1.3 机器学习检测机器学习检测方法基于大量的对网络流量数据进行训练,使用机器学习算法来自动识别入侵行为。
常见的机器学习算法包括决策树、支持向量机、神经网络等。
这些算法可以根据已有的训练数据来学习网络流量数据的特征,从而能够检测新的入侵行为。
机器学习方法相较于传统的特征基础方法更加灵活和自适应,但需要大量的训练数据和算力支持。
二、基于行为的入侵检测方法除了基于特征的入侵检测方法外,基于行为的入侵检测方法也是一种常见的方式。
该方法通过分析网络中各个节点的行为,检测异常行为并判断是否存在入侵活动。
基于机器学习的网络异常检测与分析

基于机器学习的网络异常检测与分析网络异常检测与分析是当今互联网时代非常重要的一项任务。
随着网络规模的不断扩大和复杂度的增加,网络安全成为人们关注的焦点。
网络异常指的是网络流量与正常行为模式不符合的情况,可能是由于网络攻击、系统故障或恶意行为导致的。
本文将介绍基于机器学习的网络异常检测与分析的方法和应用。
首先,机器学习是一种广泛应用于数据分析和模式识别的技术。
在网络异常检测中,机器学习通过分析和建模网络流量数据,提取特征并训练模型来识别异常。
常用的机器学习算法包括支持向量机(SVM)、决策树和随机森林等。
这些算法可以通过对已知正常流量和异常流量进行训练,来学习正常和异常模式之间的差异。
其次,网络异常检测可以应用于各种场景,包括网络入侵检测、DDoS 攻击检测和网络操作异常检测等。
其中,网络入侵检测是网络异常检测的一个重要方面。
通过机器学习算法,可以对网络流量进行实时监测,识别并阻止潜在的攻击行为。
DDoS 攻击检测是指识别和过滤分布式拒绝服务攻击。
网络操作异常检测则主要用于识别异常用户行为,如异常的上网时间、访问频率等,以便发现可能的黑客攻击或内部泄漏行为。
在实际应用中,基于机器学习的网络异常检测与分析需要解决一系列挑战。
首先是数据的预处理。
网络流量数据通常大规模而复杂,需要进行特征提取和降维等操作,以便于机器学习算法的处理。
其次是样本不平衡的问题。
正常流量远远多于异常流量,这样会导致模型对正常流量更为敏感,而对异常流量的检测效果较差。
因此,需要采取适当的方法来平衡样本,并加强对异常流量的学习。
另外,网络流量的属性和模式也可能随时间变化,因此模型需要具备一定的适应性和演化能力。
为了提高网络异常检测的准确度和实时性,研究人员还不断提出新的方法和算法。
一种常见的方法是结合多个机器学习算法,形成集成学习。
集成学习通过融合多个独立分类器的决策,可以提高整体的分类性能。
另一种方法是引入深度学习技术。
深度学习可以通过构建多层神经网络,对网络流量数据进行端到端的学习和表示,以实现更精确的分类和检测效果。
基于Transformer的网络异常检测系统

基于Transformer的网络异常检测系统Transformer是一种近年来在自然语言处理领域取得巨大成功的神经网络架构,但其在其他领域的应用也逐渐得到了广泛的关注和探索。
本文将探讨基于Transformer的网络异常检测系统,介绍其原理、设计思路和实际应用情况。
一、背景介绍网络异常检测是网络安全领域中非常重要的一环,通过监控网络流量和行为,及时发现和应对网络中的异常情况,以保障网络的安全稳定运行。
传统的网络异常检测系统往往基于规则或者统计方法,但这些方法在面对复杂多变的网络环境时表现并不理想,因此需求一种更加先进且适应性更强的网络异常检测技术。
二、Transformer在网络异常检测中的应用Transformer是由Google提出的一种强大的神经网络架构,其独特的自注意力机制使其在处理序列数据时表现出色。
在网络异常检测中,我们可以利用Transformer对网络流量数据进行建模和分析,发现其中的异常模式和规律。
通过将网络流量数据输入Transformer模型进行训练,我们可以让模型学习正常的网络流量特征,从而能够检测出与正常情况不同的异常数据。
三、基于Transformer的网络异常检测系统设计基于Transformer的网络异常检测系统主要包括数据预处理、Transformer模型构建、异常检测和反馈等步骤。
首先,我们需要对网络流量数据进行预处理,将其转换为适合Transformer模型输入的格式。
然后,我们设计一个多层Transformer模型,通过多个Encoder层和Decoder层对输入数据进行编码和解码,从而提取出网络流量数据中的特征信息。
接着,我们通过构建一个异常检测器,利用Transformer提取的特征信息进行异常检测,当检测到异常情况时可以及时发送警报或采取相应的防御措施。
最后,我们可以通过对异常检测结果的反馈,不断改进和优化系统性能,提高网络异常检测的准确率和可靠性。
网络流量监测中的异常检测算法

网络流量监测中的异常检测算法随着互联网的普及,网络攻击也越来越频繁,网络管理员需要不断地监测和防范各种攻击。
其中,异常检测算法就是一种重要的监测手段。
本文将从异常检测算法的基本原理、常见的异常检测算法、算法的优缺点和应用实例等方面进行探讨。
一、基本原理异常检测算法一般基于统计学原理,其主要思想是将样本数据与正常行为进行比对,如果样本数据与正常行为偏离过大,则认为它是异常的。
因此,异常检测算法的核心是在样本集合中发现与“正常”数据差异明显的数据。
二、常见的异常检测算法1. 方差检验方差检验是一种基本的检测方法,它认为数据集的方差代表数据的波动程度。
当数据的方差超过了一定的阈值,则认为它是异常的。
2. 箱型图检测法箱型图检测法是一种快速判断异常值的方法,通过画出数据的箱型图(或盒须图),然后根据箱型图的分布情况判断是否存在异常值。
3. 离群点检测法离群点检测法是一种基于距离度量的检测方法,它通过寻找样本值与其它样本之间距离的异常点来判断数据是否异常。
其中,常用的距离度量方法有欧几里得距离和曼哈顿距离等。
4. 基于聚类的异常检测算法聚类是一种将样本数据分为不同群体的方法,它可以帮助我们找到数据中的规律。
基于聚类的异常检测方法是一种将样本数据分成两个群体,即正常数据和异常数据的方法。
三、算法的优缺点1. 方差检验优点:方差检验是一种快速判断是否存在异常数据的简单方法,执行速度快,准确性高。
缺点:方差检验的结果受样本容量、样本分布等因素的影响,因此其适用范围有一定的局限性。
2. 箱型图检测法优点:箱型图可以通过数据的四分位数、中位数等指标反映数据的分布情况,便于理解数据的结构特点。
缺点:箱型图对于数据分布不均、样本容量小等情况,容易造成误差。
3. 离群点检测法优点:离群点检测法能够找到样本中的噪声数据和异常数据,对数据预处理效果好。
缺点:离群点检测法对数据集的样本容量有一定的要求,样本容量小、数据分布不均等情况容易造成误差。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
计算机研究与发展ISSN100021239ΠCN1121777ΠTP()在线自适应网络异常检测系统模型与算法魏小涛21黄厚宽田盛丰22(北京交通大学软件学院北京100044)(北京交通大学计算机与信息技术学院北京100044)(weixt@) AnOnlineAdaptiveNetworkandAlgorithmWeiXiaotao1,Shengfeng22(SchoolofSoftware,BJiaotongUniversity,Beijing100044)(SchoolofComputerandInform ationTechnology,BeijingJiaotongUniversity,Beijing100044)Abstract TheextensiveusageofInternetandcomputernetworksmakessecurityacriticalissue.Thereisa nurgentneedfornetworkintrusiondetectionsystemswhichcanactivelydefendnetworksagain stthegrowingsecuritythreats.Inthispaper,alightweightedonlineadaptivenetworkanomalyd etectionsystemmodelispresented.Therelatedinfluencefunctionbasedanomalydetectionalg orithmisalsoprovided.Thesystemcanprocessnetworktrafficdatastreaminreal2time,gradual lybuildupitslocalnormalpatternbaseandintrusionpatternbaseunderalittlesupervisingofthea dministrator,anddynamicallyupdatethecontentsoftheknowledgebaseaccordingtothechang ingofthenetworkapplicationpatterns.Atthecheckingmode,thesystemcandetectnotonlythel earnedintrusionpatternsbutalsotheunseenintrusionpatterns.Themodelhasarelativelysimpl earchitecture,whichmakesitefficientforprocessingonlinenetworktrafficdata.Alsothedetect ingalgorithmtakeslittlecomputationaltimeandmemoryspace.ThesystemistestedontheDA RPAKDD99intrusiondetectiondatasets.Itscans10%ofthetrainingdatasetandthetestingdata setonlyonce.Within40secondsthesystemcanfinishthewholelearningandcheckingtasks.Th eexperimentalresultsshowthatthepresentedmodelachievesadetectionrateof91.32%andafal sepositiverateofonly0.43%.Itisalsocapableofdetectingnewtypeofintrusions. Keywordsnetworkanomalydetection;onlineadaptive;influencefunction;datastream;anomalydetecti on摘要随着因特网等计算机网络应用的增加,安全问题越来越突出,对具有主动防御特征的入侵检测系统的需求日趋紧迫.提出一个轻量级的在线自适应网络异常检测系统模型,给出了相关算法.系统能够对实时网络数据流进行在线学习和检测,在少量指导下逐渐构建网络的正常模式库和入侵模式库,并根据网络使用特点动态进行更新.在检测阶段,系统能够对异常数据进行报警,并识别未曾见过的新入侵.系统结构简单,计算的时间复杂度和空间复杂度都很低,满足在线处理网络数据的要求.在DARPAKDD99入侵检测数据集上进行测试,10%训练集数据和测试集数据以数据流方式顺序一次输入系统,在40s之内系统完成所有学习和检测任务,并达到检测率91.32%和误报率0.43%的结果.实验结果表明系统实用性强,检测效果令人满意,而且在识别新入侵上有良好的表现.收稿日期:2009-03-04;修回日期:2009-10-22基金项目:国家自然科学基金项目(60442002)486计算机研究与发展2010,47(3)关键词网络入侵检测;在线自适应;影响度函数;数据流;异常检测中图法分类号TP393.08计算机入侵检测技术分为误用检测和异常检测2种.误用检测是通过监视目标系统的特定行为与已知的入侵模式是否匹配来进行入侵检测的;而异常检测则是事先建立被监视目标在正常情况下的行为模式,通过检测当前行为是否显著偏离了相应的正常模式来进行入侵检测的.异常检测由于不需要到广泛的重视.另外,,测..对于网络异常检测系统而言,除了要有较高的检测率外,从实用性的角度看还应满足:1)系统结构简单、效率高,检测算法计算量小,适于处理在线网络数据;2)具有自学习自适应能力;3)具有较强的检测新入侵的能力;4)具有较低的误报率,大量的误报会使系统的可用性降低.针对上述要求本文提出一个在线自适应网络异常检测系统.系统能够处理实时网络数据流,其学习和检测是一个统一的过程,而且无论学习阶段还是检测阶段都只扫描数据一次;自适应是指系统能够动态构建和维护自身的知识库,能随着网络自身应用特征的改变而更新知识.在KDD99数据集上的实验结果验证了系统的效果和性能.1相关工作网络异常检测方法的研究从1990年Heberlein等人开发的NSM(networksecuritymonitor)[1]系统开始.迄今为止,主要有概率统计分析方法、数据挖掘方法和生物系统模拟(神经网络、遗传规划、人工免疫系统等)方法等.统计分析技术在入侵检测系统中的应用研究主要集中在马尔可夫模型和支持向量机模型上.Callegari[2]等人在网络异常检测中比较了几种不同的随机模型,包括一阶和高阶齐次马尔可夫链、非齐次马尔可夫链、稳定性和非稳定性经验累积分布函数等,实验结果显示高阶齐次马尔可夫链是效果最好的,但是模型的参数较难确定;文献[3]利用一阶齐次马尔可夫链对主机系统中特权程序的正常行为进行建模,并基于状态序列的出现概率判断异常行为;文献[4]使用了一个变长马尔可夫模型来捕获入侵轨迹的特征,对入侵行为进行实时预测.在使用支持向量机进行异常检测中,为了提高支持向量机的训练速度,文献[5],而文献,都取得较,统计分析方法基本上不,而且有较;但是漏报率和误报率都还较高,大部分的方法仍然需要干净的训练数据,这在真实的网络环境中很难确保. 基于数据挖掘的检测技术使用关联规则、序列挖掘、数据分类和聚类等算法从大量的网络数据中自动生成简洁而精确的检测模型.文献[7]使用频繁项集挖掘算法和衰减窗口技术来发现网络数据流的应用模式,能够高效学习,缺点是不能检测新入侵,检测率较低;文献[8]首先将训练样本进行聚类,然后在每一聚类上训练一棵ID3决策树;文献[9]针对每一类入侵训练一棵两类决策树,检测时将分类结果进行组合,并通过提升技术改进其检测性能.这些方法都取得了较好的结果,但是基于数据挖掘的方法往往需要大量的有标号数据作为基础,系统比较复杂,在检测模型学习和评价阶段的计算成本高,难以实现系统的实时学习.基于生物系统模拟的方法最近集中在分布式神经网络和分布式遗传规划上.文献[10]将大数据集随机分割成小块并使用分布式神经网络进行并行学习,用于大规模网络入侵检测,取得较高检测率,但误报率较高;文献[11]使用分布式遗传规划方法训练决策树分类器,并通过提升的方法分配各分类器的权重,有效降低了误报率.但这些算法在学习过程中同样需要大量带标号数据,且计算复杂度较大.总之,异常检测技术仍然面临检测率低和误报率过高的问题,并且多数模型系统结构复杂、效率低,难以适应在线检测的要求.2系统模型与算法在线自适应网络异常检测系统模型如图1所示,系统分为4个部分:(A)数据预处理模块;(B)模式匹配与更新模块;(C)决策模块;(D)报警与响应模块.魏小涛等:在线自适应网络异常检测系统模型与算法487Fig.1detectionsystemmodel.图2.1数据预处理网络数据首先要经过预处理,目的是将源数据转换为适当的粒度再输入系统.我们使用了基于网格的方法划分数据空间,这里的网格划分是指将数据空间的每一维划分区间,从而将整个数据空间划分成数目有限的超级长方体,并以网格为单位来判断落入网格的数据是否正常.这样能够大大减小系统的运算复杂度和存储复杂度.网格的形式化定义如下:设A={A1,A2,…,Ad}是一个有界属性集合,U=A1×A2×…×Ad是一个d维数据空间.V=(v1,v2,…,vd)是U中的一个d维数据,其中vi在Ai中取值.通过将每一个属性维分割成N个区间,我们把数据空间划分成互不相交的超级长方体.一个网格C就是在各个维中,分别取一个区间得到的超级长方体:C=(c1,c2,…,cd).其中ci为符号维时是一个有效取值,为数字维时是Ai中一个左闭右开区间:ci=[li,hi).我们说一个实例V=(v1,v2,…,vd)投影到单元C=(c1,c2,…,cd),即当:vi=ci(当vi是符号值),或者li≤vi<hi(当vi是数字值).网格的划分方法直接决定了系统的学习和分类能力.针对不同的数据空间会有不同的划分方法,由于本文要使用KDD99数据进行实验,这里我们以网络连接数据为例说明数据空间的划分方法.数据空间划分的关键是如何将每一维属性划分成离散的区间.在网络连接数据中,有取符号值的属性,也有取数字值的属性.对于符号值属性(如)或仅取0和1的二进制属性(如“protocol-type”),我们将每一个不同的取值作为一个划“logged2in”分.对于数值型的属性,我们按照特征分为2类处理:1)属性值为一个百分数,或者属性的取值是512以内的整数;2)属性值是大于512的整数.对于第1种类型的数值属性,我们可以简单地将其划分为N个等长的区间;对于第2类属性,等区间划分和基于密度的划分等都是不适合的,因为这些属性虽然取值范围比较大,但是多数实例的取值都集中在一个相对较小的区间内,如“duration”.对于这类属性,使用等频装箱法将数据点均匀地分布在不同区间中看似比较合适,但是在处理数据流的前提下,这个方法很难有效实现.为此我们使用了一种效果近似的函数转换法,用一个S型函数将属性值转换到(0,1)区间上,再将转换结果平均Fig.2Comparisonofdifferentdiscretizationtechniques.(a)Equalwidth;(b)Densitybaseddivision; and(c)Variabletransformation.图2不同的网格划分方法比较.(a)等分区间;(b)基于密度划分;(c)函数转换488计算机研究与发展2010,47(3)分成N等份.主要思想是在数据密度大的区域区间划分小一些,在数据稀疏的区域区间划分大一些,如图2(c)所示.这里我们使用的S函数如下:f(x)=式都有一个生命值H,当一条新记录匹配这个模式时,这个模式的生命值会增加1;与此同时其他模式(εν1),即老化或衰减.的生命值将减少ε频繁模式可以定义为生命值达到一个阈值τ的模式.τ的确定随系统的不同运行阶段而不同,在初始阶段τ可以很大,这样可以避免初始阶段对用户进行大量的询问.5,或个模式.随着系统的运,多数数据会在经过B1和B2时结束处理.这时τ的值就可以根据流入B3的数据量的减少而自动减小,不需用户调整.频繁模式经过认定后会分别加入正常模式库NPP或入侵模式库IPP.B1和B2中模式库的大-(x-m)Πc,1+e(1)其中,m和c代表当前属性历史数据的平均值和标准差.它们都可以通过对历史数据的统计或相关的背景知识获取.3.3的实验证明了这种方式是有效的.2.2模式的表示在本文中,:P)其中C,是映射到网格C内的最近出现的k个实例集合,H是此模式的生命值,L是其标号.在模式P中,R是映射到C内的最近出现的k个网络实例.保存这些实例的原因有2个,一是当这个模式成为频繁模式后,系统将向用户询问这一模式是否为正常,网格这样的抽象表达方式用户是无法理解的,这时可以列出这些实例让用户判断;第2个原因是在系统进行增量学习时,如果系统的网格划分方式有所调整,可以通过这些实例将当前模式重新对应到正确的网格中,从而保留知识.H是模式P的生命值,当有新的实例投影到这小可以不作限制,随着模式的动态生成和衰亡,模式库的大小会稳定在一定范围内.但是如果内存有限需要进行限制时则要用到模式的更新策略,这里简单地用新模式替换第1个生命值最小的旧模式.同时,这种模式的动态更新机制也使得系统可以适应网络使用环境的变化.模块C是系统提供的一个开放平台,此处可以集成多种检测算法,甚至可以结合其他基于误用的检测系统,为用户判断一个新模式的危险性提供参考信息.这里我们给出了一个基于模式影响度的算法,在第2.4节描述.由于报警与响应不是本文的重点,因此模块D的主要功能是回答询问和响应报警.当然,为了减轻用户的负担,提高系统的可用性,当模块C提供的参考信息具有较高的确信度时,系统也可以根据这些信息自动进行认定.2.4基于模式影响度的检测算法个模式时,其生命值会增加;而长久没有实例匹配的模式,其生命值会逐渐减小并最终被新的频繁模式替代.通过对正常模式的这种运算可以使系统始终保持网络的最近工作状态.L是模式P的标号.已询问过用户的模式,标号是“正常”或“入侵”,未确定的模式标号为“未标号”.2.3系统工作机制在初始阶段,所有的模式库都是空的,决策模块中因为没有任何知识而无法工作.所以在进行异常检测之前,系统需要进行学习.在学习阶段逐渐动态生成最近的正常模式库以及入侵模式库.正常模式基本上都是频繁模式,但是在实际情况中频繁模式并不都是正常模式.例如,DoS攻击包含大量网络流量,也一定是频繁模式.因此,在学习过程中,模块B3获得的频繁模式不能直接加入正常模式库,而需要决策模块或用户的确认.这里涉及到一个频繁模式的确定问题,为了获得最近最经常出现的模式,我们借鉴了操作系统中二级缓存的更新机制.模式缓存库PC中每一个模在网络异常检测的过程中,我们依赖如下的假设:正常数据之间或入侵数据之间具有一定的相似性,而入侵数据与正常数据之间有一定的差异性.这样每个数据对周围的数据都会有一个正面的或负面的影响.一个新的待分类数据可以根据所有其他已分类数据对它的影响来决定其类型,下面说明相关概念与方法.2个模式P,Q的距离D(P,Q)定义为它们所包含的2个d维网格CP,CQ之间的距离:dD(CP,CQ)=i=1∑d(CP,CQ),ii(2)魏小涛等:在线自适应网络异常检测系统模型与算法i0,ifCiP=CQ;489其中d(C,C)=iPiQ1,otherwise.在判断一个新的频繁模式时,可能会遇到这个模式所保存的k个最近实例中既有正常连接又有异常连接的情况.必要时我们可以将网格划分进行细化,即在数据空间的某一维或几维上多一个区间分割点,从而使这些冲突的实例被划分到不同的网格.同时,系统可以根据每个模式保存的k个实例为所,从而保留已经.IPP|.(一个模式P对另一个模式X的影响函数定义为(3)f(P,X)=exp(-D(P,X)).这样,当|NPP|>1且|IPP|>1时,一个新模式X对正常模式的隶属度为Fn(X)=P∈NPP∑f(P,X)Π|∑f(P,X)Π|NPP|.(4)X对入侵模式的隶属度为Fi(X)=X的正常度定义为N(X)X)).(6)P∈IPP33.1实验数据θ,当N(X)>θ时我们认为新模式X为正常模式,否则为异常模式并进行报警.用户可以调整这个阈值以在高检测率和低误报率之间进行权衡.检测算法如下所示.算法1.基于影响度的网络异常检测算法.输入:模式衰减系数ε;频繁模式阈值τ;正常度阈值θ.初始化:正常模式库、入侵模式库、模式缓存库初始都为空.每当一个网络连接记录到达,进行下列处理:1)按第2.2节网络应用模式的定义,将此记录转化为模式X;2)在正常模式库中搜索与X匹配的模式,在搜索的同时累加所有正常模式对X的影响度值得到Fn,并对正常模式的生命值衰减ε;若发现与X匹配的模式,则将其生命值加1,并结束对此记录的处理;3)在入侵模式库中搜索与X匹配的模式,在搜索的同时累加所有入侵模式对X的影响度值得到Fi;若发现与X匹配的模式,则报警,并结束对此记录的处理;4)在模式缓存库中搜索与X匹配的模式,在搜索的同时对缓存模式进行衰减;若发现与X匹配的模式,则将其生命值加1,若其生命值大于τ,则向管理员发出一个增加正常模式的申请,并根据管理员反馈将X加入正常模式库,结束对此记录的处理;5)此时X是一个新模式,根据Fn和Fi计算其正常度,若正常度小于等于θ,则报警,并根据管理员反馈将X加入入侵模式库;若正常度大于θ,则将X加入模式缓存库,结束对此记录的处理.实验使用KDD99[12]数据集.它是MITLincoln实验室提供的1998DARPA入侵检测评估数据集的一个扩充版本.其中包括训练集(kddcup.data.gz)和测试集(corrected.gz).数据以网络连接的形式保存,每条记录含42个属性,其中7个符号属性,34个数值属性,1个分类标号属性.我们在实验中,训练集主要使用了一个10%的子集(kddcup.data-10-percent.gz).其中共有数据494020条,正常数据97277条,入侵数据396743条,入侵种类22种.同时为了验证系统的可伸缩性,我们也使用了训练集的全集进行了实验比较.测试集则使用完整的corrected.gz数据集,其中共有数据311029条,正常数据60593条,入侵数据250436条,入侵种类37种,其中有17种未在训练集中出现.3.2实验过程系统用Java编写,运行于一台IntelCoreDuo2.4GHz,1GB内存的电脑.为了避免打开大文件所消耗的磁盘读取时间,系统直接使用了训练数据和测试数据的压缩文件作为输入文件,并在系统内部解压缩后进行处理.训练数据集和测试数据集顺序一次性流过系统.在训练集通过时,系统处于“学习”工作方式,在学习时系统并未用到所有训练数据的标号,只是当需要用户确认一个频繁模式是否正常时系统会自动提取此模式包含的k(实验时取k=10)个最近训练数据的标号进行判断,如果入侵数据占半数以上则认为此模式为入侵模式.在测试集通过时,系统可以分别处于“检测”和“检测时学习”2种工作方式.如果选择“检测时学习”,系统发现新的频繁模式后会对比测试集上提供的标号来更新模式库.下面的实验如无特别声明,我们都是选择“检测”模式进行.490计算机研究与发展2010,47(3)3.3数据空间划分在学习和检测之前,首先要对数据空间进行网格划分.我们使用第2.1节的方法,符号属性每一个不同的取值划分一个区间;数值属性划分成N个区间.为了选择合适的N,我们测试了不同的取值,并在划分结束后将10%训练集的数据进行投影,观察划分效果.结果如表1所示,其中G表示包含有实例的网格数,MG表示其中既包含正常实例又包含入侵实例的网格数及其所占比例,FS表示在MGTable1RGridding3ROCcurvesofexperimentalresults.图3实验结果的ROC图表1NGMGFS可以看出,当误报率控制在2%以内时,τ的取值对检测效果影响不大,这说明系统检测能力主要是由少数频繁度比较高的模式决定的.图4是当τ=50,θ=1.1,ε=0.0001时,模式库容量(PPS)取不同的值所获得的结果.可见随着PPS的增加,系统的误报率明显减小,而当PPS超3456789101112 2615530646756450632210976861510974114621487444(1.68%)38(0.72%)37(0.79%)32(0.50%)44(0.70%)32(0.29%)49(0.57%)35(0.32%)40( 0.35%)31(0.21%)427(0.086%)129(0.026%)190(0.038%)126(0.026%)176(0.036%)94(0.019%)185(0.037 %)100(0.020%)163(0.033%)85(0.017%)过600时,系统性能趋于稳定.结果显示,这种划分方法基本上能用较少的网格将正常数据和入侵数据有效地划分开.根据训练数据集来看,当N=8时,以网格为单位确定落入此区域的实例是否正常所带来的误差为0.019%.由于KDDCUPπ99的获胜方法的检测率为91.9%,相比而言这个误差的数量级是可以接受的.因此下面的实验我们选择参数N=8对数据空间进行网格划分,并以网格为学习和检测的基本单位.3.4实验结果与分析Fig.4Detectionresultvs.patternpoolsize.图4模式库容量对检测结果的影响为了减小计算复杂度PPS不必太大,但是也不能太小.当我们将PPS减小到20以下时,系统基本不能进行有效的检测了.PPS为300时的检测结果列于表2:Table2DetectionResultsforPPS=300实验主要考察系统的检测率和误报率:检测率DR(detectionrate)=检测出的异常记录数Π异常记录总数;误报率FPR(falsepositiverate)=判断为异常的正常记录数Π判断为异常的所有记录数.在测试时,为了尽量保持学习时得到的知识,我们取模式衰减参数ε=0.0001,模式库最大容量限制为1000.并为频繁模式阈值τ和正常度阈值θ选取了不同的值.实验结果如图3所示:表2PPS=300时的检测结果θ0.20.50.70.911.53DRFPR%90.6790.8791.0191.3291.3691.4691.620.230.310.380.430.441.141.83魏小涛等:在线自适应网络异常检测系统模型与算法491我们看到,当θ=0.9时系统检测率为91.32%,误报率为0.43%.其对不同类型的攻击检测率如表3所示:Table3DetectionResultsofDifferentAttackTypes300计算,系统最后共保留600个频繁模式(其中正常模式和入侵模式各300个),只占用极少的内存表3对不同攻击类型的检测结果AttackTypeProbeDoSU2RR2LDRofOANAD%空间.2)系统没有用到训练集的所有标号信息.只是在分类频繁模式时查看了这些模式最近出现的10个实例进行判断,仅占训练集标号的很少部分.3).随着模,.当我们选择“检测,,94.12%和误报率0.45%=60,θ=1.2,PPS=1000)的结果.4)检测新入侵的能力.corrected.gz测试集含DRofKDD99Winner86.0897.1858.640.1683.397.113.28.可见,U2R和R2L.少(U2R为52条,R2L为1126条),并且这2类入侵在行为模式上多数与正常数据也比较接近.由于本系统是根据数据相似性来进行检测的,因此会出现上述检测率较低的情况,但是对于频繁出现的数据模式,如Probe和DoS攻击,系统有很高的识别率,甚至优于KDDCUPπ99获胜者.作为对比,表4列出其他方法在相同测试集上取得的结果.Table4ComparisonwithOtherApproaches有入侵种类37种,其中有17种未在训练集中出现,当允许误报率为3.40%时本系统可以检测到所有17种入侵;在误报率为0.33%时可检测到11种.表5列出了其捕获的11种新入侵记录数.Table5DetectionAbilityofNewTypeofIntrusions表5对新入侵的检测结果NewIntrusionsapache2httptunnel#Total79415850001053177591673617774124062229413#Detected267110082614185707103100020表4其他检测方法检测结果ApproachesKDDCUPπ99WinningentryKDDCUPπ99SecondplaceDistributedlearning[10]Average GEdIDS[11]BestGEdIDS2FPrate[11]DRFPR%mailbombmscannamedprocesstablepssaintsendmailsnmpgetattacksnmpguess91.94591.52591.790.58191.0170.5460.5763.20.5650.434虽然OANAD的检测率不是最好,但已接近KDDCUPπ99获胜者的检测效果,而误报率是最低的,这点在异常检测中尤为重要.如果综合考虑下列因素,系统的性能是比较突出的.1)系统是轻量级的.如果系统的正常模式库和入侵模式库的总容量是M,算法检测n 条记录的时间复杂度为O(M×n).KDDCUPπ99的获胜方法之一MP13使用PERGAMENTsoftware运行了6h完成全部计算,而我们的算法只运行了不到40s.其中学习494020条训练数据使用了不到23s;检测测试数据使用不到17s.为了进一步测试系统的性能,我们将训练集的全集输入系统进行学习,结果系统只用了277.5s 就结束了学习,其中还包括了解压缩的时间.另外,系统的空间复杂度低,如果我们按PPS= sqlattackudpstormwormxlockxsnoopxterm4总结本文提出了一个在线自适应网络异常检测系统模型,它不需要特殊的训练集,它的学习模式和工作模式是统一的,能够在使用的过程中逐步学习用户的正常模式,并在每一次与用户的交流中确认入侵模式,修正检测依据.实验结果表明,系统效率很高,具有较好的检测率和满意的误报率.492[9]计算机研究与发展2010,47(3)DartiqueC,JangH,ZengW.Anewdata2miningbasedapproachfornetworkintrusiondetectio n[C]ΠΠProcofthe7thAnnualConfonCNSR.LosAlamitos,CA:IEEEComputerSociety,200 9:372-377[10]LiuYanheng,TianDaxin,YuXuegang,rge2scalenetworkintrusiondetectionalgorith mbasedondistributedlearning[J].JournalofSoftware,2008,19(4):993-1003(inChinese) (刘衍珩,田大新,,基于分布式学习的大规模网参考[1]文献HeberleinL,DiasGV,LevittKN,etal.Anetworksecu ritymonitor[C]ΠΠProcofthe1990Sym ponSecurityandPrivacy.LosAlamitos,CA:IEEEComputerSociety,1990:296-304[2]CallegariC,VatonS,PaqanoM.Anewstatisticalapproachtonetworkanomalydetection[C ]ΠΠProcofthe2008IntSymponSPECTS.LosAlamitos,CA:IEEEComputerSociety,2008:4 41-447,2008,19(4):993-1003)11]CGPensemblefordistributed[C]ΠΠProcofthe3rdIntConfoninPatternRecognition.Berlin:S pringer,2005:54-62[12]ACM.KDDCup1999Data[OL].[2001206230].http:ΠΠΠkddcupΠ[3]TianXinguang,GaoLizhi,SunChunlai,etal.Anomalydetectionofprogrambehaviorsbase doncallshomogeneousMarkovchainmodelsResearchand,,(9):(inChinese)(田新广,高立志,春来,等.基于系统调用和齐次Markov链模型的程序行为异常检测[J].计算机研究与发展,2007,44(9):1538-1544)[4]FavaD,ByersS,YangS.Projectingcyberattacksthroughvariable2length[5]Markovmodels[J].IEEETransonTwo2stageInformationForensicsandSecurity,2008,3(3):359-369DucD,MatsumotoK,TakishimaY,etal. incrementalworkingsetselectionforfastsupportvectortrainingonlargedatasets[C]ΠΠProco fthe2008IEEEIntConfonRIVF.LosAlamitos,CA:IEEEComputerSociety,2008:221-226[6] LatifurK,AwadM,ThuraisinghamB.Anewintrusiondetectionsystemusingsupportvectormachinesandhierarchicalclustering[J].TheVLDBJournal,2007,16(4):507-521[7]MaoGuojun,ZongDongjun.Anintrusiondetectionmodelbasedonminingmulti2dimensiond atastreams[J].JournalofComputerResearchandDevelopment,2009,46(4):602-609(inChinese)(毛国君,宗东军,基于多维数据流挖掘技术的入侵检测模WeiXiaotao,bornin1971.PhDcandidate.Hismainresearchinterestsincludedataminingandnetworksecurity.魏小涛,1971年生,博士研究生,主要研究方向为数据挖掘和计算机网络安全.HuangHoukuan,bornin1940.ProfessorandPhDsupervisor.SeniormemberofChinaComput erFederation.Hismainresearchfieldsincludeartificialintelligence,datamining,andmachinelearning.黄厚宽,1940年生,教授,博士生导师,中国计算机学会高级会员,主要研究方向为人工智能、数据挖掘、机器学习等.TianShengfeng,worksecurity. Hismainresearchinterestsincludeartificialintelligenceand型与算法[J].计算机研究与发展,2009,46(4):602-609)[8]YasamiY,KhorsandiS,MozaffariS,etal.Anunsupervisednetworkanomalydetectionapproa chbyk2meansclustering&ID3algorithm[C]ΠΠProcofthe2008IEEESymponISCC.LosAla mitos,CA:IEEEComputerSociety,2008:398-403田盛丰,1944年生,教授,博士生导师,主要研究方向为人工智能和网络安全.ResearchBackgroundWiththeextensiveusageofcomputernetworks,workintru sionscancauseseveredisruptiontonetworks.Thereforethereisanurgentneedforasolutionthat canactivelydefendnetworksagainstthegrowingsecuritythreats.Theintrusiondetectionsyste ms(IDS)canautomaticallyscannetworkactivityandrecognizeintrusionattackstoprotectcom putersagainstunauthorizedusesandmakethemsecureandresistanttointruders.Thisiswheren etworkIDScomesintooffersecurityinadditiontothatprovidedbytraditionalanti2threatapplic ationssuchasfirewalls,antivirussoftwareandspy2waredetectionsoftware.Fromthelastdeca de,misusedetectionhasbeenthedominantstrategyforIDSsforthereasonsthatitiseasiertoimpl ement.However,anomalydetectionhastheadvantageofdetectingnovelintrusionswithoutan ypriorknowledge.Thisresearchpresentsanonlineadaptivenetworkanomalydetectionsyste m.Itrunsinrealtimeanddynamicallymaintainsitsknowledgebase.Theexperimentalresultssh owsthatthislightweightedsystemachievesarelativelyhighdetectionrateandverylowfalsepo sitiverate.ThisresearchworkissupportedbytheNationalNaturalScienceFoundationofChina undergrantNo.60442002.。