粗糙集属性约简在入侵检测系统中的应用
粗糙集

例
对于上表来说,U中有四个对象(概念),而现 在条件集合中只有一个属性,对于U1和U2来说, 它们的p不同所以可以通过p来区分,即u1,u2在p 下可区分;而U2和U3虽然是不同的对象但是在P 下却是相同的,即在p下不可区分,就成为不可 区分
粗糙集:
一个集合若恰好等于基本集的任意并集称为一个清晰 (crisp)集(精确集),否则称为粗糙(rough)集(不 精确集)。 解释:都可区分的是清晰集,有不可区分的对象为粗糙 集 主要特点:以不完全信息或知识去处理一些不分明现象的 能力,或依据观察、度量到的某些不精确的结果而进行分 类数据的能力. 粗糙集体现了集合中元素间的不可区分性. 主要优势:它不需要提供问题所需处理的数据集合之外的 任何先验知识,而且与处理其它不确定性问题的理论有很 强的互补性.
粗糙集理论所处理的问题
•不确定或不精确知识的表达; •经验学习并从经验中获取知识; •不一致信息的分析; •根据不确定,不完整的知识进行推理; •在保留信息的前提下进行数据化简; •近似模式分类; •识别并评估数据之间的依赖关系
三、粗糙集的应用
粗糙集理论在许多领域得到了应用: ①临床医疗诊断;
②电力系统和其他工业过程故障诊断;
3. 如果P中的任何一条属性都是不 可简约的,那么就称P是独立的 解释:P是独立的说明P中的任何一个属性都是必 不可少的,它独立的表达一个系统分类的特征。
属性约简的算法分析:
初始状态:所有数据已存入数据库(以下为模拟数据)
u 1 2 3 4 5 6
a 1 1 0 1 1 2
b 0 0 0 1 1 1
集合O 的下逼近(即正区) 为 I 3 (O ) = PO S (O ) = {刘保,赵 凯} 集合O 的负区为 N EG (O ) = {李得} 集合O 的边界区为 BND (O ) = {王治, 马丽} 集合O 的上逼近为 I 3 (O ) = PO S (O ) + BND (O ) = {刘保,赵凯,王治,马 丽} 根据表1, 可以归纳出下面几条规则, 揭示了教育程度与 是否能找到好工作之间的关 RUL E 1: IF (教育程度= 大学) OR (教育程度= 博士) THEN (可以找到好工作) RUL E 2: IF (教育程度= 小学) THEN (找不到好工作) RUL E 3: IF (教育程度= 高中) THEN (可能找到好工作)
粗 糙 集 理 论

研究背景(续)
1998年,国际信息科学杂志(Information Sciences) 为粗糙集理论的研究出了一期专辑[2,3]。 第一届中国RS理论与软计算学术研讨会,于2001年5月在重 庆举行。 第二届中国RS理论与软计算学术研讨会,于2002年10月在苏 州大学举行。 第三届中国RS理论与软计算学术研讨会,于2003年8月在重 庆举行。 第四届中国RS理论与软计算学术研讨会,将于2004年在舟山 举行。
, card X表X的基数。
可被用作Rough逻辑中的算子。
粗糙集的几种表示(续)
④在Rough集上也有元素隶属于集合的问题(与Fuzzy 集一样)。 X U 设 ,
card X x R x ,则 card xR
R X
0 X x 1 。
粗糙集的几种表示(续)
③
R X
card apr X card apr X
称 R (X )为X的近似精度, 0 R X 1 (粗糙程度。 于是也可用 R (X ) 来定义Rough集。 当 R X 1 ,称U上子集X关于U上不分明关系R是 Rough的; 当 R X 1 ,称X关于R是精确的;
,
则X关于R是精确的。
相反地,Rough隶属函数可用来定义一个集合 的上、下近似集及边界集
R apr X x U , X x 1
X U
R apr X x U , X x 0
R bn X x U ,0 X
一种基于粗糙集的属性约简算法改进

K$
核。首先可以将这些属性取出, 同时将分明矩阵中包 含核属性的元素的值删掉, 这样也可以节省许多计算 量以及存取分明矩阵的空间。 对于第二个问题, 即属性值约简的问题, 存在以下 命题: 命题 * & $ : 设 34 被消去所有过剩条件属性值的 决策规则, 条件属性集 + 的等价类 [5 ] 6 中任何最少 属性 / 的等价类 [ 5] [ 5] / 的交集?相应决策类 , 中, 则由此而得到的最小条件属性 / 组成的相应于 3 4 的 新决策规则 3 4 7是 3 4 的一个决策规则约简。 根据上面所述, 我们可以设计这样的算法 输入 :决策表 8 # 9 ), + ), : 输出 :此决策表上的决策规则 步骤 $ : 属性约简 ;#< =>? " # $ @> ’ A $ 3> . =>? ! # " B $ @> ’ 3> 对 ; 应用分配律, 结果存入 ; . . {; # ; ){ /: ( ! ). / / ( ") } , 检查所有属性 3; %.
系 D 在 ( 中是绝对不必要的 (多余的) ; 否则, 称D 在 ( 中是绝对必要的。 ( 中所有绝对必要关系组成的集 合称为关系集 ( 的绝对核, 记做 :FDG ( () 。 ( &)设 7 是一论域, ( 和 H 为定义在 7 上的两个 等价关系集且 H *(。如果: %) >?; ( H)6 >?; ( () , &) H 是独立的。 则称 H 是 ( 的一个绝对约简。如果知识 H 是知 识 ( 的绝对约简, 那么, 7 中通过知识 ( 可区分的对 象, 同样可以用知识 H 来区分。 在讨论决策表信息系统约简的时候, 一个条件属 性 * 就对应着一个等价关系, 它对论域 7 形成一个划 分 7 I *。决策表的所有条件属性形成条件属性集合 ( 对论域的划分 7 I (, 同时, 决策属性集 ; 6 {@} 也对论 域形成一个划分 7 I ;。这两个划分形成了条件属性和 决策属性在对论域样本分类上的知识。 属性约简的目标就是要从条件属性集合中发现部 分必要的条件属性, 使得根据这部分条件属性形成的 相对于决策属性的分类和所有条件属性所形成的相对 于决策属性的分类一致, 即和所有条件属性相对于决 策属性有相同的分类能力。 &0 , 分明矩阵 令 5 6{ 7, *} 是一个决策信息系统, 7 为定义域 且 7 6 {A% , A& , 00 0, AJ } ,* 6 : ) ; , : 是条件属性集 合, ; 是决策属性, ( A) 1 是记录 A 在属性 1 上的值。分 明矩阵可表示为: ( :KL)6
基于粗糙集和模糊聚类方法的属性约简算法

{) d 表示 。 B C Y ,EU , ) 若 C , xY ,≠y 称二 元关 系ID ( ,d ) _ N = B {}=
{ ,) U U I ()d y 或者口 B,()Ⅱy } ( Y ∈ x d = ( ) ∈ 口 = ()为不可分辨
关系。
1 . 粗 糙 集 2
京 : 子 工 业 出 社 .0 8 电 2o . ( 任编 辑 : 责 王 钊)
[ ] 杜 芳 芳. 析基 于 We 1 浅 b数 据 挖 掘 的 电子 商务 网站 架构 []电子 J.
商务 .0 0 2 . 2 1( )
[ ] 苗夺谦 , 道 国. 2 李 粗糙 集理 论 、 法 与应 用 [ . 算 M] 北京 : 清华 大 学 出
性口∈A的值域
。 一 单 射 , 论 域 u中的 任一 元 素取 属 为 使
性。 V 中的某 一 唯一 值 。 在 A由条件 属性 集 合C 决策 属性 集合 和 D组 成, 和D满 足 CLD A, C J = CND d,则 称S 决策 系 统 ,用( =? 为
CuD) 示 ; 表 当决 策 属 性 集 合 只 有 一 个 元 素 时 , 常 用( 也 CU
_
方 法4算术平 均最小 法 :
负 域 ,n ( = 一 X成 为 的曰边 界 域 。 b ) B
_
公 )_宰 式 ( : , _ L
隶属 函数 。
I JN () l L IDB
称 元 集 粗 为 素对 合 的 糙
:
1 m
(I ) x+ k
e方 法 5几 何 平 均 最 小 法 :
若 I D( =N B a )a∈B,称B为 中 的 不 必 要 属 性 , N B)I D( 一{} , 。 反
基于粗糙集的CBR系统属性约简改进算法

方法选择非核属性 ,增加反向删除操作。该算法能够充分反映专家经验知识,保证得到一个 P w a al k约筒,大 幅度提高案例 的检索效率。
运用 Ma a 编程实现了该算法 ,通过实例对算法进行分析、对 比,证明了其正确性 和有效性 。 db 关健诃 :粗糙集 ;基于案例推理 ;属性重要度 ;属性约简
[ src|T ip pr rp ssa lo tm ae ni rv druhst n rt amet to r ei o be T ea o tm osh Abta t hs a e o oe nag rh b sdo p i mpoe o g e ada er t n h df c int l. h l rh d e e p e me od s a gi t
S UN a .i g , N h . u WANG i Y h qn YI S u h a, J
( . p rme t fGr d aeSu e t a a e n, ’nCo 1 De at n o a u t td n M n g me tXia mmu iainIsi t, ’n71 0 ; nct o n tt e Xia 01 6 u
1 橇 述
粗糙集理论 自 1 8 年提出以来 ,已经在数据分析、数据 92 挖掘、机器 学习等多个领域中得到广泛应用 J ,属性 约简则 是粗糙集理论研究的核心问题之一 。采用粗糙集方法对基于 案例推理(aeB sd R ao ig B ) C s. ae esnn,C R 系统中的案例进行属
3 Sa o m f l ayOp c l b r m nc t n Xi nC mmu iainIsi t, ’ 1 6 Mi t i F C i a nc t tu e Xi 7 0 0 ) o n t n a 1
基于粗糙集的属性约简算法

} 。
…
3
的上 近似 集 B ) 根据 知识 判定 可 能属 ( , 于 的 中的对象 组成 的集合 B X)= { ∈ Ul ( X B( " X ≠ } X)I 1 。
定义 3 正域
收 稿 日期 :0 l 3 1 2 1 - —l 0 基 金项 目 : 国家 自然 科 学 基 金 资 助 项 目( 07 0 9 6543 )
D c u D =Q, = ) ( Cn D 两个不同的集合。 概念 2 完备信息系统与不完备信息系统 在决 策信息系统 D S=< , uD, , UC VP>中, 中每个对
1 2 基本 定义 .
L )= { ( Y∈ UI( Y ,)∈ L , } L = { ∈ UI ( X L ) } , L = { ∈ UJ ( X )n ≠ } 。
() 2 () 3 () 4
定义 1 不可 分辨 关 系
限制容 差关 系具 有 自反 性 和对 称性 , 是不 具 但 有 传递 性 。
步骤 有的约简属性集都包含的不可省略属性 的集合 , 记 为 C R P)=n R D( O E( E P)。
步骤 7 将 R d e 集里的属性与 c集合里剩余的
属性 分别结 合 。 步骤 8 采 用组合 属性 , 复步骤 2 ~6 重 。 步骤 9 从 R d的尾部 开 始 , 后 往前 对 每 个 e 从
2 2 知 识约 简算法 .
q }I D B 是一个等价关系。 )。 ( ) N 由这种等价关 系导
出 的对 的划 分记 为 U ID( , 中包 含样本 的 /N B)其 等价类 记 为 [ ] 。
粗糙集约简算法在减速器故障诊断中的应用
C 一 0, D — D , ,
伟 志给 出 了模 糊 目标信 息 系统 的协 调集 判定 定理 与
约 简方 法 , k wrn引 进 了分 明 矩 阵 的概 念 , 信 So o 将
息 系统 中所有 属性 的可分 明信 息都 浓缩进 一个 矩 阵 中, 这样 可 以很方便 地得 到信息 系统 中的属性 核.
不 少学 者研究 了不 同信 息系统 下 的属性 约简 理论 和 方法; 张文修 等用 类似 方 法 分 别讨 论 了不 协 调 目标
信 息系统 和不 完备 信 息 系 统 中 的知 识 约 简 问题 , 给
出 了相 应 的协 调集 判 定 定 理 和 约简 方 法 ; 梅 和 吴 张
论 域 , 一 { , … , )A — C U D, U X X , X , C是条 件 属性 的集 合 , 是 决策 属性 的集 合 . ( D n X)是 X 在 属 性 n上 的值 , 明矩 阵 分
性 约简 是粗糙 集 理论 的知 识 获取 的核 心 问 题之 一 ,
1 2 分 明矩 阵和属性 约 简算 法 . 分 明矩 阵是将 信 息系 统 中关于属 性 区分 的信息 浓 缩到 一个 矩阵 当 中 , 象地 表 达 了决 策信 息 系统 形
中的全 部不 可分 明关 系. 利用 这 一 矩 阵 可 以很 方 便 地求 出属 性 约简 的核. 定义 为系 统 S一 (,A)U为 己, ,
化 简后 的决 策表 具有 化 简 前 决 策 表 的 功 能 , 是 化 但 简 后 的决策 表具 有更 少 的条件 属性 . 因此 , 决策 表 的 简 化在 工程 中应 用 相 当重 要 , 同样 的决 策 可 以基 于 更 少量 的条 件 , 过 一 些 简单 的手 段 就 能 获 得 同样 通
基于粗糙集的规则挖掘系统设计与实现
=
P S( X) N X) O R, U B R( 。
定义 5设 B CC 决 策属 性集合 D B的属性 依赖 度 (er f : C 对 dg eo e 个较 为实 用的信 息系 统 取 得 了较好 的效果 对其在 其他行 业 的应用 d p n e c ) 为 k eedny记 也 有一定 的启发 与借 鉴意 义。 k Y ( =c r p sB D)/cr ( = B D) ad(o ( ) ad U)
值:
f U — V . XA
.
C R ( = n R D( O E A) E A)
即 A的所有 约简 的交集 构成 A的属 性约 简的核 。
即 fu a =v u ∈ U, (.) ( a∈ A, ∈ V) V
二 、核心算 法 1属 性约 简的算 法
定义 2 不可分 辨关 系 ( dse i l e t n : I i rb i Rl i ) n c n it 下面 两个 条件 :
( ) d( ) n A) 1 i B =i n d(
,
2粗 糙集 的知识 .
定 义 1 设信 息系 统 s { V f。其 中 u是一个 非空集 合 u : = u A, , } =
() 意 a∈B n () i ( 2任 :i B ≠ n B一{ ) d d a , 那 么 B 就是 A的 一个约 简 。
在 s中 ,对任 意 a∈A.对 象 u ∈U . .有 属性值 au 存 在且 不 为 (. )
获取 属性 的约简 的方 法有很 多 ,如 : o l k提 出 了用遗 传算 Wrb wsi e
苗夺谦等基于知识信息熵的概念提出了启发式的约 空 。因此 在该假 设下 ,Pwl 的粗糙 集方 法是 基于不 可分辨 关系 ( a a k 或 法寻找最小约简 . 简算 法 , 国胤 等提 出 了基于 可辨 识矩 阵 和逻辑 运算 的约 简算 法等 , 王 称等价 关 系 ) ,记 为 i ( ) n A: d
粗糙集在数据融合系统灰色评估中的应用
式中 , I ( P) = 1 的信息量 . sig2P \
{ a}
1
| U|
2
t
i =1
∑|
Pi | , 表示属性集 P
2
( a ) 表示从属性集 P 中去掉属性
a 后引起的信息量变化的程度 , 是属性在属性集中
性和不确定性的数学工具 . 它将知识理解为对数据 的划分 ,由于其仅依赖于原始数据而不需要任何先 验信息便可揭示数据内部潜在的规律 , 因而广泛应 用于模式识别 、 故障诊断等领域 .
2 性能指标的建立
数据融合系统通过对来自不同传感器的数据进 行自动分析 、 优化综合等处理 ,获得对战场态势的准 [1 ] 确了解 . 根据分布式数据融合系统的特点 、 应用 [4 ] 目标和功能 , 本文采用如下指标体系 , 该指标体 系分为航迹起始 、 航航相关 、 目标识别 、 跟踪精度等
第7期
Application of Rough Set in Grey Relation Evaluation of Data Fusion System
L I Yang ,WHAN G Zhao2ying , GUO Wei2wu
( Institute of Telecommunication ,Air Force Engineering University ,Xi′ an 710077 , China) Abstract : In order to evaluate t he overall performance of data fusion system , an approximately complete set of criterions is established for t he distributed kind. An evaluation model of grey relation analysis based on rough set t heory is proposed , which by means of applying rough set t heory reduce redundant attributes and determine criterion weight values , t hus re2 sulting in less subjectivity and more objective evaluation results. The feasibility and credibility of t he model is proved by an example. It provides a scientific decision foundation t heoretically for development , demonstration and practical application of t he data fusion system. Key words : data fusion ;performance evaluation ;rough set ;grey correlation
基于粗糙集理论的评价指标属性约简
基于粗糙集理论的评价指标属性约简摘要:粗糙集理论是一种对数据进行约简的有效工具。
文章运用粗糙集理论对评价指标进行了属性约简,并根据各指标包含信息量的大小确定权重,构建了基于粗糙集理论的指标综合评价模型。
标签:指标评价;粗糙集;属性约简引言粗糙集(Rough set)是由波兰数学家Z.Pawlak于1982年提出的一种处理模糊、不确定信息的方法。
粗糙集理论把知识看做关于论域的划分,以不可分辨关系为基础,在保持分类能力不变的前提下,通过知识属性约简,导出问题的决策分类规则。
属性约简是指对知识库中冗余繁杂的信息进行精简,以较少的数据进行较多信息的表达,从而方便对数据的处理和分析。
根据其客观性和自身特点,其用在评价指标属性约简具有可行性,众多学者和专家们对该方法在各个领域运用的可行性方面进行了研究。
1 粗糙集理论1.1 信息表。
S=(U,R,V,f)表示为信息表,其中U是一个非空集合,称为论域,U={x1,x2,x3……xn},其中xi表示对象;R表示对象的属性集合,R=C∪D,即对象的属性集合是条件属性(C)和决策属性(D)的并集;V是属性值的集合,Va是属性a∈R的值域;f是U×R→V的一个信息函数,它为每个属性a赋予一个属性值,即a∈R,x∈U,fa(x)∈Va。
1.2 等价关系。
对于任意a∈A(A中包含一个或多个属性),A?R,x∈U,它们的属性值相同,即fa(x)=fa(y)成立,称对象x和y是对属性A的等价关系,表示为IND(A)={(x,y)|(x,y)∈U×U,?a∈A,fa(x)=fa(y)}。
1.3 等价类。
在U中,对属性集A中具有相同等价关系的元素集合称为等价关系IND(A)的等价类,表示为[x]A={y|(x,y)∈IND(A)}。
1.4 属性约简。
给定一个信息表IT(U,A),若有属性集B?A,且满足IND(B)=IND(A),称B为A的一个约简,记为red(A),即B=red(A)。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
© 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net第24卷 第2期2010年3月长 沙 大 学 学 报JOURNALOFCHANGSHAUNIVERSITYVol.24 No.2Mar.2010
粗糙集属性约简在入侵检测系统中的应用3
吴建源(广东培正学院计算机科学与工程系,广东广州510830)
摘 要:入侵检测系统(IDS)是一种以攻为守的主动式防御措施,它针对网络内部攻击进行防御.为了实现对海量入侵检测数据的数据挖掘,首先可对入侵检测系统采集的海量数据进行抽样分析,然后使用粗糙集理论的属性约简方法对数据进行预处理,获得入侵检测数据的决策规则,并判断流经网络的数据包的安全性,最后编程以实现数据挖掘的自动化.
关键词:粗糙集;数据挖掘;属性约简;入侵检测中图分类号:TP271
+
.82 文献标识码:A 文章编号:1008-4681(2010)02-0047-03
近年来,计算机和网络基础设施,特别是各种官方机构的网站,不断受到黑客的攻击,各种入侵事件层出不穷.一些传统的网络安全技术,如访问控制机制、加密、防火墙等已不能满足网络安全的要求,而逐渐成熟起来的入侵检测系统(IntrusionDetectionSystem,简称为IDS)则为我们提供了又一重保障.数据挖掘在入侵检测中的应用,旨在对海量的安全审计数据进行智能化处理,试图从大量数据中提取人们感兴趣的数据信息,及与安全相关的系统特征属性,建立基于数据挖掘的入侵检测模型,包括数据源选择、数据预处理、算法选择、创建数据挖掘模型、挖掘结果分析处理及其可视化等[1,2].由于入侵检测系统采集的数据量是巨大的,因此对采集的数据采用分等级多次抽样的方法获取信息系统表.粗糙集理论作为一种新的数据挖掘工具,在处理不确定性知识方面有着突出的优势.用粗集理论的属性约简方法对样本信息系统进行预处理,删除冗余的属性,从而得到入侵检测数据的决策规则,进而判断流经网络的数据包的安全与否.1 理论知识1.1 入侵检测系统入侵检测是在1980年由JamesAnderson在为美国空军做的技术报告中首次提出来的[1].入侵检测,顾名思义,是对入侵的一种检测行为,它是通过从计算机网络或计算机系统中的若干关键点收集信息并对其进行分析,从中发现网络或系统中是否有违反安全策略的行为和遭到袭击的迹象.作为一种安全防护工具,IDS弥补了防火墙的很多不足,甚至在很多方面可以取而代之.相对于采用封锁、过滤等被动防御的防火墙而言,入侵检测系统能主动地发现网络中的非法入侵,并采取相应的措施,如记录、报警、阻断网络等,防止危害的扩大.入侵检测实质是对基于主机或基于网络的计算机系统的运行状态进行监视,发现各种攻击企图、攻击行为或者攻击结果,以保证系统资源的机密性、完整性与可用性[3].从功能上,我们将入侵检
测系统划分为四个基本部分:数据采集子系统、数据分析子系统、控制台子系统、数据库管理子系统(如图1所示).
图1 入侵检测功能结构示意图其中数据分析模块相当于IDS的大脑,它必须具备高度的“智慧”和“判断能力”.所以,在设计此模块之前,我们需要对各种网络协议、系统漏洞、攻击手法、可疑行为等有一个很清晰、深入的研究,然后制订相应的安全规则库和安全策略,再分别建立滥用检测模型和异常检测模型,让机器模拟自己的分析过程,识别确知特征的攻击和异常行为,最后将分析结果形成报警消息,发送给控制管理中心.
1.2 粗糙集(RoughSet)RoughSets理论是由波兰华沙理工大学Pawlak于1982年提出的一种数据分析理论,主要研究不完整、不确定知识和数据的表达、学习、归纳的方法[4].其主要思想是在保持分类能力不变的前提
下,进行知识约简.目前,粗糙集理论已被成功地用于机器学习、决策分析、过程控制、模式识别和数据挖掘等领域,所以在使用决策树之前可先利用粗糙集方法对入侵检测数据进行属性约简.
下面简单介绍一下粗糙集理论中属性约简的
3收稿日期:2010-03-09;修回日期:2010-03-25
作者简介:吴建源(1978-),男,福建泉州人,广东培正学院计算机科学与工程系助教,硕士.研究方向:数据挖掘.© 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
长沙大学学报2010年3月思想[5,6,7].设非空集U是我们感兴趣的对象组成的有限集合,称为论域.任意XΑU,称为U中的一个概念或范畴.U上的一族划分称为关于U的一个知识库,而集合上的划分与等价关系是相互对应的.(1)决策信息系统:是一个有序四元组S=(U,A,V,f),其中U={x1,x2,…,xn}是论域,A=C∪D是属性集合,其中C是条件属性集合,D是决策属性集合,V=∪a∈CVa是属性值的集合,Va是属性a的值域,f:U×A→V是一个信息函数,对每一个a∈A,x∈U,f(x,a)∈Va,即信息函数f指定U中每一个对象x的每个属性值.信息系统的每个属性均决定一个等价关系,当然属性子集也决定一个等价关系,如PΑA,则由P决定的等价关系的等价类的集合记为U/P={[x]P|x∈U}.(2)上近似和下近似:在信息系统S=(U,A,V,f)中,设PΑA,XΑU,X关于P的下近似P_(X)={x|x∈U,[x]PΑX},上近似P-(X)={x|x∈U,[x]P∩X≠Φ},POSP(X)=P_(X)也称为X的P正域.(3)属性约简定义1 设U为一个论域,P和Q为定义在U上的两个等价关系簇,称POSP(Q)=∪X∈U/QP_(X)为Q的P正域.定义2 设S=(U,A,V,f)是一个信息系统,P,QΑA,r∈P,如果POSP(Q)=POS{P-{r}}(Q)则称r为P中Q不必要的;否则r为P中Q必要的.不必要属性在信息系统中是多余的.若将它从系统中去掉,不会改变系统分类能力.定义3 设S=(U,A,V,f)是一个信息系统,P,QΑA,如果每个r∈P都是Q必要的,则称P为Q独立的;否则,称P为Q依赖的.对于相依赖的属性集合来说,其中必包含有多余的属性,可以对其约简.定义4 设S=(U,A,V,f)是一个信息系统,P,QΑA,P中所有Q必要的属性构成的集合称为P的Q核,简称相对核,记为coreQ(P).定义5 设S=(U,A,V,f)是一个信息系统,P,QΑA,KΑP,如果满足:POSK(Q)=POSP(Q),而且K是Q独立的,则称K是P的一个Q约简,P的Q约简也称为相对约简.相对约简一般不唯一,而且相对核是所有相对约简的交集.相对核的概念有两方面的意义:首先它可以作为所有约简的计算基础,因为核包含在所有的约简之中,并且计算可以直接进行;其次当知识化简时它是不能消去的知识特征的集合.2 入侵检测数据挖掘模型现在我们利用上述介绍的粗糙集理论以及决策树ID3算法对入侵检测系统采集的检测数据进行归纳学习.(1)入侵检测数据的采集:入侵检测数据采集模块是实现整个入侵检测系统高效工作的基石,为整个系统提供数据来源.因此,在设计整个入侵检测系统时,必须保证网络数据截获模块工作稳定可靠,为整个入侵检测模块稳定可靠地提供数据.现在比较流行的有两种方法,一种网络数据截获方法,是在BPF(BerkeleyPacketFliter)模型的基础上,
利用一些流行的函数库进行开发;另外一种是在Windows的驱动程序的基础上进行的开发.在UNIX或Linux系统中,一般采用由美国洛伦兹伯克利国家实验室所编写的专用于数据包捕获功能的API函数库Libpcap来实现.Libpcap实质上是一个系统独立的API函数接口,用于用户层次的数据截获工作,可在相关网站下载到.
具体地说,入侵检测数据的采集主要基于两大类:一种基于标志(signature-based),另一种基于异常情况(anomaly-based)[3].对于基于标识的检测
技术来说,首先要定义违背安全策略的事件的特征,如网络数据包的某些头信息,主要判别这类特征是否在所收集到的数据中出现,此方法非常类似杀毒软件.而基于异常的检测技术则是先定义一组系统“正常”情况的数值,如CPU利用率、内存利用率、文件校验等(这类数据可以人为定义,也可以通过观察系统、并用统计的办法得出),然后将系统运行时的数值与所定义的“正常”情况比较,得出是否有被攻击的迹象,这种检测方式的核心在于如何定义所谓的“正常”情况.
根据上述检测的方法,需要对诸如数据包头信息、CPU利用率等10来个属性进行数据采集,得到如下面表1的入侵数据信息系统,该信息系统模拟网络环境获得9个星期的TCP元数据,这些数据的基础是正常的网络数据,其余的为多种入侵数据.
(2)由于信息系统数据量非常大,为了便于学
习,首先要进行抽样分析,可依次取1/10000,1/
5000,1/1000,1/100,1/10的数据量进行多次抽样,对每次的样本进行实验.
(3)对样本信息系统,采用下文介绍的粗糙集
属性约简软件对它进行约简,获得该样本的分类决策规则.
(4)利用这些规则,判断出哪些是正常的网络
数据包,哪些是恶意的入侵行为.
3 仿真实现3.1 系统设计基于粗糙集方法的入侵检测系统是一种基于数据挖掘的入侵检测系统.该系统主要由数据采集、数据挖掘、模式匹配和智能决策等4个模块组成(如图2所示).
数据采集模块从数据源,如系统日志、网络数据包等,获取原始数据,同时该模块还对原始数据进行一些必要的处理,如可能需要对数据投影,处理连续属性,对不完整的数据进行补充等.这部分为进一步的数据分析和约简作准备[8].
数据挖掘模块首先利用粗糙集理论中的属性约简算法对数据采集模块提交的数据进行预处理,
去除冗余属性,再运用决策树ID3算法对预处理得
84