一种基于变长指令序列与粗糙集属性约简的恶意代码检测技术
一种改进的基于粗糙集的启发式值约简算法

作者简 介: 金海波 (9 0一)男 , 18 , 硕士 , 助教 , 主要研究方 向是数据挖掘。
l2 8
太
原
科
技
大
Байду номын сангаас
学
学
报
21 00芷
且恢复了所有的标记“ ” ? 为原属性值 , 但该记录仍
值)则把记录 的决策类别修改为最大 所对应的 , c决策类别 , 并且将记录 中所有属性标记“ ” ? 改为
第3 卷 第 3 1 期
21 0 0年 6月
太
原
科
技 大
学
学
报
V 1 1 N ・ o 3 o3 .
J n 2 1 u.00
J U N L O A Y A N V R IY O .C E C N E H O O Y O R A FT I U N U I E ST F S I N E A D T C N L G
支持度统计度量 , 生成 了不同置信度 水平 下的决策规 则集 , 并设计 了基 于规 则集 的分类 算法。对 Mok n
数据集 的对 比实验表明 , 算法是有效的。 该 关键词 : 粗糙 集; 值约简 ; 决策规 则; 分类算法 中图分类号 :P 8 T 1 文献标志码 : A
粗糙 集理论 是波 兰 学 者 Pwa Z于 18 alk・ 92年 提 出 的一 种 处 理模 糊 性 和 不 确定 性 问题 的数 学 理 论… , 可用 于数据 分析 。约 简 是 粗糙 集 理 论 的研 究 内容 之一 , 它是在 保持 信 息 系统 分 类 能 力 不 变 的前 提下 , 除冗余 的 属 性 和 属 性 值 , 取 简 洁 的决 策 删 获
外一 条记 录 ; 则删 除本 记 录 。 否 对 上 述算法 进行 分 析 , 到 如下 的改进 思路 : 得
基于属性重要性的粗糙集属性约简方法

基于属性重要性的粗糙集属性约简方法廖启明;龙鹏飞【摘要】Attribute reduction in information system is an important step during knowledge acquisition using Rough set. This paper focuses on the research of feature selection, deleting superfluous attributes in an information system. The new algorithm begins with the attribute significance, adopting iterative feature selection standard, making the selected feature attribute set get smaller, thus it acquires the reduction of information system. The experiment demonstrates that this method is feasible and effective.% 信息系统中的属性约简是粗糙集知识发现的一个重要步骤。
致力于研究一个信息系统中的特征选择、删除冗余属性。
新的算法从属性重要性出发,采用迭代特征选择的标准,使得选择特征属性集不断缩小,获得信息系统的约简。
通过实验证明该方法可行,有效。
【期刊名称】《计算机工程与应用》【年(卷),期】2013(000)015【总页数】3页(P130-132)【关键词】信息系统;属性重要性;属性约简;核属性【作者】廖启明;龙鹏飞【作者单位】长沙理工大学计算机与通信工程学院,长沙 410114;长沙理工大学计算机与通信工程学院,长沙 410114【正文语种】中文【中图分类】TP311粗糙集理论[1]是由波兰数学家Z.Pawlak在1982年提出的,该理论是一种刻画不完整性和不确定性的数学工具,能有效地分析和处理不精确、不一致、不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律。
基于基因表达式编程和粗糙集的属性约简分类方法

基于基因表达式编程和粗糙集的属性约简分类方法
陈维岩;徐上
【期刊名称】《科技创新与生产力》
【年(卷),期】2009(180)001
【摘要】属性约简分类是粗糙集在数据挖掘中一个重要的研究方向.其大多数研究是基于小规模空间信息系统;基因表达式编程是一种新出现的进化算法,具有高度并行、极强的函数挖掘的特点.提出了将粗糙集中的充要强度作为GEP的适应度函数,创建一种新的属性约简分类算法,以减少粗糙集在大规模知识库中知识约简的复杂程度,加快收敛速度.
【总页数】2页(P49-50)
【作者】陈维岩;徐上
【作者单位】辽宁工业大学,辽宁,锦州,121001;辽宁工业大学,辽宁,锦州,121001【正文语种】中文
【中图分类】TP311
【相关文献】
1.变精度粗糙集与粗糙集属性约简特征比较 [J], 梁俊奇
2.基于基因表达式编程的遥感影像分类方法研究 [J], 刘萌伟;曾广鸿;袁国辉;裴亚波;杨子力
3.变精度粗糙集与粗糙集属性约简特征比较 [J], 梁俊奇
4.基于基因表达式编程的粗糙集属性约简研究 [J], 胡卉颖;钟智;元昌安;陆建波;袁
晖
5.基于属性约简的自采样集成分类方法 [J], 李朋飞;于洪
因版权原因,仅展示原文概要,查看原文内容请购买。
基于粗糙集特征约减的网络异常检测方法_赵爱军

摘要:讨论了基于粗糙集特征约简的SVM (支持向量机)异常检测方法,对源自KDD99的实验数据集分别采用SVM 和特征约减后SVM 进行仿真实验,依据实验结果的比较,说明在网络异常检测中基于特征约减后的SVM 和直接采用SVM 相比,在保持检测精度不显著降低的同时,前者能够有效的缩短训练时间.关键词:粗糙集;特征约减;支持向量机;异常检测中图分类号:TP311文献标志码:A文章编号:1671-6191(2010)01-0026-040引言如今,随着网络应用的增长,网络应用已经深入到千家万户,网络安全也受到巨大的威胁.入侵检测技术作为防火墙后的第二道安全闸门,在网络安全系统中发挥着巨大的作用.入侵检测可以分为误用检测和异常检测两种类型.误用检测可以检测出已知的攻击行为,但是对于新的攻击行为无能为力,而异常检测可以通过检测模型检测出新的攻击类型,因此在入侵检测中得到了高度的重视.常用的异常检测方法包括数据挖掘方法[1],人工神经网络方法[2]等.支持向量机[3](Support Vector Machine ,SVM ),作为一种特殊的神经网络分支,是一种全新的机器学习方法,是统计学习理论中最年轻、最实用的内容,目前已广泛应用于模式识别、回归估计、函数逼近和密度估计等方面.近年来基于SVM 的网络异常检测算法已屡见不鲜.异常检测系统从网络关键链路收集信息进行分析、判断和决策,其所得原始信息通常高达几十维甚至上百维,直接基于此原始信息的检测判别伴随的是可观的计算开销,因此能高效精简或提炼原始信息的方法就不可或缺了.粗糙集理论[4]的特征约减方法就是其中的一种.本文讨论粗糙集特征约减优化给SVM 异常检测算法带来的性能提升,仿真实验验证了本方法的有效性.1粗糙集与知识表达系统1.1知识表达系统定义1知识表达系统是一个四元组,可定义为S =<U ,RA ,V ,f >,其中U 是非空有限对象集,称为论域,R =C ∪D 属性的非空有限集合,子集C 和D 分别称为条件属性集和结果属性集;V =ni =1Σ坠V r 是属性r 的值域;f :U ×R →V 是一个信息函数,它为每一个对象的每个属性赋予一个信息值.决策表是一类特殊的知识表达系统S =<U ,R ,V ,f >.其中R =C ∪D 为非空属性集合,子集C 和D 分别称为条件属性集和结果属性集,具有条件属性和决策属性的知识表达系统称为决策表.1.2决策表离散化由于在处理决策表时,决策表中的数据值的表达必须为离散化的值,所以在处理决策表前必须对决基于粗糙集特征约减的网络异常检测方法赵爱军,谢林柏(江南大学通信与控制工程学院,无锡214122)收稿日期:2009-12-31作者简介:赵爱军(1975-),男,江苏扬州人,江南大学通信与控制工程学院硕士研究生,研究方向为控制工程与网络安全。
一种高效的粗糙集属性约简算法

定义 3N对正区域【 设 U为一个论域 , 、 ( , P Q为定义在
u上 的两个等价关系簇 , Pi域记为 P S ( ) Q的 E O eQ , 并定义为 :
P S ( =u 0 e Q) ( ( 。 ) )
Se 2 C l递归函数 G t t oe U 1计算 C r; t :a p l e r r( , ) AtC oe
fc ( ∈C r) e tr oet nr un h e
e e
作者简介: 肖大伟 (9 4 9 ) 男, 18 . 一 , 硕士 , 0 主要研 究方向为数据挖掘。
s IN E& T c N。 。 YV s N 科技视界 l 1 cE c E H L G 。 1 2
()即 ID() { ,)xY ∈ x , (()6y)显然, B , N B = ( yl ,) U U v 6 = ()} (
不分 明关系是一种 等价关系 。
对于每个子集
cz ( ≤ ≤ 。设 R C ( ,D D) 1 ) () 1 ) = /c}P . ( ( ≤ ≤ 为子决策 s
F nt n e t oe (e O , t) u ci G t r r St Si k o AtC n
k lo s<1 t nrtr oe < rol ) e unC r。 I  ̄ h e
定义 4 必要属性Ⅲ 设 U为一个论域 , 、 ( ) 尸 Q为定义在 u 上的两个等价关 系簇 , 于 P中 的任一属 性 r若 P S ( ) 对 , O Q=
该算法在保证约简质量的情况下 , 大的提高属性约简的效率 , 较 实验仿真结果说 明 了该 算法的 高效性。
【 关键词 】 集; 粗糙 属性核 ; 属性约简 ; ; 递归 贪心算法
基于粗糙集的属性约简算法

} 。
…
3
的上 近似 集 B ) 根据 知识 判定 可 能属 ( , 于 的 中的对象 组成 的集合 B X)= { ∈ Ul ( X B( " X ≠ } X)I 1 。
定义 3 正域
收 稿 日期 :0 l 3 1 2 1 - —l 0 基 金项 目 : 国家 自然 科 学 基 金 资 助 项 目( 07 0 9 6543 )
D c u D =Q, = ) ( Cn D 两个不同的集合。 概念 2 完备信息系统与不完备信息系统 在决 策信息系统 D S=< , uD, , UC VP>中, 中每个对
1 2 基本 定义 .
L )= { ( Y∈ UI( Y ,)∈ L , } L = { ∈ UI ( X L ) } , L = { ∈ UJ ( X )n ≠ } 。
() 2 () 3 () 4
定义 1 不可 分辨 关 系
限制容 差关 系具 有 自反 性 和对 称性 , 是不 具 但 有 传递 性 。
步骤 有的约简属性集都包含的不可省略属性 的集合 , 记 为 C R P)=n R D( O E( E P)。
步骤 7 将 R d e 集里的属性与 c集合里剩余的
属性 分别结 合 。 步骤 8 采 用组合 属性 , 复步骤 2 ~6 重 。 步骤 9 从 R d的尾部 开 始 , 后 往前 对 每 个 e 从
2 2 知 识约 简算法 .
q }I D B 是一个等价关系。 )。 ( ) N 由这种等价关 系导
出 的对 的划 分记 为 U ID( , 中包 含样本 的 /N B)其 等价类 记 为 [ ] 。
恶意代码防治
3.面向恶意代码检测的软件可信验证
思路: ISO/IEC15408标准和可信计算组织(Trusted
Computing Group)将可信定义为:一个可信的 组件、操作或过程的行为在任意操作条件下是可预 测的,并能很好地抵抗应用软件、病毒以及一定的 物理干扰造成的破坏。 从可信软件这样一个更宏观的角度探讨恶意代码的 防范问题。
特征可信验证
身份可信验证
Feature
Identity
软件可信验证
模型FICE
环境可信验证
能力可信验证
Environment
Capability
28
3.面向恶意代码检测的软件可信验证
代码签名技术可以用来进行代码来源(身份)可信 性的判断,即通过软件附带的数字证书进行合法性 、完整性的验证,以免受恶意软件的侵害。
绝服务攻击上,而木马更多体现在秘密窃取用户信息上。
1.恶意代码机理分析
(3)木马: 木马的基本结构及工作机制结构
• 用木马进行网络入侵大致可分为6个步骤:配置木 马、传播木马、运行木马、信息反馈、建立连接 和远程控制。
1.恶意代码机理分析
(4)后门: 后门(Backdoor)的概念
特征可信验证
身份可信验证
Feature
Identity
软件可信验证
模型FICE
环境可信验证
能力可信验证
Environment
Capability
27
3.面向恶意代码检测的软件可信验证
传统的基于身份的信任机制主要提供面向同一组织 或管理域的授权认证。如PKI和PMI等技术依赖于全 局命名体系和集中可信权威,对于解决单域环境的 安全可信问题具有良好效果。然而,随着软件应用 向开放和跨组织的方向发展,如何在不可确知系统 边界的前提下实现有效的身份认证,如何对跨组织 和管理域的协同提供身份可信保障已成为新的问题 。因此,代码签名技术应运而生。
一种基于变长指令序列与粗糙集属性约简的恶意代码检测技术
一种基于变长指令序列与粗糙集属性约简的恶意代码检测技术【摘要】针对定长的指令序列特征维数过高且存在分割特征的问题,本文提出了一种基于变长指令序列与粗糙集属性约简的恶意代码检测技术,采用变长的指令序列可以有效解决特征分割的问题,同时为了有效降低特征规模,只考虑常用的13个指令所构成的指令序列,然后利用粗糙集理论进行冗余特征约简,实验最终获得特征维数非常低并且相对定长的指令序列而言,其分类精度更高,漏报率更低。
【关键词】变长指令序列;粗糙集属性约简;数据挖掘;恶意代码检测0 引言随着计算机的普及和Internet的发展,各种类型的恶意代码,如木马、蠕虫、病毒、僵尸程序等出现和传播的速度与周期也越来越快,根据国家互联网应急中心的7月底安全周报显示[1],国内感染恶意代码的主机数量达到了64.9万,被篡改的网站达到了5875,恶意代码的防范形式非常的严峻。
传统的恶意代码检测技术主要有基于特征码的检测方法与启发式的检测方法,基于特征码的检测方法过于依赖特征库,无法检测出未知恶意代码;启发的检测方法又过于依赖专家的经验,检测效率低且容易误报,因此亟需一种新的恶意代码检测技术,解决传统检测技术的缺陷,基于数据挖掘的检测技术属于其中之一,该技术相对传统的检测技术而言,具有快速、智能化的特点,无须依赖专家经验并且对未知恶意代码具有很好的检测能力。
本文在研究当前基于数据挖掘的恶意代码检测技术基础之上,提出了一种基于变长指令序列与粗糙集属性约简的恶意代码检测技术。
1 相关工作首次将数据挖掘技术应用到恶意代码检测中的学者当属Schultz[2],他利用从PE文件中获得的字符串序列、字节序列、导入表中API调用函数作为特征,利用PIPPER、朴素贝叶斯、多重朴素贝叶斯算法进行分类学习,在实验数据集上取得了很高的检测精度,远高于当时的商业防病毒软件。
沿着Schultz的开拓性工作,基于数据挖掘的恶意代码检测技术成为恶意代码检测领域研究的热点,研究的重点主要集中在两个方面:(1)特征的表示与选择;(2)分类算法的选择。
基于粗糙集的属性约简方法在指标筛选中的应用
基于粗糙集的属性约简方法在指标筛选中的应用张朝阳;赵涛;王春红【摘要】建立一套科学、系统的指标体系是进行综合评价的重要前提.从目前来看,指标体系的建立和筛选尚没有统一规范的标准和方法.传统评价方法主观性强,客观性差;统计方法需要大量的样本,而且很多时候大量的样本是不可获得的.文章提出基于粗糙集的指标约简方法,并以企业产品创新能力评价指标约简为例进行验证,得出该方法的应用特点和优势.【期刊名称】《科技管理研究》【年(卷),期】2009(029)001【总页数】3页(P78-79,85)【关键词】粗糙集;属性约简;指标筛选;产品创新【作者】张朝阳;赵涛;王春红【作者单位】天津大学,管理学院,天津,300072;天津大学,管理学院,天津,300072;天津大学,管理学院,天津,300072【正文语种】中文【中图分类】F272.5综合评价是管理学的热点、难点问题之一。
所谓综合评价(comprehensive evaluation),是指对以多属性体系结构描述的对象作出全局性、整体性的评价。
综合评价的前提是确定评价指标体系,即采用哪些指标进行综合评价。
由于影响评价有效性的因素很多,评价的对象系统也往往是社会、经济、科技、教育、环境和管理等一些复杂系统,但并非评价指标越多越好,关键在于所选评价指标是否恰当。
指标的遗漏会影响评价结果,指标间信息的重迭一般会夸大评价结果,这些都会导致人们对多指标综合评价的必要性、准确性产生怀疑。
问题是如何通过科学的指标筛选来保证综合评价结果的可靠性[1]。
从目前的情况来看,指标体系的建立和筛选尚没有统一规范的标准和方法,大多数学者根据自己的经验,按照一定原则确定指标体系,主观性强,容易出现偏差。
采用德尔菲法、层次分析法、模糊评价法等方法也同样很难避免主观性带来的弊端;应用主成分分析、后向回归分析等统计方法则需要大量的样本,而很多时候大量的样本是不可获得的。
本文提出基于粗糙集的指标约简方法,并以企业产品创新能力评价指标约简为例进行验证。
粗糙集属性约简在入侵检测系统中的应用
中图分类号 :P 7 .2 T 2 1 8
文献标识码 : A
文章 编号 : 0 4 8 (0 0 0 0 4 0 1 8- 6 1 2 1 )2— 0 7— 3 0
近年来 , 算 机 和 网 络 基 础 设 施 , 别 是 各种 计 特 官方机 构 的 网站 , 断受 到 黑 客 的 攻 击 , 种 人 侵 不 各 事件层 出不穷. 一些传统 的网络安全技术 , 如访 问 控制 机制 、 密 、 火 墙 等 已不 能 满 足 网络 安 全 的 加 防 要求 , 逐 渐 成 熟 起 来 的入 侵 检 测 系 统 (nrs n 而 It i uo D t tnSs m, ee i yt 简称 为 IS 则 为 我们 提 供 了又 一 co e D) 重保 障. 数据 挖 掘 在 人 侵 检 测 中 的应 用 , 旨在 对 海 量 的安 全审计 数据进 行 智 能 化处 理 , 图从 大 量数 试 据 中提 取人们 感兴趣 的数 据 信 息 , 与安 全 相 关 的 及 系统特 征 属 性 , 立 基 于 数 据 挖 掘 的 入 侵 检 测 模 建 型 , 括数据 源选 择 、 据 预 处 理 、 法 选 择 、 建 包 数 算 创 数据 挖 掘 模 型、 掘 结 果 分 析 处 理 及 其 可 视 挖 化等 , . 由于入侵检 测 系统 采 集 的数 据 量 是 巨大 的 , 因 此对采集 的数 据 采 用 分 等 级 多 次 抽 样 的方 法 获取 信息 系统 表 . 粗糙 集 理 论作 为一 种 新 的数 据 挖 掘工 具, 在处理 不 确 定 性 知 识 方 面有 着 突 出 的 优 势 . 用 粗 集理论 的属 性 约 简 方 法 对 样 本 信 息 系 统 进 行 预 处 理 , 除冗 余 的属 性 , 而 得 到 入 侵 检 测 数 据 的 删 从 决 策规则 , 进而判 断流 经 网络 的数 据包 的安全 与否 .
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
S c 科 i e n c e & 技 T e c h 视 n o l o g y 界 V i s i o n
科技
・
探索・ 争鸣
一
种基于变长指令序列与粗糙集属性约简的 恶意代码检测技术
冯 本慧 ( 湖 南工 学院 , 湖南 衡 阳 4 2 1 0 0 2 )
【 摘 要】 针 对定长的指令序 列特征 维数过 高且存在分割特征 的问题 。 本文提 出了一种基于变长指令序 列与粗糙集属性约 简的恶意代码检 测技 术 , 采用变长的指令序 列可以有效 解决特征 分割 的问题 , 同时为了有效 降低特征规模 , 只考虑常用的 1 3 个指令所构成 的指令序列. 然后利 用粗糙 集理论进 行冗余 特征 约简, 实验 最终获得特征 维数非 常低并且相对定 长的指令序列而言 . 其分类精度 更高. 漏报 率更低 【 关键词 】 变长指令序 列; 粗糙 集属性 约简; 数据挖掘 ; 恶意代码检测
ቤተ መጻሕፍቲ ባይዱ
【 K e y w o r d s ] V a r i b l e - l e n g t h O p c o d e ; R o u g h s e t a t t r i b u t e r e d u c t i o n ; D a t a m i n i n g ; M a l w a r e d e t e c t i o n 0 引 言
随着 计算机 的普及和 I n t e r n e t 的发展 .各种类 型的恶意代码 . 如 木 马、 蠕虫 、 病毒 、 僵尸程 序等出现和传播 的速度与周期 也越来越快 , 根据国家互联 网应急 中心的 7 月底安全周 报显示[ 1 ] . 国内感染恶 意代 码 的主机数量达 到了 6 4 . 9 万. 被篡改 的网站达到 了 5 8 7 5 . 恶意代 码的 防范形式非常 的严峻 传统 的恶意代码检测技术 主要有基于 特征码 的检测 方法与启发 式 的检测方 法 . 基于特征码 的检测 方法过 于依 赖特征库 . 无法检测 出 未知 恶意代 码 : 启发 的检测方法 又过于依赖专 家的经验 . 检测效率低 且容 易误 报 . 因此亟需一种新 的恶意代码检测 技术 . 解决 传统检测技 术 的缺陷 . 基于数据挖掘 的检测 技术属于其 中之一 . 该技 术相对传统 的检测技术而言 , 具有快速 、 智能化的特点 , 无须依赖专家经验并且对 未知恶意代码具有很好 的检测能力 本文在研究 当前基 于数据挖掘 的 恶意代码检测技术基础之上 . 提出了一种基于变长指令序列与粗糙集 属性约简的恶意代码检测技术 法具有很好的检测迷 惑代码 的能力
Ma l wa r e De t e c t i o n Te c hn i q u e s Ba s e o n Va r i a bl e - - Le n g t h Op e o d e S e q u e n c s e a n d Ro u g h Se t At t r i b ut e Re d u c io t n
t e c h n i q ue s b a s e o n v a r i a b l e -l e n g t h Op e o d e s e q u e nc e s a n d r o u g h s e t a t t r i b u t e r e d u c t i o n t h e o r y , u s i n g v a i a b l e — l e n g t h Op c o d e s e q u e n c e s c a n e f f e c t i v e l y s o l v e t h e p r o b l e m o f s e p a r a t i o n f e a t u r e s ,a n d i n o r d e r t o e f f e c t i v e l y r e d u c e t h e s c a l e f o f e a t u r e s ,we o n l y c o n s i d e r t he Op c o d e s e q u e n c e s wh i c h c o mp o s e d o f t h e c o mmo n l y us e d 1 3 i n s t r uc t i o n ,a f t e r wa rd s we us e r o u g h s e t t h e o r y t o r e d u c t i t s ,a t l a s t we g e t t h e f e a t u r e s d i me n s i o n i s v e r y l o w a n d
FENG Be n - hu i
( Hu n a n I n s t i t u t e o f T e c h n o l o g y ,He n g y a n g Hu n a n 4 2 l 0 0 2 , C h i n a )
【 A b s t r a c t ] I n o r d e r t o s o l v e t h e p r o b l e m s o f i n c r e a s e a n d s e p a r a t i o n f e a t u r e s i n i f x e d — l e n g t h O p c o d e s e q u e n c e s , w e p r o p o s e a m a l w a r e d e t e c t i o n
c o n t r a s t t o ix f e d — l e n g t h s e q u e nc e o f i n s t uc r t i o n s ,we g e t t h hi g h e r c l a s s i ic f a t i o n a c c u r a c y ,a n d f a l s e n e g a t i v e r a t e i s l o we r f r o m e x p e r i me n t s u l t i ma te l y .