基于内容的信息安全过滤技术

合集下载

基于内容过滤的防火墙设计与实现

网络通信重定向问题；标Ｉ目Ｐ地址过滤模块主要负
责对用户提出的ＨＦＴＰ请求的目标地址进行安全检测；内容过滤模块主要负责在接收远程ｗｗ服务器ｗ返回的数据时进行安全内容过滤；全日志模块主安要负责对防火墙的每一项代理做记录，括Ｅ志文包ｔ
通信，采用过滤数据包、问控制、访禁用非法访问、
记录网络活动、测和报警等技术手段，达到防检以
Ａｃｅｔ— ｎｕｇ：ｈｎｃｐ —Ｌａｇａｅｚ－ｃ
ＡｃｅｔＥｃｄｎ：ｚｐｄｆｔｃｐ — ｎｏｉｇｇｉ，ｅａｅｌ
了当前计算机网络面临的安全问题和防火墙技术，在此基础上，内容过滤技术引入防火墙的设计中，将最后探讨了
防火墙的设计方案和实现方法。
关键词：计算机技术；网络安全；防火墙；内容过滤
中图分类号：Ｐ９．Ｔ３３０８文献标识码：Ａ文章编号：０８８８（０１０ — ０３０１０ — ８１２１）４０９ — ３
用在应用层，其特点是完全阻隔了网络通信流，通过对每种应用服务编制专门的代理程序，现监视实和控制应用层通信流的作用。其优点是屏蔽网络内部结构、功能更丰富，点是开发的工作量较大。缺
１网络安全和防火墙技术
理服务器连接 ” 当局域网中一台工作站指定了该，

基于内容的IP包过滤实现技术

ＤｅｖｉｃｅＤｒｉｖｅｒ）是ＷＩＮ９Ｘ操作系统Ｉｎｔｅｌ平台上的虚
拟设备驱动程序机制，是用来扩展ＷＩＮ９Ｘ操作系统功
能的一类程序，具有最高Ｒｉｎｇ０特权。ＷＩＮ９Ｘ操作系
加入Ｗｉｎｄｏｗｓ９８中，因此，遵守ＷＤＭ规范模式的设
提供有专门的ＩＰ过滤驱动程序（ＩＰＦｉｌｔｅｒＤｒｉｖｅｒ），可以在用户模式下调用包过滤函数（ＰａｃｋｅｔＦｉｌｔｅｒｉｎｇ
ＷＤＭ资料参考ＤＫＫ文档）设备驱动程序位于内核态，没有Ｗｉｎｄｏｗｓ消息机制，层次化的驱动程序的上下层之间、ＷＩＮ３２应用程序和设
ＨＯ０ｋ驱动程序可以钩挂到ＩＰＦｉｌｔｅｒ，读取ＩＰ
ＩＰ包过滤功能模块是以网络驱动程序的方式实现，然
而不同版本的Ｗｉｎｄｏｗｓ操作系统有不同的设备驱动程序
编制方法，有ＷＩＮ９Ｘ的ＶｘＤ方式、ＷＩＮＮＴ驱动程
序模式、ＷＩＮ２００ｘ与ＷＩＮ９８的ＷＤＭ模式。ＶｘＤ（Ｖｉｒｔｕａｌ
部分是实现包过滤功能的模块，位于内核态，以网络驱
动程序的形式编写，它从网络协议栈中读取ＩＰ包，与特征信息匹配比较，决定ＩＰ包的取舍；另一部分是配置界面部分，负责建立用户的配置界面，与用户交互，属于

信息安全基础知识笔记04防火墙应用层报文过滤ASPF

信息安全基础知识笔记04防⽕墙应⽤层报⽂过滤ASPF信息安全基础知识笔记04防⽕墙应⽤层报⽂过滤ASPF 上⼀节笔记已经介绍了防⽕墙在模拟器软件eNSP拓扑搭建的基本⽅法，区域间转发策略的配置以及如何查看会话表，以后的实验均会在其基础上进⾏。

本节笔记主要介绍防⽕墙的⼀种⾼级通信过滤机制 -- 应⽤层报⽂过滤ASPF。

这是针对应⽤层的包过滤技术，即基于状态的报⽂过滤。

最后再简单阐述防⽕墙的分⽚缓存，长连接的概念。

多通道协议技术在理解ASPF技术前，⾸先我们需要知道什么叫多通道协议技术。

单通道协议技术：通信过程中只需占⽤⼀个端⼝的协议。

如：WWW只需占⽤80端⼝。

多通道协议技术：通信过程中需占⽤两个或两个以上端⼝的协议。

如+FTP被动模式下需占⽤21号端⼝以及⼀个随机端⼝。

⼤部分多媒体应⽤协议（如H.323、SIP）、FTP、netmeeting等协议使⽤约定的固定端⼝来初始化⼀个控制连接，再动态的选择端⼝⽤于数据传输。

端⼝的选择是不可预测的，其中的某些应⽤甚⾄可能要同时⽤到多个端⼝。

我们⽤⽂件传输协议（FTP）来举个例⼦，简单介绍⼀下这个应⽤层协议的实现原理。

FTP有主动连接（PORT）和被动连接（PASV）两种⼯作⽅式。

⾸先，两种⽅式默认都是通过TCP 21端⼝来进⾏控制连接的。

即建⽴⼀条传输命令的通道，该连接⽤于下达对⽂件进⾏上传，下载等操作命令。

建⽴控制连接后，需要再建⽴⼀条⽤于传输数据的通道，⽽建⽴的⽅式分为主动和被动两种。

主动⽅式（PORT）即客户端打开⼀个随机端⼝（x），并将该端⼝告知服务器端，最后由服务器端（使⽤端⼝TCP 20）向客户端发起数据连接。

被动⽅式（PASV）即服务器端打开⼀个随机端⼝（⼤于TCP 1024），并将该端⼝告知客户端，最后由客户端向服务器端发起数据连接。

假设现在内⽹中有⼀台主机（Trust区域）希望通过防⽕墙访问外⽹的FTP服务器（Untrust区域），防⽕墙上只配置了⼀条允许Trust区域访问Untrust区域（出⽅向）的安全策略。

网络信息过滤技术

对比

可以注意到基于内容的信息过滤和基于合作的信息过滤（协同过滤）的相同点都是要计算两个物品的相似度，但不同点是前者是根据物品的内容相似度来做推荐，给物品内容建模的方法很多，最著名的是向量空间模型，要计算两个向量的相似度。而后者根据两个物品被越多的人同时喜欢，这两个物品就越相似。由此可以看到两种方法的不同点在于计算两个物品的相似度方法不同，一个根据外界环境计算，一个根据内容计算。
组长：刘伟
1221330048
ห้องสมุดไป่ตู้
组员：史波 1221330053 张旭 1221330056
伍思同 1221330068
目录
基本信息与发展历史
——刘伟网络信息过滤技术方法 ——史波网络信息过滤技术应用 ——伍思同现状分析及发展趋势 ——张旭
互联网的飞速发展在给人们的工作、生活、学习等诸多方面带来巨大便利的同时也带来诸如“信息超载”以及“不良信息”和垃圾信息的侵害等问题。信息过滤技术由此产生，并广泛应用到了网络的各种信息处理过程中，对网络信息实用化具有极大的推动作用。

基于合作的过滤优缺点

优点：协作过滤系统利用用户之间的相似性来推荐信息, 它能够为用户发现新的感兴趣的内容,其关键问题是用户聚类。并且能为用户发现新的感兴趣的信息。

缺点：需要用户的参与。稀疏性问题,在系统使用初期,由于系统资源还未获取足够的信息,系统很难利用这些信息来发现相似的用户。另一缺陷是系统可扩展性,即随着系统用户和信息资源的增多,系统的性能会下降。
信息过滤依据的具体内容过滤
首先分级体系，网页的分级也像电影、电视的分级一样必须按照一定的标准进行,这个标准就是分级体系。分级体系是对网络信息内容进行分级的依据,它规定了分级的类目、子类目或者类目的级别和分级的具体方法,实质上就是一种网络信息内容分类法。

11.网络有害信息的发现和过滤技术手段

网络有害信息的发现和过滤技术手段互联网的快速发展使得人们可以很方便的获得各种信息，与此同时，抵御互联网的反动、淫秽或色情等有害信息的思想文化渗透成了一个迫切需要解决的问题。

互联网上主要有两类有害信息：一类是反动、色情、迷信、谩骂和机密等有碍社会公德和不便公开的信息；另一类是会影响互联网本身和用户计算机安全的不良代码，如特殊控制、计算机病毒等。

网络有害信息的发现机制主要有主动发现和被动防御两种方式。

主动发现的方式主要有基于搜索引擎的有害信息主动监测，被动防御的方式以网络内容过滤为主。

1.基于搜索引擎的有害信息主动监测技术采用主动扫描探测方法进行有害信息监控的系统，首先要设计网络蜘蛛模块，实现对html、aspx等网页的自动抓取，采用算法实现中文分词，开发信息索引模块，实现对网页的批量和增量索引，并且包含有害信息检索模块,实现有害信息监控及预警功能。

搜索引擎，概括起来其组成大致分为四个部分：(1)搜索器。

主要完成互联网上获取网页和链接结构信息进行分析处理；(2)索引器。

理解搜索器所搜索的信息，从中抽取出索引项，用于表示文档以及生成文档库的索引表，为用户检索奠定基础。

索引器可以使用集中式索引算法或分布式索引算法，(3)检索器。

用户的查询在索引库中快速检出文档，进行文档与查询的相关度评价，对将要输出的结果进行排序，并实现某种用户相关性反馈机制。

(4)用户接口。

主要作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。

主要目的是方便用户使用搜索引擎，高效率和多方式地从搜索引擎中得到有效并且及时的信息。

2.内容过滤技术内容过滤技术一般包括名单过滤技术、关键词过滤技术、图像过滤技术、模版过滤技术和智能过滤技术等。

现阶段的内容过滤技术主要分为基于网关和基于代理两种，二者都不能解决的问题是对网络速度的负面影响。

而且因为是串行处理，如果网关和代理出现故障都会使网络不通。

目前过滤技术大多在网络处理的应用层实现，适应性和安全性较差。

基于内容的网络异常信息过滤

网络技术的迅速发展使人们对网络日益依赖，伴随着网络
成分，提取其中信息量最大的成分，并且利用一定的格式进行表示）模式匹配阶段（收格式化后的信息，、接根据规则数据库中的规则，按照某种相似度计算算法衡量信息与实际需求的相关性，在达到一定的阈值后，出到敏感信息集合中）信息表输、示阶段（提供对过滤后的敏感信息集合的管理、对过滤效果的评价以及用户对于敏感信息的反馈）。
ＡｂｔａｔＩｆｒｔｎｆｔｒｎＳａｍｐｒｎｏｕｉｎｔｅｗｒｏｔｎｅｕｔ．ＩｈｓＰｐｒｓｒｃ：ｎｏｍａｉｌｉｇｉｎｉｏｔｔｓｌｔｏｎｔｏｋｃｎｅｔｓｃｒｙｎｔｉａｅ，ｗｅａａｙｅｔｅｇｎｒｌｏｉｅａｏｉｎｌｚｈｅｅａ
ＷＵＱｎ— ｏＳＡｈ—ｉｇｉｇｔ，ＨＯＺｉｎａｑ
（ｅｔｆＣｍｕｅＳｉｅ＆ＥｎｉｅｉＥｓＣｉｎｖｒｉＳｉｃＤｐ．ｏｏｐｔｃｎｒｅｃｇｎｒｇ，ａｔｈｎＵｉｓｙｏｃｎｅ＆Ｔｃｎｌｇ，ｈｎｈｉ０２７ｈｎ）ｅｎａｅｔｆｅｅｈｏｙＳａｇａ２０３，Ｃｉｏａ
ｐｏｅｓｏｆｒｔｉｎｆｔｒｎｎｒｐｓｏｔｎ，ａｅｔｏｏｌｒｎｅｗｒｂｏａｎｏｍａｉｎｒｃｓｆｉｏａｏｌｉｇａｄｐｏｏｅａｃｎｅｔｓｄｍｅｈｄｆｒｆｔｉｇｎｔｏｋａｎｒｌｉｆｒｔ．Ｎｅｗｏｋｄｔｎｏｔｉｅｂｉｅｍｏｔｒａａ

基于内容过滤的内网防泄密系统的研究与实现

维普资讯
２０年第６期０７
计算机系统应用
基于内容过滤的内网防泄密系统的研究与实现
Ｒｓａｃｎｍｐｅｅｔｏｎｅｔ — ａｅｅｅｒｈａｄＩｌｍｎｆＣｏｔｎ — ｂｓｄ
中设备Ｂ主要作和数据相关的工作，包括一些网络访
文字作监控，且仅限于关键词匹配方式的监控，这种监
控方式相对于第一种方式来说，用户应用网络的影对响较小，但监控力度也大大减弱，特别是对于一些以电
问日志和加密的电子文档的存储，以及分级查阅功能，据用户的级别赋予其不同的访问权限。设备Ｂ根与设备Ａ独立连接，并且不能进行远程访问，这样可以防止存储在其上的数据被盗取。设备Ａ则内网与
关键词：内容过滤电子文档防泄密中文信息处理
１引言
随着信息技术的发展，各种先进的网络技术在给企事业单位带来了高效率的工作和管理方式的同时，
ｔｎＡｔ— ｅｋｇＡ，ｉｎｉＬａａｅｉＬＮ）详细介绍了它的设计方案ｏｎ和实现技术。ＣＬＩ以透明方式对进出网络的传输明文Ａ及电子文档进行监控，并运用中文信息处理技术对明
也容易产生网内机密外泄。为防止信息外泄，企事各业单位往往不惜花巨资购进防火墙、入侵检测、漏洞扫描等各种网络安全产品，但这些产品仅仅权对
文及电子文档的内容进行分析，一旦发现该信息涉密，立即阻止其传送，有效的阻止了内网的泄密同时也保

基于内容过滤的网络监控技术分析

为需要过滤的内容。
形式的信息。它的原理是：首先，伪造一个虚拟服务器，截获信
息并向发送者反馈信息发送成功的提示，然后对信息进行比对
分析，把不合格的信息过滤掉，把合格的信息发送到目的地以４图像内容分析的过滤技术所谓图像内容分析过滤技术是指，基于图像所显现的色达到过滤的效果。其次是信息的比对和分析。随着互联网的发纹理、形状以及图像内容的空间关系等显ｆ生特征作为索弓ｈ展，网络中出现了大量良莠不齐的内容，这些内容形式多样，再彩、利用图像的这些外观特征的相似度和匹配程度进行过滤的技加上汉语表达博大精深的特点，使得要判断监测内容是否是要过滤掉的不良信息非常困难 …。而且，网络信息数量庞大，这就术。图像内容分析过滤技术还被广泛地应用其他图像特征和语图像内容分析过滤技要就过滤技术既能准确的识别出要过滤的信息，又能快速高效义特征的图像内容进行判定。目前为止，从丰富而复杂的图像信息地完成这个过程。识别不良信息的方法也是各种过滤技术的区术的最主要研究手段就是机器学习，然而，很多时候计算机无法从海量的图别所在。目前国内外的过滤技术主要有四种：基于因特网内容中找到规律性的特征，分级平台过滤（ＰＩＣＳ）、数据库过滤、关键字过
控技术就显得非常重要，这对网络的建设和发展将会产生重大情况下它由匹配算法模型来决定。目前在实际操作中常用到的理论模型有向量空间模型和贝叶斯决策模型。向量空间决策模的影响。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

息的文章而导致整个网站被封，或者非法网站可以通过改变ＩＰ地址，使之能够在一定时期内避免被过滤；二是基于关键词的过滤，但基于关键词的信息过滤技术，其漏报、错报率高。而且关键词是目前人们常使用的词，有些信息内容的发布者可能有意避开使用这些词，用其他的词替代，使得基于关键词的信息过滤机制不能识别。因此，基于内容的信息过滤是信息过滤技术的主要研究方向。
集文本中每个词的权值，权值大的词比权值小的词更能
反映文本内容。最后可根据需要提取特征词的数量，设置
一定的门限值，将权值高于所设门限值的词作为特征词，
加入特征词典中。特征词典将作为文本的属性词典，在文
模块中的特征阈值也可根据实际中对待分析文本的判断不断的修正，作为反馈，以提高过滤模块的准确率。或者可根据用户对信息的安全需求，增高或降低特征阈值，安全需求高可适当的降低特征阈值，反之矣然。如果特征阈值设置较低，那特征值大于特征阈值的文本数增多，被过滤掉的文本数量也增多，容易造成误判，但大大降低了漏判率，反之如果特征阈值设置较高，则不满足过滤需求的文本数增加，容易造成漏判，对一些带有反动或泄密信息的文本不能按需求过滤。因此特征阈值的选取是影响该基于内容的信息过滤模型准确率的关键因素。
最大匹配算法其基本过程大致如下：（１）从被处理文本中的起点取出不超过词典最大长度的汉字串作为匹配字段；（２）在词典中查找该匹配字段；（３）如果找到该匹配字段，则切分出一条词，设长度为ｎ，并后移ｎ个字作为下一次分词的起点，再转到步骤（１）；（４）如果未找到该匹配字段，则去除匹配字段的最后一个字，作为新的匹配字段，并转到步骤（２）；以上是正向最大匹配检索法。如果从被处理文本的尾部向前处理，匹配不成功时去除前面一个字，就是逆向最大匹配检索法。如果同时使用两种最大匹配检索法，就构成了双向最大匹配检索法。
征词典作为属性词典，以此来定义文本中各个词的属性因
子。将属性因子量化，加入特征值的计算中，将文本的统
计特征和知识特征结合起来。我们构造的文
本特征值计算函数如式（２）所示。
求的样本文本，得到它们的特征值后，在满足和不满足过滤需求的文本的特征值之间随机取值作为特征阈值。将得到的文本特征值与特征阈值比较，如特征值大于特征阈值，则该文本满足过滤要求，说明该文本含有与样本文本相关的不安全内容，如宣扬法轮功、台独的反动内容，或个人企业，国家机密项目中的泄密信息等，如特征值小于特征阈值，则说明该文本与需要过滤的内容无关，无需过滤。从而实现对文本的基于内容的信息过滤，保障了网络信息的安全。
计的角度得到的特征值，只考虑了词的词频和词长特征，
如果仅依据这两项特征对文本进行过滤分析，准确率较
低。因此我们加入属性因子，从知识的角度进一步分析文
本，以提高过滤分析的准确率。在该模型中，将构造的特
47 ＮｅｔｉｎｆｏＳｅｃｕｒｉｔｙ２００４．４
应用技术
可以提高系统的实时性，如决策树方法、Ｎａ？ｖｅＢａｙｅｓ、ｋＮＮ最近距离法、支持向量机等。基于知识的方法能更好的提高系统的准确率，如中国科学院声学研究所提出的语境框架模型，东北大学提出的ＦＩＦＡ算法等。
基于内容的信息过滤的理论基础主要是人工智能的理论和技术。目前基于内容的文本分析方法主要有基于统计、基于知识和二者结合的方法。基于统计的方法速度较快，
信息过滤的相关研究
信息过滤是通过监控信息源以找到满足用户需求的信息。在网络安全领域，其任务是从动态信息源中过滤掉在一段时期内比较固定的非需求信息。目前网络中的信息过滤主要有两种方法：一是依据ＩＰ地址或ＵＲＬ来判定是否需要过滤掉相应的内容，但这种方法会因为出现几篇含有不安全信
基于内容的信息过滤已是目前网络安全领域的一大急需解决的问题。本文介绍了目前主要的基于内容的分析技术及方法，并提出了一种基于内容的信息过滤模型，在基于统计的基础上，引入词的知识属性特征，该模型可以有效提高信息过滤的准确率。
基于内容的信息安全过滤技术
杨晓懿刘嘉勇
随着Ｉｎｔｅｒｎｅｔ的发展，网络上的信息浩如烟海，网络成了人们主要的信息来源。其作为传播工具，为人们提供了所需的信息资源，但它也可能被敌对势力所利用，成为传播反动言论和思想的武器。现在网络上除了人们需要的信息资源外，还充斥着大量的垃圾信息，如大肆宣传台独，法轮功等反动政治言论的信息，这不仅威胁到了国民安全，也给人们带来了很多不便，同时大量传播的黄色、黑色内容还侵蚀着国人的精神文明建设。如何防止这些不安全信息继续在网上传播，并保护个人隐私、企业机密资料、国家机密信息不被泄露，如何保护网络安全，防止网络成为反动势力可利用的工具，已成为了当今网络安全技术中的一大热门课题。而其最有效的解决途径是把内容识别和信息安全有机的结合起来，将基于内容的信息过滤应用于网络安全中。
图１：基于内容的信息过滤模型
文本的预处理模块网络中的信息资源大多是以超文本形式或其他形式存在，要对信息进行基于内容的分析首先需要对信息进行预处理，如去除ＨＴＭＬ标签等。其次，词是文本内容的最小单元，是反映文本内容的基本元素，因此基于内容的信息过滤首要工作是对文本进行分词处理。分词是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道，在英文的行文中，单词之间是以空格作为自然分界符的，而中文只是字、句和段可以通过明显的分界符来简单划界，唯独词没有一个形式上的分界符，因此中文比之英文分词要复杂的多、困难的
多。而分词的正确率是基于内容的信息过滤准确率的基础。现今的计算机自动分词系统所采用的基本方法主要包括以下几种：机械匹配法、特征词库法、约束矩阵法、语法分析法和理解切分法等。因为对网络信息的过滤还需要满足实时性要求，为了满足实时性的要求，一般不可能采用很复杂的分词技术，而且也没有必要一定要引入高正确率、大计算量的分词方法。综合考虑了正确率和实时性这两个因素，可采用最大匹配法来进行分词。
特征词典的构建不需要满足实时性要求，因此，特征词典
的构建可作为基于内容的信息过滤模块的前期工作。
我们先收集一部分含有不安全信息满足过滤要求的
文本作为样本文本，经过文本的预处理部分，对收集的文
档进行预处理和分词。内容过滤模型中，综合考虑了统计和知识两方面因素，在词频和词长的基础上，结合文本中词的属性特征，提高了过滤模型的准确率。下面是该模型的详细介绍：
基于内容的信息过滤模型基于内容的信息过滤模型的基本流程是，首先将含有不安全信息的样本文本，进行预处理，经过加权，计算出文本中词的权值，根据权值大小构造特征词典。其次，计算预先收集的满足和不满足过滤需求两类文本的特征值，根据两类特征值的差异设置过滤模块中的阈值。第三判断待分析文本的特征值是否超过阈值，进行相应的过滤处理。基于内容的信息过滤模型主要包括五个部分。一是文本的预处理；二是加权，计算出词的权值；三是构造的特征词典；四是文本特征生成器，计算出文本特征值；五是过滤模块。如图１所示：