基于内容的信息安全过滤技术

合集下载

基于内容过滤的防火墙设计与实现

基于内容过滤的防火墙设计与实现

网络通信重定 向问题 ; 标 I 目 P地址过滤模块 主要负
责对 用 户提 出 的 H F T P请求 的 目标 地址 进 行安 全检 测; 内容 过滤 模 块 主要负 责 在接 收 远程 w w服 务器 w 返 回的数 据 时进 行 安全 内容 过滤 ; 全 日志 模块 主 安 要 负 责对 防火 墙 的每一 项 代 理做 记 录 , 括 E志文 包 t
通信 , 采用过滤数据包 、 问控制 、 访 禁用非法访问 、
记 录 网络 活 动 、 测 和 报 警 等 技 术 手 段 , 达 到 防 检 以
Ac e t— n u g : h n c p —La g a e z -c
Ac e t E c d n : zp d f t c p — n o i g g i , e ae l
了当前计算 机网络面临的安全问题和防火墙技术 , 在此基础上 , 内容过 滤技术引入 防火墙的设计 中, 将 最后探讨 了
防火墙 的设计方案和实现方法。
关键词 : 计算机技术 ; 网络安全 ; 防火墙 ; 内容过滤
中图分类号 :P 9 . T 3 30 8 文献标识码 : A 文章编号 :0 8 8 8 ( 0 1 0 — 0 3 0 10 — 8 12 1 )4 0 9 — 3
用在 应 用 层 ,其 特 点是 完 全 阻 隔 了网 络通 信 流 , 通 过对 每 种 应用 服 务 编制 专 门 的代 理 程 序 , 现监 视 实 和控 制 应用层 通信 流 的作 用 。其 优点 是屏 蔽 网络 内 部结构 、 功能 更丰 富 , 点是 开发 的工作 量较 大 。 缺
1 网络 安全 和 防火墙 技术
理 服 务 器连 接 ” 当局 域 网 中一 台工 作 站指 定 了该 ,

基于内容的IP包过滤实现技术

基于内容的IP包过滤实现技术
D e v i c e D r i v e r )是 W I N 9 X 操 作 系统 I n t e l 平 台上 的虚
拟设 备 驱动 程 序机 制 ,是 用来 扩展 W I N 9 X操 作 系统 功
能 的一类 程序 ,具 有 最高 R i n g 0 特权 。W I N 9 X 操作 系
加 入 Wi n d o ws 9 8中 ,因此 ,遵 守 W DM 规范 模式 的设
提 供有 专 门的 I P过滤 驱动 程 序 ( I P F i l t e r D r i v e r ) ,可 以在 用 户 模 式 下 调 用 包 过 滤 函数 ( Pa c k e t Fi l t e r i n g
WD M 资料参 考 DKK 文 档 ) 设 备 驱动 程序 位于 内核 态 ,没 有 Wi n d o ws消息 机制 , 层 次化 的驱 动程 序 的 上下 层 之 间 、W I N3 2应 用 程序 和 设
H O 0 k驱动 程 序可 以钩 挂到 I P Fi l t e r ,读 取 I P
I P包过 滤功 能模块 是 以 网络驱 动程 序 的方式 实现 ,然
而不 同版本 的 W i n d o ws 操作 系统 有不 同的设备 驱动 程序
编 制 方法 ,有 W I N 9 X 的 VxD方式 、W I N NT驱 动程
序模式、 WI N2 0 0 x与 WI N 9 8 的 WD M 模式。 V x D( V i r t u a l
部 分是 实现 包过 滤功 能 的模 块 ,位于 内核 态 ,以 网络 驱
动程 序 的形 式 编 写 ,它从 网络 协 议 栈 中读 取 I P包 ,与特 征信 息 匹配 比较 ,决 定 I P包 的取 舍 ;另 一 部分 是 配置 界 面 部 分 ,负 责 建 立 用 户 的 配 置 界 面 ,与用 户 交互 ,属 于

信息安全基础知识笔记04防火墙应用层报文过滤ASPF

信息安全基础知识笔记04防火墙应用层报文过滤ASPF

信息安全基础知识笔记04防⽕墙应⽤层报⽂过滤ASPF信息安全基础知识笔记04防⽕墙应⽤层报⽂过滤ASPF 上⼀节笔记已经介绍了防⽕墙在模拟器软件eNSP拓扑搭建的基本⽅法,区域间转发策略的配置以及如何查看会话表,以后的实验均会在其基础上进⾏。

本节笔记主要介绍防⽕墙的⼀种⾼级通信过滤机制 -- 应⽤层报⽂过滤ASPF。

这是针对应⽤层的包过滤技术,即基于状态的报⽂过滤。

最后再简单阐述防⽕墙的分⽚缓存,长连接的概念。

多通道协议技术 在理解ASPF技术前,⾸先我们需要知道什么叫多通道协议技术。

单通道协议技术:通信过程中只需占⽤⼀个端⼝的协议。

如:WWW只需占⽤80端⼝。

多通道协议技术:通信过程中需占⽤两个或两个以上端⼝的协议。

如+FTP被动模式下需占⽤21号端⼝以及⼀个随机端⼝。

⼤部分多媒体应⽤协议(如H.323、SIP)、FTP、netmeeting等协议使⽤约定的固定端⼝来初始化⼀个控制连接,再动态的选择端⼝⽤于数据传输。

端⼝的选择是不可预测的,其中的某些应⽤甚⾄可能要同时⽤到多个端⼝。

我们⽤⽂件传输协议(FTP)来举个例⼦,简单介绍⼀下这个应⽤层协议的实现原理。

FTP有主动连接(PORT)和被动连接(PASV)两种⼯作⽅式。

⾸先,两种⽅式默认都是通过TCP 21端⼝来进⾏控制连接的。

即建⽴⼀条传输命令的通道,该连接⽤于下达对⽂件进⾏上传,下载等操作命令。

建⽴控制连接后,需要再建⽴⼀条⽤于传输数据的通道,⽽建⽴的⽅式分为主动和被动两种。

主动⽅式(PORT)即客户端打开⼀个随机端⼝(x),并将该端⼝告知服务器端,最后由服务器端(使⽤端⼝TCP 20)向客户端发起数据连接。

被动⽅式(PASV)即服务器端打开⼀个随机端⼝(⼤于TCP 1024),并将该端⼝告知客户端,最后由客户端向服务器端发起数据连接。

假设现在内⽹中有⼀台主机(Trust区域)希望通过防⽕墙访问外⽹的FTP服务器(Untrust区域),防⽕墙上只配置了⼀条允许Trust区域访问Untrust区域(出⽅向)的安全策略。

网络信息过滤技术

网络信息过滤技术

对比

可以注意到基于内容的信息过滤和基于合作的信息过滤 (协同过滤)的相同点都是要计算两个物品的相似度, 但不同点是前者是根据物品的内容相似度来做推荐,给 物品内容建模的方法很多,最著名的是向量空间模型, 要计算两个向量的相似度。而后者根据两个物品被越多 的人同时喜欢,这两个物品就越相似。 由此可以看到两种方法的不同点在于计算两个物品的相 似度方法不同,一个根据外界环境计算,一个根据内容 计算。
组长:刘伟
1221330048
ห้องสมุดไป่ตู้
组员:史波 1221330053 张旭 1221330056
伍思同 1221330068
目录
基本信息与发展历史
——刘伟 网络信息过滤技术方法 ——史波 网络信息过滤技术应用 ——伍思同 现状分析及发展趋势 ——张旭
互联网的飞速发展在给人们的工作、生活、 学习等诸多方面带来巨大便利的同时也带来 诸如“信息超载”以及“不良信息”和垃圾 信息的侵害等问题。信息过滤技术由此产生, 并广泛应用到了网络的各种信息处理过程中, 对网络信息实用化具有极大的推动作用。

基于合作的过滤优缺点

优点:协作过滤系统利用用户之间的相似性来推荐信息, 它能够为用户发现新的感兴趣的内容,其关键问题是用户 聚类。并且能为用户发现新的感兴趣的信息。

缺点:需要用户的参与。稀疏性问题,在系统使用初期,由 于系统资源还未获取足够的信息,系统很难利用这些信息 来发现相似的用户。另一缺陷是系统可扩展性,即随着系 统用户和信息资源的增多,系统的性能会下降。
信息过滤依据的具体内容过滤
首先分级体系,网页的分级也像电影、电视的分级一样 必须按照一定的标准进行,这个标准就是分级体系。分级 体系是对网络信息内容进行分级的依据,它规定了分级的 类目、子类目或者类目的级别和分级的具体方法,实质上 就是一种网络信息内容分类法。

11.网络有害信息的发现和过滤技术手段

11.网络有害信息的发现和过滤技术手段

网络有害信息的发现和过滤技术手段互联网的快速发展使得人们可以很方便的获得各种信息,与此同时,抵御互联网的反动、淫秽或色情等有害信息的思想文化渗透成了一个迫切需要解决的问题。

互联网上主要有两类有害信息:一类是反动、色情、迷信、谩骂和机密等有碍社会公德和不便公开的信息;另一类是会影响互联网本身和用户计算机安全的不良代码,如特殊控制、计算机病毒等。

网络有害信息的发现机制主要有主动发现和被动防御两种方式。

主动发现的方式主要有基于搜索引擎的有害信息主动监测,被动防御的方式以网络内容过滤为主。

1.基于搜索引擎的有害信息主动监测技术采用主动扫描探测方法进行有害信息监控的系统,首先要设计网络蜘蛛模块,实现对html、aspx等网页的自动抓取,采用算法实现中文分词,开发信息索引模块,实现对网页的批量和增量索引,并且包含有害信息检索模块,实现有害信息监控及预警功能。

搜索引擎,概括起来其组成大致分为四个部分:(1)搜索器。

主要完成互联网上获取网页和链接结构信息进行分析处理;(2)索引器。

理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表,为用户检索奠定基础。

索引器可以使用集中式索引算法或分布式索引算法,(3)检索器。

用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。

(4)用户接口。

主要作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。

主要目的是方便用户使用搜索引擎,高效率和多方式地从搜索引擎中得到有效并且及时的信息。

2.内容过滤技术内容过滤技术一般包括名单过滤技术、关键词过滤技术、图像过滤技术、模版过滤技术和智能过滤技术等。

现阶段的内容过滤技术主要分为基于网关和基于代理两种,二者都不能解决的问题是对网络速度的负面影响。

而且因为是串行处理,如果网关和代理出现故障都会使网络不通。

目前过滤技术大多在网络处理的应用层实现,适应性和安全性较差。

基于内容的网络异常信息过滤

基于内容的网络异常信息过滤

网络技术的迅速发展使 人们对网络 日益依赖 , 伴随着 网络
成分 , 提取其 中信息量 最大 的成分 , 并且 利用一定 的格 式进行 表示 ) 模式 匹配阶段 ( 收格式 化后 的信 息 , 、 接 根据规则 数据库 中的规则 , 按照某种相 似度计算算 法衡量信息与实 际需求 的相 关性 , 在达到一定 的阈值后 , 出到敏 感信 息集合 中 ) 信息 表 输 、 示 阶段 ( 提供对过滤后 的敏感 信息集 合 的管理 、 对过 滤效果 的 评价 以及 用户对于敏感信息 的反馈 ) 。
Ab t a t If r t n f trn S a mp r n o u in t ew r o t n e u t . I h sP p r s r c : no ma i l i g i n i o t ts l t o n t o k c n e ts c r y n t i a e ,we a ay e t e g n r l o i e a o i n lz h e e a
WU Qn— o S A h—ig igt , H O Z i n a q
( et fC m ue Si e& En i ei E s C i nvri Si c Dp.o o p t c n r e c gn r g, at hn U i syo c ne& Tcnlg , h n h i 0 2 7 hn ) e n a e tf e eh o y S a g a 2 0 3 ,C i o a
p oe so fr t in ftrn n rp s o tn, ae to o l rn ew r b o a nomain rc s fi o a o l i ga d p o oea c ne t sd meh d frf t ign t ok a n r lifr t .Newokd t n o t i e b i e m o t r aa

基于内容过滤的内网防泄密系统的研究与实现

基于内容过滤的内网防泄密系统的研究与实现
维普资讯
20 年 第 6 期 07
计 算 机 系 统 应 用
基 于 内容 过 滤 的 内网 防 泄 密 系统 的研 究 与 实 现
R s a c n m p e e to n e t — a e e e r h a d I l m n fCo t n — b s d
中设备 B主 要作和数 据相关 的工作 , 包括一 些 网络 访
文字作监控 , 且仅 限于关键词 匹配方式 的监控 , 这种 监
控 方式 相对 于第一种 方式来 说 , 用户应 用网络 的影 对 响较小 , 但监控 力度也大大减 弱, 特别是 对于一些 以 电
问 日志和 加 密 的 电子 文档 的存 储 , 以及 分 级 查 阅 功 能 , 据用户 的级别 赋予 其不 同 的访 问权 限。设 备 B 根 与设 备 A独 立连 接 , 并且 不能 进行 远程 访 问, 这样 可 以防止 存储 在其 上 的数 据被 盗取 。设备 A则 内网 与
关键 词 : 内容过滤 电子文档 防泄 密 中文信息处理
1 引言
随着信息技术 的发展 , 各种先 进 的网络 技术 在给 企事 业单位带 来 了高 效率 的工作和 管理方式 的 同时 ,
t nA t— e k g A , i ni La a ei L N)详细介绍 了它的设 计方案 o n 和实现技术 。C L I 以透 明方式对进 出网络 的传输 明文 A 及 电子 文档进 行监控 , 并运 用中文信息 处理技 术对 明
也容易产生 网内机密 外泄 。为 防止信 息外泄 , 企事 各 业单位往往不惜花 巨资购进防火墙 、 入侵检 测、 漏洞 扫 描等各 种网络 安全产 品 , 但这 些产品仅 仅权 对
文及 电子文档的 内容进行分析 , 一旦发现该信 息涉密 , 立即 阻止 其传送 , 有效 的阻止 了 内网的泄密 同时也保

基于内容过滤的网络监控技术分析

基于内容过滤的网络监控技术分析
为需要过滤 的内容。
形式的信息 。 它的原理是 : 首先, 伪造 一个虚 拟服务器 , 截获信
息并 向发送者反馈信息发送 成功的提示 , 然后对信息进行 比对
分析, 把不合格 的信息过滤 掉 , 把 合格 的信息发送 到 目的地 以 4 图像 内容分析 的过滤技 术 所 谓 图像 内容分析 过 滤技 术是 指, 基于 图像所 显现 的色 达 到过 滤的效果 。 其次 是信息的比对和分析。随着互联 网的发 纹理、 形状以及 图像内容的空间关系等显 f 生特征作为索弓 h 展, 网络 中出现 了大量 良莠不齐 的内容, 这些 内容形式 多样 , 再 彩、 利用 图像 的这 些外观特征 的相似度和 匹配程度 进行 过滤 的技 加上汉语表达 博大精 深的特点, 使得要 判断监 测内容是否是要 过滤掉 的不 良信息非常困难 …。 而且, 网络信息数量庞大 , 这就 术。图像内容分析过滤 技术还被广泛地应用其他 图像特 征和 语 图像 内容分析 过滤 技 要就过滤技 术既能准确的识别 出要过滤的信息, 又能快速高效 义特 征的 图像 内容进行判 定。目前 为止 , 从丰富而复杂的 图像信息 地完成这个过程 。 识别不 良信息的方法 也是各种 过滤技术 的区 术的最主要研 究手段 就是机器学 习, 然而, 很 多时候计算 机无法从海量 的图 别所在 。目前 国内外的过滤 技术 主要有 四种 : 基于 因特 网内容 中找到规律性 的特 征, 分级平台过滤 ( P I C S ) 、 数据 库过 滤 、 关键 字过
控技术 就显得非常重要 , 这对 网络 的建设和发 展将 会产 生重大 情况下它 由匹配 算法模型来 决定。目前在实 际操作 中常用到的 理论模型有 向量空 间模 型和贝叶斯决策模 型。 向量 空间决策模 的影 响 。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

息 的 文 章 而 导 致 整 个 网 站 被 封 ,或 者 非 法 网 站 可 以 通 过 改 变 I P 地址,使 之 能 够 在 一 定 时 期 内 避 免 被 过 滤; 二 是 基 于 关键词的过滤,但 基 于 关 键 词 的 信 息 过 滤 技 术 ,其漏报、错 报率高。而 且 关 键 词 是 目 前 人 们 常 使 用 的 词 ,有些信息内 容的发布者可能有意避开使用这些词,用其他的词替代, 使 得 基 于 关 键 词 的 信 息 过 滤 机 制 不 能 识 别 。因此,基于内 容的信息过滤是信息过滤技术的主要研究方向。
集 文 本 中 每 个 词 的 权 值 ,权 值 大 的 词 比 权 值 小 的 词 更 能
反 映 文 本 内 容 。最 后 可 根 据 需 要 提 取 特 征 词 的 数 量 ,设 置
一 定 的 门 限 值 ,将 权 值 高 于 所 设 门 限 值 的 词 作 为 特 征 词 ,
加 入 特 征 词 典 中 。特 征 词 典 将 作 为 文 本 的 属 性 词 典 ,在 文
模块中的特征阈值也可根据实际中对待分析文本的判 断不断的修正,作为反馈,以 提 高 过 滤 模 块 的 准 确 率 。或 者 可 根 据 用 户 对 信 息 的 安 全 需 求 ,增高或降低 特 征 阈 值 , 安 全 需 求 高 可 适 当 的 降 低 特 征 阈 值 ,反之矣然。如果特征 阈值设置较低,那 特 征 值 大 于 特 征 阈 值 的 文 本 数 增 多 ,被 过 滤 掉 的 文 本 数 量 也 增 多 ,容易造成误判,但大大降低了 漏判率,反 之 如 果 特 征 阈 值 设 置 较 高 ,则不满足过滤需求 的文本数增加,容易造成漏判,对 一 些 带 有 反 动 或 泄 密 信 息 的 文 本 不 能 按 需 求 过 滤 。因 此 特 征 阈 值 的 选 取 是 影 响 该 基于内容的信息过滤模型准确率的关键因素。
最大匹配算法其基本过程大致如下:(1)从被处理文本 中的起点取出不超过词典最大长度的汉字串作为匹配字 段;(2)在词典中查找该匹配字段;(3)如果找到该匹配字段, 则切分出一条词,设长度为 n ,并 后 移 n 个字作为下一次 分词的起点,再转到步骤( 1 ) ; ( 4 )如果未找到该匹配字段, 则 去 除 匹 配 字 段 的 最 后 一 个 字 ,作为新的匹配字段,并转 到步骤(2); 以上是正向最大匹配检索法。如果从被处理文 本的尾部向前处理,匹 配 不 成 功 时 去 除 前 面 一 个 字 ,就是 逆向最大匹配检索法。如果同时使用两种最大匹配检索 法,就 构 成 了 双 向 最 大 匹 配 检 索 法 。
征 词 典 作 为 属 性 词 典 ,以 此 来 定 义 文 本 中 各 个 词 的 属 性 因
子。将属性因子量化,加 入 特 征 值 的 计 算 中 ,将文本的统
计 特 征 和 知 识 特 征 结 合 起 来 。我们构造的文
本特征值计算函数如式(2)所示。
求 的 样 本 文 本 ,得 到 它 们 的 特 征 值 后 ,在 满 足 和 不 满 足 过 滤 需 求 的 文 本 的 特 征 值 之 间 随 机 取 值 作 为 特 征 阈 值 。将 得 到的文本特征值与特征阈值比较,如特征值大于特征阈 值,则 该 文 本 满 足 过 滤 要 求 ,说 明 该 文 本 含 有 与 样 本 文 本 相 关 的 不 安 全 内 容 ,如 宣 扬 法 轮 功 、台 独 的 反 动 内 容 ,或 个人企业,国 家 机 密 项 目 中 的 泄 密 信 息 等 ,如特征值小于 特征阈值,则 说 明 该 文 本 与 需 要 过 滤 的 内 容 无 关 ,无需过 滤。从 而 实 现 对 文 本 的 基 于 内 容 的 信 息 过 滤 ,保障了网络 信息的安全。
计 的 角 度 得 到 的 特 征 值 ,只 考 虑 了 词 的 词 频 和 词 长 特 征 ,
如果仅依据这两项特征对文本进行过滤分析,准确率较
低。因 此 我 们 加 入 属 性 因 子 ,从 知 识 的 角 度 进 一 步 分 析 文
本,以 提 高 过 滤 分 析 的 准 确 率 。在该模型中,将构造的特
47 N e t i n f o S e c u r i t y 2 0 0 4 . 4
应用技术
可 以 提 高 系 统 的 实 时 性 ,如决策树方法、N a ? v e B a y e s 、 k N N 最近距离法、支持向量机等。基 于 知 识 的 方 法 能更好 的 提 高 系 统 的 准 确 率 ,如 中 国 科 学 院 声 学 研 究 所 提 出 的 语 境框架模型,东北大学提出的 F I F A 算 法 等 。
基于内容的信息过滤的理论基础主要是人工智能的理 论 和 技 术 。目 前 基 于 内 容 的 文 本 分 析 方 法 主 要 有 基 于 统 计 、 基于知识和二者结合的方法。基于统计的方法速度较快,
信息过滤的相关研究
信息过滤是通过监控信息源以找 到 满 足 用 户 需 求 的 信 息 。在网络安全 领域,其 任 务 是 从 动 态 信 息 源 中 过 滤 掉在一段时期内比较固定的非需求信 息。目 前 网 络 中 的 信 息 过 滤 主 要 有 两 种方法:一是依据 IP 地址或 URL 来判 定 是 否 需 要 过 滤 掉 相 应 的 内 容 ,但这 种方法会因为出现几篇含有不安全信
基于内容的信息过滤已是目前网络安全领域的一大急需解决的问题。本文介绍了目前主要 的基于内容的分析技术及方法,并提出了一种基于内容的信息过滤模型,在基于统计的基础上, 引入词的知识属性特征,该模型可以有效提高信息过滤的准确率。
基于内容的信息安全过滤技术
杨晓懿 刘嘉勇
随着I n t e r n e t 的发展,网络上的信息浩如烟海,网络成 了 人 们 主 要 的 信 息 来 源 。其作为传播工具,为人们提供了所 需的信息资源,但 它 也 可 能 被 敌 对 势 力 所 利 用 ,成为传播反 动 言 论 和 思 想 的 武 器 。现 在 网 络 上 除 了 人 们 需 要 的 信 息 资 源 外,还 充 斥 着 大 量 的 垃 圾 信 息 ,如大肆宣传台独,法轮功等 反动政治言论的信 息 ,这 不 仅 威 胁 到 了 国 民 安 全 ,也给人们 带来了很多不便,同 时 大 量 传 播 的 黄 色 、黑色内容还侵蚀着 国 人 的 精 神 文 明 建 设 。如 何 防 止 这 些 不 安 全 信 息 继 续 在 网 上 传 播 ,并 保 护 个 人 隐 私 、企 业 机 密 资 料 、国 家 机 密 信 息 不 被 泄露,如何保护网络安全,防 止 网 络 成 为 反 动 势 力 可 利 用 的 工具,已 成 为 了 当 今 网 络 安 全 技 术 中 的 一 大 热 门 课 题 。而 其 最 有 效 的 解 决 途径是把内容识别和信息安全有机的 结合起来,将 基 于 内 容 的 信 息 过 滤 应 用于网络安全中。
图 1:基于内容的信息过滤模型
文本的预处理模块 网络中的信息资源大多是以超文本形式或其他形式存 在 ,要 对 信 息 进 行 基 于 内 容 的 分 析 首 先 需 要 对 信 息 进 行 预 处理,如去除 H T M L 标签等。 其次,词 是 文 本 内 容 的 最 小 单 元 ,是反映文本内容的 基 本 元 素 ,因 此 基 于 内 容 的 信 息 过 滤 首 要 工 作 是 对 文 本 进 行 分 词 处 理 。分 词 是 将 连 续 的 字 序 列 按 照 一 定 的 规 范 重 新 组 合成词序列的过 程 。我们知道,在英文的行文中,单词 之 间 是 以 空 格 作 为 自 然 分 界 符 的 ,而中文只是字、句和段 可 以 通 过 明 显 的 分 界 符 来 简 单 划 界 ,唯 独 词 没 有 一 个 形 式 上的分界符,因 此 中 文 比 之 英 文 分 词 要 复 杂 的 多 、困难的
多。而分词的正确率是基于内容的信息过滤准确率的基 础 。现 今 的 计 算 机 自 动 分 词 系 统 所 采 用 的 基 本 方 法 主 要 包 括 以 下 几 种 : 机械匹配法、特征词库法、约束矩阵法、语法 分 析 法 和 理 解 切 分 法 等 。因 为 对 网 络 信 息 的 过 滤 还 需 要 满 足实时性要求,为 了 满 足 实 时 性 的 要 求 ,一般不可能采用 很复杂的分词技术,而且也没有必要一定要引入高正确 率、大计算量的分词方法。综 合 考 虑 了 正 确 率 和 实 时 性 这 两个因素,可 采 用 最 大 匹 配 法 来 进 行 分 词 。
特 征 词 典 的 构 建 不 需 要 满 足 实 时 性 要 求 ,因此,特征词典
的构建可作为基于内容的信息过滤模块的前期工作。
我们先收集一部分含有不安全信息满足过滤要求的
文 本 作 为 样 本 文 本 ,经 过 文 本 的 预 处 理 部 分 ,对 收 集 的 文
档 进 行 预 处 理 和 分 词 。内 容 过 滤 模 型 中 ,综 合 考 虑 了 统 计 和 知 识 两 方 面 因 素 ,在 词 频 和 词 长 的 基 础 上 ,结 合 文 本 中 词 的 属 性 特 征 , 提 高 了 过 滤 模 型 的 准 确 率 。下 面 是 该 模 型 的 详 细 介 绍:
基于内容的信息过滤模型 基 于 内 容 的 信 息 过 滤 模 型 的 基 本 流 程 是 ,首 先 将 含 有 不 安 全 信 息 的 样 本 文 本 ,进行预处理,经过加权,计算出 文本中词的权值,根 据 权 值 大 小 构 造 特 征 词 典 。其次,计 算预先收集的满足和不满足过滤需求两类文本的特征值, 根 据 两 类 特 征 值 的 差 异 设 置 过 滤 模 块 中 的 阈 值 。第 三 判 断 待分析文本的特征值是否超过阈值,进行相应的过滤处 理。基 于 内 容 的 信 息 过 滤 模 型 主 要 包 括 五 个 部 分 。一是文 本 的 预 处 理; 二 是 加 权 ,计 算 出 词 的 权 值; 三 是 构 造 的 特 征 词 典 ; 四 是 文 本 特 征 生 成 器 ,计 算 出 文 本 特 征 值 ; 五 是 过 滤 模 块 。如 图 1 所 示 :
相关文档
最新文档