基于改进最大匹配算法的中文分词粗分方法

合集下载

一种改进的中文分词正向最大匹配算法

一种改进的中文分词正向最大匹配算法
第2 8卷第 3期
21 0 1年 3月
计 算机 应 用与软 件
Co utr Ap lc to sa d S f r mp e p i ai n n o wae t
V0 _ l28 No. 3
M a . 01 r2 l

种 改 进 的 中 文 分 词 正 向 最 大 匹 配 算 法
t e s e d a d e ce c fC ie e W o e me tt n ag r h h v e n o vo sy i r v d h p e n f in y o h n s r s g n ai lo i m a e b e b iu l mp o e . i d o t Ke wo d y rs C i e e w r e me tt n W o a k F r r n x mu mac i g ag rt m h n s o d s g n ai o d r b n o wa d la i m t hn l o i h
p t fr a d a d a f ri r vn MM lo i m h ti o a sg h xmu tx 一 n t o b ra e y a c l a e n t e w r - u s o r n i e o mp o i g F w ag r h t a s t s in t e ma i m e t1 g h t e t td d n mi al b s d o 同 的 统 计 , 8—1 因 3字 的 词 所 占 比 例 较 小
0 引 言
中文 自动 分 词 是 中文 信 息 处 理 中 最 为 基 础 、 为重 要 的 问 最 题 , 汉语 文 本 自动 标 注 、 索 引擎 、 器 翻 译 等工 作 中 的 关 键 是 搜 机

一种改进的基于Hash的中文分词算法研究

一种改进的基于Hash的中文分词算法研究
21 0 0年第 2期

建 电

6 9

种改进的基于 H s ah的中文分词算法研究
蔡 蕊
(山 东 大 学计 算机 科 学 与技 术 学 院 山 东 济 南 2 0 0 5 1 1)
【 要】 摘 :在分析 已有的 中文分词算法的基础上, 用改进 的词典 结构, 出一种新的基 于 H s 利 提 ah的 中文分词算 法。 理论 和 实验 证 明 , 进 的 算 法 可 以进 一 步 提 高分 词 的效 率 。 改 【 关键词 】 中文分词 哈希算法 :
泛 而 深入 的研 究 一
分词 是 中 文 信 息处 理 的 基础 一 环 .分 词 方 法 的 性 能 直 接 影
表 1 词 条 分布 情 况表
由汉 语 的词 频 统 计 得 出 结 论 .在 汉语 中.9 的词 集 中在 四 9% 响 到 中文 信息 搜 索 的实 时 性 及 准 确 性 。考 虑 到 中文 分 词 算 法 的 应 用 领域 大多 对 实 时 性 和 准 确 性 两 方 面有 很 高 的 要 求 。因 此 . 实 字 以下 的 词 语 . 其 以双 字 词 为 数 最 多 。 尤 如果 能 在 词 典 中实 现 对 那 现 较 简 单 的基 于 H s ah算 法 中 的 正 向最 大 匹 配 法 仍 然 是 应 用 最 四字 以 内的 词 的 快 速查 找, 么 系统 的效 率 会 明显 提 高 我 们 利
所 示
搜 7



库 结 构
其 中 . 果 有 以词 条 为 首 的 词 条 . 么词 条 的 属 性 为 以该 词 如 那 条 为首 的词 条 的开 始 位 置 和 结 束 位 置, 则 为 0 否 。 32分 词 算 法 . 分词算法首先 由 H s 计 算的首字的地址. ah 然后 利 用 二 分 查 找是 否 有 以前 两 字 为 首 的 词 条 。如 果 没 有则 作为 单 字 词输 出: 否

正向最大匹配分词算法的分析与改进

正向最大匹配分词算法的分析与改进

正向最大匹配分词算法的分析与改进摘要:本文主要通过对影响正向最大匹配算法效率的因素的分析,提出对该算法的一点改进,以及设计了相应的词典结构,以期在匹配过程中尽可能的减少比较次数,提高分词效率。

关键词:中文分词;最大匹配算法;词典机制0引言在自然语言处理中,“词是最小的能够独立活动的有意义的语言成分”[1],而汉语和英语等其它西文比起来,有着自身的特点。

英语、法语等欧美语言在书写时就以词为基本构成单位,以空格作为分词的依据;而汉语在书写时是一大串汉字的字符串,从形式上根本没有词的概念。

中文分词指的就是将一个汉字序列切分成一个一个单独的具有实际意义的词,它是中文信息处理的基础。

中文自动分词的现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法[2]。

在基于字符串匹配的分词算法中,词典的设计往往对分词算法的效率有很大的影响。

本文通过对影响正向最大匹配算法效率因素的分析,设计一种带词长信息的分词词典,同时在该词典基础上,对正向最大匹配算法做出一些改进,以提高分词的效率。

1正向最大匹配分词算法介绍和分析1.1 正向最大匹配分词算法介绍最大匹配算法是最基本的字符串匹配算法之一,它能够保证将词典中存在的最长复合词切分出来。

传统的正向最大匹配分词算法(Maximum Matching,简称MM算法)的算法流程如图1所示。

图1 MM 算法流程图假设分词词典中的最长词的字数为M,令其作为最大匹配系数。

假设读取的汉字序列字数为L,判断L是否小于最大匹配系数M。

如果L大于最大匹配系数M,则截取前M个汉字作为待匹配字段进行匹配,否则取整个汉字序列作为待匹配字段直接在分词词典中进行匹配。

若字典中存在这样一个字数为M的词,则匹配成功,匹配字段被作为一个词切分出来;若词典中找不到这样的词,则匹配失败,将待匹配字段中的最后一个字去掉,将剩下的汉字序列作为待匹配字段重新在字典中进行匹配处理……如此进行下去,直到匹配成功,即切分出一个词,或者直到剩余字串的长度为1为止,即为一个单字。

中文分词相关技术简介

中文分词相关技术简介

中文分词相关技术简介目前对汉语分词方法的研究主要有三个方面:基于规则的分词方法、基于统计的分词方法和基于理解的分词方法。

基于规则的分词方法基于规则的分词方法,这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个"充分大的"机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。

常用的方法:最小匹配算法(Minimum Matching),正向(逆向)最大匹配法(Maximum Matching),逐字匹配算法,神经网络法、联想一回溯法,基于N-最短路径分词算法,以及可以相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法等。

目前机械式分词占主流地位的是正向最大匹配法和逆向最大匹配法。

◆最小匹配算法在所有的分词算法中,最早研究的是最小匹配算法(Minimum Matching),该算法从待比较字符串左边开始比较,先取前两个字符组成的字段与词典中的词进行比较,如果词典中有该词,则分出此词,继续从第三个字符开始取两个字符组成的字段进行比较,如果没有匹配到,则取前3个字符串组成的字段进行比较,依次类推,直到取的字符串的长度等于预先设定的阈值,如果还没有匹配成功,则从待处理字串的第二个字符开始比较,如此循环。

例如,"如果还没有匹配成功",取出左边两个字组成的字段与词典进行比较,分出"如果";再从"还"开始,取"还没",字典中没有此词,继续取"还没有",依次取到字段"还没有匹配"(假设阈值为5),然后从"没"开始,取"没有",如此循环直到字符串末尾为止。

这种方法的优点是速度快,但是准确率却不是很高,比如待处理字符串为"中华人民共和国",此匹配算法分出的结果为:中华、人民、共和国,因此该方法基本上已经不被采用。

改进的正向最大匹配分词算法

改进的正向最大匹配分词算法
切 分 出 去 ,继 续 步 骤 (1); 2)如果分词词典包含 term2,取 term3= Sentence.Substring
(n-1,2),将 term3 与词表进行匹配: ①如果分词词典不包含 term3,将 term1 从待切元句子
中 切 分 出 去 ,继 续 步 骤 (1); ②如果分词词典包含 term3,转入交集型歧义处理模块。
2.3.3 交 集 型 歧 义 处 理 模块 比 如 对 如 下 例 子 “中 国 人 / 口 / 众 多”:Term1= 中 国 人 ;
本 文 提 出 改 进 的 最 大 匹 配 算 法 解 决 上 述 两 个 问 题 :通 过 互 信 息 的 比 较 ,来 提 高 未 登 录 词 识 别 ;通 过 回 溯 的 过 程 来 解 决 交集型歧义。 2.2 Improved- MM 算 法的 主 要 流 程
(1) 分词预处理; (2) 用正向最大匹配算法进行分词; (3) 通过回溯的过程,结合互信息消除交集型歧义; (4) 碎片检查。 2.3 算 法 详 细 步 骤 2.3.1 分 词 预 处 理 第 一 扫 描 首 先 将“,”、“;”、“!”等 标 点 符 号 用 标 签 隔 开 如“/”,第 二 遍 扫 描 在 比 如 英 文 字 符 ,标 点 符 号 ,数 字 ,其 它 非 汉 字 符 号 等 左 右 两 侧 插 入“/”,称 得 到 的 两 个 斜 杠 之 间 最 小 的 切分单元为元句子。 2.3.2 分 词 与 词 典 的 匹 配 机 制 取 决 于 词 典 本 身 的 数 据 结 构 、索 引 机 制 以 及 查 询 策 略 ,本 算 法 不 展 开 讨 论 。可 以 参 考 文 献 [4-6]。扫 描词典,读取最长词条的字符数设为 n。 (1)对当前处理元句子 Sentence,从一个字符起依次读取 n 个字符 ,若当 前 Sentence.length<n, 则取整 个元句 子,记 作 term1,term1=Sentence.substring(0,min(n, Sentence.length))。 (2) 如果分词词典不包含 term1,取 term1 的前 n-1 个字串 term2,用 term2 与词典进行匹配,若匹配成功,转入步骤(4);若

基于改进的正向最大匹配中文分词算法研究

基于改进的正向最大匹配中文分词算法研究

基 于 理解 的分 词 方法 不 仅 要求 有 很好 的分 词 词典 , 而且还 需要 加进 语义 和句 法 的分 析 。通过 获
文文本 中词与词之间却没有很明显的标记 , 都是连 续 的字符串, 因而中文信息处理的首要解决的问题 就是 怎样进 行 中 文分 词 。 正 向最 大 匹 配 法是 一 种
文章编号
10 5 6 (0 10 0 1 0 0 0— 2 9 2 1 )5— 12— 4
基 于 改进 的 正 向最 大 匹配 中文 分 词 算 法研 究
王 惠仙 , 龙 华
( 昆明理工大学信息工程与 自动化学 院 , 云南 昆明 6 05 ) 50 1

要: 中文 自动 分词技 术在 中文信 息 处 理 、 b文 档 挖 掘 等 处理 文 档 类研 究 中是 一 项 关键 技 We
第 5期
王惠仙 等 : 于改进 的正向最大匹配 中文分词算法研究 基
文本 进行 分 词操作 , 到准 确有 效 的切分 中文 文档 达
的 目标 。
的词 时 , 只能 取 出其 中 的 5个 字去 词 典 里 匹 配 , 例 如“ 共产 主 义 接 ” 显 然 词典 里 不 可 能 存 在 像 这 样 , 的词 。因此 就 无 法 准 确 的 划 分 出 像 “ 产 主 义 接 共 班人 ” 这样 长 度大 于 5的 词 。如果 词 长 过 长 , 率 效
词 方法 ¨ 。 J 1 1 基于词 典 的分词方 法 . 基 于 词典 的分 词 法是 广 泛 应用 的一 种 的机 械
基 于统 计 的 分词 方 法 主要 是 用来 消 除 分词 过 程 中产生 的歧 义现 象 , 即消歧 。此方 法 主要靠 一个 或者 多个 具有 代表 性 的规 模 相对 小 的训 练语 料 库

一种改进的最大匹配分词算法研究

一种改进的最大匹配分词算法研究

c a i p t[ 6 ] / 文 件 的 相 对 路 径 hrfe ah 2 0 ;/ l
端 连 接 到 升 级 服 务 器 以 后 , 先 将 客 户 端 升 级 信 息 发 送 到 首 服 务 器 端 , 服 务 器 端 的版 本 信 息 进 行 比较 , 后 分 析 出 当 与 然
前版本是 否需要升 级 。
义 进 行 处 理 。 同 时 词 是 最 小 的 能 够 独 立 活 动 的 有 意 义 的 语
个相 对好 的粗 分结 果 , 后 进 行 排歧 , 登 录 词识 别 , 然 未 最
后标 注词性 。在实际 的系统 中 , 三个 过程 可 能相 互交 叉 , 这 反复融 合 , 可 能不存在 明显的先 后次序 。 也
文 章 编 号 :6 23 9 (0 0 0— 2 70 1 7— 1 8 2 1 ) 90 9 —2 采 取 最 大 匹 配 , 短 路 径 , 率 统 计 或 全 切 分 等 方 法 , 到 最 概 得

1 引 言
汉语 的 中文 信 息 处 理 就 是 要 用 计 算 机 对 汉 语 的 音 , , 形
客 户 端 发 送 的 升 级 信 息 。本 程 序 将 系 统 当 前 版 本 的信 息 以

定 的格 式 写 入 文 件 , 放 于 升 级 服 务 器 中 。 同 时 客 户 端 存

也 存 在 相 同 类 型 的 文 件 以 记 录 客 户 端 的 版 本 信 息 。 当 客 户
实用 , 比较 容 易 实 现 , 而 精 度 不 高 ; 二 类系 统 , 中 文 词 语 分 析 一 般 都 需 要 包 括 3 性 , 则 在 后 续 过 程 中很 难 对 错 误 的 粗 分 结 果 进 行 补 救 , 而 否 导 个 过 程 : 处 理 过 程 的 词 语 粗 切 分 , 分 排 歧 与 未 登 录 词 识 致 切 分 精 度 的 下 降 。 预 切 别 和 词 性 标 注 。 目前 中 文 词 语 分 析 采 取 的 主 要 步 骤 是 : 先 本 文 提 出 一 种 旨 在 保 证 分 词 效 率 的 同 时 兼 顾 分 词 准 确

改进的正向最大匹配分词算法

改进的正向最大匹配分词算法

情况 ,分别 计算 该尾 字和 不含 该字 的 当前处 理词 条 的互信 息 与尾 字 和下 一字 的互信 息 ,通过 比较 两者 的互信 息 大小来 决定 切分, 最后 对 分词碎 片进 行 了处 理。 通过对 随机 抽取 的语 料 进行 测试 , 结果表 明 该方法 是有 效 的。 关键 词 : 正向 最 大 匹配 算法 ; 交集型 歧 义;预 处 理; 互信 息 ;分词 碎 片 中 图法分 类号 : P 9 T31 文献标 识码 : A 文章 编号 : 0072 2 1) 1 550 10 .0 4(0 0 1— 9 。3 2
i l si c e s d. Fisl , t e ste td r — u , b n t em a m u a c ngi heta ton lp oc s , c os i m biuiy fe d fe di n r a e r ty hetxti ae p e c t r eig h xi m m t hi nt r dii a r e s r snga g t l i
I p o e o wa d ag rt m o a m u ac n r e m e tto m r v df r r l o i h f rm xi m m thig wo d s g n ai n
Z HAN G iq n YUAN i n Ca — i , Ja
摘 要 : 了降低 正 向最 大 匹配 分词 算 法 的切 分错 误 率 , 为 分析 了产生 这 个错 误率 的 原 因 , 出了一种 改 进 的正 向最 大匹配 提
分 词 算 法 , 增 加 一 个 交 集 型 歧 义 字 段 处 理 模 块 。该 方 法 对 待 切 文 本 进 行 预 处 理 , 传 统 正 向 最 大 匹配 的 过 程 中 , 用 交 集 即 在 调 型 歧 义 字 段 处 理 模 块 ,该 模 块 主 要 是 在 每 一 次 正 向 匹 配 后 进 行 回 溯 匹配 ,即 通 过 检 测 当 前 处 理 词 条 的 尾 字 和 下 一 字 的 成 词
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
相关文档
最新文档