基于条件随机场的中文分词方法_迟呈英

合集下载

一种基于自动机的分词方法

一种基于自动机的分词方法

一种基于自动机的分词方法
吴建胜;战学刚;迟呈英
【期刊名称】《计算机工程与应用》
【年(卷),期】2005(041)008
【摘要】该文介绍一种简洁有效的快速分词方法,并通过理论分析和实验对比说明几种分词方法的效率差异,以说明文章所提出方法的有效性.
【总页数】3页(P81-82,85)
【作者】吴建胜;战学刚;迟呈英
【作者单位】鞍山科技大学计算机科学与工程学院,辽宁,鞍山,114044;鞍山科技大学计算机科学与工程学院,辽宁,鞍山,114044;鞍山科技大学计算机科学与工程学院,辽宁,鞍山,114044
【正文语种】中文
【中图分类】TP301.1
【相关文献】
1.一种基于特征嵌入神经网络的中文分词方法 [J], 王文涛;穆晓峰;王玲霞
2.一种基于字的多模型中文分词方法 [J], 张少阳;王裴岩;蔡东风;
3.一种基于双向LSTM的联合学习的中文分词方法 [J], 章登义; 胡思; 徐爱萍
4.一种基于LSTM的端到端多任务老挝语分词方法 [J], 郝永彬;周兰江;刘畅
5.一种基于分词和遗传算法的题库解析方法 [J], 夏德虎
因版权原因,仅展示原文概要,查看原文内容请购买。

结合CRFs的词典分词法

结合CRFs的词典分词法
ZHAN G h o Gu . AGNG e g Li n S u — oW Ch n . a g
( p r n f o u e, h n qn ies y C o g ig4 0 4 , hn ) De at t mp trC o g igUnv ri , h n qn 0 0 4 C ia me o C t
【 f
机场模型( R s。 3部分介绍作者提 出的分词 方案 。 C F )第
第 4部 分 通 过 分 析 和 实验 说 明新 方 案 与 传 统 的分 词 法
童荚 宁 I 键

一 _ l 医 L_ . _ L T l .
、 、 『
相比 ,更适 应于对速率和正确率都有要 求的系统 。第
关键 词 : 条 件 随机 场 :分 词 :交 叉歧 3 ;组 合歧 5 ; 字 匹配 L L 逐
Dito a y Chi s o d Se m e a i n M e h m b n d wih CRFS ci n r ne eW r g nt to t od Co ie t
歧 义与组合歧 义带来的问题 。 文以词典分词为基础 , 本 从序 列标 注的角度 , 在逐 字 匹配过程 中使 用 C F Rs
标 注模 型 提供 辅 助 决 策 ,由此 来 处理 歧 义 问题 。 经 实验 和 分析 ,该 方 法较 传 统 的 C F 模 型 分 词 法 和 Rs
词典分词 ,更适合对分词速 率及 正确 率都有一定要 求的 系统。
Kewo d : F ; r e me tt n s g niga iu u n s; o iao il mbg i ; th glea y r s CR s wo dsg nai ; e me t mbg o s e sc mbn tr o n a a iut mac i trl y n i

基于条件随机场的古汉语自动断句与标点方法

基于条件随机场的古汉语自动断句与标点方法

I SSN 100020054 清华大学学报(自然科学版) 2009 年第49 卷第10 期39ƒ39 C N 1122223ƒN J T s ingh ua U n iv (Sci & Tech) ,2009, V o l. 49, N o. 10173321736基于条件随机场的古汉语自动断句与标点方法张开旭1 , 夏云庆2 , 宇航1(1. 清华大学计算机科学与技术系, 北京100084; 2.清华大学清华信息科学与技术国家实验室, 北京100084)摘要: 标点符号在现代汉语中扮演着重要的角色, 但古代汉语中却不含有任何标点。

这使得现代中国人阅读古代文献有严重的困难。

该文提出一个基于条件随机场(CR F) 的古汉语自动断句标点方法, 并引入互信息和t2测试差两个统计量作为模型的特征。

分别在《论语》与《史记》两个语料库上进行了充分实验, 该方法在《论语》断句处理F 1 分数上超出现有方法0. 124, 在《论语》标点和《史记》断句、标点处理上也取得了满意效果。

实验证明: 基于条件随机场的方法能较好解决古文自动标点处理问题; 层叠条件随机场策略亦优于单层条件随机场策略。

关键词: 计算机信息处理; 古汉语标点; 条件随机场(CR F)中图分类号: T P 391. 1文献标识码: A 文章编号: 100020054 (2009) 1021733204CRF-ba sed approach to sen tencesegm en ta t ion and punctua t ion foranc ien t Ch in ese proseZHANG Ka ixu1, X IA Yunq ing2, YU Ha ng1(1. D epartm en t of Com puter Science and Technology,Tsinghua U n iversity, Be ij ing 100084, Ch ina;2. Tsinghua National Laboratory for Inform a t ion Sc ie nce andTechnology, Tsinghua Un iversity, Beij ing 100084, Ch ina)Abstract: T hough punct uat ion is i m po rtant in modern Ch inese, punctuat ion m ark s w ere no t used in ancient Chinese. Thus, ancient Ch inese lit erature is very hard f o r modern Chinese to read. T his arti cle p resents a condit iona l random f ield (CR F) based app roach to autom ate anci ent Ch inese p r o se punctuat ion using the m utual inf o r m at ion and the t2test difference as f eatures. T ests on L uny u and S h ij i show that t he app roach outperfo r m s the state2of2the2a rt m ethod by 0. 124 on the F 1 sco re f o r sentence segm entat ion. Thus, th is app roach yields p rom ising result s f o r sentence punctuat ion analysis on bo th L uny u and S h ij i. The cascaded CRF app roach can deal w ith ancient Ch inese p ro se punctuat ion analysis mo re effectively than the single CR F.Key words: comput er inf o r m at ion p rocessing; punct uat ion m ark of anci ent Chinese; condit iona l random f ield (CRF)中国古代文献无标点, 不断句。

基于条件随机场CRFs的中文词性标注方法_洪铭材

基于条件随机场CRFs的中文词性标注方法_洪铭材
· 148 ·
行文本标注时 , 先对文本进行初始标注 , 然后按照规则获取的 次序应用规则进行标注 。 该方法在英文词性标注上取得了很 好的效果 。 其主要问题是学习规则的时间过长 。 针对这一问 题 , 周明等提出一个快速学习算法 , 使训练速度大大提高[ 2] 。
③基于统计的方法 。 基于统计的方法是目前应用最广泛 的词性标注方法 。 白栓虎提出基于统计的汉语词性自动标注 方法 , 使用二元语法模型 和动态 规划的 方法进 行汉语 的词性 标注 。当前 大部分汉语词性系统采用基于二元语法模型或三 元语法模型的隐马尔可夫模型 , 通过 EM 训练的方法 , 给每个 词和词性标签对分配一个 联合概率 , 通 过维特 比解码 的动态 规划方法来获取一个句子对应的最佳的词性标注序列 。 隐马 尔可夫模型的缺点是假设词的词性只与 词本身和它 前面的 n 个词有关 , 而与该词后 面的词 没有关 系 。 这个假 设与实 际情 况并不吻合 。 基于最大熵模 型的词 性标注 方法 , 有效地 利用 了上下文信息 , 在一定的 约束条 件下可 以得到 与训练 数据一 致的概率分布 , 得到了 很好标 注效果 。 但 是最大 熵模型 存在 一种称为“ label bias” 问题 的弱点[ 1] , 在 某些 训练 集上得 到的 模型可能会得到很差的标注效果 。 常见的基于统计的方法还 有神经元网络 、决策树 、线性分离网络标注模型等 。
词性标注是自然语言处 理的重 要内容 之一 , 是其他 信息 的标注正确率 , 其封 闭测 试和开 放测 试的 准确率 分别 为 98.
处理技术的基础 , 被广 泛地应 用于机 器翻译 、文字 识别 、语音 56%和 96.60 %, 兼类 词和未 登录 词的 标注 也取 得了 很好 的

中文分词技术的研究现状与困难

中文分词技术的研究现状与困难

四、解决方案
为了克服中文分词技术的研究困难,以下一些解决方案值得:
1、优化分词算法:针对分词算法的复杂性问题,可以尝试优化算法的设计和 实现,提高其效率和准确性。例如,可以通过引入上下文信息、利用语言学知 识等方式来改进算法。
2、改进信息检索技术:在信息检索领域,可以尝试将先进的排序算法、推荐 系统等技术引入到检索过程中,以提高检索效果。此外,还可以研究如何基于 用户行为和反馈来优化检索结果。
3、缺乏统一的评价标准:中文分词技术的评价标准尚未统一,这使得不同研 究之间的比较和评估变得困难。建立通用的中文分词技术评价标准对于推动相 关研究的发展至关重要。
4、特定领域的应用场景:中文分词技术在不同领域的应用场景中面临着不同 的挑战。例如,在金融领域中,需要分词技术对专业术语进行精确识别;在医 疗领域中,需要处理大量未登录词和生僻字。如何针对特定领域的应用场景进 行优化,是中文分词技术的重要研究方向。
3、建立大型标注语料库:通过建立大型标注语料库,可以为分词算法提供充 足的训练数据,提高其准确性和自适应性。此外,标注语料库也可以用于开发 基于规则的分词方法和测试集的构建。
4、研究跨领域的应用场景:针对不同领域的应用场景,可以研究如何将中文 分词技术进行迁移和适配。例如,可以通过知识图谱等技术将不同领域的知识 引入到分词过程中,以提高分词效果。
然而,各种分词方法也存在一定的局限性和不足。例如,基于规则的分词方法 需要人工编写规则和词典,难以维护和更新;基于统计的分词方法需要大量标 注语料库,而且训练模型的时间和计算成本较高;基于深度学习的分词方法虽 然取得了较好的效果,但也需要耗费大量的时间和计算资源进行训练。
三、研究困难
中文分词技术的研究面临着诸多困难和挑战,以下是一些主要词方法:该方法主要依靠人工编写的分词规则来进行分词。 代表性的工作包括台湾大学开发的中文分词系统“THULAC”和北京大学开发 的“PKU中文分词系统”。这些系统均基于词典和规则,具有较高的准确率和 召回率。

基于条件随机场的中文分词方法_迟呈英

基于条件随机场的中文分词方法_迟呈英
(a) Cn ( n = - 2 , - 1 ,0 ,1 ,2) ( b) CnCn+1 ( n = - 2 , - 1 , 0 , 1 , 2) (c) Pu ( C0) ( d) T ( C- 2) T ( C- 1) T ( C0) T ( C1) T ( C2) 其中 , C 代表着中文字符 ; C0 代表着当前字符 ; n 是相对于当前字符所处的位置 。 比如 , 在序列“辽宁科技大学的学生”中 , 假如当前字符是 ‘的’,那么 C0 表示‘的’; C- 1 表示‘学’; C2 表示‘生’。Pu ( C0) 是针对分词语料在中存在的标点符号 (预先搜集 , 比如‘。’、 ‘ ?’等) 而设置的特征 ; T ( Cn) 是针对分词语料中实体名词而 设置的特征 。这主要针对诸如日期 、时间等和数字符号相关的 词类 。
语料 Uppen Msra
准确率 95. 8 % 95. 9 %
召回率 91 % 94. 5 %
F值 92. 9 % 95. 2 %
切分准确率 ( Precision)
=
正确切分的数量 总的切分数量
召回率 ( Recall)
=
正确切分的数量 测试集中实有切分的数量
F
值 ( Fscore)
=
2
×Precision Precision +
f k ( yi - 1 , yi , x) 是针对边 、捕获标记转移特征的状态特征函
K′
6 数 。exp ( λ′kf ′k ( yi - 1 , yi , x) ) 是针对每个结点的非负因子 。 k =1
f′k ( yi , x) 是针对结点 、捕获当前标记特征函数 。λ和λ′都是
待学习的模型参数 ,表示特征函数的权重 。

基于条件随机场的中文分词方法

基于条件随机场的中文分词方法

迟 呈英 于 长 远 战 学 刚
( 宁科技大学 辽 摘 要 鞍 山 1 45 ) 10 1
提 出 了一 种 基 于条 件 随 机 场 ( o dt Il ad m Fe s 简 称 C F 的 中文 分 词 方 法 。C F模 型 剃 用 词 的 上 C nioa R n o id , i l ! R ) R
频 率 进 行 统计 , 不 需 要 切 分 词 典 , 而 因而 又 叫作 元 词 典 分 词 法
田 1
镊 式 采 件 雕 机 场
在 序 列 标 注 任 务 中 , 机 变 量 X = { , , } 示 可 随 X … X 表
或 统 计 取词 方 法 , 主 要 包 括 基 于 引 马 尔 可 夫 模 型 、 于 最 大 其 基
生 成 的有 向 图模 型 ( o —g n rt edr tdga h a mo e ) n n e eai i ce r i l d l v e p c s
() x( ∑ ( ,i ) =e ∑ p c Y, ) x
( 2 )
ቤተ መጻሕፍቲ ባይዱ
所 固有 的“ 记 偏 置 ” 】 1 e—b s (on L f r ,0 1 的 标 [ (a l i )Jh a et 2 0 ) b a y
是 只 依 赖 于 观 测 序 列 的 归 一 化 函 数 ( omaz g n r li in
fco ) atr
立假 设 , 时 克 服 了 最 大 熵 马 尔 可 夫 模 型 ( xmu nrp 同 Ma i m E t y o Mak vMoe,ME ro dI MM ) n rw Mc a u 2 0 ) 其 他 非 (A de C l m,0 0 和 l
别 出 一 个词 ) 按 照 扫 描 方 向 的 不 同 , 匹配 分 词 方 法 又 可 分 。 串 为 正 向 和 逆 向 匹配 ; 照 优 先 匹 配 的 原 则 , 分 为 最 大 和 最 小 按 可 匹 配 。b 基 于 理 解 的 分 词 方 法 : 种 分 词 方 法 是 通 过 让 计 算 . 这 机 模 拟人 对 句 子 的 理 解 , 到 识 别 词 的效 果 , 称 人 工 智 能 达 也 法 。C基 于统 计 的分 词 方 法 : 种 方 法 只 需 对 语 料 中 的 字 组 . 这

基于条件随机场的中文分词算法改进

基于条件随机场的中文分词算法改进

Ya ti h n o g2 4 0 , C ia 2Mii r p ee tt e u euo D i h n Wu a b i 3 0 4, C ia na S a d n 6 0 1 hn ; . l ayRe rsnai sB ra f t v NE nWu a , h nHu e 4 0 6 hn )
摘 要 :在 中文分词领 域 ,基 于字标 注 的方法得 到广泛 应用 ,通过 字标 注分 词 问题 可转换 为 序列标 注 问题 ,现在分 词效果 最好 的是 基于条 件随机场( R s的标 注模 型。作 战命 令 的分 词是进 行 C F) 作 战指令 自动生成 的基础 ,在 将 C F 模 型应用到作 战命令 分词 时,时间和 空 间复杂度 非常高 。为 Rs 提 高效率 ,对模 型进行 分析 ,根 据特征选 择算 法选取特 征子集 ,有效 降低 分 词的 时间与空 间开销 。 利用 C F 置 信度对 分词结果 进行后 处理 ,进 一步提高分 词精确度 。实验 结果表 明 ,特 征选择 算法 Rs
i a a y e n e t r s b e s r s l c e y s n t f a ur s l c i n l o ih , wh c c t t e s n l z d a d f a u e u s t a e e e t d b u i g he e t e e e to a g rt m ih u h
(, ,) P f 为状态 转移特 征 函数 ; g (, X 为状态特 征 函数 ; Y kv ,) J
和 是 由训 练样本 得到 的特征权 重 ;k为特 征
函数 编号 ;v为 中的节点 。计算 特征权 重 函数 采用极 大似然 估计 方法 。C F 指数 模型 为凸 函数 ,可采 用迭代 R s
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(4)
i,k
在当前序列位置为 i 、当前标记为 y 的时候 , Viterbi 算法
可以求得至当前位置的最优标记序列的未归一化概率值 。其
递归形式为 :
Φ( i , y)
=
max y′Φ( i
-
1 , y′) 3
6 e
λkf k ( x , y , y′, i)
k
(5)
Viterbi 算法属于动态规划算法 ( dynamic programming) 。
J o ur n al of Inf o r m a ti o n N o . 5 ,2008 情报杂志 2008 年第 5 期
基于条件随机场的中文分词方法
A Chinese Word Segmentation Approach Using Conditional Random Fields
3 试验结果和分析
3. 1 CRF 分词实验结果 本次实验使用的所有数据都来 自于 SIGHAN2006 Chinese Language Processing Bakeoff[6 ] 提 供的数据 ,进行的是分词封闭性测试 。分词测试结果如下 :
表 1 条件随机场在 SIGHAN2006 中文分词语料上的分词结果
件随机 场 进 行 训 练 , 使 得 条 件 概 率 的 log 似 然 值 (log -
likelihood) [3 ] 最大 :
6 L (λ) =
log pλ( y | x)
(3)
( x , y) ∈D
1. 3 条件随机场的推理 条件随机场的推理是指在给定
一个观测序列 X = { X1 , X2 , …, XN } 的条件下 , 找到一个对 应于最可能的标记序列 Y = { Y1 , Y2 , …, YN } 。
语料 Uppen Msra
准确率 95. 8 % 95. 9 %
召回率 91 % 94. 5 %
F值 92. 9 % 95. 2 %
切分准确率 ( Precision)
=
正确切分的数量 总的切分数量
召回率 ( Recall)
=
正确切分的数量 测试集中实有切分的数量
F
值 ( Fscore)
=
2
×Precision Precision +
中文分词是自然语言理解中很重要的内容之一 ,也是当 前智能信息处理技术的基础 。分词的效果将影响到后续分析 的难易程度 ,如句法分析 、语义分析等 。现阶段人们提出了许 多中文分词的算法 ,主要可以分成以下三类 :a. 基于字符串匹 配的分词方法 :待分析的中文字符串与一定规模的词典中的 词条进行匹配 ,若在词典中找到某个字符串 ,则匹配成功 (识 别出一个词) 。按照扫描方向的不同 ,串匹配分词方法又可分 为正向和逆向匹配 ;按照优先匹配的原则 ,可分为最大和最小 匹配 。b. 基于理解的分词方法 :这种分词方法是通过让计算 机模拟人对句子的理解 ,达到识别词的效果 ,也称人工智能 法 。c. 基于统计的分词方法 :这种方法只需对语料中的字组 频率进行统计 ,而不需要切分词典 ,因而又叫作无词典分词法 或统计取词方法 ,其主要包括基于引马尔可夫模型 、基于最大 熵模型 、基于条件随机场模型的方法等[1 ] 。
D = ( X , Y) ,观测数据 X = { X1 , X2 , …, XN } ,标记数据 Y = { Y1 , Y2 , …, YN } 。
在中文分词系统中 , 条件随机场的训练就是通过训练语
料来学习最恰当的模型参数 ,来使得某种规则标准最大 。在这
里 ,基于最大似然原则 ( maximum - likelihood principle) 对条
在我们实验中 ,如果字符是阿拉伯数字 ,那么 T ( . ) 为 1 ; 如果字符是‘年’‘、月’或‘日’, 那么 T ( . ) 为 2 ; 如果字符是 ‘分’或‘秒’那么 T ( . ) 为 3 ; 如果字符是文字数字形式 ( 如 ‘一’‘、二’等) ,那么 T ( . ) 为 4 ; 如果字符是英文字符 , 那么 T ( . ) 为 5 ;如果字符是其他情况 , T ( . ) 为 6 。特征模板 (a) 和 (c) 都是单个序列元素的特征 ; 特征模板 ( b) 和 (d) 都是元素 序列的组合特征 。同样 , 实验中也针对多字词的情况实验过 C- 1 C0 C1 等长词特征 ,但实验效果并不理想 。
动态规划是最优化原理中的一种重要方法 。在解决一个大的
问题中包含有很多重叠的子问题情况的最优解是有效的 , 它
将问题重新组合成子问题 。为了避免多次解决这些子问题 ,计
算过程中会将中间结果保存以备后用 , 直至整个大的问题被
解决 。
2 自动分词模型
在本文中 , 根据中文分词的特点及条件随机场所使用的 特征[4~5 ] ,即 CRF 能够同时使用中心词的前 n 个词和后 m 个 词作为该词的上下文信息 。这样 ,中心词的词性不仅与它前面 的词有关 , 还与它后面的词有关 , 更加符合实际情况 。在本文 中 ,使用了中心词本身 、中心词的前两个词和中心词后两个 词 ,以及它们之间的结构特征 ,我们所采用的特征模板如下 :
×Pecall Recall
3. 2 CRF 对歧义词和未登陆词的处理实验 中文分词任
务的难点在于分词边界的歧义处理和未登陆词的识别问题 。
我们从分词歧义情况的处理和未登陆词的识别两个方面 ,来 分析条件随机场的分词处理方法 、效果及其在分词任务中仍
待解决的方面 。
3. 2. 1 歧义词的处理实验 。在这里 ,我们首先考察 、分 析条件随机场解决中文分词词边界的消歧能力 。因为歧义片
1. 2 条件随机场的训练 在序列标注任务中 , 给定训练
作者简介 :迟呈英 ,女 ,1963 年生 ,教授 ,硕士 ,研究方向为数据库技术 、自然语言理解 ;于长远 ,男 ,1981 年生 ,硕士研究生 ,研究为自然语言理解 ; 战学刚 ,男 ,1962 年生 ,教授 ,博士 ,研究方向为自然语言理解 、信息检索 、网络安全 。
i,k
+
λ′kf ′k ( yi , x ) )
i, k
(1)
Zx 是 只 依 赖 于 观 测 序 列 的 归 一 化 函 数 (normalizing
factor)
6 6 Z ( x) = exp (
λkf k ( C , Yi , X) )
(2)
ik
K
6 其中 ,exp ( λkf k ( yi - 1 , yi , x) ) 是 针 对 边 的 非 负 因 子 。 k =1
1 条件随机场模型理论
1. 1 条件随机场模型的定义 CRF 是无向图模型 ,其最 简单的形式是链式 CRF ,也就是模型中的各个节点构成了链 式分布 ,根据中文分词的特点 ,本文采取的就是链式 CRF 。
在链式 CRF 中 ,无向图中的所有标记结点形成一个链 。在一 阶链式条件随机场中 , 全连通子图集合就是所有的含有当前 标记 yi 、前一个标记 yi - 1 和包含观测序列 x 的任何子集的最 大连通子图 。例如 ,在图 1 中 ,结点集合{ Y2 , Y3 , X} 就为一个 最大连通子图 。其形式如图 1 所示 :
79
© 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved.
情报杂志 2008 年第 5 期 J o u r n al of Inf o r m a ti o n N o . 5 ,2008
图 1 链式条件随机场
在序列标注任务中 ,随机变量 X = { X1 , …, X n} 表示可 观测序列 ; 随机变量 Y = { Y1 , Y2 , …, Y n} 表示观测序列对 应的标记序列 ,随机变量 Y 的链式条件概率分布为 :
6 6 P( y |
x)
=
Z
1 ( x)
exp
(
λkf k ( yi - 1 , yi , x )
条件随机场模型是新近提出的一个基于统计的序列标记 和分割的方法 。CRF 是一个在给定输入节点条件下计算输 出节点的条件概率的无向图模型 。它没有隐马尔可夫模型 ( Hidden Markov Model) ( L . R. Rabiner. 1989) 那样严格的独 立假设 ,同时克服了最大熵马尔可夫模型 ( Maximum Entropy Markov Model , MEMM) ( Andrew McCallum ,2000) 和其他非 生成的有向图模型 (non - generative directed graphical models) 所固有的“标记偏置”[2 ] (label - bias) (John Lafferty ,2001) 的 缺点 。
从式 (1) 可以看到 ,在条件随机场的分布函数 , 归一化因
子完全独立于标记序列 。所以 , 给定模型参数条件下 , 求得最
可能的标记序列可以表示为 :
6 Y 3 = arg max y P ( Y | X) = arg max y exp ( λkf k ( yi - 1 , i, k
6 yi , x) + λ′kf ′k ( yi , x) )
词典词 ,根本不会考虑上下文的信息 。所以 ,该歧义片断会被 错误地切分为下文的位置信息来进行判
断 ,比如 ,在“外交部长”的片断中 ,虽然“外交部”是词典词 ,但 条件随机场模型会从该片断序列整体考虑出发 ,进行统计判 断 。在训练语料中 “, 外交部”一词后面从来没有出现过“长” 字 。而且“外交 部长”这个切词片断在训练语料中出现了 22 次 。这些统计信息都将作为条件随机场的重要特征 ,使得歧 义片断“外交部长”能够被正确切分 。
(a) Cn ( n = - 2 , - 1 ,0 ,1 ,2) ( b) CnCn+1 ( n = - 2 , - 1 , 0 , 1 , 2) (c) Pu ( C0) ( d) T ( C- 2) T ( C- 1) T ( C0) T ( C1) T ( C2) 其中 , C 代表着中文字符 ; C0 代表着当前字符 ; n 是相对于当前字符所处的位置 。 比如 , 在序列“辽宁科技大学的学生”中 , 假如当前字符是 ‘的’,那么 C0 表示‘的’; C- 1 表示‘学’; C2 表示‘生’。Pu ( C0) 是针对分词语料在中存在的标点符号 (预先搜集 , 比如‘。’、 ‘ ?’等) 而设置的特征 ; T ( Cn) 是针对分词语料中实体名词而 设置的特征 。这主要针对诸如日期 、时间等和数字符号相关的 词类 。
相关文档
最新文档