基于互信息的中文术语抽取系统
基于互信息和信息熵的新词提取

基于互信息和信息熵的新词提取## Information Gain & Mutual Information-Based Term Extraction.Term extraction refers to the identification and extraction of essential words or phrases, known as terms, from a given text. These terms represent the salient concepts and topics discussed within the text, making them crucial for tasks such as information retrieval, text summarization, and natural language processing.Mutual information (MI) and information gain (IG) are two fundamental measures used in information theory to quantify the relationship between two events or variables. In the context of term extraction, these measures can be utilized to identify terms that are highly informative and relevant to the text.### Term Extraction Using Mutual Information.Mutual information measures the level of association or dependency between two events. In term extraction, it calculates the relationship between a candidate term and the presence of specific keywords within the text. A term with a high mutual information with the keywords is likely to be a relevant and informative term.Calculating Mutual Information.The mutual information between a term `t` and a keyword `k` is given by:MI(t, k) = P(t, k) log(P(t, k) / (P(t) P(k)))。
基于混合策略的高精度长术语自动抽取

基于混合策略的高精度长术语自动抽取梁颖红;张文静;周德富【摘要】在目前的术语自动抽取中,双字词的精度已经达到了90.36%,但是三字以上的词的抽取精度只有66.63%,多字词的抽取成为了术语自动抽取的一个难点.该文提出了NC-value参数和互信息相结合的混合策略来识别三字以上的长术语的方法.该方法充分发挥了NC-value参数在利用词语上下文信息和互信息参数在词语结合强度两方面的优势,两者相互约束和配合,更有利于找到准确的长术语边界.采用生物信息领域Yapex语料进行实验,结果表明,三字以上长术语抽取正确率和召回率分别达到88.5%和76.6%,F测量值达到82.2%,稍高于其他方法的结果.%For term recognition, the current precision of double word term has achieved 90.36% while the precision of multi word term is only 66.63%. To address the issue of multi word term recognition, this paper proposes a method of higher precision, which integrates the predominance of NC value parameter in long term recognition with the mutual information. The experimental result shows the precision, recall and F measure fo this method can reach 88.5%, 76.6% and 82.2%, respectively.【期刊名称】《中文信息学报》【年(卷),期】2009(023)006【总页数】5页(P26-30)【关键词】计算机应用;中文信息处理;术语抽取;NC-value;互信息【作者】梁颖红;张文静;周德富【作者单位】江苏省现代企业信息化应用支撑软件工程技术研究开发中心,江苏,苏州,215104;东北林业大学,信息与计算机工程学院,黑龙江,哈尔滨,150040;东北林业大学,信息与计算机工程学院,黑龙江,哈尔滨,150040;江苏省现代企业信息化应用支撑软件工程技术研究开发中心,江苏,苏州,215104【正文语种】中文【中图分类】TP391术语自动抽取技术是信息处理中的一个重要课题[1]。
基于术语自动抽取的科技文献翻译辅助系统的设计

基于术语自动抽取的科技文献翻译辅助系统的设计黄政豪;崔荣一【期刊名称】《延边大学学报(自然科学版)》【年(卷),期】2017(043)003【摘要】设计了一种中韩科技信息综合平台中的翻译辅助系统.首先,依据关键词确定的组词特证获取候选术语,并使用互信息评估候选术语以实现术语自动提取.其次,将已有术语、抽取到的新术语、术语译文和历史翻译记录等信息存储到系统数据库中建立术语库.最后,设计翻译工作者的用户接口,使其通过该接口获取已有术语的译文信息、新术语的相似译文信息和译文记忆库为基础的历史翻译数据.测试结果表明,本文设计的术语自动抽取功能和辅助译文生成功能达到了预定的设计目标,术语自动抽取算法召回率达到61.8%,结合优化方法进行优化后达到66.9%;辅助译文生成平均延时为0.031 s,MRR为0.951,测试结果满足用户需求.【总页数】5页(P259-263)【作者】黄政豪;崔荣一【作者单位】延边大学工学院计算机科学与技术学科智能信息处理研究室,吉林延吉133002;延边大学工学院计算机科学与技术学科智能信息处理研究室,吉林延吉133002【正文语种】中文【中图分类】TP391.41【相关文献】1.两岸三地科技术语的翻译与规范——基于计算机术语的个案研究 [J], 裘禾敏2.基于统计和规则相结合的科技术语自动抽取研究 [J], 刘豹;张桂平;蔡东风3.石油装备科技文献计算机辅助翻译记忆库及服务系统建设方案探讨 [J], 马艳萍;刘英立4.基于“NUTERM术语库”的中国艺术学术语系统英译研究——术语翻译的系统经济律视角 [J], 赵连振5.基于科技英语特性的Trados辅助翻译系统的设计与实现 [J], 赵足娥;吴年利;李培隆因版权原因,仅展示原文概要,查看原文内容请购买。
互信息改进方法在术语抽取中的应用

互信息改进方法在术语抽取中的应用杜丽萍;李晓戈;周元哲;邵春昌【摘要】为了确定改进互信息(PMIk)方法的参数k取何值时能够克服互信息(PMI)方法过高估计两个低频且总是一起出现的字串间结合强度的缺点,解决术语抽取系统采用经过分词的语料库时由于分词错误导致的某些术语无法抽取的问题,以及改善术语抽取系统的可移植性,提出了一种结合PMIk和两个基本过滤规则从未经过分词的语料库中进行术语抽取的算法.首先,利用PMIk方法计算两个字之间的结合强度,确定2元待扩展种子;其次,利用PMIk方法计算2元待扩展种子分别和其左边、右边的字的结合强度,确定2元是否能扩展为3元,如此迭代扩展出多元的候选术语;最后,利用两个基本过滤规则过滤候选术语中的垃圾串,得到最终结果.理论分析表明,当k≥3(k∈N+)时,PMIk方法能克服PMI方法的缺点.在1 GB的新浪财经博客语料库和300 MB百度贴吧语料库上的实验验证了理论分析的正确性,且PMIk方法获得了比PMI方法更高的精度,算法有良好的可移植性.【期刊名称】《计算机应用》【年(卷),期】2015(035)004【总页数】6页(P996-1000,1005)【关键词】术语抽取;专业术语;知识获取;互信息【作者】杜丽萍;李晓戈;周元哲;邵春昌【作者单位】西安邮电大学计算机学院,西安710121;西安邮电大学计算机学院,西安710121;西安邮电大学计算机学院,西安710121;中央民族大学理学院,北京100081【正文语种】中文【中图分类】TP391.1术语抽取在中文信息处理领域中是一项重要的基础性研究课题。
随着科技、经济、文化的快速发展,各个学科领域中的术语也发生了很大变化,为了及时了解学科的发展动态,术语抽取的需求应运而生。
术语抽取方法总体上有两种:基于规则的方法和基于统计的方法[1-2]。
目前,主流方法是将两者结合起来使用,即基于统计与规则相结合的方法。
统计部分通常是通过计算字串间的结合强度来判定两个字串是否可以组成一个术语[3]。
互信息改进方法在术语抽取中的应用

摘
要: 为了确定改进互信 息( P M I ) 方法的参数 取 何值 时能够克服 互信 息( P M I ) 方法过 高估 计 两个低频 且总
是 一起 出现 的 字 串间 结 合 强 度 的 缺 点 , 解 决 术语 抽 取 系统 采 用 经过 分 词 的语 料 库 时 由 于 分 词 错 误 导 致 的 某 些 术 语 无
o f t wo l o w一  ̄e q ue n c y wo r d s . To g e t t h e p r o p e r v a l ue o f k o f i mp r o v e d PMI n a me d PMI t o o v e r c ome t he s ho r t c o mi n g o f PM I , a n d s o l v e t h e p r o bl e m t ha t t he t e r m e x t r a c t i o n c a n no t b e o b t a i ne d f r o m a s e g me n t e d c or pu s wi t h s e g me nt a t i o n e r r o r s ,a s we l l a s
互 信 息 改 进 方 法 在 术 语 抽 取 中 的 应 用
杜丽萍 , 李晓戈 , 周元哲 , 邵春 昌
( 1 . 西安 邮电大学 计算 机学 院, 西安 7 1 0 1 2 1 ; 2 . 中央 民族大学 理学 院, 北京 1 0 0 0 8 1 ) ( 通信作者电子邮箱 l i x g @x u p t . e d u . c a )
关键 词 : 术语抽取 ; 专 业 术语 ; 知 识 获 取 ;互信 息 中 图分 类 号 : T P 3 9 1 . 1 文献标志码 : A
基于AJAX技术的中文术语抽取系统的设计与实现

基于AJAX技术的中文术语抽取系统的设计与实现张昭楠【摘要】From the perspective of the user needs to determine the design and realization of the Chinese Term Extraction Based AJAX technology technology, the user point level system will Feiwei three interrelated subsystems, namely Chinese term extraction, Chinese custom extraction and based on user feedback the self-learning system, and the functions and tasks were divided into three subsystems. It also uses two definitions of the terms corpus respectively for Chinese and Chinese extraction system terminology extraction system for a certain amount of testing, test results show that the accuracy of the system compared to the previous system upgrade by 40%to 63.75%, can recall It reached 78.84%, and in terms of humanization and human-computer interaction have gone to great innovation and improvement.%文中从用户需求的角度出发确定并设计实现了基于AJAX技术的中文术语抽取技术,在用户角度层面上将系统飞卫3个相互联系的子系统,即中文术语抽取、中文定义抽取和基于用户反馈的自学习系统,并且对3个子系统的功能和任务进行了划分。
一种基于统计技术的中文术语抽取方法

一种基于统计技术的中文术语抽取方法刘剑;唐慧丰;刘伍颖【摘要】中文术语识别与抽取是中文文本信息处理的基础,对于提高中文文本索引与检索、文本挖掘、本体构建、潜在语义分析等的处理精度有着重要的意义。
文章以互信息和信息熵理论为基础,提出一种基于统计技术的中文术语半自动抽取方法,并且以互联网新闻话题数据为对象进行了实验验证,结果表明所提方法能够有效支持中文术语的抽取。
%Chinese terminology extraction is a fundamental issue in Chinese text information processing. It has been applied in many other fields, such as Chinese text indexing and retrieval, text mining, ontology construction, and latent semantic analysis. Based on mutual information and information entropy theory, we proposed a semi-automatic Chinese terminology extraction method by statistical technology, and experimental y verified this method using internet news topic data. Our results show that proposed method can effectively support Chinese term extraction.【期刊名称】《中国科技术语》【年(卷),期】2014(000)005【总页数】5页(P10-14)【关键词】互信息;信息熵;中文术语抽取【作者】刘剑;唐慧丰;刘伍颖【作者单位】解放军外国语学院,河南洛阳471003; 中国科学院计算技术研究所,北京100190;解放军外国语学院,河南洛阳471003;解放军外国语学院,河南洛阳471003【正文语种】中文【中图分类】TP311;NO4;HO83术语是用来刻画、描写领域知识的基本信息承载单元,术语识别与抽取是文本信息处理的基础,对于提高文本索引与检索、本体构建、文本挖掘、潜在语义分析等方面的处理精度有着重要的意义。
基于 Web 的中英文术语自动抽取技术

作者签名: 日 期:
导师签名: 日 期:
摘
要
摘
要
术语广泛的存在于科技文档中,如何提取、分析、理解以至翻译这些术语 成为现在自然语言处理的一个研究方向。随着当今世界信息量的急剧增加和国 际交流的日益频繁,计算机网络技术迅速普及和发展,语言障碍愈加明显和严 重,对机器翻译的潜在需求也越来越大。双语术语散落在这些海量的互联网文 本数据中,靠人工进行检测和提取是不可想象的。本文所要解决机器翻译中如 何快速地对网络文本进行处理,从中抽取出较为准确的术语中英文互译候选, 以减轻人工筛选的工作量。 目前,双语术语的研究一般是运用句法分析或者引入双语词典的方法,实 现句子对齐,而后从对齐的句子运用算法,抽取互译词。而本文的基本思路是 在无监督的情况下,利用网络上大量存在的中英文术语互译信息,达到自动抽 取中英文术语候选的目的。我们通过对互联网上大量文本信息的观察,选取一 类符合规则的文本,针对文本建立一个语言模板,运用网络爬虫,抓取网页生 成网络文本语料库;而后,在 MapReduce 架构下对网络文本语料进行处理,抽 取符合该语言模板规定的大量中英文词对;对抽取出来的大量中英文双语术语 候选进行预处理,过滤掉部分噪声;对预处理后的数据运用多种优化的 LCS 算 法加以抽取,生成中英文双语术语互译词典,并对结果加以评测。 本文的研究工作主要包括在以下几个方面: 1. 在 MapReduce 架构下,对抓取的文本语料库数据快速处理,以获得所需 文本数据资源。 2. 设计了一套无监督的双语术语自动抽取软件系统,能较为及时准确地发 现并更新术语库。 3. 基于 LCS 算法提出并建立了两种将规则和统计的方法相结合的双语术语 自动抽取模型。 4 用 CRFs 辅助优化 LCS 算法, 对比试验结果, 分析 CRFs 分词对 LCS 算法 的影响。 关键词: 术语 自动抽取 机器翻译 中文信息处理 自然语言处理
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2 基于互信息的字串内部结合强度计算
记待识别字串为 c = c1 c2. . . cn , c的两个最长子串记为 a = c1 c2. . . cn21 , b = c2 c3. . . cn。例如 ,字串“自然语言处理 ”, c =自 然语言处理 ; a =自然语言处 ; b =然语言处理 ; 记 f ( c)为字串
频次 52 51 48 47 42 38 38 38 35
术语 产生式规则 概率上下文无关文法 句法分析技术 输入缓冲区 最大匹配 链接表达式 部分分析技术 状态转移网络 合一运算
频次 34 34 33 31 24 23 22 22 20
4. 3 分析
没有召回的术语可以分为两类 :一类是字串内部结合强度 低于最佳阈值的术语 ,主要为两字术语 ,如“论元 ”、“切词 ”、 “施事 ”、“受事 ”、“树库 ”、“文法 ”、“语块 ”、“语料 ”、“组块 ”等 和含有一个基本词的术语 ,如“语料库 ”、“语言学 ”等 。两字词 的最长子串是一个字 ,很显然字出现的频次比较高 ,导致用式 (2)计算的字串内部结合强度很低 ;含有一个基本词的术语 , 由于其最长子串 ———基本词的出现频次较高 ,同样导致字串内 部结合强度很低 。目前这种情况的术语还没有好的方式召回 。 另一类是结合强度虽然高于阈值 ,但由于术语选择阶段的分词 错误 ,应用术语词性构成规则判别时被从术语候选中去除的术 语 。例如 ,“句 / q 法规 / n 则 / c”、“名 / q 词性 / n 成分 / n ”、 “自 /p 动机 / n”等 ,由于第一个词为量词 ( q)或介词 (p ) , 应 用 术 语 的 词 性 构 成 规 则 , 系 统 认 为 不 是 术 语 。 (下转第 77页 )
Chinese Term Extraction System Based on M utual Information
ZHANG Feng1 , XU Yun1 , HOU Yan2 , FAN Xiao2zhong1
( 1. D ept. of Com pu ter S cience & Engineering, B eijing U n iversity of Technology, B eijing 100081, China; 2. Com pu ting Center, Guangdong U niversity of Technology, Guangzhou Guangdong 510520, China)
表 1 普通词语搭配前缀 、后缀示例
序号 1 2 3 …
前缀 基于 可以 处理
…
后缀 问题 方法 结果
…
序号 4 5 6 …
前缀 有关 可能 进行
…
后缀 错误 进行 困难
…
3. 2 术语词性构成规则
术语中的相当一部分是基本名词短语 ,但也有例外 ,如术 语“自然语言理解 ”、“中文信息处理 ”,结尾词为动词 ,并不符 合基本名词短语的定义 [6 ] 。结合基本名词短语的词性构成信
息 ,在对大量术语分析的基础上 ,我们总结了术语词性构成规 则 ,如表 2所示 。
表 2 术语词性构成规则
编号 1 2 3 4
规则描述 术语中至少含有一个动词 、名词或名词性成分 ( n, vn, an, Ng) 术语最后一个词为动词 、名词或名词性成分 ( v, n, vn, an, Ng) 术语第一个词不为介词 (p ) 、量词 ( q) 术语中没有连词 ( c) 、代词 ( r) 、语气词 ( y)
常见的切分标志进行切分 ,得到字串集合 。常见的切分标志为 标点符号 、中西文数字以及常见的助词 (的 、了 、着等 ) 。
在领域文本粗切分后 ,系统采用互信息计算待识别字串的 内部结合强度 ,进行术语候选的抽取 。然后利用普通词语搭配 前缀 、后缀信息库和术语的词性构成规则进行术语选择 ,得到 最终术语抽取结果 。系统结构如图 1所示 。
针对每一个术语候选的词性序列应用这些规则 ,得到系统 术语抽取的最终结果 。
4 实验结果及分析
4. 1 术语抽取评价指标
本文采用的术语抽取评价指标如下 :
( 1 )术语抽取准确率
系统抽取的正确的术语数 p = 系统抽取的术语总数
×100 %
( 2 )术语抽取召回率
系统抽取的正确的术语数 r =文本集中包含的术语总数
3 术语候选抽取及术语选择
对原始领域文本经过粗切分后得到的每一个字串 ,系统以 字为单位顺序扫描 ,通过基于大规模领域语料计算其子串的内 部结合强度 (互信息 ) ,把内部结合强度超过预先设定阈值的 子串抽取出来 ,完成术语候选的抽取 。
术语选择就是从术语候选集中选出正确的术语 。对术语 候选集观察分析后 ,我们发现术语候选一般包括基本词 、人名 、 地名 、机构名 、普通词语搭配 、正确的术语和无意义的字串组 合 。基本词 ,就是分词词表中已经有的词 ,这其中也有部分术 语 ,如“机器翻译 ”、“正态分布 ”等 ,因为可以被分词系统正确 切分 ,我们直接从候选中去除 ;对人名 、地名和机构名等未登录 词的识别 ,国内外的研究很多 ,而且已经达到不错的识别效果 , 因此 ,本系统也不作为处理对象 。那么在所剩的术语候选中 , 术语干扰项就剩下普通词语搭配和无意义的字串组合了 。
·72·
计算机应用研究
2005年
基于互信息的中文术语抽取系统
张 锋 1 , 许 云 1 , 侯 艳 2 , 樊孝忠 1
(1. 北京理工大学 计算机科学与工程系 , 北京 100081; 2. 广东工业大学 计算中心 , 广东 广州 510520)
摘 要 : 介绍了一个中文术语自动抽取系统 ,该系统首先基于互信息计算字串的内部结合强度 ,从而得到术语 候选集 ;接着从术语候选集中去除基本词 ,并利用普通词语搭配前缀 、后缀信息进一步过滤 ;最后对术语候选进 行词法分析 ,利用术语的词性构成规则进行判别 ,得到最终的术语抽取结果 。实验结果表明 ,术语抽取正确率为 72. 19% ,召回率为 77. 98% , F2测量为 74. 97%。 关键词 : 术语抽取 ; 互信息 ; 语料 中图法分类号 : TP391 文献标识码 : A 文章编号 : 100123695 (2005) 0520072202
第 5期
张 锋等 :基于互信息的中文术语抽取系统
·73·
M I = log2
p ( c) p ( a) p ( b)
= log2
f ( c) f ( a) f ( b)
(2)
如果字串 c结合十分紧密 ,那么 f ( c)就与 f ( a)或 f ( b)相
差不大 ,依据式 ( 2)计算的字串互信息就比较大 ;反之 , f ( a)和
如表 3所示 ,其中最佳阈值是以 F2M easure为指标确定的 。 表 3 实验结果表
最佳阈值 术语总数 抽取数目 正确数目 准确率 ( % ) 召回率 ( % ) F2M easure (% )
13. 4
486
525
379
72. 19
77. 98
74. 97
系统抽取出的一些术语及其在语料中的出现频次如表 4 所示 。
f ( b)就会远远大于 f ( c) ,这样计算出来的互信息就比较小 。因
此 ,互信息可以用来表示一个字串的内部结合强度 。
基于统计的思想认为 ,一个词语搭配如果在语料中出现 ,
那么它肯定不止出现一次 。因此运用上述公式分析字串的内
部结合强度时 ,一般只对在语料中出现次数大于两次的术语进
行考察 。
c1 c2. . . cn 在语料中的共现频率 ; p ( c)为字串 c1 c2. . . cn 在语料 中的共现概率 。根据最大似然估计 ,在语料规模足够大的情况
下 ,可以认为 p ( c)等于 f ( c) 。其中 n为字串的长度 , 要求 n >
1。
在信息论中两个事件 AB的互信息计算如下 :
1 系统结构
系统的应用对象是专业领域的文本 ,而原始领域文本中汉 字是以“字 ”为单位的 ,直接对原始文本逐字分析来进行术语 提取 ,不但速度慢 ,而且没有语言知识的引导 ,容易出现术语边 界判断不准等错误 。我们对原始领域文本先进行粗切分 ,即按
收稿日期 : 2004205231; 修返日期 : 2004207215
Abstract: A n automatic Chinese term extraction system based on mutual information is p resented. Firstly, the system gets term candidates by calculating internal associative strength of characters string using mutual information. Then, term selection from term candidates is done using basic word dictionary, common collocationπs suffix, p refix bank and some term PO S composing rules. Experiment show s the p recision is 72. 19% , recall is 77. 98% and F2measure is 74. 97%. Key words: Term Extraction; M utual Information; Corpus
×100 %
(3) F2测量
F2M easu re = 2pr p+r
4. 2 实验结果
我们以《计算语言学概论 》[7 ]的电子书稿约 21 万字作为 领域文本和统计语料进行了术语抽取实验 ,其中对术语候选的 词法分析采用中科院计算所的 ICTCLAS词法分析系统 。通过 人工方式获得该语料中术语集合 (共 486个 )作为术语抽取结 果评价的依据 。需要说明的是 ,分词词表中已经存在的和语料 中出现次数少于三次的术语没有列入该术语集合 。实验结果