新词发现综述
近二十年来我国网络新词研究综述

、
网络 新词 的研究 尚处 于探 索 阶段
根据 1 9 9 4 年至2 0 1 5 年对 中国知网数据库统计 ,选择哲学 与人 文科学 、社会科学的学科领域 ,输入篇名 “ 网络新词 ” 的期 刊论 文共 计2 5 6 篇 ,以 “ 网络语 言 ”为篇 名 的期 刊为 2 4 5 8 篇 ,由此可见现阶段的 网络新词研究成果数量仅 占整个 网络语言研究 成果 的1 O %。从 图1 可知 ,1 9 9 4 年至 1 9 9 8 年这 期 间对 网络新词的研究 尚未涉足 ,从2 0 0 6 年开始呈现上涨 的 趋势 ,其 中2 0 1 0 年至2 0 1 2 年这几年 区间涨势最快 ,呈现直线
全文数 据库仅有6 篇 ,占总数 的2 %,来 源于中国优秀硕士学 位论文全文 数据库的硕士论文有 1 6 篇 ,中国学术期刊 网络 出 版 总库 的 比例最大 ,占6 3 %。由此可见对 网络新 词研究 的层
此外 网络中为人 们所 熟知的一些典型新词也被作为 主要研究 对象 ,如动词类 的 “ 晒”、 “ 闪玩”分别从隐喻 的视角解释 其 流行语 义 ,从社会 文化 心理 方面 探讨流 行 的主要 原 因。 称 谓类 的 “ 亲” 、 “ 土豪 ”、 “ 厣丝 ”等 分别从 隐喻和理 想 认知模 型等 视角 对本义 及引 申义 、语义 、感 情色 彩 、语 言 规范方 面加 以探 析。 形 容词类 “ 萌 ”、 “ 给力 ” 、 “ 腹 黑 ”、 “ 二 ”、 “ 奇 葩”等分别从社会学 、认知语言学及修 辞学辨析这类词 的指 称范围 、词语所附着 的价值及色彩意义
增长幅度不定 。
10年来的汉语新词语研究

10年来的汉语新词语研究中国语言学研究发展到今天,已经走过了50多个春秋,经历了30多年的沉寂,从80年代初期开始又有了发展和变化。
新词语的出现是这些变化的重要内容。
特别是80年代后半期以来,新词语以平均每年200多个的速度不断地涌现,与社会的政治、经济生活的关系日益密切,成为一种广泛使用的重要词汇资源。
近10年来,新词语的研究引起了语言学界极大的关注,取得了令人瞩目的进展。
本文将回顾这一时期汉语新词语研究的进展情况,探讨其发展规律,并提出今后的研究方向。
当然,任何研究都有一个由不成熟到成熟的过程,新词语研究也是如此。
我们看到,对于新词语的研究,我们并没有达到预想的目标。
这主要是因为研究者的立场、角度不同造成的。
有人认为,词典编纂者应该对词语作出科学的解释;而在另外一些人那里,则认为是词典编纂者把字典编好就行了。
笔者是赞同前者的,但却也认为,研究者的观点对某一问题的正确解决,并不能完全忽视。
我们知道,词语是在使用中产生的,词语的使用与所依托的文化背景、思维方式等密切相关,词语的产生有着自身的规律。
比如,我们虽然对早期汉语中的某些词语已经有了明确的界定,但后来在不同历史条件下产生的新词语却很难加以说明。
当然,新词语研究中也存在一些值得商榷的地方。
主要是:一些著作在引证中仅以“带”为单位,这样的引证显得比较粗疏;有的研究者在论述中仍然停留在意义分析层面上,没有看到研究的目的在于揭示规律;在词语引证方面,尽管已经有一些专门论著的出版,但仍存在一些错误,其中一些是非常低级的,甚至可以归入错误的范畴。
我们应该正视这些问题,努力改善它们。
这里只是指出一些具体的失误,希望能够促使大家去进行深入的研究。
新词语研究中,有许多是可以互相借鉴的。
比如在词义分析方面,比较词义学已经积累了许多成果,它们都可以成为我们有益的借鉴。
还有一个值得重视的方面是,对词语和表达法的研究往往有密切的联系,如果我们能够抓住词语和表达法之间的这种密切联系,有时候可以使研究工作大大简化,从而节省更多的时间和精力。
现代汉语新词语研究综述

现代汉语新词语研究综述作者:刘明阳曾立英来源:《汉字文化(教育科研卷)》2017年第15期【提要】新词语是社会发展的集中体现,对现代汉语新词语的研究有助于把握语言生活状况和汉语语言面貌。
本文通过对现代汉语新词语研究文献的梳理和总结,回顾了新词语研究的发展历史,分析了新词语研究的发展阶段,对新词语的研究现状进行了全面的归纳,肯定了新词语的研究价值,对预测新词语的研究趋势具有一定价值。
【关键词】现代汉语新词语发展历史研究现状词汇在语言各个要素中是最活跃的,它无时无刻不处于变化的状态,尤其是在社会发生重大变革的时代。
每次社会重大的变化都促使一批新词的出现,有的词有了新的形式,有的有了新的意义,有的有了新的用法,也有的词不再使用。
词汇上的这些变化都和社会的发展息息相关。
新词语的认定是相对的,五四时期涌现的新词相对于古代汉语、近代汉语来说是新的,相对于建国以后涌现的新词又属于旧词,而建国初期的词跟改革开放以来的新词比起来却也算是旧词了。
改革开放以来,我国社会经济、科学技术、人民生活等各方面都发生了翻天覆地的变化,特别是今天——在互联网普及的信息时代,一批又一批带有着时代特征的新词涌现,既是汉语词汇系统不断发展的体现,又带有社会变革和时代变迁的烙印。
新词语的大量出现逐渐引起了语言文字工作者的重视,而有关新词语资源的深入挖掘也已经上升到了国家层面。
我国教育部及国家语委于2007年8月16日举行新闻发布会,首次向社会发布了《中国语言生活状况报告(2006)》,至今已经连续十多年公布年度新词语,这一现象得到了语言学界和社会各行业的广泛关注。
近年来,新词语在人民的日常生活、文化传播、网络社交等领域中使用频率逐渐提高,在学术界掀起了多次热烈的讨论,关于新词语的研究持续升温。
一、新词语研究发展阶段现代汉语新词语研究发端于20世纪50年代,由于各种客观原因,一直处在缓慢发展的状态。
1984年,吕叔湘先生发表了《大家来关心新词新义》,从新词语的产生途径、构成、旧词新义等方面进行探讨,开启了新词语研究的高潮。
新词新语的发展趋势

新词新语的发展趋势
新词新语的发展趋势主要体现在以下几个方面:
1. 网络新词的快速涌现:随着互联网的普及和发展,网络新词不断涌现。
这些词汇往往与网络文化、网络行为和网络技术密切相关,如“刷屏”、“梗”、“表情包”等。
由于网络的高速传播速度和信息传递的便利性,网络新词往往能够在短时间内迅速流行起来。
2. 流行语的频繁更迭:流行语是指一段时间内在社会上广为流传的、使用频率较高的词语。
流行语具有时效性和代表性,常常体现着当下社会的热点、关注点和价值观念。
随着社会发展的变化,流行语的更迭频率也越来越快,容易在短时间内被取代。
3. 外来词语的日益增多:随着全球化的加深,国际交流与合作的频繁进行,外来词语在日常生活中的使用越来越多。
一方面,外来词语丰富了语言的表达方式,满足了人们多样化的沟通需求;另一方面,外来词语也带来了语言文化的冲击和影响,需要适应和应对。
4. 专业术语的不断推陈出新:随着科技的发展和学科的深化,各个领域的专业术语不断涌现和演变。
专业术语的发展趋势往往与相关领域的研究进展和技术创新密切相关。
新词新语的增加丰富了专业领域的语言表达,也促进了专业知识的传播和交流。
总之,新词新语的发展趋势主要表现为网络新词的快速涌现、流行语的频繁更迭、外来词语的增多以及专业术语的不断推陈出新。
这些趋势既反映了社会的变化和发展,也推动了语言的更新和丰富。
新词汇分析中文版

新词汇分析中文版1.新词汇出现原因分析(一)互联网是新词汇传播的重要传播媒介任何文化的传播必定都需要有一定的载体作为其传播的形式。
当今社会文化传播的重要的媒介之一是互联网。
根据中国互联网络信息中心(CNNIC)数据显示:截至.2015年12月,中国网民规模达到6.88亿,互联网普及率达到50.3%,半数中国人已接入互联网。
这意味着在大多数人的心中认可了互联网这种传播媒介。
而互联网本身传输速度快、范围广、时效性高等特点,使其具备其他媒体无法比拟的优势,所以诞生一个新的语词要迅速被人所知晓并最终认同,互联网平台无疑是最佳选择。
另外由于网络自身的特点,具有一定的私密性,因为隔着计算机不用面对面,可以让普通人在相对隐蔽的环境中畅所欲言,表达他们的观点,人们更乐意在网络平台交流,也由此带动了大批新词汇的产生和发展。
(二)新词汇与当今的社会热点越来越紧密相连任何一个新词汇都是当代社会的产物。
由于社会经济的发展,政治制度的不断完善,人们参与意识不断增强。
再加上网络平台的兴起,使人们能快速了解到许多新鲜的事件,进一步扩展了人们的视野,给在热门事件下产生新词汇创造了良好的条件。
从分析的新词汇增加情况来看,大多的新词汇来自于网络文化。
(三)新词汇及时反映民意任何一种语言都是一种意愿的表达,有些新词汇的出现可能仅仅只表示一种娱乐和玩笑,但随着社会的进步更成为了一种民意表达的工具。
他们往往是以社会事件或热点问题为素材,表达自己的参与意识、舆论意识和批判精神。
如一些网络新词汇已经形成一种尖锐的讽喻说话方式,它们的特点是极其简短,对轰动性的新闻或不正常的事情进行高度概括,以表达网民对其事件的看法与态度。
(四)新词汇是人们求新、求奇的结果当今的社会人民不再只是人云亦云,更多的是追求个性的表达,希望能制造出"具有创新性的艺术语言和充满诗意和哲理的生活语言"[6]。
语言的诸多要素中词汇是变化最快的,新词汇就成为了最佳选择。
浅析现代汉语发展过程中的新词现象

浅析现代汉语发展过程中的新词现象
现代汉语发展过程中的新词现象令人称奇,新词种类繁多,出现的频率也越来越高。
除了外来语拼接出的词外,特别是社会经济发展的诸多新概念所致,更是加速现代汉语新词的诞生率,丰富了汉语的词汇储备。
2019年,37个新词更新到学术新词词典。
包括‘小龙虾肿瘤’,专指一种瘤状微生物寄生在虾体表层的寄生虫病;‘飞马号’,指由中国地震局研制的震源机器人,其通过无人机专业传感器装备生态监测;还有‘非礼之仇’,形象比喻指不容任何性侵、性虐等非礼行为,要维护有关的司法秩序,保护受害者的权利。
另外,一些俗语或表情话、引申义也逐渐成为现代汉语中的新词。
比如,‘商
场盲流’,指因买东西精英购物症状而变得无法自拔;‘成长股’,指越往后期产品和服务越成熟,收入能力更强大的公司;‘互联网+’,指通过互联网技术支持,实现
了信息、知识、人员、资源和服务的融合,为传统行业提供新的模式、产品及服务。
要正确运用新词,学习者除了要掌握词语的含义、用法外,还要特别注意语境的作用,特别是特殊场合(比如正式场合)不能随意使用俗语或表情话。
新词更有助于汉语中的科技术语的修辞,丰富表达准确的语言修辞手段,更助于汉语的发展。
综观新词现象,社会经济发展带来的新概念促成习语演变,汉语开始结合部分外来语,以及利用新词特别是表情语将熟悉的词语丰富,从而使汉语得以更加丰富多采。
现代汉语新词语的产生原因及特点

现代汉语新词语的产生原因及特点语言是一种社会文化现象,是人类社会最重要的交际工具。
词汇作为语言中最活跃的因素,敏感地反映着社会发展和语言发展的状况,也标志着人们对客观世界认识的广度和深度。
语言的发展总是紧跟时代步伐,全面、真实、生动地展现社会生活的全貌。
本文试图通过分析近年来出现的一些新词新语来揭示现代汉语新词产生的原因及其在语义、语法和语音等方面的特点。
一.新词语产生的原因语言是人类社会最重要的交际工具,与人类社会的发展息息相关。
因此,语言的发展受社会发展变化的影响很大。
在语言三要素中,词汇是最活跃、最敏感的部分,它的发展变化是语言文字反映社会发展进程的一面镜子。
新词语大量涌现的原因是多方面的,归纳起来,主要是以下两个方面:(一)社会的因素1.社会生活的深刻变化,表现在政治、经济、文化、教育、医疗卫生和科学技术等各个方面,新事物不断涌现,新思想和新思维也不断推动新词的诞生。
2.传媒的普及和多样化对方言词语的跨地域流行起了关键性的作用,网络时代的到来也加快了网络新词的传播。
(二)语言的因素1.语言交际因素语言作为人类最重要的交际工具,要满足不同时期、不同交际主体的心理要求。
语言使用者的多元性决定了为社会服务的语言形式的多元性,为了适应不同的交际目的和交际方式,新词新义的创造就变得不可避免。
2.语言内部因素语言的发展具有渐变性,这一特点要求新词语的产生不能脱离原有语素,否则造成的新词势必难以被人们快速理解和接受。
"类推机制"是语言中广泛存在的一种机制,在新词语的生成过程中起到非常重要的作用。
很多新词语都是运用这种方式创造出来的,如"换客、拼客、晒客","车奴、房奴、白奴","监控门、解说门、艳照门、虎照门","被就业、被增长、被代表、被自愿"等等。
使用类推机制大量仿造新词,反映了人们在创造新词语时追求简洁的"经济原则"。
新词发现综述

新词发现综述廖先桃摘要:中文自动分词技术是自然语言处理领域一项很重要的基础工作,而随着新词的不断出现,它使中文分词结果中出现过多的“散串”,影响了分词的准确率。
因此,新词识别已经成为中文自动分词的一个难点和瓶颈问题。
本文从新词的概念出发,讨论了新词发现的技术及发展。
关键词:新词发现 中文分词1 引言在中文信息处理领域,由于中文自身的特点,它不像英文那样在词与词之间有空格间隔,因此,中文自动分词是一项很重要的基础工作。
但是随着社会和互联网的不断发展,新词语不断在日常生活中涌现。
据中国语言文字工作委员会专家曾做的一个保守统计,中国自改革开放的20年来平均每年产生800多个新词语[1][2]。
新词的出现,使得自动分词结果中出现过多的“散串”,从而影响了分词的准确率。
最近的研究还显示,60%的分词错误是由新词导致的[20]。
因此,有效地识别新词,将为观察研究分析语言现象的动态变化、规范语言文字以及提高中文自动分词的总体效果起到重要的作用。
2 新词的概念目前,在中文分词领域出现了新词(New Words)和未登录词(Unknown Words)两种概念。
很多研究者并没有对未登录词和新词加以区别,认为它们是一样的[12][13]。
通常,未登录词被定义为未在词典中出现的词[3][4][5]。
(Chen,1997)通过对一个规模为300万词汇的语料统计,将未登录词分为五种类别,包括(a) 缩略词(abbreviation),如“中油”、“日韩”;(b) 专有名词(Proper names),主要包括人名、地名、机构名。
如“张三”、“北京”、“微软”;(c) 派生词(derived words),主要指含有后缀词素的词,如“电脑化”;(d) 复合词(compounds),由动词或名词等组合而成,如“获允”、“搜寻法”、“电脑桌”;(e) 数字类复合词(numeric type compounds),即组成成分中含有数字,包括时间、日期、电话号码、地址、数字等,如“2005年”、“三千”。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
新词发现综述廖先桃摘要:中文自动分词技术是自然语言处理领域一项很重要的基础工作,而随着新词的不断出现,它使中文分词结果中出现过多的“散串”,影响了分词的准确率。
因此,新词识别已经成为中文自动分词的一个难点和瓶颈问题。
本文从新词的概念出发,讨论了新词发现的技术及发展。
关键词:新词发现 中文分词1 引言在中文信息处理领域,由于中文自身的特点,它不像英文那样在词与词之间有空格间隔,因此,中文自动分词是一项很重要的基础工作。
但是随着社会和互联网的不断发展,新词语不断在日常生活中涌现。
据中国语言文字工作委员会专家曾做的一个保守统计,中国自改革开放的20年来平均每年产生800多个新词语[1][2]。
新词的出现,使得自动分词结果中出现过多的“散串”,从而影响了分词的准确率。
最近的研究还显示,60%的分词错误是由新词导致的[20]。
因此,有效地识别新词,将为观察研究分析语言现象的动态变化、规范语言文字以及提高中文自动分词的总体效果起到重要的作用。
2 新词的概念目前,在中文分词领域出现了新词(New Words)和未登录词(Unknown Words)两种概念。
很多研究者并没有对未登录词和新词加以区别,认为它们是一样的[12][13]。
通常,未登录词被定义为未在词典中出现的词[3][4][5]。
(Chen,1997)通过对一个规模为300万词汇的语料统计,将未登录词分为五种类别,包括(a) 缩略词(abbreviation),如“中油”、“日韩”;(b) 专有名词(Proper names),主要包括人名、地名、机构名。
如“张三”、“北京”、“微软”;(c) 派生词(derived words),主要指含有后缀词素的词,如“电脑化”;(d) 复合词(compounds),由动词或名词等组合而成,如“获允”、“搜寻法”、“电脑桌”;(e) 数字类复合词(numeric type compounds),即组成成分中含有数字,包括时间、日期、电话号码、地址、数字等,如“2005年”、“三千”。
新词虽然也是未在词典中出现的词,属于未登录词,但它和未登录词还是不同的。
(周,et al.,2004)认为应该从两个方面把握新词的定义,(1)从词典参照的角度来说,新词语是指通过各种途径产生的、具有基本词汇所没有的新形式、新意义或新用法的词语[6]。
即鉴定新词语的参照系是现代汉语基本词汇的词形、词义和词语的用法。
(2)从时间参照角度来说,新词语是出现在某一时间段内或自某一时间点以来所首次出现的具有新词形、新词义或者新用法的词汇[7]。
从语言学角度来讲,汉语中的新词语按照来源大体可以分为以下几类[2][6]:(1) 命名实体:包括人名、地名、商品名、公司字号、机构名等;(2) 缩略语:如“非典”、“计生委”等;(3) 方言词:如“靓”、“埋单”等;(4) 新造词:如“伊妹儿”、“美眉”等;(5) 专业术语:如“非典型肺炎”、“蓝光光盘”等;(6) 音译词:如“酷”、“秀”、“克隆”等;(7) 字母词:如WTO、APEC等;(8) 词义、用法发生变化的旧有词语:如“下课”、“充电”等。
其中还包括一种“旧词新用”的语言现象,比如“高就”、“赏光”等,很长时间不用了,最近又重新出现在语言中。
当然,根据实际的需要,新词的定义也有所不同,如(Wu,2000)中识别的新词是指最近出现的词、偶然出现的词、以及其他很少使用的词,这些词既不能在词典中找到,也不能通过识别系统的规则识别出来,如“冷射”、“球痞”、“鲜丽”等。
本文中讨论的新词主要是指(周,2004)中定义的除命名实体之外的新词。
从上面的新词的含义及分析来看,新词发现技术存在着以下难点:(1) 由于中文词语定义的模糊性,新词没有统一的定义标准,且涵盖面广,很难找到一种通用的有效的方法;(2) 新词尤其是非命名实体,在构成方面没有普遍的规律;(3) 对于低频新词由于数据稀疏,识别难度很大;(4) 很难根据词语的词形、词义和词语用法的变化以及利用时间信息发现新词。
3 国内外研究现状3.1 新词的研究领域语言随着社会的发展而发展,在词汇中的一大表现就是新词语的出现。
新词的产生引起了语言学者的特别关注,自80年代以来,学者们对汉语新词语进行了较多的研究,这种研究呈现出了多方位,多角度,多层次和立体化的趋势[9]。
主要包括:新词语的界定,新词语的产生与社会、文化的关系,新词语产生的途径,新词语的结构形式特点,新词语的词义发展特点等[9][10][11]。
为了便于计算机研究新词,(亢,2002)从2001年开始开发可机读的新词电子词典——《现代汉语新词语信息电子词典》,已收录新词近四万个。
除了语言学家对新词进行研究之外,自然语言处理领域的专家也一直尝试不同的方法借助计算机从大规模的文本中自动抽取新词。
新词的识别已经是自然语言处理领域一个重要的研究课题。
目前国内的研究单位主要有微软亚洲研究院、富士通研究中心、华中师范大学计算机系、中科院计算技术研究所、北京语言大学语言信息处理研究所、山西大学计算机系等单位,他们在新词识别算法以及对新词结构特征研究等方面做了有益的尝试。
国外的马萨诸塞州大学计算机系彭富春等人对新词识别做了研究,另外还有日本奈良工业大学的Chooi-Ling Goh[21] ,加拿大的Jianyun Nie[4]等对未登录词识别做了很充分的工作。
3.2 新词发现的主要方法在新词发现方法方面,目前主要有基于规则和基于统计两种方法。
基于规则的方法其主要思想是根据新词的构词特征或外型特点建立规则库、专业词库或模式库,然后通过规则匹配发现新词。
基于统计的方法,一般是利用统计策略提取出候选串,然后再利用语言知识排除不是新词语的垃圾串。
或者是计算相关度,寻找相关度最大的字与字的组合。
规则的方法主要缺点在于局限于某个领域,并且需要建立规则库等。
而统计的方法,一般都是限于查找较短的新词语。
(郑,2002)完全采用规则的方式识别新词,一方面以新词的构词知识为基础建立新词识别的常用构词库,另一方面从网上词语的特征出发建立特殊构词规则库。
并按照规则所取的作用分为“互斥性子串”过滤规则、常规构词规则、特殊构词规则。
利用这些规则过滤并确定新词。
封闭测试准确率为91.2%,召回率95%。
规则的方法准确率较高,但是总结规则费时费力且受领域限制。
另外,本文抽取的规则形式较单一,不能描述所有的情况。
动态流通语料库是指面向媒体(如报纸等)采集到的语料库,由于实时性强,领域广,常含有很多新词。
(颜,2003)提出利用动态流通语料库的VSM新词识别方法。
首先对新词现象做了系统分析,再根据新词特点利用动态流通语料库构建一个含有M个属性的语素属性库,即建立VSM模型,然后通过计算空间向量的相似度的方法发现新词。
这种方法比较简单,但是由于建立VSM模型时属性只用0和1表示,区分度不大,故容易引入噪音。
由于建立规则的过程需要对新词的特点进行细致的分析,而且规则常与领域相关,不易移植,于是越来越多的研究者开始借助统计方法获取新词信息,并将统计和规则结合识别新词。
(Chen,2003)在识别数字、时间、人名等新词时利用了语言学触发规则,如后缀词、姓用字、名用字等。
同时对其他新词,作者计算了一个单字的成词概率,当相邻的两个单字的概率的乘积大于某个事先预定的概率时,则认为这两个字组成一个新词。
这种识别新词的方法存在明显的缺陷,一是只考虑了由两个字组成的新词,二是仅利用概率条件,过于简单。
将新词识别加入分词模块之后,R oov和F值分别提高11%和0.08%。
(Wu,2000)是在规则系统中加入了统计信息以提高新词总体的识别效果。
首先对文本进行分词以及NE、数字等识别,然后对句子中的散串计算单个汉字的IWP(c)和多个汉字串的IWP(s),并设定域值挑选新词候选字串。
另外再由候选字串的词性与位置、词长之间的关系假设,计算P(Cat,Pos,Len)概率值,并根据域值判断候选串是否是新词。
测试的F值为56%。
该方法通过统计加入了词的内部成词信息,也考虑了分词等外部信息,但是它没有利用新词本身的语言特性。
另外,由于假设条件的限制,只能识别长度为2到4个汉字的新词。
(贾,2004)提出采用基于概率统计技术和规则方法的新词发现方法。
作者从网上获得大规模待处理的文本,预处理之后进行分词和词性标注,然后建立二元统计模型。
此时利用统计方法选出共现频次在均值之上的词汇组合作为候选词串,对候选结果再利用规则——单字组合词规则、多字组合词规则等过滤,最后由人工选择确定最终的新词结果。
该方法虽然加入了统计信息,加快了从大规模语料中获取信息的速度,但是统计的方法会受数据稀疏问题的影响,不利于低频新词和含汉字较多的新词的发现。
另外规则过滤的效果也依赖规则的获取和完备性。
最终的人工干预也降低了新词发现的效率。
针对多字新词抽取精度不高的情况,研究者提出基于质子串分解的新词发现技术[18]。
他们对从Internet上采集的网页,使用改进的互信息参数(F-MI)抽取结构简单的词汇(质词),在此基础上,再用质子串分解的方法,将长串分解为更短的子串,然后通过子串之间的关联程度来评估长串成为新语的可能性。
从而提高了长串的抽取精度。
(周,2004)中新词识别方法,首先大规模处理网页,对于切分后的网页内容,用重复串查找寻找新词语。
接着根据给定的时间,建立一个给定时间之前的大规模的词与串的背景词串集合,这个集合里面不仅包括了大部分已有的词语,还包括了噪音和固定搭配。
然后作者在这个背景词串集合的基础上,通过评价函数对于给定时间以后的词和串进行比较和评价,从中得到新词语候选。
最后用过滤规则对新词语候选进行过滤,得到最终的新词语结果。
新词发现精确率30%以上,召回率90%以上。
本文的不同之处在于,他们利用了新词构成特征以及时间特征,同时将统计与规则很好的结合,可以寻找某一时间点后首次出现的不限领域和长度的任意新词语。
但他们总的识别效果不是太好。
前边用到的统计方法大都是用作规则的辅助策略。
(Peng,et al.,2004)则完全采用统计的方法。
作者将分词和新词发现作为一个统一的过程,利用CRF(Conditional Random Fields)模型,将词汇特征和领域知识等很好的融入到模型中。
同时,发现的新词会加入到词典中改善分词器的性能,改善后的分词系统又能更好的识别新词,两者互相促进,达到了很好的识别效果。
(Li,2004)主要研究了两种类型的新词:NW11(由两个汉字组成)和NW21(由一个二字词后跟一个单字组成)。
作者将新词识别问题看作一个二元分类问题,对NW11和NW21分别选用不同的特征并利用SVM分类器进行分类。
NW11和NW21的F值分别为64.4%和54.7%。