低频词的中文词性标注研究

合集下载

浅谈《现代汉语词典》(第五版)词性标注的几个问题

浅谈《现代汉语词典》(第五版)词性标注的几个问题

浅谈《现代汉语词典》(第五版)词性标注的几个问题摘要:本文主要从功能的角度对《现代汉语词典》(第五版)的词性标注进行了初步的探索,主要涉及词性标注及其与释义和配例相一致、兼类词的释义等几个方面的问题,对《现汉》(五)的成功和不足之处作了一定说明。

关键词:《现代汉语词典》(第五版)词性标注释义《现代汉语词典》是目前国内最有影响的语文辞书之一。

对现代汉语词典质量产生影响的根本性因素,是词典的释义问题。

一、《现代汉语词典》(第五版)词性标注现代汉语词典标注词性,给汉语教学、用户的学习和使用和中文信息处理等带来了很大的方便。

标注词性必须要对词类系统和词与非词进行界定。

科学的给词归类,主要根据词的语法功能。

陆俭明提出的词类划分标准是:1、词充当句法成分的功能,2、词跟词结合的功能,3、词表示类别的功能,即语法意义。

《现代汉语词典》(第5版)依据的词类是中学语文课本的教学词类系统,是比较科学的。

如:集成:【动】同类著作汇集在一起(多用做书名):《丛书~》|《中国古典戏曲论著~》。

(《现汉》(五)p592)集锦:【名】编辑在一起的精彩的图画、诗文等(多用做标题):图片~|邮票~。

(《现汉》(五)p593)《现代汉语词典》(第5版)中的“集成”与“集锦”根据配例来看,“丛书集成”、“图片集锦”、“邮票集锦”,二者看似相同,但是语法意义不同。

根据“语料库在线”的检索结果,“集成”66条例句中,17个做谓语例句,13个做定语例句,且能带宾语;“集锦”6条例句中5个做中心语。

前者语法意义表示事物的动作、行为或变化、存在,后者的语法意义表示事物名称。

所以二者词性标注不同。

另外,在根据功能判断词性的基础上,也不能完全脱离意义。

“集成”与“集锦”词汇意义也不同,“集:1.集合;聚集”(《现汉》(五)p639),“成:3.【动】成为;变为”(《现汉》(五)p171),“集成”有“汇集成为”的意思,释义行文体现为动词性。

“锦:有彩色花纹的丝织品”(《古汉语常用字字》p150),这里应为比喻义,指美好的东西,所以“集锦”释义行文应体现为名词性。

《现代汉语词典》(第7版)词性标注商榷

《现代汉语词典》(第7版)词性标注商榷

《现代汉语词典》(第7版)词性标注商榷
苏矗
【期刊名称】《新乡学院学报:自然科学版》
【年(卷),期】2018(035)002
【摘要】《现代汉语词典》是我国的一部汉语规范词典,从第5版开始其对所收条目做了全面的词性标注。

第7版的修订使《现代汉语词典》的词性标注已逐步趋于完善。

但《现代汉语词典》(第7版)在词性标注方面似乎仍存在一点可商榷之处:一些已标注动词、形容词的条目配例不确,其中出现了“名物化”现象,将这种有争议的现象列入词典会带来误解。

【总页数】4页(P51-53)
【作者】苏矗
【作者单位】河南师范大学文学院河南新乡453007
【正文语种】中文
【中图分类】H042
【相关文献】
1.《中韩词典》词性标注问题探索——与《现代汉语词典》对比 [J], 颜湘茹;Kim Sun Ah
2.《现代汉语词典》与《现代汉语规范词典》词性标注差异研究 [J], 雷莉;鲜丽霞
3.论《现代汉语词典》(第6版)词性标注与例句不一致问题 [J], 胡静书
4.《现代汉语词典》(第7版)词性标注商榷 [J], 苏矗
5.《现代汉语词典》(第6版)词性标注与例证不相配的类别 [J], 冯桂华
因版权原因,仅展示原文概要,查看原文内容请购买。

《现代汉语词典》标“书”词研究(上)

《现代汉语词典》标“书”词研究(上)

《现代汉语词典》标‚书‛词研究(上)一、序言书语词是现代汉语中常出现于书面语,带有典雅、正式、庄重色彩的一类词。

《现代汉语词典》(1996年版;下同;以下简称《现汉》)用‚‛对这类词作了标示,‚凡例‛的说明是:‚一般条目中,标的表示书面上的文言词语。

‛如:‚学子:学生:莘莘(shēnshēn)~(很多学生)。

‛‚嘉许:夸奖;赞许:品学兼优,深得师长~‛‚凡例‛显示标‚‛的词具有两个特点:一是它的使用范围是书面语,即口语中一般不会用到。

二是它的来源是文言词语。

为了在行文时加以区分,本文用‚书语词‛表示一般意义的书面用词语,用标‚书‛词指《现汉》中作了‚‛标示的词。

对词的语体色彩进行标示,是《现汉》的一个重要创举。

它还对另两类词语也作了语体色彩标示,‚标的表示方言‛,‚标的表示古代的用法‛。

这些标示对加强语言分析和理解的准确性,对提高人们使用语言的水平都是有积极作用的。

《现汉》的标‚书‛词有5570条,占全书词目的近十分之一,这个比例是相当大的。

那么这数量众多的标‚书‛词是些什么样的词,它们表达了怎样的意思?传递着怎样的语言交际信息,在汉语词汇体系中居于什么样的地位?这都是值得探讨的问题。

值得进一步探讨的是,标‚书‛词与标了‚‛的词如何区分?《现汉》的释义中还存在着‚旧词语‛,用来表示那些正在逐步退出现代汉语使用的词语;还有指称古代事物的词语,即历史词。

标‚书‛词与它们之间又有着怎样的关系?相互之间如何区分?这些都是很值得探讨的问题。

最终,当然也就可以回答‚标书词‛是不是都是‚书语词‛的问题。

这种探讨不仅跟词汇学有关,而且进入了词典编纂学的范围。

在词汇学上它将能帮助我们认识汉语词汇系统的内部成分及其关系,在词典学上将有助于词典编纂水平的提高,有助于提高使用者正确运用词语的水平。

二、标‚书‛词的分布与归类《现汉》共有标‚书‛词5570条。

现在先来看看这些标‚书‛词的构成。

根据‚‛标注的词目单位的大小,可分出义项标示与整词标示两类。

词性标注实验报告

词性标注实验报告

词性标注实验报告词性标注实验报告引言:词性标注是自然语言处理中的一项重要任务,它的目标是将给定的文本中的每个词语赋予相应的词性。

词性标注在许多自然语言处理任务中起着关键作用,如文本分类、机器翻译、信息检索等。

本文将介绍我们进行的词性标注实验,包括实验设计、数据集选择、模型选择和实验结果分析等。

实验设计:为了进行词性标注实验,我们选择了一份中文新闻语料作为实验数据集。

该数据集包含了大量的新闻文本,涵盖了各种不同的主题和领域。

我们将数据集按照80%的比例划分为训练集和20%的比例划分为测试集。

在实验中,我们采用了基于深度学习的词性标注模型进行实验。

数据集选择:选择合适的数据集对于实验的准确性和可靠性至关重要。

我们选择了这份中文新闻语料作为我们的实验数据集,原因有以下几点:首先,新闻语料通常具有较高的质量和丰富的领域覆盖范围,能够有效地评估模型的泛化能力。

其次,中文新闻语料在词性分布上具有一定的规律性,有助于模型学习和预测。

最后,该数据集的规模适中,既能满足实验需求,又能保证实验的可行性。

模型选择:在词性标注任务中,我们选择了基于深度学习的模型进行实验。

深度学习在自然语言处理领域取得了显著的成果,其强大的模型表达能力和自动特征学习能力使得其在词性标注任务中具有优势。

我们选择了基于循环神经网络(RNN)的模型,因为RNN能够有效地处理序列数据,并且能够捕捉到词语之间的上下文信息,有助于提升词性标注的准确性。

实验结果分析:我们使用了准确率作为评估指标来评估我们的词性标注模型的性能。

在实验中,我们得到了约90%的准确率,这表明我们的模型在词性标注任务上取得了较好的效果。

通过对实验结果的分析,我们发现模型在一些常见的词性上表现较好,如名词、动词等,但在一些特殊的词性上表现较差,如助词、连词等。

这可能是因为这些特殊的词性在数据集中的分布较少,导致模型学习不充分。

因此,在未来的研究中,我们可以考虑增加这些特殊词性的样本数量,以提升模型在这些词性上的性能。

《现代汉语词典》(第7版)词性标注商榷

《现代汉语词典》(第7版)词性标注商榷
第 35卷 第 2期
VoL 35 N O.2
新 乡学院学报
Journal of Xinxiang University
2018年 2月
Feb.2018
现 代 汉 语 词 典 (第 7版 )词 性 标 注 商榷
苏 矗
(河南 师 范大 学 文 学 院 ,河 南 新 乡 453007)
一 、 引 言
词类 问题一直是 汉语 语法 上 的一个 老大 难 问题 。 1953年至 1955年 ,语 言学 界展 开 了一 次 汉语 词 类 问 题大讨论 ,讨论 中得 出的值 得肯定的 、相对 一致 的结 论 是 :有没有形态 并不决定词类能不能划 分 ,汉语词类 也 是客观存在 的。但讨论 中并没有解决好词类 划分 的根 据 问题 ,于是有了后来的黎锦熙体系 、朱 德熙体 系 、《暂 拟汉语教 学语法 系统 (简述 )》、《中学教学 语法 系统 提 要 (试用 )》之 间的明显 区别 。同样地 ,这些 不同也 给词 典标注词性带来 了极 大的不便 。《现代汉语 词典 》从第 5版开始对其所 收 条 目做 了全 面 的词性 标 注 ,依 据 词 的语法功 能 、兼顾 词的语法意义 ,将 词分 为 12大类[1], 贯彻 了 1984年《中学教学语法 系统提 要 (试 用)》(以下 简称《系统 提要 》)[2 中的词类 系统 。其后 的第 6版 、第 7版仍沿用了此体系 。随着第 6版 、第 7版 的修 订 ,《现 代汉语词典 》的词 性标 注 已逐步趋 于完 善 。但 是 ,《现 代汉语词典 》(第 7版 )在 词性标 注方 面仍存 在 一点 可 商榷之处 ,即在 一 些 已标 注 动词 、形 容词 的条 目配例 中,出现 了“名 物化 ”现 象 。所 谓 “名 物 化 ”现 象 ,即指 “动词 、形容词失去 了动词 、形 容词的特点 (或 一部分特 点 ),取得 了名词 的一个 特点”_3]。

自然语言处理中的词性标注与句法分析

自然语言处理中的词性标注与句法分析

自然语言处理中的词性标注与句法分析自然语言处理(Natural Language Processing,简称NLP)是人工智能领域中的一个重要分支,主要研究如何让计算机能够理解、处理和生成人类语言。

在NLP领域中,词性标注与句法分析是两个重要的任务,它们可以帮助计算机更好地理解和处理自然语言。

本文将介绍词性标注与句法分析的基本概念、常见方法以及应用场景,并探讨它们在NLP领域的意义和作用。

一、词性标注词性标注(Part-of-Speech Tagging,简称POS Tagging)是NLP领域中的一个基础任务,其主要目标是为一个句子中的每个单词确定其词性。

词性标注可以帮助计算机理解句子的结构和含义,从而更好地进行后续处理和分析。

词性标注通常使用词性标记集合(如标注集)来标注每个单词的词性,常见的标注集包括Penn Treebank标注集、Universal标注集等。

词性标注的方法主要包括基于规则的方法和基于统计的方法。

基于规则的方法通过定义一系列的语法规则和模式来确定单词的词性,但这种方法需要大量的人工设置和维护规则,且适用性有限。

而基于统计的方法则是通过学习语料库中单词与其词性之间的统计关系来确定单词的词性,常见的统计方法包括隐马尔可夫模型(Hidden Markov Model,HMM)和条件随机场(Conditional Random Field,CRF)等。

词性标注在NLP领域中有着广泛的应用,例如在文本分类、信息检索和机器翻译等任务中都需要对文本进行词性标注来帮助计算机理解和处理文本。

此外,词性标注也可以作为更复杂的NLP任务的预处理步骤,如句法分析、语义分析等。

二、句法分析句法分析(Syntactic Parsing)是NLP领域中的另一个重要任务,其主要目标是确定一个句子的句法结构,即句子中单词之间的语法关系。

句法分析可以帮助计算机理解句子的结构和含义,从而更好地进行后续处理和分析。

汉语频度副词研究

汉语频度副词研究

汉语频度副词研究作者:米迪来源:《青年文学家》2014年第05期注:本文由天津师范大学青年基金项目支持,项目名称为《大样本汉语儿童语言习得研究》,项目编号 52WM14。

摘要:在汉语虚词研究中,“总是”和“很少”都属于表示频率的时间副词,但差别在于“总是”属于高频副词,而“很少”属于低频副词。

但汉语研究往往就仅限于将这两个虚词按照以上区别进行归类,并描述他们的使用语境,但就其标记性很少提及。

关键词:频度副词;标记性作者简介:米迪,天津师范大学外国语学院讲师。

[中图分类号]: H136 [文献标识码]:A[文章编号]:1002-2139(2014)-05--02一、频度副词1.1频度副词的分类汉语研究者起初将频度副词划为时间副词类,隨着研究的深入,学者逐渐认识到频度副词有别于时间副词,最终将频度副词单独列出,与时间副词、程度副词、范围副词、否定副词、否定副词等并列为副词次类(参见刘月华1983,邢公畹1992,周小兵、赵新2002)。

所谓频度副词,是指表示事情、行为、动作等发生的频率。

张谊生(2004)与周小兵、赵新(2002)均将汉语频度副词划分为高频、中频与低频三大类:1、高频副词。

指某个事件在一个单位时间内持续不断或者频繁出现的一种状态。

常见的高频副词有:老、总、老是、总是1、始终、成天、整日、彻夜、通常、不停、时刻、一向、向来、历来2、中频副词。

中频是相对高频而言,频度较次于高频的副词,指某个事件在一个单位时间内发生的状态。

常见的有:时、常、频、屡、渐、逐、连、经常、常常、时常、往往、时时、屡屡、频频、每每、渐渐、连连、逐渐、逐步、日渐、不断、不时、随时3、低频副词。

低频副词是频度副词汇总频率强度最弱的,是指某个事件在一个单位时间内很少地或偶然地发生或出现。

常见的有:偶、偶尔、偶尔、间或、偶或、一时、一旦、万一、有时1.2 “很少”表低频含义在上述分类中,学者们并没提及“很少”。

吕叔湘(1980)的书中包含副词“很”和动词、形容词“少”,也没有“很少2”一词。

《十三经辞典》词性标注问题

《十三经辞典》词性标注问题

《十三经辞典》词性标注问题白玉林【期刊名称】《辞书研究》【年(卷),期】2000(000)006【摘要】多年来,通过编写《古汉语虚词用法词典》、《大中学生古汉语常用多义字词典》、《古文观止词典》,特别是《十三经辞典》,我们认为给汉语语文词典标注词性是十分必要的,也是可行的。

但同时,它又是一项非常复杂的工作,还存在许多问题有待进一步研究解决。

在这里,把我们编纂《十三经辞典》(以下作《辞典》)的实践和困惑同大家作一交流,以期更好地完善这一工作。

一、确立实用的、科学的语法体系这是为语文词典标注词性首先要解决的问题,也是我们在70年代中期编写《古汉语虚词用法词典》时遇到的问题。

虚词的功用在于它的语法作用,也就是它在组词造句方面的作用,这就不得不涉及语法系统。

而学界对古汉语语法系统是有争论的。

词典不是专著,词典也不能兼收并蓄或引入争论。

为此,我们研究了各家关于古汉语语法的专著和论文,研究了“暂拟汉语教学语法系统”,制定出一个突出古汉语语法特征的《古汉语语法提纲》。

后来在《提纲》的基础上,编成了《古代汉语语法》,1992年由陕西人民出版社出版。

这就成为我们编写《十三经辞典》标注词性的依据。

这个语法体系,随着学术事业的发展,肯定还会不断修订,不断充实,但是作为标注词性的依据是可行的。

二、明确划分词类的标准判断词性,划...【总页数】6页(P)【作者】白玉林【作者单位】【正文语种】中文【中图分类】H16【相关文献】1.《十三经辞典》的编纂历程 [J], 迟铎;白玉林2.《十三经辞典·春秋左传卷》人名词条处理的原则 [J], 曹强3.从《十三经辞典》谈专书辞典的编纂 [J], 白玉林4.古典文献专书辞典编纂原则与方法的有益实践--评《十三经辞典》 [J], 王鸿滨5.古典文献专书辞典的词性标注问题 [J], 周淑萍因版权原因,仅展示原文概要,查看原文内容请购买。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

tg ig ou n— ae ato-p ehtg igi po oe hc c iv s o drsl .Fn l h mp c f ato-p e htg igrsl o agn ,d c me t sdp r—fs ec agn s rp sdw iha he e o eut ial tei a t r—fs ec gn eut n b g s y op a
srtgy i tae mprv st e wh l a to - r stg ig a c a y a y tc i a sn au y0. 0 a d0. 7 rs ciey,whc l tae h o e h oe p r—fwo d a gn c ur c nd s n a tc p ri gF1v le b 6 n 9 e pe t l v ih il r tst e us
i o tn e o dim —a o fe u ntwo d a dl n pato- p e h tg ig. mp ra c fme u nd lw-r q e r s h n i i r— fs e c a gn ng Ke ywo ds r M a mum nto y mo l I fe e twods Do u n - a e r- fs e c a gng S na tc p rig xi e r p de nr qu n r c me tb s d pato- p e h tg i y tc i a sn - -
仲其智 姚建民
( 州 大学 计 算 机 科 学 与技 术 学 院 苏 江 苏 苏 州 25 0 ) 10 6


利用 最 大 熵 模 型 深入 探 讨 了 中文 词 性 标注 问题 。针 对 低 频 词 的 性 能 差 问题 , 原有 常用 特 征 的基 础 上 , 出 了新颖 的低 在 提
p r r n e w t n r q e t r s o e o rq e c e t r su o h ome o e oma c i i f u n d ,n v l w f u n yf au e p n t efr r mmo n sa e p o o e .E p r n so e n T e b n f h e wo l e c n o e r r p s d x ei me t n P n r e a k 2 0 s o t a c rc a e n i r v d t 7 5 r m 8 . 3 Me n h l . o h a i o o v ni n ls ne c — a e a to-p e h . h w i c u a y h s b e mp o e o 8 . 4 f 2 9 . s o awi e n te b s fc n e t a e tn e b s d p r—fs e c s o
第2 8卷 第 3期
21 0 1年 3月
计 算 机 应 用 与 软 件
Co p trAp lc t n n o wa e m u e p iai sa d S f r o t
Vo. 8 No 3 12 . M a . 01 r2 l
低 频 词 的 中 文 词 性 标 注 研 究
A b tac sr t Th pe y tm aial x l rs Ch n s a to-pe c a gn t xmum n rpy mo e . Atfrt t v ro h o r e pa rs se tc i y h e to d 1 s , o o e c me te p o i
频 词 特 征 , 验表 明 , 频 词特 征 的添 加 能 大 幅度 地 提 高 低 频 词 在 测试 集 的标 注 准 确 率 , 宾州 树 库 2 0上 的 实验 显 示 , 准 确 率 从 实 低 在 . 其 8 .3提 高到 了 8 .4 29 7 5 。在 传 统 的基 于 句 子 的 词 性标 注 基 础 上 , 出 了基 于 篇 章 的 词 性标 注 , 得 了不错 的结 果 。最 后 , 析 了词 性 提 取 分
R E C o I F QU NT WOR HI S AR - ・P EC AGGI ES AR H N N R E E DS C NE E P T OF S E H T NG
Z o gQ zi Y oJ n i hn i a i m n h a
(colfC m ue Si c n eh o g , oco nvrO, uhu2 5 0 Jagu hn ) Sho o o p t c nea dTcnl ) S ohu U i s S zo 1 06,ins ,C ia r e o ei
s n e c n lssp ro a c sa ay e . E p r n s o e n T e b n . h w t a h nr q e tw r s fa u e a d d c me t a e e t n e a ay i e fr n e i n ls d m x e i t n P n r e a k 2 0 s o h tt e i e u n o d e tr n o u n— s d me f b
标注结果对句法分析性能的影响 , 宾州树库 2 0上 的实验显示, 在 . 低频词特征和基于篇章 的策略使得整个的词性标注准确率和句法 分 析 F 值 分 别 提 高 了 06 1 .0和 0 9 , 明 了词 性标 注 中低 频 词 处 理 的 重 要 性 ,7 说
关键 词 最 大 熵模 型 低 频 词 篇 章 词 性标 注 句 法 分 析
相关文档
最新文档