汉语语义角色标注研究概述

合集下载

基于浅层句法分析的中文语义角色标注研究

基于浅层句法分析的中文语义角色标注研究

2 De a t n f mp t t n lL n u s is& h n t sS a ln n v r iy a r r c e a r n -r n . p rme to Co u a i a i g i t o c .P o e i a ra d U i e st .S a b k n S a l d G e ma ) c a
该 文 所 实现 的 角 色标 注 系 统 的 F 值 达 到 了 0 7 比 前 人 的 工 作 ( . 】 有 较 为 显 著 的 提 升 , 而 证 明 了 该 文 的 方 法 . 4, 07) 标 注 ; 层 句 法 分 析 ; 素 ; 词 法 浅 语 构 中 图 分 类 号 :TP 9 31 文 献 标 识 码 :A
( .I s i t fC mp t t n l1 n u s is P k n n v r i 1 n t u eo o u a i a i g it , e i g U i e s t t o c y,Be i g 1 0 7 , ia i n 0 8 1 Ch n ; j
f m a e oflbei s d n h f l yntc i pa s s s tl ot a if c o y. T h s a er e lz SRI m e h s or nc a lng ba e o t e ul s a tc r e i sil n s ts a t r i p p r a ies t od
Re e r h o s a c n Chi e e S m a tc Ro e La e i g Ba e n S a l w r i g n s e n i l b ln s d o h l o Pa sn
W AN G n。 Xi ,SU N ewe W i i 。S IZ ia g U hfn

语义角色标注与语义关系分析

语义角色标注与语义关系分析

语义角色标注与语义关系分析语义角色标注(Semantic Role Labeling,SRL)和语义关系分析(Semantic Relationship Analysis)是自然语言处理领域中的两个重要任务,旨在对句子中的词汇进行深入的语义分析和理解。

本文将介绍这两个任务的背景、方法和应用,并探讨它们在自然语言处理领域中的重要性和挑战。

一、背景在自然语言处理领域中,理解句子的深层次语义是一项重要而困难的任务。

传统的浅层次句法分析方法(如词性标注、句法分析)无法准确捕捉到词汇之间复杂而细致的关系。

因此,研究者们开始探索如何对句子进行更深入、更准确地理解。

二、方法1. 语义角色标注SRL旨在对句子中每个动词及其相关论元进行标注,以揭示动词与论元之间复杂而细致的关系。

传统方法主要基于基于规则或者基于统计机器学习模型,这些模型使用手工设计特征来捕捉动词与论元之间的依存关系。

近年来,随着深度学习的兴起,基于神经网络的方法也逐渐应用于SRL任务。

这些方法通过学习句子中词汇的分布式表示来捕捉词汇之间的语义关系。

2. 语义关系分析语义关系分析旨在识别句子中不同词汇之间的语义关系,如上位与下位、同义与反义、因果与条件等。

传统方法主要基于基于规则或者基于统计机器学习模型,这些模型使用手工设计特征来捕捉不同词汇之间的关系。

近年来,随着深度学习的兴起,基于神经网络的方法也逐渐应用于语义关系分析任务。

这些方法通过学习句子中不同词汇之间的分布式表示来捕捉不同关系。

三、应用1. 机器翻译SRL和语义关系分析在机器翻译任务中起着重要作用。

通过对源语言句子进行深层次语义分析和理解,可以更准确地理解源语言句子,并生成更准确、更自然流畅的目标语言翻译。

2. 信息抽取SRL和语义关系分析在信息抽取任务中也发挥着重要作用。

通过对句子中的词汇进行深层次语义分析和理解,可以更准确地识别出句子中的实体、关系和事件等重要信息,从而更准确地抽取出有用的信息。

面向二语教学的汉语辞书陪义标注研究

面向二语教学的汉语辞书陪义标注研究

面向二语教学的汉语辞书陪义标注研究一、引言对于二语教学而言,汉语辞书中的义项标注可能存在一定的不足,这在很大程度上会影响学习者对词语理解的准确性和全面性。

本文将进行一项关于面向二语教学的汉语辞书陪义标注的研究,探讨如何通过对汉语辞书义项的标注,提高二语学习者对词语的理解能力和语言能力。

二、汉语辞书陪义标注的现状在目前的汉语教学中,学习者通常在使用汉语辞书时,会查找词语的释义、词性、读音等信息。

在对一个词语的解释中,往往不仅仅只有一个释义,而是有多个相关义项。

这些义项中的关系往往需要学习者通过上下文来加以区分和理解。

尤其对于二语学习者来说,这种理解和运用常常会出现困难,并且有可能导致误解和理解不全面的问题。

对汉语辞书进行陪义标注,可以帮助学习者更准确地理解和运用词语,提高其语言能力。

目前,对于汉语辞书的陪义标注研究还比较欠缺,有待进一步深入。

在目前的汉语教学中,有一些较为常见的做法,比如在义项中使用数字或符号区分不同义项,或者在例句中使用标记来说明不同意思的词语的使用情况。

这些方法对于某些学习者来说或许有效,但对于一些学习者而言,还需要更具体的标注来帮助他们更好地理解和掌握词语的用法和意思。

对汉语辞书的陪义标注研究有着迫切的需求,并且有望在二语教学中发挥积极的作用。

1. 提高学习者对词语的理解和运用在二语教学中,学习者往往需要面临理解和运用词语的难题。

通过对汉语辞书进行陪义标注,可以帮助学习者更准确地理解和掌握词语的意思和用法。

通过标注不同义项之间的关系和区别,学习者可以更快地掌握词语的用法并且避免误解。

2. 提高学习者的语言能力在二语学习者的学习过程中,有效地利用工具书和教材对其语言能力的提升至关重要。

通过对汉语辞书进行陪义标注,可以帮助学习者更快地提高他们的语言能力,从而更好地应对日常生活和学习中的语言交际。

3. 促进汉语教学的发展随着全球汉语热的兴起,对汉语教学的专业化要求也不断提高。

对汉语辞书进行陪义标注的研究和应用,可以为汉语教学提供更好的教材和工具书,从而促进汉语教学的发展,提高汉语教学的质量。

基于特征的中文语义角色标注系统的开题报告

基于特征的中文语义角色标注系统的开题报告

基于特征的中文语义角色标注系统的开题报告一、研究背景中文语义角色标注是自然语言处理领域的一个重要问题,它可以为许多应用提供基础支持,如自然语言理解、机器翻译、语音识别、问答系统等。

语义角色标注就是对于句子中的每个词或短语在其上下文中所扮演的语义角色进行标注。

中文语义角色标注的过程就是在句子中找到动词或谓词短语,然后分别标注其它元素属于它所要求的语义角色。

语义角色标注是自然语言处理中的核心问题之一,是信息抽取、问答系统、机器翻译等应用的基础。

在英文语义角色标注中,已经有了许多成熟的方法,如基于规则的方法、机器学习方法、神经网络方法等。

但是中文语义角色标注由于中文本身的复杂性,其研究难度更大。

因此,中文语义角色标注的研究也变得更加重要。

二、研究目的本研究旨在开发一种基于特征的中文语义角色标注系统,通过结合基于规则的方法、机器学习方法和神经网络方法来达到更好的效果,并对比不同方法的优缺点。

三、研究内容1. 中文语义角色标注的概述:介绍中文语义角色标注的背景和意义,详细讨论中文语义角色标注问题的基本原理和流程。

2. 基于规则的中文语义角色标注方法研究:介绍基于规则的中文语义角色标注方法的原理和流程,分析该方法的优缺点以及适用场景。

3. 基于机器学习的中文语义角色标注方法研究:介绍基于机器学习的中文语义角色标注方法的原理和流程,讨论该方法的优缺点,介绍相关的算法和技术。

4. 基于神经网络的中文语义角色标注方法研究:介绍基于神经网络的中文语义角色标注方法的原理和流程,讨论该方法的优缺点,介绍相关的算法和技术。

5. 基于特征的中文语义角色标注系统开发:结合以上三种方法,设计并开发一种基于特征的中文语义角色标注系统,并对该系统进行性能测试和评估。

6. 不同方法的比较分析:通过实验数据比较分析,对比不同方法的优缺点和适用场景,提出改进和优化方案。

四、研究方法本研究采用理论与实验相结合的方法,首先对中文语义角色标注的相关理论和方法进行深入研究,然后结合实际应用需求,设计并实现一个基于特征的中文语义角色标注系统,并在实验中对其性能进行评估和对比分析。

汉语话语标记语研究综述

汉语话语标记语研究综述

汉语话语标记语研究综述话语标记语是近年来研究的一个热点,与国外的话语标记语理论相比,汉语话语标记语的研究相对薄弱。

本文以汉语话语标记语的研究为综述对象,总结了这一领域二十多年的发展情况,并在此基础上提出研究中存在的问题。

标签:汉语话语标记语角度理论个体研究研究综述作为一种语言现象,话语标记语早在上世纪50年代就引起了国外一些学者的兴趣,进入了他们的研究视野,在此后的五六十年中,话语标记理论被不断地充实和发展,虽然在很多问题上人们至今也未能取得一致的看法,但就其研究的广度和深度而言,国外的话语标记语研究已经具备了一定的规模,各研究阵营也基本上形成了自己的理论体系①。

与之相比,国内的相关研究明显滞后。

在国内,对话语标记语普遍的关注始于上世纪90年代,其理论成果主要集中在英语语言学方面,研究队伍也以英语语言学界的学者为主,汉语话语标记语的研究则相对薄弱。

2000年以后,汉语的话语标记语逐渐为人们所重视,一些学者,尤其是一批年轻的硕士、博士研究生致力于汉语话语标记语理论体系的构建和话语标记语的个体分析,并取得了一些成果。

本文以汉语话语标记语的研究成果为综述对象,以期彰显当前汉语话语标记语研究领域的成绩与不足。

一、名称、定义、范围的界定汉语中有这样一种语言现象,句子或者话语中的一些词语跟处在其前后的词语没有结构上的关系,将它们从句子或者话语中抽离出来也不会影响原句或者原话语的语义内容,但是,在句子和话语的构建中它们是不可或缺的部分。

如例(1)、(2)中的斜体部分②:(1)事情明摆着,你看,我们还能不管?(2)A:刚才和我妈吵起来了,说我这不对那不对的。

B:父母说说你也都是为了你好。

A:行了,不想说了,你吃饭吧。

语言中的这一类单位,最初被人们称为“插入语”或“独立成分”。

随着国际上话语标记语研究的蓬勃发展,汉语语言学界的学者们也开始尝试着用新的视角来审视这类语言单位。

国外的学者从各自的研究角度出发,赋予了这类语言单位一系列名称,在众多名称中,汉语语言学界的学者们主要采纳了以下三种:1.话语标记语(discourse markers)。

中文名词性谓词的语义角色标注的研究

中文名词性谓词的语义角色标注的研究
进 行展望
二 、 料 库 语
( r1 这 两个 语义 角 色是 稳定 的 。 据 S e ( 0 7 Ag) 根 h n等 2 0 )
的 统 计 . rO和 A g Ag rI占 到 了 各 种 语 义 角 色 总 量 的 要 想 进行 语义 角 色标 注 .需 要好 的语 料 资源 的支 8 %以上 。而 且 . 5 目前 绝 大 多数 的 S L工 具 对 A g R rO和 rl Ag 5 持 。 目前 ,英 语 较 为 知 名 的 浅 层 语 义 分 析 资 源 为 A g 的 标 注结果 较好 . rO的准 确率都 达 到 了 8 ' r pa e n fJ h ” . 词 lc me tB n 和 B ns e lc me to o n 中 名
相 对 而言 . 名词 性谓 词 S L的研究 要 少得 多 , R 其原 rpae n 便 是 谓词 , e e leme t B n是 A G , 示 替代 者 , h R O表 J n o R 表 因在 于 名 词性 谓 词 S L的大 规 模 标 注 语 料 的发 布要 是 A G1 示被 替代 者 R
除 英 语 外 .许 多 其 它语 言也 建 立 了各 自的语 义 角 究 通常 采用 与 动词 S L的相 同框 架 . 究 的主要 内容 色标 注 库 ,例 如 :A S R 研 S L A是 德语 版 的 Fa e e;rg e rm N tPa u e e d n vTe b n 在 于探 索适 合 于名 词 性谓 词 S L的特 征 集 . R 其代 表 工 D p n e c re a k项 目进 行 了大 量 的 句 法 和 语 义 捷 甚 C iee " 作 有 Pa h n等 (0 4 、 a g和 N ( 0 6 、 i rd a 2 0 )J n i g 2 0 )Lu和 N 标 注 ( 克 语 ), 至包 括 指 代 消解 的标 注 等 ; hn s g ( 0 7 以及 G re 等 (0 9 。 20 ) eb r 2 0 ) Po B n rp a k以 及 C ieeN m a k分 别 是 U e n基 于 hn s o B n pn hn s e n T eB n rp a k 本 文结构 :文章第 2部 分简 单介 绍 中文语 义角 色 C iee P n re a k标 注 的 . 和 Po B n 以 及

基于机器学习的中文语义角色标注算法研究

基于机器学习的中文语义角色标注算法研究

基于机器学习的中文语义角色标注算法研究中文语义角色标注(Chinese Semantic Role Labeling,简称中文SRL)是自然语言处理领域的一个重要任务,旨在识别出句子中的谓词及其对应的语义角色。

随着机器学习技术的发展,基于机器学习的中文SRL算法逐渐成为主流。

本文将对基于机器学习的中文SRL算法进行深入研究,并探讨其在自然语言处理应用中的潜在价值。

首先,本文将介绍中文SRL任务及其在自然语言处理领域的重要性。

随着人工智能技术的迅猛发展,自然语言处理已经成为一个热门研究领域。

而中文SRL作为其中一个重要任务,对于深入理解句子结构、推理推断以及问答系统等应用具有重要意义。

接着,本文将详细介绍基于机器学习的中文SRL算法,并分析其核心思想和技术流程。

基于机器学习的方法主要分为两个阶段:特征提取和角色分类。

特征提取阶段通过从句子和谓词周围提取各种特征来表示句子结构和上下文信息。

角色分类阶段使用机器学习模型,如支持向量机(SVM)或深度学习模型,来对每个候选角色进行分类。

本文将详细介绍常用的特征提取方法和机器学习模型,并分析它们的优缺点。

然后,本文将对基于机器学习的中文SRL算法进行实验评估,并与其他相关方法进行比较。

实验评估主要包括数据集选择、评价指标、实验结果分析等内容。

本文将选择一些常用的中文SRL数据集,并使用准确率、召回率、F1值等指标来评估算法性能。

同时,本文还将与其他相关方法进行比较,如基于规则的方法和基于深度学习的方法,以验证基于机器学习的中文SRL算法在性能上的优势。

接下来,本文将探讨基于机器学习的中文SRL算法在自然语言处理应用中的潜在价值。

中文SRL任务可以应用于很多自然语言处理任务中,如信息抽取、问答系统和句子理解等。

通过准确地识别出句子中各个成分之间的语义关系,可以提高这些任务在语义理解和推理方面的性能。

最后,在总结部分,本文将总结基于机器学习的中文SRL算法的研究现状和存在的问题,并提出未来的研究方向。

汉语语义角色研究述评

汉语语义角色研究述评
ห้องสมุดไป่ตู้
自然 语 言理 解 , 键 是 语 义 理 解 , 法 分 析 只是 一 种 手 关 句 段 。因 此 , 义 分 析 在 自然 语 言 理 解 中 占据 中 心 地 位 。计 语 算 语 言 学 工 作 者 在 语 言 工 程 的 实践 中 感 受 到 语 义 分 析 的迫 切 需 要 , 想 使 处 理 系 统 既 有 计 算 机 的速 度 又 具 备 人 类 的 要 智 能 , 不 能 没 有 一 定 深 度 的语 义 分 析 。 要 想 进 行 深 层 的 就 语 义 分 析 、 义 理解 , 必 须 进 行 语 义 角 色 的 标 注 。在 当前 语 就 的 信 息 处 理 界 , 国学 者 对 语 义 角 色 问 题 产 生 了 越 来 越 浓 各 厚的学术兴趣 。 汉 语 语 义 角 色 的 研 究 轨 迹 汉 语 语 法 学 中第 一 次 全 面 描 写 句 子 的语 义 结 构 及 构 成 的 著 作 是 吕叔 湘 先 生 的《 国 文 法 要 略 》 中 。其 中讲 到 “ 词 ” 起 和“ 词 ” 说 : 我 们 在 句 法 上 把 动 作 的 起 点 称 为 ‘ 词 ’ 止 时 “ 起 , 把 动作 的 止 点 称 为 ‘ 词 ’ 止 。这 两 个 名 称 都 是 跟 着 动 词 来 的, 有动作 , 没 就无 所 谓 起 和 止 。 ( 叔 湘 , 9 1 书 中 还 提 ”吕 14 ) 出 了“ 切 补 词 … ‘ 借 补 词 ” “ 所 补 词 ” 1 关 凭 和 方 等 4种 补 词 , 大致 相 当 于 F l o e 出 的 几 种 深 层 格 。尽 管 此 书研 究 语 im r 提 l 义 成 分 的 出发 点 是 为 了帮 助 辨 别 主 语 或 宾 语 等 句 法 成 分 , 看 施 动 和 受 动关 系 也 仅 着 眼 于 动 词 跟 主 语 的 关 系 , 不 可 但 否 认 其 中蕴 含 了 中 国格 语 法 思 想 的 萌 芽 。丁 声 树 等 的 《 现 代 汉 语 语 法 讲 话 》 在 对 宾 语 进 行 分 析 时 就 指 出 : 有 各 种 中 “ 不 同 的动 词 , 此 动 词 跟 宾 语 也 有 各 种 不 同 的 关 系 。 … … 因 就 是 同一 个 动 词 也 常 带 各 种 关 系 不 同 的 宾 语 。 他 们 还 认 ” 为 : 主 语 对 谓 语 讲 , 时 候 是 ‘ 事 ’ 有 时 候 是 ‘ 事 ’ 有 “ 有 施 , 受 , 时 既 不 是 ‘ 事 ’ 也 不 是 ‘ 事 ’ 只 是 谓 语 陈 述 的 对 象 。 施 , 受 , ” ( 丁声 树 , 9 1 16 ) 上世纪 8 O年 代 以 后 中 国 学 者 对 汉 语 的 语 义 角 色 进 行 了更 深 入 的讨 论 , 关 语 义 成 分 的 研 究 进 入 了新 的 阶 段 。 有 朱 德 熙 区分 了句 子 中各 成 分 之 间 的 显 性 语 法 关 系 和 隐 性 语 法 关 系 。所 谓 隐 性 的语 法 关 系就 是 指 “ 事 ” 受 事 ” 工具 ” 施 “ “ 等 语 义 角 色 。汉 语 与 俄 语 、 语 等 屈 折 语 不 同 , 乏 形 态 标 英 缺 志 和 形 态 变 化 , 汉 语 里 识 别 语 义 角 色 主 要 靠 语 序 与介 词 。 在 李 临 定 指 出 : 具 有 同一 语 义 角色 的词 语 町 以 处 在 不 同 的 句 “ 法 位 置 上 。 ( 临定 , 9 6 史 有 为 比 较 了“ ” “ ”的 不 ”李 18 ) 格 与 价 同 , 出有 时尽 管价 数 相 同 , 实 现 后 的“ ” 句 法 语 义 关 指 但 格 其 系 是 不 同 的 。胡 裕 树 、 斌 等 提 出 了 句 法 、 义 、 用 三 个 张 语 语 平 面 , 底 摆 脱 了语 义 成 分 是 句 法 成 分 的 附 庸 的 观 念 。 同 彻 时 , 换 生 成 语 法 、 语 法 、 价 语 法 、 汇 功 能语 法 等 国 外 转 格 配 词
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

中文语义角色标注研究概述南京师范大学文学院陈菜芳1摘要:语义角色标注是实现浅层语义分析的一种方式,在问答系统、机器翻译和信息抽取等方面得到了成功地应用,是目前自然语言理解领域中比较热门的一个研究方向。

本文介绍了中文语义角色标注语料资源、中文语义角色标注发展现状以及对中文语义角色标注未来工作进行了展望。

关键词:浅层语义分析语义角色标注资源语义角色标注0 引言语义角色的自动标注是对句子中谓词所支配的语义角色进行自动标注,是对句子进行浅层语义分析的一种方法。

语义角色标注技术在大规模语义知识库的构建、问答系统、机器翻译和信息抽取等领域都有着广泛的应用,其深入的研究对自然语言处理技术的整体发展有着重要意义。

下面主要从三个方面来介绍中文语义角色标注研究状况:首先,介绍相关的中文语义角色标注语料资源;其次,描述了中文语义角色标注的发展现状;最后,对中文语义角色标注未来的工作进行展望。

1 中文语义角色标注语料资源语义角色标注离不开语料资源的支持。

英语较为知名的语义角色标注资源有FrameNet、PropBank和NomBank等。

中文语义角色标注语料资源主要是从英语语义角色标注语料资源的基础上发展起来或参照其建设的。

Chinese Proposition Bank(CPB)同英文PropBank基本类似。

在CPB中,总共定义了20多个角色,只对每个句子中的核心动词进行了标注,所有动词的主要角色最多有6个,均以Arg0~Arg5和ArgM为标记,其中核心的语义角色为Arg0~5六种,其余为附加语义角色,用前缀ArgM表示,后面跟一些附加标记来表示这些参数的语义类别。

它几乎对Penn Chinese Treebank中的每个动词及其语义角色进行了标注,国内大多数语义角色标注研究都是基于此资源。

中文Nombank是在英文命题库(Proposition Bank)和Nombank的标注框架上进行扩展,对中文名词性谓词的标注。

中文Nombank加入了语义角色层的标注信息,与CPB一样,也标注了核心语义角色和附加语义角色这两类语义角色。

中文NomBank中的角色位置有两类情况:一是角色在以名词性谓词为核心词的名词短语中;二是当以名词性谓词为核心词的名词1陈菜芳,女,南京师范大学2010级硕士研究生,研究方向计算语言学短语作支持动词的宾语时,允许语义角色在名词短语外。

山西大学构建的Chinese FrameNet是基于框架语义理论,类似FrameNet风格的中文词典。

它描述了框架元素的详细句法信息和词汇单元以及参与者框架元素之间的关系。

Chinese FrameNet的架构和英文FrameNet相似,并且有许多只是稍作修改直接对英文FrameNet进行翻译,但也有一些创新,增加了相应语义角色的汉语名称。

目前Chinese FrameNet已经有130多个汉语框架,还在不断补充。

台湾中研院陈凤仪建立的中文句结构树资料库(Sinica Treebank)。

Sinica Treebank 是一个包含语义标记和句法标记的混合语料库。

它的基本框架是以讯息为本的格位语法,主要是对小句进行标注。

目前己标注了61 087个句子,包含了361 834个词语。

语义角色标记共有50多个,基本沿袭了格语法的标记体系,如:受益格、感受格等。

北京大学袁毓林教授组织建设的中文网库,是在北大汉语句法分析树库的基础上进行语义标注的。

有着更为细致的语义角色设置,尤其是核心论元,分别在主体论元和客体论元内部各划分出五个子类。

具体如下:(一)必有论元:A主体论元:施事、感事、经事、致事、主事;B客体论元:受事、与事、对象、系事。

(二)非必有论元:A凭借论元:工具、材料、方式、原因、目的;B环境论元:时间、处所、源点、终点、路径、范围、量幅。

董振东主持建立的知网(HowNet)是一个常识知识库,描述对象为汉语和英语的词语所代表的概念,揭示了概念与概念之间以及概念所具有的属性之间的关系。

《知网》描述了多种类型的词汇语义关系,涉及了词汇语义的各个方面,着重描述了不同词性的词语所代表的概念之间的语义关系,其中特别重视名词所代表的概念与动词所代表的概念之间的语义关系,也即我们通常称作实体与事件之间的语义关系即语义角色关系,例如作为实体的“医生”和作为事件的“医治”,两者有着“事件”与“施事”的关系。

在知网中,800个事件主要特征中的每一个都标识有一个角色框架。

2 中文语义角色标注的发展现状2.1 语义角色标注的研究最早关注的是英文,随着宾州大学命题库的建立,语义角色标注任务得到广泛的国际关注,并取得了许多很好的结果。

出现了一些相关的国际评测:如CoNLL2004、CoNLL2005、EMNLP-CoNLL2007和CoNLL2008都包含了语义角色标注的任务,同时也促进了语义角色标注研究的蓬勃发展。

2.2 中文语义角色标注的工作开展较晚,最早进行研究的是Sun等人,当时因为还没有中文方面的专门语料,所以他们只能先人工标记了包含某些动词的语料然后在此基础上进行研究。

后来,伴随着Chinese Proposition Bank(CPB)的构建,就有了一些比较系统的中文语义角色标注的工作。

国内最早关注语义角色标注是刘挺、于江德等人,不过他们研究的重点是提升英文的语义角色标注的性能。

2.3 语料资源和中文自动句法分析的不理想等因素使得国内中文语义角色标注的研究还局限在语义角色分类方面,完整的语义角色标注研究还不多见。

虽然与英文方面的工作相比,中文语义角色标注方面的研究仍处在开始阶段,但该项工作已引起了许多研究人员的重视。

国内的研究工作主要集中在以下四大高校。

北京大学关于语义角色标注的工作主要集中在两个方面:一是基于语义组块分析和词汇语义特征的语义角色标注;二是利用北大网库的标注语料进行语义角色标注的研究。

丁伟伟[1]提出了一种基于语义组块分析的语义角色标注的处理策略。

该方法将中文语义角色标注从一个节点的分类问题转化为序列标注问题,是一种简化的“语义组块识别——语义组块分类”流程,而不是传统的“句法分析——语义角色识别——语义角色分类”的流程。

由于避开了句法分析这个阶段,使得语义角色标注摆脱了对句法分析的依赖,从而突破了汉语语法分析器的性能限制。

北大网库构建了一种全新的语义角色标注资源,改变了以往无论中英文研究都基于宾州大学命题库的标注体系的局面。

文献[2]的主要目的是将之前的各种研究方法在北大网库的标注语料中进行验证,考察它们在北大网库标注体系中的作用,进而讨论特征的选择对标注体系的依赖性问题,这种在北大网库基础上建立的语义角色分类系统,在语义角色分类阶段取得与在PropBank上相当的实验结果。

哈尔滨工业大学主要贡献是在不断优化特征和特征组合的基础上,进行不同方法的实验。

文献[3]把汉语的特点与英文语义角色标注特征相结合,构建出一些新的特征和组合特征,如:谓词和短语类型的组合、谓语动词类别信息和路径的组合等,并在CPB语料数据上使用最大熵分类器进行了实验。

文献[4]以CPB为实验数据,首次将核方法应用于汉语语义角色标注中,通过对已有特征进行组合或分解,提取了更适用于汉语的新特征,得到了接近英文语义角色标注的性能。

文献[5]提出一种基于特征组合和支持向量机的语义角色标注方法。

该方法的基本标注单元是句法成分,基本特征集合是从当前基于句法分析的语义角色标注系统中选出高效特征,然后选择基于统计的特征组合方法,利用支持向量机在CPB语料上进行分类实验。

苏州大学的研究重点在两个方面:一是名词性谓词语义角色标注,二是以依存关系为标注单元进行语义角色标注。

文献[6]和[7]讨论了汉语名词性谓词的语义角色标注特征问题。

通过对名词性谓词语义角色标注的研究,探索了新的词汇、句法特征,选取了适合名词性谓词相关的特征集,用于名词性谓词语义角色标注,同时进一步利用动词性谓词已有的成果,极大地提高了名词性谓词语义角色标注的性能。

文献[8]提出标注单元为依存关系的语义角色标注系统,经过依存关系分析、谓词标识、特征抽取、角色识别和角色分类,最终在CoNLL2008 SRL Shared Task自动依存分析的WSJ测试集取得了较好的结果,结果证明其性能明显好于基于句法分析的SRL。

山西大学的工作主要是在汉语框架语义知识库(CFN)语料库上进行,文献[9]基于汉语框架语义知识库(CFN),采用条件随机场模型,将语义角色标注问题通过IOB策略转化为以词为基本标注单元的线性序列标注问题,研究了汉语框架语义角色的自动标注。

模型以词为基本标注单元,选择词、词性、词相对于目标词的位置、目标词及其组合为特征。

从CFN的219个框架中,挑选那些例句个数相对较多的25个框架的6 692个例句的语料上进行。

对每一个框架,分别按照其例句训练一个模型,同时进行语义角色的边界识别与分类,进行2-fold交叉验证。

其他还有南师大的陈丽江[10]利用清华大学的中文树库 (TCT),通过梅家驹等人编纂的《同义词词林》对谓词、名词进行划分,建立了谓词词表、名词词表和介词词表等来区分语义角色。

在标注过程中使用规则确定谓词论元,使用规则和词表判定成分的语义角色,基于决策树分类的算法,对汉语真实文本的语义角色标注进行了实验。

3 展望可以说,对中文语义角色标注的研究还任重而道远,下一步需要进行的研究工作还很多,集中表现在如下三个大的方面:3.1成熟的语义理论。

语义角色标注属于语义分析的范畴,离不开语义理论的支持。

语义角色标注需要语义角色相关理论、语义分类体系、词汇语义等知识。

目前,汉语语义这些相关理论都还不是很成熟。

因此,建立合理有效的语义分类体系,系统地总结语法与语义之间的对应关系,是取得突破的关键。

3.2资源库建设。

语料库和知识库是自然语言处理的两大基础性工程,语料库是对真实语言现象的收集,知识库是对语言知识的系统性总结,它们对自然语言处理的质量起着关键性的作用。

由于语言现象与语言知识的复杂性,语料库和知识库都十分庞大,一般都需要耗费十年乃至数十年的时间来构建。

今后计算语言学工作开展的重点之一就是建立语义层次上的语料库和知识库。

3.3改进分析方法。

自然语言分析处理的方法包括基于规则的方法和基于统计的方法。

这两种方法同样也适用于语义角色标注。

如何选择合适的方法,如何将这两种方法有机地结合起来,对语义角色标注任务是至关重要的。

而且,无论是基于规则的方法,还是基于统计的方法,它们所采用的技术,以及得到的准确性和效率也同语义角色标注的准确性和实用性相关,这些也需要不断地研究与改进。

参考文献[1]丁伟伟,常宝宝. 基于语义组块分析的汉语语义角色标注[J].中文信息学报,2009.9,VOL23(5).[2]杨敏,常宝宝. 基于北京大学中文网库的语义角色分类[J].中文信息学报,2011.3,VOL25(2).[3]刘怀军,车万翔,刘挺. 中文语义角色标注的特征工程[J].中文信息学报,2007.1,VOL21(1).[4]车万翔. 基于核方法的语义角色标注研究[D].哈尔滨:哈尔滨工业大学,2008年.[5]李世奇,赵铁军,李晗静,刘鹏远,刘水. 基于特征组合的中文语义角色标注[J].软件学报, 2011,22(2):222-232.[6]李军辉,周国栋,朱巧明,钱培德. 中文名词性谓词语义角色标注[J]. 软件学报,2011, 22(8).[7]徐靖,李军辉,朱巧明,李培峰. 中文名词性谓词语义角色标注的特征研究[J].计算机应用,2011.6,VOL31(6).[8]汪红林,王红玲,周国栋. 基于依存关系的语义角色标注[J].计算机工程,2009.8,VOL35(15).[9]李济洪,王瑞波,王蔚林,李国臣. 汉语框架语义角色的自动标注[J].软件学报,2010.4,VOL21(4).[10]陈丽江. 汉语真实文本的语义角色标注[D].南京:南京师范大学,2007年.。

相关文档
最新文档