[语言学,理论]语言学理论中依存树库的应用分析

合集下载

constituent_analysis语言学名词解释_概述及解释说明

constituent_analysis语言学名词解释_概述及解释说明

constituent analysis语言学名词解释概述及解释说明1. 引言1.1 概述在语言学中,constituent analysis(成分分析)是一种重要的方法论,旨在通过对句子的结构和组成部分进行分析和解释来理解语言的基本结构和规则。

通过将句子划分为若干独立且有意义的成分,我们可以深入探究语言的组织方式,揭示出句子成立的语法层次结构。

1.2 文章结构本文将从以下几个方面对constituent analysis进行解释和阐述。

首先,在“2. constituent analysis语言学名词解释”部分,我们将给出constituent analysis 的定义,并介绍其重要性及其原理与方法。

接着,在“3. 概述及解释说明”部分,我们将详细讨论constituent analysis的分析目标、对象、步骤和流程,并评估其优点和局限性。

随后,在“4. 实际应用案例分析”部分,我们将提供一些具体应用实例,包括学术研究领域和自然语言处理领域。

最后,在“5 结论”部分,我们会对主要观点和发现进行总结,并展望constituent analysis未来的发展方向。

1.3 目的本文旨在全面介绍和解释constituent analysis这一语言学名词,为读者提供对该方法论的深入理解。

通过阅读本文,读者将能够了解到constituent analysis 在语言学中的重要性,并对其原理、方法及实际应用有所掌握。

同时,我们希望通过本文的撰写,促进对constituent analysis的研究与讨论,为语言学领域的发展做出贡献。

2. constiuent analysis语言学名词解释2.1 定义constituent analysis(成分分析)是一种语言学方法,用于研究句子结构和组成成分之间的关系。

该方法通过对句子进行分解,将其划分为各个成分,并进一步揭示句子中各个成分之间的层级结构和依存关系。

引入层次成分分析的依存句法分析

引入层次成分分析的依存句法分析

引入层次成分分析的依存句法分析张丹;周俏丽;张桂平【摘要】长距离依存分析准确率低是依存句法分析中很重要的问题,针对该问题,提出了一种引入层次成分分析的依存句法分析方法,在依存分析之前进行包括非核心成分和核心成分的成分识别,对成分内部和成分之间进行依存分析,该方法能避免产生长距离依存关系.同时,针对不同成分训练不同模型.在CoNLL 2009评测语料中,UAS值在develop数据集上提升了2.53%,在test数据集上提升了1.39%.实验结果表明,结合语言学知识,引入层次成分分析,能够有效地改善依存分析效果.【期刊名称】《沈阳航空航天大学学报》【年(卷),期】2017(034)001【总页数】7页(P76-82)【关键词】层次成分分析;成分识别;依存句法分析【作者】张丹;周俏丽;张桂平【作者单位】沈阳航空航天大学人机智能中心,沈阳 110136;沈阳航空航天大学人机智能中心,沈阳 110136;沈阳航空航天大学人机智能中心,沈阳 110136【正文语种】中文【中图分类】TP391.1近年来,依存句法分析一直是自然语言处理领域的热点和难点问题之一,受到了越来越多的关注,目前主流的依存句法分析技术是基于依存树库的统计依存句法分析。

但统计的依存句法分析存在数据稀疏、长距离分析准确率低等问题,因此,针对汉语句子的句法结构,利用语法、语义、语用等语言学知识对其进行多方面、多角度的分析已成为汉语语言学界的共识。

层次分析法是分析句子结构的一种方法,层次分析法认为任何一个复杂的语言单位都是由较小的语言单位组成的,但不是一次组成的,而是由小到大逐层组织起来的[1]。

而依存句法是通过分析语言单位内成分之间的依存关系揭示其句法结构的[2],依存句法表现的只是词与词之间的依存关系,没有层次关系。

因此,可以结合层次分析方法,将依存句法关系转化成带有层次的句法结构关系。

针对长距离依存关系分析准确率低的问题,本文结合层次分析法提出了一种面向依存结构的句子层次成分分析方法,该方法在依存分析之前提取分析单元,对分析单元内部和分析单元之间进行依存句法分析,从而缩短分析单元,消除长距离依存关系。

依存关系模型

依存关系模型

依存关系模型一、引言依存关系模型是语言学和自然语言处理领域中的重要概念,它用于描述句子中词语之间的相互依赖关系。

在自然语言处理任务中,理解词语之间的依存关系对于分析句子的结构、语义和信息抽取等方面具有重要意义。

本文将详细介绍依存关系模型的概念、类型、应用和发展趋势等方面。

二、依存关系模型的概念依存关系模型是一种语言模型,用于描述句子中词语之间的依赖关系。

词语之间的依存关系表明了它们在句法结构上的联系,这种联系通常是基于语义的。

在依存关系模型中,每个词语都有一个依存关系指向其依赖的词语,从而形成了一个依存关系树或图。

三、依存关系的类型依存关系可以分为多种类型,每种类型都代表了词语之间特定的依赖关系。

以下是常见的依存关系类型:1.支配型:表示一个词语支配另一个词语的关系,如主谓关系、动宾关系等。

2.受动型:表示一个词语受另一个词语支配的关系,如宾语与动词的关系。

3.关联型:表示两个词语之间存在关联关系,如并列关系、转折关系等。

4.修饰型:表示一个词语修饰另一个词语的关系,如定语与中心词的关系。

每种依存关系类型都有其特定的符号表示,这些符号可以在依存关系分析中用于标注句子中的词语。

四、依存关系模型的应用依存关系模型在语言学、自然语言处理和人工智能等领域有着广泛的应用。

以下是几个主要的应用方向:1.句法分析:通过分析词语之间的依存关系,可以判断句子的结构和语义关系,从而为后续的自然语言处理任务提供支持。

2.信息抽取:利用依存关系模型可以抽取句子中的关键信息,如实体之间的关系等。

通过对大量文本进行分析,可以获取有价值的情报和知识。

3.机器翻译:通过分析源语言和目标语言句子中的依存关系,可以更准确地理解句子的语义和结构,从而生成更准确的机器翻译结果。

4.情感分析:利用依存关系模型可以分析文本中词语之间的关联和语义指向,从而判断文本所表达的情感极性(正面、负面或中性),为舆情监控、产品评价等领域提供支持。

5.问答系统:通过对问题中的依存关系进行分析,可以更准确地理解问题的语义和意图,从而为问答系统提供更加准确的答案。

基于语义依存关系的汉语语料库的构建

基于语义依存关系的汉语语料库的构建

中文信息学报第17卷第1期JOURNAL OF CHINESE INFORMATION PROCESSING Vol.17No.1文章编号:1003-0077(2003)01-0046-08基于语义依存关系的汉语语料库的构建¹尤1,李涓子2,王作英1(11清华大学电子工程系,北京10008421清华大学计算机科学与技术系,北京100084)摘要:语料库是自然语言处理中用于知识获取的重要资源。

本文以句子理解为出发点,讨论了在设计和建设一个基于语义依存关系的汉语大规模语料库过程中的几个基础问题,包括:标注体系的选择、标注关系集的确定,标注工具的设计,以及标注过程中的质量控制。

该语料库设计规模100万词次,利用70个语义、句法依存关系,在已具有语义类标记的语料上进一步标注句子的语义结构。

其突出特点在于将5知网6语义关系体系的研究成果和具体语言应用相结合,对实际语言环境中词与词之间的依存关系进行了有效的描述,它的建成将为句子理解或基于内容的信息检索等应用提供更强大的知识库支持。

关键词:计算机应用;中文信息处理;语料库;语义依存关系;5知网6;动态角色与属性中图分类号:TP391文献标识码:AOn Construction of a Chinese Corpus Basedon Semantic Dependency RelationsYOU F ang1,LI Juan2zi2,WANG Zuo2ying1(11Dept.of Electronics Engineeri ng,T si nghua University,Beijing100084,Chi na21Dept.of C omputer Science Technol ogy,Tsinghua U niversity,B eiji ng100084,China)Abstr act:Cor pora are important resources for knowledge acquisition in the field of natural language processing.For t he pur pose of sentence understanding,we are constructing a Chinese large2scale2corpus based on semantic dependen2 cy relations.T his paper introduces the tagging formalisms we adopt,the tagging set we choose,t he tagging tool we develop,and the method we use to guarantee the good consistency of tagging.The corpus under discussion is at a scale of1million words.Each sentence in the corpus,which already had annotations of sense,is further tagged with its semantic structure using70semantic2dependency2relat ions.The highlight of this cor pus is its ability to effectively descr ibe various relations between Chinese words.All of these profited from using<HowNet>for reference and the combination with specific use of language.The construct ion of this corpus can definitely provide mor e knowledge sup2 ports for sentence understanding,content2based information retrieval,and so on.Key wor ds:computer application;Chinese information processing;corpus;semantic dependency relations;HowNet; Event Role&Features一、引言自然语言处理面临的最大障碍在于词汇、句法、语义等知识的匮乏,建立带有各类标注附加信息的大规模语料库正是解决这一瓶颈的有效方法。

基于树库的汉语依存句法分析

基于树库的汉语依存句法分析

万方数据万方数据万方数据万方数据万方数据基于树库的汉语依存句法分析作者:刘海涛, 赵怿怡, LIU Hai-Tao, ZHAO Yi-Yi作者单位:中国传媒大学,应用语言学研究所,北京,100024刊名:模式识别与人工智能英文刊名:PATTERN RECOGNITION AND ARTIFICIAL INTELLIGENCE年,卷(期):2009,22(1)被引用次数:0次1.Abeill6 A Treebank:Building and Using Parsed Corpera 20032.Tesnibro L E16ments de la Syntaxe Structurale 19593.冯志伟特思尼耶尔的从属关系语法 1983(01)4.Hudson R A Language Networks:The New Word Grammar 20075.Nivre J Inductive Dependency Parsing 20066.Nivre J.Hall J.Nilsson J MaltParser:A Language-Independent System for Data-Driven Dependency Parsing 2007(02)7.Liu Haitao.Huang Wei A Chinese Dependency Syntax for Treebanking 20068.刘海涛影响依存句法分析的因素探讨 20079.刘海涛.冯志伟自然语言处理的概率配价模式理论[期刊论文]-语言科学 2007(03)10.Liu Haitao Probability Distribution of Dependency Distance 20071.会议论文刘海涛基于树库和机器学习的汉语依存句法分析2007基于树库和机器学习的语言处理方法是自然语言处理领域中的一个研究热点。

本文旨在探索利用语言学手段来提高句法分析精度的可能性。

基于依存树库的现代汉语“X+于”结构的计量研究

基于依存树库的现代汉语“X+于”结构的计量研究
表 2 X+于”结构句法功能、分布频率及例句
句法功能 依存关系 频率
例句
状语
ADVA 49 由于直面就业市场的天然属Байду номын сангаас,职业教 育一直以来紧密对接产业需求。
定语
DEP
72 吴书香看完节目第一集关于“以人民为 中心”的施政理念感触良多。
图 2 “X+于”结构属性的频率分布
310个作动词用的“X+于”结构的句法功能相对 复杂多样,本研究参考了周明、黄昌宁[6],罗耀华[7]提 出的现代汉语依存关系体系,将“X+于”结构的句法 功能按照依存关系大致分为五类,“X+于”结构的这 五类句法功能在本研究中出现的频率和具体情况如 表 1所示。
(3)现代汉语“X+于”结构中“于”字虚化原因为何? 二、研究方法 本研究采用基于依存语法构建的依存树库对现
代汉语中“X+于 ”结 构 进 行 计 量 研 究。 其 语 料 来 源 于 2018年 1月至 10月《人民日报》所报道的相关新 闻。作为中国正式的官方媒体,《人民日报》的用语具 有规范性、普遍性和正式性的特点,能够较好地代表 和反应现代汉语的特点和用法。本研究收集的新闻 语料涵盖了要闻、社论、经济和文化四个方面,近 23 万字,语料涉 及 的 范 围 较 为 全 面,内 容 较 为 多 样。 本 研究首先使用 AntConc软件对收集语料中的“X+于” 结构进行了检索,在剔除“于是”、“终于”等不属于本 研究范围的结构后,对所有包含“X+于”结构的句子 进行了提取。之后,本研究利用 StanfordParser软件 对所有包含 “X+于 ”结 构 的 句 子 进 行 依 存 关 系 的 标 注,从而建立一个依存树库。该树库的格式为电子表 格,包含每个词的词性、依存关系并可以计算依存距 离。刘海涛概括了依存语法中依存关系的主要属性: 依存关系 是 二 元 的,即 它 是 一 种 两 个 元 素 之 间 的 关 系;它 是 不 对 称 的,即 在 关 系 的 两 个 元 素 中,一 般 而 言,一个元素会支配另一个元素,这是构成依存句法 树层级体系的基础[5]。具体情况如下图:

语料库研究与应用综述

科I { l 教 文 化


语料库研究与应用综述
彭 刚 刘 岩
( 黑龙 江省 富裕 县 电子政 务 管 理 中心 , 龙 江 富裕 1 10 ) 黑 620
摘 要: 语科库通常指为语言研究收集的、 子形式保存的语言材料, 然出 用电 由自 现的书面语或口 语的样本汇集而成, 景 特定的语言或语言变体。 用来 关键词: 语料库 ; 究; 用 研 应
在应用语言学领域,词典编纂和语言教学同 是语料库的最大受益者。 目前 已有多部诃典杏 岛 兰 纂 或修订 过程中, 不同程度地使用语料库或电子文档 收集词语数据 , 用于收词、 释义、 例句、 属性标注等。 结束语 语料库作为 自然语言处理和应用的基础, 在 自然语言处理 要的作用。当然 , 要想使语料库更好的为我们做出 更大的贡献, 在以后的道路 E直该花更大的人力和 财力来研究和发展它。 通过 查阅 有关 语料 库 的研究 与发 展 的相关 资 料, 使我对自认语言和语料库的研究和发展有了一 定的认识。在阅读相关资料的过程中, 我了解到了 语料库的各种资源都是来源于我们的日常生活, 并 在此基础上以实用为目的, 来组建各种类型的语料 库。 同时 , ^ ^ , 我个 t为 随着计算语言学和自 然语言 信息 处理的综合发展, 语料库在计算机应用的各个 领域必将有不可估量的发展前景 , 例如在智能信息 管理 和检索方 面 。
1 述 概 语结构法”“ 、 专家系统法”“ 、 隐马尔科夫模型”“ 应用上还处于起步阶段 , 、串 在计算语言学和语言信息 在自 然语言信息处理领域 , 语言资源指的是 频统计和词匹配” 等辩识歧义 自 。识别未登录 处理领域 , 语料库主要用来为统计语言模型提供语 动分诃研究的 二 第 个重点。 词性 自 动标注通 青净,氲息 正 和既萼 据,在语言研究的其他领域, 磺 语料库和语言知识库。 语料库用来收录原始的语言 词是 自 材料, 语言知识库则收录的是反映语言内部结构规 常与 自 动分词同时进行, 根据带 有词类信息的分词 词典, 给切分出来的词语标 匕 初始的词类标记。对 近年来在语料库的支持下,从信息处理的角 律和言 糊 程 认知规律 的知识 。 语料库通常指为语言研究收集的、用电子形 于兼类词, 必须在句子里判断类别。因此需要分析 度研究汉语词汇、 语法和语义问题的报告也 日渐增 并用 多。这些研究包括 : 式保存的语言材料 , 由自然出现的书面语或口语的 兼类词语在上下文中的分布特点和语法功能 , 根据逐诃索引作汉语词义的调 样本汇集而成,甩来代表特定的语言或语言变体。 形式化的方式表达出来 , 查; 对词语搭配进行计量分析 ; 利用量词——名词 经过科学选材和标注、 具有适当规模的语料库能够 类 的规 则 。 的搭配数据研 究汉语名词分类 题; a 进行现代汉语 反映和记录语言的实际使用情况。 人伸 百 过语料库 经过分词的语料 , 除了标注词性以外 , 还可以 句型的统计和研究 ; 做短语 自动识别( 例如基本名 观察和把握语言事实 , 分析和研究语言系统的规 进一步标注其他语言学属性, 譬如韵律、 语调、 短语 词短语、 动宾结构) 自 和 动句法分析的试验 ; 研究在 律。语料库已经成为语言学理论研究 五 月 研究和 结构、 句法结构、 义关系等等。 语 句子的语法结构需 句子里为词语排除歧义的算法 ; 分析和统计汉语词 语言工程不可缺少的基础资源。 要有形式化的方式来表达, 大多数语料库或者采用 语重叠结构的深层结构类型及产生方式 , 等等。 或者采用依存语法树的方式, 这样标 语料库与语言信息处理有着某种天然的联 短语结构树, 对于词汇学、 语法学、 语言理论、 历史语苣 等 系。当人们还不了解语料库方法的时候, 自然语 注过的语料库就成为短语树库或句法树库。 在 —般情 研究来说, 语料库的作用 目前大多还是通过语料检 言理解和生成、 机器翻译等研究中, 分析语言的主 况下, 在词性标注的基础 E 再作进一步的语法标注 索和频率统计,帮助 ^ 们观察和把握语言事实, 分 要方 法是 基= 呗Ⅱ Ruebsd。 于 肆 了 的( l- ae )对 呗 0 加工, 无 多以人工为主, 也有关于 自动短语定界和句 析和研究语言的规律。 语料库方法的发展会使这种 法表达或不能涵盖的语言事实 , 计算机就很准处 法信息 自 动标注的研究和实验。 前已有的汉语短 仅起辅助作用的手段逐步变成必备的应用资源和 目 理。语料库出现以后, 人们利用它对大规模的 自然 语库、 句法树库规模都不大, 至多百万词级。 工具。 利用语料库 , 人们可以把指定的语法现象加 语言进行调查和统计 , 建立统计语言模型 , 研究和 2 2语料库管理系统 以量化, 并且检测和验证语言理论 、 规则或假设。 应用基于统计的(tita- ae 言处理技术 , Sa sclbsd ti 经过科学选材和标注、具有适 当规模的语料 在少数民族语言和方言调查研究方面,比较 还应该有—个功能齐备的管理系统, 包括数据 有代表眭的] { ‘ 在信息检索、 文本分类 、 文本过滤、 信息抽取等应用 库 , 二 铺缅语语料库及比较研究的计 f黾 方向取得了 进展。另—方面, 语言信息处理技术的 维护( 语料录入 、 、 校对 存储、 、 修改 删除及语料描述 量描写” 。它建立了我国境内藏缅语族五大语支 8 2 发展也为语料库的建设提供了支持。从字符编码、 信息项目 管理) 、 自 语料 动加工( 分词、 标注、 文本分 个语言点 l 万词条的词汇语音数据库 , 6 对藏语方 文本输入和整理, 语料的 自动分词和标注 , 到语料 割、 合并 、 语料对齐、 标记处理等 ) 、 用户服务功能 言的音节、 音位、 声母、 韵母、 声词、 词素、 阋能力 构 的绚|卜 t司 胁睑索 , 自然语言信 息瘦 理的研究 吾料 ( 查询、 检索、 统计、 作了分布和对 比分析。 0 的加工提供了 关键性的技术。 要涉及汉字字符处理、 文本处理、 文件管理等计算 对藏语 1 个方言点 5 作了语音对应关系和音系对 比 2 语料库的加工、 管理 机程序设计技术。 语料 自动加工部分的主要内容是 关系的量f 描述, 艺 并且在这 做出具有历时 2l 语料的加工 自动分词 、 各种语言学属性的标注技术 , 已经在前 和共时比皎研究意义的相关分析 , 得出了语言分类 与三 个 因素有 面专 门介 绍过 了。最 重 要的是 面 向用 户 的语 料 检

大学语言学概论考试(习题卷2)

大学语言学概论考试(习题卷2)第1部分:单项选择题,共168题,每题只有一个正确答案,多选或少选均不得分。

1.[单选题]索绪尔创立的语言学可以称为( )A)传统语言学B)历史比较语言学C)结构主义语言学 D社会语言学答案:C解析:2.[单选题]汉语普通话中[a][α][A]可以归纳为一个音位,因为它们具有A)对立关系B)相邻关系C)互补关系D)相异关系答案:C解析:3.[单选题]阿拉伯文字是( )A)辅音文字B)音节文字C)表意文字D)意音文字答案:A解析:4.[单选题]下列都属于汉语中借词的是( )。

A)雷达、足球、芭蕾舞B)卡车、电话、哈巴狗C)纳粹、吉他、披萨饼D)沙龙、朝廷、艾滋病答案:C解析:5.[单选题]下列各句,通过停顿可以区别歧义的是A)大家准备起来了B)我们五个人一组C)反对的是少数人D)他们要学习文件答案:B解析:6.[单选题]关于儿童掌握母语的“强化说”来源于巴甫洛夫的A)生物进化理论B)条件反射理论C)激励理论D)钙化理论答案:B解析:7.[单选题][]伦敦方言成为英吉利共同语的基础方言是由于( )方面的原因。

A)文化B)政治C)经济D)人口答案:C解析:C8.[单选题][]句子“月亮吃苹果”不符合( )组合条件。

A)语法B)语义C)语用D)构词答案:B解析:B9.[单选题][]语言用于交际时最小的使用单位是( )。

A)语素B)词C)短语D)句子答案:D解析:D10.[单选题][]在一种语言内部划分地域方言时的依据主要是( )。

A)语法B)语音C)词义D)词汇答案:B解析:B11.[单选题]儿童语言发展的非自控阶段一般出现在婴儿出生后的A)前6个月B)6个月到1岁C)1岁到2岁D)2岁以后答案:A解析:12.[单选题]俄语、汉语、日语三种语言所属的语法结构类型按次序是()A)粘着语-屈折语-孤立语B)屈折语-粘着语-孤立语C)孤立语-屈折语-粘着语D)屈折语-孤立语-粘着语答案:D解析:13.[单选题]目前在形式语言学理论中最有影响力的语法理论是A)结构语法理论B)功能语法理论C)生成语法理论D)认知语法理论答案:C解析:14.[单选题]汉语中的“站、胡同、蘑菇”借自A)朝鲜语B)满语C)回语D)蒙古语答案:D解析:15.[单选题]下列各项中,甲和乙是预设关系的一项是()A)(甲)他买了一支钢笔∥(乙)他买了一支笔B)(甲)老王在小李的左边∥(乙)小李在老王的右边C)(甲)他不再偷钱了∥(乙)他以前偷过钱D)(甲)什么水果他都吃过∥(乙)他吃过苹果答案:C解析:16.[单选题]词义概括性的重要表现形式不包括( )A)一般性B)模糊性C)全民性D)民族性答案:D解析:17.[单选题]下面各项中,与汉语有亲属关系的是A)维吾尔语B)藏语C)满语D)蒙语答案:B解析:18.[单选题]人脑中掌管语言的是A)大脑左半球B)大脑右半球C)小脑D)脑干答案:A解析:19.[单选题]语言符号的线性()A)语言符号的排列没有层次性,象一根线条排列在一起B)语言符号一个跟一个依次出现,随时间推移不分层次逐渐延伸C)语言符号在时间的线条上逐个出现,同时不排除层次性D)语言符号的排列具有层次性,但可以同时出现。

依存结构树的计数


1
引言
依存结构树是一种树型数据结构, 它不仅可用来表示基于
atr Tall a people n subj sleep vi fc in p
pobj atr long a beds n
依存语法的句法分析结果, 也是短语结构之外的另一种表示自 然语言句法结构的重要形式。 树结构的计数研究对于构造高效 的句法分析算法与系统,对于研究相应句法体系的生成能力, 均有较大的理论意义与应用价值。 关于其他各种类型的树的计 数研究已有不少[1-6], 但关于依存结构树的计数问题尚未见诸文 献。对依存结构树的计数问题进行探讨, 旨在回答具有 n (n≥ ) 个词语的句子, 其可有的依存结构树共有多少种不同的形态 1 的问题。首先给出依存结构树的形式描述和性质, 然后给出不 同形态的依存结构树的计数算法。
22
2009 ,45 (32 )
Computer Engineering and Applications 计算机工程与应用
依存结构树的计数
2 胡凤国 1, 黄 伟 1, , 刘海涛 1 2 , HU Feng-guo1, HUANG Wei1, LIU Hai-tao1
北京 100024 1.中国传媒大学 应用语言学研究所, 北京 100083 2.北京语言大学 汉语水平考试中心, 1.Institute of Applied Linguistics, Communication University of China, Beijing 100024, China (HSK ) , 2.Chinese Proficiency Test Center Beijing Language and Culture University, Beijing 100083, China bushiwoshishui@ E-mail: HU Feng-guo, HUANG Wei, LIU Hai-tao.Enumeration of dependency structural puter Engineering and Appli - (32 ) : cations, 2009, 45 22-24. Abstract:Tree is an important data structure.Dependency structural tree is widely used in the field of language information pro- cessing.The enumeration of dependency structural trees is put forward.Firstly, the formal description of dependency structural tree and its five properties are given.After that the enumeration formulas of dependency structural tree and dependency structural for- est are showed by uses of separation schemes and separation lists of n ordered elements.At last the enumeration results of the dependency structural trees with less than eight word numbers are published. Key words:dependency structural tree; dependency structural forest; separation scheme; separation list 摘 要: 树是一种很重要的数据结构, 依存结构树是一种特定的树, 在语言信息处理领域应用广泛 。研究了依存结构树的计数问 题。首先给出了依存结构树的形式描述, 给出了其 5 条性质; 然后利用 n 个有序元素的分隔方案和分隔序列给出了依存森林和依 存结构树的计数公式; 最后给出了 8 个词语以内的依存结构树的计数结果。 关键词: 依存结构树; 依存结构森林; 分隔方案; 分隔序列 : 文章编号: (2009 ) DOI 10.3778/j.issn.1002-8331.2009.32.007 1002-8331 32-0022-03 文献标识码: A 中图分类号: TP301

依存句法分析方法综述

依存句法分析方法综述杨振鹏【摘要】近年来,自然语言处理发展迅速,依存句法分析作为自然语言处理的重要组成部分,成了句法分析研究的热点问题.目前较为成熟的依存句法分析方法有4种:生成式句法分析模型、判别式句法分析模型、决策式句法分析模型和约束满足句法分析模型.文章详细介绍了4种句法分析模型的原理,并对模型算法进行了对比分析.【期刊名称】《无线互联科技》【年(卷),期】2018(015)022【总页数】3页(P114-116)【关键词】依存句法分析;生成式句法分析模型;判别式句法分析模型;决策式句法分析模型;约束满足句法分析模型【作者】杨振鹏【作者单位】南京财经大学红山学院文法系,江苏南京 210003【正文语种】中文语法理论是任何一种句法分析的基础。

现有的语法体系中,用两个词之间的依存关系来描述依存语法的语言结构。

依存语法的结构将谓词作为研究的中心,并且表层句法结构的条件及状况由深层语义的结构来体现,谓词的词类由谓词与体词之间的同现关系来划分。

依存语法具有易于理解、便于词性标注、形式简洁清晰等优势,受到了许多学者的关注。

目前,许多研究人员在自然语言处理领域中应用了依存语法,促进了依存句法分析方法的发展。

1 依存句法分析的研究现状1.1 英语依存句法分析现状短语结构的句法分析一直是英语的句法分析的主要工作,而依存句法的研究开展则相对滞后。

Melchuk在1988年全面系统的研究了英语的依存语法理论,Eisner[1]在1997年最先提出了树库转化的思想,依存树库通过短语树库转化得到,并进行了相关的转化实验。

Eisner在数据转换时对含连词的句子进行过滤,其余的句子使用规则进行自动转换,得到了90.1%的依存正确率。

依存句法分析吸引了越来越多的研究者加入,他们对英语的依存体系进行了完善。

在实践方面,Yamada等[2]使用支持向量机的方法进行短语结构的转换,主要是对Penn Treebank中的句子进行转换,获得了90.5%的正确率。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

语言学理论中依存树库的应用分析
前言目前在语言知识的获得方法上已经取得了重大突破,即由传统手工方法完成了向语料库辅助方法的过渡,进而促进了语言知识获得准确率和效率的提升,同时还能够将研究者的片面性和主观性获得,该方法使得语言学方法论和理论均取得了很大的发展。

基于计算机语言学家是提出依存树库者,故而在进行研究的过程中语言学理论研究着并未重视,但是随着了解层度的加深,使得在语言学理论中依存树库被不断的应用,并且也将一定的研究成果获得。

一、依存树库概述
所谓的树库就是这标注了语义信息、句法、词类的语料库,在语言处理上存在困难和复杂性,因此,要想将语言知识获取,就必须将标有语言信息的语料库充分应用。

目前人们将树库作为了知识源、句法结构获得、句法分析结果评价的主要工具,并且相关研究者对其重视度也在不断增强。

并且国外研究发现,树库囊括了丰富的句法分布和词类信息,是研究句法和词类的重要依据。

同时还可以将语言信息从树库中抽取,在研究语言学时将树库作为重要工具。

目前国内外开发了众多树库,其中以PSG句法标注和DG句法标注为主要的句法标注体系,其中前者建立的汉语短语结构树库包括了北京大学的汉语树库、台湾中央研究院的汉语树库、清华大学的句法树库及其美国的宾州树库等。

依存语法与短语结构语法对比之下,前者对于汉语句法结构的描述更适合,这主要是因为汉语中语法意义的表达主要是通过虚词和语序表示的,并且汉语的词间关系具有复杂性。

然而依存树库是在依存语法的基础上标注句法体系的语料库,在描述句法结构时主要是通过将词与词之间的关系建立实现的。

二、语言学理论研究中依存树库的应用
1.研究语言类型学在语言学中,语言类型学属于一门显学,其任务是总结人类语言共性及其跨语言比较。

学者刘海涛研究了汉语句法的类型学特征与汉语依存树库的相关性得出,汉语中50%左右的依存关系是在不相邻词间发生,使句子中依存关系形成的两个词间平均存在着1. 84个词,换言之
2. 84就是汉语的平均依存距离。

汉语属于AdjN、VO、SV型语言,还是对混合型语言。

该研究结论与其他语言类型学家得出的结果具有相同性。

刘明杰也研究了不同语体文本的依存树库,同时对比了英汉依存距离,并得出,英语与汉语的依存距离相比,前者更小,由此可见,依存树库对于研究语言类型学可操作性很强,能够帮助我们对汉语句法结构的特点更好从依存句法角度了解,并对人类语言普遍性的发现有利。

2.研究语言中的词类高松以依存树库统计了现代汉语动词、名词、从属词、支配词的依存关系类型,得出了动词和名词句法功能分布概率,对前人的研究结果进行了补充,同时也验证了研究结论。

袁芬瑜以依存树库对英语名词的搭配进行了描述,并且将英语名词依存关系分析得出,同时还对英语名词的罕见句法、主要、次要功能进行了总结。

在对前人理论检验的同时,也将改进建议提出。

陈芯莹研究了虚词,资源选择为汉语依存句法树库,将复杂网络分析技术和方法运用的情况下,对汉语句法中的介词在、动态助词了和结构助词的的特点进行了研究,同时对虚词的被支配力和支配力做了计量地分析。

3.研究广播电视语体语言学研究的核心领域就是语体研究,刘丙丽将实话实说、新闻联播作为了依存树库,同时还自建了两个依存树库,并将其作为资源,对口语体和书面语体不
同句法成分的差异进行了分析,得出在口语体和书面语体中句法成分的各词类比重差异显著,同时还将不同语体中充当句法成分时各优势词类统计得出。

4.研究外汉语教学依存树库对于外汉语教学中词汇教学具有重要的作用,通常使用频率及其词语搭配情况等信息与词汇教学具有密切相关性。

高松的研究统计了偏误频率最高的50个错词,并将其根据错误频率进行甲、乙、丙三级划分,并将不同等级错词的配价信息在依存树库中提取,并将其制作为配价词表。

其研究结果显示了在实际使用中高频错词可能出现的所有用法和情况,同时将各个用法出现的频次统计,实现了量化信息的统计,有助于外汉语词汇教学。

三、依存树库对语言学理论研究的启示
1.将依存树库的应用领域拓展除了将依存树库应用于计算语言学研究之外,还可将其在理论语言学研究中应用。

依存树库对语言学理论研究来说,具有语言资源可靠、语言数据真实、客观的特点。

时至今日,学者将依存树库应用于语言学理论研究,使用的方为主要包括了对外汉语教学研究、电视节目语体研究、现代汉语虚词的地位研究、英语词类句法功能的计量研究及其汉语的语言类型学研究等。

可见依存树库对于理论语言学研究具有有效性和可行性。

要想将依存树库资源优势充分利用,就必须对语言知识深入挖掘,将语言现象发现更多,这样才能够将依存树库的应用领域不断拓展,并将其应用于语言学理论研究中。

进而对语言计量更加深入、细致的研究,如语义、句法、现代汉语词类等方面,将依存树库与应用研究和语言学本体研究结合,并从不同角度挖掘,同时还可以将针对性的语言研究开展。

2.对依存树库资源优势予以重视基于依存树库得天独厚的优势就是句子结构的分析和理解,依存树库富含丰富的语义、句法、词类等信息,既能将中心词信息给出,同时还能将句子中的词间关系提供。

并且还可以根据研究需求完成语义描述。

统计分析依存树库中抽取的数据,就能够总结成为语言学知识,对前人的研究结论检验的同时,还可将语言学理论体系中的不足弥补,将语言现象发现,将问题充分解决。

当下众多学者倡导将语言学返回计算语言学,使语言学基础问题在计算语言学研究中重现,共享语言学资源。

但是基于大部分依存树库的提出和构建都不是理论语言学家,因此在语言学理论中依存树库的应用不多,多局限于计算语言学研究中。

进而导致众多的理论语言学家对依存树库没有一个正确的认知和了解,进而忽视了语言学理论研究中依存树库的重要性。

由此可见,语言学理论研究者必须对依存树库资源的优势充分重视,并将其应用价值不断的提升。

四、结语综上所述,依存树库对于语言学理论研究具有重要的作用和意义,必须引起足够的重视,进而在此基础上,研究出更多的理论语言学成果,将依存树库作为研究者进行语言学理论研究的重要手段。

相关文档
最新文档