汉语句法树库标注体系

合集下载

语料库

语料库

设计样本分布
表一:人文与社会科学类
科 目 比 例 字 数 1919-1925 1926-1949 1950-1965 1966-1976 19775% 哲学 历史 社会 经济 艺术 文学 其他 8.3% 8.3% 8.3% 8.3% 8.3% 50% 8.3% 250 250 250 250 250 1500 250 12.5 12.5 12.5 12.5 12.5 75 12.5 15% 37.5 37.5 37.5 37.5 37.5 225 37.5 25% 62.5 62.5 62.5 62.5 62.5 375 62.5 5% 12.5 12.5 12.5 12.5 12.5 75 12.5 50% 125 125 125 125 125 750 125
年份
标注语料库
词语切分
分词词表 词表结构化
词类标注
<信息处理用现代汉语词类标记集规范>
句法树库 已完成5000万字词语切分和词类标注语料库
语料库标注加工
语料库加工软件系统 分词词表
现代汉语词语切分歧义数据库
歧义点,歧义类型,歧义消解结果 基于国家语委语料库
超大规模通用平衡语料库
2002, 863项目 1亿字 基于国家语委语料库选材原则 网络电子文本为主 段落级XML标注
自然科学(含农业、医学、工程与技术) 类
目前比较通用的中、小学各科教材。 目前比较通用的具有通论性质的大学各 科基础必修课程的教材。 涉及自然科学各个门类的科普读物。
现代汉语语料库选材字数的分布
人文与社会科学的语言材料占全部5000万字 语料的60%,为3000万字。这3000万字在各 个学科的分布见表一。 文学的语言材料占人文与社会科学类的50%, 共1500万字。这1500万字在不同体裁、题材 的语料的分布见表二。 长、中、短篇小说的选取比例大致为: 长:中:短=1:2:3

一个基于完整结合逻辑的汉语范畴语法

一个基于完整结合逻辑的汉语范畴语法

一个基于完整结合逻辑的汉语范畴语法作者:刘盼盼王庆江来源:《电脑知识与技术》2024年第03期关键词:结合逻辑;结合子;范畴语法;结合范畴语法;树库中图分类号:TP301.2 文献标识码:A文章编号:1009-3044(2024)03-0015-040 引言近年来,神经网络与深度学习在自然语言处理中被广泛应用,但在训练神经网络时,其运行机制难以从语言学的方面得到理性解释[1]。

语言语法的研究仍十分重要。

范畴語法[2](Categorial Grammar,CG)是一种同时兼顾句法和语义且把自然语言的句法分析看作是逻辑推理的形式语法。

组合范畴语法[3](Combinatory Cat⁃egorial Grammar,CCG)是20世纪末的理性主义产物,对CG的扩展在于增加结合逻辑[4]结合子C、B、B’对应的类型提升及函数组合,用斜线类型将范畴结合的精准控制由规则一侧转向词汇一侧[5]。

CCG对于计算语言学具有重要价值[6],然而在运用CCG于缺乏屈折的汉语时,需要对扩展CG的基本依据——结合逻辑重新做一系统的考虑。

文献[7]构建CCG汉语谓词词库,收集多义谓词在真实语境中的不同分布,其目标是为每个谓词选择在句中合适的范畴标记,该方法可用于对汉语其他词类的句法类型消歧。

文献[8]分析CCG和汉语句法之间的差异,提出一个改进的组合性方案,但本质上还是基于CCG的句法规则对汉语句法结构进行分析。

汉语不像其他语言能够通过改变词的形态来表示词的语法功能和语义特征,它的词基本上保持了固定的形式,不会出现屈折变化。

文献[9]认为词类或短语结构在参与构建短语时可发生语法性质转变,使用转类后的句法范畴,为此在组合范畴语法中增加了范畴转换规则。

文献[10]认为“类有定职”违反语法简约,“类有多职”是汉语缺乏屈折的必然结果,范畴转换是未转类情况下词类选择其非典型句法范畴,建立带有范畴转换的组合范畴语法(CCG with CategoryConversions,CCG-C2),该语法使句子结构中同一词类或短语结构可指派不同句法范畴。

国家语委现代汉语语料库介绍

国家语委现代汉语语料库介绍
综合类
应用文 难于归类的语料
人文与社会科学类
人文与社会科学类划分为8个大类和30个小类:
政法:哲学、政治、宗教、法律; 历史:历史、考古、民族; 社会:社会学、心理、语言文字、教育、文艺理论、新闻、
民俗; 经济:工业经济、农业经济、政治经济、财贸经济; 艺术:音乐、美术、舞蹈、戏剧; 文学:小说、散文、传记、报告文学、科幻、口语; 军体:军事、体育; 生活。
章程法规:章程、条例、细则、制度、公约、办法、法律条 文等;
司法文书:诉讼、辩护词、控告信、委托书等; 商业文告:说明、广告、调查报告、经济合同等; 礼仪辞令:欢迎词、贺电、讣告、唁电、慰问信、祝酒词等; 实用文书:请假条、检讨、申请书、请愿书等。
综合类约占语料总量的20%
样例 语料分类
信息处理用现代汉语词类标记集规范
基本词类体系 基本词类体系的标记代码 《规范》的制定
在国家社科基金“九五”重大项目《信息处理用现代汉语词汇研 究》的子项目“信息处理用现代汉语词类标记集规范的基础上完 成
得到国家语委“九五”重大项目《现代汉语语料库建设》子课题 “国家语委核心语料分词及词性标注加工”的支持。
样例 语料库查询统计工具
样例 句法树库的信息检索
样例 基于互联网的语料库例句检索
样例 语料库全文检索
语料库的管理
国家语委语料库由国家语委委托语言文字应用 研究所负责建设和管理
国家语委语料库可以提供的服务
语料库使用权许可 检索、查询、统计等数据服务 软件开发等其他服务
语料库提供服务的方式
语料库选材
人文与社会科学类
以1919年为上限,选取五四以来的语言材料。 对五四以来各个历史时期的语料采取不等密度选用的方式。

浅析汉语语言处理中的句法分析方法

浅析汉语语言处理中的句法分析方法

浅析汉语语言处理中的句法分析方法黄莉【摘要】在自然语言处理中,句法分析属于深层的分析处理.目前,其下层的词法分析技术已经基本成熟,其上层的语义分析则建立在句法分析的基础之上的,其位置及其关键,已经成为当前自然语言处理的一个瓶颈.本文对汉语的句法分析方法进行了简单的评述.【期刊名称】《价值工程》【年(卷),期】2010(029)017【总页数】2页(P162-163)【关键词】汉语自然语言处理;句法分析【作者】黄莉【作者单位】宝鸡文理学院,宝鸡,721007【正文语种】中文【中图分类】G2020 引言自然语言理解是语言信息处理技术的重要研究方向之一,一直以来都是人工智能领域中的核心研究课题。

自然语言理解是指机器能够执行人类所期望的某些语言功能,如回答问题、文摘生成、释义、翻译等。

由于自然语言的多义性、上下文有关性、模糊性、非系统性和环境密切相关性、涉及的知识面广等众多因素,使得对自然语言的理解成为非常困难的研究课题[1]。

语言虽然被表示成一连串的文字符号或者是一串声音流,但实质上,语言的内部是一个层次化的结构。

自然语言的分析理解和处理过程也应当是一个层次化的过程。

许多现代语言学家将自然语言理解的过程划分为语音分析、词法分析、句法分析、语义分析和语用分析五个层次,分别完成音素区分、词素划分、句子或短语的结构分析、确定语言所表达的真正含义或概念以及语言在特定环境中所产生的影响等分析工作。

句法分析师自然语言处理的一个基本问题,是在句法分析的基础之上的语言层次结构分析。

其目的是确定句子所包含的谱系结构和句子各组成成分之间的关系。

关于汉语语言处理中的句法分析方法的研究,从20世纪80年代初以来,一直都没有停止过,先后出现了大量的分析方法。

1 汉语句法分析方法及演变过程1.1 汉语句法分析的基本理论自然语言处理中,按照处理深度的不同,大致可以将自然语言处理中的语言分析技术划分为浅层分析和深层分析两大类[2]。

树库中的歧义组合考察

树库中的歧义组合考察

树 库 中 的歧义 组 合 考察
李 艳 娇 , 尔 弘 杨
( 京 语 言 大学 应 用 语 言学 研 究 所 , 京 1 0 8 ) 北 北 0 0 3 摘 要 : 语 树 库 是 汉语 信 息 处 理 的 宝 贵 资 源 , 中 包含 了丰 富 的 句子 结 构 及 成 分 组 合 信 息 , 树 库 中的 词 性 串组 汉 其 对
平台; 次 , 其 它能 为汉语 句法 学研 究提供 真实 文本 标 注 素材 , 于语言 学家从 中总结语 言规则 和规律 ; 便 第 三 , 是进一 步进 行 句 子 内部 的词 语 义 项 和语 义 关 它 系标 注 的基 础 。 J”
环 境 的句 法信 息作 用甚 小 。 《 语 短 语 结 构 定 界 歧 义 类 型 分 析 及 分 布 统 汉 计 》2 L 一文 在一 个 汉英 机 器 翻 译 系 统所 用 的 汉语 分 ] 析 规则 的基础 上 , 对汉 语 短 语 结构 的定 界 歧 义 做 了
62 O4 3 8 .
29 55 5 .7
1 01 . %
O O
v +n 4 2 1 O 6 0 +v 6 2 2 .
v n V 26 l 9 4 . + + 9 3 7 0
n n V 27 2 9 8 . + + 6 2 5 8
V— a— 丁 rn _ 26 1 8 3 .7
性 序列 组合 方式 的统 计 , 发现 汉 语 中的歧 义 组 合 很
收 稿 日期 :2 1 - 9 1 定 稿 日期 :2 1 — 2 2 0 10 — 5 0 11—8
基 金项 目 :“ 央高 校 基 本 科 研 业 务 费 专 项 资 金 ” 助 中 资
作 者 简 介 : 艳 娇 ( 9 6 ) 女 , 士 , 要 研 究 方 向为 语 言 信 息 处 理 ; 尔 弘 (9 5 ) 女 , 授 , 要 研 究 方 向 为 语 言 信 李 18 ~ , 硕 主 杨 16一 , 教 主

现代汉语语法分析的五种方法

现代汉语语法分析的五种方法

现代汉语语法分析的五种方法1.依存句法分析法依存句法分析法是一种基于句子中词与词之间依存关系的语法分析方法。

它关注句子中词与词之间的依存关系,即词语之间的修饰、补充和关联关系。

依存句法分析法通过构建依存关系树来描述句子的结构。

这种方法能够较好地解释句子的语义和句法关系。

2.短语结构句法分析法短语结构句法分析法是一种基于短语结构的语法分析方法。

它关注句子中的短语结构,即短语的组合和层次结构。

短语结构句法分析法通过构建短语结构树来描述句子的结构。

这种方法能够较好地解释句子的组合和层次结构。

3.范畴语法分析法范畴语法分析法是一种基于范畴的语法分析方法。

它将句子中的词语和短语分为不同的范畴,并通过规则来描述它们之间的关系。

范畴语法分析法通过构建范畴语法树来描述句子的结构。

这种方法能够较好地解释句子的范畴和语义关系。

4.统计语法分析法统计语法分析法是一种基于统计模型的语法分析方法。

它通过对大量语料库进行统计分析来学习语法规则和句子结构。

统计语法分析法可以使用各种机器学习算法,如隐马尔可夫模型、条件随机场等。

这种方法能够较好地解释句子的概率和结构。

5.语义角色标注法语义角色标注法是一种基于语义角色的语法分析方法。

它关注句子中的谓词和与之相关的论元之间的语义角色关系。

语义角色标注法通过标注谓词和论元之间的关系来描述句子的结构。

这种方法能够较好地解释句子的语义角色和语义关系。

以上是现代汉语语法分析的五种常用方法。

每种方法都有其独特的优势和适用范围,可以根据具体需求选择合适的方法进行语法分析。

随着自然语言处理技术的不断发展,语法分析方法也在不断演进和完善。

黎锦熙“句本位”思想的历史际遇、由来及主要内容

黎锦熙“句本位”思想的历史际遇、由来及主要内容

黎锦熙“句本位”思想的历史际遇、由来及主要内容摘要:黎锦熙“句本位”思想的代表作——《新著国语文法》是现代汉语语法学的一部开创之作,也是国内唯一一部经过了长期语言教学和数字化时代计算语言学检验和考验的著作,尽管在历史上黎锦熙“句本位”思想遭受过不公正的对待与评价,但黎锦熙“句本位”思想拥有强大的生命力和解释力,至今在语言教学界和计算语言学界指导着我们的教学和研究,当今的数字化时代早已翘首以盼期待着黎氏“句本位”思想真正地王者归来。

关键词:黎锦熙;句本位;《新著国语文法》;中心词分析法;图解法我国著名的语言学家黎锦熙先生在1924年出版的《新著国语文法》(以下简称《新著》)是现代汉语语法学的一部开创之作,现代汉语语法研究史上的一个里程碑。

《新著》自1924年出版后到1959年重印24版,影响范围极为广泛,是唯一一部各级学校通用的现代汉语语法教材,在中国语法学史上是绝无仅有的划时代事件。

因此,学界对黎锦熙先生的《新著》给与了高度评价。

张拱贵高度评价该书在中国语言学史上的重要地位和价值,称其为“导夫先路的开拓性著作” [1]。

彭兰玉教授对该书也给予了高度评价:“它立起了汉语传统语法学,它和《文通》一样作为整个汉语语法研究和语法学发展的基础,特别作为在语法教学中的统治地位,是不可取代的,过去如此,现在如此,将来亦会如此。

”[2]胡明扬先生也高度评价了黎锦熙的“句本位”思想的代表作——《新著国语文法》,“它借鉴了西方传统语法并充分结合汉语实际、充分照顾形式和意义两方面的著作,它不仅是一部现代汉语语法开创性和奠基性的著作,而且也是唯一一部经过了语言教学和自然语言计算机处理的检验和考验的著作”。

[3]本文将对黎氏“句本位”思想的历史际遇进行梳理,重新审视黎锦熙“句本位”思想的由来及主要内容,希望能对我们客观公正地认识黎氏为代表的传统语法、重新梳理现代语法体系及其语言学理论基础有一定的启示意义。

一、《新著国语文法》的百年历史际遇黎氏以白话文为研究对象,首创体系完整“句本位”语法体系,奠定了汉语传统语法学的基础,《新著》一书先后印行达24版之多,不但在当时产生了轰动效应,而且对后世汉语语法研究,尤其是大学、中学语法教学影响较大。

BFS-CTC汉语句义结构标注语料库构建方法

BFS-CTC汉语句义结构标注语料库构建方法

BFS-CTC汉语句义结构标注语料库构建方法
罗森林;刘盈盈;冯扬;韩磊;陈功;王倩
【期刊名称】《北京理工大学学报》
【年(卷),期】2012(32)3
【摘要】根据现代汉语语义学,构建了一种层次化的句义结构模型.基于该模型构建了汉语句义结构标注语料库(Beijing forest studio-Chinese tagged corpus,BFS-CTC).利用自行开发的标注和管理工具,对模型中各个句义成分及其组合关系进行快速标注,降低培训工作量和标注成本.BFS-CTC涵盖了6种句式类型,约1万句,提供了符合现有规范的词法和句法标注信息与自定义规范的句义结构标注信息,便于词法、句法和句义的对照分析研究,以及语料的综合使用和横向分析.此外,BFS-CTC 还具有较强的可扩展性,可在核心标注库基础上扩展生成其它扩展库和标注资源.【总页数】5页(P311-315)
【关键词】中文信息处理;句义分析;句义结构;语义标注;语料库
【作者】罗森林;刘盈盈;冯扬;韩磊;陈功;王倩
【作者单位】北京理工大学信息与电子学院
【正文语种】中文
【中图分类】TP391
【相关文献】
1.谈《现汉》对义位褒贬陪义的标注 [J], 解海江;张志毅
2.现代大型机读语料库的标注方法——以CEC政府文件子语料库标注为例 [J], 刘
国兵
3.BFS-CTC汉语句义结构标注语料库 [J], 刘盈盈;罗森林;冯扬;韩磊;陈功;王倩
4.构建汉越/越汉平行语料库——以机械制造业汉越语料库建设为例 [J], 张智丹
5.俄语句义结构中词汇意义与句法意义的相互作用对句义的影响 [J], 介云
因版权原因,仅展示原文概要,查看原文内容请购买。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1 汉语句法树库标注体系∗ 周 强 清华大学计算机系 智能技术与系统国家重点实验室 北京100084 zhouq@s1000e.cs.tsinghua.edu.cn

摘要:语料库的句法标注是语料库语言学研究的前沿课题。本文在研究和总结国内外句法树库标注实践的基础上,提出了一套汉语真实文本的句法树标注体系。它以完整的层次结构树为基础,对句法树上的每个非终结符节点都给出两个标记:成分标记和关系标记,形成双标记集的句法信息描述体系。目前,这两个标记集分别包含了16和27个标记,对汉语句子的不同句法组合的外部功能分布和内部组合特点进行了详细描述。在此基础上,我们开发完成了100万词规模的汉语句法树库TCT,对其中各种复杂语言现象的标注实践显示了这套标注体系具有很好的信息覆盖率和语料适应性。 关键词:句法树库,标注规范,语料库语言学

Annotation Scheme for Chinese Treebank

ZHOU Qiang State Key Laboratory of Intelligent Technology and Systems Dept. of Computer Science and Technology Tsinghua University, Beijing 100084 zhouq@s1000e.cs.tsinghua.edu.cn

ABSTRACT: The syntactically annotated corpora, commonly called ‘treebanks’, play an important role in empirical linguistics as well as in machine learning methods in natural language processing. After a brief summarization of several treebank annotation of different language, we proposed a new annotation scheme for Chinese treebank in this paper. Under this scheme, every Chinese sentence will be annotated with a complete parse tree, where each non-terminal constituent is assigned with two tags. One is the syntactic constituent tag, which describes its external functional relation with other constituents in the parse tree. The other is the grammatical relation tag, which describes the internal structural relation of its sub-components. These two tag sets consist of 16 and 27 tags respectively. They form an integrated annotation for the syntactic constituent in a parse tree through top-down and

∗本项研究得到国家自然科学基金(项目号:69903007和60173008)、国家973基金(项目号:G1998030507,

G1998030501A-03)、国家高技术研究发展863计划(项目号:2001AA114040)资助。 作者:周强,男,1967年生,博士,副研究员,主要研究方向:计算语言学、语料库语言学、词汇语义学 2

bottom-up descriptions. Based on this scheme, we built a 1,000,000 words Chinese treebank covering a balanced collection of journalistic, literary, academic, and other documents. The annotating experiments on different kinds of complex linguistic phenomena show the availability and compatibility of this annotation scheme. KEYWORDS: Tree Bank, Annotation Scheme, Corpus Linguistics

1 引言 语料库的句法标注是语料库语言学研究的前沿课题,它的处理目标是对语料文本进行句法分析和标注,形成树库(tree bank)语料。近年来,国内外研究人员在这些方面进行了深入探索,开发完成了许多大规模的树库。在英语方面,有英国的Lancaster- Leeds 树库[LG91]和美国的 Penn 树库[MSM93];德语方面,有NEGRA树库[SBK98]和TIGER树库[BH02];捷克语方面,有布拉格依存树库(PDT)[Hai99];汉语方面,有美国宾州大学的Penn中文树库[XM00]和台湾中研院的Sinica中文树库 [HCC00]。 在这些树库项目的开发过程中,一个特别值得重视的发展趋势是树库构建与语法理论研究的紧密结合。欧洲目前进行的一些树库项目都有很深的语法理论研究背景,如:捷克的PDT项目以依存语法为基础;德国的TIGER项目以词汇功能语法(LFG)为基础;英国的LigGO项目[OFT02]以头驱动短语结构语法(HPSG)为基础等。两者紧密结合的好处是显而易见的。一方面,利用语法理论的最新研究成果,可以很快建立起比较完整的树库标注体系;同时,利用比较成熟的基于不同语法理论的句法分析器作为预处理工具,可以大大降低大规模树库的构建成本。另一方面,通过大规模真实文本的树库构建实验,可以发现许多新的语言现象,为语法理论提供丰富的研究素材,使理论体系得到不断改进和完善。两者相辅相成,互相促进,达到了理论研究和实际应用的完美结合。 从1998年起,我们开始进行汉语句法树库的开发研究,希望构建完成目前世界上规模最大、信息标注最丰富的汉语句法树库。经过5年多的努力,逐步总结形成了一套比较完整的汉语真实文本的句法树标注体系和处理规范。在下面的几节中,我们首先对目前国内外典型树库的句法标注体系进行简单综述(第2节)。接着介绍我们的标注体系的主要内容(第3节)。然后简要介绍以此为基础进行的汉语句法树库标注实践和目前完成的100万词规模的句法树库TCT的基本情况,并对有关内容进行总结和展望(第4节)。在最后的结语(第5节)中,对有关工作进行总结和展望。

2 国内外典型树库的标注体系 在英语方面,美国的Penn 树库的标注体系经历了一个从简单到复杂的不断进化发展过程。最初的PTB-1[MSM93]采用了骨架分析(Skelton Parsing)思想,形成比较扁平的句法结构树。随后,在扩充版本(PTB-2)[MKM94]中,增加了一些功能标记,用于标注句子中主要句法成分的语法功能,希望能据此自动抽取出句子的谓词-论元(Predicate-Argument)信息。从2002年起,他们进一步提出了命题库(PropBank)构建计划[KMM02],在PTB-2上明确标注句子中各个动词的谓词-论元信息,希望借此建立从句法到语义的重要桥梁。 捷克的PDT项目[Hai99]则设计了三个层次的标注信息:词法、句法和语义。在词法层 3

面上,充分利用了捷克语丰富的形态变化信息,总结了4200多个词类标记;在此基础上形成的句法依存树,对句子中关键词语的句法依存关系进行了描述;然后,利用动词的详细句法语义描述词典,将表层的句法依存关系转化为深层的语义依存关系。 从描述框架上看,PTB采用的句法结构树和PDT采用的依存树各有优势。句法结构树可以对不同层次的句法成分组合特点进行细致的描述,但缺点是有时层次比较深,操作起来比较麻烦,而且中心词(Head)信息不突出。为此,PTB项目进行了一些改进,包括采用骨架分析方法减少层次深度,增加功能标记突出中心依存关系等。但从Collins(1999)在PTB-2上进行的中心词依存关系对自动抽取实验结果看,大量人工总结的匹配规则还是必需的。而依存树的优势则在于明确地标注出了中心词之间的句法依存关系,可以方便地转化为语义依存描述,但它对一些没有明确依存关系的成分,标注起来则有些力不从心。因此,较好的处理方法是将两者有机结合起来。在这方面,德语的TIGER项目进行了有益的尝试。 在TIGER树库中,研究人员采用了一种层次结构和依存关系相结合的标注体系:底层的句法成分主要采用层次结构,可以保留大量丰富的描述信息;高层的语法关系则采用依存结构,描述句子中各主要成分与中心动词之间的各种句法依存关系,形成一种功能强大、处理灵活的描述体系,特别适合于象德语那样语序比较自由的语言。 在汉语方面,目前两个较大的树库是美国宾州大学的汉语树库(CTB)和台湾中研院的Sinica汉语树库。在标注体系上,CTB基本上沿用了英语PTB-2的标注体系。目前的总标注规模为50万词的新闻语料。另外,他们也在进行汉语的命题库项目[XP03],计划在现有的汉语树库上标注完整的PA关系信息。他们的基本设想是在一个共同的标注框架下,实现英语和汉语的双语信息标注,为进一步进行英汉双向机器翻译和信息抽取研究打下基础。这个研究路线有其合理性和可行性,但把许多汉语独具特色的描述信息硬纳入英语的描述框架,总给以汉语为母语的人许多生硬别扭的感觉。 台湾中研院的树库标注体系则是在他们提出的信息为本的格语法上构建起来的。其标注格式非常类似于TIGER的结合描述框架,差别是用Theta角色代替了依存关系描述。他们的主要处理特点是按照标点符号对汉语句子分块,对每个小句(块)进行句法分析和标注,形成不同句法树。目前共标有41100棵树,约241008个词。这种处理方法降低了标注难度和工作量,但也不可避免地丢失了汉语复杂长句中丰富的描述信息。

3 我们的句法树标注体系 从1998年起,我们开始进行汉语句法树库的开发研究,希望构建完成目前世界上规模最大、信息标注最丰富的汉语句法树库。为此,我们选择了大规模的包含文学、学术、新闻、应用四大体裁的平衡语料文本作为加工对象,以期尽可能多地覆盖汉语的各种语言现象;我们确定了比较自然的书面语文本的断句方法1,以期尽可能忠实地反映汉语句子组织信息的

相关文档
最新文档