汉语句法树库标注体系

汉语句法树库标注体系
汉语句法树库标注体系

汉语句法树库标注体系?

周强

清华大学计算机系

智能技术与系统国家重点实验室

北京100084

zhouq@https://www.360docs.net/doc/a011110079.html,

摘要:语料库的句法标注是语料库语言学研究的前沿课题。本文在研究和总结国内外句法树库标注实践的基础上,提出了一套汉语真实文本的句法树标注体系。它以完整的层次结构树为基础,对句法树上的每个非终结符节点都给出两个标记:成分标记和关系标记,形成双标记集的句法信息描述体系。目前,这两个标记集分别包含了16和27个标记,对汉语句子的不同句法组合的外部功能分布和内部组合特点进行了详细描述。在此基础上,我们开发完成了100万词规模的汉语句法树库TCT,对其中各种复杂语言现象的标注实践显示了这套标注体系具有很好的信息覆盖率和语料适应性。

关键词:句法树库,标注规范,语料库语言学

Annotation Scheme for Chinese Treebank

ZHOU Qiang

State Key Laboratory of Intelligent Technology and Systems

Dept. of Computer Science and Technology

Tsinghua University, Beijing 100084

zhouq@https://www.360docs.net/doc/a011110079.html,

ABSTRACT: The syntactically annotated corpora, commonly called ‘treebanks’, play an important role in empirical linguistics as well as in machine learning methods in natural language processing. After a brief summarization of several treebank annotation of different language, we proposed a new annotation scheme for Chinese treebank in this paper. Under this scheme, every Chinese sentence will be annotated with a complete parse tree, where each non-terminal constituent is assigned with two tags. One is the syntactic constituent tag, which describes its external functional relation with other constituents in the parse tree. The other is the grammatical relation tag, which describes the internal structural relation of its sub-components. These two tag sets consist of 16 and 27 tags respectively. They form an integrated annotation for the syntactic constituent in a parse tree through top-down and

?本项研究得到国家自然科学基金(项目号:69903007和60173008)、国家973基金(项目号:G1998030507,G1998030501A-03)、国家高技术研究发展863计划(项目号:2001AA114040)资助。

作者:周强,男,1967年生,博士,副研究员,主要研究方向:计算语言学、语料库语言学、词汇语义学

1

bottom-up descriptions. Based on this scheme, we built a 1,000,000 words Chinese treebank covering a balanced collection of journalistic, literary, academic, and other documents. The annotating experiments on different kinds of complex linguistic phenomena show the availability and compatibility of this annotation scheme.

KEYWORDS: Tree Bank, Annotation Scheme, Corpus Linguistics

1 引言

语料库的句法标注是语料库语言学研究的前沿课题,它的处理目标是对语料文本进行句法分析和标注,形成树库(tree bank)语料。近年来,国内外研究人员在这些方面进行了深入探索,开发完成了许多大规模的树库。在英语方面,有英国的Lancaster- Leeds 树库[LG91]和美国的 Penn 树库[MSM93];德语方面,有NEGRA树库[SBK98]和TIGER树库[BH02];捷克语方面,有布拉格依存树库(PDT)[Hai99];汉语方面,有美国宾州大学的Penn中文树库[XM00]和台湾中研院的Sinica中文树库 [HCC00]。

在这些树库项目的开发过程中,一个特别值得重视的发展趋势是树库构建与语法理论研究的紧密结合。欧洲目前进行的一些树库项目都有很深的语法理论研究背景,如:捷克的PDT项目以依存语法为基础;德国的TIGER项目以词汇功能语法(LFG)为基础;英国的LigGO项目[OFT02]以头驱动短语结构语法(HPSG)为基础等。两者紧密结合的好处是显而易见的。一方面,利用语法理论的最新研究成果,可以很快建立起比较完整的树库标注体系;同时,利用比较成熟的基于不同语法理论的句法分析器作为预处理工具,可以大大降低大规模树库的构建成本。另一方面,通过大规模真实文本的树库构建实验,可以发现许多新的语言现象,为语法理论提供丰富的研究素材,使理论体系得到不断改进和完善。两者相辅相成,互相促进,达到了理论研究和实际应用的完美结合。

从1998年起,我们开始进行汉语句法树库的开发研究,希望构建完成目前世界上规模最大、信息标注最丰富的汉语句法树库。经过5年多的努力,逐步总结形成了一套比较完整的汉语真实文本的句法树标注体系和处理规范。在下面的几节中,我们首先对目前国内外典型树库的句法标注体系进行简单综述(第2节)。接着介绍我们的标注体系的主要内容(第3节)。然后简要介绍以此为基础进行的汉语句法树库标注实践和目前完成的100万词规模的句法树库TCT的基本情况,并对有关内容进行总结和展望(第4节)。在最后的结语(第5节)中,对有关工作进行总结和展望。

2 国内外典型树库的标注体系

在英语方面,美国的Penn 树库的标注体系经历了一个从简单到复杂的不断进化发展过程。最初的PTB-1[MSM93]采用了骨架分析(Skelton Parsing)思想,形成比较扁平的句法结构树。随后,在扩充版本(PTB-2)[MKM94]中,增加了一些功能标记,用于标注句子中主要句法成分的语法功能,希望能据此自动抽取出句子的谓词-论元(Predicate-Argument)信息。从2002年起,他们进一步提出了命题库(PropBank)构建计划[KMM02],在PTB-2上明确标注句子中各个动词的谓词-论元信息,希望借此建立从句法到语义的重要桥梁。

捷克的PDT项目[Hai99]则设计了三个层次的标注信息:词法、句法和语义。在词法层

2

面上,充分利用了捷克语丰富的形态变化信息,总结了4200多个词类标记;在此基础上形成的句法依存树,对句子中关键词语的句法依存关系进行了描述;然后,利用动词的详细句法语义描述词典,将表层的句法依存关系转化为深层的语义依存关系。

从描述框架上看,PTB采用的句法结构树和PDT采用的依存树各有优势。句法结构树可以对不同层次的句法成分组合特点进行细致的描述,但缺点是有时层次比较深,操作起来比较麻烦,而且中心词(Head)信息不突出。为此,PTB项目进行了一些改进,包括采用骨架分析方法减少层次深度,增加功能标记突出中心依存关系等。但从Collins(1999)在PTB-2上进行的中心词依存关系对自动抽取实验结果看,大量人工总结的匹配规则还是必需的。而依存树的优势则在于明确地标注出了中心词之间的句法依存关系,可以方便地转化为语义依存描述,但它对一些没有明确依存关系的成分,标注起来则有些力不从心。因此,较好的处理方法是将两者有机结合起来。在这方面,德语的TIGER项目进行了有益的尝试。

在TIGER树库中,研究人员采用了一种层次结构和依存关系相结合的标注体系:底层的句法成分主要采用层次结构,可以保留大量丰富的描述信息;高层的语法关系则采用依存结构,描述句子中各主要成分与中心动词之间的各种句法依存关系,形成一种功能强大、处理灵活的描述体系,特别适合于象德语那样语序比较自由的语言。

在汉语方面,目前两个较大的树库是美国宾州大学的汉语树库(CTB)和台湾中研院的Sinica汉语树库。在标注体系上,CTB基本上沿用了英语PTB-2的标注体系。目前的总标注规模为50万词的新闻语料。另外,他们也在进行汉语的命题库项目[XP03],计划在现有的汉语树库上标注完整的PA关系信息。他们的基本设想是在一个共同的标注框架下,实现英语和汉语的双语信息标注,为进一步进行英汉双向机器翻译和信息抽取研究打下基础。这个研究路线有其合理性和可行性,但把许多汉语独具特色的描述信息硬纳入英语的描述框架,总给以汉语为母语的人许多生硬别扭的感觉。

台湾中研院的树库标注体系则是在他们提出的信息为本的格语法上构建起来的。其标注格式非常类似于TIGER的结合描述框架,差别是用Theta角色代替了依存关系描述。他们的主要处理特点是按照标点符号对汉语句子分块,对每个小句(块)进行句法分析和标注,形成不同句法树。目前共标有41100棵树,约241008个词。这种处理方法降低了标注难度和工作量,但也不可避免地丢失了汉语复杂长句中丰富的描述信息。

3 我们的句法树标注体系

从1998年起,我们开始进行汉语句法树库的开发研究,希望构建完成目前世界上规模最大、信息标注最丰富的汉语句法树库。为此,我们选择了大规模的包含文学、学术、新闻、应用四大体裁的平衡语料文本作为加工对象,以期尽可能多地覆盖汉语的各种语言现象;我们确定了比较自然的书面语文本的断句方法1,以期尽可能忠实地反映汉语句子组织信息的本来面目;我们采用了完整的层次结构树描述框架,设计了双标记集的描述体系,对句法树上的每个非终结符节点都给出两个标记:成分标记和关系标记,分别描述其外部功能分布和内部组合特点,以期尽可能详细地描述汉语句子的句法组合信息。

我们采用完整的层次结构树描述,而不是目前国际上比较通用的骨架分析或依存关系描1一般情况下,以句号、问号、感叹号等显性标记作为断句依据。

3

述,主要基于以下几点考虑:

1)层次结构树可以给出汉语句子最为详细的句法信息描述,覆盖汉语“字/词?块?句?段”各个层次的句法单元。而在具体标注过程中,利用我们提出的分阶段树库构建方法[ZRS02],可以大大减低人工校对的工作量,从而弥补这种描述体系在具体实现上的弱点。

2)这套描述体系可以与现有研究成果达到完美结合。首先,近年来,国内语言学界在汉语层次分析方面进行了深入研究,积累了许多有价值的研究成果,可以充分吸收到我们的标注体系中;其次,我们在汉语自动层次分析方面进行了大量探索,开发了比较完整的自动句法分析器[ZQ97]和句法知识自动获取工具[ZQ01],可以为树库构建项目提供有力的支持。

3)在这套体系下多年的研究与教学,已形成了丰富的人才储备库,从中我们可以方便地找到大量高质量的树库校对人员,不需要经过大量培训就可以胜任目前的校对任务。这对降低大规模语言工程的开发费用是至关重要的。

4)基于目前树库的丰富信息容量,我们可以方便地开发自动转换程序,按照不同的应用需求,把现有树库标注格式转换成骨架分析树、依存关系树或两者结合形式。同时,也可以方便地从目前的树库中自动提取基本短语和功能语块标注信息,建立现有的句法树标注体系与汉语部分分析体系[ZQ03]的内在联系,扩大目前树库语料的应用范围。

作为语料库多级加工过程中的一个中间阶段,句法分析和标注应该为进一步进行汉语句子的词语义项和语义关系标注提供有力的支持。理想情况下,在对句子进行正确句法信息标注的前提下,应能依据一个语义知识库和自动标注工具,准确地标注出大部分的语义信息。而要实现这个目标,就必须在这个阶段给出尽可能详细的句法信息描述。我们的基本设想是,对结构信息的完整描述,至少应包含以下内容:

1)结构的外部功能特征描述:分析它进一步与其他结构相组合的能力;

2)结构的内部组合关系描述:分析它内部的组成成分之间的语义组合关系;

3)结构的语义中心词描述:分析它的语义中心词位置;

在汉语的绝大多数结构中,一般可以依据上面1)和2)的信息唯一地确定3)的位置。因此,在我们的标注体系中,主要对1)和2)两部分信息进行显性描述和标注。为此,我们设计了以下两个标记集:成分标记集和关系标记集。下面分别进行简要说明,有关的详细内容可参阅[Th02]。

3.1成分标记集设计

我们目前设计了16个成分标记(见表1)。它们沿用了我们最初提出的树库标记集内容[ZZY97],基本上覆盖了汉语“字/词?块(短语)?句?段”各个层次的句法单元,具有较强的适应性,可以方便地加工处理大规模的真实文本语料。

首先,我们设计的10个短语和准短语标记,通过与下面的句法关系标记相配合,可以对汉语“字/词?块(短语)”之间的一些连续变化单元,包括语法词、复合词、短语等给出详细描述。

而标记组 {dj,fj,zj,jq} 则较好地体现了汉语短语到句子的实现关系和句子之间的组合关系:dj 和 fj 作为特殊的短语--句型标记,一方面可以灵活地充当句子成分,体现了汉语独特的成分套叠现象[LJM93],另一方面又可以通过在句尾加上语调标点(句号、叹号、问号)实现为一个完整的句子(zj)。相反,zj 则一般不充当句子中的句法成分,这反映了 zj 与

4

dj 和 fj 在语法层次和具体使用上的差别,但多个 zj 仍可以进一步组合为更大的语法单位——句群(jq)2。

另外,我们还设计了两个标记(yj和dlc),对汉语句子中的直接引语和独立成分进行了描述,并对一些常见的独立成分进行了分类标注,包括插入语、称呼语、补充说明、复指成分、强调成分等,有关详细内容可参阅[Th02]。

表 1 汉语成分标记集

序号标记代码标记名称序号标记代码标记名称

1 np 名词短语9 mbar

数词准短语

2 tp 时间短语10 mp 数量短语

3 sp 空间短语11 dj 单句句型

4 vp 动词短语12 fj 复句句型

5 ap

形容词短语13 zj 整句

6 bp

区别词短语14 jq 句群

7 dp 副词短语15 dlc 独立成分

8 pp 介词短语16 yj 直接引语

3.2关系标记集设计

我们目前设计了27个关系标记(见表2),希望能尽可能全面地覆盖汉语的各种句法语义关系描述。其中,在“词?块?小句”层面上,主要描述了小句中核心谓词(主要是动词和动词短语)与周边成分的支配关系,包括:主谓、述宾、述补等;和各个描述成分与中心词之间的修饰关系,包括:定中、状中等;以及各种实体概念与功能词之间的句法组合关系,包括:附加、方位、介宾、框式、标号等。它们形成了汉语基本事件和实体内容描述的基本框架,从中可以直接推导出汉语句子的常见语法范畴,包括主语、谓语、宾语、定语、状语、补语、附加语、中心语等。从而为进一步进行目前的句法结构树向依存树的转换打下很好的基础。在“句?段”层面上,则侧重描述了汉语复杂事件的各种逻辑关系组合,包括各个事件之间的顺序连接关系,如:连谓、兼语、连贯、递进、流水、解注等;以及各个事件之间的条件蕴涵关系,如:条件、假设、转折、因果、目的等。为进一步进行汉语不同事件描述关系的分析提供了研究基础。而并列联和关系描述则覆盖“词?块?小句?句?段”等各个层面,形成成分重叠、短语联合及小句并列或选择关系。有关的详细内容可参阅[Th02]。

以上不同关系标记设计基本上沿用了汉语语法研究的相关术语,其中比较特别的是我们提出的顺序(SX)关系标记。它最初是为了描述真实文本中大量出现的“起点?历程?终点”的时空变化顺序而提出来的,主要包括以下情况[Th02]:

z通过多个介词结构描述,如:[pp-SX [pp-JB从北京] [pp-JB经天津 ] [pp-JB 到上海 ] ]

z通过“X p(至|到) Y”描述“起点?终点”的时空顺序,如:[tp-DZ 12月 [tp-SX 5 2在我们目前的标注实例中,这种情况主要出现在复杂引语中。

5

日 [pp-JB至7日] ] ]

z通过“X –|—Y”描述“起点?终点”的时空顺序,如:[sp-SX 北京 – 上海 ] 但随着研究工作的不断深入,我们发现这种顺序关系在汉语中大量出现[Dai02],包括动作之间的时序关系、事件之间的连贯关系等,是否在更高层次上对这些关系进行进一步抽象,使用统一的关系标记进行描述,还需要进行进一步的探索。

表 2 句法关系标记集

序号标记代码标记名称序号标记代码标记名称

1 ZW 主谓结构15 SX 顺序结构

2 PO 述宾结构16 BL 并列关系

3 SB 述补结构17 LG 连贯关系

4 DZ 定中结构18 DJ 递进关系

5 ZZ 状中结构19 XZ 选择关系

6 LH 联合结构20 YG 因果关系

7 LW 连谓结构21 MD 目的关系

8 AD 附加结构22 JS 假设关系

9 CD 重叠结构23 TJ 条件关系

10 JY 兼语结构24 ZE 转折关系

11 JB 介宾结构25 JZ 解注关系

12 FW 方位结构26 LS 流水关系

13 KS 框式结构27 XX 缺省关系

14 BH 标号结构

4 句法树标注实践

基于上面介绍的句法树标注体系,我们总结制定了一部比较完整的汉语句法树标注规范[Th02],对大规模汉语真实文本进行了句法树标注实践。其加工对象选自清华大学和北京语言文化大学联合开发的200万汉字的平衡语料库。它的主要语料来源是90年代的现代汉语书面语以及准口语(包括剧本、谈话录、演讲录等)的真实文本,按文体分为文学、新闻、学术、应用四类。经过自动切词、词性标注和人工校对,已经形成了准确度很高的切分和词性标注精加工文本,为进一步进行句法树库构建打下了很好的基础。

大规模的树库构建是一项庞大的语言工程。在目前的条件下,完全由机器自动完成是不可能的,一定的人工投入是必需的。关键问题是如何寻找一个合适的人工介入点,以最少的人工投入,获得最佳的整体处理效果。为此,我们提出了分阶段的树库构建设想[ZRS02]:z第一阶段:在经过正确切分和词性标注处理的汉语语料文本上,人工标注正确的功能语块信息,形成语块库[ZRZ01]。

z第二阶段:在汉语句子的语块标注结果上,利用自动句法分析器,分析并标注句子的句法结构树,并进行人工校对,形成完整正确的树库语料。

这种“逐步求精”的树库构建设想,可以大大提高整体的工作效率,以最小的人力物力投入,取得最佳的树库构建效果。

6

下面是对一个具体汉语句子实例的分阶段标注结果:

z输入句子:我/rN 哥哥/n 送/v 给/v 我/rN 一/m 本/qN 很/d 漂亮/a 的/u 书/n 。/w3 z功能语块标注结果: [S我/rN 哥哥/n ] [P 送/v 给/v ] [O 我/rN ] [O 一/m 本/qN 很/d 漂亮/a 的/u 书/n ] 。/w

z句法树分析和校对结果:[zj-XX [dj-ZW [np-DZ 我/rN 哥哥/n ] [vp-PO [vp-PO [vp-SB 送/v 给/v ] 我/rN ] [np-DZ [mp-DZ 一/m 本/qN ] [np-DZ [ap-ZZ 很/d

漂亮/a ] 的/u书/n ] ] ] ] 。/w ]

具体的加工过程则是标注规范、校对人员和自动分析工具之间的互动调整过程。经过5年多的努力,我们加工完成了100万词的汉语句法树库TCT(Tsinghua Chinese Treebank, v1.0)。其中不同文体语料所占比例(按词项数计算)分别为:文学47.3%、学术26.3%、新闻20.0%和应用6.4%。另外,对4万多个整句内部组成结构进行分析,发现由复句形成的占56.8%、由单句形成的占32.6%、由动词短语形成的占5.7%。这种分布格局在4个文体的语料中基本相同,表明在真实文本的汉语句子描述中,复杂句子占了绝大多数。这种现象对目前以单句为中心的汉语句法理论研究和自动分析方法探索提出了新的问题和挑战。

5 结语

综上所述,我们在大规模汉语树库构建方面进行了以下探索性研究:

1)选择了大规模的包含文学、学术、新闻、应用四大体裁的平衡语料文本作为加工对象,这在国内外的大型树库项目中还没有看到。相比而言,PTB, PDT和TIGER和

CTB主要采用了新闻语料,台湾的Sinica树库语料虽然取自他们的500万字的平衡

语料库,但规模较小。

2)采用了完整的层次结构树描述框架,设计了双标记集的描述体系,对句法树上的每个非终结符节点都给出了尽可能丰富的汉语句法描述信息。

目前,我们已经开发完成了目前世界上规模最大、信息标注最丰富的汉语句法树库TCT (Tsinghua Chinese Treebank, v1.0),并且开始在TCT上进一步进行更深层次的句法分析和词汇语义标注研究。

参考文献

[BH02] Brants, S., & Hansen, S. (2002). Developments in the TIGER annotation scheme and their realization in the corpus[A]. In Proceedings of the Third Conference on Language Resources and Evaluation (LREC-02)[C]. Las Palmas de Gran Canaria, Spain. p.1643-1649.

[Col99] Collins, M. (1999) Head-Driven Statistical Models for Natural Language Parsing[D]. Ph.D. Thesis. Dept. of Computer Science and Information, The University of Pennsylvania.

[Dai02] 戴浩一(2002)概念结构与非自主性语法:汉语语法概念系统初探[J],《当代语言学》,4(1), 1-12. [Hai99] Hajic, J. (1999). Building a syntactically annotated corpus: The Prague Dependency Treebank[A]. In E. Hajicova (Ed.), Issues of valency and meaning. Studies in honour of Jarmila Panevova. Prague, Czech Republic:

3有关的标记符号简要说明如下:rN—名代词,n—名词,v—动词,m—数词,qN—名量词,d—副词, a—形容词, u—助词, w—标点符号;S—主语块,P—述语块,O—宾语块。

7

Charles University Press

[HCC00] Chu-Ren Huang, Feng-Yi Chen, Keh-Jiann Chen, & al.(2000). Sinica Treebank: Design Criteria, Annotation Guidelines, and On-line Interface[A], Proceedings of the Second Chinese Language Processing Workshop[C], HongKong. 29-37.

[KMM02] Kingsbury, P.; Martha Palmer, and Marcus, M. (2002). Adding Semantic Annotation to the Penn TreeBank[A]. In Proceedings of the Human Language Technology Conference[C], San Diego, California.

[LG91] Leech, G.; and Garside, R. (1991). Running a grammar factory: The production of syntactically analysed corpora or 'treebanks' [A]. In Stig Johansson and Anna-Brita Stenstrom (eds.)English Computer Corpora : Selected papers and Research Guide. 1991. 15-32

[LJM93] 陆俭明 (1993). 汉语句法成分特有的套叠现象[A],《陆俭明自选集》,河南教育出版社,174-192. [MKM94] Marcus, M., Kim, G., Marcinkiewicz, M.,& al. (1994). The Penn Treebank: Annotating predicate argument structure [A]. In Proc. of the ARP A Human Language Technology Workshop[C]. San Francisco, CA. [MSM93] Mitchell P.Marcus, Mary Ann Marcinkiewicz, and Beatrice Santorini (1993). Building a Large Annotated Corpus of English: The Penn Treebank[J], Computational Linguistics, 19(2), 313-330.

[OFT02] Stephan Oepen, Dan Flickinger, Kristina Toutanova, et. al. (2002). LinGO Redwoods --- A Rich and Dynamic Treebank for HPSG [A], In Proc. of First Workshop on Treebanks and Linguistic Theories (TLT2002) [C] , 139-149.

[SBK98] Skut,W., Brants, T., Krenn, B., & Uszkoreit, H. (1998). A linguistically interpreted corpus of German newspaper text [A]. In Proceedings of the Conference on Language Resources and Evaluation LREC-98[C]. Granade, Spain. pp. 705–711

[Th02] 汉语句子的句法树标注规范V2.0 [R],清华大学计算机系智能技术与系统国家重点实验室,技术资料,2002年6月。

[XCM02] Xue N.W., Chiou F. and Martha P. (2002). Building a Large-Scale Annotated Chinese Corpus [A]. In Proc. of 19th International Conference on Computational Linguistics (COLING-02) [C], Taiwan.

[XM00] Xia, Fei, Martha Palmer, & al. (2000) Developing Guidelines and Ensuring Consistency for Chinese Text Annotation [A]. In Proceedings of the second International Conference on Language Resources and Evaluation (LREC-2000[C]), Athens, Greece.

[XP03] Nianwen Xue and Martha Palmer. 2003. Annotating Propositions in the Penn Chinese Treebank [A], In Proceedings of the 2nd SIGHAN Workshop on Chinese Language Processing, in conjunction with ACL'03 [C]. Sapporo, Japan

[ZQ01] 周强(2001)汉语句法知识的自动获取研究 [A],中文信息学会二十周年学术会议论文集[C],北京,156-165

[ZQ97] Qiang Zhou (1997) A Statistics-Based Chinese Parser[A], In Proc. of the Fifth Workshop on Very Large Corpora[C], p.4-15.

[ZRS02] 周强,任海波, 孙茂松(2002) 分阶段构建汉语树库[A], In Proc. of The Second China-Japan Natural Language Processing Joint Research Promotion Conference[C], Beijing, China. p189-197.

[ZQ03] 周强 (2003) 汉语部分分析研究[A], 孙茂松、陈群秀主编《语言计算与基于内容的文本处理》[C],清华大学出版社,p116-121.

[ZZY97] 周强,张伟,俞士汶 (1997). 汉语树库的构建[J],《中文信息学报》,11(4),1-11

8

现代汉语语法

层次分析法,又称“直接成分分析法”,是对句法单位(包括短语和句子)的直接成分进行结构层次分析的方法。由于切分过程中尽可能采用二分,所以层次分析法又称作“二分法”。 1、基本分析原则 语法从表面上看是线性排列的符号序列。线性排列是指按照时间先后顺序说出或写出的形式。但是语法结构却是有层次性的,层次是指句法单位在组合时所反映出来的不同的先后顺序。 表层的线性关系背后暗含着隐性的层次关系。小的语法单位是大语法单位的组成部分,大的语法单位是由小的语法单位组合而成的,本身又可以成为更大语法单位的组成部分。 语法结构的每个层次一般直接包含比它小的两个语法单位,这两个小的语法单位就是直接成分。每一个直接成分又可以包含更小的直接成分。 例如: 我们进行社会调查 |主||____谓_______| |_述 | 宾____ | |_定)中 | 层次分析法就是逐层将一个句法单位(联合短语等由多个直接成分组成的短语除外)切分成两个直接成分,直到不能再切分为止的句子分析方法。 2、分析过程 层次分析法的分析过程主要包括两个步骤:第一步是切分结构层次,第二步是确定结构关系。 例如: 他去年去了一趟美国。 |__||___________________| 主谓关系 |___||______________| 状中关系 |________| |__| 述宾关系 |_| |___| 述补关系

切分过程中应注意: ①第一步切分非常重要,第一步切分不当,后面便容易全都切错。 ②必须逐层切分,直至分析出每个实词,语素不需要切分。 ③为避免切分过程中的遗漏,一般采用从左到右、从上到下、逐块切分的分析步骤。 3、层次分析法的图解表示 层次分析法中常用的图解表示法是切分法、组合法和树形图。 ①切分法 切分法是最常用的方法,将所要分析的短语或句子作为一个整体,从大到小,逐层切分。 例如: 申奥成功有助于中国的改革与开放。 |_ 主 __| |______ 谓 ________________| |主| |谓| |_述_ |______ 宾___________| |__ 定_)_ 中 _______| | 联 + 合 | ②组合法 组合法是把所要分析的短语或句子切分到单词,然后从小到大,依次组合起来。例如: 他弟弟在北京念大学 |_定中_| |_介宾_| |_述宾_| | |____状中____| |_____主谓______| ③树形图

汉语树库综述 - 当代语言学

《当代语言学》第11卷2009年第1期47-55页,北京 汉语树库综述 王跃龙姬东鸿武汉大学 提要 树库作为一种经过了结构标注的语料库,对于语料库方法的语言学研究及其应用具有非常重要的意义。本文简要介绍了目前汉语树库建设的主要情况,包括国内外几个比较重要的汉语树库的建设过程和主要特点,对目前汉语树库建设中存在的问题提出建议,并对今后的汉语树库建设作出展望。 关键词 树库汉语树库 1.树库定义 随着计算语言学的发展,人们逐渐认识到基于规则的语言学研究方法的局限性。计算机的运算速度的飞速发展,也使得人们能够方便地使用统计学的方法从真实语料中获取自然语言的数据,因此语料库方法越来越受到人们的重视。这些语料库中的真实语料往往经过不同层次的加工,包含了各种各样的语言信息,可以使获取的语言规律更加客观和准确。 树库(treebank )就是一种经过了结构标注的语料库。一般来说,一个句子虽然表面上呈现词语的线性排列,其内部的成分组织是存在一定层次结构的。这种层次结构通常用“树”这种形式工具来表示。如果考虑歧义,那么一个句子可能对应多棵树。大量句子以及其对应的树结构的集合就构成树库。 树库作为包含语言结构信息的语言资源,其作用在以下几方面。首先,它可为基于统计的自动句法分析器提供必要的训练数据和统一的测评平台;其次,它能为汉语句法学研究提供真实文本标注素材,便于语言学家从中总结语言规则和规律;第三,它是进一步进行句子内部的词语义项和语义关系标注的基础。 目前许多国家正在或者已经初步建立起自己语言的树库。例如,英语的树库有英国的Lancaster 2Leeds 树库①和美国宾夕法尼亚大学的U 2Penn 树库②;德语的树库有NEGRA 树库③和TI GER 树库④;捷克语有P DT 树库⑤;西班牙语有UAM 树库⑥;汉语的树库有美国宾夕法尼亚大学的U 2Penn 汉语树库⑦和中国台北中研院的Sinica 汉语树库⑧等。 7 4本刊网址:htt p://www .ddyyx .com ① ② ③ ④ ⑤ ⑥ ⑦ ⑧htt p://cl w ww .essex .ac .uk /w3c /cor pus_ling/content/cor pora /list/p rivate /LOB /l ob .ht m l (点击日:2006年12月1日)htt p://www .cis .upenn .edu /~treebank /(点击日:2006年12月1日)htt p://www .coli .uni 2saarland .de /p r ojects/sfb378/negra 2cor pus/negra 2cor pus .ht m l (点击日:2006年12月1日)htt p://www .i m s .uni 2stuttgart .de /p r ojekte /TI GER /TI GERCor pus/(点击日:2006年12月1日)htt p://ufal .mff .cuni .cz/pdt/index .ht m l (点击日:2006年12月1日)htt p://www .lllf .ua m.es/~sandoval/UAMTreebank .ht m l (点击日:2006年12月1日)htt p://www .cis .upenn .edu /~chinese /ctb .ht m l (点击日:2006年12月1日)htt p://turing .iis .sinica .edu .t w /treesearch /(点击日:2006年12月1日)

(完整版)现代汉语句子成分

现代汉语 主语 1.定义:主语是句子陈述或说明的对象,说明是谁或什么。表示句子说的是"什么人"或“什么事”。主语是执行句子的行为或动作的主体。 2.特点:A、经常由名词、代词、名词性短语充当。B、一般表示谓语所说的是“谁”或“什么”。 例如:⑴(中国人民)定(志气)主(高)谓。 ⑵提高整个中华民族的科学文化水平是亿万人民群众的切身事业。 3.符号:双行线═。 主语多表示人或事物,是句子里被陈述的对象,在句首能回答“谁”或者“什么”等问题。可由名词、代词、数词、名词化的形容词、不定式、动名词和主语从句等来承担。例如:(1)今天晚上‖特别冷。 主语(偏正短语)谓语 (2)[明天这个时候],我们‖就可以走出戈壁滩了。 状语(时间)主语(代词)谓语 以动作、性状或事情做陈述的对象的主语句。例如: (1)笑‖是具有多重意义的语言。 主语(动词)谓语 (2)公正廉洁‖是公职人员行为的准则。 主语(形容词联合短语)谓语 谓语 1.定义:用来说明陈述主语。 2.特点:A、经常由动词、形容词充当。

B、一般表示主语“怎么样”或“是什么”。 例如:⑴满天乌云顿时消散了。 ⑵树叶黄了。 ⑶小王今年十六岁。 ⑷鲁迅是中国现代文学的奠基人。 ⑸明天星期日。 ⑹什么书他都看。 3.符号:单行线_____。 4.谓语(predicate),是句子中的必不可少的成分.谓语是由简单动词或动词短语(助动词或情态动词+主要动词)构成.谓语分为简单谓语和复合谓语 谓语是用来陈述主语的,能回答主语“怎么样”或“是什么”等问题。谓语可以由动词来担任,一般放在主语的后面。 (1)动词性词语经常做谓语。例如: 他‖[只]答应了<一声>。 主语谓语(状语+动词+补语) 南海一中‖留下<过>(许多人)的梦。 主语谓语(动词+补语+定语+宾语) 我‖[最近]去<了><一趟>北京。 主语谓语(状+动+补+宾) (2)形容词性词语也经常做谓语。例如: 太阳‖热烘烘的。 主语谓语(形容词+的) 人参这种植物,‖娇嫩<极了>。 主语谓语(形容词+补语) 说话‖[要]简洁<些>。

现代汉语(上)知识点提纲

现代汉语知识点提纲 第一章绪论 第一节现代汉语概述 1.汉语 汉语是汉民族的语言。 2.现代汉语 现代汉语是现代汉民族所使用的语言。现代汉语包括多种方言和民族共同语。 3.现代汉民族共同语 现代汉民族共同语是指以北京语音为标准音,以北方话为基础方言,以典范的现代白话文著作为语法规范的普通话。 普通话不光是现代汉民族的交际工具,同时又是国家法定的全国通用的语言。 语言是社会的产物,它随着社会的产生而产生,随着社会的发展而发展。汉语作为一种语言,具有一切语言共同的属性。从结构上,语言是以语音为物质外壳(形式),以词汇为建筑材料,以语法为结构规律而构成的一种音义结合的符号系统。从功能上,它可分三个方面:一是人与人的关系,语言是人最重要的交际工具,不分阶级,一视同仁地为社会全体成员服务。二是人与客观世界的关系,语言是认知世界的工具。事物的类别和事物之间的关系都靠语言来表明。三是人与文化的关系,语言是文化的载体,人们利用语言积累知识、形成文化。 4.现代汉语有两种形式 口语和书面语。 5.文学语言 文学语言又称标准语,是现代汉民族语言中经过高度加工并符合规范的语言。 6.民族共同语 民族共同语是一个民族全体成员通用的语言。 7.方言 方言是局部地区的人们使用的语言。 8.基础方言 民族共同语是在一种方言的基础上形成的,作为民族共同语基础的方言就叫做基础方言。 9.古代汉民族共同语名称 汉民族共同语在春秋时代被称为“雅言”,从汉代起称为“通语”,明代改称为“官话”,到了现代辛亥革命后,称为“国语”。新中国成立后,则称为普通话。 10.“白话文运动”和“国语运动”

“白话文运动”动摇了文言文的统治地位,为白话文最后在书面上取代文言文创造了条件;“国语运动”在口语方面增强了北京话的代表性,促使北京语言成为全民族共同语的标准音。11.方言和共同语的关系 同中有异,异中有同。 12.汉语方言的差异性 表现在语音、词汇、语法等各个方面,其中语音的差异最大,词汇的差异次之,语法的差别最小。 12.七大方言区名称 现代汉语有七大方言:北方方言、吴方言、湘方言、赣方言、客家方言、闽方言、粤方言。 13.现代汉语语音方面特点 ①没有复辅音。②元音占优势。③音节整齐简洁。④有声调。 14.现代汉语词汇方面特点 ①单音节语素多,双音节词占优势。②构词广泛运用词根复合法。③同音语素多。 15.现代汉语语法方面特点 ①汉语表示语法意义的手段不大用形态,主要用语序和虚词。②词、短语和句子的结构原则基本一致。③词类和句法成分关系复杂。④量词和语气词十分丰富。 16. 汉语的地位 汉语是世界上历史最悠久的、使用人口最多的语言之一。汉语还是联合国的六种工作语言之一。 第二章语音 第一节语音概说 语音是人类说话的声音,是语义的表达形式,或者说,是语言的物质外壳。有词句意义的声音才是语音。 1.语音三种属性 物理属性、生理属性、社会属性。社会属性是语音的本质属性。 语音同其他声音一样,具有音高、音强、音长、音色四种要素。 2.音高 音高指的是声音的高低,它决定于发音体振动的快慢。 语音的高低,跟声带的长短、厚薄、松紧有关。 汉语音节里有几种声调、句子有几种语调的不同,主要是音高的高低升降形成的格式造成的。 3.音强 音强指的是声音的强弱,它与发音体振动幅度的大小有关。

现代汉语句子成分分析

现代汉语句子成分分析 从句法结构的关系意义出发,对句子作成分功能或作用分析的方法叫句子成分分析法,即用各种方法标出基本成分(主语、谓语、宾语)和次要成分(状语、补语)。 句子成分有六种——主语、谓语、宾语、定语、状语、补语。 汉语句子成分口诀: 主谓宾、定状补,主干枝叶分清楚。定语必居主宾前,谓前为状谓后补。状语有时位主前,逗号分开心有数。 一、主语:多表示人或事物,是句子里被陈述的对象,在句首能回答“谁”或者“什么”等问题。可由名词、代词、数词、名词化的形容词、不定式、动名词和主语从句等来承担。例如: (1)今天晚上‖特别冷。 主语(偏正短语)谓语 (2)[明天这个时候],我们‖就可以走出戈壁滩了。 状语(时间)主语(代词)谓语 以动作、性状或事情做陈述的对象的主语句。如: (1)笑‖是具有多重意义的语言。 主语(动词)谓语 (2)公正廉洁‖是公职人员行为的准则。 主语(形容词联合短语)谓语 二、谓语:是用来陈述主语的,能回答主语“怎么样”或“是什么”等问题。谓语可以由动词来担任,一般放在主语的后面。 (1)动词性词语经常做谓语。例如: 他‖[只]答应了<一声>。 主语谓语(状语+动词+补语) 南海一中‖留下<过>(许多人)的梦。 主语谓语(动词+补语+定语+宾语)我‖[最近]去<了><一趟>北京。 主语谓语(状+动+补+宾) (2)形容词性词语也经常做谓语。例如: 太阳‖热烘烘的。 主语谓语(形容词+的) 人参这种植物,‖娇嫩<极了>。 主语谓语(形容词+补语) 说话‖[要]简洁<些>。 主语谓语(状语+形容词+补语) (3)主谓短语做谓语。例如: 这件事‖大家都赞成。 主语谓语(主谓短语) 任何困难‖她都能克服。 主语谓语(主谓短语) 大家的事情‖大家办。 主语谓语(主谓短语) (4)名词性词语做谓语。这种情况很少见,有一定的条件限制。可参考文言文中的判断句。例如: 鲁迅‖浙江绍兴人。 主语谓语(名词短语) 明天‖教师节。 主语谓语(名词) 她‖大眼睛,红脸蛋。 主语谓语(定中短语,表容貌) 三、宾语:往往表示动作支配的对象,并且总是处在

现代汉语句法结构理解

《现代汉语》句法结构理解 词与词组合构成句法结构.句法结构可以是词组也可以独立成句例如"他去"这个句法结构可以是主谓词组也可以单独成句.词组与句子的区别在"语法单位"一节已讨论过了.本章所涉及的"句法结构"(或"结构")若不用作句子与"词组"或"短语"同义. (注,本人在原文基础上用蓝字加注释,理解不一定对;令本人进行了文档结构编排,供学术研究之用,如有侵权,请联系本人文库账号) 1句法结构的分类 1.1从部组合的方式看 1.1.1基本结构 句法结构的基本类型有主谓、动宾、偏正、补充、联合五种.这五种类型体现了汉语的基本语法关系我们把它们叫作基本句法结构分别称为主谓结构、动宾结构、偏正结构、补充结构和联合结构. 1.1.1.1主谓结构 结构部两个成分之间有述和被述关系.例如: 鲜花盛开身体好今天晴天门开了窗台上放着一盆鲜花 1.1.1.2动宾结构 结构部两个成分之间有支配与被支配关系.例如: 去是老师买一本写钢笔站着一个人 1.1.1.3偏正结构 结构部两个成分之间有修饰和被修饰的关系.例如: A高尚的情操崇高理想南国风光春天般的温暖他的到来老人的孤独这部著作的出版 B都去很好应该去认真学习严格地训练慢慢地走 A组是"定语+中心语"(即为"定中关系")B组是"状语+中心语"(即"状中关系").

结构部两个成分之间有补充与被补充的关系.例如: 打扫干净好极了走出来跑了两趟好得很听得清楚高兴得跳起来 1.1.1.5联合结构 结构部有两个或两个以上的成分它们之间有并列或选择关系.例如: 语言文学准确鲜明生动谦虚谨慎研究决定少而精 讨论并通过容和形式今天或明天 1.1.2非基本结构 除了上述五种句法结构以外还有同位连动兼语紧缩等结构. 1.1. 2.1同位结构 结构部两个成分从不同的角度复指同一个人或事物.例如: 英雄城革命摇篮井冈山他们俩你自己雷锋同志坚医师工人周大勇 1.1. 2.2连动结构 主语相同的两个或两个以上的动词性成分连用它们之间没有主谓动宾偏正补充联合等关系;中间没有语音停顿书面上没有逗号隔开没有关联词语;动词性成分之间有先后方式目的等关系.例如: 走过去开门站着说话坐在台上看球赛赖着不走借书看有理由提出 (连动结构可以看成:基本结构的组合,走过去+开门整体式一个偏正结构,其中走过去是补充结构;站着说话:站着+说话是偏正,站着是补充;坐在台上看球赛:坐在台上+看球赛是偏正,坐在台上是补充,看球赛是动宾;赖着不走:赖着+不走是偏正,赖着是补充,不走是偏正;借书看:借书+看偏正,借书动宾) 1.1. 2.3兼语结构 由一个动宾结构和一个主谓结构套合而成动宾结构的宾语兼作主谓结构的主语.例如: 领着我们走请他讲一讲使他相信送他出国叫他来托他帮忙派小王去

The Chinese Penn Treebank Tag Set中文宾州树库标记及其含义

The Chinese Penn Treebank Tag Set 1 Part-Of-Speech tags: 33 tags 标 记 英语解释中文解释 AD adverbs 副词 AS Aspect marker 体态词,体标记(例如:了,在,着,过)BA把in ba-const “把”,“将”的词性标记 CC Coordinating conjunction 并列连词,“和” CD Cardinal numbers 数字,“一百” CS Subordinating conj 从属连词(例子:若,如果,如…) DE C 的for relative-clause etc “的”词性标记 DE G Associative 的联结词“的” DE R 得in V-de construction, and V-de-R “得” DE V 地before VP 地 DT Determiner 限定词,“这” ET C Tag for words 等,等等in coordination phrase 等,等等 FW Foreign words 例子:ISO IJ interjection 感叹词 JJ Noun-modifier other than nouns LB被in long bei-construction 例子:被,给 LC Localizer 定位词,例子:“里” M Measure word (including classifiers) 量词,例子:“个” MS P Some particles 例子:“所” NN Common nouns 普通名词 NR Proper nouns 专有名词 NT Temporal nouns 时序词,表示时间的名词OD Ordinal numbers 序数词,“第一”

《现代汉语》句法结构资料讲解

浅析现代汉语语法中句法结构的分类类型 摘要:现代汉语的语法中,词和词相搭配构成短语和句子,在这个过程中所形成的结构就是句法结构。句法结构是构成句子的基本要素和框架,也是现代汉语在交流过程中的基本原则。对句法结构的分析是现代汉语构词成句固定性的要求。本文通过对相关例子的枚举和分析,浅要探析现代汉语语法中句法结构的主要类型。 关键词:现代汉语语法句法结构搭配分类 词与词组合构成句法结构.句法结构可以是词组也可以独立成句。从内部组合的方式看句法结构的基本类型有:主谓、动宾、偏正、补充、联合五种。这五种类型体现了汉语的基本语法关系。我们把它们叫作基本句法结构。分别称为主谓结构、动宾结构、偏正结构、补充结构和联合结构。 一.基本句法结构的分类 1主谓结构 主谓结构是指结构内部两个成分之间有陈述和被陈述关系.例如:“鲜花盛开”中鲜花为主语,盛开为谓语,两个词之前呈现陈述与被陈述的关系。 与之类似的还有:身体好,今天晴天,门开了,窗台上放着一盆鲜花,等。 2动宾结构 结构内部两个成分之间有支配与被支配关系.例如:“上车”中动词“上”支配名词“车”,新城动宾结构。 因此,“去北京”“是老师”“买一本”“写钢笔”“站着一个人”等结构都属于动宾结构。3偏正结构 偏正结构是指结构内部两个成分之间有修饰和被修饰的关系.例如:“帅哥”中形容词“帅”修饰名词“哥”,两个成分构成偏正结构。与之属于同类的还有“高尚的情操”“崇高理想”“南国风光”“春天般的温暖”“他的到来”等。 以上所叙述的是偏正结构中"定语+中心语"(即为"定中关系")。除此之外偏正结构中还有一种情况,例如:“都去”“很好”“应该去”“认真学习”“严格地训练”“慢慢地走”,这些属于是"状语+中心语"(即"状中关系")。 4补充结构 结构内部两个成分之间有补充与被补充的关系.例如: “打扫干净”“好极了”“走出来”“跑了两趟”“好得很”“听得清楚”等,以补语补充中心语(动词、形容词)的形式出现。 5联合结构 结构内部有两个或两个以上的成分它们之间有并列或选择关系.例如: “语言文学”“准确鲜明生动”“谦虚谨慎”“研究决定”“少而精”“讨论并通过”“内容和形式”“今天或明天”中,前后几个成分的关系是相对单独并列或选择的,所以称为联合式结构。 二.特殊句法结构分类。 除了上述五种基本句法结构以外,汉语中还有同位、连动、兼语、紧缩等特殊形式结构的存在。 1.同位结构 结构内部两个成分从不同的角度复指同一个人或事物,例如: “首都北京”中“首都”从功能和象征意义上、“北京”从名称上指代同一座城市,因此构成同位结构。与此相类似的还有:“英雄城南昌”“革命摇篮井冈山”“他们俩”“你自己”等。

宾州中文树库编辑器说明

树库编辑工具(TreeEditor)使用说明书 詹卫东 北京大学中文系 目 录 一程序文件与界面 (1) 1.1 程序文件 (1) 1.2 程序界面 (1) 二树库文件的格式 (2) 2.1 输入 (2) 2.2 输出 (2) 2.2.1 表(list)输出格式 (2) 2.2.2 XML输出格式 (3) 2.2.3 导出原始句子文件 (3) 三句子结构树的显示与编辑 (3) 3.1 显示 (3) 3.1.1 树图的缩小与放大 (4) 3.1.2 句子列表显示模式切换 (4) 3.2 编辑 (4) 3.2.1 节点拖动 (4) 3.2.2 节点删除 (4) 3.2.3 修改标签 (5) 3.2.4 插入节点 (5) 3.2.5 恢复 (5) 3.2.6 整句删除 (5) 3.2.7 字符串编辑模式 (5) 四辅助编辑功能 (6) 4.1 跳转 (6) 4.2 查找 (6) 4.3 续查 (9) 4.4 高级查找 (9) 4.5 Find in Files (14) 4.6 子树替换 (15) 4.7 查错 (17) 五从树库中抽取语言数据 (19) 5.1 抽取规则 (19) 5.2 抽取词表 (20) 5.3抽取短语实例 (20) 5.4 统计短语分布 (21) 5.5 统计句长分布 (22) 六其他辅助功能 (23) 6.1 树图打印 (23) 6.2 文件管理 (23) 6.3 句子管理 (23) 致谢 (23)

一 程序文件与界面 1.1 程序文件 本程序运行需要下面三个文件。 1) TreeEditor.exe, 可执行程序; 2) syntag.txt, 定义树库中用到的各种标记,帮助程序进行标记的合法性检查; 3) check.txt , 说明树库编辑过程中可能出现的结构错误,用于进行树结构的合法性检查。 以上三个文件需要在同一个目录下(缺少后两个txt 文件不影响程序的基本运行,比如编辑操作,但无法查错)。 1.2 程序界面 程序界面包含三大区域:

现代汉语语法研究

现代汉语语法研究

论现代汉语语法研究历史 学院名称:人文社科学院专业:汉语言文学 班级:13东策划 姓名:丁玎 学号:2013801102 指导教师姓名:程树铭 指导教师职称:教授

2014年6月 摘要:通过对语法历史发展的回顾,即八十年代以后,汉语语法学者借鉴国外语法理论,发掘汉语事实,探讨适合于汉语的分析方法,在汉语的语法范畴、语法关系、语法单位以及语法表达功能等方面都进行广泛的探究这段历史,充分领悟现代汉语语法在现代汉语中的重要性,帮助我们更好掌握语法知识,能使我们再以后的语言表达能力上更上一层楼。 关键字:语法关系,语法单位,语法表达功能 语言是由语音形式、语义内容、结构关系三个方面构成的统一体,三个方面缺一不可,互相作用,构成了语言。语音是语言的形式部分,词汇是语言的意义部分,语法是语言单位的关系部分,说的是符号与符号怎样组合的问题。三个部分在语言中的作用,我们可以这样简单来表述:没有语音形式,语言就无法存在,

没有词汇的内容意义,语言就是一个毫无作用的空壳,没有语法,语言就是一盘杂乱而毫无章法的散沙。例如:山上草在吃牛儿--牛儿在山上吃草从上面的一些组合的例子可以看出,语法虽然是看不见摸不着的东西,可是它又是实实在在的,客观存在于语言之中的。一种语言,即使是最原始的语言,也得有一套语法规则系统,指导人们按照已有的规则去组织符号,构成表达思想的句子,否则,像上面所举的例子那样,同样的意思同样的词语,不同的人完全自说自话,别人就根本不可能理解你说的什么内容,语言也就不可能成为人类的交际工具了。 语法是语言结构的三个要素之一,而且从某种意义上说是最重要而又最容易被人忽视的一个要素。简单地说语法就是用词造句的规则系统,它是词的构成规则、变化规则、组合规则的总和。而从八十多年来,汉语语法学者借鉴国外语法理论,发掘汉语事实,探讨适合于汉语的分析方法,在汉语的语法范畴、语法关系、语法单位以及语法表达功能等方面都进行了广泛的探究。 汉语语法学者从一开始就关注语法范畴的确立问题,数十年来关于"词类"问题的广泛讨论和不懈探究就是一部汉语基本语法范畴的确立历史。和其他语言的研究者一样,汉语语法学者首先准确地辨析出了名词、动词、形容词这样的基本词类范畴,但在分析手续上却遇到了许多西方学者所未曾遇到的难题。因为汉语几乎没有可供辨识的外在词形标记,在确定词类成员的问题上就很难得出明确的结论。早期的汉语语法学者看到英语这样形态

现代汉语概论(2)..

现代汉语概论(2) 整理:by汉师1407林颖 第四章语法 第一节语法概说 一、语法的含义:语法规则、语法学 二、语法的构成:词法+句法(内容) 三、语法体系: (一)词法规则+句法规则=语法体系 (二)词法学+句法学=语法学的体系对语法规则体系的认识结果主观性(三)语法体系性的表现 1.语法单位:语素——词——短语——句子 2.语法成分和语法关系: (1)主语、谓语和主谓关系 (2)述语和宾语 (3)定语和中心语 (4)状语和中心语 (5)述语和补语 3.语法手段:语序、虚词(功能词) 第二节现代汉语词类系统 词类概说 划分词类的标准:词的语法功能 1.具体表现 (1)实词和实词之间的组合能力 (2)实词和虚词之间的组合能力

2.原因 (1)词的语法功能具有普遍性 (2)词的语法功能具有区别性 现代汉语词类系统总表 词类语法特点分类 实词核 词 体 词 名词 1.不受“不”的修饰(特殊情况: ①形容词性的名词根②特殊对举情 况) 2.能受数量成分的修饰(名词的特征) 3.经常充当主语、宾语和定语 4.名词在一定条件下可以作谓语,构成名 词谓语句 5.有生名词后面可以加上“-们”表 示“群”的意义 6.能用“谁”“什么”提问,主 要完成指称的任务 1.普通名词 2.处所词(不受数量成分修饰) 3.时间词(常作状语。cf:表示时段的数量 词组、时间副词、非时点名词) 4.方位词:单纯方位词、合称方位词 量词 1.一般不单独使用,先同数词组合为数量 短语,然后充当定语、状语,一定条 件下还可以作谓语 2.单音节量词可以重叠,表示“每 一”或“多”或“逐一”含 义 1.物量词(名量词):个体、集合、度 量衡量、种类、不定、借用 2.动量词:专用、借用 3.复合量词:物量+物量、物量+动量 谓 词 动词 1.能受“不”的修饰,经常作谓语或 谓语中心,多数能带宾语 1.动作行为动词 2.心理动词

汉语句法树库标注体系

汉语句法树库标注体系? 周强 清华大学计算机系 智能技术与系统国家重点实验室 北京100084 zhouq@https://www.360docs.net/doc/a011110079.html, 摘要:语料库的句法标注是语料库语言学研究的前沿课题。本文在研究和总结国内外句法树库标注实践的基础上,提出了一套汉语真实文本的句法树标注体系。它以完整的层次结构树为基础,对句法树上的每个非终结符节点都给出两个标记:成分标记和关系标记,形成双标记集的句法信息描述体系。目前,这两个标记集分别包含了16和27个标记,对汉语句子的不同句法组合的外部功能分布和内部组合特点进行了详细描述。在此基础上,我们开发完成了100万词规模的汉语句法树库TCT,对其中各种复杂语言现象的标注实践显示了这套标注体系具有很好的信息覆盖率和语料适应性。 关键词:句法树库,标注规范,语料库语言学 Annotation Scheme for Chinese Treebank ZHOU Qiang State Key Laboratory of Intelligent Technology and Systems Dept. of Computer Science and Technology Tsinghua University, Beijing 100084 zhouq@https://www.360docs.net/doc/a011110079.html, ABSTRACT: The syntactically annotated corpora, commonly called ‘treebanks’, play an important role in empirical linguistics as well as in machine learning methods in natural language processing. After a brief summarization of several treebank annotation of different language, we proposed a new annotation scheme for Chinese treebank in this paper. Under this scheme, every Chinese sentence will be annotated with a complete parse tree, where each non-terminal constituent is assigned with two tags. One is the syntactic constituent tag, which describes its external functional relation with other constituents in the parse tree. The other is the grammatical relation tag, which describes the internal structural relation of its sub-components. These two tag sets consist of 16 and 27 tags respectively. They form an integrated annotation for the syntactic constituent in a parse tree through top-down and ?本项研究得到国家自然科学基金(项目号:69903007和60173008)、国家973基金(项目号:G1998030507,G1998030501A-03)、国家高技术研究发展863计划(项目号:2001AA114040)资助。 作者:周强,男,1967年生,博士,副研究员,主要研究方向:计算语言学、语料库语言学、词汇语义学 1

现代汉语句子成分分析及练习

精心整理 现代汉语句子成分分析从句法结构的关系意义出发,对句子作成分功能或作用分析的方法叫句子成分分析法,即用各种方法标出基本成分(主语、谓语、宾语)和次要成分(状语、补语)。 句子成分有六种——主语、谓语、宾语、定语、状语、补语。 汉语句子成分口诀: 主谓宾、定状补,主干枝叶分清楚。 定语必居主宾前,谓前为状谓后补。 状语有时位主前,逗号分开心有数。 一、主语多表示人或事物,是句子里被陈述的对象,在句首能回答“谁”或者“什么”等问题。可由名词、代词、数词、名词化的形容词、不定式、动名词和主语从句等来承担。例如: (1)今天晚上‖特别冷。 主语(偏正短语)谓语 (2)[明天这个时候],我们‖就可以走出戈壁滩了。 状语(时间)主语(代词)谓语 以动作、性状或事情做陈述的对象的主语句。例如: (1)笑‖是具有多重意义的语言。 主语(动词)谓语 (2)公正廉洁‖是公职人员行为的准则。 主语(形容词联合短语)谓语 二、谓语是用来陈述主语的,能回答主语“怎么样”或“是什么”等问题。谓语可以由动词来担任,一般放在主语的后面。 (1)动词性词语经常做谓语。例如: 他‖[只]答应了<一声>。 主语谓语(状语+动词+补语)

南海一中‖留下<过>(许多人)的梦。 主语谓语(动词+补语+定语+宾语) 我‖[最近]去<了><一趟>北京。 主语谓语(状+动+补+宾) (2)形容词性词语也经常做谓语。例如: 太阳‖热烘烘的。 主语谓语(形容词+的) 人参这种植物,‖娇嫩<极了>。 主语谓语(形容词+补语) 说话‖[要]简洁<些>。 主语谓语(状语+形容词+补语) (3)主谓短语做谓语。例如: 这件事‖大家都赞成。 主语谓语(主谓短语) 任何困难‖她都能克服。 主语谓语(主谓短语) 大家的事情‖大家办。 主语谓语(主谓短语) (4)名词性词语做谓语。这种情况很少见,有一定的条件限制。可参考文言文中的判断句。例如:鲁迅‖浙江绍兴人。 主语谓语(名词短语) 明天‖教师节。

《现代汉语》基本知识点概述

《现代汉语》基本知识点概述 第一章绪论 教学目的和要求:本章简要介绍现代汉语概况,新时期国家语言文字工作的方针、任务,介绍现代汉语课程的性质和任务,使学生对现代汉语概况和国家语言文字工作的方针政策有所了解。 主要内容: 第一节现代汉语概述 一、什么是现代汉语 现代汉语是现代汉民族共同语。 现代汉语的性质:结构上——音义结合的符号系统;功能上——交际工具和思维工具;无阶级性。 现代汉语有口语和书面语两种形式。 二、现代汉民族共同语 (一)共同语和方言 民族共同语和方言的含义及其相互关系;共同语的形成基础和条件。 (二)现代汉民族共同语的形成。 (三)现代汉民族共同语的含义 现代汉民族共同语是以北京语音为标准音,以北方话为基础方言,以典范的现代白话文著作为语法规范的普通话。 三、现代汉语方言 (一)方言的成因 (二)方言与共同语的关系 (三)现代汉语方言区的划分

北方方言、吴方言、湘方言、赣方言、客家方言、闽方言、粤方言。 四、现代汉语的特点 (一)语音方面:没有复辅音;元音占优势;有声调。 (二)词汇方面:汉语语素以单音节为基本形式;广泛运用词根复合法构成新词;双音节词占优势。 (三)语法方面:词序和虚词是表达语法意义的主要手段;词法句法结构基本一致;词的多功能性;量词十分丰富,有语气词。 五、现代汉语的地位 现代汉语是联合国六种工作语言之一。 第二节新时期语言文字工作的方针和任务 一、新时期语言文字工作的方针和任务 新时期语言文字工作的方针是:“贯彻执行国家关于语言文字工作的政策和法令,促进语言文字规范化、标准化,继续推动文字改革工作,使语言文字在社会主义建设中更好地发挥作用。” 主要任务是:“做好现代汉语规范化工作,大力推广和积极普及普通话;研究和整理现行汉字,制定各项有关标准;进一步推行《汉语拼音方案》,研究并解决实际使用中的有关问题;研究汉语汉字信息处理问题,参与鉴定有关成果;加强语言文字的基础研究,做好社会调查和社会咨询、服务工作。” 二、促进现代汉语规范化 现代汉语规范化,就是确立现代汉民族共同语明确的、一致的标准,并用这种标准消除语音、词汇、语法等各方面存在的一些分歧。 三、大力推广普通话 第二章语音

《现代汉语》句法结构教学内容

】《现代汉语》句法结构 词与词组合构成句法结构.句法结构可以是词组也可以独立成句例如"他去香港"这个句法结构可以是主谓词组也可以单独成句.词组与句子的区别在"语法单位"一节已讨论过了.本章所涉及的"句法结构"(或"结构")若不用作句子与"词组"或"短语"同义. 一句法结构的分类 (一)从内部组合的方式看句法结构的基本类型有主谓动宾偏正补充联合五种.这五种类型体现了汉语的基本语法关系我们把它们叫作基本句法结构分别称为主谓结构动宾结构偏正结构补充结构和联合结构. 1主谓结构 结构内部两个成分之间有陈述和被陈述关系.例如: 鲜花盛开身体好今天晴天门开了窗台上放着一盆鲜花 2动宾结构 结构内部两个成分之间有支配与被支配关系.例如: 去北京是老师买一本写钢笔站着一个人 3偏正结构 结构内部两个成分之间有修饰和被修饰的关系.例如: A高尚的情操崇高理想南国风光春天般的温暖他的到来 老人的孤独这部著作的出版 B都去很好应该去认真学习严格地训练慢慢地走 A组是"定语+中心语"(即为"定中关系")B组是"状语+中心语"(即"状中关系").

结构内部两个成分之间有补充与被补充的关系.例如: 打扫干净好极了走出来跑了两趟好得很听得清楚 高兴得跳起来 5联合结构 结构内部有两个或两个以上的成分它们之间有并列或选择关系.例如: 语言文学准确鲜明生动谦虚谨慎研究决定少而精 讨论并通过内容和形式今天或明天 除了上述五种句法结构以外还有同位连动兼语紧缩等结构. A同位结构 结构内部两个成分从不同的角度复指同一个人或事物.例如: 英雄城南昌革命摇篮井冈山他们俩你自己雷锋同志赵坚医师 工人周大勇 B连动结构 主语相同的两个或两个以上的动词性成分连用它们之间没有主谓动宾偏正补充联合等关系;中间没有语音停顿书面上没有逗号隔开没有关联词语;动词性成分之间有先后方式目的等关系.例如: 走过去开门站着说话坐在台上看球赛赖着不走借书看 有理由提出

(完整版)现代汉语语法知识

现代汉语语法知识 一、语法知识概述 (一)词类 汉语的词可以分为12类。名词、动词、形容词、数词、量词和代词是实词,副词、介词、连词、助词、拟声词和叹词是虚词。 名词:表示人和事物的名称的实词。如:"黄瓜、白菜、拖拉机、计算机"。 表示专用名称的叫做"专用名词",如"云南、上海、李白、白居易"。 表示抽象事物的名称的叫做"抽象名词",如"范畴、思想、质量、品德、友谊、方法"。表示方位的叫做"方位名词",如"上""下""左""右""前""后""中""东""西""南""北""前面""后边""东边""南面""中间"等。 动词:动词表示人或事物的动作、行为、发展、变化。 有的动词表示一般的动作,如:来、去、说、走、跑、学习、起飞、审查、认识"等。 有的动词表示心理活动,如"想、重视、注重、尊敬、了解、相信、佩服、惦念"等,这样的动词前面往往可以加上"很、十分"。 有的动词表示能够、愿意这些意思,叫做"能愿动词",它们是"能、要、应、肯、敢、得(dei)、能够、应该、应当、愿意、可以、可能、必须",这些能愿动词常常用在一般的动词前面,如"得去、能够做、可以考虑、愿意学习、应该说明、可能发展"。 还有一些动词表示趋向,叫做"趋向动词",如"来、去、上、下、进、出、上来、上去、下来、下去、过来、过去、起,它们往往用在一般动词后面表示趋向,如"跳起来、走下去、抬上来、跑过去"。 "是""有"也是动词,跟动词的用法一样。 形容词:形容词表示事物的形状、样式、性质等,如"多、少、高、胖、死板、奢侈、胆小、丑恶"。 数词:数词是表示事物数目的词。如"一、二、两、三、七、十、百、千、万、亿、半"。 量词:量词是表示事物或动作单位的词。汉语的量词分为名量词和动量词。 名量词表示事物的数量,又可以分为单位量词和度量量词。 单位量词表示事物的单位,如"个、张、只、支、本、台、架、辆、颗、株、头、间、把、扇、等; 度量量词表示事物的度量,如"寸、尺、丈、斤、两、吨、升、斗、加仑、伏特、欧姆、立方米"。 动量词表示动作的数量,用在动词前后表示动作的单位,如"次、下、回、趟、场"。

现代汉语的词法和句法——常识

现代汉语的词法和句法 现代汉语有一个系统而复杂的语法体系,学习起来会令人感到枯燥乏味,故人们往往疏而远之。甚至有人说,语法没什么实际用处,不懂语法照样能写好文章。诚然,写文章不必一味拘泥于语法的限制,但不等于写文章可以不懂基本的语法知识。只要我们仔细地阅读在各类媒体上发表的文章,就不难发现有明显语法错误的病句比比皆是。因此,要想在作文时能准确而规范地使用我们祖国的语言文字,不学一点基本的语法知识,是不能如愿以偿的。现代汉语语法的基本内容包括汉字的特点,字词句的区别、联系及其使用规则,以及字词句在具体语言环境中的变化规律等等。囿于篇幅和笔者的水平,本讲只能着重而简略地讲一讲现代汉语中通用的词法和句法这两大问题。(上篇讲词法,下篇讲句法。) (一)词法 词法,即运用词语必须遵循的一般语法规则。所谓“一般语法规则”,即人们约定俗成并为人们广泛认可和应用的语言文字的规范。在《词语的运用》一讲中我们已经进过,词语是具有实在意义并能独立运用的最小的语言单位。因此,我们学习任何一种语言,都必须从学习词语开始,首先应该学一点词法的基本知识。接下来,我想择其要讲两个问题:词语的构词方式,词类和词的兼类。 〔1〕词语的构词方式现代汉语中的词汇绝大多数是由两个有具体意义的字构成的双音节合成词(古代汉语单音节词居多)。联合式和偏正式是双音合成词的两种主要的构词方式。例如“考试”和“考场”这两个合成词,“考”和“试”的意思相近,合为一个词表示一个意思。这两个字是并列的联合关系,它们的意义没有主次之分。而“考场”则不同,“场”是场所、场地的意思,“考”说明做什么用的场所、场地。其中的“场”是主体,“考”是附加的,起限制、区别的作用。两个字的意思有主次之分。由此可知,如“考试”这类由两个意义并列,不分主次的字构成的合成词,叫联合式合成词。如“考场”这类由两个有主次之分,意义有从属关系的字构成的合成词,叫偏正式合成词。 联合式合成词又可分为两种情况:(A)由意义相同或相近的两个字并列构成。例如“土地、城市、房屋、戏剧、海洋”等等。(B)由意义相反或相对的两个字并列构成。例如“收发、开关、买卖、出纳(词中两个字意义相反);方圆、左右、始终、尺寸(词中两个字意义相对)”等等。这里要注意的是,两字意义相反的合成词的意义,代表事物的全面和整体。两字意义相对的合成词的意义,表示一种不确定的抽象意义。此外,还要注意的是,联合式合成词的两个字,有的可以颠倒,意思不变。如“互相”也可写成“相互”。有的则不能颠倒,否则意思就不同了。如“生产”不能写成“产生”。而汉语中的联合式合成词的两个字,绝大多数是不能颠倒的。 偏正式合成词的构词方式也有两种情况:(A)後一字词是主体,前一个字起修饰限制作用。如“火热、热爱、粉碎、微笑(修饰作用);铁矿、马路、汽车、布鞋(限制作用)”等等。(B)后一个字对前一个字起补充说明作用,表示动作的结果和趋向。如“说明、提高、扩大、改善、抓紧”等等。 以上所说是合成词的两种主要构词方式,此外还有其他几种构词方式:(A)前一个字表示动作,后一个字表示相关的事物,构成表示动作行为或人和事物名称的词。例如“动员、带头、出席(表示动作行为);司令、领队、导游(表示人和事物名称)”等等。(B)后一个字说明前一个字的情状。如“地震、心疼、性急”等等。(C)前一个字表示事物名称,后一个字表示事物的单位,这类合成词多半成为一种“类”名。例如“布匹、纸张、车辆、船只、诗篇”等等。 (2)词类和词的兼类——汉语里的每个词都有不同的意义和用法。我们把用法相同的词归为一类,即为语法上的“词类”,也称“词性”。汉语里所有的词按其性质和功能的不同,可分为两大类:实词和虚词。“实词”,即具有实在和明显意义的词。它有两个特点:第一,正因为实词都有具体实在的意义,所以它们只要按一定的规则和顺序组合起来,就可以成为

相关文档
最新文档