汉语句子的组块分析体系
汉语句子成分分析方法与技巧

汉语句子成分分析方法与技巧
汉语句子的成分分析方法和技巧包括:
1.词法分析:首先对每个汉字和词进行分析,确定其词性、含义和位置。
2.语法分析:将句子分解为不同的成分,包括主语、谓语、宾语、定语、状语等。
3.依存句法分析:确定句子中不同成分之间的依存关系,如主谓关系、动宾关系等。
4.维基分词:根据词与词之间的关系确定词语的边界。
5.上下文分析:从整个句子的上下文中获取更多的信息来确定句子中
的成分。
为了进行汉语句子成分分析的技巧,可以注意以下几点:
1.了解常见的汉语句子结构和句子成分的搭配规律,例如主谓宾结构
的常见搭配。
2.通过阅读大量的汉语文章和句子,熟悉不同句子成分的表达方式。
3.注意上下文信息,尤其是一些指示词语或代词,能够帮助理解句子
的成分。
4.学习使用语法分析工具和技术,如中文分词工具和句法分析器,能
够提高分析句子成分的准确性。
5.对于复杂的句子结构,可以采取逐步分析的方法,先确定主要的成分,然后再逐步分析其他修饰成分。
总之,汉语句子成分分析需要一定的语法知识和分析技巧,通过不断学习和练习,可以逐渐提高分析句子成分的能力。
现代汉语句子成分分析

现代汉语句子成分分析从句法结构的关系意义出发,对句子作成分功能或作用分析的方法叫句子成分分析法,即用各种方法标出基本成分(主语、谓语、宾语)和次要成分(状语、补语)。
句子成分有六种——主语、谓语、宾语、定语、状语、补语。
汉语句子成分口诀:主谓宾、定状补,主干枝叶分清楚。
定语必居主宾前,谓前为状谓后补。
状语有时位主前,逗号分开心有数。
一、主语:多表示人或事物,是句子里被陈述的对象,在句首能回答“谁”或者“什么”等问题。
可由名词、代词、数词、名词化的形容词、不定式、动名词和主语从句等来承担。
例如:(1)今天晚上‖特别冷。
主语(偏正短语)谓语(2)[明天这个时候],我们‖就可以走出戈壁滩了。
状语(时间)主语(代词)谓语以动作、性状或事情做陈述的对象的主语句。
如:(1)笑‖是具有多重意义的语言。
主语(动词)谓语(2)公正廉洁‖是公职人员行为的准则。
主语(形容词联合短语)谓语二、谓语:是用来陈述主语的,能回答主语“怎么样”或“是什么”等问题。
谓语可以由动词来担任,一般放在主语的后面。
(1)动词性词语经常做谓语。
例如:他‖[只]答应了<一声>。
主语谓语(状语+动词+补语)南海一中‖留下<过>(许多人)的梦。
主语谓语(动词+补语+定语+宾语)我‖[最近]去<了><一趟>北京。
主语谓语(状+动+补+宾)(2)形容词性词语也经常做谓语。
例如:太阳‖热烘烘的。
主语谓语(形容词+的)人参这种植物,‖娇嫩<极了>。
主语谓语(形容词+补语)说话‖[要]简洁<些>。
主语谓语(状语+形容词+补语)(3)主谓短语做谓语。
例如:这件事‖大家都赞成。
主语谓语(主谓短语)任何困难‖她都能克服。
主语谓语(主谓短语)大家的事情‖大家办。
主语谓语(主谓短语)(4)名词性词语做谓语。
这种情况很少见,有一定的条件限制。
可参考文言文中的判断句。
例如:鲁迅‖浙江绍兴人。
主语谓语(名词短语)明天‖教师节。
《现代汉语》句法结构解析

《现代汉语》句法结构解析
在《现代汉语》中,句法结构解析主要包括以下几个方面:
1.句子成分的分类:句子由主语、谓语、宾语、状语等成分构成。
《现代汉语》将这些成分进行分类和描述,以帮助读者理解句子的结构和含义。
2.句子的语序规律:汉语具有一定的语序规律,例如主谓宾结构、主谓状结构等。
《现代汉语》通过解析句子的语序规律,揭示了汉语句子表达方式的特点。
3.句子的修辞手法:修辞手法是指通过运用特定的语言结构和词汇,使句子更具表达力和感染力。
《现代汉语》对于汉语修辞手法进行了分类和解析,使读者能够更好地理解和运用这些手法。
4.句子的逻辑关系:句子之间存在着逻辑关系,例如因果关系、转折关系、并列关系等。
《现代汉语》通过分析句子之间的逻辑关系,帮助读者理解句子的意义和背后的逻辑思维。
通过《现代汉语》的句法结构解析,读者可以更深入地理解和掌握现代汉语的语法规则和用法,提高语言表达能力和理解能力。
_构式_语块_句法分析法和教学法

“构式—语块”句法分析法和教学法*苏丹洁陆俭明中山大学国际汉语学院北京大学汉语语言学研究中心/中文系提要本文就汉语语法研究与教学提出三个观点:第一,语法研究、语法教学不能囿于“主—谓—宾”“施—动—受”这一传统的句法研究和教学思路。
第二,在语法研究中要树立“从认知角度去认识语言共性和个性”这一观念。
第三,“构式—语块”分析法和教学法是一种新的补充性的句法研究与教学的理论和方法。
这一方法建立在人类认知和语言的共性基础之上,在分析和教授一些汉语句式方面,优于传统的思路。
文章对上述观点与方法从理论和实践两方面进行了论述。
关键词认知共性语言共性构式语法“构式—语块”理论语法研究与教学一传统的语法分析思路在第二语言教学中遇到的问题目前的语法理论,不管是形式派、认知派还是功能派,基本上都是从古希腊语言学传统发展而来的,只是每一流派的研究角度、所用术语、所要达到的期望值不同而已。
它们在对句子结构的描写上,都离不开这样一种思路———句法上的“主—谓—宾”(主语—谓语—宾语)、语义上的“施—动—受”(施事—动作—受事),但这一思路难以涵盖、解释一切句法结构。
我们看到,当前发展迅速的应用语言学对其提出了不小的挑战。
请看下面两个例子。
1.1存在句第二语言教学中的问题现代汉语里有一种存在句,其格式是:处所成分+动词+着+名词语①。
或码化为:NPL +V +着+NP 。
例如:A 组:(1)门口站着三个孩子。
B 组:(5)墙上挂着两幅地图。
(2)教室里坐着许多学生。
(6)花瓶里插着一束玫瑰花。
(3)床上躺着一个病人。
(7)门上贴着一副对联。
(4)桌子底下趴着一条小狗。
(8)柱子上刻着一个“忍”字。
755*①本文初稿曾在北京语言大学对外汉语研究中心与杭州师范大学联合举办的“汉语国际教育‘三教’问题学术研讨会———第六届对外汉语国际学术研讨会”(杭州2009.10)上宣读,与会学者提出了不少宝贵的意见,《世界汉语教学》匿名审稿专家也给予了许多中肯的修改意见,在此一并致谢!本次发表对初稿作了较大的改动,本文错谬之处是作者的责任。
现代汉语句法结构分析

现代汉语句法结构分析现代汉语是中国人使用最频繁的语言,也是世界上使用人数最多的语言之一。
句法结构是语言学中一个重要的概念,指的是句子内部的组成结构及其运用规则。
在现代汉语中,句法结构的分析是掌握语言使用规则和正确表达信息的重要手段。
本文将从现代汉语句法结构的定义、分类、分析方法等多个角度进行探讨。
一、现代汉语句法结构的定义句法结构是指一个句子在语法上的组织形式,包含了句子中各成份间的逻辑关系和句子结构的运用规则。
句法结构分析可以帮助人们理解语法规则,分析句子的意义、句子成分之间的关系等。
在现代汉语中,句法结构可以分为五个类型:简单句、并列句、复合句、疑问句和祈使句。
1. 简单句:是指由一个主语和一个谓语构成的句子,句子结构最为简单。
例如:“我打球。
”2. 并列句:是指由两个或两个以上同等地位的句子通过并列连词连接构成的句子。
例如:“他很聪明,但很懒。
”3. 复合句:是指由一个句子作主句,加上一个或多个从句构成的句子。
例如:“我喜欢看书,因为书能让我学到很多知识。
”4. 疑问句:是指用于表示疑问或询问的句子,通常以疑问词开头。
例如:“你在哪里学习汉语?”5. 祈使句:是指用于表示请求、命令或建议等语气的句子,通常以动词或动词短语开头。
例如:“请你帮我一个忙。
”二、现代汉语句法结构的分类现代汉语的句法结构可以按照句子中各成份的功能和分类,分为主谓结构、并列结构、主谓宾结构、主系表结构、主谓宾补结构、主谓双宾结构、主谓宾定状补结构、主语从句结构、宾语从句结构等多种形式。
1. 主谓结构:主要由一个主语和一个谓语构成,是汉语中最简单的句子结构。
例如:“我走了。
”2. 并列结构:两个或多个谓语作用于同一个主语或宾语,在结构上是并列关系。
例如:“我们喝茶聊天,度过了一个愉快的下午。
”3. 主谓宾结构:主语、谓语、宾语构成的简单句结构。
例如:“我吃了饭。
”4. 主系表结构:句子主要由主语、系动词和表语构成,表达主语的性质、状态或特征等概念。
汉语句子基本结构分析

汉语句子基本结构分析篇一:汉语中完整的句子结构汉语中完整的句子结构完整的句子结构:(定)主//[状]谓补+(定)宾如:(我们)学生||[一定][要]学<好>(专业)课程。
定语用在主语前面,是修饰限制主语或宾语的中心语的。
如:“(冬天里)的春天”补语用在谓语的后面,是补充说明谓语中心语的如:“辨认<仔细>”句子成分1、主语主语是谓语陈述的对象,指明说的是“什么人”或“什么事物”。
例如:(1)中国人民志气高。
(2)提高整个中华民族的科学文化水平是亿万人民群众的切身事业。
2、谓语谓语是陈述主语的,说明主语的,说明主语“是什么”或怎么样“。
例如:(1)满天乌云顿时消散了。
(2)树叶黄了。
(3)小王今年十六岁。
(4)鲁迅是中国现代文学的奠基人。
(5)明天星期日。
(6)什么书他都看。
3、宾语宾语在动语后面,表示动作、行为涉及的人或事物,回答“谁”或“什么”一类问题。
例如:(1)什么叫信息?(2)门口围着一群看热闹的。
(3)马克思认为知识是进行斗争和为无产阶级解放事业服务的手段。
4、定语定语是名语前面的连带成分,用来修饰、名词表示人或事物性质、状态、数量、所属等。
例如:(1)那(沉甸甸)的稻谷,象一垄垄(全黄)的珍珠。
(2)(三杯)美酒敬亲人。
(3)雪野中有(血红)的宝珠山茶,(白中隐青)的(单瓣)梅花。
现代汉语语法:句子成分及分析

现代汉语语法专题选讲之二:句子成分及其分析也可以把主语中心词直接看成是主语,把谓语中心词直接看成是谓语。
那么上面的第(2)(5)句主语也可以是“小花”“柱廊、色调、建筑立面”。
再如:(6)一张简陋的大竹床铺着厚厚的稻草。
(《驿路梨花》)(7)其实这种缩微技术,早在十九世纪普法战争时候就使用过了。
(《从甲骨文到缩微图书馆》)可以认为"竹床"、"技术"是主语,"铺"、"使用"是谓语。
宾语和补语:宾语往往表示动作支配的对象,并且总是处在动词的后头。
补语是动词形容词后面的补充成分。
如:(1)桥脚上站在一个人,却是我的母亲。
(鲁迅《社戏》)(2)我最不能忘记的是他的背影。
(《背影》)(3)萧队长说过:先进的要带落后的。
(《分马》)(4)列宁主义认为:资本主义国家的无产阶级要拥护殖民地半殖民地人民的解放斗争,殖民地半殖民地的无产阶级要拥护资本主义国家的无产阶级的解放斗争,世界革命才能胜利。
(《纪念白求恩》)还有一种宾语叫做"双宾语",如:(5)现在人们叫它故宫。
(《故宫博物院》)(6)我给她一本书。
"它"、"她"是近宾语(间接宾语),"故宫"、"一本书"是远宾语(直接宾语)。
(7)说起来可笑,小时候有一回上树掐海棠花,不想叫蜜蜂螫<一下>,痛得我差点儿跌<下来>。
(《荔枝蜜》)(8)我独自一人游荡< 在田野里>。
(《挖荠菜》)(9)从化的荔枝树多得< 像一片碧绿的大海>,开花时节,那蜜蜂满野嘤嘤嗡嗡,忙得< 忘记早晚>,有时还趁着月色采花酿蜜。
(《荔枝蜜》)(10)我那时真是聪明< 过分>。
(《背影》)(11)年纪比我大的人,往往如此,我遇见过< 好几回>了。
“构式—语块”句法分析法和教学法

“构式—语块”句法分析法和教学法“构式—语块”句法分析法和教学法近年来,在语言学领域中,有一个叫做“构式—语块”句法分析法的方法越来越受到研究者的重视。
这一方法主要用于句法分析和语言教学中。
本文将介绍“构式—语块”句法分析法的定义、原理以及其在语言教学中的应用。
首先,我们来了解一下“构式—语块”句法分析法的定义。
该方法提出了句法结构中的两个重要概念,即“构式”和“语块”。
构式指的是一定类型的特殊语法结构,它可以由多个词组成,具有固定的句法和语义功能。
而语块则是一个在特定上下文中具有一定意义的词的组合。
构式和语块的概念是“构式—语块”句法分析法的重要基础。
接下来,我们来讨论一下“构式—语块”句法分析法的原理。
该方法的原理是通过分析句子中的构式和语块来理解和解释句子的句法结构和语义。
在传统的句法分析中,句子的结构是通过短语结构树来表示的,而“构式—语块”句法分析法则强调语块的重要性。
通过对语块的分析,可以更加准确地理解句子的结构和意义,进而实现更精确的句法分析。
那么,“构式—语块”句法分析法在语言教学中有何应用呢?首先,在语法教学中,该方法可以帮助学生更好地理解和掌握句子的结构和语义。
通过分析构式和语块,学生可以更加深入地理解句子的构造和意义,从而更准确地运用语法知识。
其次,在阅读和写作教学中,该方法可以培养学生对句子结构和篇章连贯性的敏感性。
通过对构式和语块结构的分析,学生可以更好地理解和运用句子结构,提升阅读和写作能力。
此外,在翻译教学中,该方法可以帮助学生更准确地理解和翻译句子。
通过对构式和语块的分析,学生可以更好地把握句子的结构和意义,从而实现更准确的翻译。
在实际教学中,我们可以采用一些具体的教学策略来运用“构式—语块”句法分析法。
首先,可以通过举例法来引导学生分析句子中的构式和语块。
可以选取一些代表性的句子,把其中的构式和语块进行分析,帮助学生理解和掌握。
其次,可以采用小组合作学习的方式,让学生相互交流和讨论句子的分析结果,提高分析的准确性和深度。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
汉语句子的组块分析体系*周强孙茂松黄昌宁智能技术与系统国家重点实验室清华大学计算机科学与技术系,北京100084摘要:本文介绍了一种介于线性词序列和完整句法树表示之间的浅层句法知识描述体系:组块分析体系,并详细讨论了其中两大部分:词界块和成分组的基本内容及其自动识别算法。
在此基础上进行的一系列句法分析和知识获取实验证明了这种知识描述体系的实用性和有效性。
关键词:词界块,成分组,部分分析,句法分析。
1 引言句法分析是自然语言处理研究中的重点和难点。
针对完整的句法分析方法在分析大规模真实文本中遇到的困难,许多研究人员开始尝试着把一个完整的句法分析问题分解为几个易于处理的子问题,以逐步降低完整句法分析的难度,提高分析效率。
这其中一个很成功的例子是将词性标注(Part-Of-Speech Tagging)从句法分析中分离出来。
通过利用局部语境信息进行基于规则或基于统计的词类排歧,目前的大部分词性标注工具对真实文本的标注正确率都达到了96%以上,为在此基础上进一步进行句法分析打下了很好的基础。
依据同样的研究思路,Steven Abney提出了块分析(chunk parsing)的策略[Abn91],通过引进句法块(chunk)概念,他将句法分析问题分为三个阶段:1) 块识别:利用基于有限状态分析机制的块识别器(chunker)快速识别出句子中所有的块。
2) 块内结构分析:对每个块内部的成分赋予合适的句法结构。
3) 块间关系分析:利用块连接器(attacker)将各个不同的块组合成完整的句法结构树。
这样,一方面由于对不同的子问题的准确功能定位,可以独立地选用不同的语言模型和搜索策略加以分析处理;另一方面,通过在块层次上进行自底向上的块间关系分析和自顶向下的块内结构分析,可以大大提高整体分析效率,达到降低句子分析难度的目的。
块分析策略的精髓在于寻找到合适的切入点,将完整的句法分析问题分解为句法拓朴结构分析和句法关系分析两个子问题。
Steven Abney在研究英语分析过程中发现了这样一个现象:本来可以很自然地期望短语结构(phrase structure)在音律结构(prosodic structure)边界预测中发挥重要作用,但事实上,传统的短语结构描述与音律结构以及一些心理语言学家提出的语言应用结构(performance structure)之间存在着许多不一致现象[Abn92]。
为解决这个问题,他提出可以将标准的短语结构描述分解成两大部分:1) 一组直接成分块,即chunk,2) 成分块之间的句法依存(dependance)关系,从而在直接成分块和音律结构的φ-短语之间建立了很好的一一对应关系[Abn95]。
将这一思想不断发展和完善,逐渐形成了他独特的块分析体系。
汉语的句法体系是在大量吸收和借鉴英语句法描述体系的有关内容和知识的基础上建立起来的。
几十年来,尽管许多汉语语言学家进行了艰苦的努力,提出了一些有效的汉语句法分析方法,如:中心成分分析法、层次分析法等,但究竟其中哪种方法更适合于汉语还存在着许多争论。
另外,对于汉语句法体系中的一些基本问题,如:汉语词类的确定,句法描述体系的建立等,还有许多值得商榷之处。
汉语句法研究的这种现状,给进行汉语信息处理*国家自然科学基金资助项目(编号:69705005),中国博士后科学基金资助项目。
研究的人员带来了许多不便。
在这种条件下,进行与Abney的研究相类似的汉语浅层句法知识描述体系的探索,就显得很有现实意义了。
本文针对汉语分析的特点,提出了一种汉语句子的组块分析体系。
它通过引入词界块和成分组概念,将成分边界辨识问题从完整的句法分析任务中分离出来,形成具有不同层次的成分边界限制信息的组块描述体系。
作为一种基本上独立于各种句法描述形式的句子拓朴结构,在此基础上可以方便地采用不同的句法分析方法产生句子的不同分析结果,如:分析结构树、依存关系树等。
在下面的几节中,第2节详细介绍了组块分析体系的基本内容,包括词界块定义和成分组描述,第3节介绍组块分析体系的一个重要应用:分层次地构建汉语树库,第4节介绍了组块分析体系的其他重要应用,最后的第5节是结束语。
2 组块分析体系针对汉语句子的句法分布特点,我们提出了这样的组块分析体系。
它在经过正确切词和词性标注处理的输入句子中,分析产生以下两部分信息:1) 词界块:通过为句子中的每个词赋予合适的成分边界信息,形成一个连续的词界块序列。
2) 成分组:通过识别和标注句子中一些特殊的成分组合区域,形成一组分立的成分组描述。
在下面的几节中,我们将对有关的内容进行详细的说明。
2.1 词界块定义自然语言的句子是由词组成的。
词在组句过程中体现出一定的层次性。
而句法分析的主要任务就是要寻找适当的方法把这些层次关系很好地描述出来。
例如:对于(1)中给出的汉语句子:我的弟弟给了他一本书。
(1) 利用语言分析中常用的直接成分分析法进行分析,可以得到这样的分析结果:[ [ [ 我的弟弟 ] [ [ 给了 ] 他 [ [ 一本 ] 书 ]]] 。
] (2)如果将(2)中的句法层次描述进行简化,只保留标识各个词在不同成分中的句法位置信息,即它是处于某个句法成分的左边界(标识为‘[’),还是右边界(标识为‘]’),还是中间位置(不标识),就形成(3)的结果:[我的弟弟] [给了] 他[一本] 书] 。
] (3)显然,如果输入句子没有句法歧义,即存在一棵唯一的分析树,则句中每个词所处的边界位置应是唯一确定的。
但当输入句子存在句法歧义时,句中某些词所处的成分边界位置则包含多种可能性。
例如,对于(4)中所示的句子片段,由于存在着两种合理的分析结果:(5a)和(5b),从而使名词“猎人”具有两种可能的成分边界位置:左边界(在(5a)中)和右边界(在(5b)中)。
咬死了猎人的狗(4) [ [ 咬死了 ] [ 猎人的狗] ] (5a) [ [ [ 咬死了 ] 猎人 ] 的狗] (5b)从这个意义上看,成分边界信息反映了句子中每个词所具有的最低程度的句法层次信息,将它们的分析描述从完整的句法分析树中分离出来,使之与句子中的各个词组合成一个统一的整体,就形成了我们下面所要介绍的词界块。
定义1:直接成分(IC)是由直接成分分析法(即层次分析法)从句子中分析出来的各个合法词串。
所有的直接成分组成一个直接成分集,简记为ICS。
需要注意的是,为减少汉语句子的分析层次,我们对传统的直接成分分析法进行了一些一些简化,允许出现以下的三分结构:1) 带助词“的”的定中结构,如:[我的弟弟]2) 带助词“得”的状中结构,如:[打扫得[很干净] ]3) 双宾结构,如:[ [给了] 他[一本书]]4) 兼语结构,如:[请领导讲话]定义2:若句子中的某个IC = [w i, ... , w j],则词位置i 称为成分左边界位置,词位置j 称为成分右边界位置。
句子中所有的成分左边界位置组成一个左边界位置表,简记为LPL;所有的成分右边界位置组成一个右边界位置表,简记为RPL。
定义3:词界块(word boundary stem, WB)是由句子中的词与它的成分边界位置标记组成的结合体,简记为wb i= <w i, b i>,其中b i可取值0,1,2,3,分别定义为:1) 若i∈LPL且i∉RPL,则b i= 1,表示w i处于成分左边界。
2) 若i∈RPL且i∉LPL,则b i= 2,表示w i处于成分右边界。
3) 若i∈LPL且i∈RPL,则b i= 3,表示w i既可处于成分左边界,又可处于成分右边界,即存在歧义现象。
4) 若i∉LPL且i∉RPL,则b i= 0,表示w i处于成分中间位置。
从句法描述能力看,这里定义的词界块,与Abney的chunk,以及通常意义上的短语(phrase)具有以下关系:词界块< chunk < 短语例如,对于例句(1),我们可以分析出6个短语(如(6)所示,但不包括最后的整句成分),它们自底向上形成了句子的完整分析树;chunk有5个(如(7)所示),它们组成了句子的基本框架;而词界块则有10个(=句子长度),它们描述了句子中各词所处的成分边界位置(如(8)所示)。
[ [P6 [P1我的弟弟 ] [P5 [P2给了 ] 他[P4 [P3一本 ] 书 ]]] 。
] (6) [C1我的弟弟 ] [C2给了 ] [C3 他 ] [C4一本书 ] [C5 。
] (7) <我,1> <的,0> <弟弟,2> <给,1> <了,2> <他,0> <一,1> <本,2> <书,2> <。
,2> (8)事实上,词界块中的成分边界信息可以在一定程度上反映出不同词在句子中的句法组合关系。
考虑句子中两个相邻的词界块WB i= <w i, b i>和WB i+1= <w i+1, b i+1>,根据不同的成分边界标记组合,可以把它们的句法组合情况分为以下几类:1) 可以直接组合:b i= 1,b i+1= 2,即形成一个chunk2) 可以部分组合:b i= 1,b i+1= 0 或b i= 0,b i+1= 23) 不能组合:b i= 2,b i+1= 14) 可以间接组合:其他情况通过构造如下的统计模型,可以对词界块的成分边界进行自动预测:考虑词序列W ij= w i, w i+1, ..., w j,选择合适的成分边界标记序列B ij= b i, b i+1, ..., b j,使得P(B ij|W ij) 达到最大。
文献[ZQ96]给出了具体的预测算法。
2.2 成分组描述对真实文本中的汉语句子的句法结构树进行深入的分析,可以发现其中存在着一些特殊的成分区域。
它们具有这样的分布特点:1) 区域中的词界块只能与区域中的其他词界块发生句法作用,2) 整个区域作为一个整体与句子中的其他成分发生句法作用。
对这些特殊成分区域的共同特点进行归纳总结,我们形成了如下的成分组描述。
定义4:句子中的成分组(Constituent Group, CG) {L, R}是满足以下条件的一个区域:1) 1≤L <R ≤N, N 为句子中的词总数。
2) L ∈ LPL ,R ∈ RPL 。
3) 不存在IC=[i,j] ∈ ICS ,i ∈(L, R)且j ∉[L, R] 或者 i ∉[L, R]且j ∈(L, R)。
4) 存在IC=[k,m] ∈ ICS ,使得k = L, m=R 。
这里定义的成分组实际上就是句法分析树中一些特殊的直接成分。
由于它们一般具有很明显的词汇特征和结构特征,便于进行自动识别和人工标注,因此把对它们的辨识从完整的句法分析中分离了出来。