汉语树库综述 - 当代语言学
整合资源 走向共享——香港“汉语语料库及语料库语言学”圆桌会议述评

全 、 王 士 元 、 周 海 清 等 “ 老 级 ”专 家 ,也 有 长 期 海 外 经 也涉及 到社会语 言学 、功 能语言学 、计算语 言学 、对 比语 元
明 、吴 云 芳 等 一 大批 中青 年 领 军 学 者 , 更有 多位 在 语 料 库 语 告 , 还 有 讨 论 语 料 的 分 词 、 标 注 等 加 工 原 则 、 方 法 、 标
言 学领 域脱 颖 而 出的 学 术 新秀 。 “ 中青 ”济 济 一 堂 ,共 同 准 , 以及 文 本 描 述 、 自动 预 测 、 知 识 挖 掘 、 自动 提 取 语 法 老 探 讨 汉 语语 料库 语 言 学 的 发 展 是 本 次 圆 桌会 议 的 一 个 突 出 亮 关 系 、 自动 生 成 语 法 树 库 、基 于 云 计 算 的 语 料 库 建 设 和 基
点。
于w b e 自动 标 注 等 方 面 的 探 索 。特 别 是 台湾 中研 院历 史 语 言
在 网 络 资 讯 和 中 文ห้องสมุดไป่ตู้国 际 化 的背 景 下 , 全 球 华 语 面 临 大 研 究 所 的 历 史 语 料 库 、香 港 教 育 学 院 语 言 资 讯 科 学 研 究 中
交 流 、大 融 合 、 大 发 展 的 新 形 势 和 新 挑 战 。 总 结 回 顾 汉 语 心 的L V C 时语 料库 、 国 家 语 委 现 代 汉 语 规 范 语 料 库 、北 IA共 语料 库和语料 库语言学 发展的 历史经验 ,交流人 工智能 、 京 大 学 语 法 信 息 词 典 、 清 华 大 学 语 法 树 库 、 美 国 、 英 国和
统计自然语言处理-语料库介绍--中国台湾中研院语料库--汉语平衡语料库

2.1 属性特征的订定
我们制定出一套分类中文语料的属性特征。这些 属性用來說明文文件的來源出处、写作的方式、以及 谈论的内容。主题标示了文文件的内容,文类、文体 和语式說明了文文件呈现的型式,而出处则由媒体、 作者、出版三项属性來标示。媒体說明了文文件的出 处來源。姓名、性别、国籍、母语标示了和作者有关 的讯息,出版单位、出版地、出版日期、版次则记錄 了和出版有关的资料同时采用了阶层管理的方式在三 大属性下描述更多的属性,如图二所示。
3.1 分词原则
举一例:“撞期”依此原则必须视为一个词,但是「撞山」 仍可保持断开,视为动词加宾语动词组。此原则的适用面很广 即便是一个字串表面有明显的词组甚至句子的构造,但凡意义 失去组合性时亦应合为一个词。因此下列字串皆应视为一个分 词单位,例如:飞黄腾达(成语),撞期、吃醋(动词组), 或多或少(副词词组),十二万分(定量结构),五月(定名 结构,不是五个月)、三樓(定名结构,不是三层樓),谈谈 (重迭结构,表尝试)、「坐坐」就走(重迭结构,含短暂 貌)、辛辛苦苦(重迭结构,表程度加强)、片片、一片片 (重迭结构,具泛指意涵)、「好好」孝顺父母(重迭结构, 表尽力)…等。
3.1 分词原则
名词:父、母亲,高中、职,中山南、北路 定量:七、八月,1995、6年,三 到 四月 外來语:BBS 站、user 们、txt 档 數词及表时间、地点或编号之词虽含有标点符号, 但是我们认为这些符号不具标点符号功能,所以不算 是中插,故下列情形仍维持合并。 例如:2/28(二月二十八号),3:30(三点三十 分),二0~一号(门牌号码),AB-8888(車牌 号码)
1.2 中研院平衡语料库的源起
中央研究院词知识库小组,自1990年前后便开始致力于 中文语料库收集,截至1994年止已收集有近二千万字之现代汉 语语料及超过五百万字之古代汉语语料。平衡语料抽取以自中 央研究院词库小组现有之语料中取得为优先,但也同时透过不 同管道取得不同文体、内容之语料。以下依來源之不同种類大 致列举: (一) 交换取得之语料:此项包括经由合作计划交换取得的, 如中国时报。 (二) 直接向版权所有单位取得:慷慨提供我们版权语料做学 术研究用的有:杂志社以及许多中研院内的单位等。另多位 教授提供他们转写(transcribe)的口语资料。 (三) 由公共区域取得的公共资料:大部份由电子布告栏 (BBS)或蕃薯藤等万维网中取得。
2009_刘挺_汉语自动句法分析的理论与方法

《当代语言学》第11卷2009年第2期100-112页,北京汉语自动句法分析的理论与方法刘挺马金山哈尔滨工业大学提要 本文概述当前汉语句法分析的理论和方法,主要包括三部分内容:(1)句法分析的语法体系,介绍了句法分析工作所遵循的主要语法理论和树库资源建设方面的工作进展;(2)句法分析的主要方法,对句法分析中的难点问题以及当前主流的一些句法分析技术进行了讨论;(3)汉语句法分析的研究现状,主要介绍了当前汉语句法分析工作的研究进展以及存在的一些主要问题。
关键词 语法理论句法分析短语结构语法依存语法树库1.引言按照处理深度的不同,可以将计算语言学中的语言分析技术分为浅层分析和深层分析两类。
浅层分析技术主要是词汇级的处理,一般只对句子的局部进行分析,这类技术目前已经基本成熟,如分词、命名实体识别等,已经对文本检索、文本分类、信息抽取等应用产生了实质性的帮助。
深层分析技术是对语言进行语法、语义甚至语用级别的处理,如句法分析、语义角色标注等,这些技术需要对句子进行全局分析才能得到正确的结果。
目前,语言的深层分析技术还不够理想,距实用尚有较大距离。
在深层分析技术中,句法分析处于十分关键的位置。
句法分析是根据给定的语法体系,自动推导出句子的语法结构,分析句子所包含的语法单元和这些语法单元之间的关系(A llen 1995),将句子转化为一棵结构化的语法树。
位于句法分析底层的词法分析技术已经基本成熟,之后的语义分析技术又是建立在句法分析的基础之上。
所以,句法分析技术已经成为当前自然语言处理的一个瓶颈。
除了为词义消歧、语义分析提供技术支撑之外,句法分析的结果可直接用于机器翻译、问答系统、信息抽取等应用中,并改善应用的性能。
目前的机器翻译系统越来越依赖于句法分析,串到树、树到串以及树到树的方法已经应用到机器翻译中,并在不断地提高机器翻译的准确率。
在基于自然语言的问答系统中,查询扩展以及答案匹配均需要对句子进行深入的理解和分析。
当代语言学理论与汉语教学

这里还要指出一点, 学术, 有争鸣才有进步; 学术, 能有效服务于应用, 才能进一步发展。 说到应用, 从事汉语本体研究的学者都应该自觉地为应用服务, 譬如说应该自觉地为汉语教 学这样的应用服务; 而直接从事汉语教学的教员, 也要自觉地学习新理论、新方法, 来为汉语 教学服务。现在的状况是, 从事汉语本体研究的学者多数还不能自觉地为汉语教学服务; 而 汉语老师也多数不能自觉地学习当代语言学理论来为汉语教学服务。这种状况必须改变。
393
世界汉语教学 第 23卷 2009年第 3期
释。 (古川裕, 2000、2002)
∀实例六 #通常我们说 我饭吃饱了 , 不说 ? 我吃饭吃饱了 ; 可是 我吃苹果吃饱了
常说, 而 * 我苹果吃饱了 反倒不说。这为什么? 这也可以用认知语言学理论作出回答。
( 张旺熹, 2006)
∀实例七 # 究竟他出了多少钱? 和 究竟谁出了那么多钱? 都是特指疑问句, 词类序
∀实例八 #如果有学生问: 为什么左边的例子可说, 右边的例子不说?
可说
不说
购 书 购买书本
* 购买书 * 购书本
植 树 种植树木
* 种树木 * 种植树
我 校 我们学校
* 我学校 * 我们校
进行学习 加以调查
* 进行学 * 加以查
韵律语法理论可以作出回答。 ( 冯胜利, 1997、2005 )
第二个方面, 当代语言学理论有助于革新目前的初级汉语教学中的语法教学, 改变以往
上 ( 和 ∋墙上 ( ∋花瓶里 ( ∋门上 ( 是主语 (有的将它们说成状语 ), ∋主席团 ( ∋许多孩子 ( ∋病
《当代语言学》:往届同学作业是搜集利用语料库开展汉语教

《当代语言学》:往届同学作业是搜集利用语料库开展汉语教学与研究有关的文献,实际上他搜集的那些文章里还有专谈语料库的,那同学的标注不是很全,有的地方是空着的。
我开始看不明白,想如果是有关的文章为什么不标注呢?后来我对这本杂志有所了解后才发现这本杂志关于汉语教学研究的不多,可能他觉得东西少,就加了一点语料库的进去。
所以我重新梳理了一下这本杂志:首先我是大致地了解一下这本杂志的办刊情况和内容概况,我从CNKI上能查到的最早一期是1962年的第07期,CNKI上面说它是62年创刊,实际它是1961年创刊的,前面的6期可能由于“文革”或者别的什么原因没有找到,它是由中国社会科学院语言研究所创办的,前身叫《语言学资料》,是《中国语文》的附属刊物,是供内部参考的学术刊物。
现在仍然是中国社会科学院语言研究所主办出版,但已经是一本国际性学术期刊。
从它的一些篇目索引看出,这个杂志主要是介绍国外先进语言学理论,我发现当时里面有很多前苏联语言学家的文章,刊登的文章反映当时语言学界的前沿动态,以外论译介、书刊评介、专题文摘、国内动态、国外动态的栏目形式,这种倾向一直延续至今,现在除了引进国外先进语言学理论,推进当代语言学的理论探索与研究,还强调特别要推进“洋为中用”的实证性研究,我发现里面增加了中国语文研究这个栏目,但它不登有关外语教学和纯外国语言研究的文章,它的书刊评介着重介绍国外最新出版的语言学著作,国内出版的不在此刊的评介之列。
这个杂志中间有过三次更名,《语言学资料》66年出了两期后,一度停办,中断出版十多年,是由于我国当时正处于“文革”时期,直到1978年复刊,更名为《语言学动态》,仍然是内部资料。
到1980年更名为《国外语言学》(试刊)出版,开始转为对外的期刊了,一直到98年,随着国际学术交流变得越来越频繁和方便,这本刊物更名为现在的《当代语言学》,自80年更名为《国外语言学》正式出版后改为季刊,之前的内部资料性质的都是双月刊。
树库中的歧义组合考察

树 库 中 的歧义 组 合 考察
李 艳 娇 , 尔 弘 杨
( 京 语 言 大学 应 用 语 言学 研 究 所 , 京 1 0 8 ) 北 北 0 0 3 摘 要 : 语 树 库 是 汉语 信 息 处 理 的 宝 贵 资 源 , 中 包含 了丰 富 的 句子 结 构 及 成 分 组 合 信 息 , 树 库 中的 词 性 串组 汉 其 对
平台; 次 , 其 它能 为汉语 句法 学研 究提供 真实 文本 标 注 素材 , 于语言 学家从 中总结语 言规则 和规律 ; 便 第 三 , 是进一 步进 行 句 子 内部 的词 语 义 项 和语 义 关 它 系标 注 的基 础 。 J”
环 境 的句 法信 息作 用甚 小 。 《 语 短 语 结 构 定 界 歧 义 类 型 分 析 及 分 布 统 汉 计 》2 L 一文 在一 个 汉英 机 器 翻 译 系 统所 用 的 汉语 分 ] 析 规则 的基础 上 , 对汉 语 短 语 结构 的定 界 歧 义 做 了
62 O4 3 8 .
29 55 5 .7
1 01 . %
O O
v +n 4 2 1 O 6 0 +v 6 2 2 .
v n V 26 l 9 4 . + + 9 3 7 0
n n V 27 2 9 8 . + + 6 2 5 8
V— a— 丁 rn _ 26 1 8 3 .7
性 序列 组合 方式 的统 计 , 发现 汉 语 中的歧 义 组 合 很
收 稿 日期 :2 1 - 9 1 定 稿 日期 :2 1 — 2 2 0 10 — 5 0 11—8
基 金项 目 :“ 央高 校 基 本 科 研 业 务 费 专 项 资 金 ” 助 中 资
作 者 简 介 : 艳 娇 ( 9 6 ) 女 , 士 , 要 研 究 方 向为 语 言 信 息 处 理 ; 尔 弘 (9 5 ) 女 , 授 , 要 研 究 方 向 为 语 言 信 李 18 ~ , 硕 主 杨 16一 , 教 主
现代汉语兼语式研究综述

现代汉语兼语式研究综述现代汉语的兼语式研究是一个重要的语言学课题,在语言学研究中具有重要的理论和实践意义。
兼语是指两种或两种以上语言在同一环境下共同存在并使用的现象。
在现代汉语中,有很多兼语现象,这些兼语现象既包括语言中的词汇、语法结构等方面,也包括话语中的交际行为和语气等方面。
本文将综述现代汉语兼语式研究的现状、问题和前景,并对其进行评述。
现代汉语兼语式研究的现状主要表现为以下几个方面:首先,兼语现象得到了广泛的关注。
许多学者对现代汉语中的兼语现象进行了详细的描述和分析,并提出了各自的解释和观点。
其次,兼语研究的方法和理论不断拓展和深化。
在兼语研究中,学者运用了很多的研究方法和理论,如实证研究、对比研究、理论分析等,不断推动了研究的进展。
此外,兼语研究还与相关领域的研究相互渗透和交叉,形成了多学科的研究格局。
然而,现代汉语兼语式研究仍存在一些问题。
首先,对于兼语现象的解释和分类尚未达成共识。
不同的学者对于同一现象的解释和分类存在差异,这导致了研究成果的分散和碎片化。
其次,兼语研究往往缺乏理论和实证研究的结合。
学者们在研究中过于依赖于理论分析,而缺乏实证研究的支撑,这使得研究结果缺乏说服力和可操作性。
再次,现代汉语兼语式研究的范式和方法有待进一步拓展和深化。
虽然在兼语研究中使用了多种研究方法和理论,但仍然有一些重要的问题和问题没有解决。
总之,现代汉语的兼语式研究是一个重要的语言学课题,其研究现状、问题和前景对于推动语言学研究的发展有重要的意义。
通过充分吸收和借鉴相关领域的研究成果,加强对兼语现象的描述、分类和理论研究,并注重实证研究和比较研究,可以为现代汉语兼语式研究的进一步发展提供更多的思路和方法。
汉语句类依存树库的构建研究

国家社会科学基金(10BYY009)资助 收稿日期: 2012-06-10; 修回日期: 2012-08-15; 网络出版时间:网络出版地址:北京大学学报(自然科学版)Acta Scientiarum Naturalium Universitatis Pekinensis汉语句类依存树库的构建研究王慧兰解放军外国语学院二系, 洛阳 471003; E-mail: hlwang9@摘要 以机器翻译领域为应用目标, 以概念层次网络理论的语义网络和句类分析方法为理论基础, 探讨句类依存树库构建的理论和标注实践等问题, 详细描述了构建树库所需的概念类别标注集和句类关系标注集, 并给出了句类依存树样例。
关键词 汉语树库; 概念层次网络理论; 句类依存树库中图分类号 TP391Construction of Chinese Sentence-Category Dependency TreebankWANG HuilanThe Second Department, PLA University of Foreign Languages, Luoyang 471003; E-mail: hlwang9@Abstract Aiming at the area of m achine translation applications, this paper conduct research on the construction of Chinese s entence-c ategory d ependency t reebank (CSCDT) based on the theory of h ierarchical n etwork of c oncepts. Conceptual category tagset and s entence-c ategory relation tagset for the treebank are presented also with the example tree of CSCDT.Key words Chinese treebank; hierarchical network of concepts; sentence-category dependency treebank 自然语言理解与处理的基本资源包括各类术语词典、多语词典、配价词典(如德语配价词典BAL-BU)、同义词词典(如WordNet 和汉语同义词词林)、语义本体(如FrameNet 和HowNet)、领域本体、句法树库(如宾州树库)等等。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《当代语言学》第11卷2009年第1期47-55页,北京汉语树库综述王跃龙姬东鸿武汉大学提要 树库作为一种经过了结构标注的语料库,对于语料库方法的语言学研究及其应用具有非常重要的意义。
本文简要介绍了目前汉语树库建设的主要情况,包括国内外几个比较重要的汉语树库的建设过程和主要特点,对目前汉语树库建设中存在的问题提出建议,并对今后的汉语树库建设作出展望。
关键词 树库汉语树库1.树库定义随着计算语言学的发展,人们逐渐认识到基于规则的语言学研究方法的局限性。
计算机的运算速度的飞速发展,也使得人们能够方便地使用统计学的方法从真实语料中获取自然语言的数据,因此语料库方法越来越受到人们的重视。
这些语料库中的真实语料往往经过不同层次的加工,包含了各种各样的语言信息,可以使获取的语言规律更加客观和准确。
树库(treebank )就是一种经过了结构标注的语料库。
一般来说,一个句子虽然表面上呈现词语的线性排列,其内部的成分组织是存在一定层次结构的。
这种层次结构通常用“树”这种形式工具来表示。
如果考虑歧义,那么一个句子可能对应多棵树。
大量句子以及其对应的树结构的集合就构成树库。
树库作为包含语言结构信息的语言资源,其作用在以下几方面。
首先,它可为基于统计的自动句法分析器提供必要的训练数据和统一的测评平台;其次,它能为汉语句法学研究提供真实文本标注素材,便于语言学家从中总结语言规则和规律;第三,它是进一步进行句子内部的词语义项和语义关系标注的基础。
目前许多国家正在或者已经初步建立起自己语言的树库。
例如,英语的树库有英国的Lancaster 2Leeds 树库①和美国宾夕法尼亚大学的U 2Penn 树库②;德语的树库有NEGRA 树库③和TI GER 树库④;捷克语有P DT 树库⑤;西班牙语有UAM 树库⑥;汉语的树库有美国宾夕法尼亚大学的U 2Penn 汉语树库⑦和中国台北中研院的Sinica 汉语树库⑧等。
74本刊网址:htt p://www .ddyyx .com ①②③④⑤⑥⑦⑧htt p://cl w ww .essex .ac .uk /w3c /cor pus_ling/content/cor pora /list/p rivate /LOB /l ob .ht m l (点击日:2006年12月1日)htt p://www .cis .upenn .edu /~treebank /(点击日:2006年12月1日)htt p://www .coli .uni 2saarland .de /p r ojects/sfb378/negra 2cor pus/negra 2cor pus .ht m l (点击日:2006年12月1日)htt p://www .i m s .uni 2stuttgart .de /p r ojekte /TI GER /TI GERCor pus/(点击日:2006年12月1日)htt p://ufal .mff .cuni .cz/pdt/index .ht m l (点击日:2006年12月1日)htt p://www .lllf .ua m.es/~sandoval/UAMTreebank .ht m l (点击日:2006年12月1日)htt p://www .cis .upenn .edu /~chinese /ctb .ht m l (点击日:2006年12月1日)htt p://turing .iis .sinica .edu .t w /treesearch /(点击日:2006年12月1日)2.树库的类型根据所描述结构的不同,树库大体上可以分为两类:短语结构树库和依存结构树库。
短语结构树库一般采用句子的结构成分描述句子的结构。
典型的有英国的Lancaster 2Leeds 树库,美国宾夕法尼亚大学的U 2Penn 树库。
采用短语结构描述的原因有:(1)短语结构树可以表示句子较全面的句法信息,包括从词、短语到句子的句法单位、词性;词与词之间的搭配和同现;短语的内部结构和功能分类等,都可以在短语结构树中得以体现。
图1⑨是宾州汉语树库中的一个例子。
图1 短语结构树举例图1中包括丰富的语言信息。
NR,NN ,CC,VV 表明的是各个词的词性,分别为专有名词、普通名词、连词和动词。
NP,VP 分别为名词短语和动词短语。
2P N ,2S BJ,2HLN 则是功能的标记,是用来补充层次表示的,表示不同的语法角色。
2P N 表示专有名词,S BJ 表示句子主语,2HLN 则表示这是本句的标题。
这个句子第一层可以分为NP 和VP 两个部分,NP 又可以再分为NP 1和NP 2两部分。
NP 1由NR 1和NR 2组成;NP 2分为NN 1,CC,NN 2,NN 3四个部分。
这棵树中的节点I P,NP,VP 为非终极节点;NR,NN ,CC,VV 为终极节点。
所有这些信息的标注将为计算机自动习得语言规则和人们分析语言提供基础材料。
(2)采用短语结构可以有效地结合现有研究成果。
首先,语言学界在短语结构分析方面,积累了许多有价值的研究成果,这些成果可以运用到树库的标注体系中;其次,计算语言学界在自动层次分析方面,也开发了许多自动句法分析器和句法知识自动获取工具,这些工具可以为树库构建提供有力的支持(周强2004:3)。
(3)按照不同的应用需求,树结构可以转换为骨架分析树和依存关系树等。
同时,也可从树库中自动提取基本短语和语法功能的标注信息,建立现有的句法树标注体系与汉语部分分析体系的内在联系,扩大目前树库语料的应用范围(周强2004:4)。
(4)短语结构语法体系下多年来的研究与教学,已形成了丰富的人才储备库,可以较容易地找到树库校对人员,不需要经过大量培训就可以胜任校对任务。
这可以大大降低大规模树库的开发费用(周强2004:3)。
84当代语言学⑨参见宾州树库4.0版。
依存结构树库是根据句子的依存结构而建立的树库。
依存结构描述的是句子中词与词之间直接的句法关系,相应的树结构也称为依存树。
依存结构树库包括布拉格的依存树库P DT,中国台北中研院的汉语树库等。
图2是哈尔滨工业大学汉语依存树库中的一个例子。
与上年同期相比,海上油田的年产能力增加了五十万吨。
图2 依存树举例“增加”是全句的中心词,具有四个向下的依存关系,分别为ADV(状中关系),S BJ(主语关系),MT(语态的关系),OBJ(宾语关系)。
即“相比”和“增加”之间是状中关系,“能力”和“增加”之间是主语关系,“了”和“增加”之间是语态关系,“吨”和“增加”之间是宾语关系。
这四个部分之间是水平同现的关系,各个部分又分别有自己所支配的词语。
例如作为主语的“能力”向下又有两个依存的词语“的”和“年产”,分别为DE(“的”字结构)和ATT(修饰关系)。
“的”又有“油田”以DE依存于“的”,“海上”以ATT依存于“油田”。
“能力、的、油田、海上”这四个词语之间是垂直同现的关系。
采用依存结构描述的原因有:(1)依存树不存在短语节点,每个节点都与句子中一个确定的词对应,即不存在非终结(non2ter m inal)节点。
词的语法范畴等特征可作为附加信息标于同一个节点上。
因此,依存树是一种多标记的语言模型(刘海涛1997:90);(2)依存结构刻划词与词之间的搭配关系,垂直同现约束和水平同现约束关系等(刘海涛1997:92)。
反映了自然语言中句子成分之间的不对称关系;(3)依存结构中的节点数比短语结构所用的节点数要少。
也就是说,使用依存分析可以节省分析树所占的存储空间。
这对大规模树库的开发是一个极为重要的因素(周明、黄昌宁1993:39);(4)短语结构分析无法直接表达句子结构中的中心词及其作用,而依存结构分析突出了中心词的地位,这有助于进一步的语义分析(刘海涛1997:90);(5)依存结构注重语言成分之间的外部联系,强调了各成分之间存在的功能关系,所以较容易将依存关系影射为相应的语义表示,方便了今后要进行的语义分析(周明、黄昌宁1993:40)。
图2中的S BJ对应的语义角色是主题(the me)即描写表述的对象, OBJ对应的语义角色是述题(rhe me)。
依存树的表示和语义网络表示之间“存在着一种较为简单的对应关系”(周明、黄昌宁1993:40)。
94 2009年第1期3.汉语树库在汉语方面,两个较大的树库是美国宾夕法尼亚大学的汉语树库(宾州大学汉语树库—CT B)和中国台北“中研院”的Sinica汉语树库。
分别可看作是短语结构和依存结构树库的代表。
中国大陆在近十年内也构建了几个大型中文树库,这对中文信息处理的发展起到了巨大推动作用。
3.1宾州大学汉语树库宾州大学汉语树库(CT B)的目标是建立一个100万词的经过句法标注的语料库。
它是基于短语结构的,进行了短语结构、短语功能、空元素、指数的标注。
CT B到目前发展至5.0版。
从1998年夏开始至2000年秋是第一期工程(110版),完成了10万词的切分、词性标注、句法标注,语料主要来自新华社的文章。
2003年春天完成了第二期工程(210和310版),完成了15万新词的标注,在二期工程中加入了香港和台湾的语料,以保证语料的多样性(Xue,et al.2004:2)。
2004年春天完成了04版,包括40万词的标注,总66万多汉字。
2005年1月发布了5.0版,包括507,222词,824,983汉字,18,782句子。
在标注体系上,从CT B—1.0(1998-2002)起,基本上沿用了宾州大学英语树库PT B—2的标注体系。
即从最初的PT B—l采用骨架分析思想,形成比较扁平的句法结构树的基础上,增加了一些功能标记,用于标注句子中主要句法成分的语法功能(周强2004:2)。
目前的总标注规模为50万词的新闻语料。
在CT B的基础上,宾州大学又分别完成了标注谓词论元结构的中文命题库1.0 (Babko2Malaya,et al.2004;Xue and Par mer2003)建设,以及标注了语篇连接的汉语语篇树库(Xue2005)的建设。
这将大大促进机器翻译、信息检索和信息抽取等应用技术的进一步发展。
宾州大学汉语树库的特点有:(1)语料更新速度较快,不断有新语料的补充;(2)加工深度较深。
目前已在原来句法树库的基础之上完成了谓词论元结构,包括事件改变、名词指代、意义标注和语篇连接关系的标注等。
这对于机器翻译、信息检索、信息抽取、问答系统等应用系统的发展有着直接的推动;(3)标注方法、算法上比较先进。
例如,宾州树库中把单词切分问题转化为消歧问题,付诸于机器学习的方法来加以解决。
根据CT B—1的资料,运用最大熵的方法训练一个自动分词器,把词语切分问题转化为标注问题来解决。