一个汉英机器翻译系统的设计与实现

合集下载

汉英机器翻译中汉语自动分析的难点

汉英机器翻译中汉语自动分析的难点

103摘要:本文从汉英机器翻译的角度来探讨汉语自动分析的难点,包括词法分析、句法分析和汉英转换中的难点。

词法部分的难点包括词语切分、未登录词、词表等;句法分析中的难点包括核心动词的分析、特殊结构的处理、标点符号的影响等;汉英转换包括冠词、单复数、时态以及语式等难点。

关键词:机器翻译自动分析难点一、引言机器翻译(Machine Translation ),指利用计算机把源语言(source language )转换成目标语言(target language )。

由于机器翻译能够减轻翻译人员的脑力劳动,把翻译工作者从繁重的翻译工作中解放出来;还能够提高翻译效率,实现国际情报交流的部分自动化。

因此,自计算机问世起,就不断有学者进行机器翻译的尝试。

迄今,出现了不少商品化的机器翻译系统,如美国的SYSTRAN 系统、美国Texas 大学与德国Simon 公司合作研制的METAL 系统、日本日立公司的ATLAS 系统及法国Grenoble 大学的CETA 系统,等等。

我国的机器翻译研究从一开始就受到了国家的高度重视,早在1959年中科院语言研究所和计算技术研究所就进行了中国第一次机器翻译实验(俄汉)。

在我国,外汉机器翻译系统,特别是英汉机器翻译系统的研制已经取得了较大的成功,达到了初步实用的水平,并且推出了不少实用系统,如“译星”、“汉神”、“通译”,等等。

但汉外机器翻译,特别是汉英机器翻译的研究却进展缓慢,离实用化还有一定的距离。

使用过汉英和英汉机器翻译系统的人都会有一个深深的感受,这就是汉英机器翻译远不如英汉机器翻译。

同样的两种语言,为什么机器翻译中把汉语当作源语言要比把英语当作源语言要困难得多?我们以下面这个例子为例就可以看得相当清楚了。

例如要把英文句子“We should do our utmost to achieve our goal in life ”翻译为中文,机器一般可以翻译得较为准确,但是要把汉语句子“他踢坏了三双鞋”翻译为英文,机器有的翻译为“He plays three pairs of evil shoes ”,有的翻译为“He kicked three pairs of shoes bad ”,还有的翻译为“Him kick spoil 3pairs of shoes ”。

学术期刊论文摘要汉英双语语料库构建研究-英语论文-语言学论文

学术期刊论文摘要汉英双语语料库构建研究-英语论文-语言学论文

学术期刊论文摘要汉英双语语料库构建研究-英语论文-语言学论文——文章均为WORD文档,下载后可直接编辑使用亦可打印——论文摘要指以提供文献内容梗概为目的,不加评论和补充解释,简明、确切地记述文献重要内容的短文。

(国家标准GB 47) 学术论文摘要概括论文的主要信息,对研究的目的、方法、结果和最终结论有一个比较完整的说明,对于论文的发表、收录、检索及科研人员的学术交流等起着重要的作用。

当今时代,英语已成为国际交往的世界性语言,英文学术论文摘要的重要性日益显现。

近年来,不少中外学者(如Swales1990、段平2002、滕延江2008、邓军涛2013 等) 对论文摘要的语言特点与翻译进行了比较广泛深入的分析,其成果无疑有利于该领域的实践与发展。

然而,大多数相关研究都是基于研究者个人的经验,选取的例句和掌握的语料比较有限。

不少学习者和研究人员撰写及翻译摘要的能力还比较欠缺。

鉴于此,本课题组决定建设学术期刊论文摘要汉英双语语料库,一方面从大的语料基础上客观描述英文摘要的文体特征和进行汉英翻译研究,同时将该语料库用作翻译教学平台,试验并总结数据驱动的教学方法,推动学术研究与翻译教学共同发展。

一、学术期刊论文摘要汉英双语语料库的建设(一) 语料库与双语语料库语料库是指按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续语言运用文本或话语片段而建成的具有一定容量的大型电子文本库(杨惠中,2002) 。

语料库具有语料真实、丰富、代表性强以及融合了计算机技术等特点,在语言研究和教学方面具有较大的优势与应用价值。

按照语料的语种,语料库可以分成单语、双语和多语语料库。

双语和多语语料库还可分为平行语料库和可比语料库。

平行语料库收集原文与译文双语对照的文本,按设定的标准对语料进行句子或段落的对齐。

可比语料库收集具有可比性的语料,分别放置于不同的文本库,主要用于语言对比研究。

关于双语语料库的作用,不少专家从不同角度进行了探讨。

关于本地构建机器翻译系统

关于本地构建机器翻译系统

更换root身份
执行 ./text2idngram -vocab english.vocab -buffer 5 <english.txt> english.idngram 生成 english.idngram
添加 s 内容如下:
<s>
</s>
english.txt放在CMU-Cam_Toolkit_v2/bin下
执行 ./text2wfre <english.txt> english.wfre 生成 english.wfre
执行 ./wfre2vocab <english.wfre> english.vocab 生成english.vocab
执行 ./idngram2lm -idngram english.idngram -vocab english.vocab -context s -binary english.binlm
生成english.binlm (二进制文件)
2.构建翻译模型
进入mkcls-v2目录下,把10000句的英文和中文对照语料库拷贝到该目录下。 执行如下命令:
./plain2snt.out chinese.txt english.txt
成功运行后将会生成以下四个文件:
chinese.vcb, chinese_english.snt, english.vcb, english_chinese.snt
在GIZA++-v2目录下建立一个test子目录,把刚才生成的四个文件和mkcls生成的四个类文件,再加上编译后的可执行文件GIZA++一同拷贝到该子目录下即可编译运行.这样生成后的文件全都在这个目录下

英语智能翻译人机界面系统设计与研发

英语智能翻译人机界面系统设计与研发

英语智能翻译人机界面系统设计与研发杜卫卫【摘要】语言翻译智能化是行业科技创新内容,也是英语专业领域研究的重点技术之一。

人机界面系统是英语智能翻译器的核心构成,决定着英语语言翻译结构的准确性。

本文分析了传统翻译存在的不足,总结智能翻译系统的功能特点,提出翻译人机界面系统设计与研发措施。

%Language translation intelligent industry science and technology innovation content,one of the key technology and research in the field of English majors.The human-machine interface system is the core of smart English translator,determines the accuracy of the structure of the English language translation. This paper analyzes the shortage of traditional translation problems,summarizes the characteristics of the intelligent function of translation system,puts forward the design and R &D measures the man-machine interface system.【期刊名称】《电子测试》【年(卷),期】2015(000)002【总页数】3页(P19-20,18)【关键词】英语;智能翻译;人机界面;设计【作者】杜卫卫【作者单位】渤海大学大学外语教研部,辽宁锦州,121013【正文语种】中文基于信息科技普及应用背景下,智能翻译器在英语交流方面的应用更加广泛,采用高端信息技术辅助语言转换处理,实现了人类科技的又一次进步。

基于WAMP的藏汉英互译在线词典的设计与实现

基于WAMP的藏汉英互译在线词典的设计与实现

码 。 经 测 试 , 在 线词 典 根 据 用 户 的 需 要 , 入 单 字 和 词 就 可 以 在 藏 汉 英 三 语 问 交 互 查 询 并 快 速 检 索 到 对 应 的 译 该 输
词 。词 典 采 用 B S结 构 , 的 实现 有 助 于藏 汉 英 三语 间 的 交 流 和 学 习 。 / 它 关 键 词 : 文 ;在 线 词 典 ; AMP; / 藏 W B S结 构 ;数 据 库
wh c sn AM P a e in p a f r ,a d as ie u h p cfcd sg t o n h i o eo h h — ih u ig W s ad sg l to m n lo g v s o t e s e i e i n me h d a d t e man c d f e t e t i t s u u a a a e a d t e q e y p g . Th x e i n r v d t a t e t e o l e d c i n r a n t n l e u n t e a r sd tb s n h u r a e e e p rme t p o e h h h n i i t a y c n i s a t r t r h n o y c r e tt i n u lwo d ( b t n o r c rl g a i r s Ti ea ,Ch n s n g ih f r t e q e y e t r d b h u t m e . Th i t n r s i e e a d En l ) o h u r n e e y t e c s o r s e dci a y i o
6 4
中 文 信 息 学 报
线 多语 词典 通 过十 余 年 来 的 迅 速发 展 , 已经 初 见 规 模 , 成 了各具 特色 的 在线 词典 资源 , 形 部分 在线 词典 已经 商品化 。相 较 之 下 , 文单 语 及 多 语 在 线 词 藏 典 仍 处于起 步 阶段 , 过 网络 能 够 搜 索 到 的藏 文 单 通 语 或 多语 在线 词 典很 少 。近 年来 , 着 时代 的发 展 随

英语翻译软件翻译准确性矫正算法设计

英语翻译软件翻译准确性矫正算法设计

英语翻译软件翻译准确性矫正算法设计黄登娴【摘要】传统机器翻译方法采用管道式逐次操作对原始语料实施词性标识以及句法分析,获取英语语言的句法结构,使得翻译任务间存在的错误迭代传递、结构化实例准确性降低,导致英语语言文学翻译准确性降低.因此,对英语语言文学中的机器翻译准确性方法进行校对研究.设计基于知网的词汇语义相似度以及对数线性模型,采用汉英依存树到串的方式保存对应的双语语料,对源语言端实施依存结构化处理,确保汉英双语的对应关系,通过知网运算输入需要翻译句子(依存树结构)同实例库内源语言(依存树结构)中词汇的语义相似度.描述了机器翻译中相似实例检索模块以及译文生成模块的实现过程,通过面向数据的翻译模型进一步校对英语语言的准确翻译.实验结果表明,所提方法可得到准确率高的译文,具有较高的准确性和稳定性.【期刊名称】《现代电子技术》【年(卷),期】2018(041)014【总页数】4页(P170-172,177)【关键词】英语翻译软件;机器翻译;翻译准确性;语义相似度;矫正算法;迭代传递;依存树结构【作者】黄登娴【作者单位】中国民用航空飞行学院,四川广汉 618300【正文语种】中文【中图分类】TN912.3-34;TP391.2机器翻译是自然语言操作范围中的关键,具有较高的应用价值。

依据实例的机器翻译是一种经验主义的英语语言文学翻译策略,其无需复杂的深层次语法以及语义的分析,提高了英语语言翻译的效率。

但是基于实例的机器翻译方法对实例库质量的要求较高[1]。

传统机器翻译方法采用管道式逐次操作对原始语料实施词性标识以及句法分析,获取英语语言的句法结构,使得翻译任务间存在的错误迭代传递、结构化实例准确性降低,导致英语语言文学翻译准确性降低。

针对该问题,本文研究了英语语言文学中的机器翻译准确性方法,塑造并实现基于汉英依存树串实例的机器翻译系统,提高了英语机器翻译的准确性。

1 基础算法与模型1.1 依存树到串模型依存树到串的模型为<D,S,A>,<D,S>是一个翻译对,D表示源语言的依存树,S表示源语言的目标词语串,A用于描述D与S间的词对齐关系[2-3],依据依存树到串双语对齐模型的实例如图1所示。

自然语言实验报告

自然语言实验报告

b、 GIZA++-v2 cd GIZA++-v2 #进入目录 #修改 Makefile 文件,删除“-DBINARY_SEARCH_FOR_TTABLE” make #编译 4、 安装 Moses 1> 下载安装 moses 解码器 a、安装所需要的依赖包 sudo apt-get install autoconf automaketexinfo zlib1g zlib1g-dev zlib-bin zlibc b、因为需要从网上直接下载 moses,故先安装 subversion sudo apt-get install subversion c、下载源码包 svn cohttps:///svnroot/mosesdecoder/trunkmosesd ecoder d、moses 的编译相关操作 cd mosesdecoder ./regenerate-makefiles.sh ./configure –with-srilm=/#SRILM #SRILM make -j 4 2> 安装训练脚本 a、建立训练脚本目录: mkdir-p bin/moses-scripts b、修改 makefile:现代汉语切分、标注、注音语料库-1998 年 1 月份样例与规范(北京大学) 1998-01-2003 版-带音(已标注语料库) 语料库规范
三、试验原理
主要是通过下面四个方面: [1] 语料准备 首先需要编程将汉语句子和英语句子分别从1500 句对中抽取出来存在两个文本 文件中,1500 个汉语句子存放在文件chinese 中,1500个英语句子存放在english 中。每个句子一行,并且汉英对应句子的行号一一对应。然后,您需要对chinese 中 的汉语句子进行切分,也就是切成一个个的汉语词。对于english 中的英语句子进 行tokenize。之后english 用做语言模型的训练语料,chinese 和english 用做翻译模

汉英机器翻译中的结构分析和处理

汉英机器翻译中的结构分析和处理

汉 英 机 器 翻 译 中的 结构 分 析 和 处 理
张 蓥 ,朱 兰娟
摘 要 : 以依 存 结 构 树 和“ 语 法” 想 为 基础 , 设计 了针 对符 合语 法语 义规 则 的 复杂 句子 汉英 翻 译 软 件 ,尤 其 是 广 大 以规 范 格 思 的 句 子语 法和 常 用 的惯 用 语作 为依 据 和 素材 的 复杂 汉语 句子 ,着 重 介 绍 了 句子 主 干+ 状语 模 块 的翻 译 策略 , 以及 其 他 复杂 修
属 词 ’【。 ’
句 子 的依 存 关 系 ,一 般 被 描 述 为 一个 树 状 结 构 【。句 子 4 】
唯一独立成分即句子主句的谓词 , 是整句 的主支配词 , 就 其 他 从句 的谓词为辅支 配词 ,每个 节点都只依 附于一个支配
词 。我们 以主支配词作为依存树 的根节 点, 动词依存关系决

本文将 研究重点放在 以语法语义 规则为基础 的翻译策 略上 ,旨在尽量精确地剖析句子 的每个层次和结构 。 作为辅 助 , 们 建 立 了语 料库 ,不 仅 使 常用 的语 素 包 含 更 多 的语 义 我 内容 , 以概 念代 替词 作 为 基 本 单 位 , 加 更 多 的 新信 息【。 并 添 ”
定了整个依存树 的“ 主干” 。如在句子“ 他发现小孩喜欢一起
作者 简介 :张
图2 边 标记 的依 存结构 树
蓥 (9 5) 18.,女 ,上海 人 ,上海 交通 大学 自动化 系 ,硕士研 究 生 ,研 究方 向 :机器翻 译 ,上海
20 6 : 00 1
朱 兰娟 ( 9 3 ) 1 6 .,女 ,上 海人 ,上海 交通 大学 自动化 系 ,副教 授 ,博 士 ,研究 方 向:嵌入 式 系统软 件设计 、 离散事 件系 统建模 分 析 、 自然 语言 处理 等 ,上海 2 0 4 0 20
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一个汉英机器翻译系统的计算模型与语言模型*刘群+詹卫东++常宝宝++刘颖+(+中国科学院计算技术研究所二室北京100080)(++北京大学计算语言学研究所北京100871)摘要:本文介绍我们所设计并实现的一个汉英机器翻译系统。

在概要介绍本系统的主要目标和设计原则的基础上,着重说明系统的计算模型和语言模型,最后给出实验结果和进一步的打算。

关键词:自然语言处理机器翻译中文信息处理一、引言我国的机器翻译研究近年来取得了很大的发展。

特别是英汉机器翻译系统的研制已经取得了较大的成功,达到了初步实用的阶段。

相对而言,汉英机器翻译的研究却进展比较缓慢,离实用化还有相当的距离[1]。

我们的目的是利用目前最新的计算机软件技术、相对成熟的机器翻译方法和先进的汉语语法理论,构造一个初步实用的汉英机器翻译系统。

本文将对我们所开发的系统所采用的计算模型和语言模型作一个总体性的介绍,而不涉及过多的细节。

下面我们简要介绍一下本系统的几个主要设计原则:⑴采用成熟的技术我们的目的是构造一个真正实用的汉英机器翻译系统,因而在可供选择的若干技术路线面前,我们将尽量选用比较成熟的技术,而在现有技术难以解决问题时再尝试一些新技术。

⑵开放的体系结构开放的体系结构主要体现在系统的实现上所采用的软件构件技术[8]。

整个系统采用一些相对独立的软件构件组成,因而可以方便地对系统进行修改、维护和扩充。

翻译的过程严格按照独立分析、独立生成的原则进行组织,每一阶段的算法相互独立,对其中一个阶段算法的修改不会对其他算法造成影响。

⑶方便的调试环境本系统强调为语言工作者提供一个方便的调试环境。

系统提供多窗口图形界面的知识库调试工具,支持课题组中多人同时通过网络对一个知识库进行操作。

提供对翻译过程直观显示,用户可以清晰地看到翻译过程的每一步操作。

提供翻译出错原因查找机制,用户*本项目的研究受到863-306资助,合同号为863-306-03-06-2可以轻松确定翻译出错的位置。

机器翻译系统可依据不同的标准进行分类,这些标准也刻划出本系统的一些基本特点:(1) 规则方法与语料库方法规则方法发展到今天,相对来说已比较成熟,但由于专家描述的规则知识通常颗粒度较大,不利于处理大量的细节,因而在处理大规模的开放语料时,遇到了难以克服的困难;而从预料库中获取的知识颗粒度较小,在自然语言处理的某些方面取得了成功,但纯粹基于语料库的的机器翻译系统,还没有比较成功的例子。

本系统目前采用的是基于规则的技术,我们计划将其扩展成为一个规则方法与语料库方法相结合的系统。

(2) 转换方法与中间语言方法从理论上说,在实现多种语言互译的机器翻译系统时,中间语言方法可以节省很多的工作量。

但从已实现的系统来看,使用转换方法较易取得成功。

本系统也采用转换方法。

(3) 确定性算法与不确定性算法确定性算法的优点是算法较为简单,翻译速度快,缺点是不能提供回溯的能力,翻译过程任何一步的错误将导致整个翻译的失败。

不确定算法刚好相反。

本系统采用不确定性算法,翻译过程的每一步骤都是不确定的,都可以回溯。

二、计算模型我们从系统结构、知识表示、翻译算法三方面来介绍我们所采用的计算模型。

1、系统结构图1 汉英机器翻译系统总体结构系统总体结构如图1所示。

2、知识表示机器翻译的过程可以看成是一个运用知识进行推理的过程。

知识表示是这一过程的基础。

我们把机器翻译中用到的知识表示形式分为内部知识和外部知识两类。

其中外部知识是存放于知识库之中,由语言工作者进行管理的知识,如词典和各类规则库等,内部知识是翻译过程中临时生成的,用于描述所翻译的句子的语法语义特征的知识,如树形图、特征结构和语义网络等。

本系统的外部知识表示由知识库子系统进行处理。

知识库包括一个语言模型、一部词典、多个规则库和一个实例库。

本系统设计的严格的语言模型起统帅作用,其中规定了本系统所使用的源语言和目标语言的词法模型、句法模型和语义模型,即词法、句法和语义的分类和各种属性描述。

所有知识库中所用到的各种语言知识描述用的符号格式都必须符合语言模型中的规定。

整个系统使用一部双语词典。

多个规则库对应于翻译的各个步骤,每个步骤使用相应的规则库。

每个规则库的具体格式各不相同,但基本上都采用“树结构+约束”的形式。

在知识库的格式定义上,我们特别强调不仅要能描述全局性知识,也要能描述一些局部性的知识。

因此我们特别强调词典的描述能力。

例如,词典中的局部规则与全局规则具有完全相同的格式,在使用上局部规则优先于全局规则,这样特别有利处理一些与具体词相关的特殊用法。

实例库用于存放系统翻译过的句子及其相关信息。

本系统的内部知识表示形式包括线图(Chart)、树结构和特征网络三种形式。

线图源于Chart Parsing算法,是一种比较通用的语言内部结构表示方法,可以同时表示翻译过程中产生的大量词结点和短语结点,也可以适应多种不同的分析算法。

树结构是短语结构分析中最常用的一种表示方法,用于描述句法成分(包括词结点和短语结点)之间的组合关系。

每个树结点对应于线图中的一个词结点或短语结点。

我们所使用的树结构表示法中要求标出每个句法成分的中心子结点,用于处理属性值在句法成分之间的传播。

特征网络是本系统所使用的一种特有的知识表示方法。

这种表示法融合了特征结构表示法[4]和语义网络表示法的一些特点并加以改进,以适合汉英机器翻译的需要。

具体来说,特征网络表达具有以下特点:1、一个特征网络由许多个互相关联的特征结点所组成;2、一个特征结点是若干个特征的集合,一个特征是一个“属性-值”对;3、属性分为简单、原子属性和关联属性两种,原子属性的值是一个原子,关联属性的值是另一个特征结点;4、原子分为层次型、符号型、数值型、布尔型等多种类型,原子之间可以通过与、或、非等逻辑操作构成复杂原子,每一种类型的原子有不同的合一算法;5、特征结点之间通过关联属性互相连接,这种连接可以构成回路,我们改进了合一算法,使得这种回路不至于在合一运算时造成死循环;6、一个特征结点对应着句法分析中已经出现或可能出现的一个句法成分,而每一个句法成分(即句法树中的结点)一定有唯一的一个特征结点与之对应;7、在一定的条件下,属性的值可以在特征结点之间进行传递;8、特征结点之间实行真正的合一运算,而不是伪合一运算。

特征网络表示法作为一种最基本的知识表示方法在本系统中发挥着重要的作用,它基本上满足了我们在汉英机器翻译中描述各种复杂的语言现象的需要。

3、翻译算法我们采用基于转换的翻译方法,遵循独立分析、独立生成的设计原则[3]。

具体的翻译流程下图2所示。

图2 翻译的流程其中,汉语的词形分析阶段分为重叠词处理和切分两个步骤,汉语的切分采用双向最大匹配算法。

出现切分歧义时,不做判断,保留到结构分析阶段进行处理。

结构分析阶段采用改进的Chart Parsing算法[6]。

转换阶段采用自顶向下与自底向上相结合的局部子树变换算法。

结构生成阶段采用自底向上的局部子树变换算法和自顶向下的全局子树位移算法。

4、用户界面用户界面包括使用界面和管理调试界面。

由于本系统还处于开发阶段,我们着重开发了管理调试界面。

对于一个实际的机器翻译系统来说,语言规则和词典的调试工作是非常重要的。

一个良好的机器翻译系统管理调试界面,可以使语言工作者直观方便地进行语言规则和词典的调试,大大提高调试的效率,进而有效地提高语言知识库的质量。

本系统的管理调试界面分为知识库管理界面和翻译调试界面两部分。

知识库管理界面帮助语言工作者对各知识库进行直观的创建、管理和查询等操作,翻译调试界面帮助语言工作者通过观察具体例句的翻译过程对语言知识库进行调试。

系统依次以可视的图形显示源文正文、分析产生的每一个源文词语结点、源文短语结点、源文句法树、转换生成产生的译文句法树、译文词结点和最后的译文正文。

语言工作者可以根据需要显示任何一个句法成分的产生过程及其对应的特征结点(属性和值)。

三、语言模型在一个机器翻译系统中,计算模型决定了该系统的能力的极限,即该系统最好能翻译到什么程度;而语言模型则决定了该决定了这种极限能在多大程度上实现。

没有好的语言模型,系统的计算模型再好,也不可能得到高质量的译文。

本系统采用以语法分析为主,以语义分析为辅的语言模型。

就汉英机器翻译系统而言,目前还没有专门适用于机器翻译的汉语语法模型。

本系统采用的语言模型主要来源于北京大学计算语言学研究所研制的《现代汉语语法信息词典》[2](以下简称《词典》),并在该词典所采用的语言模型基础上修改扩充而成。

1、汉语词语分类和属性[10]本系统所采用的汉语词语分类和属性取自于《词典》,并作了少量的改动。

《词典》中将现代汉语词语(包括标点符号、语素、成语等)分为26类,我们只采用了其中的20类,并将其余6类归并到这些类中。

《词典》中有大量的属性描述,我们根据机器翻译的需要对这些属性作了一定的取舍,并增加了少量新属性。

本系统所使用的机器翻译词典就是在《词典》的基础上修改扩充而成。

在使用中我们体会到,《词典》对现代汉语词语的分类合理,对词语语法功能的描述非常详尽,基本上能满足汉英机器翻译的需要。

2、汉语短语分类和属性[7,10]对汉语短语的分类,我们继承了《词典》中对汉语词语分类时采用的“功能分类”思想,将短语(包括句子)分成np,vp,ap,tp,sp,dp,pp,mp,mcp,dj,fj,zj等12类。

另外,我们还定义了内部结构、语气、被动、否定等短语属性。

我们认为,短语和汉语词语一样,采用按功能分类的思想,而不是按结构分类或按功能-结构混合分类,是符合机器翻译用汉语语法体系要求的。

这是因为,功能反映了一种短语与其它短语互相结合的能力,而语法规则所描述的就是短语之间如何互相组合构成新的短语,因而采用功能分类是非常自然而贴切的。

短语的结构从本质上说只是短语内部成分之间的组成关系,虽然结构对功能也有一定的影响,但它并不直接反映短语向外结合的能力。

因此我们只是把短语的内部结构作为一种属性来对规则进行约束,而不是作为分类的依据。

在实践中我们感觉到这种做法是恰当的,既不至于导致规则的描述能力不够,也不会产生大量的冗余规则。

总的来说,我们对汉语短语的认识要比我们对汉语词语的认识肤浅得多。

在很多情况下,我们没有足够准确的属性来描述规则的约束条件,尤其是一些很常用的歧义结构,如np+np,vp+vp,np+vp等等。

这尤其需要我们机器翻译研究工作者与语言学家共同努力,对汉语短语的语法功能进行更加深入的研究。

3、语义分类和属性[9]本系统是一个以语法分析为主,语义分析为辅的系统。

虽然如此,在本系统中,为消解句法分析和转换时的歧义,语义分析还是起着重要的作用。

本系统采用的语义模型主要包括语义分类和配价分析[5]两个方面。

相关文档
最新文档