汉法机器翻译系统
基于短语统计模型的藏汉在线翻译系统实现

184 •电子技术与软件工程 Electronic Technology & Software Engineering数据库技术• Data Base Technique●基金项目:青海省科技计划项目(2017-SF-132)。
【关键词】短语 统计模型 藏汉 在线翻译1 引言目前,基于语料库的统计机器翻译方法成为了研究的主流,统计机器翻译(Statistical Machine Transla-tion ,简称SMT)系统首要任务是为语言的产生统计模型,并在此统计模型基础上自动从双语语料中获取需要的各种参数,需要的人工干预较少,因此基于统计的机器翻译比其他机器翻译方法有着比较明显的优势。
本文利用 MOSES 、IRSTLM 、GIZA++、Mteval 、XMLRPC 等开源的工具包和一些公共资源搭建基于短语的藏汉在线翻译系统,通过实践和应用进一步探讨和研究藏汉机器翻译系统的工作原理,提高应用水平和翻译效果。
2 开源工具的选取2.1 翻译模型训练工具MosesMoses 是一个基于短语的统计机器翻译系统,它的开发领导者是Philipp Koehn 。
整个Moses 系统都是开放源代码的,可在多个系统平台上运行。
运用处理好的双语对齐语料库进行翻译模型的训练,最终得到从源语言到目标语言的翻译概率表。
本系统就是利用Moses 进行藏汉机器翻译模型的训练。
2.2 语言模型训练工具IRSTLMMoses 目前支持三个语言模型工具包基于短语统计模型的藏汉在线翻译系统实现文/臧景才1 陈建新2 李永虎3SRILM (The SRI language modeling toolkit),IRSTLM (IRST language modeling toolkit )和RandLM(the RandLM language modeling toolkit)。
IRSTLM 是意大利Trento FBK-IRST 实验室开发的语言模型训练工具包,主要目的是处理较大规模的训练数据,在大规模语言模型的训练和使用上IRSTLM 较SRILM 有较大的优势,其内存消耗仅是SRILM 的一半。
基于神经网络的拼音汉字转换

硕士论文基于神经网络的拼音汉字转换AbstractTheconversionofPINYINtoChinesecharactersisanimportantcontentoftheNLP(NaturalLanguageProcessing).ThispaperbasesontheresearchofBraille-Chineseconversion.TheBraillecaneasilYtransformtoPINYIN。
sothetranslationofBrailleandChineseisactuallYPINYIN-Chineseconversion.BasicallvtherearetwoNLPmethods—RuleBasedMethodandStatisticBasedMethod.AndthesystemofthispaperbelongstotheStatisticBasedMethod.Itismoreeasilytoimplement.WefirstdiscussthetheoryofPINYIN—ChineseConversionandthenreviewsomemethodsinuse,EspeciallythemethodbasedonHiddenMarkovModel.WediscussthedisadvantageofthemethodthenintroduceaPINYIN—ChineseconversionmethodbasedonArtificialNeuralNetwork(ANN).Wegivethestructureofthesystem,andwedesignandimplementtwosystems.OneusesBPnetworkandanotherusesRecurrentNeuralNetwork(RNN).AndthenwediscussBP(backpropagation)algorithmandBPTT(backpropagationthroughtime)algorithm,whichisusedtotrainthetwonetworks.Wealsoshowanalgorithmcalledoutput—increasetoperformthetraining.AndwegiveanANN—viterbimixedalgorithmtodotheconversion.Thefunctionofeachmoduleisshowed.Andthenkeystoneofthesystemisdiscussed.AtlastweanalyzetheresultoftheexperimentanddiSCUSSthewayofimprovement.Words:ArtificialNeuralNetwork,PINYINChineseconversion,BPKeynetwork,RecurrentNeuralNetwork硕士论文基于神经刚络的拼音汉字转换第一章引言语言是人们交流信息的工具,发展到信息社会后,人们开始研究怎样用计算机来处理自然语言,这就是自然语言处理。
基于双语对齐句型库的藏汉机器翻译方法研究

基于双语对齐句型库的藏汉机器翻译方法研究通过藏汉双语句子中词语序列异同点的比较,研究藏汉双语句型对齐方法,建立了一个小规模藏汉对齐句型库和对照词典库,在此基础上提出了基于藏汉双语对齐句型库的机器翻译算法。
标签:机器翻译藏语句型对照词典双语对齐句型库一、藏、汉句子中词语序列的对比分析藏汉两种语言在语法(包括词序、虚词的运用、动词的形态变化)上的区别,给藏汉双语对齐句型库的构建带来了一定的难度。
除了在句子的词序和词数上变化上有明显的区别外,在虚词的运用和动词的形态变化上也不同。
例如:5.汉语动词没有形态变化,而藏语动词具有形态变化在藏文文法中,对动词的形态变化、及物性及分类等方面的研究很丰富,是藏语动词的复杂性增强。
据统计,现代藏语动词1453个,其中,756个动词本身有形态变化,而汉语动词没有形态变化,这给藏汉对齐句型库的建设和规范化带来了汉语与藏语动词的比较。
例如:实例例6中的藏语动词以”/”分开的四个形态分别是动词的未来式、现在式、过去式、命令式。
在建立藏汉对齐字形库时,第1种对齐句型因词性、词序都相同,容易建立,但对第2、3、4、5、6种对齐句型的处理就变得相对复杂,将在后续内容中详细描述。
二、对照词典的设计与句型库的建设1.对照词典的设计与实现基于双语对齐句型库的藏汉机器翻译方法研究需要设计实现一个添加了详细词性标记的藏汉对照词典的设计与实现。
本文涉及的机器翻译方法,需要一个对照词典的支持,而这个对照词典不是一般意义上的简单对照词典,而是一个添加了词性标记的对照词典。
表3-1为其基本结构和功能:因页面大小,此处只列举了整个对照词典的一小部分内容,第一行中除”word”以外的其他英文标记表示词性,它们分别表示连词(cd)、及物动词现在式(vt)、动名词(nv)、及物动词过去式(vi)、随立名(nn)、指示代词(rz)、属格助词(gz)、使格助词(gx)、位格助词(gl),对照词典里的词性种类及数目远不止这些,总共有80余个词性。
卡特福德翻译转换理论

二.“翻译转换” (TRANSLATION SHIFT)理论
➢ “转换” 是指原语进入译语过程中离开形
式的对应。。
层次转换 (level shifts) 转换
范畴转换 (category shifts)
1. 层次转换 (level shifts)
➢ 所谓层次转换是指,处于一种语言层次上的原语单位, 具有处于不同语言层次上的译语等值成分。
“民有,民治,民享的政府”
英语介词
汉语动词
2.3 单位转换(unit shifts) 就是指等级转换(rank shift),即指原语中某 级上一个单位的翻译等值成分为译语不同等级 上的单位这样一种形式对应的脱离。
sentence clause phrase/word group rank word morpheme
➢ 可以是在一种语言中用语法表达在另一种语言中则用词 汇表达。
四个语言层次:语法、的层次转换)
Eg:
She is showing us her PPT。
她正在向我们展示她的ppt。
英语语法形式(现在进行时be doing)可以用 汉语词汇“正在”来表达
2. 范畴转换 (category shifts)
[2]Munday, Jeremy. Introducing Translation Studies: Theories and Applications [M]. London &New York: Routledge, 2001: 60-63
[3]林铃.卡特福德翻译转换模式下的翻译研究过程 [A]. 翻译研究, 2009,(5):74
Eg: I saw you yesterday。主 谓 宾 状
我 昨天 看见 你了。 主 状 谓 宾
基于维汉机器翻译的维语命名实体的识别与翻译

基于维汉机器翻译的维语命名实体的识别与翻译发表时间:2018-10-12T09:36:36.063Z 来源:《教学与研究》2018年12期作者:毛兰·买买提[导读] 现阶段,我国国际上所开展的研究工作会关注于维汉机器翻译内容,这种机器翻译的方式带有一定的通用性,其在研究维汉机器翻译内容时毛兰·买买提(新疆自治区党委网信办新疆乌鲁木齐 830000)摘要:现阶段,我国国际上所开展的研究工作会关注于维汉机器翻译内容,这种机器翻译的方式带有一定的通用性,其在研究维汉机器翻译内容时,可以以主流机器翻译方式为基准。
维吾尔语的语言较为复杂,其所形态变化比较丰富,很多词根都可以进一步的演变成为多种新形式。
相比之下,我国汉语的形态变化就比较微弱,所以,目前,国际上所使用的机器翻译主要针对的对象就是英语等形态变化较为简单的语言,不需要对词形的变化进行分析。
可以将各个不同词形的词语当做独立性的词语分析。
本文主要就维汉机器翻译的维语命名实体的识别与翻译进行探究,找出现阶段我国维汉机器翻译现状以及存在的问题,科学合理的设计相应的系统。
关键词:维汉机器翻译;维语命名实体;识别与翻译中图分类号:G652.2 文献标识码:A 文章编号:ISSN0257-2826 (2018)12-172-01引言维汉机器翻译可以有效的识别以及翻译维语命名实体,其是该类机器翻译的重要任务,其应当建立在信息检索、抽取等各类技术的基础层面上。
现阶段,我国的维吾尔语命名实体处于一个初步发展的研究时期,维吾尔语命名实体有着其自身较为独特的特征以及语法含义等,在进行维吾尔语命名实体的识别以及翻译过程中,必须要对其相关的语言特性进行深入的分析,处理好其机构名称的识别问题,对其进行序列性的标准,综合性的使用相应的条件探究上下文信息以及外部的特征内容,提升维吾尔语机构名识别的F值。
1维汉机器翻译现状以及存在的问题1.1语料库资源较少我国新疆地区的地理位置较为偏僻,所以其地区的经济发展速度比较慢,这就在一定程度上阻碍了我国维吾尔语和汉语的双语语料库构建工作开展进程,让其所开展的各类建设活动都明显带有一定的滞后性。
大学实用翻译教程(英汉双向 )第三章 计算机辅助翻译

1.2计算机辅助翻译的发展前景展望
• 根据前面对机器翻译的介绍可以看出,自然语言的复杂性决定了机器翻译 技术发展的困难性。计算机语言学家提出了各种各样的机器翻译理论,但 目前为止还没有哪种理论能够有效的解决所有问题。但是,机器翻译系统 的应用领域正在发生变化。人们正在尝试将机译技术结合到信息访问、信 息提取和自动文摘中。这类跨语言应用在全球范围内越来越引起人们的兴 趣。未来对于口语的翻译也是市场迫切需求的,但尽管基于某些方面的需 求,机器翻译的发展方向更加多元化,但无论从实际应用角度还是从理论 研究角度来看,全自动的话语翻译还是很难实现的。当然,虽然机器翻译 的发展有诸多阻碍,但仍然有更多的发展希望。目前,单语语料库加工技 术以及应用在计算语言学领域内取得的成功,使建立双语或多语语料库并 进行多层次的加工作为大规模的跨语言资源成为研究的焦点之一。另外, 大规模的语料库适合于统计方法的应用,通过统计来自动进行知识获取, 有助于克服自然语言处理中知识获取的瓶颈。把机器学习方法应用到机器 翻译中,可以帮众系统实现在线学习功能,最终建立主动的智能翻译服务 也是机器翻译的发展方向之一。
1.1计算机辅助翻译的发展历程
• “机器翻译”的概念可以追溯到20世纪30年代,40-50年代初经历 了早期的尝试阶段,当时,大多数从事手工翻译人士对于“利用计 算机进行翻译”不以为然,他们根本就不相信翻译会机械化,少数 人则或多或少有一点担心,害怕有一天机器会把他们取而代之。 • 50—60年代中期学界对于“机器翻译”持高度乐观的态度。 Systran翻译软件将“机器翻译”定义为利用计算机软件把文本内 容从一种自然语言转换成另一种自然语言,这个定义就是说“机器 翻译”是利用语言结构、规律和把原文(the source language) 的语言结构转换成译文(the target language)的语言结构。“机器 翻译”这一想法产生的时间正是结构主义语言学的观点盛行时期。 由于人类对语言结构规律的研究越发深入,语言学家为翻译找到了 更多的理论依据作为支撑,从而给翻译加上了科学主义的色彩。奈 达、巴尔胡达罗夫以及彼得· 纽马克等人的翻译观都是从结构主义 理论开始的。(张治中,俞可怀,2002:54-58)结构主义者认 为在各种复杂的表面现象的下都有着一种普遍性的规律,这些规律 就是结构,人们通过分割归并作品的各种结构就可弄清语言信息变 成文艺作品的奥秘。(吕俊, 2001:96-111)
智能型汉英即时同步共显式机器互译方法
智能型汉英即时同步共显式机器互译方法智能型汉英即时同步共显式机器互译方法(简称智能没英互译方法)是一种最先进的汉英互译方法,它运用“主体模板逻辑模拟方法”并设计了一系列逻辑分析码,逻辑指令和一整套语言识别码,来达到汉英智能化互译的目的,这种方法,即可自动选择最优化的译文,还能对病句作自动纠错,工可及时汉英互译文字及时同步显示在计算机屏幕上,同时,由于它还具有自记忆功能,所以它不但具有使用时间越长,其功能就愈强大的特点,而且还能充分满足使用者的个性化语言习惯的要求,由得它具有上述种种超强功能。
因此可实现用汉语对英文软件进行操作,用汉语入网漫游,并能实现及时同声翻译,(包括自动电话翻译),和中英文文件及时互译,它完全实现了中国人不用学英语而能自由驰骋英语天地的愿望。
XMMT英汉机器翻译系统
XMMT英汉机器翻译系统
李堂秋;高庆狮
【期刊名称】《中文信息学报》
【年(卷),期】1992(006)003
【摘要】本文通过XMMT英汉机器翻译系统的设计思想和结构,阐述如何综合应
用人工智能技术,研制翻译质量高,通用性好,能扩展成多种语言翻译系统的一种方法。
系统设计的侧重点在于如何提高系统的翻译质量。
文中给出了主要模块的算法原理,在附录部分还给出了这个系统的一些翻译例子。
【总页数】7页(P21-27)
【作者】李堂秋;高庆狮
【作者单位】不详;不详
【正文语种】中文
【中图分类】TP391.2
【相关文献】
1.英汉机器翻译系统的框架设计和实现 [J], 刘荣
2.基于混合策略的英汉机器翻译系统设计与实现 [J], 郭永辉;吴保民;王炳锡
3.浅析英汉机器翻译系统的问题和对策 [J], 郁青青
4.英汉机器翻译系统中的词性标注研究 [J], 王永生
5.基于B/S框架的交互式英汉机器翻译系统设计 [J], 张启振;孙先洪
因版权原因,仅展示原文概要,查看原文内容请购买。
机器翻译与语言研究(下)
机 器 翻 译在 中 国
我 国 是继 美 国 、 苏联 、 国 之后 , 界 上 第 前 英 世 四个开 展机 器 翻译 研究 工作 的国家 。当今在 机 器 翻译方 面居 于先 进 水 平 的 日本 ,是 在 15 98年 才 广州华南工学 院 、 哈尔滨工业大学也分别
成立 了机 器 翻译 研 究 组 , 展 俄汉 或 英 汉 机 器 翻 开 译 的试验 。 16 至 17 9 6年 95年是 停 滞期 , 在这 个 时期 , 除 了极 少 数 的 机 器 翻 译 研 究 者 在 极 端 恶 劣 的 条 件
了一定 的成 果 。 这 个 成 果 于 18 9 2年 在 布 拉 格 召 开 的 C L O- I G一 2和 1 8 N 8 9 3年 在 香 港 召 开 的 东 南 亚 电脑 会
开始进行机器翻译的 , 起步 比我国为晚 。与国外
机器 翻译 的发展 情 况 相 比较 , 国机 器 翻译 除 了 我 有 草 创期 、 苏期 和繁 荣 期 之 外 , 复 由于 文 化 革 命 的影 响 ,还 有一 个 非 常 特别 的时 期— —停 滞期 。
和 自然语言的数学理论” 15 年 , 。 97 中国科学院语 言研究所刘涌泉等与计算技术研究所合作 , 开展
俄 汉 机 器 翻 译 的研 究 。 15 9 9年 ,在 我 国制 造 的
14大型 通用 电子计 算 机 上 ,进行 了俄 汉机 器 翻 0
译试验 , 翻译 了 9个不 同类型 的 、 较为复 杂的句
子 。在这个 草创 时期 , 京外 国语 学 院 、 京 俄语 北 北
议 上 发 表 , 到好 评 。 C LN 受 O I G是 计 算 语 言学 界
银汉互译_精品文档
银汉互译一、概述随着全球化的发展,各国之间的交流与联系日益紧密。
为了促进不同语言和文化之间的交流与理解,人们开始使用机器翻译技术,其中银汉互译技术就是一种重要的应用。
银汉互译是一种基于机器翻译技术的跨语言翻译系统。
它利用人工智能技术和自然语言处理技术,将源语言的文本自动转化为目标语言的文本,实现了不同语言之间的快速翻译。
二、银汉互译的原理银汉互译的原理可以分为以下几个步骤:1. 文本预处理:首先,将输入的源语言文本进行预处理,包括分词、词性标注等操作。
这样可以为后续的翻译工作做好准备。
2. 语言模型训练:使用源语言的大量文本数据训练语言模型。
通过学习源语言的语法规则和词语搭配,提高翻译的准确性和流畅度。
3. 翻译候选生成:基于源语言和目标语言之间的对应关系,根据语言模型生成多个翻译候选。
这些候选包括了不同的翻译结果,系统将根据后续的评估指标选择最佳的翻译结果。
4. 翻译候选评估:对生成的翻译候选进行评估,以找到最佳的翻译结果。
评估指标通常包括语法准确性、上下文连贯性、主题一致性等。
5. 翻译结果选择:根据翻译候选的评估结果,选择最佳的翻译结果作为最终的输出。
三、银汉互译的优势银汉互译作为一种先进的机器翻译系统,具有以下几个优势:1. 高效性:银汉互译能够实现源语言到目标语言的快速翻译,提高了翻译的效率和准确性。
它可以在短时间内完成大量的翻译任务,帮助人们更好地沟通和交流。
2. 灵活性:银汉互译支持多种语言的翻译,包括常见的英语、法语、德语等。
它可以根据用户的需求自动选择合适的语言进行翻译。
3. 可扩展性:银汉互译的模型和算法可以进行不断的优化和升级。
随着技术的进步和数据的积累,系统的翻译质量不断提高。
四、应用领域银汉互译广泛应用于各个领域,包括但不限于:1. 文字翻译:银汉互译可以将不同语言的文本相互翻译,帮助人们阅读、理解和传播不同国家和地区的信息。
2. 旅游交流:在国际旅游中,银汉互译可以将游客的需求和问题翻译为目标语言,以更好地帮助他们适应和融入当地的文化环境。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
汉法机器翻译系统初探 祁依虹董清富茅于杭 (清华大学自动化系,北京100084) E—mail:qiyihong99@mails.tsinghua.edu.cn
摘要 文章讨论了汉法机器翻译系统(CFMT)中的汉语分析和法语生成问题。以规范的汉语书面语的翻译为目标,研 究可扩展的实用化的汉法机器翻译系统,系统中采用后部优先最大匹配算法及词义纠错的方法实施对源语文本的词切 分,编程中将程序和规则相分离以提高系统的易维护和可扩充性。初步实现的系统曾对部分常用句型的例句进行了测 试,表明该系统的设计是合理可行的。
关键词 机器翻译 词典 汉语分析 法语生戍 法语语法 规则 文章编号1oo2—8331-(2O02)18一O114一O3 文献标识码A 中图分类号TP39l
Chinese-French Machine Translation System Qi ̄ihong Dong Qingfu Mao ̄uhang (Departement of Automation,Tsinghua University,Beijing 1 00084) Abstract-This paper introduces a Chinese—French machine translation system(CFMT)including Chinese analysis and French generation.Aiming at translating formal written Chinese,a primarily extensible and practical Chinese—French ma— chine translation system has been established.This system adopts Post-Priority Maximum Match(PPMM) method to segment Chinese text.The rule library is independent from the program,this makes the system to have good performance in maintaining and extensibility.The system has been tested by some simple sentences of common sentence patterns and shown it S reasonable. Keywords:machine translation,dictionary,Chinese analysis,French generation,French grammar,rules
1 前言 随着中国改革开放的深入,中国与西欧各国间在经济、技 术、文化等领域的交流日益增多,特别是象法国、德国这样的经 济大国和中国的关系也越来越密切,有愈来愈多的西方人士希 望了解中国的经济、历史和文化,他们要直接阅读中文资料往 往是很困难的,所以研究汉语对法语、德语等西方语言的翻译 系统显得更为迫切。 文章的工作是在原有的汉英机器翻译系统…的基础上,开 展了汉语对法语机器翻译的研究。目标是实现一个通用型的汉 语至法语的自动翻译软件系统。该系统包含为实现汉语分析和 法语生成所需要的若干功能模块和词典库、语法规则库、数据 库接口等支撑模块,为了使系统便于维护和修改,采取了将算 法与规则分离的原则,即算法以程序实现,而规则用数据库形 式来表示。
一般说来,实现一个汉语对外语的翻译系统是十分复杂的 任务,而实现一项汉语到法语的机器翻译则尤其艰巨异常,其 数据的准备和程序的开发,工作量都十分巨大。作者准备在有 限的人力和物力资源条件下进行较长时间的工作,由小到大, 逐步建立起一个实用化的汉法机器翻译系统,论文是此项研究 工作的初步成果。 该软件系统的开发环境为中文Windows98或Win— dows2000下的Visual C++及Foxpro数据库。 系统算法的特点:(1)根据汉语的特点,采用后部优先的最
大匹配算法与句法语义的规则分析相结合的方法对汉语进行 自动分词,采用自顶向下的分段分析和自底向上的合一运算相 结合的分析方法;(2)法语的生成分为两个层次,采用边分析边 生成和统一扫描生成相结合的策略。在短语抱团和句型匹配的 过程中,获得足够的信息后,就可对译文进行预生成。在句型 配后输出译文之前还做一遍统一生成扫描,确定一些在局部结 点难以获得而必须观察整个句子的l卜下文才能获得的信息,对 预生成的结果做后校正,以提高译文质量。
2汉语分析 2.1 汉法机器翻译中汉语分析的特点 该系统是在原有的汉英机器翻译系统上开发的,原系统的 目标语是英语,汉语分析是以满足英语生成为目标的。法语相 对于英语而言,句法结构更复杂,语法形式更多样,为满足目标 语为法语的生成的需要,不仅要处理好由于汉语本身的特点而 导致的句法、语法和语义分析上的问题,还应根据法语合成的 特点提取更多一些句法和语义信息。为此有必要先从汉语和法 语两种语言的语言学特点作一些比较。 2.1.1 汉语不同于法语的语法特点… 汉语与法语相比,词语没有明显的结构特征,词与词之间 没有明显的分隔标记,汉语的词语没有形态变化。如:同一个词 “它”,根据它所指主词的不同性数和格(主宾位置),可能翻译 成的法语有“il”,“elle”,“lui”,“le”或是“la” 。汉语中大量用到
作者简介:祁依虹,女,研究生,研究方向模式识别与智能系统。董清富,男,研究生,研究方向模式识别与智能系统。茅于杭,男,教授,研究方向语 言文字信息处理。 1l4 2oo2.18计算机工程与应用
维普资讯 http://www.cqvip.com 量词,儿 所有数词后均跟量词,而法语中却很少用量词。lN 此,汉语分析不仅要对汉语句子进行准确切分,然后对词义、测 类进 排歧,还要提取各词的性、数、格参数。这两步也 卡H影 响,也当有机地结合位一起。 其次.汉i黯讲法结构有其简单性,汉讲词组的构造原则与 ,口j子的构造原则甚本一致I I。而且,汉语的讧J类或词组类 卜j其 昕承担的句法功能之间小存征严格的对应关系,所以 一一汉语 词可能对血法 多个 形怠词. 汉语词的兼类、句法的结构 性歧义也大 存在 在对汉语作分析时要根据每个讧J的前后词 关系和对整 分析尽可能地排除歧义,以便顺利地生成口标语 法语句子 实际上,虽然汉语从 个词孤立地石往往不易看出其i亩=l 性,但足存汉语,口J巾卡H邻词之间的组合通常都存在语义搭配 (制约)关系 此,适当地利用前后词的语义信息就可以进行 很好的词义、词类排歧 . 汉语测虽然没有形态的变化,但是汉语,口J子中行许多起持 殊作用的特殊词,它们,丰往可以决定句子的时态、语态等语法 特征:如住动词后有“r”字,翻译成英语一般表示现住完成时 时态,而翻译成法语一般表示复合过去时(H前系统中使用的 是最近过玄时) 名词后如有“被”字,一般表示被动语态,翻译 成法语则为在完成动作的名词或代词前加“par”等等。通过分 析这类特蛛洲,町以为法语生成提供相关的语法信息。 2.1.2法语的特点 与汉} 小州,法语的代词、名词或形容词有阴阳性的区别。 每一个代词、 训或形容测都具有一定的性别,或阳性.或阴 性,或兼 之 如“他 是阳性,“她elle”是阴性.“1毛机 a ̄roplane”是阳性,“轿午voiture”是阴件,而“教授professeur”则 既口I以是阳性,也可以足【5月性,而且同一个中文词语,翻译成法 浯后如果录_L}j不同的译文,其阴阳性还不一样。如“自千亍车 、’61o”是阳性,而“自行乍bicyclette”却是阴性。 此,在获得代 词、名词和形容词的语法、语义信息的l亓=l时,还要取得其阴阳件 持征,以便让谓语、宾语或定语作相应的配合。 法 的谓语除厂有类似英语的时态、语态、单复数变化之 外,还有人称和性数的变化。同样一个动词“是(etre)”.在作 我”, 你”,“他”,“她”,“我们”,“你们”,“他们”,“她们”的谓语 时,其变化是不同的,如表1所示。 表1 法语谓语随人称的变化关系 汉 语 法语 汉语 法语 我是 je su|S 我们是 你足 tU f s 你 J(您)是 VOUS etes 他/她是 il/elle esl 他ffl/她们足 iIs/elles sont 这就要求在进行谓语变位时。不仅要进行时态、语态的变 化,还要进行人称和性数的配合。 最后,为1r使句子更加简洁,法语还有许多特殊代词。如直 接宾语人称代训(me,te,le,la,nous,VOUS,les)、间接宾语人称代 词(me.te,lui.nous,vous,leur)、重读人称代词(moi,toi,lui。elle, IIOUS,VOUS.eux,elles)和副代词(Y,en)。这些代词虽然极大地简 化了法语,口J子,增加了表达的灵活性,但却给汉法机器翻译带 来了}乍多用难,如代测前移。 2_2汉法机器翻译中汉语分析的实现 汉法机器翻译中的汉语分析除了要根据汉语的特点、努力 获取汉语句子的句法和语义信息之外,还应根据法语合成的特 点获取相应的人称、性数、时态、语态等信息,为下一步的法语 合成奠定基础。 2-2.1 原有汉英系统的特点 首先是采朋了一整套比较合 的,口j法语义信息标注体 系Ill,使得高效率、大规模的词切分校正、词义和词类排歧成为 可能。每一个词条的信息 件包括控制符(x)、持,怔字(G)和阴 阳性(S)两部分。控制符(X)用来控制词处 的流程。大多数词 条是用该词的词性或语法信息作控制符。持征字(G)提供了词 的句法和语义信息,包括系统进行分析和 成的主要的原始信 息。阴阳性(S)提供了名i百=l和代词的阴阳性。 其次是采用规则和程序完伞分离的原则,避免1r规!J!IJ与程 序紧密耦合时,规则的改变引起程序的频繁修改这一令人头痛 的问题。同时,在掌握规则的编写原则后,用户自己就可以编写 和优化规则.不断提高系统翻译的准确性和适用范 ,具有良 好的开放性。 最后是系统建立了一套较宄备的规则解释机制,统一了所 有规则(tU分校正规则、排歧规则、抱团规则、,口j型 配规则等) 的格式。这样小仪大大提高了系统的分析效率,而且降低r规 川的编写难度,使得普通用户即可根据需要自己编写和优化规 则,不断提高系统的效率和适用性。 2 2.2汉法机器翻译系统的汉语分析方法 酋‘先,获取与法语合成相关的汉语词法、句法和语义信息, 包括代词和名词的人称、阳性和I社复数,句子的时态、语态,等 等。前者是句子的静态信息,通过词典的属性标注和简单判断 即可获得。而后告(动态信息)就不同r。法语的时态类型比较 多,分炎很细,而汉语的谓语本身又没有明显的时态、语态特 征。因此在汉语分析时就要根据上下文和时间副测作出削别。 如: 我足学生。( 陈式现存时) 你将去太原。(简单将来时) 他说过她们将去太原。(主句复合过去时,从句过去将来 时) 我们以前住在北京。(未完成过去时) 你们做完了作、』 。(复合过去时) 他们昨天就做完了作、 。(愈过去时) 其次,是改进系统流程,增加和优化规则。通过不断测试真 实样本,不断改进流程,增加和优化规则,努力去解决常见的汉 语分析的难点,逐步提高系统的适用性。 表2最大抱团成分的句法信息含义表 第几位 作用 取值范围及其意义 缺省值 1 人称 1(我),2(你),3(他),4(我们),5(你们),6(他们) 3 2 单复数 S(单数).P(复数) 3 阴阳性 m(阳性).f(阴性) 4 语态 a(土动).p(被动) 5 时态 1(直陈式现在时),2(简单将来时), 3(过去将来时),4(未完成过去时), 1 5(复合过去时),6(愈过去时) 6 肯否 k(肯定).f(否定) k 7 级别 g(普通),c(比较级),s(最高级) g 需要}兑明的是,为了程序处理上的方便,作者对所有的抱 团后词条采用统一的句法信息格式。但不同词性的抱团成分所 关注的句法信息是不一样的。名词、代词关注的是人称、单复数 和阴阳性。动词关注的是语态、时态和肯否定。形容词、副词关 注的是级别(普通、比较级,还是最高级)。不关注的句法信息位 就直接用缺省值表示,要关注的位则根据实际情况进行调整。