基于短语的阿拉伯语到中文的机器翻译系统

合集下载

深度解析最火在线翻译软件Deep L

深度解析最火在线翻译软件Deep L

DeepL是一款得到了很多用户好评的在线翻译工具。

相比较市场上其它的同类型的翻译软件, DeepL被认为是目前最好用的在线翻译软件,因为它提供的结果比谷歌翻译更加的准确。

但是DeepL的最终翻译结果还是直译,在没有任何编辑的情况下无法完全还原源语言内容。

对于DeepL是否能真正取代人工翻译,答案是否定。

一些企业会试图使用DeepL进行一些翻译,结果并不是总能让人满意。

对于人工智能在翻译工具上的使用,大家讨论的除了翻译结果的差异性,还会产生道义上的一些争议。

以DeepL为例,我们来深度探讨一下人工智能翻译为什么不能完全的取代人工翻译。

更先进的AI技术应用,成功的尝试DeepL算法利用人工智能来模拟人类在翻译文档时的一些技巧。

根据各种测试,DeepL 翻译提供了比谷歌翻译更自然的结果,因为采取了更高级的驱动技术从而捕捉到传统机器翻译忽视的不同语言之间的细微差别,但是这种模拟人类的思考方式具有一定的局限性,更新速度赶不上人类语言习惯的变化。

无门槛免费基础版本和谷歌翻译一样,DeepL提供免费版本,任何人都可以使用基础的功能。

对于企业用户而言,想要获得更加全面的功能,可以付费订阅更多的选项。

现在市面上的翻译软件大多数都会提供免费版或者限时使用期限,让用户体验随之订阅收费版本。

不断进化的词库除了使用AI技术模拟人类学习,DeepL会利用用户反馈和评分来帮助提高翻译质量。

换言之,所有的DeepL用户在使用软件的过程中都给该公司提供了扩大词库的帮助。

AI机器翻译软件的局限虽然DeepL的付费版本保证不会存储您的任何文本,但是敏感的公司数据还是会通过他们的服务器进行处理,甚至公司内部机密的行业文件都会在其服务器留下痕迹。

如果你使用的是DeepL的免费版本,他们会将您的文本存储一段时间,供其改进和更新算法。

因此,隐私信息安全将会是需要值得深思得问题。

大多数得机器翻译软件都无法做到涵盖多个语言,DeepL的一个限制因素是可选择的翻译语言种类不多。

十个最流行的在线英汉翻译网站准确性评测对比

十个最流行的在线英汉翻译网站准确性评测对比

Facebook、Digg、Twitter、美味书签()……很多名声大噪且已逐渐步入主流的网络服务都是从国外开始引爆的,而即便是抛却技术上的前瞻性,仅从资源上来看“外域”的也更丰富.当网友们浏览国外网站时,即使有些英文基础,也大都或多或少要使用到翻译工具.在线翻译显然是最便捷的方式,目前提供此类服务的网站有不少,但机器智能翻译尤其考验真功夫,翻译质量的优劣直接影响着用户的阅读效果.在这里我们将全面网罗十个颇有些关注度的在线翻译服务,试炼其翻译质量、速度等各方面的表现.参评在线翻译1、Google翻译网址:/language_tools?hl=zh-CN2、Windows Live在线翻译网址:/Default.aspx3、雅虎翻译网址:/4、爱词霸网址:/trans.php5、百度词典网址:/6、海词在线翻译网址:/7、金桥翻译网址:/8、谷词在线词典网址:/9、木头鱼在线翻译网址:/translation/10、nciku在线词典网址:/一、翻译质量比拼单词翻译测试项1:日常用语翻译单词:boil参考释义:煮沸测试结果:1、Google翻译:沸腾、煮沸等2、Windows Live在线翻译:煮沸3、雅虎翻译:沸腾、开、滚等4、爱词霸:达到沸点、沸腾、煮沸等5、百度词典:沸腾、煮沸、烹煮等6、海词在线翻译:沸腾、煮沸7、金桥翻译:沸腾、煮沸等8、谷词在线词典:沸腾、煮沸等9、木头鱼在线翻译:煮沸10、nciku在线词典:煮沸、沸腾蒸发、达到沸点、(波浪)象沸水般翻腾等测试项2:专业术语翻译单词:Universiade参考释义:世界大学生运动会测试结果:1、Google翻译:世界大学生运动会2、Windows Live在线翻译:未能翻译为中文3、雅虎翻译:世界大学生运动会4、爱词霸:世界大学生运动会5、百度词典:世界大学生运动会6、海词在线翻译:世界大学生运动会7、金桥翻译:世界大学生运动会8、谷词在线词典:世界大学生运动会9、木头鱼在线翻译:词典查询链接无效;文本翻译未能翻译为中文10、nciku在线词典:世界大学生运动会单项评测总结:在单词翻译方面词典类在线工具具有先天优势,即便是有些生僻的词也不在话下,而且释义周详,不同词性的释义都一一列举。

YiCAT使用手册(个人版)

YiCAT使用手册(个人版)

YiCAT使用手册(个人版)上海一者信息科技有限公司目录1YiCAT在线辅助翻译平台 (4)1.1简介 (4)1.2主要特点 (4)2模式选择 (5)3页面描述 (6)4快速翻译单个文档 (6)5翻译项目管理 (7)5.1创建翻译项目 (7)5.2高级设置 (8)5.2.1TM翻译记忆库 (8)5.2.2TB术语库 (9)5.2.3MT机器翻译 (9)5.2.4QA质量保证 (10)5.3项目列表 (11)5.3.1文件 (11)5.3.2统计 (12)5.3.3设置 (13)5.4编辑器页面 (13)5.4.1文档信息栏 (14)5.4.2个性设置区 (14)5.4.3主功能区 (16)5.4.4一致性搜索区 (18)5.4.5提交栏 (19)5.4.6句段序列号 (19)5.4.7原文展示区 (20)5.4.8译文编辑区 (20)5.4.9右键常用功能 (21)5.4.10状态展示区 (21)5.4.11记忆库 (22)5.4.12术语库和QA结果展示区 (23)6记忆库管理 (24)6.1记忆库创建 (24)6.2记忆库列表 (25)6.3记忆库导入 (26)6.4记忆库编辑 (27)6.5记忆库删除 (27)6.6记忆库启用 (27)7术语库管理 (28)7.1术语库创建 (28)7.2术语库列表 (29)7.3术语库导入 (30)7.4术语库编辑 (30)7.5术语库删除 (30)7.6术语库启用 (31)1YiCAT在线辅助翻译平台1.1简介YiCAT在线辅助翻译平台是由上海一者信息科技有限公司自主研发的基于语料大数据的在线辅助翻译平台。

该平台操作简单、运行流畅,具有多语种多格式支持、依托海量优质记忆库与术语库、实时掌控翻译项目进度、高效团队管理及多人协同翻译、文档拆分与任务分配、译审同步、MT+PE等特点。

(网址:https:///yicat)图1-1 YiCAT1.2主要特点(1)支持多格式。

外文翻译器

外文翻译器

外文翻译器外文翻译器外文翻译器(Machine Translation)是指使用计算机等技术对外文进行自动翻译的工具。

它利用计算机语言处理、人工智能和语言学等多个领域的知识和技术,将源语言(外文)自动转化为目标语言(母语)的过程。

外文翻译器可以帮助人们快速准确地将外文内容转化为自己熟悉的语言,提高工作效率和信息获取能力。

外文翻译器的研究和发展始于上世纪40年代,最早采用的是基于规则的翻译方法,即根据语法规则和词汇库对源语言进行分析和转换。

然而,这种方法存在很多限制,因为语法和词汇库可能无法覆盖所有的语言特点和用法,导致翻译结果不准确和不流畅。

随着计算机技术和人工智能的发展,神经网络机器翻译(Neural Network Translation)成为外文翻译器的主流方法。

这种方法利用大规模平行语料库训练神经网络模型,通过模仿人类学习语言的方式自动学习源语言和目标语言之间的映射关系。

神经网络机器翻译能够更好地处理语法结构和上下文信息,翻译结果更加准确和自然。

除了神经网络机器翻译,外文翻译器还可以采用统计机器翻译(Statistical Machine Translation)等其他方法。

统计机器翻译利用大量的双语语料进行统计分析,找到最佳的翻译候选,然后根据概率模型对其进行排序和选择。

虽然统计机器翻译在一定程度上改善了翻译质量,但由于依赖于大量的语料库,对于某些语言和领域的翻译效果仍然不理想。

当前外文翻译器的发展已经进入了深度学习时代,融合了自然语言处理、深度学习和人工智能的多种技术手段。

深度学习通过建立多层神经网络模型,能够从大规模语料中自动学习和提取特征,进一步提升了翻译质量和效率。

此外,人工智能的发展还带来了一系列辅助工具,如术语提取、句子结构分析和语音识别等,能够进一步提高翻译的准确性和流畅度。

虽然外文翻译器在很大程度上改善了翻译效率和准确性,但由于语言本身的复杂性和多义性,完全依靠机器翻译仍然存在一些局限性。

YiCAT使用手册(个人版)

YiCAT使用手册(个人版)

YiCAT使用手册(个人版)上海一者信息科技有限公司目录1YiCAT在线辅助翻译平台 (4)1.1简介 (4)1.2主要特点 (4)2模式选择 (5)3页面描述 (6)4快速翻译单个文档 (6)5翻译项目管理 (7)5.1创建翻译项目 (7)5.2高级设置 (8)5.2.1TM翻译记忆库 (8)5.2.2TB术语库 (9)5.2.3MT机器翻译 (9)5.2.4QA质量保证 (10)5.3项目列表 (11)5.3.1文件 (11)5.3.2统计 (12)5.3.3设置 (13)5.4编辑器页面 (13)5.4.1文档信息栏 (14)5.4.2个性设置区 (14)5.4.3主功能区 (16)5.4.4一致性搜索区 (18)5.4.5提交栏 (19)5.4.6句段序列号 (19)5.4.7原文展示区 (20)5.4.8译文编辑区 (20)5.4.9右键常用功能 (21)5.4.10状态展示区 (21)5.4.11记忆库 (22)5.4.12术语库和QA结果展示区 (23)6记忆库管理 (24)6.1记忆库创建 (24)6.2记忆库列表 (25)6.3记忆库导入 (26)6.4记忆库编辑 (27)6.5记忆库删除 (27)6.6记忆库启用 (27)7术语库管理 (28)7.1术语库创建 (28)7.2术语库列表 (29)7.3术语库导入 (30)7.4术语库编辑 (30)7.5术语库删除 (30)7.6术语库启用 (31)1YiCAT在线辅助翻译平台1.1简介YiCAT在线辅助翻译平台是由上海一者信息科技有限公司自主研发的基于语料大数据的在线辅助翻译平台。

该平台操作简单、运行流畅,具有多语种多格式支持、依托海量优质记忆库与术语库、实时掌控翻译项目进度、高效团队管理及多人协同翻译、文档拆分与任务分配、译审同步、MT+PE等特点。

(网址:https:///yicat)图1-1 YiCAT1.2主要特点(1)支持多格式。

翻译器简介介绍

翻译器简介介绍
优缺点
GPT-3的优点在于其强大的自然语言生成能力和高度的灵活性,但需要大量的训练数据和 计算资源,且有时会出现语义不准确的问题。
06
总结与展望
翻译器的重要性和影响
翻译器在全球化时代的重 要性
翻译器是促进国际交流与合作的关键工具, 帮助打破语言障碍,促进文化交流和理解。
对个人和社会的影响
翻译器让个人能够更方便地获取和传播信息 ,促进个人职业发展和学术研究,同时也有
THANKS
感谢观看
语料库更新
持续更新语料库,以适应语言的 变化和新的表达方式。
用户反馈
收集用户反馈,针对用户提出的 问题和不足进行改进。
翻译器的未来发展趋势
人工智能技术
利用深度学习、神经机器翻译等人工 智能技术,提高翻译器的翻译质量和 效率。
多语言支持
拓展翻译器的语言覆盖范围,支持更 多语言的翻译。
实时翻译
实现实时语音翻译和同声传译,满足 不同场景的需求。
概率模型
建立源语言句子和目标语 言句子之间的概率关系模 型。
翻译结果
通过模型计算,生成目标 语言句子的翻译结果。
基于神经网络的机器翻译
深度学习
利用神经网络进行深度学习,模拟人类翻译 的过程。
解码器
根据编码器的输出,生成目标语言句子的翻 译结果。
编码器
将源语言句子转换成向量表示,并传递给解 码器。
注意力机制
翻译器通常由机器翻译和人工翻译两种方式组成。机器翻译 使用自然语言处理技术和人工智能算法来自动翻译文本或语 音,而人工翻译则由专业翻译人员手动翻译文本或语音。
翻译器的历史和发展
翻译器的历史可以追溯到20世纪50年代,当时科学家们开 始研究机器翻译技术。随着计算机技术和人工智能技术的 不断发展,翻译器的性能和准确性逐渐提高。

灵格斯创新功能介绍

灵格斯创新功能介绍

灵格斯怎么样?创新功能介绍功能一灵格斯超过80 种语言互查互译灵格斯提供了全球超过80多个国家语言的词典翻译功能,支持任意语种之间的互查互译。

这些语言包括英语、法语、德语、俄语、西班牙语、葡萄牙语、中文、日语、韩语、阿拉伯语、意大利语、荷兰语、瑞典语、越南语、世界语以及更多...功能二灵格斯创新的划词翻译技术, 改变您沟通世界的方式灵格斯通过创新的划词技术,将屏幕取词、词典查询和智能翻译完全融为一体,你只要在屏幕上轻轻一划,就能自动将多达23种语言的文字即时翻译成中文,一切就是这么简单。

对灵格斯来说,这仅是一项技术的革新,但对全球用户而言,它将从此改变人们沟通世界的方式!功能三灵格斯支持真人语音的单词及文本朗读灵格斯基于最新的真人发音引擎及TTS合成发音引擎,灵格斯提供了单词和文本朗读功能,让您聆听真人朗读,掌握正确的单词发音,便于学习和记忆。

功能四网络释义灵格斯网罗普通词典里无法收录的各类新词汇“网络释义”是指搜索引擎通过抓取数十亿海量网页,灵格斯通过网页萃取技术从中找到互为翻译关系的文字,再根据它们在不同网页中出现的频次多寡来判定哪些是最佳、最精准的翻译结果。

通过网络释义, 可以查询单词和短语在网络上的最新参考和解释。

功能五灵格斯开放式的词库管理开放式的词库管理方式,让您可以根据自已的需要下载安装词库,并自由设定它们的使用和排列方式。

功能六灵格斯海量词典和百科全书灵格斯计划提供数千部各语种和学科的词典及百科全书供用户免费下载使用,这些内容包罗万象,从专业词典、例句搜索、网络释义到维基百科,应有尽有,并且每天都在不断增加中,你可以从灵格斯词典库中搜索你需要的内容。

现在,学英语,查词汇,真是越来越方便了,不用纸质的了,在线的词典都一大堆,功能也很多。

但是,他们有一个共同的现在无法达到的就是,把句子翻译的很地道,因为我们在输入中文的时候,语法就不是很对,翻译出来就更怪了。

所以,学句子还是要和老师学的,而且,最好是abc360的外教学,这样一对一的在线学,句子说出来更地道。

英汉机器翻译技术研究

英汉机器翻译技术研究

英汉机器翻译技术研究第一章:绪论随着全球化的加速和语言交流的日益增多,在语言翻译领域,机器翻译技术越来越受到关注。

现代机器翻译技术早已不再是最初的基于规则的机器翻译方法,而是逐渐向基于语料库和机器学习的方法发展。

英汉机器翻译是机器翻译领域中的一个重要分支,对于促进中英两国的交流、合作、发展具有重要意义。

因此,英汉机器翻译技术的研究和应用,一直受到学者们的广泛关注。

本文首先介绍了机器翻译技术的历史发展和现状,随后重点介绍了英汉机器翻译技术的研究现状和主要挑战,最后对未来的研究方向和发展趋势进行了展望。

第二章:机器翻译技术的历史发展和现状机器翻译技术最早的历史可以追溯到二战期间,当时美国在研究如何翻译日本和德国的情报文件,因此开发了当时的首个机器翻译系统。

然而,由于当时的机器翻译技术主要是基于规则的方法,需要人工编写大量的规则,难以覆盖所有语言现象。

加之当时计算机性能有限,机器翻译技术因此并未得到广泛的应用。

随着语料库和计算机性能的提高,机器翻译技术逐渐向基于语料库和机器学习的方法发展。

其中,基于统计机器学习的方法在机器翻译技术中占据了主导地位。

在这种方法下,计算机通过大量的双语平行语料库来学习两种语言之间的互译规则,然后根据此规则生成翻译结果。

这种方法的好处是能够覆盖更多的语言现象,从而提高翻译的准确性和流畅度。

同时,随着深度学习技术的兴起,神经机器翻译也逐渐得到广泛的应用,机器翻译技术因此有了更大的突破。

目前,机器翻译技术已经广泛应用于网页翻译、机器翻译软件和智能语音识别等领域。

例如,谷歌翻译、有道翻译等机器翻译软件已经成为人们日常翻译工作中不可或缺的工具。

第三章:英汉机器翻译技术的研究现状英汉机器翻译是机器翻译领域中的一个重要分支,在学术界和工业界中都具有广泛的应用。

许多研究者对英汉机器翻译技术进行了广泛、深入的研究,提出了很多有效的方法和技术,取得了一系列的成果。

在基于统计机器学习的方法中,英汉机器翻译领域主要使用的是基于短语的方法。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2畅2 词语对齐
本模块的主要目标就是实现训练语料库中的句子自动词 语对齐。
其基本思想是利用 GIZA ++进行汉语到阿拉伯语、阿拉
伯语到汉语两个方向的训练,再对两个方向的对齐结果按照 Och 等人[14] 提出的 Heuristic 的思路进行优化。 GIZA ++实现 了 IBM 统计翻译模型,但得到的对齐结果忽略了多对多及多 对一的情况。 为了解决 GIZA ++词语对齐的问题,通常利用 双向对齐的结果进行优化。 优化的方法采用了以两个方向对 齐结果的交集为中心点,检查其上下左右( grow) 及对角( diag) 相邻的八个点,若在并集中,则作为扩展的对齐点加入对齐序 列中。 具体实现伪代码如下:
自然语言处理在国内已经得到了充分的发展,尤其是在中 文处理方面已经达到了相对较高的水平;同时在机器翻译方 面,也取得了长足的进步,但主要研究还是在中文与英文的互 翻译上,对于一些相对较小的语种来说,国内的研究还比较少, 如在阿拉伯语与中文的翻译方面,还处于起步阶段。 本文采用 国际上流行的基于短语(base phrase)的统计机器翻译思想,借 鉴了国际上阿拉伯语到英语[1] 、英语到中文[2,3] 的机器翻译处 理方法,利用国内外现有的开源工具,建立了一个简易的阿拉 伯语到中文的翻译系统。
方法( discriminative training) [8] ,其训练的优化准则为
λ^1M

=arg max{ ∑ log
λ1M
s =1
pλ1m ( es
|fs ) }
(4)
这个判定准则是凸的,并存在全局最优。
收稿日期: 2008唱10唱08; 修回日期: 2008唱11唱27 基金项目: 新疆自治区科技攻关( 含重大专项) 和重点资助项目(200732143唱1) 作者简介:李凯(1982唱) ,男, 硕士研究生,主要研究方向为自然语言处理、电子政务( zhonghuataishan@gmail.com) ;郑洁(1985唱) ,女,硕士研究 生,主要研究方向为电子政务、搜索引擎;蒋同海(1963唱) ,男,研究员,硕导,主要研究方向为多语种信息处理技术.
第 26 卷第 6 期 2009 年 6 月
计算机应用研究 Application Research of Computers
Vol.26 No.6 Jun.2009
基于短语的阿拉伯语到中文的机器翻译系统 倡
李 凯, 郑 洁, 蒋同海
( 中国科学院 新疆理化技术研究所 多语种信息技术实验室, 乌鲁木齐 830011)
对于已经进行了词对齐的语料,直接估计最大似然词汇化 翻译表,用于短语对的词汇化概率计算。 如果直接用 GIZA ++ 产生的翻译表计算,由于有的词条在 GIZA ++词典中没有出 现,导致会有一些短语对的词汇化概率为 0,而且 GIZA ++词 典中没有 w( a |NULL) 和 w( c |NULL) 这两个概率值。 直接估 计的方法就是直接抽取对齐的词对,如果某个词没有与之对齐 的翻译词,就认为它与 NULL 对齐;然后计算同现次数,按照式 (5)(6)分别计算出 w(c |f)和 w(f |c),从而直接生成词汇化的 翻译表。
摘 要: 使用基于短语的统计翻译方法,搭建了一个简易的阿拉伯语到中文的翻译系统。 核心的解码器采用了 log唱linear 直接翻译模型进行开发,在系统中使用了大量的开源软件进行语料库的预处理,并讨论了该方向上尚 未解决的问题和未来的发展趋势。 关键词: 短语; 统计翻译; 阿拉伯语; log唱linear; 解码 中图分类号: TP391.43 文献标志码: A 文章编号: 1001唱3695(2009)00唱2306唱04 doi:10.3969 /j.issn.1001唱3695.2009.06.093
2畅3 短语抽取
目标:从词对齐的语料库中自动学习阿拉伯语短语到汉语 短语的翻译。
实现原理:很多基于短语的统计机器翻译系统的短语抽取 方法都很相似,根据这些方法,本模块实现了从词对齐中自动 抽取双语短语的算法。 基本思想就是首先根据词对齐生成最 大似然词汇化辞典;然后进行短语抽取;最后对每一个短语对 计算四个翻译概率。 2畅3畅1 生成最大似然词汇化翻译表
第6 期
李 凯,等:基于短语的阿拉伯语到中文的机器翻译系统
· 23 07 ·
笔者引入以下六个特征,并将其整合到 log唱linear 模型中: 短语翻译概率为 p( c~|a~);逆向短语翻译概率为 p( a~|c~);词汇 化的短语翻译概率为 lex( c~|a~) ;逆向词汇化的短语翻译概率 为 lex( a~|c~) ;中文语言模型为 lm( c1I );中文句子长度为 I。
AND 橙f j ∈f:( ci , fj ) ∈W→ci ∈c
(7)
其中:W 表示词语对齐的矩阵。 抽取方法就是提取对齐矩阵
中所有以对齐点为顶点的矩形,条件是与矩形所在行范围内的
词源对齐的目标词都在这个矩形的列范围内,反之亦然,如图
6 所示。
w( c |f) =count( c, f) /countc ( c, f)
(5)
w( f |c) =count( c, f) /countf ( c, f)
(6)
2畅3畅2 短语抽取
从词语对齐的语料库中抽取双语短语,要求短语对必须与
词对齐相容。 定义如下:
( c, f) ∈BP骋橙ci ∈c:( ci, fi ) ∈W→fi ∈f
(1)
对于直接翻译概率 Pr( c1I |f 1J ) ,系统采用了 log唱linear 直接
翻译模型[8] 进行模拟:

Pr( c1I
|f1J )
=exp(

m =1
λm



c1I
,f1J



∑exp(
c′1I′


m =1
λm


(c1′I′,Fra bibliotekf1J ) )
(2)
在式(2)中的分母(语言模型) 因为仅与源语言句子 f1J 有 关,所以在搜索的过程中能够省略分母,然后得出了一个对翻
翻译系统的整个流程图如图 2 所示。 整个系统由以下模块构成:训练语料库预处理模块、中文 分词工具 ( 利 用 开 源 工 具 Stanford NLP 提 供 的 中 文 分 词 工 具[10] ) 、阿拉伯语词形分析工具(利用开源工具 Encode唱Arabic唱 1.8 版[11] 和 AMIRA1.0 版[12] ) 、词语对齐模块( 利用开源工具 GIZA ++获得初始对齐,然后对结果进行再处理)、短语抽取 模块、语言模型训练模块( 利用开源工具 SRI)、语言模型应用 工具(利用开源工具 SRI)、输入预处理模块、解码模块、输出后 处理模块。 每个模块都是一个可独立执行的文件,可以运行在 Linux 平台上。 模块之间以文件作为接口,这些文件包括训练语料 库、规范的训练语料库(采用 GIZA ++定义)、分词的训练语料 库(采用 GIZA ++定义)、词语对齐的语料库、短语翻译概率 表、语言模型(采用 SRI 定义)、输入文本、输出文本。
1 系统描述
1畅1 基于短语的统计机器翻译模型
基于短语的统计机器翻译[4 ~6] 以短语作为翻译的基本单 位。 对于一个阿拉伯语句子,翻译系统将其划分为多个连续的 词语串[7] ( 即所谓的 phrase);然后将每一个阿拉伯语短语翻 译为汉语短语;最后将产生的汉语短语进行顺序调整,并输出 译文,如图 1 所示。
Phrase唱based machine translation system from Arabic to Chinese
LI Kai, ZHENG Jie, JIANG Tong唱hai
( Research Center for Multilingual Information Technology, Xinjiang Technical Institute of Physics & Chemistry, Chinese Academy of Sciences, Urumqi 830011, China)
2 预处理和规范化工具
一个训练语料的流程图如图 3 所示。
2
3
2畅1 训练语料的预处理
训练语料都是中文和阿拉伯文句子对齐的语料,在进行 GIZA ++训练前,需要对这些语料进行加工处理。 对语料进行 预处理的主要工作就是进行中文分词和阿拉伯语的词形分析。 实现原理如下:
a) 中文分词 系统中使用 Stanford NLP 自然语言处理小组开发的中文 分词开源工具[13] 对文档进行处理,分词后的文件保持原文件 名(filename.txt),同时产生原文件的备份文件( filename.cla. bak)。 举例如图 4 所示。 b) 阿拉伯语的词形分析 系统中使用了 Diab 开发的 AMIRA1.0 进行阿拉伯语词形 分析,但是在处理前,首先要利用软件 Encode唱Arabic 将阿拉伯 语的句子转换为 Buckwalter 编码的格式;然后再将经过编码转 换的句子输入到 AMIRA,依次进行词法分析、词性标注和短语 划分。 举例如图 5 所示。
译模型起决定作用的公式:
c^1I^=argI,cm1I ax{

m∑=1 λm



c1I


J 1


(3)
这个方法是 the source channel approach[9] 的一个泛化。 其
优点是能够很容易地把辅助模型 h(· ) 整合到整个系统之中。 这个模型的比例因子 λ1M 能够被训练,通过一种区别性的学习
1畅2 基准的统计机器翻译系统
在统计机器翻译中,假定一个源语言句子 f1J =f1 …fj …fJ , 要被翻译成目标语言句子为 c1I =c1 …ci …cI 。 在所有可能的目 标翻译句子中,选择出概率最高的句子作为最终的目标翻译 句子。
相关文档
最新文档