基于实例的机器翻译

合集下载

easy_trans 使用实例 -回复

easy_trans 使用实例 -回复

easy_trans 使用实例-回复什么是easy_trans?Easy_trans是一个在线翻译工具,提供中文和英文之间的即时翻译服务。

它基于先进的人工智能技术,包括机器学习和自然语言处理,以提供高质量且准确的翻译结果。

Easy_trans不仅可以帮助用户实现快速翻译,还可以提供词汇和例句的详细解释,以帮助用户更好地理解翻译的含义。

使用Easy_trans的优势Easy_trans作为一个在线翻译工具,有许多使用它的优势。

首先,Easy_trans提供了快速的翻译服务,用户只需输入文本,即可获得秒级的翻译结果。

其次,Easy_trans采用了先进的人工智能技术,因此翻译质量非常高,准确度较大。

此外,Easy_trans还提供了丰富的辅助功能,包括语音输入、文本翻译、图片翻译等,用户可以根据需要选择不同的方式来翻译。

Easy_trans的使用示例下面是一些使用Easy_trans的使用示例,以帮助进一步理解其功能和用途。

1. 文本翻译假设你想要将一篇中文短文翻译成英文,你可以将这篇短文复制到Easy_trans的输入框中,然后选择源语言为中文,目标语言为英文,点击翻译按钮即可得到英文翻译结果。

Easy_trans会自动进行句子和词汇级别的翻译,并提供相应的解释和例句,以帮助你更好地理解翻译的含义。

2. 语音翻译假设你需要实时将中文口语转换成英文,你可以使用Easy_trans的语音输入功能。

只需点击语音输入按钮,然后用中文朗读你想要翻译的内容,Easy_trans会自动将其翻译成英文,并将结果显示在屏幕上。

这对于需要与外国人交流或在国外旅行的人来说非常方便。

3. 图片翻译假设你在海外旅行时看到一张中文的餐厅菜单,你可以使用Easy_trans 的图片翻译功能。

只需打开Easy_trans的相机功能,然后对准菜单拍照,Easy_trans会自动识别图片中的中文内容,并将其翻译成英文。

这对于在陌生的国家中理解菜单或标牌非常有帮助。

机器翻译工具英译汉译文质量评估、对比和改进建议——以有道翻译和金山快译为例

机器翻译工具英译汉译文质量评估、对比和改进建议——以有道翻译和金山快译为例

机器翻译工具英译汉译文质量评估、对比和改进建议——以有道翻译和金山快译为例发布时间:2022-01-06T07:11:37.445Z 来源:《教学与研究》2021年第24期作者:苏怡然[导读] 近年来,机器翻译发展成为大势所趋,苏怡然吉首大学摘要:近年来,机器翻译发展成为大势所趋,尤其当深入学习在机器翻译中的广泛应用后,对机器翻译而言更是如虎添翼。

而机器翻译软件的译文质量究竟如何呢?本文选取了国内市场上两家机器翻译平台——金山快译和有道翻译,从译文的准确性、格式规范、语言风格角度,对其译文质量进行评价、打分、比较和改善。

本次译文比较主要是聚焦于英译汉。

研究发现:从译文质量角度来看,在英译汉方面,有道翻译以66分远优于金山快译的37分。

从错误类型角度来说,句意错误、转换痕迹重、词汇错译这三方面是最为常见的共性问题。

本文也就存在的问题,为机器翻译软件提出了进一步改善的建议。

关键词:机器翻译;译文对比;有道翻译;金山快译;质量评估有道翻译、百度翻译、搜狗翻译、小牛翻译、腾讯翻译君、新译翻译、谷歌翻译等翻译平台遍地开花,成为了人们工作办公、外出旅行的“发声器”。

但是译文质量到底如何呢?能否准确传达意图呢?为了解决这一疑惑,本文选取了国内市场上两家机器翻译平台——有道翻译和金山快译进行对比研究,主要对英译汉译文进行对比研究。

主要依据“中译国青杯”联合国文件翻译大赛对两个翻译平台的英译汉质量进行对比和质量点评。

从而,客观、直观的展现机器翻译译文的质量,指出待改进的方面,以及改进的方法,以期为机器翻译进一步优化提出合理建议,也就机器翻译是否会替代人工翻译的这一辩题,提供笔者的思考。

1.机器翻译发展现状新世纪以来,各个互联网公司基于大数据和强大的统计方法,纷纷涉足机器翻译领域,研发出了基于大数据的翻译数据库和翻译平台。

如今,受限于语料库规模,基于实例(Example-based)的机器翻译很难达到较高的匹配率,往往只在个别限定的专业或是领域时,翻译效果才能达到使用要求。

英语翻译软件翻译准确性矫正算法设计

英语翻译软件翻译准确性矫正算法设计

英语翻译软件翻译准确性矫正算法设计黄登娴【摘要】传统机器翻译方法采用管道式逐次操作对原始语料实施词性标识以及句法分析,获取英语语言的句法结构,使得翻译任务间存在的错误迭代传递、结构化实例准确性降低,导致英语语言文学翻译准确性降低.因此,对英语语言文学中的机器翻译准确性方法进行校对研究.设计基于知网的词汇语义相似度以及对数线性模型,采用汉英依存树到串的方式保存对应的双语语料,对源语言端实施依存结构化处理,确保汉英双语的对应关系,通过知网运算输入需要翻译句子(依存树结构)同实例库内源语言(依存树结构)中词汇的语义相似度.描述了机器翻译中相似实例检索模块以及译文生成模块的实现过程,通过面向数据的翻译模型进一步校对英语语言的准确翻译.实验结果表明,所提方法可得到准确率高的译文,具有较高的准确性和稳定性.【期刊名称】《现代电子技术》【年(卷),期】2018(041)014【总页数】4页(P170-172,177)【关键词】英语翻译软件;机器翻译;翻译准确性;语义相似度;矫正算法;迭代传递;依存树结构【作者】黄登娴【作者单位】中国民用航空飞行学院,四川广汉 618300【正文语种】中文【中图分类】TN912.3-34;TP391.2机器翻译是自然语言操作范围中的关键,具有较高的应用价值。

依据实例的机器翻译是一种经验主义的英语语言文学翻译策略,其无需复杂的深层次语法以及语义的分析,提高了英语语言翻译的效率。

但是基于实例的机器翻译方法对实例库质量的要求较高[1]。

传统机器翻译方法采用管道式逐次操作对原始语料实施词性标识以及句法分析,获取英语语言的句法结构,使得翻译任务间存在的错误迭代传递、结构化实例准确性降低,导致英语语言文学翻译准确性降低。

针对该问题,本文研究了英语语言文学中的机器翻译准确性方法,塑造并实现基于汉英依存树串实例的机器翻译系统,提高了英语机器翻译的准确性。

1 基础算法与模型1.1 依存树到串模型依存树到串的模型为<D,S,A>,<D,S>是一个翻译对,D表示源语言的依存树,S表示源语言的目标词语串,A用于描述D与S间的词对齐关系[2-3],依据依存树到串双语对齐模型的实例如图1所示。

自然语言处理应用实例

自然语言处理应用实例

自然语言处理应用实例一、介绍自然语言处理(Natural Language Processing,NLP)是一种人工智能技术,它的目标是让计算机能够理解、分析、处理人类语言。

随着互联网和社交媒体的发展,NLP应用越来越广泛,包括机器翻译、情感分析、文本分类、信息抽取等。

本文将介绍几个常见的NLP应用实例,并详细说明其原理和实现方法。

二、机器翻译机器翻译(Machine Translation,MT)是NLP中最古老也是最重要的应用之一。

它的目标是将一种语言的文本自动转换为另一种语言的文本。

机器翻译有两种主要方法:基于规则和基于统计。

基于规则的机器翻译系统使用人工编写的规则来将源语言转换为目标语言。

这些规则通常由专家手动编写,并且需要耗费大量时间和精力。

这种方法通常适用于小规模的翻译任务,但对于复杂或大规模任务效果不佳。

基于统计的机器翻译系统则利用大量平行语料库进行训练,并使用概率模型来预测每个单词或短语的翻译。

这种方法不需要手动编写规则,但需要大量的训练数据和计算资源。

目前,基于神经网络的机器翻译系统已经成为主流,其效果比传统的基于统计方法更好。

三、情感分析情感分析(Sentiment Analysis)是一种NLP应用,它的目标是自动分析文本中包含的情感倾向,通常包括正面、负面和中性。

情感分析有很多实际应用场景,例如社交媒体监测、产品评论分析等。

情感分析主要有两种方法:基于规则和基于机器学习。

基于规则的情感分析系统使用人工编写的规则来判断文本中是否包含某种情感倾向。

这些规则通常由专家手动编写,并且需要不断更新以适应新的语言和文化背景。

这种方法具有较高的准确率,但对于复杂或不确定的情况效果不佳。

基于机器学习的情感分析系统则利用大量标注好的训练数据进行训练,并使用分类算法来预测文本中包含的情感倾向。

这种方法不需要手动编写规则,但需要大量标注好的训练数据和计算资源。

目前,基于深度学习的情感分析系统已经成为主流,其效果比传统的基于机器学习方法更好。

【国家社会科学基金】_机器翻译_基金支持热词逐年推荐_【万方软件创新助手】_20140807

【国家社会科学基金】_机器翻译_基金支持热词逐年推荐_【万方软件创新助手】_20140807
1年 科研热词 推荐指数 中文信息处理 3 语料库 2 规则 2 藏文分词 2 语义 1 自然语言处理 1 缩略语块 1 维吾尔语句子相似度计算 1 框架元素 1 框架 1 构件 1 机器翻译 1 提取方法 1 属性 1 字结构 1 商务信函 1 句子结构相似度 1 hmm 1 ebmt 1
2012年 序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
科研热词 推荐指数 难点分析 1 隐喻 1 语篇行为 1 认知计算 1 认知属性 1 虚词 1 藏语 1 英汉双语短语级平行语料 1 自动分词 1 翻译系统 1 类别知识 1 篇章性句干 1 算法 1 知识库 1 测试评价 1 机器翻译 1 有主题网页 1 显著度 1 成语原则 1 彝语文 1 对等 1 学术语篇 1 噪音信息 1 俄汉/汉俄 1 主题信息 1 cssci 1 bisecting k-means clustering算法 1
2013年 序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34
科研热词 推荐指数 机器翻译 3 俄汉机器翻译 3 语义识别 2 句法语义 2 语义组合 1 语义 1 译后编辑 1 词法分析 1 规则与统计 1 自动评分 1 自动标注 1 自动分词 1 翻译策略 1 翻译 1 维汉机器翻译 1 第五格 1 汉语树库 1 汉维机器翻译 1 概念层次网络理论 1 格式判断 1 日中机器翻译 1 彝文信息处理 1 学生英译汉 1 多义动词 1 地点 1 句类依存树库 1 切れる 1 倒す 1 作文 1 主谓谓语句 1 э т а п -3机器翻译系统 1 э tah-3机器翻译系统 1 с +n5结构 1 c+n5结构 1

专利机器翻译的现状及展望

专利机器翻译的现状及展望
展望。


典型的机器翻译方法和技术
机器 翻译 是建立在语言学 、数学 、信息学 、计算机科学 等学科基础上 的多边缘学科 ( 它 的发展是 建立在语言学 、数 学 、计算机科学 的发展基础之上 ) 。现代理论语 言学的发展 、 计算机科学 的进 步以及概率统计学 的引入 ,对机器翻译 的理 论和 方法都 产 生了深 刻 的影 响 。We a v e r机器 翻译思 想 的提 出,开始 了机 器 翻译 的研 究热 潮 。C h o m s k y在 5 O 年 代后 期
提 出的短语结 构语法 ,给 出了 “ 从规则 生成句 子 ”的原则 。
由于短语结构语 法采用单一标记 的短语 结构来描述句 子的构 成,描述粒度过粗,因此存在约束能力弱、生成能力过强问 题 ,人们逐渐 意识 到仅依靠单一 的短语 结构信息 , 不 能充 分 判别短语类 型和确认短语边界 ,于是 ,复杂特征集 和词 汇主
义被引入 自 然语言语法系统,广义短语结构语法、词汇功能
语法 、中心语 驱动的短语结构语法 等语 言学理论也相 应的产 生 。在这个 发展过程 中,基于规 中 , 语 言规则 的产生需要 大量 的 人力 , 而且大量 的语 言规 则之间往 往存在着不可避免 的冲突 。 另外 , 规 则方法在保证规则 的完备 性和适应性方 面也存在着 不足 。而此时 ,统计学方法在 自然语言处理 的语 音识 别领域
翻译方法 ;针对机 器翻译 的研 究现状 ,详细介绍和分析 了专利机 器翻译发展现状 ,最后对专利机器翻译进行总结和展望。
【 关键词 】 机器翻译;基于规则;基于统计;基于实例 ;专利机器翻译
近几 年来 ,自然语言处理 的研究 已经成为热点 ,而机器 翻译 作为 自然语 言研究 领域的一个重要分支 ,同时也是人工 智能领域 的一个课题 ,同样 为大家所关注 。纵观 机器翻译 的 研 究 历史 ,从 上个世 纪 4 0年 代英 国工程 师 B o o t h和美 国工 程师 We a v e r 提 出利用计算机进行 翻译 的想 法 ,到 5 O年代欧 美 国家投入大量 的人力 、物力致力于机器 翻译 的研究 ,再到 6 0年代 A L P A C置疑报告 的提 出 ,机器翻译走 向沉 寂 。最近 的二十年 ,随着语 言学理论的发展 、计算机 技术 的进步 以及 统计学 和机器学 习方法在 自然语 言处理领 域 中的广泛应 用 , 人 们对机器翻译本 身的应用背景 、 目 标等有 了更 加准确 的认 识 ,机器翻译在此背景 下取 得了长足的发展 。基 于统计 、基 于实例等新 的机器 翻译 方法也都是在这一 时期 出现 ,一些机 器翻译 系 统也从 实 验室 走 向 了市 场 。在 中国 ,机 器 翻译 的 研究 从 5 O年代开始 ,多 家大学和研究机构先后 开发 出俄 汉 、 英汉 、汉英 、 日汉 、汉 日、蒙汉 、藏汉等机器 翻译 系统 ,同

【国家社会科学基金】_应用语言学_基金支持热词逐年推荐_【万方软件创新助手】_20140805

【国家社会科学基金】_应用语言学_基金支持热词逐年推荐_【万方软件创新助手】_20140805

53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91
政治话语 描述 描写 指称化 拥有 批评性话语分析 批判性话语分析 意识形态 循环现象 当代语言学 应用语言学 应用 层次化自动分类 小世界 对外政策 对/对于 学科发展 存在 外语教材 复杂网络 复合空间 在n的v下 图式 和谐取向 后来 句法 古典诗歌 历时分析 动态建构 切分 人际冲突 中国传统"小学"的语音理论 《中国政府工作报告》 rfr_sum模型 nbayes决策 fisher线性判别 e研究 cfn "有"字句
知识抽取 目的语 理论语言学 特征 法律术语分类 汉语复合名词短语 汉语句子 汉语 民族品牌 母语 格局 标注 本土语言学 本土化 最简方案 普希金 无尺度 方法论 文献综述 探针/目标一致关系 探索范围 指示性there-构式 指南 意义方法 情境(网络) 思想基础 心理现实性 心理学 形式特征 形式模型 应用 局域非对称成分统制结构 小世界 客体语义 实证调查 实证研究 定义 完美结合 学术英语 学术创新 学习者写作 学习型词典 字符数组 天津话 外语教学模式 复杂网络 声调理论 四则运算 可视化 句法特征 双宾属性连续统 原型范畴 勃洛克 动因
推荐指数 3 2 2 2 2 2 2 2 2 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
2011年 序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52

什么是机器翻译

什么是机器翻译

机器翻译的研究历史可以追溯到 20 世纪三四十年代。
发 20世纪30年代初,法国科学家G.B.阿尔楚尼提出了用机 器来进行翻译的想法。1933年,苏联发明家П.П.特罗
展 扬斯基设计了把一种语言翻译成另一种语言的机器,并
道 路
在同年9月5日登记了他的发明;但是,由于30年代技术 水平还很低,他的翻译机没有制成。1946 年,第一台 现代电子计算机 ENIAC 诞生,随后不久,信息论的先
为基础的策略,一般分为语法型、语义
型、知识型和智能型。不同类型的机译
系统由不同的成分构成。抽象地说,所
有机译系统的处理过程都包括以下步骤:
对源语言的分析或理解,在语言的某一
平面进行转换,按目标语言结构规则生
成目标语言。技术差别主要体现在转换
平面上。
语法型
研究重点是词法和 句法,以上下文无 关文法为代表,早 期系统大多数都属 这一类型。语法型 系统包括源文分析 机构、源语言到目 标语言的转换机构 和目标语言生成机 构3部分。
在线机译
目前网络上比较知名的几译 。
机器翻译的现状
❖ 我们需要的是计算机帮助人类完成某些翻译 工作,而不是完全替代人,人与机器翻译系 统之间应该是互补的关系,而不是相互竞争。
❖ 机器翻译还不成熟,需要的是人与系统的配 合,而不是有意为难,辅助机器翻译可以大 大减轻人的负担。
基础
机器翻译的研究是建立在语言学、数学 和计算机科学这3门学科的基础之上的。 语言学家提供适合于计算机进行加工的 词典和语法规则,数学家把语言学家提 供的材料形式化和代码化,计算机科学 家给机器翻译提供软件手段和硬件设备, 并进行程序设计。缺少上述任何一方面, 机器翻译就不能实现,机器翻译效果的 好坏,也完全取决于这3个方面的共同 努力。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于实例的机器翻译 ——方法和问题 王厚峰(北京大学) 关键字:基于实例的机器翻译,双语对齐,相似度计算,模板获取 摘要:本文介绍了基于实例的机器翻译方法,并对基于实例的机器翻译的若干问题,如双语实例的加工对齐、实例的相似度计算和实例模板提取等问题作了说明。

Method and Issues of Example-Based Machine Translation

Wang Houfeng Keywords: EBMT, Bilingual Alignment, Similarity Measure, Template Acquisition. Abstract: The basic frame of Example based machine translation is concerned in this paper. Some key issues, such as bilingual alignment, similarity measure between input sentence and example, and template acquisition, are introduced.

󰒰󰉺 引言 早期的机器翻译本质上都是基于语言规则或语言知识RBMT(Rule Based Machine Translation)的。如,词法规则,句法分析规则,转换规则,目标语生成规则等。这些规则都是根据语言专家的经验总结归纳出来的。直译法、转换生成方法、中间语言方法等都可以归为这一类。在上一世纪80年代中后期,这种纯粹基于语言知识的状况渐渐被基于语料库的机器翻译CBMT( Corpus-Based Machine Translation) 方法打破。 语料库方法中最有影响的是IBM公司的P.Brown 提出的基于统计的机器翻译SBMT (Statistics Based Machine Translation)。受语音处理的启发,P.Brown在1988年第二届TMI会议上提出了用隐马尔科夫模型HMM(Hidden Markov Model)进行机器翻译的想法,这一想法震惊了当时的与会者,并直接导致了语料库方法在自然语言处理上的迅速发展。 另一个影响更为广泛的机器翻译方法是日本的长尾真(Makoto Nagao)1981年提出的基于实例的机器翻译EBMT ( Example based Machine Translation),并于1984年发表[6]。

基本思想是在已经收集的双语实例库中找出与待翻译部分最相似的翻译实例(通常是句子),再对实例的译文通过串替换,串删除以及串增加等一系列变形操作,实现翻译。 基于实例的翻译方法受到广泛关注是在进入90年代之后。其中,Sato[7,8] 等人起到了很

好的推动作用。

󰳋󰉺 EBMT的基本思想

长尾真认为,人们在翻译简单句子时并没有做语言的深层分析,而是先将句子分解为几个片断(短语),然后,借助于已有片断的翻译,将分解的每个片断翻译成目标短语,最后在将这些短语组合起来形成一个长的句子。 基于上述思想,长尾真提出了基于实例的机器翻译EBMT的思想。对应地,EBMT也分为三大部分:将实例划分为片断,确定各个片断的翻译以及重组片断。 例2.1. (a) 她 买 了 一 本 计算语言学 入门 书 假定计算机内已经存储了如下的实例对: (b) 她 买 了 一 件 时髦 的 夹克衫. She bought a sharp jacket. (c) 他 正在 读 一 本 计算语言学 入门 书 He has been reading a book on introduction to Computational Linguistics.例2.1(a) 可以通过 (b)中“他买了”对应的 She bought 和 (c) 中“一本计算语言学入门书”对应的 a book on introduction to Computational Linguistics 重组产生: She bought a book on introduction to Computational Linguistics. 一般来说,EBMT主要有如下部分构成:

双语语料库 相似实例检索语义辞典 重组与调整图2.1 EBMT基本结构图 翻译结果 双语辞典

待翻译句子 在EBMT 中,对齐的双语语料库是最重要的知识库之一。 实例的粒度越大,当翻译用到时,其效果则越理想;但另一方面,粒度越大,能够直接使用的可能性又越小。因此,在实例的粒度选择上,应该考虑到一定程度的平衡。 一般认为,实例的粒度定位在句子一级比较合适;也有大量的实验表明,其粒度要么定位在子句一级,要么以结构形式表示,这样才能使实例的引用达到更好的效果。 由上图可知,语义词典也是不可或缺的重要知识源。根据Somer[9]引入的长尾真的例子:

例2.2 (a) He eats potatoes 是待翻译的句子,同时,假定实例库中有如下的实例: (b) A man eats vegetables Hito-wa yasai-o taberu (c) Acid eats Metal. San-wa kinzoku-O ocasu. 这两个实例从形式上看都可以和 (a)匹配,但是结果只能选择(b),而不是 (c)。这一选择有赖于语义词典。通过语义词典可以判断He 能取代 “ A man ”,不能取代“Acid”,同样,“potato”和“vegetable”间的语义比“potato”与“metal”间的语义更相似。 在确定了相似的句子之后,紧接着的调整处理必须借助于双语词典。如 He—Kare替换man—Hito以及 potato——poteto替换 vegetable—yasai 都需要双语词典的支撑。 翻译实例的重组和调整一般包括替换、插入和删除等操作,上面的两个例子主要涉及到替换操作。最简单的插入操作如例2.3,反过来则为删除操作: 例2.3 (a) 她游览过北京的许多景点。 (b) 她随旅游团游览过北京的许多景点。 在EBMT 中,最为重要的操作是相似实例的检索,主要是相似性的量度标准。后面将详细讨论。 三、基于实例的机器翻译与翻译记忆的异同 翻译记忆TM ( Translation Memory)与EBMT有着千丝万缕的联系,甚至在很多情况下,两个术语不加区别地使用。根据 Somers[9],TM 的思想最初来自于 Martin Kay在1980年的著名文章“Proper Place”。Martin Kay对机器翻译始终是悲观的,但他认为,如果已经有相似的文档,则可以直接从中取出相似的部分来辅助翻译,这正是TM的核心。本质上讲,TM仅仅是辅助翻译,它从实例库中找出相似的例子(常常是多个例子),并提交给用户,让用户选择。TM所面对的用户通常是“专家”,既懂双语,又懂专业。但EBMT则属于机器翻译,翻译的结果由系统决定。用户可以只懂一种语言。 Eiichiro SUMITA 在2002年的TMI会上将机器翻译作了如下分类:

MT CBMTSBMT

EBMT

RBMTTM

图3.1 机器翻译分类 显然,TM并不属于 MT。但TM 与 EBMT 也存在许多相似的地方,主要表现在,都是对已有翻译实例的重用,都需要存储翻译实例,都需要检索相似的翻译实例。

四、基于实例的机器翻译的相关问题

基于实例的机器翻译很重要的一项工作就是构建知识库,其中,包括构建对齐的实例库,双语词典和语义词典。 4.1 双语实例库的构建 双语库的构建需要考虑三个问题: z 双语语料的加工 双语语料的加工包括双语语料的收集,不同文件格式(如 Word的文件格式、文本文件格式、HTML 文件格式以及 PDF 等文件的格式)的统一,不同粒度的对齐处理(包括篇章对齐、段落对齐、句子对齐、子句对齐和多词Multiword 及词汇的对齐)及其标注集的制定和对齐单位的表示。其中,句子(子句)的对齐、多词及词汇的对齐对基于实例的机器翻译有着直接的影响。后两者的对齐加工在常宝宝的论文中有详细的讨论[3];而句子的对齐主

要有如下的两种方法: 方法一,基于长度(或统计)的对齐方法。由Gale和 Church[5] 等人提出的基于符号串

长度的对齐方法是目前使用最为广泛的方法,该方法开始主要用于相似语系(如印欧语系)的句子对齐,如英语、法语、德语、西班牙语等之间的对齐。其基本假设是,长的原文句子对应着长的译文句子,短的原文句子对应着短的译文句子。由于对齐几乎没有使用到任何语言知识(完全将句子看成符号串),该方法具有很强的适应性。该方法在英语—西班牙语双语对其中,成功率达到了93.2%,在英语—法语双语对齐中,成功率达到了98%;然而,当该方法用于差异较大的语系时,效果则不理想,Wu等人[10]曾经用相同的算法进行汉语—英语的句子对齐,对新闻语料集测试,成功率仅为54.5%,对香港科技大学的预料(HKUST corpus)测试,成功率为 86.4% 。 方法二,基于锚点的对齐方法。其主要思想是寻找特殊标记进行对齐。如,双语中相同的数字(数值)、地名、人名、日期等。一旦原文有,译文也应该有。 z 双语的表示形式 双语的表示有多种形式,最简单的形式是符号串,这对于中文来说,就是汉字串。显然,这过于简单;因此,通常情况下,用词串表示。也可以对语料进一步加工,如附带上词性,甚至可以对对齐的语料进行结构分析,使之在结构上也对齐。但结构分析需要有好的分析器,这本身又非常困难。 z 双语的存储形式 为了覆盖更多的语言现象,就必需收集尽可能多的双语实例。但另一方面,当实例库足够大时,快速检索相似的例子就成为一个重要的问题。为了从大规模的实例库中检索到相似实例,大多采用倒排表技术。 4.2 相似实例的检索 相似实例的检索主要是相似性的判断,而相似性的判断与实例的表示形式有着密切的关系。根据表示形式的不同,相似性的判断主要可以分为如下几种: z 基于字符 (Character-based) 的匹配 基于字符的匹配纯粹是一种表层的匹配, 即,判断两个串中公共子串的相对长度(中文中的一个字符由两个字节表示),相同串必须是有序的。先看如下例子: 例 4.1 (a) 从 上海 到 美国 的 西部 城市 洛杉矶。

(b) 从 美国 的 西部 城市 洛杉矶 到 上海。 尽管例子 (a)(b) 包含完全相同的词,但从字符串的角度看,则不是完全相同的——相同部分已经用下划线表示。其长度可以以字符(汉字)为单位计数,也可以以词为单位计数。从上面的例子来看,这种方法显然存在问题。匹配的部分本来应该是“ 从 …… 到 ”。 基于字符匹配的相似性,主要通过编辑距离(edit distance)判断。这种方法最早是由 Wagner & Fisher 提出来的,它量度了一个字符串S=s1s2…sm变化为另一个字符串T=t1t2…tn所

相关文档
最新文档