一个实用化的俄汉机器翻译系统.

合集下载

《西里尔蒙古文—汉文机器翻译系统的实现》范文

《西里尔蒙古文—汉文机器翻译系统的实现》范文

《西里尔蒙古文—汉文机器翻译系统的实现》篇一一、引言随着全球化的推进和信息技术的飞速发展,跨语言交流变得越来越重要。

为了满足西里尔蒙古文与汉文之间的翻译需求,开发一款高效的机器翻译系统变得尤为重要。

本文将详细介绍西里尔蒙古文—汉文机器翻译系统的实现过程,包括系统设计、关键技术、实现方法以及实验结果分析等方面。

二、系统设计1. 需求分析在系统设计阶段,首先需要进行需求分析。

该翻译系统需满足以下需求:实现西里尔蒙古文与汉文之间的双向翻译,支持文本和语音输入输出,具备高翻译准确率和快速响应能力。

2. 系统架构根据需求分析,设计出系统的整体架构。

该系统采用客户端-服务器架构,其中客户端负责用户界面和用户交互,服务器端负责翻译任务的执行。

系统架构包括数据预处理模块、翻译引擎模块、后处理模块等。

三、关键技术1. 数据预处理数据预处理是机器翻译的重要环节。

针对西里尔蒙古文和汉文的特性,需要进行词法分析、句法分析和语义理解等预处理工作。

此外,还需要进行语料库的构建和优化,以提高翻译的准确性和流畅性。

2. 翻译引擎翻译引擎是机器翻译系统的核心部分。

采用基于深度学习的翻译模型,如神经网络翻译模型(NMT)等,实现西里尔蒙古文与汉文之间的翻译。

在训练过程中,需要使用大量的平行语料库,以提高模型的翻译性能。

3. 后处理后处理是对翻译结果进行优化和处理的过程。

包括对翻译结果进行语法检查、语义校对、语言风格调整等操作,以提高翻译质量。

四、实现方法1. 技术路线系统实现的技术路线包括数据收集与预处理、模型训练与优化、系统开发与测试等步骤。

在每个步骤中,都需要进行详细的规划和实施。

2. 具体实现在具体实现过程中,需要使用相关的技术和工具,如自然语言处理技术、深度学习框架、语音合成与识别技术等。

同时,还需要进行大量的实验和调试,以优化系统的性能和翻译质量。

五、实验结果分析1. 实验设计为了评估系统的性能和翻译质量,需要进行实验设计。

2017北京外国语大学考研—俄语学院导师介绍

2017北京外国语大学考研—俄语学院导师介绍
李英男 职称:教授(博导) 专业方向:俄罗斯社会与文化、文化学、俄语教学 主要从事的学术研究领域:俄罗斯文化史、中俄文化比较研究 主要从事的研究领域和主要学术成果: 1.《俄罗斯文学与中国知识分子的价值取向》,国际俄罗斯语言文学研究会第十 次大会论文集, 俄罗斯圣彼得堡 2003 年版 [俄] 2.《北京俄侨社团——问题与思考》,《现代化之路——中国、俄罗斯、东欧国家
王立业 职称:教授 专业方向:俄罗斯文学 主要从事的学术研究领域: 十九、二十世纪的俄罗斯文学 屠格涅夫的研究,屠格涅夫与布宁、陀思妥耶夫斯基等作家的比较研究,屠格涅 夫“白银时代”文学批评与接受,侨民诗人霍达谢维奇的研究以及俄罗斯诗歌研 究。中俄文学比较研究。 学术成果: 在国内外发表论文约 30 篇,专著一部。 指导研究生的学术方向:十九、二十世纪的作家、诗人及其作品研究,比较研究 与国别文学比较研究
4
改革比较》论文集,当代世界出版社,2003 年 10 月出版 3.《当代俄罗斯民族意识剖析》,《俄罗斯思想与俄罗斯道路》论文集, 外文出 版社,2004 年 7 月出版 4.《罗斯庄园文化与普希金抒情诗》,台湾政治大学俄国语文学系 2003 年国际学 术研讨会论文集《俄国文学经典与人生》,2004 年 11 月出版 5.《哈尔滨和上海俄侨诗歌中的中国形象》,《俄罗斯侨民文学史》,人民文学出 版社,2004 年 12 月版 6.《转型时期的俄罗斯民族意识》,《转型理论与俄罗斯政治改革》第十一章 上 海人民出版社 2005 年 4 月版 7.《俄罗斯多媒体教程》:《俄罗斯地理》,外语教学与研究出版社 2005 年 6 月 8.《苏联解体后的俄语新变化》,《俄罗斯研究》2005 年第 3 期 9.《俄罗斯国情多媒体教程》,《俄罗斯历史》,外语教学与研究出版社 2006 年 3 月 指导研究生的学术方向:俄罗斯社会与文化

机器翻译系统的使用教程

机器翻译系统的使用教程

机器翻译系统的使用教程机器翻译系统是一种能够将一种语言自动转换为另外一种语言的工具。

它使用了先进的机器学习和自然语言处理技术,能够有效地提高翻译的速度和准确性。

本文将介绍如何使用机器翻译系统进行翻译,并提供一些技巧和注意事项,帮助您更好地利用该系统。

第一步,选择合适的机器翻译系统。

目前市场上有许多不同的机器翻译系统可供选择,例如谷歌翻译、百度翻译、有道翻译等。

在选择机器翻译系统时,您可以考虑以下几个因素:1. 常用语言:确保机器翻译系统支持您需要翻译的语言对。

例如,如果您需要进行英文和中文之间的翻译,那么选择一个同时支持这两种语言的系统会更加方便和高效。

2. 准确性和流畅度:不同的机器翻译系统在准确性和流畅度上有所差异。

您可以尝试使用不同系统进行比较,选择那个最符合您需求的系统。

3. 用户评价和反馈:了解其他用户对机器翻译系统的评价和反馈,可以帮助您更好地了解系统的优缺点。

在选择之前,可以搜索一些用户评论或者咨询一些已经使用的人的意见。

第二步,学习机器翻译系统的基本操作。

每个机器翻译系统都有自己的用户界面和操作方式。

在开始使用之前,您可以阅读系统提供的帮助文档,学习系统的基本操作。

一般来说,以下是一些常见的操作步骤:1. 选择语言对:打开机器翻译系统后,您需要选择源语言和目标语言。

源语言是您要翻译的原文的语言,目标语言则是您希望将原文翻译成的语言。

2. 输入原文:将需要翻译的文本输入到源语言文本框中。

有些系统还支持直接输入文件或者链接,方便您进行批量翻译或者翻译长文本。

3. 进行翻译:点击“翻译”按钮或者相应的操作键,系统将会开始进行翻译。

在短时间内,您就能够得到一份初步的翻译结果。

4. 优化翻译:机器翻译系统的翻译结果可能不够准确或者流畅,您可以通过修改文本、更换词汇、调整语法等方式来优化翻译结果。

一些系统还提供了编辑和修改的功能,您可以直接在文本框中进行修改。

第三步,优化机器翻译系统的翻译结果。

俄汉翻译系统解决方案

俄汉翻译系统解决方案

俄汉翻译系统解决方案
俄汉中文翻译系统的解决方案可以分为以下几个步骤:
1.数据收集和预处理:收集大量的俄汉双语数据,包括书籍、新闻、
文章、对话等,同时进行数据清洗和预处理,包括去除特殊字符、标点符号,分词等。

2. 特征工程:对预处理后的数据进行特征工程,提取有效的特征,
如n-gram特征、词性标注特征、命名实体识别特征等。

3.模型选择和训练:选择合适的机器翻译模型,如统计机器翻译模型、神经网络机器翻译模型等,并使用收集到的数据进行模型训练。

4.参数调优:对模型进行参数调优,如调整学习率、批大小、正则化等,以提高翻译质量。

5.评估和优化:使用评估指标对翻译系统进行评估,如BLEU分数等,根据评估结果进行系统优化和改进。

6.后处理:对翻译结果进行后处理,包括去除语法错误、调整词序等,以提高翻译的流畅度和准确性。

7.部署和应用:将训练好的翻译模型部署到线上系统中,通过API接
口或其他方式提供翻译服务,以满足用户的翻译需求。

需要注意的是,俄汉中文翻译是一个复杂的任务,翻译质量的提高需
要不断地进行数据更新和模型优化。

此外,考虑到俄语和汉语在语言结构
和语法上的差异,可能还需要进行针对性的特定领域的训练和优化。

俄汉翻译系统解决方案

俄汉翻译系统解决方案

俄汉翻译系统解决方案行业: 跨行业功能:俄汉翻译,软件供应商: 中国软件股份集团方案正文:中软从1984年开展机器翻译的研究工作以来,长期从事机器翻译、多语平台等中文信息处理的研究与产品开发工作,其翻译技术不断更新,在机器翻译技术、跨语言平台的输入方法等方面具有国际先进水平,是国内机器翻译语种最多的公司。

国际软件开发部凭借在语言信息处理、智能翻译软件开发方面的技术储备与开发经验,针对客户方的实际需要,成功开发、建立一套俄汉翻译系统,能够优质、高效的完成对俄文信息资料的翻译处理,博得了业界人士的关注与好评。

一、俄汉翻译系统1、主要特点:(1)、通过人机交互的方式取代手工翻译部分过程,使翻译流程自动化,大幅度提高翻译效率和翻译质量。

(2)、能够为情报信息、装备资料的俄汉翻译提供技术支撑。

(3)、提供俄汉电子词典,完全代替人工查询书本词典。

(4)、系统的开发完全符合软件开发体系要求。

(5)、用户词典库的使用和建库应该符合客户方的要求和XX体系的要求。

2、体系结构针对客户方的翻译应用需求,系统将开发并集成以下主要功能模块:俄汉翻译引擎、全文翻译、嵌入翻译(Word 嵌入翻译)、批量翻译、电子词典、用户词典、用户词典网络共享。

翻译文件的类型支持*.rtf和*.txt,以及其它能在Microsoft Word中打开的文件类型。

系统的体系结构(图1)。

图1:系统体系结构(1)、翻译引擎翻译引擎是一套翻译体系的核心。

它就象一个人的心脏在支撑人的生命一样,支撑着翻译体系完成高质高效的翻译工作。

在该系统中,我们将配备最高版本的翻译引擎作为整个翻译体系的核心。

该翻译引擎融合了计算语言学在语义理论方面的突破,采用了格语法、语义网络理论、框架和优先语义学等等一系列描述语言深层机制的语言理论,吸纳了人工智能技术的知识库、世界模型和常规推理规则等知识信息处理原则,基于语法分析和逻辑语义分析,将逻辑语义与语法有机结合,从而从根本上避免了顾此失彼所带来的缺陷。

《2024年西里尔蒙古文—汉文机器翻译系统的实现》范文

《2024年西里尔蒙古文—汉文机器翻译系统的实现》范文

《西里尔蒙古文—汉文机器翻译系统的实现》篇一一、引言随着全球化的推进和信息技术的飞速发展,跨语言交流变得越来越重要。

为了满足西里尔蒙古文与汉文之间的翻译需求,开发一款高效的机器翻译系统显得尤为重要。

本文将详细介绍西里尔蒙古文—汉文机器翻译系统的实现过程,包括系统设计、关键技术、实现方法和应用场景等方面。

二、系统设计1. 系统架构西里尔蒙古文—汉文机器翻译系统采用分层架构设计,包括数据层、算法层和应用层。

数据层负责存储和管理翻译所需的数据资源,如词典、语料库等;算法层是实现翻译功能的核心部分,包括自然语言处理、机器学习等算法;应用层则是用户与系统交互的界面,提供用户友好的操作体验。

2. 需求分析在系统设计阶段,我们需要对用户需求进行深入分析。

西里尔蒙古文—汉文机器翻译系统的用户主要包括需要进行跨语言交流的蒙古族和汉族人群。

因此,系统需要具备高准确率、高效率的翻译能力,同时要考虑到不同用户的语言习惯和表达方式。

三、关键技术1. 自然语言处理技术自然语言处理技术是机器翻译系统的核心技术之一。

在西里尔蒙古文—汉文机器翻译系统中,自然语言处理技术主要用于对输入的文本进行分词、词性标注、句法分析等预处理工作,以便后续的翻译工作能够更加准确地进行。

2. 机器学习技术机器学习技术是提高机器翻译系统性能的关键。

在西里尔蒙古文—汉文机器翻译系统中,我们采用了深度学习等机器学习技术,通过训练大量的语料数据,使系统能够自动学习和优化翻译模型,提高翻译的准确率和流畅度。

四、实现方法1. 数据准备在实现西里尔蒙古文—汉文机器翻译系统的过程中,我们需要准备大量的翻译语料数据。

这些数据包括平行的蒙古文和汉文文本数据、词典等。

我们通过爬取互联网上的多源数据,并结合人工校对和标注,形成了高质量的翻译语料库。

2. 算法实现在算法实现阶段,我们采用了基于深度学习的神经网络模型进行翻译。

具体而言,我们使用了循环神经网络(RNN)和长短时记忆网络(LSTM)等模型,对输入的文本进行编码和解码,生成对应的翻译结果。

《西里尔蒙古文—汉文机器翻译系统的实现》范文

《西里尔蒙古文—汉文机器翻译系统的实现》篇一一、引言随着全球化的不断推进,跨语言交流变得越来越重要。

为了满足不同语言群体之间的交流需求,机器翻译系统的开发显得尤为重要。

本文将详细介绍西里尔蒙古文—汉文机器翻译系统的实现过程,包括系统设计、技术实现和测试评估等方面。

二、系统设计1. 需求分析在系统设计阶段,首先需要进行需求分析。

西里尔蒙古文—汉文机器翻译系统的目标是为用户提供高效、准确的翻译服务。

因此,系统需要具备以下功能:支持西里尔蒙古文和汉文之间的互译、支持多种文本格式的输入和输出、支持实时翻译等。

2. 技术架构系统采用基于深度学习的神经网络技术,包括编码器-解码器模型和注意力机制等。

技术架构主要包括数据预处理、模型训练、翻译执行和用户界面等模块。

其中,数据预处理模块负责对输入文本进行清洗、分词和词性标注等操作;模型训练模块采用大规模语料库进行训练,以提高翻译的准确性和流畅性;翻译执行模块负责将输入文本通过模型进行翻译;用户界面模块则提供用户与系统之间的交互界面。

三、技术实现1. 数据预处理数据预处理是机器翻译系统中非常重要的一环。

首先,需要对西里尔蒙古文和汉文文本进行清洗,去除无关信息和噪声。

然后,进行分词和词性标注等操作,以便后续的模型训练和翻译执行。

在分词过程中,可以采用基于规则或统计的方法进行分词,同时结合词性标注信息进一步提高分词的准确性。

2. 模型训练模型训练是机器翻译系统的核心部分。

在训练过程中,需要使用大规模的平行语料库,包括西里尔蒙古文和汉文的双语语料库以及单语语料库等。

在模型选择方面,可以采用基于编码器-解码器模型的神经网络结构,并结合注意力机制等技巧提高翻译的准确性和流畅性。

在训练过程中,需要使用优化算法对模型参数进行优化,以提高模型的性能。

3. 翻译执行翻译执行是将输入文本通过已训练好的模型进行翻译的过程。

在翻译过程中,需要将输入文本进行编码,然后通过解码器生成对应的译文。

21世纪中俄机器翻译现状对比研究

21世纪中俄机器翻译现状对比研究孙爽;陈晓曦【摘要】Basing on reviewed of generations history and development process of machine translation, the state of machine translation developing in China and Russia by twenty - first century has been deeply analyzed in this article, including the introduction of typical machine translation system, its main characters and designing principle. This paper raises a proposal for discussing on how to enhance the research level of Russian - Chinese/Chinese- Russian machine translation system.%在回顾机器翻译产生历史及发展历程的基础上,对 21 世纪中国和俄罗斯机器翻译发展现状进行了深入分析,主要包括代表性机器翻译系统、特点及设计原理,目的在于探讨如何加强我国对俄汉/汉俄机器翻译系统的研究。

【期刊名称】《哈尔滨师范大学社会科学学报》【年(卷),期】2012(000)002【总页数】4页(P74-77)【关键词】机器翻译;俄汉/汉俄;翻译系统【作者】孙爽;陈晓曦【作者单位】东北林业大学,黑龙江哈尔滨150080;东北林业大学,黑龙江哈尔滨150080【正文语种】中文【中图分类】H085机器翻译 (machine translation)是使用电子计算机把一种语言 (源语言)翻译成另外一种语言 (目标语言)的一门新学科。

介绍几个在线翻译网站

介绍几个准确好用的免费在线翻译网站本人女研究僧一枚,白天愁论文,晚上愁嫁人。

越来越同意大家说的,没发表论文就跟在后宫没孩子似的~写论文也像十月怀胎一样,不容易哇~ 每天就得看文献啊看文献。

要是不想拼拼粘粘,还得去看国外文献,实在是太花时间,所以必须得先在线翻译一下,不过在线翻译这么多,能选出个靠谱的也不容易哇,要是选不好,浪费时间还错误百出的;(估计大家也有这方面困扰吧?根据我这段时间写论文做翻译的心得,老女纸在这也为大家分析比较一下各大翻译网站,方便各位童鞋日后选择合适的。

大家都知道,国内常用的在线机器翻译有谷歌、有道、百度、爱词霸啊神马的。

还有一些新的在线翻译品牌也开始冒泡了,大有后来居上的架势,最近我还发现SDL 公司新推出的FreeTranslation也很不错哇,居然可以直接上传*word, *ppt, *pdf, *txt, *odt文件进行翻译, 输出的文件和原文件格式居然高度一致,灰常方便。

下面偶来给大家一一分析。

Google 翻译想必这个大家都很熟悉吧~以前看文献以英译汉为主,用的最多的就是Google 翻译了。

Google 的翻译网站由强大的谷歌搜索引擎所储存的众多语料、网页资源做后盾,翻译量大、语种多(貌似有71种)、速度快,是个平易近人的好助手。

不过,这种机器翻译往往不能直接满足人们的需求,需要经过后期人工编辑,Google能在译文基础上给出不同的措辞供用户选择,增加用户的介入程度。

而且,在翻译的时候我们也会不仅仅遇到英语,在出现其它语言时Google也可以自动识别呢。

另外,Google对term的翻译准确性很高,尤其是在航空航天、医疗、计算机等科技领域优势显著。

但是,它的文学翻译却表现平平,甚至令人捧腹。

Google的网页翻译也很有名,我们浏览英文网站时只需一个按钮就可以快速变成中文。

当然,这一切都得在能登陆Google 的前提下进行,你们懂得,Google 在中国总出问题,有时登陆Google比登陆12306都难,真可谓:不要相信“歌”,“歌”只是个传说。

《西里尔蒙古文—汉文机器翻译系统的实现》范文

《西里尔蒙古文—汉文机器翻译系统的实现》篇一一、引言随着科技的发展,人工智能领域中机器翻译技术得到了广泛的应用。

西里尔蒙古文与汉文之间的交流日益频繁,因此,开发一款高效、准确的西里尔蒙古文—汉文机器翻译系统变得尤为重要。

本文旨在探讨该系统的实现方法,分析其关键技术,以期为相关研究和应用提供参考。

二、系统需求分析1. 功能需求:该系统应具备西里尔蒙古文到汉文的翻译功能,支持文本和语音输入输出,并保证翻译的准确性和实时性。

2. 性能需求:系统应具备良好的性能,包括高吞吐量、低延迟和良好的用户体验。

3. 安全与可靠性需求:系统应保证数据的安全性,防止数据泄露和未经授权的访问,同时应具备故障恢复和容错能力。

三、关键技术分析1. 自然语言处理技术:自然语言处理是机器翻译的核心技术,包括分词、词性标注、句法分析、语义理解等。

在西里尔蒙古文到汉文的翻译过程中,需要利用这些技术对源语言进行解析,生成中间表示形式,再将其转换为目标语言。

2. 深度学习技术:深度学习在机器翻译领域取得了显著的成果。

通过训练大量的双语语料库,可以学习到语言之间的映射关系,提高翻译的准确性和流畅度。

在本系统中,我们采用基于深度学习的神经网络模型进行翻译。

3. 文本编码与解码技术:为了实现文本的输入输出,需要采用合适的文本编码与解码技术。

在西里尔蒙古文到汉文的翻译过程中,应确保编码与解码的兼容性和准确性。

四、系统设计1. 系统架构:本系统采用分层架构设计,包括数据层、业务逻辑层和用户界面层。

数据层负责存储和管理语料库、模型等数据;业务逻辑层负责实现翻译算法和业务逻辑;用户界面层提供用户与系统的交互界面。

2. 算法流程:系统首先对输入的西里尔蒙古文进行解析,提取关键信息,然后通过神经网络模型进行翻译,最后将生成的汉文文本或语音输出给用户。

3. 技术选型:采用Python作为开发语言,利用TensorFlow 等深度学习框架实现神经网络模型。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一个实用化的俄汉机器翻译系统侯敏孙建军陈英奇薛选民侯方黑龙江大学机器翻译研究室“全译通俄汉机器翻译系统”是一个实用型的全自动的电脑翻译系统。

该系统已通过黑龙江省科委组织的专家鉴定。

系统包括电子词典(基本词典六万词条、专业词典(经贸方面的二万词条、词组词典八千余条、语言翻译规则(共一千八百余条、以及为实现翻译加工过程而编写的程序。

整个软件系统的流程,从原文输入到译文输出,要经历查词典、生词处理、规范化处理、同形判别、句法分析、语义分析、结构转换、译文处理等步骤。

从语言分析的角度看,分析是以句子为单位来进行的。

通过对原文进行词法、句法、语义等多层次的分析,得到一个原文句子的多结点的带有语义标记的句法树结构。

然后再根据源语言 (俄语和目标语 (汉语的对比分析,并按照目标语的语法规律,把原文的树结构转换成相应的译文的线性结构, 从而生成译文句子。

显然,整个分析过程,也是自始至终不断运用各类规则的过程。

它们之间的相互关系,可用图(1的框图来表示。

下面就系统的一些问题分别作简要介绍。

│原文句子│↓│┌─────┐│││专业词典││ ┌────┐│└─────┘│←┤削尾规则││┌─────┐│ └────┘││基本词典│││└─────┘││┌─────┐ ┌──────┐┌────┐ ││生词处理│←─┤生词处理规则││词法分析├───→│└─────┘ └──────┘└────┘ │┌─── ─┐ ┌─────┐││规范化处理│←─┤规范化规则││└─────┘ └─────┘│┌─────┐││词组词典││└─────┘│┌─────┐ ┌──────┐││同形判别│←-┤同形判别规则││└─────┘ └──────↓ ┌─ ───┐│┌─────┐│ │MICNP 规则│││句法分析││ │FJV 规则│┌───────┐ │└─────┘│ │CL 规则││句法、语义分析├→│┌─────┐│←┤NP 规则│└───────┘ ││语义分析││ │VP 规则││└─────┘│ │PP 规则│ ↓ └── ──┘ │┌──── ┐ ┌────┐ ││结构转换│←─┤转换规则│ ┌────┐ │└──── ┘ └────┘ │译文生成├───→│┌──── ┐ ┌─ ────┐ └────┘ ││译文处理│←─┤汉语修饰规则│ │└─────┘└───── │译文输出│计算语言学研究与应用 . 北京 : 语言学院出版社 , 1993: 243-249一、电子词典我们建立了基本词典、词组词典和专业词典等几种电子词典。

目前,专业词典还只有经贸专业领域一种。

俄语是综合型语言。

根据俄语的特点,为节省存贮空间和提高检索效率,在建立词典时, 对俄文中没有形态变化的词,如副词、连词、前置词等,我们存入该词本身;但对有形态变化的词来说,如动词、名词、形容词,我们只把其原形或词干存放在词典中。

系统查词典时,应先按照“削尾规则”将该单词恢复为其原形或词干,然后再在电子词典中查找。

不规则变化的词则应将各种特殊形态变化的词形都存放在词典中。

为加快查找速度,我们采用建立索引文件帮助查找的方法。

索引文件的建立是采取分类与 B 树技术相结合的方法实现的。

实践证明,建立的索引文件是高效的。

用 C 语言编程,其查找速度在 286机上为每秒 35个词, (词典容量为6万词条左右。

与此相同,由于采用了 B 树技术,整个词典在工作过程中仅占几K内存空间,克服了一般词典空间开销大的缺点。

为方便用户参与开发扩展本系统,我们还专门设计了用户词典。

用户只需具有初步俄语知识,就能独立胜任工作,根据需要,利用这部词典,随时增添词条。

其具体做法是,由用户给出所要增添词的索引词、词性以及汉义(如有可能,给出与该词用法相近的参照词更好 ,系统即能自动填补其他必要的信息。

用户词典主要用来增加系统词典中缺少的词,也可用来改变系统词典内中已有词的汉义。

例如,用户在一篇经系统翻译加工的文章中,对某个词的汉语译法不满意,则可在用户词典中再存放该词,并给出所要求的汉义,从而得到满意的译文。

如果这一修改只是一时性的需要,事后可将该词条在用户词典中删去。

可以看出,用户词典在诸多词典中是最为优先的。

二、词法分析1.查词典查词典的目的在于获取词的信息。

无形态变化的词的信息全部存放在词典中,而有形态变化词的部分信息,如名词、形容词的数、格,动词的时态、人称等属性则需通过应用削尾规则才能随机给出。

2.生词处理生词指的是没有存放在词典里的词,或者说,是经过查词典查不到的词。

生词处理这一环节之所以必要,不仅在于词典可能不完善,会有遗漏;也不仅在于自然语言在演变过程中会不断产生新词,这些只是问题的一个方面。

而更重要的,还在于在具体翻译实践中,往往会遇到一些不成其为词的词,如象有些商标名、不常用的缩写词、人名、地名、符号等。

这些词, 在人用的词典里没有把它收录进去,当然也不可能把它们全部编到机器词典里去。

如果可以把前面提到的漏词、新词看成是临时性生词的话,那么,后面的那些就是固定性生词。

它们将永远存在。

对生词的处理需要根据词的形态来判定其词性及数、格等,以便参与分析加工。

如词尾为ый、ая、ое等的,可断定为形容词、单数、第一格;词尾为ому、ему的,可断定为形容词、单数、第三格;词尾为ами、ями的,可断定为名词、复数、第五格。

至于汉义,可以词原样给出。

这样做虽说是不得已而为之,但对那些固定性生词来说,却不失为一种合适的求解。

3.规范化处理规范是就系统进行翻译加工是否方便而言的。

规范化处理就是把系统难以加工的结构,施用某种手段,调整为系统易于分析的形式。

俄语句子中,有时会出现某个成分被省略,或者在句子中间插入了一些词语,或者正常的词序颠倒了等情况。

这些现象给分析带来很大困难。

设法把省略的成分找出补上,插入的词语挪置一边,颠倒的顺序正过来,就能顺利匹配规则。

俄语中有时还会出现结构分离现象,例如在有的从句中,前置词往往要随关联词一起移到从句句首,这时,如果该前置词同时又恰好应该与从句动词组合成动词短语,那么它们之间的密切联系在线性结构中就被分离开了。

如“Мне не совсем ясно,над кемвы смеётесь. (我不很清楚,您在笑话谁。

”句中动词“смеяться” 是“笑”的意思,当它和前置词组合在一起“смеяться над(кем~чем ” 才是“嘲笑” “笑话”的意思。

然而现在动词不仅与前置词颠倒了顺序,而且中间被隔断了。

处理这类问题,我们反向应用乔姆斯基的“踪迹理论” (Trace Theory ,把前置词及其支配的关联词一起移到从句动词后, 也就是从表层结构形式又返回到深层结构, 移走的地方留下踪迹, 作为从句的标记。

这样,动词和前置词的密切联系得到恢复,而作为从句标志的关联词的踪迹仍然存在,分析问题也就迎刃而解了。

4.同形判别俄语中有些词类是可以互相演变转化的。

如,形容词可以演化为名词,больной, 是形容词“有病的” ,但又用作名词“病人” ;副词可以演化为前置词,впереди,作副词表示“在前面” ,作前置词表示“在……前面” 。

这种词,我们把它叫做同形词。

同形词是同一个形式具有两个或更多的词性,但是,它们在一定的语言环境中只能有一个确定的词性,如“впереди”在“Он шёл впереди. ” (他走在前面中是副词。

在“Он шёлвпереди всех. ” (他走在大家的前面中是前置词。

这种同形词是语言本身具有的。

另外,由于有形态变化的词我们在词典中是以词干或原形的方式存入的,所以有些原本不是同形的词也变得同形了。

如добро是名词,добрый是形容词,词形本不同,但削去词尾以后,都是добр,在词典中也成了“同形词” 。

还有,俄语形态变化丰富,有些不相干的词,变化后却面貌相同了。

如“ряд”是名词,可它的单数第五格形式却与副词“рядом”同形,于是也成了“同形词” 。

要想顺利翻译句子,就需要对这些词作同形判别。

同形判别就是根据词在句子中的前后环境条件,来确定它的词性归属,以便正确给出词性及汉义, 参与句子分析。

例如, 判断当前词是副词还是前置词要根据下面的同形判别规则:*/V|C|, |EW=:F*=:P这条规则中, *号表示当前词,如果它后面是动词、或连词、或逗号、或句末标记,那么这个词就判定为副词,否则就判定为前置词。

三、句法分析1.规则描述语言规则描述语言是我机器翻译研究所在十几年机器翻译实践中摸索并建立的一套形式化的描述语言,建立规则描述语言是为了保证语言规则和程序设计完全分开,从而真正做到语言规则可以任意增、删、改而无须更动程序。

规则描述语言要根据各个机译系统进行语言分析综合所需要的种种功能来设计。

我们主要采用模式匹配技术,要求具有绝对匹配、或匹配、可有可无匹配、预示匹配等逻辑匹配功能,以及调序、增词,删词、归结、分枝等操作功能。

2.句法规则库句法规则库主要由以下几个子规则库组成:1微型名词短语规则(MICNP这类规则把名词前可能出现的修饰语,如数词、形容词等,与该名词合并在一起,组成一个初步的微型名词短语。

2并列结构规则(FJV并列结构规则主要处理并列的副词、并列的形容词或并列的动词等, 不涉及并列句的处理。

3句子结构规则(CL句子结构指的是句子最顶层的框架结构。

CL 规则除了处理一般句型外, 还包括一些特殊的句型。

4名词短语规则(NPNP规则是在 MICNP 规则的基础上,把微型名词短语再进一步加以扩展,也就是把名词后可能出现的该名词的修饰语,如二格名词、前置词短语、不定式短语、定语从句等再和微型名词短语合并,组成一个完整的名词短语。

5动词短语规则(VP动词短语规则是说明动词用法的规则。

我们根据动词的不同类别如系动词、不及物动词、及物动词等,将动词分为 V1、 V2、 V3、 V4、 V5等类,其中有些类的动词如及物动词等,还可以再细分为若干小类,如 V3A 、 V3B 、 V3C 、V3D ……等。

6前置词短语规则(PP俄语前置词短语中,前置词的含义往往随着它所支配的名词短语的不同而不同。

因此,前置词短语规则的制订必须落实到每一个具体的前置词上。

它们实质上是一些特殊词的词处理规则,每一个前置词都有它自己的若干条规则。

PP 规则只是这些子规则库的总称。

3.句法分析过程分析是以句子为单位进行的。

句法分析的过程是不断应用句法规则的过程,也是逐步进行模式匹配的过程。

应用句法规则时,在同一规则库中,不同的规则之间是“或”的关系,即只要有一条规则执行成功,就认为该规则库的执行是成功的。

在同一规则中,扫描动作中各个匹配动作之间是“与”的关系。

它们依次匹配待处理序列中的结点,当所有匹配动作都匹配成功后才执行生成部分的操作,并认为该规则的执行是成功的。

相关文档
最新文档