班智达汉藏公文翻译系统中基于二分法的句法分析方法研...

合集下载

藏汉语言文学翻译中的表达问题探讨

藏汉语言文学翻译中的表达问题探讨

藏汉语言文学翻译中的表达问题探讨一、引言藏汉语言文学翻译是一项较为复杂的工作,其中存在着诸多表达问题。

这些问题不仅仅涉及到语言层面,更关乎文化、历史、宗教等多个方面的因素。

本文将探讨藏汉语言文学翻译中的表达问题,以期为相关研究和实践工作提供一些参考和思路。

二、译语的选择在进行藏汉语言文学翻译时,译语的选择是一个至关重要的问题。

不同的语言文化背景下,同一现象、概念或者事物可能有着截然不同的表达方式。

在这种情况下,翻译人员需要根据具体的语境和背景信息,进行合适的选择。

藏汉语言中有一种特有的文学体裁,称为“格萨尔”,而汉语中并没有完全相对应的概念。

翻译者在翻译这类文学作品时,需要考虑如何向汉语读者介绍和解释这一概念,以使其能够更好地理解和欣赏藏族文学的独特魅力。

同样的,在涉及历史、宗教、民俗等方面的表达中,译语的选择也是一个非常关键的问题。

这些方面的文化现象和概念,在藏汉两种语言文化中可能有着不同的表达方式,因此需要翻译人员根据具体的语境,进行灵活的选择和调整。

三、语法和句式在藏汉语言文学翻译中,语法和句式也是一个非常重要的问题。

不同的语言有着不同的语法结构和句式特点,这就导致了在翻译过程中可能出现的语法不匹配、句式不协调等问题。

在藏语中,修饰成份通常位于被修饰成份的前面,而在汉语中则通常是相反的。

这就需要翻译人员在进行翻译时,进行适当的调整和变换,以使得目标语言的表达更加贴近原文的意思和表达方式。

在句式方面,不同文化语境中的句式结构也可能存在着较大的差异。

在处理这些问题时,翻译人员需要根据具体的语境和背景信息,进行适当的调整和变化,以使得目标语言的表达更加贴近原文的风格和特点。

四、文化背景和历史传统在藏汉语言文学翻译中,文化背景和历史传统往往也是一个比较困难的问题。

不同的文化和历史传统背景下,人们对于同一事物、现象和概念通常会有着不同的认知和理解。

在进行翻译时,翻译人员需要考虑如何将源语言文学作品中所包含的文化和历史元素,有效地转化为目标语言所对应的文化和历史元素。

藏汉语言文学翻译中的表达问题分析

藏汉语言文学翻译中的表达问题分析

藏汉语言文学翻译中的表达问题分析摘要:自20世纪80年代以来,随着“西藏热”在全国的蔓延,西藏文学在整个文坛上的地位随之提升。

由于藏文是世界上最为复杂的语言文字之一,是一种具有逻辑格语法体系的拼音文字,所以如何在藏汉语言文学翻译中准确表达文学作品的真正意图,成为了西藏文学研究的重点和难点。

基于此点,本文对藏汉语言文学翻译中的表达问题进行分析。

关键词:西藏文学;汉语;翻译当前,对藏文汉语言文学的翻译掀起了一股热潮,导致近年来,藏文汉语言文学翻译作品呈现着今年井喷般的势态,出现了许多藏文翻译作品。

但与此同时,作品的翻译水平良莠不齐,出现了一批歪曲了原文意思或语句不通的翻译作品,既不利于读者阅读,也不利于将来提高藏语言文学翻译的水平。

翻译作品中需要考虑的对照因素有很多,尤其是一些特殊的谚语、诗歌、颂偈体等等,向来是翻译中的难点,翻译不当则很容易造成读者的阅读困难。

所以,必须要注重汉文翻译中表达手法,在翻译过程中灵活恰当地运用表达技巧,适应读者的汉文语言习惯,才能提高藏文翻译的水平。

一、藏汉语言文学翻译应遵循的原则(一)忠实性忠实性是藏汉语言文学翻译的基本原则,是指在翻译中要做到不肆意添加内容,也不随意删减内容。

忠实性原则主要体现在以下两个方面:一方面是在形式上的忠实,利用译文与原文在结构、修辞、选词上的相似,传达和再现原文信息;另一方面是意义上的忠实,力求做到译文与原文在内容和精神上保持一致。

就藏汉语言文学翻译而言,要重在传达原作的意义,体现原作的思想意境,并可在遵循忠实性原则的基础上,适当运用例译、简译、改译、增译、减译等翻译技巧。

(二)创造性文学作品翻译是一项创造性的活动,译者不仅要用自己的审美理解原文,还要充分发挥自己创造性的天赋重现原文中美好的意境,抓住原文精髓。

这就要求译者必要了解原文的时代背景、创作手法和作者的思想情感,准确地传达原文的风格、思想。

以《仓央嘉措诗歌》为例,在进行翻译时明确藏文化的时代背景,了解仓央嘉措的生平经历、生活处境和行为举止等情况,而后再研究诗歌的形式、韵律、手法、意象等翻译要素,创造性地抓住原诗精髓。

基于双语对齐句型库的藏汉机器翻译方法研究

基于双语对齐句型库的藏汉机器翻译方法研究

基于双语对齐句型库的藏汉机器翻译方法研究通过藏汉双语句子中词语序列异同点的比较,研究藏汉双语句型对齐方法,建立了一个小规模藏汉对齐句型库和对照词典库,在此基础上提出了基于藏汉双语对齐句型库的机器翻译算法。

标签:机器翻译藏语句型对照词典双语对齐句型库一、藏、汉句子中词语序列的对比分析藏汉两种语言在语法(包括词序、虚词的运用、动词的形态变化)上的区别,给藏汉双语对齐句型库的构建带来了一定的难度。

除了在句子的词序和词数上变化上有明显的区别外,在虚词的运用和动词的形态变化上也不同。

例如:5.汉语动词没有形态变化,而藏语动词具有形态变化在藏文文法中,对动词的形态变化、及物性及分类等方面的研究很丰富,是藏语动词的复杂性增强。

据统计,现代藏语动词1453个,其中,756个动词本身有形态变化,而汉语动词没有形态变化,这给藏汉对齐句型库的建设和规范化带来了汉语与藏语动词的比较。

例如:实例例6中的藏语动词以”/”分开的四个形态分别是动词的未来式、现在式、过去式、命令式。

在建立藏汉对齐字形库时,第1种对齐句型因词性、词序都相同,容易建立,但对第2、3、4、5、6种对齐句型的处理就变得相对复杂,将在后续内容中详细描述。

二、对照词典的设计与句型库的建设1.对照词典的设计与实现基于双语对齐句型库的藏汉机器翻译方法研究需要设计实现一个添加了详细词性标记的藏汉对照词典的设计与实现。

本文涉及的机器翻译方法,需要一个对照词典的支持,而这个对照词典不是一般意义上的简单对照词典,而是一个添加了词性标记的对照词典。

表3-1为其基本结构和功能:因页面大小,此处只列举了整个对照词典的一小部分内容,第一行中除”word”以外的其他英文标记表示词性,它们分别表示连词(cd)、及物动词现在式(vt)、动名词(nv)、及物动词过去式(vi)、随立名(nn)、指示代词(rz)、属格助词(gz)、使格助词(gx)、位格助词(gl),对照词典里的词性种类及数目远不止这些,总共有80余个词性。

藏语文语转换系统关键技术的研究

藏语文语转换系统关键技术的研究

2 藏 语 文 本 预 处 理
2 . 1 藏 文分词
藏 文分词 是 藏文信 息处 理 的一项基 础性 工作 。它
换系统 就显 得尤 为 重 要 。 同时 , 藏 语 文语 转 换 的实 现 将 会大 大 丰富藏 族地 区人 民 的生活 , 拓宽 信息 获取 、 发
布 和交 流 的渠道 , 对 藏 族 地 区 的社 会 稳 定 、 民族 团结 、 和谐进 步 有着重 要 意义 。
1 . 2 语音 合成历 史及 现状 回顾
是将 连 续 的藏 文文 本按 照一定 的算 法根 据藏 语语 法规 则切 分成 词 的过 程 。藏文 分 词 作 为语 音合 成 、 机 器 翻 译、 语 音识别 等研 究工作 的必 要前 提 , 在藏 文信 息处 理 领 域 很 是 重 要 。 下 面 本 文 就 藏 文 分 词 来 加 以 探 讨
行 了相关 文献 的研 究 和实 验 , 但 对 藏 语 语 音研 究 还 不
够深 入 , 国外对 藏语 语音 合成 方面 也未 曾有 相关报 告 。
答系统 , 电子邮件 的语音服务 以及残疾人语音辅助等
领 域 。藏语 文语转 换 系统 的研究 及应 用具 有很 重要 的 意义 , 尤其 是对 于藏 族地 区 的幼儿 和老人 , 藏语 文语 转
藏文分词方法跟其他语言分词方法类似, 都可以
用 基于 规则 的或 基于统 计 的方法 , 目前 , 作 者 阅读 过 的
诸 多文 献 中 , 处 理藏 文分 词 大 多 是用 基 于规 则 的正 向 最大 匹配上 加格 助词 的正 向最 大 匹配 , 另 外 有 逆 向的
在 2 0 世纪末 , 可训练 的语 音合 成 方法 诞 生 。而后 又

基于混合策略的藏文句子边界识别

基于混合策略的藏文句子边界识别

基于混合策略的藏文句子边界识别却措卓玛;华却才让;才让当知;夏吾吉【摘要】藏文句子边界识别作为藏文信息处理研究领域中的一项重要工作,在词法分析、句法分析、语义分析和机器翻译等领域都具有广泛的应用.在分析藏语句子的概念、分类和边界特征的基础上,提出一种基于混合策略的藏文句子边界识别方法.经实验模型在测试数据集上的F值达99.25%.【期刊名称】《内蒙古师范大学学报(自然科学汉文版)》【年(卷),期】2019(048)005【总页数】6页(P400-405)【关键词】藏文句子;边界特征;规则;支持向量机【作者】却措卓玛;华却才让;才让当知;夏吾吉【作者单位】青海师范大学计算机学院 ,青海西宁 810016;藏文信息处理教育部重点实验室 ,青海西宁 810008;青海省藏文信息处理与机器翻译重点实验室 ,青海西宁 810008;青海省藏文信息处理与机器翻译重点实验室 ,青海西宁 810008【正文语种】中文【中图分类】TP391.1藏语是一种古老的语言,具有自成体系的语言、语法、文字和标点符号.藏文标点符号体系中的楔形符存在较多歧义和功能不确定的问题,藏文中的楔形符具汉语句子中的顿号、逗号、感叹号和句号等功能,这种问题导致无法准确的识别藏文句子边界.然而藏文句子边界识别的结果会直接影响到词法分析、句法分析、机器翻译和语义分析等性能.因此,解决这个问题显得日益重要.藏文信息处理领域中也有部分专家和学者研究了藏文句子边界识别的问题,现有的藏文句子边界识别主要采用规则和统计的方法.李响等[1]采用规则和最大熵相结合的方法,在规模为48000句的测试集上识别了藏文句子边界,F值达到97.78%.赵维纳等[2]提出了基于法律文本的藏文句子边界识别方法,利用规则的方法对法律文本的句式特点进行了初步的分析和探讨.马伟诊等[3]提出了藏文句子边界的识别方法,根据边界符前后的词性来识别藏文句子,准确率达到96.37%.但以上文献未涉及藏文紧缩楔形符的自动识别问题,即藏文句子书写时句子边界词以“后加字”、“辅音字母”和“辅音字母”等结尾后不加空格的情况.藏文紧缩楔形符的自动识别对研究藏文句子边界具有很大帮助,同时非常必要.因此,本文提出了基于混合策略的藏文句子边界识别方法,探讨藏文紧缩楔形符的自动识别问题.经测试,其F值达到99.25%.1 藏文句子及句子边界特征1.1 藏文句子定义及分类藏文句子是表达相对完整意义的语言单位,由词和词组成,后加谓语成分,表明所述内容完整及具有语气鲜明的特点[6],藏文句子分为单句()和复句().1.1.1 藏文单句藏文单句是表达完整意义并且结构简单的句子,句中基本没有联词.藏文单句可以按语义和语气进行分类.藏文单句边界符为楔形符号,一般以边界词结尾,在疑问句中边界词后出现疑问词.按语气分为陈述句()、疑问句()、祈使句()和感叹句()四类简单句型;按语义分为有主句()、无主句()、存在句()、事物及特点相结合的句子()、本述句()和神态句()六类句型[6].1.1.2 藏文复句藏文复句是由两个或两个以上的意义上相关、结构上不构成句子成分的分句组成.其中分句是指结构上类似单句而没有完整句调的语法单位.复合句中的各分句之间一般有停顿,英汉语书面语中用标点符号表示,但由于藏文标点符号的特殊性,在书面语中用关联词来表示[3].藏文复句的句式按关联词在分句中所处的位置和整体结构层次关系,可以分为启下式、承上式和承上启下式三类,每类句式都有其自身的结构特征[6].其中启下式复句的关联词在前一分句的句尾或谓语动词之后出现,将直接连接后一个分句,构成连贯、停顿较小的复合句,如(公园里开满了鲜艳的花朵,其中最为亮丽的是玫瑰花和荷花.)承上式复合句的前一个分句是完整的单句,关联词在后一个分句的句首,构成不连贯、停顿较大的复句,如“”(人总是要死的,但死的意义不同.)承上启下复句中前一个分句的句末或后一个分句句首,会有出现相应的关联词,关联词的搭配要得当,如“”(现在许多地方的党委没有抓思想问题,或者抓得很少.)1.2 藏文句子的边界特征1.2.1 边界符特征藏文句子边界符特征需要考虑三个方面,第一,考虑标点符号(边界符),汉语的句子边界可以通过逗号、顿号和句号等的位置来准确识别,而对应的藏文标点符号只有楔形符号,因此导致无法准确识别藏文句子边界.楔形符包括单垂符()“”、双楔形符号“”()和四楔形符号“”().第二,考虑紧缩楔形符(以后加字为结尾的句子),藏文句子除了边界符还涉及到紧缩楔形符的问题,如“”(我想没有其他办法,不写作业老师肯定不会认同),本文共统计了361个紧缩楔形符(以为结尾的字),部分内容见表1.第三,考虑边界符号的特殊性,如结束符的添接法与离合词()相同,按同音原则,在后加字[]后面用[],[]后面用[],以此类推,如“”中的“”符合结束符的添接法,表示句子已经结束,但不按同音原则的结束符就不确定句子已结束,如“”中的“”跟前面的音节搭配为一个名词,表示句子还没结束.1.2.2 边界词特征藏文句子的语序结构跟英语和汉语的语序结构不同,属于SOV型语序结构,即{主语+宾语+谓语}的语序结构,动词始终位于句子的结尾部分,其句法功能是谓语的核心,也是整个句子的核心.一般藏文句子谓语部分的核心动词后会附加包含一些其他成分,这些成分可统称为动词的谓语,谓语的语序格式为{(谓语动词(+状语补语)(+助动词([情态和趋向])(+体貌-示正标记)(语气词))}[7].本文从不同类型的藏文文献中统计出了500多个藏文边界词,根据训练语料建立一个需要切分的300多个边界词和不需要切分的100多个歧义边界词,部分边界词和歧义边界词的内容见表1.藏文中充当关联成分的词有格助词、联词、副词、虚词结合的词语,共有四种形式[7].利用这些成分建立关联词表,共统计了92个关联词,部分关联词见表1.表1 特征词表Tab.1 Feature vocabulary紧缩楔形符边界词边界词歧义边界词关联词再后加字“”的词藏文句子的切分不同于汉语句子的切分,存在很大的歧义.因此本文首先利用规则的方法对藏文句子边界进行识别,然后对无法识别的歧义句子边界利用支持向量机做识别和切分处理.2 藏文句子切分图1 藏文句子边界识别系统框架Fig.1 Framework of Tibetan sentence boundary detection system2.1 藏文句子边界识别系统框架藏文句子边界识别分两层模式,第一层利用规则方法对测试语料做句子边界识别,若存在规则方法无法识别的歧义句子边界,则采用第二层支持向量机的方法进行处理.支持向量机模型的训练部分,首先在已标注好的训练语料中依据本文设计的特征模板抽取并生成句子边界特征向量,其次分别利用高斯(Rbf)、线性(Linear)、多项式(Poly)和S型(Sigmoid)等四种支持向量机核函数做训练模型,以解决歧义句子边界的切分问题,系统总体框架如图1所示.2.2 规则本文用规则进行藏文句子边界识别考虑的内容:藏文标点符号(边界符)、结束符和紧缩楔形符的句子边界识别.2.2.1 藏文边界识别及终结词的识别藏文句子边界符的多样性给藏文句子边界识别带来很大困难,并影响到机器翻译等研究工作.本文通过边界词表和关联表的规则,基本上能有效识别句子边界.其方法是:读入训练文本进行音节切分,其中藏文的编码范围是0F00-0FFF,藏文数字符号的编码范围是0F20-0F3D,藏文标点符号等可以在该范围内的字符两边添加分隔符进行切分,基本的音节切分(不含严格意义上的音节切分,如“紧缩词的处理”)后对文本进行读取,若楔形符之前的字为边界词或终结词,且楔形符之后的字或词不是关联词,则换行处理.2.2.2 紧缩楔形符边界词的自动识别依据藏文文法,藏文句子书写时句子边界词以“后加字”、“辅音字母”和“辅音字母”等结尾,在该句子末尾不会写楔形符号,以这些字符的部件(纵向最长的竖杠)表示藏文楔形符号,称之为紧缩楔形边界符号,这类边界词之后一般用空格进行分句,但是文献语料中总是会出现没有空格的情况,如中“”之后丢失了空格,导致无法识别该藏语句子的边界,增加了藏语句子切分的难度,本文利用紧缩楔形边界词表和长度异常音节间的字符串模式匹配算法,判断是否存在句子边界词,若存在紧缩楔形边界词,则作为句子边界进行句子切分处理.另外,模式匹配时已找到的紧缩楔形边界词后存在字符“”和“”的问题,如“”中的“”,因其中存在再后加字“”,通过匹配再后加字词表,将“”不会判断为紧缩楔形边界词,也不会把句子切分成“ ① ② ”的错误形式.紧缩楔形边界词和再后加字词表的部分内容见表1.2.3 支持向量机2.3.1 SVM模型支持向量机(Support Vector Machine,SVM)模型是有关监督学习的模型,是一种线性不可分变换到线性可分的问题过程,可以分析数据、识别模式、用于分类和回归分析的问题,给定一组训练样本,标记归为两类,将两类样本在特征空间进行线性分类,并在此特征空间中寻找最优样本进行线性分类(最优分类超平面)[8],其分类决策函数为f(x)=sgn(g(x))=sgn(w x+b),其中w是权重向量,x是特征向量,b是参数.核函数是SVM的核心的问题之一,常用的核函数有[11]线性核函数(Linear):k(xi,xj)=xiTxj,多项式核函数(Poly:k(xi,xj)={(xiTx)+1}δ,高斯核函数S型核函数(Sigmoid):k(xi,xi)=tanh {b(xiTxj)+c}.图2 SVM最优分类超平面Fig.2 Optimal classification hyperplane of SVM上述4个核函数中高斯核函数(Rbf)的性能最优,其次为线性核函数(Linear)和多项式核函数(Poly),S型核函数(Sigmoid)相对性能差.藏文句子边界识别中,本文将是否切分句子视作SVM的分类问题,如图2所示.从图2可知,通过支持向量机(SVM)的两类样本被超平面H线进行分隔,使得H1线和H2的距离最大.在藏文句子边界识别过程中,把藏文句子需要切分和不切分作为两类样本:需要切分(图2中“”)和不需要切分(图2中“ ”).2.3.2 特征模板的设计藏文训练语料中以边界符和紧缩楔形符为当前音节(S0)进行抽取句子并固定其位置,并从当前音节(S0)左右各抽取5个音节,进行人工标记,标记时需要切分的句子为1,不需要切分的句子为0,中性标为2.例如存在歧义边界词为“”的句子“”,抽取结果为“”,进行人工标记为0,不需要切分.如“”抽取结果为“”,进行人工标记为1,需要切分,其生成特征模板库及特征向量见表2和表3.表2 特征模板Tab.2 Feature templates音节特征实例特征值2S-1S02S0S+1223S+1S+200S-2S-1S001S-1S0S+1015S-2S-1S0S+1S+201S-4S-3S-2S-1S0016S-4S-3S-2S-1S0S+101S-3Ss-2S-1S0S+1s+20111S-5S-4S-3S-2S-1S0S+1S+2S+3S+4S+5013 实验3.1 歧义边界词的实验结果本文从各类藏文网站中获取的新闻、经书、小说和法律等藏文语料,通过整理和标注完成了规模达8000句的训练语料,其中包含300多个边界词和100多个歧义边界词.依据句子切分特征向量模板对训练语料进行生成特征库和特征向量化后,分别采用支持向量机(SVM)中常用的4个核函数进行实验,结果见表4.表3 句子边界特征向量化表Tab.3 Quantization of sentence boundary feature 音节句子块向量标注S-5S-4S-3S-2S-1S0S+1S+2S+3S+4S+5(2,2,0,0,0,0,0,0,0,0,0)0(2,2,0,1,1,1,1,1,1,1,1)1表4 歧义边界词的实验结果Tab.4 Experimental results of ambiguous boundary words核函数循环次数实验次数准确率第一次第二次第三次平均准确率高斯核(Rbf)100399.9599.9899.9799.96线性核(Linear)1000399.9599.9699.9899.96多项式(Poly)200398.9298.6697.5298.36S型(Sigmoid)1000389.2487.1487.7588.04 表4的结果表明,核函数中高斯核函数(Rbf)的性能最优,其次是线性核函数(Linear)和多项式核函数(Poly),S型核函数(Sigmoid)相对的性能差.3.2 评价指标为了评价本文提出的基于混合策略的藏文句子边界识别方法的性能,从准确率、召回率和F值三方面对藏文句子边界识别的系统性能进行评价,计算公式为[1]召回率F值3.3 实验结果实验从8000句切分标注语料中随机抽取285个句子作为测试语料,其余7715句作为训练语料,经统计测试语料中包含27个歧义边界词和100多个关联词.分别对相同的测试语料用规则方法、规则和支持向量机相结合的方法进行实验,验证不同方法对藏文句子边界识别的影响,实验结果见表5.表5 不同方法对藏文句子边界识别的影响Tab.5 The influence of different methods for boundary identification of Tibetan sentence方法训练语料的句子数测试语料的句子数系统切分的句子数系统正确切分的句子数准确率/%召回率/%F值%规则 800028525423793.3183.1687.94规则+SVM800028528228099.3098.9599.25实验结果表明,规则和支持向量机方法相结合识别性能较强.规则的方法解决了藏文边界符和紧缩楔形符的问题,并提高了藏文句子边界识别的性能,减少支持向量机对藏文句子边界歧义的误判,因此两种方法相结合提高了藏文句子边界识别的准确率.4 结语藏文句子边界符的多样性和紧缩楔形符的特性,给藏文句子边界识别带来很大困难,从而影响词法分析、句法分析、语义分析和机器翻译等藏文自然语言处理工作.针对该问题,本文提出了基于混合策略的藏文句子边界识别方法,主要结果为:(1)规则方法对藏文句子边界进行识别,利用特征词表解决了终结词和紧缩楔形符的藏文句子边界识别问题;(2)规则方法无法识别的藏文歧义句子边界,用支持向量机训练好的模型进行处理.从实验结果可以看出,本文提出的方法能有效识别藏文句子边界,F值达到99.25%.后期工作中,将扩充语料规模和补充开放语料进行测试,尝试用神经网络的方法自动识别藏文句子边界识别的问题,对不同的方法进行研究.参考文献:【相关文献】[1] 李响,才藏太,姜文斌,等.最大熵和规则相结合的藏文句子边界识别方法 [J].中文信息报,2011,25(4):39-45.[2] 赵维纳,刘汇丹,于新,等.基于法律文本的藏语句子边界识别 [C]//第五届全国青年计算语言学研讨会论文集,武汉:第五届全国青年计算语言学研讨会(YWCL 2010),2010:480-486.[3] 马伟珍,完么扎西,尼玛扎西.藏语句子边界识别方法 [J].西藏大学学报:自然科学版,2012(2):70-76.[4] 仁青吉,安见才让.藏文句子边界自动识别方法的研究 [J].信息与电脑:理论版,2014(8):62-63.[5] 格桑居,格桑央金.实用藏文文法教程 [M].成都:四川民族出版社,2004.[6] 吉太加.现代藏语文法通论 [M].兰州:甘肃民族出版社,2000.[7] 格桑居冕.藏语复句的句式 [J].中国藏学,1996(1):132-141.[8] 张学工.模式识别 [M].3版.北京:清华大学出版社,2010.[9] 赵维纳,于新,刘汇丹,等.现代藏语助动词结尾句子边界识别方法 [J].中文信息学报,2013,27(1):115-120.[10] 才藏太.基于最大熵分类器的藏文句子边界自动识别方法研究 [J].计算机工程与科学,2012,34(6):187-190.[11] 胡书津.简明藏文文法 [M].昆明:云南民族出版社,1998.[12] 夏吾吉,华却才让,色差甲,等.融合藏族人名音节特征的性别自动识别 [J].西北民族大学学报:自然科学版,2017(3):1-5.[13] 华却才让,姜文斌,赵海兴,等.基于感知机模型藏文命名实体识别 [J].计算机工程与应用,2014,50(15):172-176.[14] 李航.统计学习方法 [M].北京:清华大学出版社,2012:95-133.。

藏汉语言文学翻译中的表达问题探讨

藏汉语言文学翻译中的表达问题探讨

藏汉语言文学翻译中的表达问题探讨【摘要】藏汉语言文学翻译涉及词汇、句式和文化差异等多方面的挑战。

本文针对这些问题展开探讨,分析了藏汉语言文学翻译的特点,并探讨了词汇表达和句式结构的翻译难点以及文化差异对翻译的影响。

从翻译策略的角度,提出了解决问题的方法和思考。

结合挑战与解决方法,对藏汉语言文学翻译进行了总结与展望,指出了未来研究的方向。

这篇文章旨在加深对藏汉语言文学翻译的理解,为未来的翻译工作提供启示和借鉴。

【关键词】藏汉语言文学翻译、表达问题、文化差异、翻译策略、挑战与解决方法、思考、未来研究方向1. 引言1.1 背景介绍藏文具有自己独特的音韵体系和语法结构,与汉语有着明显的差异。

在进行藏汉语言文学翻译时,译者需要面对词汇表达、句式结构、文化背景等诸多挑战。

深入探讨藏汉语言文学翻译中的表达问题,对于促进藏文经典作品在汉语世界的传播具有重要意义。

本文旨在分析藏汉语言文学翻译中的表达问题,探讨翻译过程中的挑战和解决方法,为提升藏文经典作品的翻译质量和深化藏汉文化交流提供参考。

通过对藏文和汉文的语言特点和文化内涵进行比较,探讨藏汉文学翻译中的表达问题,旨在拓展翻译研究领域,促进汉藏文化的互补与交流。

1.2 研究目的研究目的:本文旨在探讨藏汉语言文学翻译中的表达问题,分析其中存在的挑战与困难。

通过对藏汉语言文学翻译的特点、词汇表达的翻译问题、句式结构的翻译挑战、文化差异对翻译的影响以及翻译策略的探讨,旨在深入剖析藏汉语言文学翻译中遇到的种种问题,为研究人员提供更多的思考和启发。

本文还希望能够总结出在藏汉语言文学翻译中的挑战与解决方法,对藏汉语言文学翻译进行思考,并展望未来的研究方向,为开展更深入的研究奠定基础。

通过本文的研究,旨在促进藏汉语言文学翻译领域的发展,推动藏文化的传播和交流,以期在藏汉语言文学翻译领域取得更多的成果和突破。

2. 正文2.1 藏汉语言文学翻译的特点藏汉语言的语法结构与汉语有很大差异,这对翻译工作提出了挑战。

藏汉语言文学翻译中的表达问题探讨

藏汉语言文学翻译中的表达问题探讨

藏汉语言文学翻译中的表达问题探讨藏汉语言文学翻译是一项极具挑战性的任务,它涉及到两种截然不同的语言和文化体系。

在进行翻译时,译者需要克服许多困难,例如语言差异、文化差异和表达方式的差异。

深入探讨藏汉语言文学翻译中的表达问题是非常必要的。

一、语言差异藏汉语言之间存在着明显的语言差异,这是翻译中最基本的挑战之一。

在藏语中,词汇的使用、语法结构、语音语调等方面都与汉语有着明显的不同。

在词汇的使用上,藏语的词汇量相对较小,而且词汇的地域差异也非常大,同一概念可能存在多个不同的词汇来表达。

这就给译者带来了很大的困难,因为他们需要在保持原文意思的基础上,尽可能地选择符合汉语语境的词汇。

语法结构的不同也给翻译带来了很大的挑战。

在藏语中,名词、动词、形容词等词性的变化是通过后缀的形式来体现的,而在汉语中这种变化是通过词序和助词来表达的。

译者需要具备较高的语言功底才能很好地处理这种语法结构的差异。

二、文化差异除了语言上的差异外,藏汉文化差异也是翻译中需要克服的障碍之一。

文化是语言的载体,语言和文化之间存在着密不可分的联系。

在进行藏汉语言文学翻译时,译者不仅需要掌握两种语言的语言特点,还需要了解两种文化的差异,这样才能更好地理解原文的内涵和情感。

在藏族文化中,信仰、婚姻、礼仪等方面的习俗和观念都与汉族文化有着明显的差异。

这就需要译者具备较高的跨文化沟通能力,能够理解和表达原文中所蕴含的文化内涵,从而使译文更加贴近原文的意思。

三、表达方式的差异在进行藏汉文学翻译时,译者还需要克服表达方式的差异。

不同的民族和地域在表达方式上有着不同的特点,这就需要译者具备较高的语言感知能力,能够准确地把握原文的语言风格和表达方式。

在藏语文学作品中,常常出现寓意深远、含蓄隐晦的表达方式,这与汉语的表达方式有着明显的不同。

译者需要具备一定的文学素养和语言功底,才能够较好地处理原文的表达方式,使译文更贴近原文的艺术魅力。

四、应对策略针对藏汉语言文学翻译中的表达问题,译者需要采取一些应对策略:增强语言功底。

浅析汉藏机器翻译中的问题及解决对策

浅析汉藏机器翻译中的问题及解决对策

浅析汉藏机器翻译中的问题及解决对策完代草次登多吉(西藏大学文学院,西藏拉萨850000)摘要:汉藏机器翻译是一项计算机学科领域的成果,也是翻译界的发展。

在信息发达的当今社会,靠传统的翻译来完成现代多领域的翻译是有相当的困难,为此我们就要借助电子计算机来完成人工翻译难以完成的任务。

文章从机器翻译的现状出发,通过机器翻译软件对一些例子进行分析,总结了在机器翻译中出现的问题,以及对此类问题的解决对策的探讨,使研究者们进一步认识电子计算机汉藏互译中的种种弊端,从而更加有效地改善汉藏机器翻译软件的运用。

关键词:机器翻译实例分析解决对策随着时代的发展,人类知识的更新,机器翻译的需求越来越迫切,也引起了人们广泛的关注。

为了让汉藏民族之间的交流更加便捷以及藏汉文明的传播和发展,进一步推动计算机软件的运用。

在运用机器翻译软件的过程中产生的译文质量仍然无法达到“信、达、雅”的标准程度。

笔者通过实例来分析汉藏机器翻译中出现的问题,为不断深入研究机器翻译提供可靠的信息,用人机互补的模式提高当前的翻译质量,加强汉藏机器翻译研究的进一步发展。

1汉藏机器翻译的概念与现状1.1汉藏机器翻译的概念机器翻译是指利用电子计算机把一种自然语言转换为另一种自然语言的过程。

那么汉藏机器翻译就是使用电子计算机将由汉语言文字或藏语言文字记载的信息,转换成藏语言文字或汉语言文字记述的过程。

⑴这是通过使用电子计算机为工具或媒介,把汉藏两种语言文字进行互译的过程。

这种利用软件实现从一种自然语言到另一种自然语言的翻译方法恰恰是信息时代的巨大发展和应用。

1.2汉藏机器翻译的现状随着时代的发展,在信息全球化的时代,电子信息的发展是越来越让人瞩目可待,信息传播的速度之快、范围之广、精确之度等有着很大的进步。

在科学技术突飞猛进的当今社会,人类知识更新速度空前加快,很多新鲜事物不断充斥着我们的生活,使我们加快步伐跟紧时代的旋律,来适应社会的高速发展,在学习和接受外来事物的过程中翻译起到了至关重要的作用。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

班智达汉藏公文翻译系统中基于二分法的句法分析方法研究才藏太 李延福(青海师范大学藏文智能信息处理中心 中国 青海 西宁 810008)caizangt@摘要机器翻译系统是一种典型的自然语言处理系统,语言技术是机器翻译系统中居于核心地位的技术,实用化的机器翻译系统一般是采用自然限制的受限语言的翻译,且以基于规则的方法为主流方法。

本文结合863项目《班智达汉藏公文机器翻译系统》的研制实践,论述了词项信息同语法规则相结合的原则,提出了以动词为中心的句法分析二分法,从而在受限语言的范围内,为建立有较大适应性的机器翻译规则系统,有效地提高机器翻译语法分析的效率提供了有益的方法。

关键词:机器翻译二分法语句结构句法分析1、引言随着计算机技术的不断普及,如何将大量的汉语和外语的科技信息、教材、参考读物、科普读物等及时地翻译成藏语,进而为广大藏区科技、教育、文化事业服务已成为制约广大藏区社会经济发展的关键问题。

在汉藏科技翻译人员极端缺乏的今日,班智达汉藏机器翻译系统的研制和推广应用必将有助于促进这一问题的尽快解决。

在机器翻译系统中,语言技术是居于核心地位的技术,因而讨论机器翻译系统的句法分析问题便是一个重要的问题。

机器翻译的方法有多种,但基于规则和词典的方法仍然是到目前为止的一直采用的主流方法。

我们研制的863项目班智达汉藏公文机器翻译系统是采用基于规则的翻译系统。

机器翻译进行的是两个语言无限集之间的转换,在现有的科学水平之下,计算机科学还不能从理论上证明,用一个有限的机器翻译规则系统来进行原语和译语的无限集之间的转换的可能性,因此实践上比较可行的办法是采用自然限制的受限语言。

我们研制的班智达汉藏公文机器翻译系统就是一种受限语言的机器翻译系统。

2、系统结构班智达汉藏机器翻译系统由科技系统、公文系统和电子词典三部分组成,采用C++语言在Windows环境下实现。

考虑到实际应用中用户的需要,系统设有译前和译后编辑功能。

系统所带的汉藏英三语对照的电子词典达到18.6万条,科技系统的翻译规则达到1500余条,公文系统的翻译规则达到1300余条。

科技系统对约30万词条、5万多个句子的实际语料的实验测试表明:译文的可读性总体达到80%以上,翻译速度为1050字/分(DELL PII300微机)。

公文系统对约1800多个句子的实验测试表明:译文的可读性总体达到78%,翻译速度为1100字/分(同上)。

下面对班智达汉藏公文机器翻译系统的系统结构作一介绍。

2.1 模块划分班智达汉藏公文机器翻译系统总体上可分为词典知识库维护、规则知识库维护、自动分词、汉藏翻译、系统设置等五部分组成(见图1)。

图中各模块的主要功能如下:● 词典维护模块负责管理用于汉语词切分、汉藏双语的词典,主要功能有词典的排序、词条的添加、删除、修改。

同时具备动态查询汉藏词汇的功能。

● 规则维护模块负责管理规则知识库,主要功能有规则库的排序、规则的添加、删除、修改。

同时按规则号或驱动词具备动态查询规则的功能。

为便于管理和减少规则冲突、提高规则的有效性,将所有规则分为短语规则、句型规则两大类实行分级管理及维护。

● 分词标注模块采用最大匹配算法并辅之于切分规则,对汉语文本进行自动分词;对分词结果进行词性标注时根据实际语料分为三类进行标注:一是对词典中存在的二字或二字以上词按词典提供的词性标注;二是对各类汉语标点符号、非汉语字符串、数字串(标为数词类)以及ASCII串分类进行标注;三是对判定为未登录词的汉字串进行标注(一般标为名词)。

● 汉藏翻译模块规则消歧包括语法规则消歧和语义规则消歧两部分,语法规则消歧又分为个性规则和通用规则两级;统计消歧是系统的辅助消歧手段,是根据不同的词在不同学科领域内使用的概率不等,同形异词在不同学科领域内所指的意义的概率也不等这一特点,采用“高频先见”的原则以提高系统的相对正确性。

短语合并的过程是将句子中的词按一定顺序合并构成短语,每个短语的句法功能和语义信息都和它的中心词相同,系统采用“孤立中心动词”的短语合并法。

句型匹配规则也分个性规则和共性规则,执行顺序是先个性后共性。

系统采用边分析边转换边生成的策略,最后对译文统一扫描一遍,生成藏译文。

● 系统设置模块系统设置模块向用户提供系统参数(词典、规则目录)的修改和设置功能。

图1: 班智达汉藏公文机器翻译系统结构2.2 工作流程系统工作流程如图2所示,图中各部分的主要功能如下:● 词典库词典采用数据库文件格式,在信息表示上采用了框架多值表示法,词条数据结构的一般形式如下:词典数据结构 ={汉语原词;控制信息;语法语义信息;藏语译文;}其中,汉语原词包括汉语常用词、成语、习用语和科技常用短语;控制信息用来控制词处理的流程,主要在处理词的搭配关系、动态词组的插入等操作时起制导作用;语法语义信息主要包括汉语词类信息、子类信息、语义信息,藏语词类、语义及格助词添接信息等。

这些信息在规则合并过程中将会动态地发生变化,特别是动词时态信息只有在规则中动态地体现;藏语译文为汉语原词对应的藏译词。

● 规则库规则的数据结构如下:规则={<头部><动态信息域><转换域><生成域><类别域><维护域>} 其中,头部包括关键驱动词、规则左部和右部,主要供汉语分析使用;动态信息域纪录合并前后的词、词组或短语的语法、语义及时态信息;转换域供汉藏结构转换使用;生成域主要供格助词添接使用;类别域用于区分不同属性的规则类别;维护域仅供在维护规则时使用。

图2:班智达汉藏公文机器翻译系统工作流程● 原文的输入可采用文本文件、键盘输入以及扫描输入。

● 建立切分文本、并完成词性标注。

● 利用规则库的消歧规则排除兼类歧义,若无消歧规则则默认第一词性。

●依次调用短语四级规则完成短语合并。

● 逐次扫描句型规则完成句型匹配,对复句利用标点符号进行合成。

● 逐句扫描译文、添接藏文格助词、输出汉藏对照译文。

3、句法分析正如在引言中所谈到的,在机器翻译系统中,语言技术是居于核心地位的技术,下面就班智达汉藏公文机器翻译系统的句法分析的一些问题作一讨论。

3.1词项信息同语法规则相结合随着技术的发展,词典在自然语言处理系统中的地位越来越重要,电子词典已成为自然语言处理实用系统开发的基础。

词典作为语法的一个重要的有机组成部分,在实用系统中,词典中每个词项所附加的信息需要同语法规则相结合,以实现由词项驱动规则,这是因为机器翻译的核心技术之一就是在两种不同语言的内部结构之间实现转换。

要实现两种语言的内部结构的转换,就得了解两种语言的语句结构的特点。

将现代汉语同现代藏语的语句结构进行比较,从大的方面说,差别主要有三条:(1) 语序不同。

汉语的语序通常是SVO(S是主语,V是谓语,O是宾语),藏语的语序是SOV。

例如:汉语句子汉语结构藏语句子藏语结构a. 我是教师S+V+O S+O+Vb. 我看了书S+V+O S+(格助词)+O+(格助词)+Vc. 学生在教室里.S+V+O S+O+(格助词)+V语序不同的另一个表现是:形容词、数词、代词作定语时,汉语中它们都在中心词的前面,而藏语中它们一般在中心词的后面,如:汉语句子汉语结构藏语句子藏语结构d. 新兵...+形容词.形容词+中心词...中心词e. 三国.数词+中心词...+数词...中心词f. 那个人.代词+中心词...+代词...中心词语序不同还表现在介词与名词的关系上,如:我用钢笔写字S+介+名+V+O S+(格助词)+名+介+O+V (2)形态变化不同。

汉语缺少形态变化,而藏语有形态变化,动词的时态形式就是一个突出表现。

藏语动词有时态形式,如“吃”有(现在式),(过去式)和(未来式)三种时态形式;而汉语动词没有时态形式,如“吃”,汉语中只有一种形式,时态是用特定词汇表示的,若表示过去式加“了”,表示未来式加“将”。

(3) 表达方式不同。

汉语句子主要靠词序来表达,而藏语句子主要借助格助词来表达,藏语句子中格助词的添接直接关乎句子所表达意思的正确与否。

这里就将汉语动词和藏语动词进一步比较一下: 汉语的动词有及物和不及物之分,藏语动词同样有及物和不及物之分,但又有明显区别。

在汉语中及物动词与主语、宾语的关系一般地只有一种形式,即SVO,但在藏语中,及物动词同主语、宾语的关系有多种形式,需要加不同的格助词;还有,汉语的及物动词没有自动和他动之区分,在藏语中及物动词有自动和他动之分(自动词的动作是可以由主观决定的,他动词的动作是不能由主观决定的),自动及物动词和他动及物动词同主语、宾语的搭配关系有不同的结构,这样一来,词典中动词所附加的信息就要反映出藏语动词的这个特点,才能做到同语法规则的结合,现举例说明之:若以t和i分别表示及物和不及物,以z、t和l分别表示及物动词的藏语自动、藏语他动和藏语领属关系,以x、l和k表示藏语及物动词的三种动词与主语、宾词的搭配关系,以X表示施动格用字,以L 表示示宾词,在藏语中,宾语表示谓语动作的对象,宾语还可以表示动作的地点、动作的结果和动作的工具。

L还表示做“领有”的主语的格助词。

则可将动词的词性标注的词项信息同藏语语法结构的信息联系起来,如下面的示例:动词词项信息汉语句子汉语结构藏语句子藏语结构a.来到 vvttl 我们来到北京S+V+O S+O+L+Vb. 保持 vvttx 我们 保持 联系 S+V+O S+X+O+Vc. 研究 vvttk 我们 研究 问题 S+V+O S+X+O+L+Vd.有vvtl 我有书S+V+O S+L+O+Ve. 来自vvtz 我来自青海S+V+O S+O+L+Vf. 得出结论 vvitl 我得出结论S+V S+L+Og. 讲课vvitx 老师讲课S+V S+X+V上述例子表明,词项信息同语法规则相结合,就能在受限语言的范围内,建立有较大适应性的机器翻译规则系统。

3.2 以动词为中心的句法分析二分法任何一个机器翻译系统都是要经过长期的调试和不断优化后才可能建成,这是因为词典中每增加一个常用词,就有可能增加新的规则,或者要修改原有的规则,而新规则的增加又往往导致整个系统中的规则重新组合和调整;因此,在机器翻译系统的研制中,尽量减少调整的工作量或缩短调整的时间,则是一个重要的问题。

这里,结合班智达汉藏公文机器翻译系统的研制介绍一种句子分析生成的方法,应用它可有效地减少规则数量,从而减少规则重组和调整的工作量。

现有的机器翻译系统一般都是以句子为单位进行翻译的,语法分析算法也是得到句子作为分析的结果的。

由于汉语和藏语,都有主语、谓语和宾语,因而也会很自然地采用三分法,即把句子按主、谓、宾三部分进行合成和转换。

我们在班智达汉藏公文翻译系统的研制中,采用了句法分析二分法,同样达到三分法的效果,但语法规则数量却大大减少了。

相关文档
最新文档