【CN110110336A】一种面向藏汉机器翻译的藏语句法语料库的构建方法【专利】
面向机器翻译的多语言语料库建立技术研究

面向机器翻译的多语言语料库建立技术研究随着全球化进程的推进,跨语言交流需求越来越大,机器翻译技术因此应运而生。
而要将机器翻译技术提升到更高的水平,一个必不可少的环节就是多语言语料库的建立。
一、什么是多语言语料库多语言语料库,即涵盖多种语言的文本数据集合,是机器翻译技术的重要基础。
通过对多语言语料库进行分析和处理,机器翻译系统可以利用其中的语法、词汇等信息,进行翻译工作。
多语言语料库的构建主要分为两个过程:首先是语料库的采集,即收集多种语言的文本数据;接着是语料库的处理,即对采集到的文本数据进行格式化、去重、分类等操作,为机器翻译系统提供有效的数据资源。
二、多语言语料库的建立技术手段1. 语料库采集语料库的采集是多语言语料库建立的第一个关键步骤。
在这个过程中,采用的技术手段包括:(1)爬虫技术:通过网络爬虫程序爬取公开的网页、文档等信息,并将其存储下来。
(2)对齐技术:将同一篇文本在不同语言中的版本进行对齐,以便对机器翻译系统进行训练和优化。
(3)有偏采样技术:在语料库采集过程中,可以使用有偏采样技术,如基于关键词的采样、基于语言家族的采样等,以提高语料库的质量和效率。
2. 语料库处理语料库的处理是多语言语料库建立的第二个关键步骤。
在这个过程中,采用的技术手段包括:(1)文本清洗技术:去除文本中的无效信息,如标点符号、HTML标签等,以确保语料库的干净和有效。
(2)分词技术:将文本中的词语切分出来,为机器翻译系统提供词汇数据。
(3)句子对齐技术:将多种语言的句子进行对齐处理,以便机器翻译系统更好地利用语法和词汇信息。
(4)语言模型技术:使用统计方法对多语言语料库进行建模,以提高机器翻译系统的翻译准确度。
三、多语言语料库对机器翻译的影响多语言语料库的建立对机器翻译的影响是多方面的。
其中最显著的影响是:1. 提高机器翻译的翻译准确度机器翻译系统的翻译效果与所使用的语料库质量有着密切的关系。
通过建立多语言语料库,机器翻译系统可以更好地利用多种语言的信息,提高翻译准确度和效率。
面向自然语言处理的大规模汉藏(藏汉)双语语料库构建技术研究

面向自然语言处理的大规模汉藏(藏汉)双语语料库构建技术研究才让加【摘要】双语语料库建设及其自动对齐研究对计算语言学的发展具有重要的意义.目前国内外已建立了各类汉荚双语语料库以及服务于汉英机器翻译的双语对齐语料库和短语库.为了少数民族语言的机器翻译的研究从一开始就从较高起点起步,需要对汉藏双语文本的篇章级、段落级、句子级自动对齐技术进行研究,为开发和研究汉藏机器翻译奠定基础.主要研究汉藏双语语料库对齐、汉藏双语词典抽取、双语语料的收集、整理、存储以及检索等关键技术.最终研究结果是藏文编码的自动识别与转换技术,藏语语料库构建技术、汉藏双语词典抽取技术、汉藏平行语料库句子和词语对齐技术,并建立面向汉藏机器翻译的大规模汉藏双语对齐语料库.%The obstruction of bilingual Corpus and its automatic alignment research are of vital importance for the development of the computational linguistics. So far various types of Chinese-English bilingual corpus, including substantial sentnece aligned corpus for MT, have been developed both in China and abroad. In order to start the MT research involving minority with the state-of-arts technology, the research on the automatic alignments at the discourse level, paragraph level and sentence level between the Chinese and Tibetan vi-texts are necessary. This paper introduces a project on the Sino-Tibetanbilingual corpus alignments, the Chinese -Tibetan bilingual dictionary extraction, and the key technologies in the corpus collection, storage and retrieval. The project has accomplished such technologies as the Tibetan coding identification and conversion, thTibetan corpus construction, the Sino-Tibetan bilingual dictionary extraction, the Sino-Tibetan sentence alignment and word alignments, and finally achieving a large-scale aligned Sino-Tibetan bilingual corpus for Chinese-Tibetan machine translation.【期刊名称】《中文信息学报》【年(卷),期】2011(025)006【总页数】5页(P157-161)【关键词】汉藏机器翻译;汉藏双语语料库;编码;对齐技术【作者】才让加【作者单位】青海师范大学计算机学院青海师范大学藏文信息处理省部共建教育部重点实验室青海省藏文信息研究中心,青海西宁810008【正文语种】中文【中图分类】FP3911 序言近年来,语料库资源对于自然语言处理研究的巨大价值已经得到越来越多学者的认可。
面向机器翻译的藏语短语句法研究

关键 词 : 句பைடு நூலகம்树库 ; 藏语 句法; 藏汉机器翻译
文献标志码 : A 中 图分 类 号 : T P 3 9 1 d o i : 1 0 . 3 7 7 8 J . i s s n . 1 0 0 2 - 8 3 3 1 . 1 4 0 3 - 0 2 4 0
目前 , 藏汉机 器 翻译技术 正在 起步 阶段 , 跟英 汉机 器 翻译相比 , 藏汉机器翻译 的难 度体现在 : ( 1 ) 藏 语和 汉语 的语序不 同 , 最明显 的特 征就是 谓
1 0 08 71 , Chi n a
W AN Fu c h e ng ,YU Ho ng z hi ,W U Xi ho ng ,e t a 1 .Re s e a r c h o f Ti b e t a n s y n t a x f o r ma c hi n e t r a ns l a t i o n.Co mp ut e r
2 . S p e e c h a n d H e a r i n g R e s e a r c h C e n t e r , Ke y L a b o r a t o r y o f Ma c h i n e P e r c e p t i o n a n d I n t e l l i g e n c e , P e k i n g Un i v e r s i t y , B e i j i n g
语 置后 , 即中心语后置 , 在基 于短语 的翻译模 型 中, 长距 离调序问题难 以解决 。
的难度也就更大 。 基于 以上藏 汉机器翻译 的难 度 , 藏 汉机器翻译系统 正在 由基于 短语的模型转 向为基 于句法的模型 , 基于句 法 的模 型在 机器翻译 中融入 了句法特征 , 更为重要 的是 可 以解决长 距离调序 的问题 , 这是 基于短语 的模型一直 需要解决 的问题 。 本文首 先针对藏语本体词法 、 句法进行 了分类和标 记研 究 , 然 后在确 定标 记集的基础 上 , 参 照宾大 中文树 库 的结构 , 构建 了藏 语短 语句法树 , 并 建立 了藏 语短语 树库编辑 工具 , 用于动态扩 展树 库规模 ; 最后 , 在藏语短 语树 库基础 上 , 提 出一种基 于句法并融合 了反 向转换文
藏族文学典籍藏英汉语料库多模态建设框架

3具体实施策略
3 . 1创建过程中的难点及解决办法
创 建 语 料 库 的 过 程 中 , 难 点 在 于 语 料 对 齐 。 语 料 对 齐 有 篇 章 、段 落 、句 子 、短 语 、 词
够体现 t } l 国特 色的文化要 采。少数民族文化作
为 其 不 可 或 缺 的重 要组 成 部 分 , 是 我 国 各 族 人 民 共 同 拥 有 的 宝贵 精 神 财 富 和 资 源 。 而 少 数 民 族 文 献 是 记录 有关 少 数 民 族 在 I 司时 期 、 不 同 地 域 、 不 同 学 科 , 以 不 同 方 式进 行 社 会 实 践 的 知识和经验总结的所有载体 。 通 过 文字 、图 像 、
对译者提比很高要求 ,若是少数 民族译 者,需
精通 英 语 并 对 其 民 族 的文 化 有 所 感 悟 总 结 ,若 是 英 语 困 家 译 者 , 需 要 长 期 生 活 住 少数 民族 地 区 , 深 入 了 解 至 少 一 个 少 数 民族 的 生活 习惯 、
对少 数 民 族 语 言 并 多 见 涉 及 少 数 民 族 语 占
【 关键词 】语料 库 建设 框 架 藏 族文 学典籍
计算机辅助翻译
与英 语 的双 语 语料 库 , 更 是 少 之 又 少 : 而 考 虑 到 翻 译 成本 、 时 间 、 精 确 度 以 及 双 语 翻 译 人 才 的缺 乏 ,建 立 一个 这 样 的 双 语语 料 库 尤 为 癌 得
L P CC (L i t e r a t u r e P a r a l l e l C o pu r s f o r C h i l d r e n ・
生 成 人 名库 ,利 用 传 统 文 法 中 人 名 下 文 信 息 译 本 语 料
机器翻译中的平行语料库构建方法研究

机器翻译中的平行语料库构建方法研究机器翻译(Machine Translation,MT)是指利用计算机自动将一种语言的输入文本翻译成另一种语言的过程。
而构建一个高质量的机器翻译系统需要大量的平行语料库(Parallel Corpus)作为训练数据。
平行语料库是指包含源语言和目标语言对应句子的文本集合。
本文将探讨机器翻译中平行语料库的构建方法研究。
一、平行语料库的来源平行语料库的构建是机器翻译研究的基础,平行语料库的来源可以有多种途径:1. 已有翻译文本:可以利用已有的翻译文本作为平行语料库,这些文本可以是各种领域的翻译作品、新闻报道、书籍等。
这类平行语料库数量庞大,但质量参差不齐。
2. 在线平行语料库:互联网上有很多平行文本资源,比如双语网站、双语新闻等。
可以通过网络爬虫工具获取这些数据集,然后进行清洗和预处理。
3. 语料库对齐:对于只有源语言或目标语言的文本集合,可以通过语料库对齐技术,将源语言和目标语言的句子进行匹配,构建平行语料库。
二、平行语料库的清洗和预处理平行语料库获取后,需要进行清洗和预处理,以去除噪声和提高质量。
主要的清洗和预处理方法有以下几种:1. 句子对齐:对于一个源语言句子和一个目标语言句子,需要确保它们是对应的关系。
利用句子对齐技术,可以自动找到对应的源语言和目标语言句子。
2. 噪声去除:平行语料库中可能包含一些噪声数据,如乱码、标签、重复句子等。
可以使用正则表达式或其他文本处理工具去除这些噪声数据。
3. 分词和标记:对于中文和其他分词语言,需要进行分词处理,将文本按照词语进行切分。
同时,还可以使用词性标注、命名实体识别等工具对句子进行标记。
4. 数据过滤:对于大规模的平行语料库,可以使用一些质量评估指标过滤出高质量的数据。
例如,句子长度、词汇覆盖度、语法正确性等。
三、平行语料库的增强方法在构建平行语料库的过程中,常常会面临数据不足的问题。
可以采用以下方法增强平行语料库的规模和质量:1. 人工翻译:通过雇佣专业翻译人员进行人工翻译,获得高质量的平行语料库。
基于ocr技术辅助构建藏汉音译数据集的方法及系统

一、概述OCR(Optical Character Recognition,光学字符识别)技术是一种通过对文本图像进行分析、识别和理解来实现文字转换的技术。
在信息化时代,随着数字化转型的加速发展,OCR技术在图像处理、文字识别、自然语言处理等领域得到了广泛应用。
其中,文字识别是OCR 技术的核心应用方向之一,它可以将图像中的文字转换成可编辑的文本或数字形式,从而帮助人们更方便地进行信息检索、存储和管理。
藏汉音译数据集是用于汉藏语言文本处理、机器翻译、语音识别等领域的重要资源。
但由于藏文和汉文字符之间的差异性和复杂性,传统的基于规则的音译方法在构建藏汉音译数据集时存在一定的局限性。
本文提出了一种基于OCR技术辅助构建藏汉音译数据集的方法及系统,通过文字识别技术实现对藏文文本的快速扫描和识别,进而提高音译数据集构建的效率和准确性。
二、方法与系统设计1. 基于OCR技术的藏文文字识别a. 文本图像预处理:对藏文文本图像进行去噪、二值化、分割等预处理操作,以提高文字识别的准确性和稳定性。
b. 文字特征提取:利用图像处理技术和特征提取算法,提取藏文文字的特征信息,如轮廓、笔画等。
c. 字符识别与校正:采用OCR引擎对藏文文字进行识别,并通过校正算法对识别结果进行修正和优化。
2. 藏汉音译数据集构建a. 藏文文字识别:利用基于OCR技术的藏文文字识别模块,快速实现对藏文文本的扫描和识别。
b. 音译关系提取:通过规则匹配和自然语言处理技术,从识别的藏文文本中提取出对应的汉字音译信息。
c. 数据集组织与存储:将提取的音译信息按照一定的数据格式组织和存储,构建起完整的藏汉音译数据集。
三、实验与结果分析本文设计了基于OCR技术辅助构建藏汉音译数据集的系统,并在实际的藏文文本数据集上进行了验证和实验。
实验结果表明,基于OCR技术的藏文文字识别模块能够有效地识别藏文文本,并且在音译数据集构建过程中能够提高效率和准确性。
一种融合句法结构的藏汉语言神经机器翻译方法[发明专利]
![一种融合句法结构的藏汉语言神经机器翻译方法[发明专利]](https://img.taocdn.com/s3/m/b877716e680203d8cf2f247d.png)
专利名称:一种融合句法结构的藏汉语言神经机器翻译方法专利类型:发明专利
发明人:史树敏,罗丹,武星,苏超,黄河燕
申请号:CN202011500300.8
申请日:20201218
公开号:CN112613326A
公开日:
20210406
专利内容由知识产权出版社提供
摘要:本发明涉及一种融合句法结构的藏汉语言神经机器翻译方法,属于机器翻译及特征融合应用技术领域。
本方法旨在在神经机器翻译的框架中,引入更多语言本身的句法结构,从而帮助提升机器翻译质量,通过优化transformer的位置编码技术问题,提出相对位置编码的方法,进行句法结构信息的融入。
本方法通过提取基于依存关系的结构位置编码方法优化transformer,最终达到提升藏语‑汉语神经机器翻译质量的目的。
本方法能有效提高自注意力神经网络在学习两种语言之间的关联的效率,缓解两种语言由于句法结构不同带来的问题,降低算法的时间复杂度,解决了传统模型采用绝对位置编码造成的上下文信息丢失问题,减少了低资源神经机器翻译的误翻译、漏翻译的发生。
申请人:北京理工大学
地址:100081 北京市海淀区中关村南大街5号
国籍:CN
代理机构:北京正阳理工知识产权代理事务所(普通合伙)
代理人:张利萍
更多信息请下载全文后查看。
面向藏汉数字翻译的研究

面向藏汉数字翻译的研究摘要:一、引言1.藏汉数字翻译的重要性2.研究背景与现状3.本文目的与结构二、藏汉数字系统概述1.藏文数字系统2.汉文数字系统3.数字翻译的挑战三、藏汉数字翻译方法与技术1.基于规则的翻译方法2.基于实例的翻译方法3.基于机器学习的翻译方法4.跨学科研究方法四、面向藏汉数字翻译的应用案例1.文献资料翻译2.藏族地区信息化建设3.民族文化交流五、面向藏汉数字翻译的未来研究方向1.提高翻译准确性与效率2.拓展数字翻译应用场景3.促进民族语言信息化发展六、结论正文:一、引言藏汉数字翻译在民族文化交流、藏族地区信息化建设等方面具有重要意义。
随着我国民族政策的不断优化和完善,藏汉数字翻译的需求日益增长。
本文旨在对面向藏汉数字翻译的研究进行综述,以期为该领域的发展提供参考。
二、藏汉数字系统概述藏文和汉文数字系统具有各自的特点和规律。
藏文数字系统以音节为单位,采用独特的计数法;汉文数字系统则采用十进制计数法。
这两种数字系统在表达数字时存在较大差异,给藏汉数字翻译带来挑战。
三、藏汉数字翻译方法与技术藏汉数字翻译方法主要包括基于规则的翻译方法、基于实例的翻译方法、基于机器学习的翻译方法等。
其中,基于机器学习的翻译方法在近年来取得了显著的进展,如基于深度学习的神经网络翻译模型。
此外,跨学科研究方法如语言学、计算机科学等的融合也为藏汉数字翻译提供了新的思路。
四、面向藏汉数字翻译的应用案例藏汉数字翻译在多个领域有广泛应用。
例如,文献资料翻译可以帮助研究人员更好地理解和交流藏族文化;藏族地区信息化建设需要将汉文数字系统翻译成藏文数字系统,以便于当地居民使用;民族文化交流则需要克服藏汉数字系统的差异,实现顺畅沟通。
五、面向藏汉数字翻译的未来研究方向未来,面向藏汉数字翻译的研究应关注提高翻译准确性与效率,拓展数字翻译应用场景,促进民族语言信息化发展等方面。
此外,跨学科研究方法将继续发挥重要作用,推动藏汉数字翻译取得更大突破。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201910368324.3
(22)申请日 2019.05.05
(71)申请人 西北民族大学
地址 730030 甘肃省兰州市城关区西北新
村1号
(72)发明人 万福成
(74)专利代理机构 西安研创天下知识产权代理
事务所(普通合伙) 61239
代理人 杨凤娟
(51)Int.Cl.
G06F 17/28(2006.01)
G06F 17/27(2006.01)
(54)发明名称
一种面向藏汉机器翻译的藏语句法语料库
的构建方法
(57)摘要
本发明公开了一种面向藏汉机器翻译的藏
语句法语料库的构建方法,包括以下步骤:A、将
具有句对齐结构的平行语料库中的藏语句子进
行词性标记;B、利用词对齐工具将藏语句子中的
词汇进行词对齐,形成藏语词、汉语词对齐匹配
形式;C、利用树库制作工具,将具有词性标记和
词对齐信息的藏语词逐个进行短语标记;D、运用
自增模式,扩展藏语句法语料库。
本发明能够解
决藏语句法语料库稀缺的问题,从而提高翻译质
量。
权利要求书1页 说明书3页CN 110110336 A 2019.08.09
C N 110110336
A
权 利 要 求 书1/1页CN 110110336 A
1.一种面向藏汉机器翻译的藏语句法语料库的构建方法,其特征在于,包括以下步骤:
A、将具有句对齐结构的平行语料库中的藏语句子进行词性标记;
B、利用词对齐工具将藏语句子中的词汇进行词对齐,形成藏语词、汉语词对齐匹配形式;
C、利用树库制作工具,将具有词性标记和词对齐信息的藏语词逐个进行短语标记,并逐层进行合并直至形成一个完整的句法树;
D、运用自增模式,扩展藏语句法语料库。
2.根据权利要求1所述的一种面向藏汉机器翻译的藏语句法语料库的构建方法,其特征在于,所述步骤B中将藏语句子中的词汇进行词对齐的方法包括以下步骤:
a、运用词对齐工具训练双语句对齐平行语料库;
b、以词对齐中间结果作为藏语汉语词匹配形式,并形成具有类似括号匹配的形式;
c、将词对齐的结果以及词性标注的结构统一处理成具有括号匹配形式的内容,提供下一步处理作为输入。
3.根据权利要求1所述的一种面向藏汉机器翻译的藏语句法语料库的构建方法,其特征在于,所述步骤C中逐层进行合并直至形成一个完整的句法树的方法包括以下步骤:
a、将具有括号匹配形式的带有词性标记和词对齐信息的各个单元输入到树库制作工具中;
b、以词性为基础,逐个将以词为单元的内容合并,并以短语标记结尾;
c、逐个合并短语结构标记为新的短语结构标记,最终合并成一个句子,并标注以句子标记结尾。
4.根据权利要求1所述的一种面向藏汉机器翻译的藏语句法语料库的构建方法,其特征在于,所述步骤D中运用自增模式扩展藏语句法语料库的方法包括以下步骤:
a、将人工制作的藏语句法语料库作为训练语料库,运用BerkerleyParser句法分析器作为句法分析工具;
b、解码测试语料库,得到待人工校对的藏语句法树;
c、人工校对藏语句法树的结果,将校对后的结果加入到训练语料库中,继续步骤a,以这种模式扩展藏语短语句法树库。
2。