面向汉英机器翻译的 双语语料库的建设及其管理

合集下载

《面向机器翻译的蒙汉评测语料库研究》范文

《面向机器翻译的蒙汉评测语料库研究》范文

《面向机器翻译的蒙汉评测语料库研究》篇一一、引言随着人工智能技术的飞速发展,机器翻译技术在跨语言交流中扮演着越来越重要的角色。

蒙汉机器翻译作为其中一项重要应用,其准确性和流畅性直接关系到民族语言文化的传播与交流。

因此,对蒙汉机器翻译进行深入研究,建立高质量的蒙汉评测语料库显得尤为重要。

本文旨在探讨面向机器翻译的蒙汉评测语料库的研究现状、方法及挑战,以期为蒙汉机器翻译的进一步发展提供参考。

二、蒙汉机器翻译研究现状目前,蒙汉机器翻译技术已经取得了一定的研究成果,但在实际应用中仍存在诸多问题。

其中,缺乏高质量的蒙汉评测语料库是制约其发展的重要因素之一。

蒙汉评测语料库是评估蒙汉机器翻译质量的重要依据,其质量和规模直接影响着机器翻译的准确性和流畅性。

因此,建立高质量的蒙汉评测语料库对于推动蒙汉机器翻译技术的发展具有重要意义。

三、蒙汉评测语料库的研究方法1. 语料收集:为了建立高质量的蒙汉评测语料库,需要收集丰富的蒙汉双语语料。

这包括各类文本、文献、新闻、小说、科技文献等。

同时,还需要考虑语料的领域多样性,以覆盖不同领域的翻译需求。

2. 语料标注:收集到的语料需要进行标注,以便评估机器翻译的准确性。

标注内容包括词汇、句法、语义等信息,以及人工翻译的参考译文。

3. 语料处理:对标注后的语料进行清洗、过滤和整理,去除无效、重复和错误的数据,保证语料的质量和可靠性。

4. 评估指标:建立评估指标体系,包括准确率、召回率、F 值等,用于评估机器翻译的性能和效果。

四、蒙汉评测语料库的应用与挑战蒙汉评测语料库的应用主要包括两个方面:一是用于评估蒙汉机器翻译的性能和效果;二是为蒙汉机器翻译的研究提供数据支持。

通过建立大规模、高质量的蒙汉评测语料库,可以为研究人员提供丰富的数据资源,促进蒙汉机器翻译技术的不断创新和发展。

然而,建立高质量的蒙汉评测语料库也面临着诸多挑战。

首先,蒙汉语言文化差异较大,如何保证译文的准确性和流畅性是一个重要问题。

军事英汉汉英平行语料库建设存在的问题及对策

军事英汉汉英平行语料库建设存在的问题及对策

当代语料库研究出现于 2 O世纪 6 0年代 ,其标志是美国 B r o w n 语料库的建成和使用。语 料库研究快速发展始于 2 0 世纪 8 0 年代 ,随着 P c机性能的提高和普及 ,语料统计分析不再 是一件繁琐的事 ,普通研究者只要学会在 P c机上运行语料库分析工具就有能力从事语料统
王 岚 .严灿 勋2
( 1 . 解放军外 国语 学院英 美系 ,河南 洛阳 4 7 1 0 0 3 ;2 . 解 放军外国语学院语言工程系 。河南 洛 阳 4 7 1 0 0 3 )
摘 要 :军事英汉汉英平行语料库建设对军 事翻 译工作和 自然语 言处 理技术发 展等有 重要 意
义 ,但 我国这方面建 设却严重不足。各相关军事单位 可以从本单位 军事资料 翻译 等实际应用 出发 。
计 分析 。另 外 ,从 大 规模语 料 分析 中获 得 的数 据 真实 可靠 ,说服 力 强 ,并 且 能够揭 示很 多平 时 观察 不到 的语 言现 象 。网络 技术 的发 展为语 料 的获取 和 共享 提供 了方便 。同时还 为语 料库
研究者提供 了更多语料处理工具 , 从而进一步促进 了围绕语料库所进行的各种研究和应用 。 现在 ,语料库语言学已涉及语言学的各个领域 ,而且已经影响到其他社会科学 问题的探索 。

3 4・
解放军 外国语学 院学报
2 0 1 5生

些科研 院所 和商 业公 司 ,不 但基 于大 规模平 行语 料库 建设 了多套 全 自动机 器翻译 系统 ,而
且 还开 发 出了支持 受 限领域使 用 的 ,甚 至是 面 向通 用领 域 的实时语 音通信 翻译 系统 。如 中 国
科学院 自动化所的紫冬 口译 ( Z T S p e e c h )软件 ( 杜金华等 2 0 1 3 : 4 ) 。 相 比其 他平行 语料 库 ,我 国军事领 域平 行语料 库建设 数 量少 ,规模 小 。本文 以军事英 汉

浅谈高速铁路英汉双语语料库建设项目

浅谈高速铁路英汉双语语料库建设项目

浅谈高速铁路英汉双语语料库建设项目【摘要】这篇文章旨在探讨高速铁路英汉双语语料库建设项目,首先介绍研究背景和研究目的。

正文部分包括高速铁路英汉双语语料库的建设、语料库内容、以及语料库在实际应用中的价值。

文章还会讨论建设项目的方法和步骤,以及可能面临的挑战。

结论部分将对文章内容进行总结,并展望未来研究方向。

通过这篇文章,读者将能够深入了解高速铁路英汉双语语料库建设项目的重要性和意义,以及其中所涉及的关键内容和挑战。

【关键词】高速铁路、英汉双语、语料库、建设项目、研究背景、研究目的、正文、内容、应用价值、方法、步骤、挑战、总结、展望未来。

1. 引言1.1 研究背景高速铁路英汉双语语料库建设项目是在当前信息化时代背景下的重要举措。

随着中国高速铁路的不断发展壮大,人们对高速铁路相关信息的需求也日益增加。

目前针对高速铁路的英汉双语语料库却相对匮乏,无法满足人们对于高速铁路信息的准确获取和理解需求。

通过建设高速铁路英汉双语语料库,可以收集整理包括列车时刻表、运行状态、车站信息等在内的丰富信息资源,为用户提供更为全面、准确的信息查询和阅读服务。

通过对高速铁路的英汉双语语料进行整理和分类,可以为高速铁路领域的专业研究和教学提供可靠的语言素材和参考资料。

建设高速铁路英汉双语语料库不仅有利于提升高速铁路信息的传播效率和质量,更能促进高速铁路领域的研究和学术交流。

在信息化和全球化背景下,构建这样一份跨语言、跨文化的语料库对于推动高速铁路行业的发展具有重要意义和深远影响。

1.2 研究目的研究目的是为了搭建一个高速铁路英汉双语语料库,以满足日益增长的高速铁路领域专业人士和学习者的语言学习和研究需求。

通过收集、整理和分析高速铁路相关的英文和中文文本,建立起一个包含丰富多样语料的数据库,为高速铁路领域的语言学研究提供有效的支持。

通过语料库的构建,也可以促进中英文之间的文化交流和理解,推动高速铁路领域的国际合作与交流。

通过对高速铁路英汉双语语料库的建设工作,可以探索和提高自然语言处理技术在高速铁路领域的应用效果,为相关技术的进一步发展提供更多的实践基础和研究资源。

学术期刊论文摘要汉英双语语料库构建研究-英语论文-语言学论文

学术期刊论文摘要汉英双语语料库构建研究-英语论文-语言学论文

学术期刊论文摘要汉英双语语料库构建研究-英语论文-语言学论文——文章均为WORD文档,下载后可直接编辑使用亦可打印——论文摘要指以提供文献内容梗概为目的,不加评论和补充解释,简明、确切地记述文献重要内容的短文。

(国家标准GB 47) 学术论文摘要概括论文的主要信息,对研究的目的、方法、结果和最终结论有一个比较完整的说明,对于论文的发表、收录、检索及科研人员的学术交流等起着重要的作用。

当今时代,英语已成为国际交往的世界性语言,英文学术论文摘要的重要性日益显现。

近年来,不少中外学者(如Swales1990、段平2002、滕延江2008、邓军涛2013 等) 对论文摘要的语言特点与翻译进行了比较广泛深入的分析,其成果无疑有利于该领域的实践与发展。

然而,大多数相关研究都是基于研究者个人的经验,选取的例句和掌握的语料比较有限。

不少学习者和研究人员撰写及翻译摘要的能力还比较欠缺。

鉴于此,本课题组决定建设学术期刊论文摘要汉英双语语料库,一方面从大的语料基础上客观描述英文摘要的文体特征和进行汉英翻译研究,同时将该语料库用作翻译教学平台,试验并总结数据驱动的教学方法,推动学术研究与翻译教学共同发展。

一、学术期刊论文摘要汉英双语语料库的建设(一) 语料库与双语语料库语料库是指按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续语言运用文本或话语片段而建成的具有一定容量的大型电子文本库(杨惠中,2002) 。

语料库具有语料真实、丰富、代表性强以及融合了计算机技术等特点,在语言研究和教学方面具有较大的优势与应用价值。

按照语料的语种,语料库可以分成单语、双语和多语语料库。

双语和多语语料库还可分为平行语料库和可比语料库。

平行语料库收集原文与译文双语对照的文本,按设定的标准对语料进行句子或段落的对齐。

可比语料库收集具有可比性的语料,分别放置于不同的文本库,主要用于语言对比研究。

关于双语语料库的作用,不少专家从不同角度进行了探讨。

机器翻译中的语料库构建与翻译模型训练研究

机器翻译中的语料库构建与翻译模型训练研究

机器翻译中的语料库构建与翻译模型训练研究近年来,随着机器学习和自然语言处理技术的不断发展与应用,机器翻译已经成为了现代社会中一个重要且受到广泛关注的研究领域。

在机器翻译中,语料库的构建和翻译模型的训练是关键的环节,它们直接影响到机器翻译系统的准确性和性能。

本文将详细介绍机器翻译中的语料库构建与翻译模型训练的研究内容。

语料库构建是机器翻译的基础,它提供了大量的翻译训练样本。

语料库的构建可以通过多种途径进行,如从互联网上搜集已有的双语文本、人工标注翻译对、以及从现有的平行语料库中提取数据等。

在构建语料库的过程中,可以使用自动化的技术来加速和优化这个过程,比如使用网络爬虫来获取互联网上的双语文本数据。

此外,还可以利用现有的平行语料库,如欧洲议会的多语种平行语料库(Europarl)、联合国的多语种会议记录语料库(UN)等。

这些平行语料库已经被广泛应用于机器翻译的研究中,它们具有高质量和丰富的语言对,可用于翻译模型的训练。

语料库的质量对机器翻译的翻译效果至关重要。

质量低下的语料库可能会导致翻译模型的性能下降。

因此,在构建语料库时需要注意以下几个方面:首先,语料库应包含大量的双语对,以确保训练模型的覆盖面广。

其次,语料库应具有多样性,覆盖不同领域、不同风格、不同层次的文本。

这有助于提高翻译模型的泛化能力,使其在面对新的文本样本时具备更好的适应能力。

此外,语料库中的错误和噪音应被最小化,以减少对模型的干扰。

最后,对于特定的翻译任务,还可以针对性地收集专门领域的语料库,以提高翻译模型在该领域的准确性。

翻译模型的训练是机器翻译研究中的核心环节。

主要的翻译模型包括基于规则的模型、统计机器翻译模型(SMT)和神经网络机器翻译模型(NMT)等。

这些模型都需要通过大量的语料进行训练,以学习翻译的规律和特点。

针对不同的模型,训练过程也不同。

传统的基于规则和统计的模型需要进行特征提取和参数调优等繁琐的步骤,而NMT模型则基于深度学习的方法,使用神经网络进行端到端的训练。

敦煌文化汉英术语库建设及术语管理研究

敦煌文化汉英术语库建设及术语管理研究

敦煌文化汉英术语库建设及术语管理研究敦煌文化是中国古代文化中的一种独特文化现象,被誉为“东方艺术的宝库”。

研究敦煌文化的过程中,涉及到大量的术语,这些术语对于准确理解和传承敦煌文化具有重要意义。

建设和管理敦煌文化汉英术语库在研究和传承敦煌文化方面起到了关键性作用。

敦煌文化汉英术语库是指将敦煌文化研究中的中文术语和对应的英语术语进行整理和管理的数据库。

通过建设与管理,可以有效地存储敦煌文化领域的术语,方便研究者和爱好者进行查阅和参考,促进敦煌文化的研究和传播。

敦煌文化汉英术语库的建设可以从以下几个方面进行:一、术语收集与整理建设一个完善的敦煌文化汉英术语库需要有一个广泛而全面的术语收集与整理工作。

可以通过查阅文献、专家访谈、学术会议等途径,积累敦煌文化领域的术语,然后进行分类与整理。

根据不同的专题和领域,将术语进行分组,形成条目化的数据库。

二、翻译与对应敦煌文化汉英术语库的建设离不开对术语的翻译与对应工作。

由于敦煌文化具有一定的独特性和复杂性,翻译工作需要注重对文化内涵的准确理解和表达。

需要将中文术语与英文术语进行对应,确保翻译的准确性和一致性。

三、标准与规范敦煌文化汉英术语库的管理需要遵循一定的标准与规范。

可以参考国际上通用的术语管理标准,例如《国际标准化组织术语标准化导则》和《汉英术语翻译原则与方法》等,建立起相应的标准和规范体系。

标准与规范的制定可以提高术语库的可用性和应用范围,促进研究的交流与合作。

四、互联网与技术支持随着互联网技术的发展,可以利用现代信息技术手段来支持敦煌文化汉英术语库的建设与管理。

可以建立一个在线的术语库平台,方便用户进行查阅与使用。

可以利用机器翻译技术和语义分析技术,提高术语的翻译准确度和搜索效率。

敦煌文化汉英术语库的建设和术语管理研究对于敦煌文化的研究和传承具有重要的意义。

通过建立一个全面而系统的术语库,可以更好地记录和传承敦煌文化的智慧和经验,提高研究的准确性和深度,促进敦煌文化在国内外的传播与交流。

浅谈高速铁路英汉双语语料库建设项目

浅谈高速铁路英汉双语语料库建设项目

浅谈高速铁路英汉双语语料库建设项目1. 引言1.1 项目背景高速铁路英汉双语语料库建设项目的项目背景是由于中国高速铁路建设的快速发展和“一带一路”倡议的推动,越来越多的外国友人来中国参观交流。

由于语言障碍,很多外国友人在了解和体验中国高速铁路发展的过程中遇到了困难。

为了更好地促进中外友好交流,建设一个涵盖高速铁路相关信息的英汉双语语料库尤为重要。

目前,虽然已经存在一些高速铁路相关的英汉翻译资料和论文,但这些资料散落在各个领域,不够系统和全面。

建设一个高速铁路英汉双语语料库,将大大提升外国友人了解中国高速铁路的便利性和准确性。

通过这个项目,我们可以让外国友人更加直观深入地了解中国高速铁路的建设成就和发展态势,促进各国在高速铁路技术和运营管理方面的交流与合作。

这也为中国高速铁路行业的国际化发展提供了一定的支撑和参考。

1.2 项目目的项目目的是为了促进高速铁路英汉双语语料库的建设和完善,以提供给研究人员、教育机构和企业使用。

通过建立这样一个语料库,可以为高速铁路领域的英汉翻译提供更多可靠的语言材料,提高翻译质量和效率。

该项目旨在促进中英两国在高速铁路技术领域的合作与交流,促进技术创新和知识传播。

通过建设高速铁路英汉双语语料库,还可以促进高速铁路行业人才的培养和专业知识的传承,为高速铁路的发展做出贡献。

该项目的目的是促进中英两国在高速铁路领域的合作与交流,提高高速铁路领域的翻译质量和效率,促进技术创新和知识传播,同时也为高速铁路行业的发展和人才培养做出贡献。

1.3 研究意义高速铁路英汉双语语料库建设项目的研究意义主要体现在以下几个方面:建设这样一份英汉双语语料库可以为高速铁路相关领域的信息检索、翻译和语言教学提供重要支持。

在高速铁路建设的过程中,涉及到大量的技术规范、施工方案、安全管理等内容,这些内容需要在不同语言之间进行准确的传递和理解。

通过建设英汉双语语料库,可以帮助相关工作者更方便地获取到这些信息,提高工作效率。

机器翻译中的语料库构建与翻译模型训练

机器翻译中的语料库构建与翻译模型训练

机器翻译中的语料库构建与翻译模型训练随着全球化的加速和信息技术的快速发展,机器翻译(Machine Translation,MT)成为了现代翻译领域的热门研究方向之一。

机器翻译的目标是利用计算机技术将一种自然语言的文本自动翻译成另一种自然语言的文本,并能够保持原文的意思表达和语法结构。

在机器翻译的过程中,语料库的构建和翻译模型的训练是非常关键的步骤。

语料库是指存储大量平行语料(Parallel Corpus)的数据库,其中包含了源语言和目标语言的句子对。

语料库的构建过程包括收集、整理和标准化等环节。

建立一个高质量的语料库对于训练准确且可靠的翻译模型至关重要。

首先,语料库的收集是语料库构建的第一步。

语料库的收集可以通过多种途径进行,如爬取互联网上的双语网站、购买商业语料库或者与合作伙伴共享数据等。

当然,收集语料库时需要保证所收集到的数据具有高质量和代表性。

此外,还需要注意保护用户的隐私和版权等问题。

其次,语料库的整理是对收集到的语料进行过滤、去重和格式化等处理。

这一过程的目标是保留高质量的语料,同时去除错误、噪音和重复的句子对。

通常情况下,语料库中会存在一些低质量的数据,如拼写错误、语法错误或者上下文不完整等。

因此,在整理过程中,需要使用自然语言处理(Natural Language Processing,NLP)技术来过滤这些低质量的数据。

然后,标准化是对语料库进行统一和规范化处理。

由于语料库的来源各异,可能存在不同的数据格式、标记和编码方式等。

为了使语料库能够被翻译模型训练所使用,需要对语料进行统一的编码和标准化处理。

这可以通过使用统一的数据格式和转换工具来实现。

语料库的构建是机器翻译的基础,而翻译模型的训练是机器翻译的核心。

在语料库构建完成之后,需要利用这些平行语料进行翻译模型的训练。

翻译模型的训练是一个机器学习的过程,需要利用统计学方法、神经网络等技术来建立模型。

一般来说,翻译模型可以分为统计机器翻译(Statistical Machine Translation,SMT)和神经机器翻译(Neural Machine Translation,NMT)两种类型。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

图!
双语语料库的语料组成
三、 语料库的编码
管理这些平行语料的理想方式是设计一个专 用管理系统。语料库中所有语料均需按照同样的 方式编码或标记。这可以使得语料库能够独立于 软件平台和具体的应用程序,具有较强的数据可 交换性。目前国际上有两个著名的语料库标记标 准建议方案,一个是正处在开发之中的语料库编 码标准 ) *+, & , 另外一个是文本编码标准 -+.。-+. 已为一些著名语料库所采用,例如英国国家语料 库 ) /0* & 。 这两个标准都是基于 ,123 标记语言而 制定的。考虑到我们的语料的主要来源是国际互 联网, 大部分语料是以超文本标记语言 ) 4-23 & 形 式存在的。因此, 如何对语料库进行编码存在三种 ) % & 采用国际上业已制定的标准方案; )!& 直 选择: 接采用互联网上广泛使用的超文本标记语言 ( ) $ & 制定 , 这样似乎可以有效减少工作量; 4-23) 一个新的标记方案。 方案 ( 尽管可以减少工作量, 但并不可行。 !) 首先,超文本标记语言是目前世界上最为流行的 网页标记语言,不同的支持公司都对其作了不同 的扩充, 语法要求并不严格, 常常可以用不同的标 记形式来标记不同的内容,因而不适合用来标记 ・ !"・
计算机辅助术语研究
!""# 年第 $ 期
面向汉英机器翻译的 双语语料库的建设及其管理
0 常宝宝
,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,-
詹卫东
张华瑞( 北京大学计算语言学研究所)
,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,-
近年来, 在语言信息处理的研究和开发中, 单 语和多语语料库 ( 以双语语料库居多) 的作用日益 凸显出来。 特别是在机器翻译研究中, 人们提出了 多种基于双语语料库的新方法,例如采用所谓的 基于实例 ( CE*1.&3 B F*/3<) 的 或 基 于 存 储 ( @-*’/&*4%,’ G31,-7)的机器翻译方法,可以直接 使用经过对齐的双语语料改善机器译文的质量。 此外,也可以通过统计模型从双语语料库中获取 双语词典和翻译模式,从而改进传统的机器翻译 方法。 除中文信息方面的应用之外, 双语语料库的 建设对于双语词典编纂、跨语言的对比研究也具 有重要价值。 目前关于双语或多语语料库的研究大致可分 ・!"・
四、 语料的标注和对齐
语料库标注工作取决于语料库将以何种方式 使用。我们希望部分语料库资源能够直接用于改 善机器译文的质量,也希望能够从语料库中学习 到从汉语到英语的翻译知识,例如汉英双语词典、 翻译模式等。为此, 目前我们正在进行或计划对语 料库进行下列标注工作: - 9 中文分词和词性标注; 7 9 英文词性标注; 中文机构名 ! 9 中文和英文的专名标注 ( 识别已作了小规模的实验) ; 英文文本句子一级的对齐; ; 9 中文、 < 9 中文专名和英文专名的对齐; = 9 中文词语的详细语法特征标注。这项 标注将根据 《 现代汉语语法信息词典规格说 〔 进行。 在现代汉语语法信息词 明书》 俞 ->>=〕 典中,每类词都可能拥有多达几十个的语法 特征信息, 但在具体的上下文环境中, 并非每 个语法特征都有所表现,我们希望这项标注 将有助于学习词汇翻译知识。目前对这项标 注已经进行了一些小规模的实验。 上述标注工作基本按照下面的过程进行: - 9 首先利用软件工具进行自动标注;7 9 人工校对标 注结果。目前已有约 -" 万字的中文语料进行了分 词和词性标注, 对应的译文进行了词性标注, 这部
都还没有见到有关系统的、ቤተ መጻሕፍቲ ባይዱ经过深度加工的、 以汉 语为源语言的双语语料库的报道。 北京大学计算语言学研究所、清华大学智能 技术国家重点实验室和中国科学院计算所三家单 位联合承担了国家 "#$ 课题—— — “ 面向新闻领域 的汉英机器翻译系统” 的研制开发任务。系统决定 采用基于多种方法的多引擎体系结构 ( 将基于规 则的方法与基于语料库的方法相结合) 。为此,需 要建立一个具有一定规模的经过对齐处理的汉英 双语语料库。本文将简要介绍这样一个服务于汉 英机器翻译的双语语料库的设计、 收集、 编码和加 工的情况。
!""# 年第 $ 期
计算机辅助术语研究 收集了一些具有非常流畅自然的中文翻译的英语 材料。 $ & 文本应以全文形式收入语料库,这将有益 于篇章知识的获取和学习,一个实用的机器翻译 系统最终必须面对全文的翻译。 ’ & 就创作时间而言,所有收入的文本应当是 最近几年的文本,这样才能够反映当下语言的实 际使用情况。 在上述原则的指导下,我们收集了大约 %(( 万字的汉语全文语料及其英语译文。这些语料基 本来源于国际互联网。大致可分为四类:新闻报 道、 新闻发布会文稿、 白皮书以及杂文。其构成比 例如图 % 所示:
!""# 年第 $ 期
还要标记命名实体,例如人名、地名以及机构名 等。 8 7 9 中文文本语言学标记文件和英文文本语 言学标记文件 主 要标 记 中 英 文 文 本 中 有 关词 语 的 词 性 信 息、 短语的结构信息、 分句的组成关系信息、 句子 结构成分信息等。 8 ! 9 中文英文对齐信息文件 标记中文文本和英语译文文本之间在各个级 别上的对齐关系,包括段落级对齐、句子级对齐、 词一级的对齐、 短语结构级的对齐信息, 等等。 按照 645 标记语言的规定,总共为上述文档 定义了四个文档类型定义 8 :1: 9 。分别用于描述: ( ( 整个双语语料库; 中文基本标记文件和英 -) 7) ( 文基本标记文件; 中文文本语言学标记文件和 !) ( 英文文本语言学标记文件; 中文英文对齐信息 ;) 文件。 标记系统允许以一致和循序渐进的方式对语 料进行由浅层到深层的信息标注。
关键词 # 双语语料库;机器翻译;语料库标记;语料库标注 摘 要 # 近年来,在语言信息处理的研究和开发中,单语和多语语料库 ( 主要是双语语 料库)的作用日益突显出来。为了支持一项正在进行的汉英机器翻译系统的开发,我们建立 了一个汉英双语语料库。本文简要介绍了该语料库的建设和管理情况。
!"#"$%&’# ()*+&, ()$,-*&.-")$ ’$/ "-, 0’$’%121$3)* (4"$1,1 5 6$%#",4 0’.4"$1 7*’$,#’-")$
,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,-
一、 引

为三类:一是研究双语语料的对齐技术 ( ,国内外学者就此提出多种策略和方 H&%(’13’4) 法,现在已经出现了许多对齐双语或多语语料的 程序或工具 〔 ;二是研究双语语料的各 I*&3 JKKL〕 种应用,如在基于统计的机器翻译技术 〔 F-,;’ 、 基于实例的机器翻译技术 〔 , 双 JKKM〕 N*(*, JK"O〕 技术 语词典编纂 〔 P&*:*’/ *’< @Q,)53-1*’’ JKKM〕 中, 双语语料库都发挥着十分重要的作用; 三是双 语语料库的设计、 采集、 编码和管理问题。目前比 较著名的语料库编码方案有 @C6 文本编码标准以 及 ACR 标准, 两者均基于 RIGS 标记语言。 就前两 类研究来说,中国国内目前做了较多的跟踪研究 工作, 而对于第三类研究, 即双语语料库尤其是涉 及汉语的双语语料库的建设、 编码和管理研究, 探 索工作似乎做的相对较少。与此相关, 目前国内外
计算机辅助术语研究 我们的语料库。其次, 超文本标记语言不做内容和 显示的区分, 其中既包含用于内容的标记元素, 也 包含用于显示的标记元素。因而很多情况下, 网页 作者因为显示效果而放弃使用内容标记元素。例 如在我们收集的语料中,文本标题很少使用 #$%& 标记,而更多使用 #’(%)(*& 、 #+,%)& 等 标记。 , 尽管 ./0 和 1/2 是专为标记语 再看方案 ( -) 料库而设计的国际标准方案,但二者均面向通用 目的,即使选择一个由较少的必要元素组成的子 集, 也会因过于复杂而难以掌握。并且其中许多元 素对于我们的应用意义不大,同时对一些我们需 要详细标记的信息, 如新闻报道的特有结构, 却又 ( “ 没有合适的标记可以使用 即有 大炮打蚊子” 之 嫌) 。另外, 作为二者基础的 0345 标记语言, 也一 直因为过于复杂而难以得到信息处理界 ( 包括 21 产业界) 的广泛使用, 开发一个全面的 0345 分析 器也不是一个短时期内可以完成的工作。 经过上述分析,为了获得一个简单的但能满 足我们需要的编码方案, 我们选择了方案 ( , 即 !) 参照 ./0 开发一个新的标记系统。这个标记体系 不力求覆盖所有文档类型,但要求对于我们所关 心的文档类型有足够的支持,对其他文档类型仅 仅要求有一般性支持。这个标记体系基于目前正 日益流行的标记语言 645,从而保证我们的标记 系统有广泛的软件支持。 按照我们的标记系统,整个语料库由一组相 互链接的文档组成,整个双语语料库的逻辑结构 如图 7 所示。
!"#$% &’()’( *"#$ +,-.(/0 *"#$% "1’21!"#$%&’() $%&%’()*& +,-.)/0 1*+2%’3 4-*’/&*4%,’0 +,-.)/ 1*-5).0 +,-.)/ *’’,4*4%,’ *+(,&-.,) 6’ -3+3’4 73*-/0 1,’,&%’()*& ,- 1)&4%&%’()*& 8 .-%1*-%&7 $%&%’()*& 9 +,-.,-* *-3 :%3;3< */ 537 -3/,)-+3/ %’ &*’()*(3 %’=,-1*4%,’ .-,+3//%’( *’< &*’()*(3 3’(%’33-%’( .-,>3+4/? @, /)..,-4 *’ ,’(,%’( A2%’3/3 B C’(&%/2 1*+2%’3 4-*’/&*4%,’ .-,>3+40 * A2%’3/3 C’(&%/2 $%&%’D ()*& +,-.)/ %/ $3%’( /34 ).? @2%/ .*.3- (%:3/ * $-%3= <%/+)//%,’ ,’ +,’/4-)+4%,’ ,= 423 +,-.)/?
相关文档
最新文档