中国英汉平行语料库的设计与研制
浅谈如何快速搭建英汉双语平行语料库与平行语料库检索平台

浅谈如何快速搭建英汉双语平行语料库与平行语料库检索平台语料库不仅在商业领域有着重要的作用,在翻译学研究、语用学研究以及实践教学等领域都有重要的作用。
语料库研究与应用是以语料库建设为前提,语料库建设是所有环节中最为重要的一个环节。
语料库在商业领域与科研教学领域的应用与研究的快速发展,得益于语料库建设的技术手段日益成熟,同时语料库也呈现出多样化的应用与实践。
本文通过深度探索语料库建设与应用的前沿技术发展与应用情况,重点介绍建立英汉语料库以及平行语料库应用平台所需技术支持以及详细的语料库建设与应用操作细则。
标签:语料库建设;语料库应用;双语平行语料库语料库分为单语语料库、双语语料库以及多语语料库,语料库是语言实际应用过程中产生的语言数据,例如图书的翻译、商业文件的翻译以及新闻报告的翻译等语言数据都是形成语料库的基本语料材料。
目前的研究主要是基于双语语料库的制作与应用,双语语料库也是最为广泛使用以及数量最多的语料库种类之一,语料库的存放是以数据库的形式存在为主,形成真正的语料库需要经过收集、转化、降噪、对齐、审校等诸多步骤,形成最终可用的语料库。
语料库的建设目的是多样化的,语料库的来源也是极其广泛,其中尤为重要的环节就是语料的对齐,语料对齐的速度直接决定了语料库制作的效率。
高质量的语料库是进行语料库制作与应用的基础,语料库的质量会直接影响最终的应用效果。
一、研究意义语料库的研究与应用目前在商业领域已经有了突飞猛进的发展,特别是近两年神经网络的发展,语料库对于机器翻译的发展奠定了基础,极大提高了目前谷歌、百度、搜狗、有道以及必应等机器翻译引擎的质量。
不仅如此,商业领域的巨头包括强生、中石化、微软、阿里巴巴以及腾讯等诸多公司都在不同程度的基于语料库提升在各自特定領域的机器翻译引擎质量,其中阿里巴巴的机器翻译引擎已经为中国众多企业将成千上万的商品推向全球市场提供了翻译支持。
不仅如此,语料库在学术、科研以及教学实践等应用方面都有着举足轻重的作用,利用语料库可以进行语用学、翻译学、译者行为、语言风格等多方面学术科研;同时语料库在教学中也广泛应用,通过语料库进行教学应用,教师可以将学生的翻译作业整理成语料库,利用语料库检索功能,学生可以进行自查自纠,教师也可以通过制作学生翻译作业的语料库寻找共性问题进行讲解,帮助学生解决翻译实践中产生的问题。
教学型汉英口语平行语料库语料研究

教学型汉英口语平行语料库语料研究1. 引言1.1 研究背景随着全球化的推进,汉英口语交流在教育、商务、科技等领域中变得越来越频繁。
在这种背景下,教学型汉英口语平行语料库的建立和研究变得尤为重要。
目前,虽然存在一些通用的口语平行语料库,但由于教学型口语在语言理解和应用方面具有特殊性,因此有必要针对教学型汉英口语建立专门的平行语料库。
这将有助于教师在教学过程中更好地辅助学生进行口语表达,提高口语交流能力。
当前存在的教学型汉英口语平行语料库往往过于简单或者过于专业化,无法满足广泛教学需求。
有必要对现有的教学型汉英口语平行语料库进行深入分析,挖掘其中的优点并加以改进,以进一步提高教学效果。
本研究旨在探讨教学型汉英口语平行语料库的建立与应用,为教学型口语的提升提供理论支持和实践指导。
通过对现有教学型汉英口语平行语料库的研究,我们将更好地了解其发展现状、面临的挑战以及未来的发展趋势,为口语教学领域的发展贡献力量。
1.2 研究目的Overall, the goal of this research is to contribute to the field of language education by highlighting the potential benefits ofusing a Chinese-English parallel corpus in the classroom. Through this investigation, we hope to uncover new perspectives on language learning and teaching strategies, ultimately enhancing the learning experience for students of Chinese and English.1.3 研究意义教学型汉英口语平行语料库的研究意义体现在以下几个方面:1.促进语言教学与学习:通过构建教学型汉英口语平行语料库,可以为教师和学生提供更丰富、更真实的语言素材,帮助学生更好地理解和掌握汉语和英语口语表达方式,提高他们的口语交流能力。
外宣翻译汉英平行语料库的创建与研究

宣传 自身的形象 、 资料等 , 即是通过翻译工作 向外界展示 自 身, 将 自身 的一些 特性 通过对方的语言或文字展现给对方 。因此 , 外宣 翻译工作 的主体 并不是我们本身 , 而是我们 宣传 工作所 面对的对 象 。而在实 际翻译过程 中 , 我 们常常 习惯性 的以 自身 为主体 , 而 并 未把 宣传 对象的认知和接受习惯放在首位 。在我们 中国 , 这种 现 象尤为 突出 , 因为我们 的外 宣对象主要是 西方 国家 , 而经过这 么 多年的发展 , 东西方 国家 之间的文化存在着 巨大的差异 , 在交
2 平 行 语 料 库 的创 建 与研 究
网。汉语 和英语 的电子化需 要分别使用不同的处理软件 , 以便取 得最 优化效果 。汉语纸质 内容扫描 后保存 为J P E G文件 , 利用 专 门的软件 处理 , 得到t x t 格 式 的文本 文件 , 务必 要保 证其 识别 率 高, 即保证 原文 的准确 性 。英 语纸 质 内容 扫描 后保存 为 P D F 文 件, 利 用专 门的软件处 理 , 得到 t x t 格式 的文本文件 , 同样 的也要 求其识别率高 。若是 纸质内容中既有汉语 内容也有英语 内容 , 则 将扫描后 的J P E G文件进行裁剪 , 将汉语内容和英语 内容分开 , 再 分别用不 同的处理 软件进行处理 , 最终 完成 纸质书本 电子化 的工 作。
教学型汉英口语平行语料库语料研究

教学型汉英口语平行语料库语料研究随着全球化的不断发展,汉语和英语作为世界上最重要的语言之一,越来越多的人开始学习这两种语言。
为了更好地促进汉英口语教学的有效性和效率,构建和利用教学型汉英口语平行语料库成为了当前语言教学研究的一个热点话题。
教学型汉英口语平行语料库是指收集并整理汉语和英语口语表达的语料库,进行研究和分析,以帮助汉语和英语学习者更好地掌握口语交流能力。
一、平行语料库的意义教学型汉英口语平行语料库对于口语教学的意义重大。
通过对实际口语语料的收集和整理,可以帮助学习者更好地了解和掌握两种语言的口语表达习惯和特点,提高口语交际能力。
通过对语料库的研究和分析,可以为口语教学的教材编写提供可靠的语言参考和实例。
通过对口语语料的比对和对比分析,可以帮助学习者更好地理解两种语言之间的异同之处,减少语言障碍,提高口语表达的自信心和有效性。
二、语料库的构建教学型汉英口语平行语料库的构建需要进行大量的数据收集和整理工作。
需要搜集并整理汉语和英语口语表达的实际语料,包括日常口语、学术口语、商务口语等多种领域的口语表达。
需要对收集到的语料进行整理和分类,建立起不同领域和场景的口语语料库,以便进行后续的研究分析和应用。
需要对语料库进行不断更新和完善,以保证语料库的时效性和可用性。
教学型汉英口语平行语料库的研究内容主要包括对口语语料的分析和比较,以及对口语特点和表达习惯的研究。
需要对两种语言的口语表达进行比较分析,找出其共同点和不同点,揭示其语言特点和表达习惯。
需要对口语语料进行分类和整理,形成常用口语表达的语料库,并对语料库进行统计分析,找出其使用频率和语法规律。
需要对口语语料进行语用分析,揭示其语言功能和交际特点,为口语教学提供理论依据和实践指导。
教学型汉英口语平行语料库的构建和研究对于促进汉英口语教学和促进汉英语言交流具有重要的意义。
在未来的研究工作中,我们需要进一步深入研究和利用语料库,探索其更多的应用领域和潜在价值,不断提高其信息化水平和智能化程度,为语言教学和语言研究提供更加丰富和可靠的语言资源。
教学型汉英口语平行语料库语料研究

教学型汉英口语平行语料库语料研究一、教学型汉英口语平行语料库简介教学型汉英口语平行语料库是一种专门为口语教学设计的语料库,它包含了大量的汉语和英语口语对照的语料,可以为学习者提供丰富的口语实践材料。
在教学型汉英口语平行语料库中,通常会包括各种日常口语对话、情景会话、口语练习题等内容,以满足学习者在口语交流方面的需求。
这种语料库还能够帮助学习者比较汉语和英语之间的口语表达方式,促进语言对比和语言习得。
二、教学型汉英口语平行语料库的语料研究内容1. 口语对话的语料分析教学型汉英口语平行语料库中的口语对话是学习者进行口语练习的重要素材,因此需要对这部分语料进行深入的分析研究。
语料分析可以包括对口语对话的话题、语言风格、语用习惯等方面的研究,以便于为口语教学提供恰当的语料资源。
2. 口语练习题的设计与评估教学型汉英口语平行语料库中通常还会包括各种口语练习题,这些练习题的设计对于口语教学的有效性起着重要的作用。
因此需要对口语练习题的设计原则、难易度、语言情境等方面进行评估和研究,以保证这些练习题能够符合学习者的口语水平和学习需求。
三、教学型汉英口语平行语料库的语料研究方法1. 语料采集语料采集是教学型汉英口语平行语料库语料研究的基础工作。
在语料采集过程中,可以通过录音、采访、调查等方式获取口语对话和练习题的语料,同时还可以收集学习者的口语表达数据,以丰富语料库的内容。
2. 语料整理与分类采集到的口语语料需要进行整理与分类,以便于后续的语料分析和研究。
在整理与分类的过程中,可以依据口语对话的话题、语言风格、语用习惯等特点进行分类,同时还可以根据口语练习题的难易度、语言情境等进行整理。
3. 语料分析与评估对整理分类好的口语语料进行深入分析和评估是教学型汉英口语平行语料库语料研究的重点工作。
在分析与评估过程中,可以使用语言学、教育学、心理学等学科的理论和方法,对口语语料的特点、难点、习得路径等进行科学研究。
2. 口语教学方法的探索教学型汉英口语平行语料库可以为口语教学方法的探索提供重要的参考依据。
中国科学院汉英平行语料库

中国科学院汉英平行语料库
中国科学院汉英平行语料库(Parallel Corpus of Chinese Academy of Sciences)是一个结构整齐、体积庞大、全方位覆盖的、
面向科技文献翻译的大规模语料库,是中国科技研究文献汉英翻译的
极佳资源。
本平行语料库收录的文献共计达到700多万句,包括来自中国科
学全文数据库、中国科学文摘数据库、维普资讯网、万方科技云等多
种来源的语料,覆盖了国内各种学科的文献翻译,丰富了汉英翻译资源,有助于科学研究。
中国科学院汉英平行语料库由中国科技文献翻译研究重点实验室,以及中国工程院等机构联手制作而成,从平行语料收集、平行语料处理、数据标注、语料质量检验等多个方面考虑,采取多种技术手段,
结合中文语料注记标准和英文规范,实现了翻译文献自动化标注,实
现了文本在线查询、翻译查询和语料挖掘等功能。
中国科学院汉英平行语料库对于文献翻译、机器翻译、口译辅助、自然语言处理和语言学研究等领域都有重要应用价值。
经多方测试,
本库满足了机器翻译系统训练所需的高质量、大规模的汉英平行语料
的要求,针对机器翻译的分析预测开发,研究的执行效果有明显的提升。
此外,中国科学院汉英平行语料库还对外提供汉英、汉法、汉德
等多语种的神经网络翻译系统,支持跨语言机器翻译,支持词法短语
翻译等覆盖面更加透彻的翻译服务,搭建起一整套健全的翻译系统,
广大研究人员和学者可以在线上获得高效、准确的翻译结果,满足学
术研究和实际应用的需要。
中国科学院汉英平行语料库在自然语言处理领域发挥了重要作用,极大提升了中国自然语言处理市场的竞争力,为自然语言处理的发展
推进了大中国语言环境的翻译。
汉、英平行语料库的研究与构建

可 以 获得 为平 行 语 料 。 本 文将 构建 一 个 大 规 模 的 汉 英平 行 语 料 库 自动 收集 系 统 , 用 爬 使 在 网 页 的判 定 过 程 中使 用 深 度 作 为 依 据 , 度 就 是 从 主 页 开 始 算 深 虫 技 术 从 WE 中的 网页 抽 信 息 , 自动 的收 集 两 种 构 成 互 译关 系 语 言 B 起访问到当前页面需要 的连接次数 , 级 页面的深度为一 。 二 三级 页 面 的文 本 存 储 在数 据 库 中 , 中不 但 有 源语 文本 , 有 对 应 的译 语 文 本 。 库 还 的 深 度 为二 , 过 对 大 量 现 有 网页 的 分 析 , 现 如 果从 人 口页 匾 算起 , 经 发 这 些 文 本 采 用 句 子或 段 落 对 齐 方 式 编 排 , 系统 可 以 对源 语 文本 和译 语 三 度 内页 面 都 没有 可用 信 息 , 整 个 网站 都 无 可 用 信 息 。 所 以 爬 虫 只 则 文本进行全文检索, 提供高效的对照检索。 并 判 断 从起 始 页 面起 深 度 小 于三 的 页 面 。 样 做 的 目的是 为 了让 爬 虫 不 这 文 章 的 意义 在 于学 习前 人 的 技 术 成 果 . 过 实 际 编 写 程序 深 入探 通 过 多 的 浪 费 资源 在 没 有 可 用 信 息 的 网 页 上 , 实 际 测 试 中 效 果 极 其 明 在 讨 平 行 语 料 库 的 构 建过 程 , 定 出 一 套 平 行 语料 库 自动 搜 集 系 统 的 解 制 显 。 决 方 案 , 开 发 相应 的 系统 软 件 , 终 构 建 一个 汉英 平 行 语 料 库 。 平 并 最 该
【 ywo d ] ete P rl l op s ue e uo aia ycl ci aa e cru Ke r sR pi ; aa e cru ; cn; tm t l ol t np l l o s l l L A el e o r l p
汉英学术平行语料库开发设计

语料对齐可以基 于词汇层 面 , 即将 源 语 言 的 词 汇 和 其 对 应 的 翻 译 语 言 词 汇 对 应 起 来 。但 是 , 词 汇 层 面
除 了形 式 上 的 一 一 对 应 , 还 有一对 空 、 空对 一 、 空 对 多
语料库可 以是单向的 , 也可 以是双 向甚至多 向的 。
语 料 库 的 语 料 来 源 一 般 分 为 纸质 材 料 、 电子文档 、 网络 资 源 和 其 他 ( 如 通 过 拍 照 或 录 制 得 来 的 语 言 材 料) 。 网络 来 源 的语 料库 又 分 为人 工 采 集 ( 即 通 过 人 工 选择性收集语料 , 经 过 人 工 降 噪 和 格 式 整 理 转 化 为 需
中, 双语“ 对应单位” 的对 齐研 究成 为 新 的 焦点 。本 研 究从 一 个 小 的 试 验 性 汉 英 平 行 学 术 语 料 库 的 建设 着 手 , 围绕
建库设计 、 双语“ 对应单位” 对 齐和 索 引软 件 开 发 等 展 开 , 希 望 为 大 型 汉 英 学 术 平 行 语 料 库 的 建 设 提 供 一 个 操 作 参
机 自动 采 集 语 料 , 然 后 对其 进行 人 工选 择 和整 理 ) 。
( 二) 双 语 对 应 单 位
重组 , 其 对 于 翻 译 的 实 际 作 用 有 限 。 目前 一 些 研 究 者 正致力于基于双语 对应 单位 的对齐 , 以 实 现 基 于 实 例
和 基 于 存 储 的 自动 翻 译 。双语 对应 单 位 的 提 取 多 来 自
第3 2卷 第 7期
Vo 1 . 3 2
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
中国英汉平行语料库的设计与研制王克非北京外国语大学中国外语教育研究中心提要:本文论述超大型双语平行语料库的设计与研制问题。
在综合述介国内外双语语料库建设情况之后,作者着重论述了中国英汉平行语料库这一超大型双语平行语料库的设计特点(主要有分类架构、历时处理、语料平衡以及通用的和各种专门语料的采集)和研制方法(主要讲述语料的加工标注、检索平台以及各个专门语料库、历时语料库和口译语料库的构建)。
其设计与研制对于其他大型语料库的建设具有借鉴意义。
关键词:中国英汉平行语料库;设计;研制Abstract:The paper deals with the design and construction of asuper-large-scale bilingual parallel corpus.After an overview of parallelcorpora constructions and applications both in China and abroad, the designfeatures(including classification and composition,diachronical arrangement,balance of textual materials,and collection of texts for general or specificpurposes)and the construction methods (including tagging,concordanceplatform,and the construction of specialized corpora,diachronical corpora andinterpreting corpora)of the super-large-scale China English-Chinese ParallelCorpus(CECPC)are focused on.The design and construction discussed areapplicable to the compiling of other large-scale corpora.Keywords:China English-Chinese Parallel Corpus (CECPC);design;construction1、中国英汉平行语料库的研制意义在全球化、信息化的当今世界,翻译已成为了解全球信息、扩大对外宣传、获取国际资源的重要手段。
同计算机技术结合而兴起的双语平行语料库建设,则为语言研究、翻译研究、外语教学、词典编纂和跨语言信息检索等提供了最好的平台,同时还可用来考察和验证基于单语语料库或者基于直觉提出的假设,具有广阔的应用前景。
平行语料库承载着相互对应的两种语言,与语言对比研究有着天然的联系,成为语言对比研究中的默认数据源;平行语料库中的两种语言互为对应,记载着两种语言中的对应词和对应单位,成为词典编纂者最可靠的数据来源;平行语料库中的源语言和目标语言互为对应,在翻译教学和外语学习中的用途更是不言而喻。
除此之外,平行语料库对机器翻译和自然语言处理也极为重要。
对齐的平行语料能为基于例句和统计的机器翻译系统提供实证模型,同时也可以为基于规则的机器翻译提供验证规则,为机助翻译提供大量翻译记忆。
正如欧赫(Och2002)所言,“只要给我足够的双语对应数据,几个小时内我可以给你一个机器翻译系统”。
然而现有的英汉平行语料库规模有限,且大多是利用现有同质翻译资源建立的,并非平衡语料库,常常不能较好地代表广泛含义上的源语—译语关系,依此生成的语言模型常常不能够有效地解释翻译语言,这极大地阻碍了翻译和词典编纂等学科研究的深入,已成为提高机器翻译译文质量的瓶颈。
鉴于此,我们提出设计和研制更大规模、更多功能的超大型平行语料库,即一亿词以上的“中国英汉平行语料库”,以满足各方面研究的需求和语料库事业的发展。
中国英汉平行语料库的研制意义可从以下两方面体现出来。
第一,理论价值:1)由于大型双语平行语料库规模超大、采样严格,能够较好地代表源语—译语关系,因此能为翻译研究、语言对比研究、语言演化研究、口笔译比较研究等提供可靠的翻译实例和量化数据,从而提高上述研究的可信度。
2)在超大型双语平行语料库建设的基础上,我们还将展开多项具有理论意义的语言和翻译研究。
这些研究主要包括历时研究、类比动态描写。
研究分析时间跨度大,涉及层面多。
第二,应用价值:1)在研究方法上,我们将据此探索基于语料库的翻译语言动态类比和描述,为语言的共时与历时比较研究提供有效的、可操作性强的分析模式和研究平台。
2)在大型双语平行语料库的采样和加工方面,将提出更有借鉴价值的模板和方法。
总之,“中国英汉平行语料库”这一超大规模的英汉/汉英平衡语料库,为今后其他语对的双语平行语料库或多语平行语料库的研制、双语对比与研究、英汉语言接触与现代汉语历时变化研究等,提供共同的大型的实证研究基础,为中国的语料库研究走向世界前沿作出贡献。
2、国内外双语平行语料库研制现状平行语料库的研制历史并不长,从世界上第一个初步的平行语料库TheCanadian Hansard Corpus(包括英法语版本的加拿大议会辩论语料)到目前仅二十年左右。
但由于平行语料库对于语言对比研究、翻译研究、翻译教学、翻译技术开发(如机器翻译系统、机辅翻译工具)、双语词典编纂等语言学和自然语言处理研究具有巨大的潜在应用价值,平行语料库的建设在世界上得到迅速发展(参见王克非等2004,McEnery&Xiao2007)。
目前,平行语料库研究大多集中在欧洲,涉及语言也主要与欧洲语言有关,特别是欧共体/欧盟等机构的文件。
如兰卡斯特大学早期创建的ITU/Crater平行库包含欧洲委员会有关电信的英法双语文件各一百万词,在句级对齐。
欧洲委员会联合研究中心的JRC-ACQUIS多语种平行语料库包括成员国的22种欧洲语言,目前的3.0版包括五十年代至2006年的欧洲法律文件463,792个,共计十亿词。
欧洲人类语言技术研究网络(ELSNET)1994年发布的欧洲语料库规范多语种语料库1期(ECI/MCI)包括27种语言(主要是欧洲语言,也包括汉语、日语和马来语),以官方文件为主,但也包括少量的报纸、小说、技术报告、词典和词表;该库共48部分,共计9,800万词,其中12个部分包含有平行语料。
MULTEXT语料库是由欧洲语言资源协会资助的项目,其目的是开发多语种工具和语料库;该语料库包括采样于欧洲委员会官方杂志(JOC)的五种语言各40个文档,句级对齐,其中10个文档还作了词性标注。
PAROLE语料库包括欧洲14种语言,采样年代为1997-1998,文本来源包括书籍(20%),报纸(65%),杂志(5%),以及杂类文本(10%),共计2,000万词,每个子库中25万词按照统一标准作了词性标注。
多语种语料库合作(MLCC)项目建立了一个多语种平行语料库,包括九种欧洲语言,语料来源为上述提到的欧洲委员会官方杂志1992-1994年的文本。
爱丁堡大学的EuroparlParallel Corpus收集了1996-2009年间欧洲议会会议记录,涉及11种语言,以双语平行的形式发布,句级对齐,丹麦语、德语、希腊语、西班牙语、芬兰语、法语、意大利语、荷兰语、葡萄牙语、瑞典语分别与英语对应,共约5千万词(以英语计)(Koehn2005)。
上述这些语料库基本上都是文本来源单一、标注也简单的欧洲语言专用语料库,主要用于语言识别、文档级对齐、术语提取等自然语言处理研究,而非从语言学角度研究语言(参见Xiao2008)。
除此之外,也有少数几个精心设计的平行语料库,如由挪威奥斯陆大学研制的最早的英语—挪威语平行语料库,包含英语和挪威语各100个1-1.5万词的英-挪对应母语文本及其挪-英翻译文本,共260万词,语料采样考虑到平衡性而非局限于少数几个语域或语体,涉及小说(儿童小说、侦探小说、一般小说)和非小说(宗教、社会科学、法律、自然科学、医学、艺术、历史地理)。
该语料库不仅在句子层面对齐,而且对英挪语料均作了词性标注和词形还原(lemmatisation)处理。
英语—瑞典语平行语料库则是采用英语-挪威语平行语料库的建库标准、由隆德大学(LundUniversity)和哥特堡大学联合研制的平衡语料库,包括64个英语原文文本及其瑞典语译文和72个瑞典语原文文本及其英语译文,共计280万词。
在这两个语料库的基础上,近年来奥斯陆大学又以同样标准开发了奥斯陆多语种语料库(OMC),除了英语、挪威语、瑞典语外还涉及到了德语、法语、荷兰语、芬兰语、和葡萄牙语。
这些精心设计的平行语料库适合于翻译与跨语言对比等研究,但局限于欧洲语言。
欧洲语言之外的平行语料库,包括汉语在内,还不多见,精心设计的大型平衡语料库则更少。
主要有兰卡斯特大学研制的英国少数民族语料库EMILLE,包含了十五种南亚语言口语及书面语料近一亿词,其中平行语料库部分包含20万词的英语文本及印地语、孟加拉语、旁遮普语、古吉拉特语及乌尔都语平行对应文本。
语言数据联盟(LDC)于2004年发行了香港平行文本库(Hong KongParallel Text),包括590万词的英语文本和980万字的汉语文本,英汉文本句级对齐;该库由2000年所发行的三个英汉平行语料库组成:香港法律辩论语料库、香港法律语料库、香港新闻语料库。
英国兰卡斯特大学创建的Babel英汉平行语料库由从《英语世界》等刊物采样的327篇英汉双语时文构成,采样年代为2000-2001年,共计54万词;该库实现句级对齐,并对英汉语文本都进行了分词和词性标注。
台湾辅仁大学初步建立了范本财经英日汉平行语料库,收集语料约10万句对。
最近,香港理工大学和北京外国语大学的学者联合研制了英汉旅游文本语料库,约100万字词(参见李德超、王克非2010)。
在我国内地,双语平行语料库的建设近十年来也取得了重大进展,已有多个英汉及日汉等双语平行语料库建成。
如北京大学计算语言学研究所的汉英平行语料库(5万多句对)及其所承担的863项目所建的英汉平行语料库(20万句对),哈尔滨工业大学的英汉双语语料库(40-50万句对)。
不过这些语料库有一个共同之处,即建库目的主要是自然语言处理而非语言学研究,因此所谓的句对通常是脱离上下文、打乱次序的孤立的句子,英译汉与汉译英语料夹杂,用户不易识别翻译方向。
另外,国内近年来也建成了一些专门用途语料库,如上海交通大学的莎士比亚戏剧英汉平行语料库,燕山大学的红楼梦译本平行语料库,绍兴学院的鲁迅小说汉英平行语料库等。