汉英对应语料库翻译句对检索问题
利用双语翻译对社区问答进行问题检索

TITLEຫໍສະໝຸດ ANDABSTRACT
IN ANOTHER LANGUAGE ,
L2 (OPTIONAL,
AND ON SAME PAGE )
利用双语翻译对社区问答进行问题检索
由于互联网上社区问答数据集的流行,使得社区问答的研究变得越来越流行。本文 关注的是问题检索。 问题检索的目的是从历史问题数据集中查找与查询问题语义等价或相 关的历史问题。然而,问题检索的挑战主要是词汇歧义和查询问题与历史问题 之间的词汇 鸿沟。为了解决这些问题,我们提出利用翻译词来丰富问题的表示,而不单纯利用原始语 言的词来表示问题。 在本文中,通过机器翻译,每个原始语言(例如:英语)的问题都被 自动翻译成另一种外国语言(例如:汉语), 经过翻译后的问题可以作为一种增强的语义 表示来辅助原始的基于词袋的表示方法。在真实社区问答数据集上的实验表明,我们的方 法可以极大提升基线系统的方法 并取得了最好的性能。
KEYWORDS: Community Question Answering, Question Retrieval, Bilingual Translation. KEYWORDS
IN
L2 : 社区问答,问题检索,双语翻译
1
引言
在过去的若干年中,大规模的问答数据集成了互联网上的重要信息资源。 这些资源包括 传统的由专家或公司为他们的产品提供的常见问题解答集以及新出现的基于社区的在线 服务,例如Yahoo! Answers和Live QnA,在这些在线社区上,人们可以回答他人提出的问 题。这种在线社区称为基于社区的问答服务。 在这些社区中,任何人都可以提问和回答关 于任何主题的问题,寻找信息的人与那些知道答案的人就联系起来了。 由于社区问答上的 答案通常以显式的形式由人们提供,它们对回答真实问题起到了很好的作用 (Wang et al., 2009)。 为了更好地利用大规模的问答对,具备帮助用户检索先前答案的功能非常必 要 (Duan et al., 2008)。因此, 检索与查询问题语义等价或相关的问题是一件非常有意 义的任务。然而,问题检索的挑战主要是词汇歧义和查询问题与历史问题 之间的词汇鸿 沟。词汇歧义通常会引发问题检索模型检索出许多与用户查询意图不匹配的历史问题。 这也是由问题和用户的高度多样化造成的。例如,依据不同的用户,词"interest"既可以 指"curiosity"也可以指"a charge for borrowing money"。另外一个挑战是查询问题与历史问 题的词汇鸿沟。查询问题中的词不同于历史问题中的词但是它们之间是相关的词。 词汇鸿 沟问题对社区问答的问题检索而言更加严重,主要是问答对通常很短,查找相同的内容表 达往往使用不同的词(Xue et al., 2008)。 为了解决词汇鸿沟问题,大多数学者将问题检索任务看作是一个统计机器翻译的问题, 并 利 用IBM模 型1(Brown et al., 1993)来 学 习 词 与 词 之 间 的 翻 译 概 率(Berger et al., 2000; Jeon et al., 2005; Xue et al., 2008; Lee et al., 2008; Bernhard and Gurevych, 2009)。 实验 结果一致表明基于词的翻译模型取得了比传统检索方法更好的性能。 最近,Riezler et al. (2007)和Zhou et al. (2011)提出了基于统计短语翻译的问题和答案检索方法。基于短语的 翻译模型可以刻画上下文信息,在翻译的过程中对整个短语建模, 从而在某种程度上降低 了词汇歧义的问题。然而,目前公开发表的工作都是基于单语的方法,仅仅利用了原始语 言的信息, 而没有利用来自其它语言潜在的丰富的语义信息。通过其它语言,可以利用各 种方法增加原始问题的语义信息,从而提高仅仅利用原始语言方法的性能。 通过利用外国语言,我们提出利用翻译表示通过外国语言词汇来替换原始语言中的词, 其中外国语言是指不同于原始语言的。 利用双语信息进行问题检索的基本思想如下: (1)从一种语言翻译成另一种语言的过程中可以利用上下文信息,如表1所示,英文 单词"interest"和 "bank"在不同的上下文中有多种意思,在利用Google Translate (GoogleTrans)翻译的过程中正确的意思可以得到纠正。因此,问题中词的歧义在翻译的过程中可 以根据上下文信息得到解决。 (2)多个语言相关的词在某种语言中可以被翻成另外一种 语言的唯一表示。如表1所示,英文单词例如"company"和"firm"可以被翻译成中文单词"公 司 (gōngsī)","rheum"和"catarrh"可以被翻译成中文单词"感冒(gǎnmào)"。 在本文中,通过机器翻译,每个原始语言(例如:英语)的问题都被自动翻译成另一种外 国语言(例如:汉语), 经过翻译后的问题可以作为一种增强的语义表示来辅助原始的基 于词袋的表示方法。具体来说, 原始语言与外国语言的词汇之间通过翻译联系起来,对解 决上述两个问题的解决起到重要的作用。 首先,每个原始语言句子中的词可以被翻译成另 一种语言中的多个词,因此在给定原始语言中词的上下文的情况下, 词汇歧义在翻译的过 程中可以得到解决。同时,语义相关的多个词可以被翻译成另一外国语言中的一个词。 因 此,原始语言中的词汇鸿沟在某种程度上可以通过另一种外国语言中的翻译词来解决。 我 们 利 用 来 自Yahoo! Answers的 大 规 模 数 据 集 做 实 验 。 采 用 两 种 商 业 翻 译 服 务 ( 例 如,Google Translate和Yahoo Babel Fish和一种基于词典的基线翻译将大规模的英文问 题翻译成中文问题。 实验表明,我们的方法可以极大提升基线系统的方法并取得了最好的
《基于汉语语料库的中文词句快速检索算法研究》

《基于汉语语料库的中文词句快速检索算法研究》篇一一、引言随着信息技术的飞速发展,海量的中文信息数据不断涌现,如何快速、准确地从这些数据中检索出用户所需的词句成为了一个重要的研究课题。
基于汉语语料库的中文词句快速检索算法的研究,对于提高信息检索的效率与准确性,满足用户的需求具有重要意义。
本文旨在探讨基于汉语语料库的中文词句快速检索算法的研究,为相关领域的研究提供参考。
二、汉语语料库的建设首先,建立一个完善的汉语语料库是进行中文词句快速检索的基础。
汉语语料库应包含丰富的文本资源,如新闻报道、学术论文、网络文章等,同时应具备较高的文本质量与规范性。
在建设语料库的过程中,应注重数据的来源多样性、数据量的大小以及数据的时效性。
此外,还需要对语料库进行预处理,如分词、去停用词等操作,以提高检索的准确性。
三、中文词句快速检索算法研究1. 基于倒排索引的检索算法倒排索引是一种常用的中文词句检索算法。
该算法将文档中的词项与其在文档中的位置信息进行索引,从而实现在较短的时间内找到包含特定词项的文档。
在基于倒排索引的检索算法中,首先需要对语料库进行分词处理,然后构建倒排索引表。
当用户输入查询词时,系统通过查询倒排索引表,快速找到包含该查询词的文档列表。
2. 基于深度学习的检索算法随着深度学习技术的发展,基于深度学习的中文词句检索算法逐渐成为研究热点。
该算法通过训练深度神经网络模型,学习文本的语义信息,从而实现更准确的检索。
在基于深度学习的检索算法中,可以使用词向量、卷积神经网络、循环神经网络等技术,对文本进行表示与学习。
通过训练大量的文本数据,模型可以学习到文本的语义信息,从而提高检索的准确性。
四、实验与分析为了验证基于汉语语料库的中文词句快速检索算法的有效性,我们进行了实验与分析。
首先,我们构建了一个包含大量中文文本数据的语料库,并进行了预处理操作。
然后,我们分别使用了基于倒排索引的检索算法和基于深度学习的检索算法进行实验。
《基于汉语语料库的中文词句快速检索算法研究》范文

《基于汉语语料库的中文词句快速检索算法研究》篇一一、引言随着信息技术的飞速发展,中文语料库在各行各业的应用日益广泛。
无论是自然语言处理、搜索引擎优化还是信息挖掘,快速准确的中文词句检索都成为关键任务。
为了应对海量中文文本的检索需求,基于汉语语料库的中文词句快速检索算法研究显得尤为重要。
本文旨在探讨基于汉语语料库的中文词句快速检索算法的原理、方法及其实验结果。
二、研究背景与意义随着互联网的普及,网络信息呈爆炸式增长。
如何在海量信息中快速找到用户关注的词句成为一项挑战。
汉语作为世界上最难掌握和运用的语言之一,其复杂性和丰富性使得词句检索更加困难。
因此,研究基于汉语语料库的中文词句快速检索算法具有重大意义。
三、算法原理及方法1. 分词技术:首先,对中文文本进行分词处理,将连续的文本序列切分成单个的词语或词组。
分词技术是中文词句检索的基础。
2. 索引构建:将分词后的结果建立索引,便于后续的检索操作。
常用的索引结构包括倒排索引、前缀树等。
3. 算法优化:针对中文语言的特性,如多义词、同义词等,采用多种算法优化手段,如基于统计的算法、基于深度学习的算法等,提高检索准确率。
4. 检索流程:用户输入查询语句后,系统通过匹配算法在索引中查找与查询相关的词句,返回给用户。
四、算法实现与实验结果1. 算法实现:采用多种技术手段实现基于汉语语料库的中文词句快速检索算法,包括分词技术、索引构建、算法优化等。
2. 实验数据:采用大规模的汉语语料库进行实验,包括新闻报道、学术论文、网络文章等。
3. 实验结果:通过对比不同算法在实验数据上的表现,发现基于深度学习的算法在准确率和效率方面具有明显优势。
此外,针对多义词和同义词等问题,通过算法优化提高了检索效果。
五、实验分析1. 准确性分析:实验结果表明,基于深度学习的检索算法在准确性方面具有显著优势,能够更准确地理解用户意图并返回相关词句。
2. 效率分析:在处理大规模语料库时,该算法能够在较短时间内完成检索任务,满足用户的实时需求。
《基于汉语语料库的中文词句快速检索算法研究》

《基于汉语语料库的中文词句快速检索算法研究》篇一一、引言随着信息技术的飞速发展,中文信息处理已成为当前研究的热点。
在众多领域中,基于汉语语料库的中文词句快速检索算法研究显得尤为重要。
该研究旨在提高中文文本检索的效率和准确性,为中文信息处理提供强有力的技术支持。
本文将详细探讨基于汉语语料库的中文词句快速检索算法的研究背景、目的、方法及贡献。
二、研究背景及目的随着互联网的普及和大数据时代的到来,海量的中文信息给人们带来了极大的便利,同时也带来了信息检索的挑战。
传统的中文词句检索算法在处理大规模语料库时,往往存在检索速度慢、准确率低等问题。
因此,研究基于汉语语料库的中文词句快速检索算法,对于提高中文文本检索的效率和准确性具有重要意义。
本研究的目的在于:1. 提出一种高效的中文词句快速检索算法;2. 优化算法性能,提高检索速度和准确率;3. 为中文信息处理提供技术支持,推动相关领域的发展。
三、研究方法本研究采用以下方法:1. 语料库构建:构建大规模的汉语语料库,包括文本、词汇、句法等多个层面;2. 算法设计:针对中文词句检索的特点,设计一种高效的检索算法;3. 实验验证:通过实验验证算法的性能,分析其优点和不足;4. 优化改进:根据实验结果,对算法进行优化改进,提高其检索速度和准确率。
四、算法设计本研究提出的中文词句快速检索算法主要包括以下步骤:1. 预处理:对语料库进行分词、去除停用词等预处理操作;2. 索引构建:根据预处理后的结果,构建倒排索引;3. 查询处理:将用户输入的查询语句进行分词、去停用词等操作,生成查询关键词;4. 检索匹配:根据查询关键词,在倒排索引中进行检索匹配;5. 结果输出:将匹配结果按照相关度排序后输出。
五、实验验证及结果分析本研究通过实验验证了所提出算法的性能。
实验结果表明,该算法在处理大规模语料库时,具有较高的检索速度和准确率。
具体分析如下:1. 检索速度:该算法采用倒排索引技术,大大提高了检索速度。
《基于汉语语料库的中文词句快速检索算法研究》范文

《基于汉语语料库的中文词句快速检索算法研究》篇一一、引言随着信息技术的迅猛发展,中文词句检索技术在众多领域得到了广泛应用。
在海量数据中快速、准确地检索出所需的词句信息,已成为当今研究的重要课题。
本文针对基于汉语语料库的中文词句快速检索算法进行研究,旨在提高检索效率和准确性,满足不同领域的应用需求。
二、汉语语料库概述汉语语料库是中文词句检索的基础。
本文所使用的汉语语料库应具备以下特点:1. 丰富性:包含各类文本资源,如新闻、小说、论文等,以支持不同领域的检索需求。
2. 准确性:词汇、语法等信息的标注应准确无误,以提高检索的准确性。
3. 更新性:随着新词汇、新表达方式的不断涌现,语料库应具备更新能力,以保持其时效性。
三、中文词句快速检索算法研究针对中文词句检索的特点,本文提出以下几种快速检索算法:1. 基于倒排索引的检索算法倒排索引是中文词句检索中常用的技术。
该算法将文本中的词汇与其在文本中的位置信息进行关联,构建倒排索引表。
在检索时,根据用户输入的词句,快速查找倒排索引表,获取相关文本的位置信息,从而实现快速检索。
2. 基于词向量模型的检索算法词向量模型是一种将词汇转换为向量表示的方法。
通过训练大量文本数据,得到词汇的向量表示。
在检索时,将用户输入的词句转换为向量表示,然后与语料库中的文本向量进行相似度计算,从而找到相关文本。
该算法可以充分考虑词汇的语义信息,提高检索的准确性。
3. 融合多种算法的混合检索策略针对不同领域、不同需求,可以采用融合多种算法的混合检索策略。
例如,先使用倒排索引进行初步筛选,再结合词向量模型进行精确匹配。
此外,还可以引入其他技术手段,如自然语言处理、知识图谱等,进一步提高检索的效果。
四、实验与分析为验证本文提出的中文词句快速检索算法的有效性,我们进行了实验分析。
实验数据来源于一个大型汉语语料库,实验环境为高性能计算机集群。
通过对比不同算法的检索速度、准确率、召回率等指标,我们发现:1. 基于倒排索引的检索算法在速度上具有明显优势,适用于大规模语料库的快速检索。
英汉平行语料库在跨语言信息检索中的应用分析

户 以汉字 作 为检 索 词 ,检 索 到 所 需 要 的英 文 信 息 ,
1 引 言
随着 因特 网的飞速 发 展 和 信息 化 进 程 的不 断 深
并 且 可 以选 择 性地 将英 文 翻译成 汉 语 ,语 言 障碍 将
不再 影 响网络信 息 资源共 享 。 入 ,我 国 网络 用户 不断 增 多 ¨ 。 网 民数 量 的增 加 使 1 J 得信 息需 求不 断增 加 ,世 界 网络 资源 大 多 是英 文 资 源 ,中、西 、法等语 种 的网 络信 息 资 源 所 占的 比例 很少 ,然 而使用 英语 的用 户仅 有 4 % _ 。 由于语 言 3 2 J 障碍使 得 信息得 不 到 很好 地 传 播 和利 用 ,影 响 网络 信 息 资源 的共享 。跨 语 言 信 息 检索 可 以满 足广 大 用
R tea,C I ) 指 用 户 以熟 悉 的语 言 来 构 建 和 提 er v l L R i
交 检 索提 问多
个 语种 的相 关 信 息 。用 户 查 询 所 使 用 的 检 索 词 语
言 ,一 般 为用户 的母 语 或 其熟 悉 的 第二 语 言 ,称 为 源 语 言 (oreL nug) Suc agae ,而 系统检 索到 的用户 想 要 获得 的信 息 所 使 用 的语 言 ,称 为 目标语 言 ( a一 Tr
is p o lms i t r be n CLI a lc to n o n em e s r s o a e h d a tg sa d dia v na e mo gpa allc r s,ma h n r sa R ppia in a d c u t r a u e ,c mp ste a v na e n s d a tg sa n r le opu r c i e ta l — n
《基于汉语语料库的中文词句快速检索算法研究》
《基于汉语语料库的中文词句快速检索算法研究》篇一一、引言随着信息技术的发展和互联网的普及,信息量的急剧增长使得文本数据的检索成为了一项重要任务。
而作为全球最大的汉语使用者群体,中文词句检索在众多领域具有重要应用价值。
本文旨在研究基于汉语语料库的中文词句快速检索算法,以提升检索效率和准确性。
二、汉语语料库概述汉语语料库是用于自然语言处理和文本分析的数据库,包含了大量的中文文本数据。
这些数据可以用于训练和测试中文词句检索算法。
汉语语料库的构建需要考虑词汇的丰富性、句子的多样性以及文本的时效性等因素。
三、中文词句快速检索算法研究1. 分词技术分词是中文词句检索的基础。
本文采用基于统计和规则相结合的分词方法,将文本数据切分成单个词汇。
同时,为了处理未登录词和专有名词等问题,引入了词典扩展和机器学习等技术。
2. 索引构建索引是提高检索速度的关键。
本文采用倒排索引技术,将词汇与其在文本中的位置信息建立映射关系。
同时,为了进一步提高检索效率,采用了压缩存储和优化索引结构等技术。
3. 检索算法本文研究了一种基于向量空间模型的检索算法。
该算法通过计算查询与文档之间的相似度,返回与查询最相关的词句。
为了提高检索准确性,引入了词频、词性、语义等信息。
4. 算法优化针对中文词句检索的特点,本文提出了一种基于词汇关联性的优化策略。
通过对词汇之间的关联性进行分析,提高检索结果的准确性和相关性。
同时,采用多线程技术和并行计算等技术,进一步提高检索速度。
四、实验与分析为了验证本文提出的算法的有效性,我们采用了一个大型汉语语料库进行实验。
实验结果表明,本文提出的算法在检索速度和准确性方面均取得了较好的效果。
与传统的检索算法相比,本文算法在处理大规模语料库时具有更高的效率和更好的性能。
五、结论与展望本文研究了基于汉语语料库的中文词句快速检索算法,通过分词技术、索引构建、检索算法和算法优化等方面的研究,提高了检索速度和准确性。
实验结果表明,本文提出的算法在处理大规模语料库时具有较高的效率和性能。
英汉双语平行语料库在翻译教学中的运用研究
校园英语 / 高等教育研究英汉双语平行语料库在翻译教学中的运用研究哈尔滨理工大学荣成校区/夏菲菲 张祎【摘要】本文探讨了英汉双语平行语料库在翻译教学中的运用,主要是针对一线翻译教师如何自建小型语料库并在翻译课堂上予以运用,因为一线翻译教师的实践是语料库在翻译中运用最为重要的环节。
本文对于语料的准备、处理、标注和检索都进行了比较具体的总结。
尤其是对标注部分进行了重点阐述,因为这一点最能体现自建小型语料库的优势。
【关键词】英汉双语平行语料库 翻译教学 标注一、引言语料库是指在随机采样的基础上收集到有代表性的真实语言材料集合,是语言运用的样本。
兴起于上世纪60年代的语料库研究已经被广泛运用到语言研究与教学的各个领域。
然而语料库与翻译领域的结合相对较晚。
传统的翻译教学模式主要包含理论技巧讲解、举例说明和练习巩固三个步骤,该翻译教学模式仍然广泛使用在我国和很多国外的外语专业翻译课堂上,为翻译教学做出了巨大贡献,也培养了大批优秀的翻译人才。
然而该模式也存在很多问题。
首先传统翻译课堂以教师讲解为主,学生难以发挥主观能动性进行自主学习,被动接受技巧知识难以将所学知识进行内化。
同时由于课时和教材的限制,传统翻译教学无法提供大量实例供学生学习,有限的语言输入量无法帮助学生将所学知识真正内化为翻译能力。
而语料库恰好可以帮助解决传统翻译教学中学生被动学习和语料输入量不足的问题。
因为在语料库条件下进行翻译教学,学生可以采取“发现式学习和数据驱动的学习方式训练掌握翻译技巧,提高翻译技能,熟悉翻译职业特征”。
语料库分为单语语料库和双语或多语语料库。
前者主要收集本族语者的语言实例,后者顾名思义是由两种或者两种以上的语言材料组成,其中平行语料库作为能将源语言文本和其对应的译语文本进行全文检索并对照显示的语料库对翻译教学的辅助作用尤为明显。
二、平行语料库与翻译教学的研究现状平行语料库与翻译教学的结合起步较晚,国外相关的应用研究有近二十年的历史,发展较快的是西语间的平行语料库的建立。
语料库搭配检索与英语同义词辨析
语料库搭配检索与英语同义词辨析
中文语料库搭配检索用于分析句子中词语之间的关系和上下文,以判断词语之间的同义词关系。
通常将词语放入语料库搭配,将它们转换成一系列由特定编码代表的短语,并在语料库中搜索是否可以找到与给定词语的短语相匹配的短语。
具有完整的语料库表示的特定词语搭配可以用来帮助判断两个词语之间的相似
程度,因此可以确定它们是否具有同义词关系。
更具体地说,句子中的每个词语被提取出来,并给出其特定的搭配词。
然后,比较句子中两个词语的特定搭配,看它们是否拥有相同的搭配词。
如果这些特定搭配词相同则说明它们可以是同义词,否则不能表示同义词关系。
语料库与英汉对比下的翻译写作学课堂检视
语 料 库 与 英 汉 对 比 下 的翻 译 写作 学课 堂检 视
朱 玉敏
( 厦 门理 工学院外 国语学院 ,福建 厦 门 3 6 1 0 2 4 )
[ 摘
要]检视 是对翻译写作过程 的一 个重要 补 充和 创新 ,可 以通过 作 者对 文本 的重新 审视 和修 改,
使文本质 量得 以大幅提 升。传统的课 堂检视方 式,或 目的性 不强 ,或缺 乏 系统性 ,收 效甚微 。建议 教 师在
一
、
翻 译 写作 学 课 堂 检 视 的 重 要 性
目前 翻译 界亟 需 的是 以翻译 实 践为 研究 对 象 、 以中 国翻译 理论 为 主要 依 托 的翻译 理 论研 究 , “ 翻
译写作学”正是顺应 了这种需求 。它立足 内向型本体 翻译研究的翻译理论 ,重点探讨翻译写作过程 中译者的译文写作能力与质量问题 ,并据此对各种翻译研究观点和译文加 以评判。翻译写作学提出了 “ 感知一 运 思一 表述 一检 视 ” 的 翻译 写作 过 程 。 “ 感 知 就是 了解原 作 者 的创 作 心理 ,洞悉 其 遣 词 造句 的用心。运思揭示翻译写作中思路和思维运动的规律 ,了解信息和符号在译文孕育过程 中的作用 。运 思就是运用心思 ,就是构思译文 ,是一种高级思维活动 ;而表述就是将感知、运思的结果付诸文字 , 形成译文。 ” _ 1 J 4 “ 翻译写作学的宗旨是指导人们的翻译写作实践 ,增强译者的译写能力 ,提高译者的 翻译写作水平 。翻译写作学的研究 目的之一就在于阐明翻译写作规律 ,指导翻译写作实践 ,去掉盲 目
第2 1 卷
第 4期
厦 门理 工学院学报
J o u na r l o f Xi a me n Un i v e r s i t y o f T e c h n o l o g y
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.引言 受统计机器翻译成功应用的影响,当前一些从事机器翻译的研究机构为建立较好的语 言模型和翻译模型,搜集整理了一批双语语料,语料库越建越大;有的更进一步利用网络 爬虫等技术手段从互联网上获取了更多翻译语料来丰富语料库。然而建库本身并不是目的, 为较好地利用这些语言资源,于是更多检索工具也开发问世了。由于版权限制等各方面原 因,目前能够下载或在互联网上运行的双语语料库检索系统并不多见。即使部分能够运行, 检索界面也往往比较简单,比如只提供简单的中英文字词的语言内容查找,有些甚至没有 进行基本的英语词形还原,使得由于检索词和语料中的词语不一致造成的漏检现象频繁发 生。同时对检索的元属性限制条件,譬如翻译方向的汉译英、还是英译汉;语体特征的书 面语还是口语等属性检索基本没有提供。由于设计上的这些缺憾,使得以机器翻译为主的 语料库检索对面向翻译研究者和学习者的贡献打了一个折扣。 近年来,在国家社会科学基金项目和教育部人文社科重点研究基地重大项目的支持下, 我们初步建成了当今世界上经过专业人员校对、规模最大的汉英平衡对应语料库(王克非 2004) 。本着切实为翻译教学与研究服务的目的,我们设计了一个用户检索系统,希望通过 简单的人机交互接口,使得更多用户能够方便地获取利用这一宝贵的语言资源。最近我们 在北京外国语大学中国外语教育研究中心的“中国外语教研网”发布了一个 Web 版的原型检 索系统,以听取更多用户的意见和建议。 2.语料库的数据库转化设计 语料库作为海量语言事实材料的集合,一般来说,数量相对较大。采用一般的文件处 理系统难以管理。譬如我们创建的汉英对应语料库的总字数就以千万计。搜集本身不是目 的,更关键的是加工利用。对语料的处理既可以自行设计数据结构或采用专门软件进行管 理。 为简化开发时间,我们在汉英双语对应语料库平台中,采用关系型数据保存、管理、 检索语料。因为数据库本身具有良好的数据存储及管理与维护功能,方便后续语料库不断 追加;数据库还提供较好的检索二次开发接口设计,能在此基础上方便快捷地定制特定的
字段名 英文句 中文句 源语言 作者 篇名 类型 文体 语体 时代 段落 ID 句子 ID 文件名 类型 字符型(5000) 字符型(2000) 字符型(1) 字符型(50) 字符型(50) 字符型(1) 字符型(1) 字符型(1) 字符型(1) 数值型 数值型 字符型(50) 备注 一个英文句子不超过 5000 字母 一个中文句子不超过 2000 汉字 当前句子的源语言(英语或汉语) 当前句子的作者名 当前句子所在文本的篇名 当前句子所属的类型(取规定值之一) 当前句子所属的文体(取规定值之一) 当前句子所属的语体(取规定值之一) 当前句子所属的时代(取规定值之一) 当前句子所在段落相对全文偏移量 当前句子相对段落的偏移量 当前句子所在文件名
《中国英语教育》2009 年第 1 期,总第 23 期 English Education in China Number 1, 2009
汉英对应语料库翻译句对检索问题*
王克非, 熊文新
(北京外国语大学中国外语教育研究中心, 北京 10089)
提要: 英汉双语对应语料在经过对齐标注校对入库之后,便转化为可管理的数据库系统。 为使这一宝贵的语言资源能够更好地服务于翻译教学与翻译教学,我们制作了一个前端用 户访问后台数据库的服务接口,通过较好的人机交互界面,提供一个对双语语言事实进行 更多复合条件查询的检索系统。本文简要介绍这一系统的设计开发思想及其应用。 关键词: 汉英对应语料库;检索系统;翻译句对
《中国英语教育》2009 年第 1 期,总第 23 期 English Education in China Number 1, 2009 英文,抑或是两者混合;查询长度不一,既可能只有一个词语,也可能是若干个短语;查 询主体不同,可能是词,也可能是码,或是词加码的组合;查询性质不同,可能是需要在 目标句对中出现的词语,也有可能是不需要在目标句对中出现的过滤词。 词类赋码是一个封闭的标记集,这些标记可以悉数枚举,检索起来并不构成困难。用 户输入的查询词与实际在语料库中出现的词可能由于词形的不一致而造成漏检或误检。有 鉴于此,我们在本系统中分别采用模糊检索和词形还原来解决此类问题。 (1) 解决汉语分词不一致的模糊检索 为满足用户对词类的检索,数据库中存储的中文句子都是已经过分词和词类赋码的文 本,汉语词之间都已经添加了空格,并且每个词之后都缀上了相应的词类码。因此有可能 出现语料库中分词系统切分出来的词语与普通用户输入词语不一致的情况。譬如假定用户 输入字符串“中国人民解放军”,认定这是一个词,因此没有以空格隔开。而在语料库中,串 “中国人民解放军”实际被切分成“中国_np 人民_n 解放军_n”等三个“词+码”的子串拼接形 式。这样将检索不到用户希望得到的句对。由用户和分词系统对词的认识不一致,采用字 符严格匹配的方式容易导致漏检。 我们的处理策略是,首先将查询字符串拆解,汉语以单字、英语以单词为基本单位; 对各基本单位后采用正则表达式加接 0 或 1 个词类编码形式,构造新的基本单位;然后再 拼接各基本单位构造新的查询表达式,这样能够检索得到与原查询串基本单位序列相同并 且字形一致但可能被打散或整合的汉语句子,以防止对分词理解不同造成的漏检。应该注 意的是,这种处理也有可能误检出基本单位字形相同并且排列相同但实际并非用户希望检 出的句子。如假定要检索“华人”,切分查询串为字后,语料库中的“中华人民共和国”将被检 出。因此模糊检索是强调检出率优先的可靠选择,适用于用户追求全面结果,不希望有任 何遗漏,然后再人工逐一检查这样一种后处理。 (2) 解决英语词语匹配不一致的词形还原 作为一种形态相对比较丰富的语言,英语的词形变化可能导致字符串匹配的困难。譬 如可数名词有单复数的屈折变化;动词也有现在分词、过去分词及过去完成式等各种不规 则变化形式。因此,对用户输入的英语查询串,需要有个词形还原形式。假定输入的是词 典词的原型形式,则需将其在实际文本中可能呈现的其他屈折变化形式都能检索出来。譬 如待查询的是原型动词“go”, 则需要将实际例句中可能出现的 going/went/gone 等其他变体 形式也包罗进来。 我们建造了一个包含 4 万个词语及其相应不规则形式的词表,包括词典词的原型及其 衍生出来的名词单复数、动词时态还有形容词比较级及最高级等形态变化。采用查词表的 方式对输入查询串中的英语词尝试进行扩展。其中新扩展的词语与原查询串中的原型词之 间保留逻辑上的“或”关系,即在语料库的句子中只要能找到原词或其扩展词的任意其一,都 将视作对查询条件的满足。 3.2 Web 和桌面应用程序设计 目前我们实现了两种检索方式的雏形,一是网络查询,是桌面查询。前者通过 Web 浏 览器联网注册成为用户后,登录指定网站,根据界面指导完成查询工作;后者采用光盘将 系统安装在用户计算机桌面使用,通过用户图形界面检索。 网络版检索系统在后台选用开源数据库 MySQL 作为语料库的管理查询工具, 前端采用 脚本语言 Php 制作用户交互式的 Web 查询界面。 通过文本框接受用户输入, 下拉框的设计 用来接受用户对特定属性的限制,构造一个可直接对数据库检索的查询语句,并将执行结 果输出到用户浏览器页面。其中用户指定的查询词语将以高亮形式凸显。这是典型的瘦客 户端工作方式。用户自身的计算机无需安装特别的程序或其他系统,只要浏览器能联网就 能访问建好的双语对应语料库系统。相应的缺陷是对服务器负担较重,如果某一时段的并
图 版用户查询 图 5 和图 6 分别显示 Web 和桌面应用下的查询实例。 其中, Web 方式显示的是用户查询“克
《中国英语教育》2009 年第 1 期,总第 23 期 English Education in China Number 1, 2009 服 困难 difficulty overcome”,系统设计查询串的所有原子之间缺省为逻辑“并”的关系,因 此所有中文句子带有“克服 困难”并且对应的英文句子带有“overcome difficulty”等词形的实 例将作为结果输出,同时这些查询词语将高亮显示,其中英语词可能的其他变体形式,如 overcame 和 difficulties 等视作查询原词。桌面应用程序显示的是用户查询“克服 困难 -overcome difficulty”,根据系统设计前加“-”的查询词语被视作排除词,将被过滤,因此所 有中文句子含有“克服 困难”而相应的英文句子带有“difficulty”,没有“overcome”的句对将被 检索出来。 采用这种限制方式, 能够检索出汉语“克服困难”在“困难”翻译成“difficulty”的时候, “克服”还可以用除 overcome 之外英语翻译。 4.汉英翻译单位的对应检索 在将句子层面的对齐语料库转换为数据库后,借助用户图形界面,人们就能方便地利 用 SQL 语言进行各种组合条件的全方面查询。元属性的限制条件通常是一个确定值或多个 确定值的组合。 确定值是二选一或多选一, 比如翻译对的属性值是{英译汉, 汉译英}取其一; 时代属性值是{20 世纪前, 20 世纪上半期, 20 世纪下半期}取其一。 对语言及翻译形式的检索 则相对复杂。 当前针对翻译的查询方式主要有两种: (1)语言学意义上的单语词或词与码的结合, 如检索“研究”做动词和名词翻译成英语时采用什么样的译法。 (2)翻译研究意义上的源语言 和目标语言之间的对应单元不同译法的检索,譬如中英文词语混合检索及出现与否的检索。 除了一些固定用法及成语(idiom)只能借助词典编码外,大多数翻译是按照源语言的组 合方式,在目标语言中将与源语言对应的翻译单位重新组合而成,其中语法(如动宾关系) 语义(如施事受事关系)等限制条件保持不变。以下以汉语动宾结构“克服 困难”为例介绍 如何应用我们开发的检索工具,在英译汉及汉译英的翻译文本中检索相关的语言翻译现象, 现在假定对文体、时代等其他任何元属性不做任何限制。语料规模为 200 万中英文字词。
《中国英语教育》2009 年第 1 期,总第 23 期 English Education in China Number 1, 2009 发访问过多则有可能造成服务器宕机;另外对用户的网络连接速度要求也较高,否则有可 能因访问超时浏览器停止工作。 至于单机版检索系统,我们曾在项目组内部采用 C#和嵌入式数据库 Sqlite 在微软 DotNet Framework 平台下完成了一个集语料校对、 数据入库等内部处理和查询检索等外部 工作为一体的开发平台。查询界面与 Web 方式基本相同,也是通过文本框和下拉框实现用 户输入查询串和选择元属性,经由程序将用户输入内容翻译为等价 SQL 命令语句,将结果 高亮呈现在浏览器 webBrowser 控件中。