大数据时代汉英语际对应词的挖掘

合集下载

大学英语英汉互译教学的可创性探究——以iTEST系统为语料库

大学英语英汉互译教学的可创性探究——以iTEST系统为语料库

一一一一一一一翻译研究本栏目责任编辑:梁书大学英语英汉互译教学的可创性探究——以iTEST 系统为语料库陈亦炘(浙江传媒学院大学外语教学部,浙江杭州310018)摘要:大数据时代下,科学技术的引进与突破,预示着教师的教学策略应当具有日新月异的变革。

大学英语教学中,学生英汉互译能力的培养与检测是不容忽视的一个重要环节。

该文以外研社iTEST 大学外语测试与训练系统作为数据库,建立双语平行语料库并通过对授课学生的译句质量得出分析结果,提出适应于本校英汉互译教学的创新对策及阐述英汉互译能力培养的价值。

关键词:英汉互译;平行语料库;质量分析;策略;创新中图分类号:G424文献标识码:A文章编号:1009-5039(2019)18-0009-021英汉互译教学现状与问题“2+3”(网络自学2学时与课堂教学3学时)教学模式,是基于网络教学平台与网络测试平台的大学英语教学模式。

教学软件为外研社提供的U 校园智慧教学云平台(简称:U 校园)及iTEST 大学外语测试与训练系统(简称:iTEST 系统)。

大学英语听、说、读、写、译的教学中,“译”的教学即通过英译汉与汉译英的方式,培养学生使用英汉双语进行表达,从而实现更好的跨文化交际的能力。

因此,在网络科技的帮助下,学生英汉互译能力的训练得以更为有序地进行,而能力检测则使用iTEST 系统,进而实现教学模式与测试模式的相互协调与相对统一。

英汉互译的教学多采用教师讲授翻译技巧并呈现相关的翻译实例,学生则进行实战操练,以文篇翻译或句子翻译的方式进行。

相较国内其他高校的翻译课堂教学,相似的问题在于,英汉互译教学仍是以教师为主导,学生被动模仿式的翻译教学状态,因此,限制了学生双语灵活运用能力的发挥。

本校现代科技与传统相结合的英语教学模式,促使教师在翻译模块教学中的改进,学生积极性的增加,自觉性的提高以及译句质量的提升是教师值得思考的问题。

2基于语料库的译句分析语料库是根据一定的语言规则,以随机抽样的方式,收集现实生活中自然连续的语言,运用文本或文字片段,建成的具有一定容量的大型电子文本库。

“文本挖掘与话语研究”专栏

“文本挖掘与话语研究”专栏

2020年7月Jul.2020天津外国语大学学报Journal of Tianjin Foreign Studies University第27卷第4期Vol.27No.4“文本挖掘与话语研究”专栏主持人语(汪顺玉):数字时代的话语生产者正在以惊人的速度和量级生产和传播话语。

得益于网络技术助推的数据革命以及计算机软、硬件技术助推的计算革命,这些真实话语大数据的获取和计算都已经成为现实。

新兴蓬勃发展的文本挖掘技术能够从海量的自然语言文本中获取有价值的语义和情感信息。

主题模型、文本聚类、结构化特征提取、情感分析等技术能超越目前基于Antconc或WordSmith工具的词汇(或N-元结构)语法结构频度分布的语料库话语分析限制,也能够超越基于主流文献计量工具提供关于文献背景信息(而非文献本身)的词共现或主题网络分析的限制,为文本分析提供望远镜和显微镜式的量化分析,拓展话语量化研究新视野。

这些新变化能够为话语研究获取新数据、提供新方法、解决新问题。

本栏目的四篇文章涉及学术话语、政治话语、科技话语,使用了对应分析、主题模型、情感分析方法,既有体现无监督学习的主题模型、文本相似度计算,也有基于情感字典的文本情感分析。

西安外国语大学汪顺玉的《中国学生英语讲述中国故事的话语方式研究——基于文本挖掘的发现》以2018年北京词网公司开展的全国英语写作“百万同题”竞赛写作语料库为研究材料,应用R和T-Lab分析工具进行了文本聚类、文本相似性、主题模型方法对初中、高中、高职院校、普通高校、重点高校的13500篇作文进行分析,发现了不同层次学校学生用英语讲述中国故事的话语构建模型的异同。

重庆大学钱深华和重庆邮电大学刘靓的《基于情感词典的中国英语学习者写作文本的情感挖掘研究》主要基于R的语言查询与字词计数法,对来自五种类型院校的734578篇作文文本进行情感挖掘,发现正向情感中高中学生文本在五类院校中最高,初中学生文本最低,而负向情感中初中文本的焦虑、愤怒、悲伤相关的情感词汇频数皆为五类院校中最高。

高并发汉英信息抽取系统的设计与实现

高并发汉英信息抽取系统的设计与实现
2019 年 8 月 15 日
第 42 卷第 16 期
104
DOI:10.16652/j.issn.1004⁃373x.2019.16.024
Aug. 2019
Vol. 42 No. 16
现代电子技术
Modern Electronics Technique
高并发汉英信息抽取系统的设计与实现
张少迪 1,2,艾山·吾买尔 1,2,郑
用户能够快速地发现自己所需要的信息,减少不必要的
大地推动了相当一部分人去从事汉语和英语信息抽取
时间花费,也让一些信息能够顺利地被其受众找到,实
相关技术的研究。通过这些年的研究,已经有很多比较

现其应有的价值成为了学者们研究的重要课题。然而
成熟的算法被提出,如 Taeho Jo 提出一种基于 KNN 的表
中图分类号:TN912.34⁃34;TP391
文章编号:1004⁃373X(2019)16⁃0104⁃04
文献标识码:A
Design and implementation of high⁃concurrency Chinese⁃English
information extraction system
ZHANG Shaodi1,2,AISHAN Wumaier1,2,ZHENG Jiong1,2,SHI Gang1,2
(1. School of Information Science and Engineering,Xinjiang University,Urumqi 830046,China;
2. Laboratory of Xinjiang Multi⁃Language Information Technology,Xinjiang University,Urumqi 830046,China)

基于语言学资源的汉-英机器翻译

基于语言学资源的汉-英机器翻译

2021.04科学技术创新基于语言学资源的汉-英机器翻译金鹏张春祥冯禹瑄贾永刚王淇桢(哈尔滨理工大学软件与微电子学院,黑龙江哈尔滨150080)1概述在机器翻译系统中翻译知识是重要的知识源,能够完成源语言到目标语言的转换任务。

目前,从语料库中学习翻译知识已经占到了主流地位。

基于语料库的机器翻译可以分为两种形式:基于统计的翻译系统和基于实例的翻译系统。

1.1统计机器翻译(St at i s t i cal M achi ne Tr ans l at i on ,SM T ),又称数据驱动的翻译,是一种采用统计学习技术来获取知识的方法。

这种方法将翻译知识表示为模型参数,利用双语语料来优化模型参数。

统计机器翻译主要包括基于信源信道模型的统计翻译、基于平行概率语法的统计翻译和基于最大熵的统计翻译[1]。

1.2基于实例的机器翻译(Exam pl e-Bas ed M achi ne Tr ans l at i on ,EBM T ),其基本原理是:把双语语料看作翻译知识库,通过实例的查询和相似度计算来实现知识的查找和匹配。

类比源语言与翻译实例,通过组合相近的实例片断来生成目标语译文。

实例的查询和相似度计算本身就是一个知识获取的过程。

这种方法不通过深层次的分析,仅使用已有的经验知识,通过类比原理来进行翻译[2]。

本文对汉英双语语料进行词汇对齐,根据词链从中抽取汉英对译片断对。

同时,给出了基于对译片断对的机器翻译框架,对输入的汉语句子进行翻译转换。

2汉-英对译片断对获取对译片断对也就是人们常说的翻译等价对。

翻译等价对获取不但是机器翻译课题中的一个重要环节,而且也是自然语言处理中亟待解决的问题。

在处理像汉-英这样具有异构语法体系的语言对时,现行的对译片断对抽取方法会遇到很多问题。

对以下汉-英双语句对,其对译片断对的抽取过程如下所示:汉语句子:这是收据和零钱英语句子:H er e i s t he r ecei pt and your change 词汇对齐结果如图1所示:图1汉英句对的词汇对齐结果对译片断对:这是<->H er e i s 收据<->t he r ecei pt 和<->and 零钱<->your change在实际应用中,对译片断对是很复杂的。

《汉蒙词语对齐及相关技术研究》范文

《汉蒙词语对齐及相关技术研究》范文

《汉蒙词语对齐及相关技术研究》篇一一、引言随着中国与蒙古国之间的交流日益频繁,汉蒙语言之间的互译需求也日益增长。

而汉蒙词语对齐技术作为自然语言处理领域的重要研究方向,对于促进汉蒙语言的互译和交流具有重要意义。

本文旨在探讨汉蒙词语对齐的相关技术及其应用,为汉蒙语言互译和跨文化交流提供技术支持。

二、汉蒙词语对齐的背景及意义汉蒙词语对齐是指将汉语与蒙古语中的词汇进行一一对应的过程。

在汉蒙翻译、词典编纂、自然语言处理等领域,汉蒙词语对齐技术发挥着重要作用。

通过对齐技术,可以实现汉蒙两种语言之间的准确互译,为跨文化交流提供便利。

此外,汉蒙词语对齐还有助于推动汉蒙语言资源的共享和利用,促进两国人民的友好交流与合作。

三、汉蒙词语对齐的技术研究1. 基于规则的词语对齐技术基于规则的词语对齐技术是指通过人工制定的规则或算法,将汉蒙两种语言中的词汇进行对应。

这种方法需要大量的语言学知识和经验,但具有较高的准确性和可靠性。

在汉蒙词语对齐中,可以通过制定一些规则,如词性对应关系、语义相似度等,来提高对齐的准确性。

2. 基于统计的词语对齐技术基于统计的词语对齐技术是指通过分析大量语料库中的词汇信息,计算汉蒙两种语言之间的词汇对应关系。

这种方法不需要人工制定规则,可以自动进行词语对齐。

常用的统计方法包括词频统计、共现关系分析等。

在汉蒙词语对齐中,可以利用统计方法分析语料库中的词汇信息,提取出对应关系并进行对齐。

3. 深度学习在汉蒙词语对齐中的应用深度学习是一种基于神经网络的机器学习方法,可以自动提取和挖掘数据中的特征信息。

在汉蒙词语对齐中,可以利用深度学习技术对大量语料库进行训练和学习,提取出汉蒙两种语言之间的语义特征和对应关系,从而提高对齐的准确性和效率。

四、汉蒙词语对齐的应用场景1. 汉蒙翻译汉蒙词语对齐是汉蒙翻译的基础工作之一。

通过对齐技术,可以实现汉蒙两种语言之间的准确互译,为翻译工作提供便利和支持。

2. 词典编纂汉蒙词语对齐技术可以用于词典编纂工作,将汉语与蒙古语中的词汇进行一一对应,为词典的编纂提供数据支持和技术支持。

“目的论”视角下从“可读性”出发浅谈汉译英歌词翻译技巧——以

“目的论”视角下从“可读性”出发浅谈汉译英歌词翻译技巧——以
n翻译目的论与“可读性"
麻 l.i于翻2译0世 目的纪论70年代的翻译目的论是以德国功能派
翻译理论为基础发展分化而成的。该理论认为翻译目的 决定了翻译策略及方法,翻译是“在目的语情景中为某 种目的及目标受众而生产的语篇”。在弗米尔的目的论框 架中,决定翻译目的的最重要因素之一是译文接受者; 同时,赖斯(2004)从功能的视角审视了翻译过程,认 为如果译文具有特殊功能和特殊读者群体,就应根据译 文的功能和读者群体类别来优先考虑译文的功能特征而 不是对等原则。在这一框架下,翻译过程更注重译文的 受众需求,翻译结果更注重译文的功能效应。
ozz
[8] 王建华.关于语境的定义和性质QJ.浙江社会科学,2002(2). [9] 杨春.性M吾言研究[M].北京:光明日报出版社,2010.
d^o
[10] 杨永红.语用学视角下《红楼梦》称谓语韩译研究UL北京:北
京外国语大学,2017.
[11] 张莉萍.称谓语性别差异的社会语言学研究[D].北京:中央民
翻译目的论有三大原则:目的性、连贯性和忠实性 原则。后来,诺德补充加入了忠诚原则。目的原则是翻 译目的论的首要原则,它指翻译应能在译入语情境和文 化中按译文接受者期待的方式发生作用。这意味着译者 需以译文读者为出发点,以满足他们的需求为翻译目的, 选择翻译方式进行翻译,即翻译目的决定翻译行为。
1.2可读性 首先明确一组概念:可读性(understandability)与可 唱性(singability)。这组概念的提出是为了区分歌词翻译 的两个目的,一是为了翻译后的歌词可以被人演绎翻唱 (cover),在这种情况下翻译的最终目的是''可唱性”,这 要求歌词译文与旋律适配;而当翻译是为了人们欣赏艺 术表演可以通过字幕明白表演者想表达的内容时,翻译 的最终目的是“可读性”,即可以看懂歌词内容。 我国早期翻译家严复在《天演论》中曾说:"译事有

英语词典的来源是什么?

英语词典的来源是什么?

英语词典的来源是什么?一、词典的历史渊源(500字左右)词典作为一种记录和解释语言的工具,具有悠久的历史渊源。

最早的英汉词典可以追溯到18世纪末,那个时期主要是国内编纂的词典。

然而,真正标志着英汉词典走向于繁荣的还是由外国传教士编写的英汉词典。

西方文化的传入为英语词典的发展提供了宝贵的素材,同时也对科学性和规范性产生了重要影响。

至今,英语词典在语言学、翻译和英语教学等领域仍扮演着重要角色。

二、资源丰富的收集和整理(800字左右)1. 母语和二语者的贡献最早的词典由个别学者独自编纂,他们依靠的主要是自身的语言学知识和对语言的敏感。

然而,随着世界交流和沟通的增加,许多母语和英语作为第二语言的人开始主动参与词典的编纂。

他们通过提供丰富且真实的语料,帮助纠正原有词典中的错误和不足。

他们的贡献使得词典内容更加准确和全面。

2. 大数据技术的运用随着互联网和智能手机的普及,人们的生活方式发生了巨大改变。

海量的文本数据成为一种宝贵的资源,它包含了各类领域的专业词汇和日常口语表达。

信息技术的发展也使得大数据处理变得更加高效和智能化。

通过对这些文本数据的挖掘和筛选,词典编纂者可以从中收集到更多新词汇、词义和搭配等信息,使词典更贴近当代语言使用。

3. 乐趣与创新的结合编写词典是一项充满乐趣和创新的工作。

在索引和编排词目的过程中,编纂者可以根据语言变迁和文化演变的趋势,赋予词典以更多的生命力。

例如,近年来一些权威词典开始加入网络流行语和潮流词汇,使得词典不再是冰冷的工具,而更像是一本活生生的语言宝库。

同时,一些新的词典还会通过引入图表、插图和语篇等形式,使得读者可以更加直观地了解词汇的使用环境和背景,提升词典的魅力和实用性。

三、词典的未来发展(400字左右)词典作为语言工具的象征和载体,与人们的日常生活息息相关。

在未来,词典的发展仍将继续以更加智能化和互动化为方向。

随着人工智能和机器学习的发展,词典编纂将更多依靠计算机的辅助和智能处理,提高编纂效率和准确度。

大数据时代的大学英语写作教学

大数据时代的大学英语写作教学

大数据时代的大学英语写作教学田娅丽(河北师范大学附属民族学院河北·石家庄050091)摘要互联网以及各种智能客户端逐步深入到教育领域中,推动着教育信息化和教育多元化的发展,将教育带入到了全新的大数据时代中。

大数据时代下大学英语写作教育,不再局限于传统的课堂教学,而是全面革新了英语作文教学的内涵、观念以及辅助手段等,写作教学资源以及写作目的、写作内容等都出现了多方面变化,从而为大学英语写作教学创新带来了挑战和机遇。

本文针对大数据时代的大学英语教学创新路径,进行深入探究和分析,以期为高校英语写作教育提供有效的策略与措施,进一步提升英语写作教学效果。

关键词大数据时代大学英语写作教学中图分类号:H319.36文献标识码:A1大数据时代下大学英语写作变化趋势1.1英语写作教学环境变化大数据时代下大学生英语写作教学,将教学目标聚焦于语言应用,要求教师从多个角度认识和解析作者、文本和读者之间的关系,教学要从多个维度制定教学策略。

大学英语教师,需要针对大数据时代下大学英语写作教学目标、教学方式以及教学模式的变化,做好思想与策略准备,在提升自身信息技术能力的同时,加强与教育技术人员合作,准确把握大学英语写作教学的变化趋势,且更好地适应变化趋势,选取合适有效的教学方法,推动大数据时代大学英语教学改革。

写作能力是英语基础能力组成之一,为了切实提升大学生英语写作水平,需要强化大学生写作能力培养,学生本身也应借助大数据时代的信息技术和网络,转变传统的写作学习思维。

故此,高校需将信息技术和新型写作理念融入到写作教学中,革新师生的思维方式和学习方式。

1.2英语写作教学目标、模式变化一方面,教师在教育中需要从教学目标、教学资源以及教学形式入手,重新构建大学英语写作教学模式,推动大学英语写作教学进入新的发展阶段,实现大学英语写作教学改革。

另一方面,大数据时代下,学生要积极利用网络自主学习和交互学习,但为了避免出现写作抄袭和复制、网络翻译的情况,应该采用翻转课堂和微课教学形式。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

摘要文章分析了大数据时代词典编纂可用或可参考数据的特点,探索如何从海量数据中挖掘汉英语际对应词等词汇知识,还简要探讨了与数据或语料使用相关的问题。挖掘实践表明: 充分利用可用资源,从纷杂的大数据中可以挖掘出所需的词汇知识,但目前仍需专业人员进行筛选、认定和解读。词典要保持生命力必须及时修订和收录新词。对于汉英词典来说,提供汉语词语的地道英语对应词会提升其实用价值。研究语际对应词挖掘不仅有助于编纂出符合用户需求的双语词典,对构建大数据语言资源库和开发挖掘分析软件也有参考价值。

关键词大数据时代对应词新词挖掘汉英词典 一、 研究背景 移动互联网的飞速发展加快了媒体融合的进程,也使传统的词典学研究和词典编纂实践面临挑战。不仅纸质词典,就连掌上型电子词典也遭到了前所未有的冷遇。人们更喜欢通过智能手机或计算机查询在线网络词典或离线电子词典。 大数据的应用前景广阔。但是,词典学研究和词典编纂可用的数据是大数据吗?词典学研究和词典编纂真的需要大数据吗?我们尝试从大数据时代词典学研究和编纂实践可用数据的特点出发回答第一个问题,结合汉英语际对应词的挖掘实例分析回答第二个问题,还简要探讨与数据或语料使用相关的问题。 二、 大数据与编纂词典的可用数据 1. 大数据的特点 传统意义上的“数据”指的是“有根据的数字”。现在,“数据”不仅指“数字”,还统称一切保存在电脑中的信息(包括文本、声音、视频等)。(赵勇,徐轲2014)在这个信息爆炸的时代,经过一定时间的积累就会出现海量或巨量的数据。过去,计算机存储信息或数据的计量单位用gb/gigabytes(1gb=1024mb)就已经很大了。现在用到tb/terabytes(1tb=1024gb),pb/petabytes(1pb=1024tb=1048576gb),甚至更大的计量单位。但是,不能简单地认为数量大就是大数据。大数据的体量巨大,不仅存储量大,计算量也大,超出了传统数据处理方法所能管理和处理的能力。 现在具有代表性的观点是大数据具备4v特征: (1) 数据量庞大(volume)。(2) 数据呈现多样性(variety),不但类型多(如文本、网页、图片、音频、视频和位置信息等),而且来自多种数据源,不仅有结构化数据,更多的是半结构化数据和非结构化数据。(3) 时效性(velocity),即数据增长速度快、变化速度快,处理速度也要求快,包括大量的在线或实时数据分析处理。例如电子商务对销售数据的实时快速分析就意味着能及时抓住商机。(4) 数据价值高(value),但价值密度低,即价值与数据总量之比很低,需要对海量的数据进行挖掘分析才能形成用户价值。如在长时间连续的监控视频中查找犯罪线索,有用的数据可能只有短短几秒钟。(赵勇,徐轲2014;严霄凤,张德馨2013;宗威,吴锋2013) 2. 大数据的定义 信息时代的“数据”概念是明确的,但是对于“大数据”至今还没有一个公认的标准定义。 美国国家科学基金会(nsf)将大数据定义为:“由科学仪器、传感设备、互联网交易、电子邮件、音频视频软件、网络点击流等多种数据源生成的大规模、多元化、复杂、长期的分布式数据集。”(黄南霞,谢辉,王学东2013) 李战怀、王国仁和周傲英(2013)从数据库研究者的视角对大数据进行了解读,认为大数据是个笼统的概念。他们指出:“与应用密切相关的各类数据都属于大数据范畴,大数据强调支持实际应用所涉及到的多个来源且相互关联的大量、高速、异构数据;世界上凡是可以表达出来的信息都是数据;当为了一个具体的应用而需要把大量的不同类型、质量各异的数据及时进行处理时,这些数据就进入了大数据的范畴。” 胡雄伟、张宝林和李抵飞(2013)认为:“不存在严格意义上的大数据资源的定义,任何已有数据资源的汇集和整合就可以构成所谓的大数据资源。„„大数据是各种类型的小数据的集合,通过各种类型的小数据整合、集合、集成处理,从中挖掘出潜在的新价值。所以说,大数据是小数据的再次利用和多次重复利用。” 3. 编纂词典的可用数据及特点 各行各业都有可能产生大数据,但是并非所有的数据都能用于词典编纂。 从是否付费的角度看,编纂词典的可用数据包括自有内部数据,可免费使用的外部数据和需交费使用的外部数据。 通过互联网等各种途径搜集或积累起来的单语、双语,甚至是多语语言资源,为词典编纂提供了丰富的语料或知识来源。但是将收集到的海量或巨量数据进行挖掘,找出规律并有效地加以利用才能创造价值。因此,挖掘和提炼出有价值的词汇知识对词典编纂工作来说至关重要。 三、 汉英语际对应词及其挖掘 1. 语际对应词 语际对应词(interlingual equivalents)指的是可插入性对应词(insertible equivalents),包括两种语言间的绝对对应词和部分对应词。 包双喜和斯日古楞(2007)指出: 一种语言的词,在基本意义上可以与另一种语言直接对译的词,彼此之间称为“对应词”;对应词是大量存在的,否则不同语言之间的翻译和交流就不能实现。 李明和周敬华(2000)在《双语词典编纂》一书中详细介绍和探讨过对应词的分类、在双语词典中提供对应词的方法、辨别对应词意义的手段,以及对应词的质量问题。他们发现双语词典编纂者在寻找(语际)对应词时可能会遇到三种情况: (1) 能找到绝对对应词(absolute equivalents;或称对等词);(2) 只能找到部分对应词(partial equivalents;或称局限对应词bound equivalents);(3) 找不到对应词,出现词汇空缺(lexical gap)。李明和周敬华(2000)认为: 除了绝对对应词和部分对应词,还可以把对应词分为翻译对应词(translational equivalents,又称插入对应词insertible equivalents)和解释性对应词(explanatory equivalents,又称描写性对应词descriptive equivalents)。他们建议把对应词分成插入性对应词和非插入性对应词。因为非插入性对应词只是词语的解释性翻译或描写性释义,所以不是严格意义上的对应词。插入性对应词有助于产出,而非插入性对应词有助于理解。在两者都可用的情况下,双语词典提供的插入性对应词在翻译方面对读者的帮助更大。 2. 现存问题 提供语际对应词是编纂双语词典的重要任务,也是专家们的共识。但是,提供地道实用的语际对应词的难度不小。正如曾泰元(2005)指出的那样,双语词典中对应词不够地道或不准确的现象并不少见,冗长的解释性释义依然存在。李安兴(2010)的研究显示: 国内一些汉英词典编纂者未能将前人(尤其是国内外翻译家)已经给出的一些汉语词语的佳译提供给读者。 通过构建语料库获取对应词的研究早已有之。我国的语料库建设和应用也有了实质性进展。尽管不少研究机构和出版社已经或正在构建与词典编纂和出版相关的语料库,但是各方都是专注建设自己的语料库或数字出版资源库,没有采用统一的数据标准。而且,仅仅依靠现有的语料库不能完全满足词典编纂的需要。再加上建设周期、更新速度和使用权限的限制,词典编纂人员实际可用的语料库并不像人们想象的那样全面。 3. 汉英语际对应词的挖掘探索 大数据时代的到来为充分利用包括网络资源在内的各种资源和技术编纂汉英词典打开了更广阔的视野。下面结合实例探索如何从纷杂的大数据中挖掘出编纂汉英双语词典所需的语际对应词等词汇知识。汉英语际对应词的挖掘是指从带噪声非结构化或半结构化的语料中找出未知的或未收录的汉语词语的英语对应词。 (1) 挖掘方法和步骤 (2) 挖掘实践 因为汉英语际对应词的挖掘涉及面很广,所以我们选取了十项有代表性的挖掘任务,结合典型实例展示大数据在词典学研究和词典编纂实践中的重要应用价值。 根据语料库词频数据对比,不仅可以找出“车展”的地道对应词,还可以判断出对应词的使用地域分布特点(见表1)。 2) 区分义项,标注所属学科。如果专业术语的使用范围不断扩大,也会进入普通词汇。词典收录时,应根据学科领域划分义项并标注。例如: 近几年,中国人喜欢为所有健康、乐观、积极向上的人,以及催人奋进、给人力量和充满希望的事贴上“正能量”的标签。“正能量”源自英语中的positive energy。在心理学领域,“正能量”的意思是“积极的能量;正向的能量;积极进取的动力”。但是“正能量”原是物理学领域的一个概念,与心理学领域“正能量”的英语对应词相同,意思不同(见例4)。 3) 验证两个或多个近义汉语词语是否有共同的对应词。例如: 英汉对照文本显示“民意测验”和“民意调查”有共同的高频英语对应词poll和opinion poll(见例5至例7的对照)。 5) 梳理对应词并分类。词典对词语的收录不应回避社会生活的负面状况。有些词语描述的是社会转型过程中出现的负面状况,汉语中有,英语中也有。如“傍大款”就是个典型的例子。从互联网上能搜索到“傍大款”的多种英译表达。表3是必应网络词典中“傍大款”的网页挖掘结果(根据2015年3月1日的检索结果复制)。这个挖掘实例既展示了网页文本挖掘的重要作用,也暴露出自动挖掘结果的不足之处。 从表3可以筛选出“傍大款”的英语对应词,但必须排除噪声干扰。首先是第一项中的of a girl被错误提取并列为对应词。它出现的频率高,但只是括注。接下来是第一项和第六项中都有lean on a moneybags。看上去moneybags的前面加冠词a不符合语法,但实际上moneybags是单复数同形,其前用冠词a是可以的。而第五项和第八项中的a moneybag只有“钱袋”之意,没有“大款;阔佬”的意思。第四项与第七项给出的对应词结构相似,但是一个用介词for,另一个用to。第五项列出的结果是lean on a moneybag,接下来的第六项却出现了与之不一致的to lean on a moneybags。第八项错误地提取出beer belly(将军肚;啤酒肚)作为“傍大款”的英语对应词。 经人工整理,并参考其他来源的挖掘结果,能提炼出下列可用的英语对应词: (of a girl) find/have a sugar daddy; (be a) gold digger; lean on/live off a moneybags; find a fat cat; be a rich mans mistress。例10至例12是应用实例。 如果汉语中已经存在多个近义表达,但又出现了新的源自英语的汉语近义词,其英语对应词容易辨认且稳定,应收录并单列词条。例如:“零容忍”已渐渐成为人们关注和讨论的热点。“零容忍”不仅能表达“毫不留情”“毫不迁就”“毫不宽容”“绝不容忍”“绝不留情”,以及“决不姑息”的意思,而且含义明确,态度坚决,英语对应词zero tolerance在汉英跨语言交流中的信息传递既直接又准确(见例13至例16)。 7) 增补新出现的对应词,但需区分词性。例如: 英语中的mutually beneficial可以表达“(互利/互惠)双赢的”意思(见例17和例18)。 根据焦瑞娟(2013)的研究,汉英词典有必要提供对应词辨析信息。经核查,英语单词parvenu(复数形式为parvenus)的意思也是“暴发户;新贵”,但这个词语体正式,没有“土豪”所含的“品位不高”“爱炫富”和“粗俗”等意思,也没有讽刺和调侃的意味。有人用

相关文档
最新文档