安康生态旅游资源汉英翻译平行语料库建设的构想
浅谈如何快速搭建英汉双语平行语料库与平行语料库检索平台

浅谈如何快速搭建英汉双语平行语料库与平行语料库检索平台语料库不仅在商业领域有着重要的作用,在翻译学研究、语用学研究以及实践教学等领域都有重要的作用。
语料库研究与应用是以语料库建设为前提,语料库建设是所有环节中最为重要的一个环节。
语料库在商业领域与科研教学领域的应用与研究的快速发展,得益于语料库建设的技术手段日益成熟,同时语料库也呈现出多样化的应用与实践。
本文通过深度探索语料库建设与应用的前沿技术发展与应用情况,重点介绍建立英汉语料库以及平行语料库应用平台所需技术支持以及详细的语料库建设与应用操作细则。
标签:语料库建设;语料库应用;双语平行语料库语料库分为单语语料库、双语语料库以及多语语料库,语料库是语言实际应用过程中产生的语言数据,例如图书的翻译、商业文件的翻译以及新闻报告的翻译等语言数据都是形成语料库的基本语料材料。
目前的研究主要是基于双语语料库的制作与应用,双语语料库也是最为广泛使用以及数量最多的语料库种类之一,语料库的存放是以数据库的形式存在为主,形成真正的语料库需要经过收集、转化、降噪、对齐、审校等诸多步骤,形成最终可用的语料库。
语料库的建设目的是多样化的,语料库的来源也是极其广泛,其中尤为重要的环节就是语料的对齐,语料对齐的速度直接决定了语料库制作的效率。
高质量的语料库是进行语料库制作与应用的基础,语料库的质量会直接影响最终的应用效果。
一、研究意义语料库的研究与应用目前在商业领域已经有了突飞猛进的发展,特别是近两年神经网络的发展,语料库对于机器翻译的发展奠定了基础,极大提高了目前谷歌、百度、搜狗、有道以及必应等机器翻译引擎的质量。
不仅如此,商业领域的巨头包括强生、中石化、微软、阿里巴巴以及腾讯等诸多公司都在不同程度的基于语料库提升在各自特定領域的机器翻译引擎质量,其中阿里巴巴的机器翻译引擎已经为中国众多企业将成千上万的商品推向全球市场提供了翻译支持。
不仅如此,语料库在学术、科研以及教学实践等应用方面都有着举足轻重的作用,利用语料库可以进行语用学、翻译学、译者行为、语言风格等多方面学术科研;同时语料库在教学中也广泛应用,通过语料库进行教学应用,教师可以将学生的翻译作业整理成语料库,利用语料库检索功能,学生可以进行自查自纠,教师也可以通过制作学生翻译作业的语料库寻找共性问题进行讲解,帮助学生解决翻译实践中产生的问题。
智慧旅游双语平行语料库创建SWOT分析

智慧旅游双语平行语料库创建SWOT分析智慧旅游是指通过互联网、人工智能等技术手段,将旅游信息、旅游产品、旅游服务等进行整合和优化,提供更加便捷、个性化的旅游体验。
智慧旅游的发展,对于旅游行业的提升和创新有着重要的作用。
为了深入分析智慧旅游的优势、劣势、机会和威胁,可以使用SWOT分析法。
SWOT分析是指将一个企业、组织、项目等识别出的优势(Strengths)、劣势(Weaknesses)、机会(Opportunities)和威胁(Threats)进行结构化的分析。
下面将对智慧旅游的SWOT分析进行双语描述。
优势(Strengths):1. 提供便捷的旅游信息和服务,满足了人们对旅游的需求。
通过智慧旅游平台,用户可以方便地搜索和预订各类旅游产品和服务。
2. 提高旅游产品和服务的个性化程度。
智慧旅游平台通过大数据分析用户的偏好和需求,能够提供更加精准的推荐和定制化的服务。
3. 促进旅游行业创新和发展。
智慧旅游平台的推出,促进了旅游行业的数字化转型,推动了旅游企业的创新和升级。
Weaknesses(劣势):1. 高度依赖技术支持。
智慧旅游平台需要依托互联网和人工智能等技术,对于技术的稳定性和可靠性要求较高。
技术故障或者网络问题可能导致用户体验不佳。
2. 隐私和安全问题。
智慧旅游平台需要收集用户的个人信息和旅游偏好,如果信息泄露或者被不当使用,可能对用户的个人隐私和权益造成损害。
3. 需要建立信任和口碑。
智慧旅游平台的用户体验和口碑对于吸引更多的用户和推动旅游行业的发展至关重要。
如果出现服务质量不佳或者用户投诉等问题,可能对平台的声誉造成影响。
Opportunities(机会):1. 市场需求增大。
随着人们生活水平的提高和旅游消费的增加,对于智慧旅游的需求将继续增加。
2. 技术发展驱动。
随着互联网、人工智能和大数据等技术的不断发展,智慧旅游平台的功能和服务将不断创新和完善。
3. 横向合作机会。
智慧旅游平台可以与其他旅游企业、机构和景区等进行合作,共享资源和优势,提供更加综合和一体化的旅游产品和服务。
外宣翻译汉英平行语料库的创建与研究

宣传 自身的形象 、 资料等 , 即是通过翻译工作 向外界展示 自 身, 将 自身 的一些 特性 通过对方的语言或文字展现给对方 。因此 , 外宣 翻译工作 的主体 并不是我们本身 , 而是我们 宣传 工作所 面对的对 象 。而在实 际翻译过程 中 , 我 们常常 习惯性 的以 自身 为主体 , 而 并 未把 宣传 对象的认知和接受习惯放在首位 。在我们 中国 , 这种 现 象尤为 突出 , 因为我们 的外 宣对象主要是 西方 国家 , 而经过这 么 多年的发展 , 东西方 国家 之间的文化存在着 巨大的差异 , 在交
2 平 行 语 料 库 的创 建 与研 究
网。汉语 和英语 的电子化需 要分别使用不同的处理软件 , 以便取 得最 优化效果 。汉语纸质 内容扫描 后保存 为J P E G文件 , 利用 专 门的软件 处理 , 得到t x t 格 式 的文本 文件 , 务必 要保 证其 识别 率 高, 即保证 原文 的准确 性 。英 语纸 质 内容 扫描 后保存 为 P D F 文 件, 利 用专 门的软件处 理 , 得到 t x t 格式 的文本文件 , 同样 的也要 求其识别率高 。若是 纸质内容中既有汉语 内容也有英语 内容 , 则 将扫描后 的J P E G文件进行裁剪 , 将汉语内容和英语 内容分开 , 再 分别用不 同的处理 软件进行处理 , 最终 完成 纸质书本 电子化 的工 作。
旅游资源翻译语料库的构建及其应用研究

旅游资源翻译语料库的构建及其应用研究本文从入境游对经济发展的推动作用以及旅游翻译的特点入手,论证了构建旅游资源平行语料库的必要性和重要性。
进而从该库的应用目标、语料库的规模、建库原则和收集范围、语料的分类与录入、语料库的对齐和标注等方面入手,论述了陕西旅游资源翻译语料库的构建以及该库的应用。
标签:入境游旅游资源翻译语料库翻译研究一、引言基于语料库的翻译研究始于Mona Baker1993年发表的语料库翻译学开山之作《语料库语言学与翻译研究:启示和应用》。
语料库翻译学脱胎于语料库语言学和以多元系统理论和翻译规范理论为代表的描写性译学之间的有机融合,采用数据统计和定性研究的方法,分析翻译语言特征、翻译规范、译者风格、翻译文本的影響以及双语转换规律(胡开宝,2012)。
该领域内较有影响的研究成果有Baker(2000)、Olohan(2002、2003)和Laviosa(1996、2002)等人所做的研究。
目前翻译研究中常用的语料库主要有译文语料库(translational corpus)、类比语料库(comparable corpus)和对应语料库(parallel corpus)三种。
(Baker,2000)现有的旅游专门语料库分别是:芬兰萨翁林纳翻译研究学院(Savonlinna School of Translation Studies)Michael Wilkinson研制的67万词英语旅游文本语料库;英国埃塞克斯大学(University of Essex)Carlotar Alcantar研制的英语旅游文本语料库;日本大学(Nihon University)Kiyomi等人研制的京都旅游语料库;李德超、王克非研制的新型双语旅游语料库(李德超、王克非,2010)。
但是,由于旅游翻译具有地域性和丰富的文化内涵,使得以上旅游翻译语料库在研究国内旅游资源翻译时显示出其局限性。
本文从构建旅游资源翻译语料库的必要性、语料库的设计以及应用等方面,探索构建旅游资源翻译平行语料库对于旅游翻译研究、旅游翻译教学的意义。
构建大规模的汉英双语平行语料库

作 P ) 1 ’,…T s,T ,1 2 构成 译 文文本 中一个 或 多个 完 整 的段 落 ( 体 记作 P) s和 P 之 间具有 “ 整 t ,P t 翻 译关 系 ” 。 句 子级 对齐 单 位 ( 记作 A ) s :一 个 句子 级 对齐 单 位 是一 个 二元 组 , 作 A 记 S=<i i S,T>,其 中 s 由 i
语料库的系统性构建却较少。就汉英双语对照语料
而 言 ,国 内尚且没 有 超过 1 句对 的平 行 语料 库 。 0万 下 面介绍 构建 汉英 平 行语料 库 的 系统性 流程 以及该 语料 库 目前 的建 设情 况 。
1 语料 库构 建 的规划 和模型
图 1 双 语 平 行 语 料 库构 建 流 程 模 型
一
套通 用性 较好 的整理 、加 工工具 .协 同工 作人 员 我们 严 格定 义 了与双 语平 行语 料 库建 设 相关 的
完 成语 料 的整 理 、标记 、检查 、对齐和 校对工 作 。 术 语 :原始 语 料 、双语 语 料 库 、篇章 级 对 齐单 位 、 原 文文 件 、译 文文 件 、段 落级对 齐 单位 、句 子级 对 齐单 位 、源语 言 。 其 中 ,篇 章 级 对 齐 单 位 ( 作 记 A) T :一 个 篇章 级 对 齐单 位 由若 干 段 落级 对 齐单 位
22 语 料 的整理和 加工 _ 整理 、加 工任 务从 考 察 原始语 料 的物 理 特征 并
山 西省 留 学基 金 委 资 助 项 目 (0 5 2 ) 20— 0 收 稿 日期 :0 6 0 — 7 修 回 日期 :0 6 0 — 4 20 — 8 0 ; 20 — 8 2
进行相应的归类人手 ,综合考虑原始语料本身的情
智慧旅游双语平行语料库创建SWOT分析

智慧旅游双语平行语料库创建SWOT分析一、优势1. 丰富的语言资源:智慧旅游双语平行语料库创建将会丰富并积累各个语种的语言资源,为智慧旅游的跨语言交流和翻译提供坚实的支撑,为游客提供更便捷的服务。
2. 促进信息共享:双语平行语料库创建可以促进各地旅游信息的共享和交流,为旅游者提供更全面、准确的旅游信息,提升旅游体验。
3. 提高翻译质量:双语平行语料库对于翻译人员以及机器翻译的质量都有着重要的促进作用,能够提供丰富的翻译语料和范例,提高翻译的准确性和流畅性。
二、劣势1. 语言数量和质量:双语平行语料库创建需要大量的语言资源,而且不同语言之间的质量也会有所差异,对于一些小语种或者非常规语种的建设将会面临挑战。
2. 数据准确性:在语料库创建的过程中,数据的准确性和真实性将是一个难题,需要花费大量的时间和精力来对数据进行筛选和验证。
3. 版权和保护:双语平行语料库的创建涉及到众多的版权和保护问题,如何在尊重知识产权的前提下获取并利用语料库的数据,将是一个需要解决的难题。
三、机会1. 智慧旅游市场需求:随着智慧旅游市场的快速发展,对于跨语言交流和翻译服务的需求将会不断增加,双语平行语料库的建设将有着广阔的市场前景。
2. 技术发展趋势:随着信息技术和人工智能的不断发展,机器翻译和自然语言处理技术将会得到进一步改善和提升,双语平行语料库将会成为技术发展的重要支撑。
3. 国际化发展需求:随着全球化进程的加快,各国之间的交流日益频繁,对于跨语言翻译的需求将会逐渐增加,双语平行语料库的需求也将随之增加。
四、挑战1. 数据获取难度:双语平行语料库的创建需要大量的原始数据支撑,获取和整合这些数据将是一个具有难度的任务,特别是对于一些小语种和非常规语种。
2. 数据清洗和验证:对于大规模的数据清洗和验证将是一个繁重的任务,需要耗费大量的人力物力来保证数据的准确性和可靠性。
3. 语言认知和文化差异:不同语种的语言和文化在翻译和交流中会存在一定的认知和理解差异,如何在语料库的创建和使用中考虑和解决这些问题,将是一个具有挑战性的任务。
国内旅游语料库研究述评

国内旅游语料库研究述评文章对国内旅游语料库的研究现状及其成果进行了梳理,发现:国内旅游语料库的研究主要集中在英汉/汉英双语平行或可比旅游语料库的研制/构建和应用两个方面。
研制/构建研究内容主要包括语料库的设计、语料的搜集、选取、数字化、标注、对齐和检索等。
应用研究方面主要集中在教学、翻译和旅游文本特征的研究。
整体而言,目前国内旅游语料库的研究已经取得了一定的成绩,但是构建的库容较小,所涉及的地域有限,应用研究也有待进一步开发。
标签:旅游语料库;构建;应用;教学;翻译旅游语料库是出于某些特定的研究目的而收集旅游领域的语料文本建立起来的语料库,属于专门用途语料库。
就目前研究来看,国内旅游语料库的研究主要集中在平行/双语语料库的构建及应用方面。
平行语料库指的是两种语料分别存储在同一语料库中,且是对应关系,一种文本是另外文本的译文。
国内的旅游语料库库容都不是很大,多为地域性的旅游语料库,具体应用领域较为狭窄,多为教学、旅游文本特征的研究方面的应用研究。
构建的类型主要为双语平行语料库,最为知名的是香港理工大学的李德超课题组所构建的语料主要来源于香港地区的双语语料库,主要应用于旅游英语教学和翻译教学。
其它均为市或者地区的语料库,如保定市旅游语料库、安康生态旅游语料库、康巴藏区旅游语料库、赣南红色旅游语料库等。
虽然目前国内旅游语料库的研究和应用比较有限,但也取得了一定的成绩。
因此非常有必要对目前旅游语料库相关研究进行述评,肯定已有的成绩,找出不足,探索将来的研究方向。
一、国内旅游语料库的构建研究目前国内现有旅游语料库主要有安康生态旅游资源汉英翻译平行语料库、导游词平行语料库、贺州地方性旅游景区翻译语料库、赣南红色旅游英汉平行语料库、衡阳旅游汉英平行语料库、山东旅游外宣小型语料库、陕西省旅游景区公示语翻译语料库、皖南旅游资源翻译语料库和新型双语旅游语料库等,均为地域性的旅游语料库,为当地的旅游业服务。
这些语料库都是双语语料库,且都为双语平行语料库,只有李德超的新型双语旅游语料库例外。
安康生态旅游资源汉英翻译平行语料库建设的构想

构建平行语料] 具体操作步骤大致如下 :( )语 料的选取 。一方 面由外语专业研究人员 1
通过扫描或者直接从网 站下载、 选取有代表性且高质量的 旅游外宣翻译
材料 ;另一方面 ,在选取优秀汉语景点介绍或导游词 的基础 上 ,组缜专
学 术探讨
.7 3 7.
安 康 生态 旅 游 资源 汉英 翻 译 平 行语 料 库 建设 的构 想
陈 平 李 向武
7 50 ) 2 00 ( 康 学院 外 语 系 陕 西 安康 安
摘 要 :安康生态旅 游资源汉英翻译双语平行语料库是一个 专门领域的平行语料库 ,具 有独特 的研 究及应用价值 。本 文针对安康 市旅 游 资 源及 特 色 景 区对 外 宣传 的缺 失 , 简述 了 目前 国 内平 行 语 料 库 发 展 现 状 ,探 讨 了建 设 安 康 生 态旅 游 资 源 ( 区 ) 外 宣 汉 英 翻 译 双 语 平行 景
文 章 编 号 :1 O O 6—0 6 ( 0 2)0 2X 2 1 6—0 0 0 0—0 2
安康位 于我 国中部 、陕西省东南部 ,地处秦 巴腹地 ,处 于西安 、重 庆 、武汉 的几何 中心 ,为 “ 东接 襄沔 ,西达 梁 洋 ,南通 巴蜀 ,北控 商 虢” 之地 ;汉江 由东 向西 横贯 中部 ,形 成 “ 山夹一川 ” 的 自然 地理 两 格局 。悠久 的历史 、南北过渡与秦 巴汉水独特的 自然生态环境 蕴育了丰 富的旅游资源 …。全 市现有 旅游 景 区 3 2处 、景 点 7 8个。景 区湖光 山 色 ,古朴奇异 ,空气 清新 宜人 ,环境 舒适 优 美 ,是休 闲度 假 、娱乐 观 光 、回归 自然的旅游胜地。近年来 ,安康 的旅游环境不断改善 ,城 市形
语 料 库 的 重要 性 、构 建 思路 及 其在 旅 游 资 源 宣传 推 介 、旅 游翻 译 研 究及 教 学 中 的应 用前 景 。 关键 词 :旅 游 资 源 外 宣 ; 平行 语 料 库 ;语 料 ;翻 译 中 图 分类 号 :H 1 24
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
安康生态旅游资源汉英翻译平行语料库建设的构想摘要:安康生态旅游资源汉英翻译双语平行语料库是一个专门领域的平行语料库,具有独特的研究及应用价值。
本文针对安康市旅游资源及特色景区对外宣传的缺失,简述了目前国内平行语料库发展现状,探讨了建设安康生态旅游资源(景区)外宣汉英翻译双语平行语料库的重要性、构建思路及其在旅游资源宣传推介、旅游翻译研究及教学中的应用前景。
关键词:旅游资源外宣;平行语料库;语料;翻译
中图分类号:h214 文献标识码:a 文章编号:1006-026x (2012)06-0000-02
1、引言
安康位于我国中部、陕西省东南部,地处秦巴腹地,处于西安、重庆、武汉的几何中心,为“东接襄沔,西达梁洋,南通巴蜀,北控商虢”之地;汉江由东向西横贯中部,形成“两山夹一川”的自然地理格局。
悠久的历史、南北过渡与秦巴汉水独特的自然生态环境蕴育了丰富的旅游资源[1]。
全市现有旅游景区32处、景点78个。
景区湖光山色,古朴奇异,空气清新宜人,环境舒适优美,是休闲度假、娱乐观光、回归自然的旅游胜地。
近年来,安康的旅游环境不断改善,城市形象和知名度不断提高,其独特的自然生态旅游资
源和地域风情吸引着国内外的游客。
相比于日益提高的旅游硬件设施建设,作为软件设施建设中的
安康旅游对外宣传却相对发展滞后。
可以发现,作为安康旅游重要窗口之一的安康旅游网迄今为止尚无“旅游指南”的英文网页。
旅游外宣旨在反映一个地方的对外开放政策、经济文化、建设成就,争取外地游客的了解、信任和支持,在国内外树立一个地区良好的对外形象。
旅游外宣翻译是旅游资源对外宣传、推介的最主要、最直接的手段之一,有助于树立一个地方的良好形象,吸引国内外游客,推动当地旅游业的发展。
为此,结合当前国内外旅游外宣翻译研究成果,探讨安康生态旅游资源汉英翻译平行语料库的构建思路及其在旅游资源推介、旅游翻译研究与教学中的应用前景。
2、平行语料库研究现状
语料库(corpus)是一个将真实情况下使用的海量语言信息经过科学收集和组织而集成的专供研究使用的资料库[2]。
语料库语言学是在语料库的基础上、运用计算机和网络技术对语言进行分析和研究的新兴学科。
语料库翻译研究始于上世纪90年代,在国外以1993年mona maker“语料库语言学与翻译研究:启示与应用”[3]一文的发表为标志,在国内则以杨慧中教授1993年发表的“语料库语言学与机器翻译”[4]为起点。
近十多年来,语料库翻译研究吸引着越来越多的学者研制各类翻译语料库,开展各种理论与实证研究。
平行语料库(parallel corpus)属双语语料库(bilingual corpus),是指能将源语文本和其译语文本进行全文检索并对照显
示的语料库[5]。
此类语料库有其独特优势,如双语对照、语言实例数量多、语域广、时效性强、语境丰富等。
目前,建好或在建的具有代表性的双语语料库多为通用文本、文学文本或新闻文本,专属某一地域或领域的双语专门语料库并不多见[6]。
目前,国内外较有影响力的双语旅游类语料库为香港理工大学的李德超研制的容量200万词的双语旅游语料库。
该库具有浓厚的属地性,所选语料以香港地区为主,涉及各种旅游类如景点介绍、旅游设施介绍等旅游类相关语篇。
而在建的有河北省导游词平行语料库[7]、新疆外宣翻译平行语料库[8]和山东省旅游外宣小型语料库[9]等。
这些地域性的专门用途的双语语料库的建立不仅提升了当地的旅游品牌和知名度、扩大了地方特色旅游资源的外宣力度,促进了当地旅游业的快速发展和经济模式的转型升级,同时也在翻译教学研究、翻译人才培训等方面发挥着重大的作用。
3、安康生态旅游资源汉英翻译平行语料库的构想
“安康生态旅游资源汉英翻译平行语料库”属于单项对应平行语料库(uni-directional parallel corpus),是由汉语文本和将其译成英语的文本构成的平行语料库,即语料库中的所有英语译文都是由汉语旅游景区(点)介绍、导游词等资料翻译而成,主要用于政府部门和企业对外宣传、推广、介绍安康市生态旅游资源及特色旅游景区(点),专业人员研究旅游外宣文本或导游词文体的语言及翻译特点,同时指导翻译、导游从业人员和学生撰写、翻译旅
游外宣文本或导游词。
“安康生态旅游资源汉英翻译平行语料库”的建设,具有专门的针对性和实用价值。
这种网络数据库可供国内外游客、导游从业人员和翻译工作者免费查询,无疑是有效提升安康市生态旅游资源品牌、扩大安康市生态旅游资源及特色景区(点)的知名度、提高旅游服务质量的重要途径。
安康市生态旅游资源及特色景点外宣翻译材料目前已经有不少的精品材料,如安康学院翻译研究中心负责翻译的有关旅游招商引资的材料、安康市人民政府网页上的部分双语翻译材料。
在对上述材料进行审定、整理加工、平行对齐后,通过互联网与安康市外事、旅游、招商等部门及安康旅游网实现在线链接、提供在线平行查询,便可成为安康市生态旅游资源对外宣传的重要窗口,填补目前安康政府部门及安康旅游网上仅有汉语旅游宣传而无对应英语网页的空白。
利用语料库这一现代化的检索工具,旅游外宣翻译对安康的经济发展有着不可估量的意义。
构建平行语料库的核心任务是双语语料的加工和语料库组织[10]。
具体操作步骤大致如下:(1)语料的选取。
一方面由外语专业研究人员通过扫描或者直接从网站下载、选取有代表性且高质量的旅游外宣翻译材料;另一方面,在选取优秀汉语景点介绍或导游词的基础上,组织专业教师进行翻译,再经过资深翻译专家和外教的校对。
(2)语料的预加工。
制定标准的语料库数据格式规范,对选取的汉、英文本进行改写、错误修改、杂质清除,以确保文本的
准确性;(3)语料平行对齐。
利用计算机对齐软件对双语语料平行对齐(alignment),使汉语语料与英语翻译语料文本中的段与段、句与句一一对应,以便语料库检索工具对语料进行处理。
(4)语料标注。
利用语料库词汇切分和词性赋码软件工具分别对汉语和英语语料进行标注(tagging)和人工校对与修订;(5)由计算机编程人员开发针对上述数据且可于网络上检索的查询工具,不断完善网络数据库的结构以及检索程序,以方便用户查询。