多语种在线语料库检索平台使用简明手册.pdf

合集下载

浅谈如何快速搭建英汉双语平行语料库与平行语料库检索平台

浅谈如何快速搭建英汉双语平行语料库与平行语料库检索平台

浅谈如何快速搭建英汉双语平行语料库与平行语料库检索平台语料库不仅在商业领域有着重要的作用,在翻译学研究、语用学研究以及实践教学等领域都有重要的作用。

语料库研究与应用是以语料库建设为前提,语料库建设是所有环节中最为重要的一个环节。

语料库在商业领域与科研教学领域的应用与研究的快速发展,得益于语料库建设的技术手段日益成熟,同时语料库也呈现出多样化的应用与实践。

本文通过深度探索语料库建设与应用的前沿技术发展与应用情况,重点介绍建立英汉语料库以及平行语料库应用平台所需技术支持以及详细的语料库建设与应用操作细则。

标签:语料库建设;语料库应用;双语平行语料库语料库分为单语语料库、双语语料库以及多语语料库,语料库是语言实际应用过程中产生的语言数据,例如图书的翻译、商业文件的翻译以及新闻报告的翻译等语言数据都是形成语料库的基本语料材料。

目前的研究主要是基于双语语料库的制作与应用,双语语料库也是最为广泛使用以及数量最多的语料库种类之一,语料库的存放是以数据库的形式存在为主,形成真正的语料库需要经过收集、转化、降噪、对齐、审校等诸多步骤,形成最终可用的语料库。

语料库的建设目的是多样化的,语料库的来源也是极其广泛,其中尤为重要的环节就是语料的对齐,语料对齐的速度直接决定了语料库制作的效率。

高质量的语料库是进行语料库制作与应用的基础,语料库的质量会直接影响最终的应用效果。

一、研究意义语料库的研究与应用目前在商业领域已经有了突飞猛进的发展,特别是近两年神经网络的发展,语料库对于机器翻译的发展奠定了基础,极大提高了目前谷歌、百度、搜狗、有道以及必应等机器翻译引擎的质量。

不仅如此,商业领域的巨头包括强生、中石化、微软、阿里巴巴以及腾讯等诸多公司都在不同程度的基于语料库提升在各自特定領域的机器翻译引擎质量,其中阿里巴巴的机器翻译引擎已经为中国众多企业将成千上万的商品推向全球市场提供了翻译支持。

不仅如此,语料库在学术、科研以及教学实践等应用方面都有着举足轻重的作用,利用语料库可以进行语用学、翻译学、译者行为、语言风格等多方面学术科研;同时语料库在教学中也广泛应用,通过语料库进行教学应用,教师可以将学生的翻译作业整理成语料库,利用语料库检索功能,学生可以进行自查自纠,教师也可以通过制作学生翻译作业的语料库寻找共性问题进行讲解,帮助学生解决翻译实践中产生的问题。

语料库的分类、创建和检索简述

语料库的分类、创建和检索简述

语料库的分类
语料库的分类
根据不同的标准,语料库可以分为多种类型。常见的语料库类型包括: 1、通用语料库:包含来自不同领域、不同语言的语料,适用于广泛的研究和 应用领域。
语料库的分类
2、专业语料库:针对特定领域或专业构建的语料库,例如医学、法律、金融 等。
3、口语语料库:包含口头语言 材料,如录音、口语表达等。
二、图像分类技术
另外,降维技术也可以用于图像分类。降维技术可以将高维的图像特征降维 到低维的空间,从而使得分类更加简单和高效。常用的降维技术有PCA、t-SNE和 autoencoder等。
三、图像语义检索与分类技术的 研究现状
三、图像语义检索与分类技术的研究现状
近年来,图像语义检索和分类技术的研究取得了显著的进展。在图像语义检 索方面,研究者们提出了多种基于内容、语义相似度和向量空间模型等方法。在 图像分类方面,SVM、神经网络和降维技术等算法的应用取得了重要突破。
一、图像语义检索技术
图像语义检索是指通过自然语言描述或者用户提交的查询关键词,从图像库 中检索出与查询相关的图像。近年来,研究者们提出了多种图像语义检索的方法。
一、图像语义检索技术
基于内容的图像语义检索是通过分析图像的内容,提取出图像的特征,然后 根据这些特征进行检索。例如,可以通过提取图像的颜色、纹理、形状等特征进 行检索。另外,还可以利用深度学习技术,如卷积神经网络(CNN)来提取图像 的特征,提高检索的准确性。
语料库的创建
此外,为了便于语料库的管理和检索,需要构建语料库的索引和词典。索引 可以记录每个单词在语料库中出现的位置和频率,而词典则包含了单词的语义信 息和语法信息等。最后,语料库的创建还需要注意保证数据的安全性和隐私保护。

Trados术语库教程

Trados术语库教程

上次说到可以随意下载的正版Trados相信你已经安装成功了。

让我们一起看看有些什么值得欣赏的内容。

在桌面上点击“开始”-“所有程序”-“Trados 6.5 Freelance”之后你会看到有一组项目其中包括1“文件documentation”里面是pdf格式的各种用户手册对Trados的主要模块进行了十分详尽的说明可惜都是英文版。

但既然大家都是干翻译的直接看原版手册应当是个良好的习惯没有什么疑难长句而且多有重复。

2“过滤模块Filters”这些模块可以理解为是某种专用的转换工具把一些特殊软件的字体或格式转换为翻译平台可以接受的文件以便进行后续工作。

这些软件在国内不常遇到辽倌壳澳憧梢圆挥霉芩 ?3“教材Tutorial”采用小电影的形式介绍了翻译平台和对齐模块如果你没有耐心去看原文手册也应当看完这些小电影便于从整体上快速了解Trados当然还是英文的但是高度概括而且直观。

4“专用窗口T-Windows”这些模块针对各种格式文件提供了定制化的编辑环境以便进行翻译和本地化工作你可以在这里处理诸如ExcelPowerPoint可执行文件剪贴板素材等各种含有可译文字的内容。

如果非常熟练你会发现在这里干活有时要比翻译平台还方便因为平台是个正规餐厅去那里就餐有时要讲究着装不是什么素材都能直接拿来处理而在这里则相当随便只要工具顺手拿来就用比如只管翻译幻灯片上的文字不用搭理图片是不是愿意。

5注册和版本说明。

6翻译平台本身这当然是Trados的核心也只有这部分是有加密保护的其它模块的注册都在这里体现。

或者换句话说只要在这里注册成功其它所有的部件也全都可以使用了。

7“标识符编辑器TagEditor”对于各种需要保护其内在格式但又要翻译其文字的文件需要借助这个模块进行处理。

与T-Windows不同标识符编辑器主要处理与互联网有关的文件格式HTML XML 和SGML这些格式看起来面熟吧还有用于桌面出版DTP的某些文件。

多语种在线语料库检索平台使用简明手册

多语种在线语料库检索平台使用简明手册


大学
教授创建的 系列语料库检索界面(
)。类似的
在线语料库检索系统还有
、、

等。而当前主
流的语料库工具属于第三代,其中以


等为代表。
第四代语料库工具,将语料库与分析工具合二为一,越来越受到普通用户的青睐。在线
语料库工具通常将语料库文本按特定格式建成索引( ),存储在服务器上。用户检索响
应速度要远高于三代软件在本地电脑上的检索速度。其操作也较三代语料库软件简便得多。
之间的距离)
出现次数
检索词、中心词、节点词
查询结果每页显示的行数
查询、检索
限定条件查询
直译:在 个不同文本中返回
个匹
配项
意译:在 个文本中查到
例子
查询结果按中心词排序
简单查询(不区分大小写)
词语相关查询
附录 :复杂检索举例(查询时,选择

单词检索:


词码混合检索:




近义词批量检索:

北外语料库语言学团队网站:
表 :查询结果后续操作分项功能表
新查询,返回语料库检索首页
查询结果随询结果排序设定
搭配计算
下载保存查询结果
键,即可
(随机取样),比如,可从 万行结果中,随机抽取 行。
(频数分解)表示在进行复杂查询时,对命中的不同词项分别计
算频数。比如,查询
时,会按这 个词
结果;
( )计算特定词语在语料库中的典型搭配(
);
( )计算语料库中的核心关键词(
),等。
1

使用实例
标准查询模式
在简单查询模式(

双语语料库收集整理加工任务工作手册

双语语料库收集整理加工任务工作手册

由于收集和预处理的问题, 语料中一些段落被非法割断, 一个明显的标志就是段尾没有 合法的段落结束符号,具体情况如: (1) 文字间被截断 (2) 标点符号处被截断 (3) 单词被截断 工作人员应利用工具提供的“合并段落”功能对这类问题进行处理。 工具界面下方的段落计数提示工作人员原文文件和译文文件的段落对应情况。 若原文文 件和译文文件的段落数不同, 工作人员应检查语料中是否存在被非法割断的段落, 并进 行相应的处理( “段落切分”与“合并段落” ) 。 (注:原则上,允许原文文件和译文文件 的段落数不相同,但必须保证此差异不是由段落被非法割断所造成的。 ) 由于收集和预处理的问题, 语料中仍存在一些非法空格 (即多余的空格, 包括段首空格、
973“面向新闻领域的汉英机器翻译课题组”文档
保密级别:内部
共 1 页
4/19/2003
双语语料库收集整理加工任务 工作手册(1)— 语料的手工整理
[作 者:]柏晓静 [参与者:]常宝宝 詹卫东 吴云芳 [项目名称:] 973MT_ParaCorpus [最近修订时间:] 4/19/2003 [最近修订者:] 柏晓静 [版本号:] V1.0 [文档历史记录:] V0.5,V0.6,V0.7,V0.71,V0.72,V0.8,V0.9 [提交:] MT 组例会 [目 录 ] 1 引言........................................................................................................................................1 2 语料手工整理的具体工作内容与要求 ................................................................................1 2.1 文件层次的工作内容和要求细节 .............................................................................2 2.2 内容与格式层次的工作内容和要求细节 ................................................................2 2.3 标记层次的工作内容和要求细节 ............................................................................3 2.3.1 文件中需要标记的具体内容 ..........................................................................3 2.3.2 文件中需要标注的篇章信息 ..........................................................................4 2.3.3 文件中需要标记的其他内容 ..........................................................................5 4 样例........................................................................................................................................6 5 结束语..................................................................................................................................27

最新常用在线语料库使用简介PPT课件

最新常用在线语料库使用简介PPT课件
进 入 夏 天 ,少 不了一 个热字 当头, 电扇空 调陆续 登场, 每逢此 时,总 会想起 那 一 把 蒲 扇 。蒲扇 ,是记 忆中的 农村, 夏季经 常用的 一件物 品。 记 忆 中 的故 乡 , 每 逢 进 入夏天 ,集市 上最常 见的便 是蒲扇 、凉席 ,不论 男女老 少,个 个手持 一 把 , 忽 闪 忽闪个 不停, 嘴里叨 叨着“ 怎么这 么热” ,于是 三五成 群,聚 在大树 下 , 或 站 着 ,或随 即坐在 石头上 ,手持 那把扇 子,边 唠嗑边 乘凉。 孩子们 却在周 围 跑 跑 跳 跳 ,热得 满头大 汗,不 时听到 “强子 ,别跑 了,快 来我给 你扇扇 ”。孩 子 们 才 不 听 这一套 ,跑个 没完, 直到累 气喘吁 吁,这 才一跑 一踮地 围过了 ,这时 母 亲总是 ,好似 生气的 样子, 边扇边 训,“ 你看热 的,跑 什么? ”此时 这把蒲 扇, 是 那 么 凉 快 ,那么 的温馨 幸福, 有母亲 的味道 ! 蒲 扇 是 中 国传 统工艺 品,在 我 国 已 有 三 千年多 年的历 史。取 材于棕 榈树, 制作简 单,方 便携带 ,且蒲 扇的表 面 光 滑 , 因 而,古 人常会 在上面 作画。 古有棕 扇、葵 扇、蒲 扇、蕉 扇诸名 ,实即 今 日 的 蒲 扇 ,江浙 称之为 芭蕉扇 。六七 十年代 ,人们 最常用 的就是 这种, 似圆非 圆 , 轻 巧 又 便宜的 蒲扇。 蒲 扇 流 传 至今, 我的记 忆中, 它跨越 了半个 世纪, 也 走 过 了 我 们的半 个人生 的轨迹 ,携带 着特有 的念想 ,一年 年,一 天天, 流向长
字串查询区
图5-1
COCA
5. COCA界面简介(图5-1)
语料库分类区
图5-1
COCA
5. COCA界面简介(图5-1)

CCL使用说明书

一关于CCL语料库及其检索系统1.1 CCL语料库及其检索系统为纯学术非盈利性的。

不得将本系统及其产生的检索结果用于任何商业目的。

CCL不承担由此产生一切后果。

1.2 本语料库仅供语言研究参考之用。

语料本身的正确性需要您自己加以核实。

1.3 语料库中所含语料的基本内容信息可以在“高级搜索”页面上,点击相应的链接查看。

比如:“作者列表”:列出语料库中所包含的文件的作者“篇名列表”:列出语料库中所包含的篇目名“类型列表”:列出语料库中文章的分类信息“路径列表”:列出语料库中各文件在计算机中存放的目录“模式列表”:列出语料库中可以查询的模式1.4 语料库中的中文文本未经分词处理。

1.5 检索系统以汉字为基本单位。

1.6 主要功能特色:∙支持复杂检索表达式(比如不相邻关键字查询,指定距离查询,等等);∙支持对标点符号的查询(比如查询“?”可以检索语料库中所有疑问句);∙支持在“结果集”中继续检索;∙用户可定制查询结果的显示方式(如左右长度,排序等);∙用户可从网页上下载查询结果(text文件);二关于查询表达式本节对CCL语料库检索系统目前支持的查询表达式加以说明。

2.1 特殊符号查询表达式中可以使用的特殊符号包括8个:| $ # + -~ ! :这些符号分为四组:Operator1: |Operator2: $ # + - ~Operaotr3: !Delimiter: :符号的含义如下:(一)Operator1: Operator1是二元操作符,它的两边可以出现“基本项”(关于“基本项”的定义见2.2)(1)| 相当于逻辑中的“或”关系。

(二)Operator2:Operator2是二元操作符,它的两边可以出现“简单项”(关于“简单项”的定义见2.3)(2)$ 表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。

两个“简单项”之间相隔字数小于或等于Number(3)# 表示它两边的“简单项”出现于同一句中,不考虑前后次序。

常用在线语料库使用简介


COCA
6.1.1 检索某一词形
在显示方式区选择KWIC 并再次点击search, 可得含有“feature”的词语 索引(图6.1.1-4)
图6.1.1-4
COCA
6.1.2 检索某一词性的单词
输入“feature.[v*]”,可得到“feature”做动词时的使 用情况 (图6.1.2-1)
Ⅰ 显示及查询条件界定区,包括:显示方式区, 字串查询区,语料库分类区,查询结果排列方 式区。
Ⅱ 查询结果数据显示区
Ⅲ 例句显示区
COCA
5. COCA界面简介(图5-1)
/coca/ 显示方式区
图5-1
COCA
5. COCA界面简介(图5-1)
或者“制度,观点”的词搭配
图6.2-2
COCA
6.2 检索搭配词
点击conditions可进一步观察prevail的语境 (图6.2-3)
通过观察例句,我们发现与prevail共现的conditions常 有消极意义的词修饰,例如harsh, precarious, daunting, severe, colder and drier, dangerous等
——以BNC、COCA和Sketch Engine 为例
One-word Introduction
英国国家语料库(British National Corpus/BNC): 库 容1亿词的现代英式英语样本集合,文本来源广泛,其 中书面语占90%,口语占10%。
美国当代英语语料库((Corpus of Contemporary American English/COCA): 库容为4.5亿词的大型平 衡语料库,含有多个字库,具有多种检索功能,可免 费在线使用。

语料库 入门

热烈欢迎来自全国各地的老师们!
语料库入门
OUTLINE
1.
基本概念 2. 著名网络语料库 3. 常用软件
Corpus(语料库,尸体): (pl. corpora or corpuses): a collection of text, now usually in machine-readable form and compiled to be representative of a particular kind of language and often provided with some kind of annotation(标注). 按照一定的采样标准采集而来的、能 代表一种语言或者某语言的一种变体 或文类的电子文本集。
在口语中,start更常用。
语料库的方法基于真实的语言
使用情况,事实胜于雄辩
我们通过对语料库的检索结果进行分析,可以找到很多问 题的答案,例如: “学知识”在英语中是“study knowledge”吗? “快速导航”翻译成“fast guide”对不对? “只为点滴幸福”这句广告语,对应的英文翻译是“Little happiness matters.”吗? 为何“The bad weather set in on Monday.”是正确的, 但“The good weather set in on Monday.”却是错误的?
熟 语 语 料 库
语料库语言学常用术语
Types

of corpora
General corpus通用语料库 Annotated标注 corpus: a corpus enhanced with various types of linguistic information (or tagged corpus). An annotated corpus may be considered to be a repository of linguistic information, because the information which was implicit in the plain text has been made explicit through concrete annotation (“added value附加值”).

语料库检索使用指南

Homework for Introduction parthttp://211.69.132.28/ 检索的库为:introduction 子语料库语料库使用练习目标一:熟悉语步与词汇的对应关系;目标二:学习以扩展意义单位为基础的新语义观(核心词、搭配、类联接、语义倾向、语义韵);目标三:掌握有语言问题后如何查找相应答案的技能。

提交的作业文件名为:姓名+introduction提交的内容: 1. 在三个introductions,标注:1)M1, M2, M3;2)每个move的内容要点(用汉语);3)每个语步的经典句型划线,4)红颜色标注:语步1中的评价性形容词、语步2的转折连词(引出现有研究的问题),语步3中代表弥补现有研究不足的表达(如研究目的等)2. 回答表格中基于语料库检索的8个问题。

提交时间:周二上课的班级提交时间为周一晚9:30:提交给刘琴同学的QQ邮箱周三上课的班级提交时间为周二晚9:30 ,提交到周颖同学的QQ邮箱Direction :1.Download 3 introduction parts from 3 journal articles in your own professional fields. Identify the 3 moves of the introduction part and mark them respectively by M1, M2, M3.and point out the main point of each move inChinese in barckets. Mark evaluative adj.in M1(评价性形容词), disjunctive conj.(转折连词)in M2, and the expressions implying filling gaps, such as research purpose in M3 in red.Move1 : statements about the subjects. (M1), (main points :problems, background information, definition, importance ,etc) , Move2 : review of relevant studies(M2) (description & comments , point out the weakness of existing researches)Move3: introduction of the present study(M3)(purposes to fill the gaps, research focuses, questions, hypothesis,etc.)2.Underline the representative sentence patterns in each move and summarize it in the bracket such as [importance]3.Answer the questions in the right column of the form based on the corpus data.(注意:如果你不会调节表格,请把答案写在表格外)Sample :The separation of mixtures of alkanes is an important activity in the petroleum and petrochemical industries. For example, the products from a catalytic催化isomerization reactor consist of a mixture of linear, mono-methyl and di-methyl alkanes. Of these, the di-branched molecules are the most desired ingredients in petrol because they have the highest octane number. It is therefore required to separate the di-methyl alkanes and recycle the linear and mono-methyl alkanes back to the isomerization reactor. In the detergent industry, the linear alkanes are the desired components and need to be separated from the alkanes mixture[M1: 通过现实需要突出研究的重要性与意义].Selective sorption on zeolites is often used for separation of alkanes mixture(1-7文献被省略). The choice of the zeolite depends on the specific separation task in hand. For example, small-pore Zeolite A are used for separation of linear alkanes using the molecular sieving principle. However, the branched molecules cannot enter the zeolite structure[M2:指出现有研究方法及方法中存在的问题]. This study aims to overcome this limitation. Both linear and branched molecules are allowed inside the medium-pore MFI matrix and the sorption hierarchy in MFI will be dictated both by the alkanes chain length and degree of branching.[M3:本研究目的和采用新方法的优势]Introduction的写作方法:说明论文特定主题与较为广泛的研究领域之间的关系,同时提供足够的背景资料。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

多语种在线语料库检索平台使用简明手册
许家金
中国外语与教育研究中心
、访问及登录
访问(用户名:和密码:),可点击使用相应的语料库。

目前平台上已安装英语、汉语、德语、日语、俄语、阿拉伯语、冰岛语等数十个语料库。

图:主界面
、功能概要
按()对语料库分析工具的时代划分,属于第四代语料库工具,即在线语料库分析工具。

四代工具的突出代表是美国杨百翰()大学教授创建的系列语料库检索界面()。

类似的在线语料库检索系统还有、、、等。

而当前主流的语料库工具属于第三代,其中以、和等为代表。

第四代语料库工具,将语料库与分析工具合二为一,越来越受到普通用户的青睐。

在线语料库工具通常将语料库文本按特定格式建成索引(),存储在服务器上。

用户检索响应速度要远高于三代软件在本地电脑上的检索速度。

其操作也较三代语料库软件简便得多。

四代语料库工具可完成三代语料库几乎所有的功能,其中又以所能实现的功能最多最全。

更重的是,是开源软件。

概括说来,可以实现以下功能。

()在线生成语料库的词频表();
()查询()字词、语言结构等,以获取大量语言实例或相应结构的出现频次(),并可以按语体、年代、章节、学生语言水平级别、写作题材等分别呈现查询结果;
()计算特定词语在语料库中的典型搭配();
()计算语料库中的核心关键词(),等。

、使用实例
标准查询模式
在简单查询模式()下,可输入单词、短语等进行检索。

图:语料库查询界面
图:查询结果界面
点击查询结果页面右上角下拉菜单,显示(新查询)时,按键,即可重新回到语料库检索界面。

相当于返回按钮。

新查询,返回语料库检索首页
查询结果随机抽样
频数分解、分解频数
查询结果的分布展示
查询结果排序设定
搭配计算
下载保存查询结果
(随机取样),比如,可从万行结果中,随机抽取行。

(频数分解)表示在进行复杂查询时,对命中的不同词项分别计算频数。

比如,查询时,会按这个词项分别报告命中频数和频率。

图:动词查询(频数分解)结果示例
:按语体、年代、章节、学生语言水平、写作题材等分别呈现查询结果
图:语料库中"lov.*"的分布情况()
图:语料库中"lov.*"的分布情况(Bar chart)
:计算特定词语在语料库中的典型搭配
图:语料库中"lov.*"的典型搭配词(以log likelihood value排序)
限定条件查询
限定条件查询,指在任务一开始,即选定一个或多个限制条件(如,语体、年代、章节、写作题材等)进行查询。

限定条件的有无、多寡,源自语料库文本的元信息()。

因此,在创建语料库时,应尽可能详细记录语料文本产生的社会语言学信息。

丰富的社会语言学信息,可以大大丰富研究的层面和深度。

这样的元信息可以存储在文本的头部,也可以在文本之外单独存储。

图:限定在语料库的学术语体中查询情态动词生成词频表
图:语料库的词频表
生成主题词表
比如以《红楼梦》与语料库进行对比,可能得到《红楼梦》的主题性词汇。

、多语种语料库建设思路
本族语平衡语料库:百万词次以上
特定语体语域专门用途语料库:比如文学作品、新闻报导、法律文本、网络文本等学习者语料库:学习者作文、翻译练习
翻译文本及平行语料库
附录:平台中英文术语对照表(表)
词次
词种
词语搭配
语料库说明文档
语料库元信息
复杂检索语法
分布(按语体等分类条件分别呈现结果)
频数、频率
频数分解、分解频数
词频表、词表
词频表
主题词
对数似然率(典型词语搭配的统计方法)
最大跨距(计算搭配时中心词和左右语境词
之间的距离)
出现次数
检索词、中心词、节点词
查询结果每页显示的行数
查询、检索
限定条件查询
直译:在个不同文本中返回个匹
配项
意译:在个文本中查到例子
查询结果按中心词排序
简单查询(不区分大小写)
词语相关查询
附录:复杂检索举例(查询时,选择)
单词检索:、、
词码混合检索:、、、

近义词批量检索:、
北外语料库语言学团队网站:
使用北外平台,可引用:
许家金、吴良平,,基于网络的第四代语料库分析工具及应用实例,《外语电化教学》():,。

相关文档
最新文档