语料库简单dye 第二讲

语料库简单dye 第二讲
语料库简单dye 第二讲

2008/7/31

语料库简单DIY 第二讲语料库软件初探--

语料库软件初探--MonoConcPro 2.2

本软件是Athelstan开发小组https://www.360docs.net/doc/1f10337104.html,/ ,于1996年开发的语料库比较检索工具。目前,我的服务器上提供学术性下载,下载地址: http://vu.flare.hiroshima-u.ac.jp/whistle/corpus/MoconcPro2.

2.rar

(本软件为学术交流使用,所有权归本软件开发小组所有,一切商务性盈利目的的违法使用,所带来的连带责任关系与本人及本论坛无关。请慎重下载,小心使用!!!)

功能介绍:

软件主界

基本功能:

MonoConc Pro 2.2 的软件界面比较简单。适合语料库初学者和初级研究人员使用。

本软件据作者的研究,其内部主核使用UTF-8编码,基本支持欧洲几种主要语言。当然,其主要的应用领域还是针对英语。本软件主要处理的文本素材是以TXT结尾的记事本文件,当然,本软件还可以导入RTF文档和其他格式的操作系统默认文档格式。不过,从DIY的角度来说,我们自己收集到的语料,为了免除格式,字体,行距等等文本要求,最好全部使用TXT文档,方便,省

事!用了都说好!(谁用谁知道)

我们按照自己的研究目的,研究方向,收集我们所需要的语料素材,具体的收集方法因人而异。可以从报纸杂志的电子文文档上直接下载,也可以从网站上直接下载整理好的TXT版本的小说,资料素材等,还可以直接从各大语料库中检索需要的语用素材,然后拷贝粘贴到TXT文本中。由于MonoConc Pro

强大的跨文档处理系统,一次可以同时导入多个TXT文档进行比较处理,所以我们可以把文章或者资料按照自己喜好的分类标准进行分类,然后存成不同的TXT文件名。检索的时候,只需要同时导入这些文件就可以了。(异常强大~)下载好软件,解压缩,然后打开MP22.EXE文件,你就可以看到上图那个简单的主界面了。

之后,选择File→Lord Corpus File(s),找到你需要导入处理的TXT文档,一个或者多个都可以,然后选择[打开]。指定的TXT文件就被全部导入进MonoConc Pro中了。

如果导入了过多的TXT文档,比如您导入了莎士比亚全集+马克思选+恩格斯选+列宁选+毛泽东选+邓小平选.....(不能否认,真的有这样的朋友存在)。那么,为了方便您查询检索结果所出现的文章,你可以选择File→View Corpus File/URL,这样就能看到查询结果所在的文章,还可以删除不需要的文章,或者添加新的文章,非常简单。

*这里的URL,指的是在HTTP或者FTP上,可以直接打开的文字页面的链接。一般朋友们DIY的语料库都是存在本地硬盘上的,所以基本上可以无视这个选项。不过,将来我们的个人语料库要实现点对点,点对多的平台连接。连接后,我们就可以相互查询对方个人语料库中的资料,此时在导入对方语料库中的文档的时候,就要用这个了。(这个目前还很遥远,大家还是踏踏实实做自己的DIY语料库吧!)

当我们要删除所有的文章的时候,这个时候仅仅关闭文章的窗口,是不能实

现删除文章内容的。关闭了窗口,只是你看不见了而已,但是文章实际上已经写入了内存,你必须将它清除出内存,才能在搜索的结果中排出掉不需要使用的文章。这个时候,你就需要File→Unload Corpus功能了。这里Unload只是卸载掉内存中的TXT文档,不是删除你的文章,所以不要害怕,大胆卸。

以上就是MonoConc Pro操作的基本功能。这里需要说明一个问题,MonoConc Pro的File里面有一个Language的选项,里面你可以发现软件支持很多语言。这里所谓的支持,只是显示TXT文档时所支持的语言编码。也就是说,在MonoConc Pro里面是可以显示字母体系文字,和汉字体系文字的。但是,但是,但是!在内存中处理的时候,软件是使用UTF-8欧洲语言进行处理的(ANSI),所以无法直接处理汉字编码Unicode或者ASCII编码。不过,通过WORD或者其他的专码工具,也可以进行操作,但是本人研究了很多编,对于汉字编码的处理,系统总是出现很多错误,所以建议不要使用这个软件来处理汉字文本。当然,有钻研精神的人,还是很鼓励的。没有钻研精神也不要怕,MonoConc Pro介绍完了之后,我们会介绍专门处理汉字编码的软件Antconc3.2.0W,要好好支持我,我才讲哦!

*有的朋友在打开自己所整理的TXT文本文件时,在MonoConc Pro进行操作的时候,会出现软件报错,或者软件自动关闭等状况。这就是我在上面提到的编码问题。在我们进行MonoConc Pro操作之前,我们有必要将我们的TXT 文档,用写字板打开,然后选择另存为,编码选择ANSI ,然后用新保存的文件进行MonoConc Pro操作,就会避免这个问题;当然也可以使用Word等更加强大的软件进行编码转换。如果在这一点上有疑问,请联系我。

--------------------------------------------------课间休息

------------------------------------------课间休息

-------------------------------------------------

进阶功能介绍:

前半节的课程上,我们认识了MonoConc Pro软件的基本功能。现在我们来学习今天课程的精华中的精华中的精华部分。要好好听,不要走神哦! Word List 功能

这个功能看名字很简单,但是实际上这是一个很了不起的功能。首先我发上来两个图,大家可以参考一下。

第一副图是对于英文文章Word List---词汇频率出现的统计;第二幅图是对于汉语文章Word List 的统计结果。从第一幅图上我们就可以很清楚的看到(可能这里看得不是很清楚),软件能够把英文单词准确地提取出来,按照单个词来统计频率。而第二幅图就明显地看到,软件不能把汉字处理成为单个汉字来统计,

那么Word List

当你导入文件之后,你会发现,主页

面的登陆画面上,

这个选项。这个也是一个很有用的选项。它会将Word List的统计结果,

按照字母表顺序排列,这样你就可以看到,同一个字母开头的词汇,哪些词出现的频率较高,对于词性研究,词类对比,使用对比等,想必是非常有用处的吧。我也不是语言学的专家,有用没有用,还需要大家自己的判断。

Frequency下面还有一个选项,Frequency Options。这个选项主要对于我们的频率检索做一些简单的设定。里面规定了,结果显示行数,最低频率数,最高频率数,大小写区别,TAG区别等,没有特殊的需求,初学者一般不要修改这个选项比较好。

好了!我们现在已经学习了Word List的制作方法,也懂得了一些查询的选项。在开头我也提到了,语料库软件的学习,其实也是培养一种理性地逻辑思维能力。用这种逻辑思维去思考和设计语料库检索处理软件,来为自己的语料研究服务。刚才我们讲了单词频率的统计。那么,我向大家提出一个问题,如果遇到了两篇巨长的文章,我们要同时比较某个单词在这两篇文章中的出现频率,应该怎么做呢?!

细心的你,一定注意到,在Frequency

项。这是一个伟大的选项。虽然实现的是一个很不起眼,Save 存储这样的小破功能。但是,对于后来我们的比较研究,确是必不可少的一步。

在我给大家提供的下载文件里面,我放入了很多DEMO用的TXT文档文件在SIMPLE文件夹中,还有一篇巨长的小说《罪与罚》。这都是用来讲解和大家实践用的。

首先,我们运行软件,导入SIMPLE中的TXT文档(poor

folk.txt,demo.txt,demo2.txt,demo3.txt)!对!就是不要那个《罪与罚》。

然后我们统计这四篇TXT文档的Word List。具体统计的操作方法,不会的朋友看上面的教程。

然后我们就看到了下面这个图:

然后我们选择Frequency→Save as File 这个时候会出现一个对话框,这个对话框是提示需要用多少行来表示所统计的数据,一般我们默认为0,也就是用无限行来表示。然后选择OK,这个时候出现保存程序的对话框。我强烈建议,大家把文件不要存成TXT,存文件的时候,把保存类型选择为All files。然后我们给文件随便命名为mantou。这样就保存成了一个叫做mantou,但

是不能直接运行的程序文件。为什么这样?呵呵!这是一个小诀窍。使用All files

还可以用SQL,MYSQL,ACCESS等数据库文件打开这个叫做mantou

好了,继续!

现在我们使用Unload Corpus,卸载掉驻留内存的所有文档,然后打开罪与罚.txt (抱歉里面使用了日语,将就吧)。然后对这一篇文章进行Word List

频率统计。就会出现下图:

同样地,为了保险起见,我们也把这篇文章的Word List 存成名叫qianqian 的无指定程序运行的文件。

这个时候,我们选择Frequency→Corpus Comparison,在打开的对话框的文件类型中选择All Files。然后我们就可以看到mantou那个文件了,选

中它,然后打开。这个时候我们就能看到下面这个图。

多数比,也就是复数文章以上的,针对指定单词的出现频率和出现次数的比较的话,那么最好是用EXCEL打开多个保存Word List的文件,直接在EXCEL上做统计,表格,图形处理,会比较直观(大家现在也明白我要把文件保存成那样

哦。至于要保存什么格式,大家自己决定吧!有了这些统计和比较的表格,是不是我们的语言研究就会更加理性一些呢?

有兴趣的朋友,还可以尝试看看Frequency下的Sort命令,这个是对于比较统计结果的表格进行排列顺序以及显示方式的调整。

好了~罗嗦了一下午,也不知道大家感觉如何?是不是很久没有听计算机课的感觉?

在今天的课里,我们主要讲解了MonoConc Pro 2.2的基本使用功能,并介绍了MonoConc Pro的一种进阶处理功能。通过本次课的学习,我希望让大家从宏观上,对于DIY语料库时,所必需的语料检索和处理工具有一个大的了解。不要看到电脑程序就头疼,其实这些东西都是人开发出来服务于人的,如果让你感到困惑了,那就违背了软件开发的初衷了!下节课我们将继续研究MonoConc Pro中,针对语料库中的语料定性,定向,定类等方面的检索和处理。程序是很枯燥的,我尽量用通俗易懂的语言来讲解,希望大家能够认真学习。如果有疑问和需要帮助,请在QQ群里直接提出来,我会尽力帮助大家解答。

版权所有,如果需要转载请注明出处和作者!谢谢

语料库与语料库建设

语料库和语料库建设 一、什么叫语料库 1、定义 语料库,通俗意义上指的是语言材料库。严格意义上的语料库(corpus)是指按照一定的 语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。 目前,语言学家对于语料库的定义不尽相同,如辛克莱(Sinclair)认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作语言的样本”。阿特金斯等(Atkins & Clear)认为语料库是“按照明确的设计标准,为某一具体目的而集成的大型文本库”。赫努(Renouf)认为语料库是“由大量收集的书面语或口头语构成,并通过计算机储存和处理,用于语言学研究的文本库”。我们看到,以上关于语料库的几种定义相同之处在于都谈到语料库是语言材料的汇集;不同之处在于前两个定义指出语料库的设计是有明确的设计标准的,赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。 语料库不同于电子文档,语料库的建设有特定的研究目的和具体用途,因此在语料抽样范围和文类覆盖方面都力求取得平衡,在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。而大型文档目标在于搜集任何可获得的语言材料或所限定的数种文类语料,其语言材料之间的关系较为松散。 语料库具有以下特征:1、语料库的设计与建设有系统的语言学理论指导,语料库的开发具有明确而又具体的目的;如,布朗语料库用于对20世纪60年代的美国英语的研究,LOB是与布朗语料库对齐的同时期的英国英语语料库,可用以对英国英语进行研究,也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料,不是随意的语言材料的堆积,更不是由某个个人杜撰出来的。语料库的容量和语料采用随机抽样方式都保证了语料具有代表性,由此保证基于语料库的语言研究的科学性、客观性。3、语料文本是连续的文本或话语片断,而不是孤立的句子或词汇,可以借以获得语法关系、用法、词语搭配以及语篇信息。4、语料库以当代先进的计算机技术为技术手段,语料库语料通过电子文本形式储存并且是通过计算机处理的,具有资源优势和处理速度优势。5、基于语料库的研究以量化研究为基石,以概率统计为手段,以数据驱动为基本理念。6、语料库既是一种研究方法,又代表着一种新的研究思维。 二、语料库产生的背景及发展历史 对真实语言材料的搜集与研究是语言学研究的优秀传统。尤其是在20世纪50年代中期, 在语言研究中占主导地位的是重语言材料的经验主义。这种学术氛围无疑促进了对语料的重视。1959年夸克(R.Quirk)等人着手进行的“英语用法调查”(Survey of English Usage)通过系统的调查建立了第一个现代英语语料库,在此基础上完成的《现代英语语法》( A Grammar of Contemporary English)和《英语语法大全》(A Comprehensive Grammar of the English Language)对现代英语进行了系统全面的描写,在英语语言学界产生了广泛的影响。但在当时这项浩大的工程是通过手工的方式完成的。

语料库与语料库建设

语料库与语料库建设 语料库和语料库建设 一、什么叫语料库 1、定义 语料库,通俗意义上指的是语言材料库。严格意义上的语料库(corpus)是 指按照一定的 语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。 口前,语言学家对于语料库的定义不尽相同,如辛克莱(Sinclair)认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作语言的样本”。阿特金斯等(Atkins & Clear)认为语料库是“按照明确的设计标准,为某一具体目的而集成的大型文本库”。赫努(Renouf)认为语料库是“由大量收集的书面语或口头语构成,并通过计算机储存和处理,用于语言学研究的文本库”。我们看到,以上关于语料库的儿种定义相同之处在于都谈到语料库是语言材料的汇集;不同之处在于前两个定义指出语料库的设讣是有明确的设计标准的,赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。语料库不同于电子文档,语料库的建设有特定的研究LI 的和具体用途,因此在语料抽样范围和文类覆盖方面都力求取得平衡,在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。而大型文档U标在于搜集任何可获得的语言材料或所限定的数种文类语料,其语言材料之间的关系较为松散。 语料库具有以下特征:1、语料库的设讣与建设有系统的语言学理论指导,语料库的开发具有明确而乂具体的U的;如,布朗语料库用于对20世纪60年代的美国英语的研究,LOB是与布朗语料库对齐的同时期的英国英语语料库,可用以对英国英语进行

研究,也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。 2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料,不是随意的语言材料的堆积,更不是由某个个人杜撰出来的。语料库的容量和语料采用随机抽样方式都保证了语料具有代表性,山此保证基于语料库的语言研究的科学性、客观性。 3、语料文本是连续的文本或话语片断,而不是孤立的句子或词汇,可以借以获得语法关系、用法、词语搭配以及语篇信息。 4、语料库以当代先进的计算机技术为技术手段,语料库语料通过电子文本形式储存并且是通过讣算机处理的,具有资源优势和处理速度优势。5>基于语料库的研究以量化研究为基石,以概率统汁为手段,以数据驱动为基本理念。6、语料库既是一种研究方法,乂代表着一种新的研究思维。 二、语料库产生的背景及发展历史 对真实语言材料的搜集与研究是语言学研究的优秀传统。尤其是在20世纪 50年代中期, 在语言研究中占主导地位的是重语言材料的经验主义。这种学术氛圉无疑促进了对语料的重视。1939年夸克(R. Quirk)等人着手进行的“英语用法调查” (Survey of English Usage)通过系统的调查建立了笫一个现代英语语料库,在此基础上完成的《现代英语语法》(A Grammar of Contemporary English )和《英语语法大全》(A Comprehensive Grammar of the English Language)对现代英语进行了系统全面的描写,在英语语言学界产生了广泛的影响。但在当时这项浩大的工程是通过手工的方式完成的。 20世纪六十年代后,语言学研究主流从经验主义转向理性主义,乔姆斯基的语言能力说被广泛接受,转换生成语法学派批评语料库研究方法,认为,1、基于语料库的方法有误。乔姆斯基等认为语言学应当以人脑的语言机制即语言能力为研究对象,语料库收集的只是人们的语言运用,语言运用会因超语言因素的影响而发生变化,它并

语料库常用统计方法

3.5语料库常用统计方法 第3章前几节对语料库应用中的几种主要技术做了介绍。通过语料检索、词表和主题词表的生成,可以得到一定数量的句子、词汇或结构。为能更好说明所得到的结果的真正意义,常常需要对它们加以统计学分析。本章主要介绍语料分析中的一些常用统计方法。 3.5.1 语料库与统计方法 介绍相关统计方法之前,首先需要了解为什么语料库应用中需要运用统计方法。在2.1节讲到文本采集时,我们知道文本或会话构成了最终的语料库样本。这些样本是通过一定的抽样方法获得的。研究中,我们需要描述这些样本的出现和分布情况。此外,我们还经常需要观察不同语言项目之间在一定语境中共同出现(简称共现)的概率;以及观察某个(些)语言项目在不同文本之间出现多少的差异性。这些需要借助统计学知识来加以描写和分析。 理论上说,几乎所有统计方法都可以用于语料库分析。本章只择其中一些常用方法做一介绍。我们更注重相关统计方法的实际应用,不过多探讨其统计学原理。这一章我们主要介绍语料分析中的频数标准化(normalization )、频数差异检验和搭配强度的计算方法。 3.5.2 频数标准化 基本原理 通常语料检索、词表生成结果中都会报告频数(frequency, freq 或raw frequency )。那么某词(如many )在某语料库中出现频数为100次说明什么呢?这个词在另一个语料库中出现频数为105次,是否可以说many 在第二个语料库中更常用呢?显然,不能因为105大于100,就认定many 在第二个语料库中更常用。这里大家很容易想到,两个语料库的大小未必相同。按照通常的思维,我们可以算出many 在两个语料库中的出现百分比,这样就可比了。这种情况下,我们是将many 在两个语料库中的出现频数归到一个共同基数100之上,即每100词中出现多少个many 。这里通过百分比得到的频率即是一种标准化频率。有些文献中标准化频率也称归一频率或标称频率,即基于一个统一基准得出的频率。 实例及操作 频数标准化,首先需要用某个(些)检索项的实际观察频数(原始频数,raw frequency )除以总体频数(通常为文本或语料库的总词数),这样得到每一个单词里会出现该检索项多少次。在频数标准化操作中,我们通常会在此基础上乘以1千(1万、1百万)得到平均每千(万、百万)词的出现频率。即: 1000?=总体频数 观测频数标准化频率(每千词) (注:观测频数即检索词项实际出现的次数;总体频数即语料库的大小或总形符数。) 例如,more 在中国学生的作文里出现251次,在英语母语者语料中出现475次。两个语料库的大小分别为37,655词次和174,676词次。我们可以根据上面的公式很容易计算出251和475对应的标准化频率。另外,我们还可以利用Excel 或SPSS 等工具来计算标准化频率。比如,可以将实际观察频数和语料库大小如图3.5.1输入相应的单元格,然后在C1单元格里输入=(A1/B1)*1000即可得到中国学生每千词使用more 约为6.67次。要得到母语

语料库

Background Information 语料库的概念 语料库是指按照一定的语言学规则,利用随机抽样的方法收集的有代表性的语言材料的总汇,它是语言材料的样本。 语料库通常指为语言研究机构收集的,具有一定容量的大型电子文本语料库。它是由口语语料和书面语的样本汇集而成,用来代表特定的语言或语言变体,或经过加工后带有语言学信息标注的文本的集合。 语料库的分类 按照语料库所涉及的语言种类,语料库课分为单语语料库,双语平行语料库(parallel corpus)和多语语料库(multilingual corpus); 按照语言涉及的题材,语料库可分为普通语料库(general corpus)和专门用途语料库(specialized corpus); 按语料的来源,又可分为口语语料库和书面语语料库; 按语料库是否被标注,语料库可分为生语料库或原始语料库(raw corpus)和熟语料库或标注语料库(annotated corpus) In linguistics, a corpus (plural corpora) or text corpus is a large and structured set of texts (now usually electronically stored and processed). They are used to do statistical analysis and hypothesis testing, checking occurrences or validating linguistic rules on a specific universe. A corpus may contain texts in a single language (monolingual corpus) or text data in multiple languages (multilingual corpus). Multilingual corpora that have been specially formatted for side-by-side comparison are called aligned parallel corpora. In order to make the corpora more useful for doing linguistic research, they are often subjected to a process known as annotation. An example of annotating a corpus is

语料库的应用(最终)

语料库的应用 语料库方法广泛应用于语言学理论研究、军事等领域。当代语料库语言学(以语料库方法为取向的研究语言的分支就被称为语料库语言学)已是高歌猛进,日新月异,新的语料库更是层出不穷,经过科学选材和标注,具有适当规模的语料库能够反映和记录语言的实际使用情况,人们通过语料库观察和把握语言事实,分析和研究语言系统的规律,极大地方便了语言研究者。 军事语料库对信息化条件下的军事斗争具备潜在价值,积极开展军事语料库的研究和建设实践活动,并把研究成果转化到实战之中。和平时期对信息化高科技武器的建设不可小视,对战场态势的综合信息捕捉、把握和利用的能力建设至关重要,但对身边已有的各类信息的综合收集和利用也同样不可忽视。军事语料库的建设正是针对实现信息化战争中争夺与占有信息资源、获取不对称的战争中的信息掌握和信息利用的不对称优势。 【一】、语料库成为语言学理论研究的基础资源 语料库是计算语言学的基础。语料库对应的英文是corpus,复数形式为corpora。这个词既可以指语料也可以表示语料库。英国语言学专家戴维?克里斯特尔认为,语料库“指收集的一批语言学数据,或为书面文本或为言语录音的转写,可用作语言学描写的出发点,也

可作为验证语言假说的手段。计算机语料库是一大批机器可读文本的结集。各种为不同目的而建立的语料库可以应用在词汇、语法、语义、语用、语体研究,社会语言学研究,口语研究,词典编纂,语言教学以及自然语言处理、人工智能、机器翻译、言语识别与合成等领域。 起初语料库主要用于语言学研究,而且建成的语料库多为通用语料库,服务的研究领域主要集中于词典编纂、词语搭配与结构、基于平行语料库的英汉互译、文学作品和作家语言风格的研究以及基于语料库的外语教学研究等。随着研究的不断深入,各种专业领域语料库也相继建立,语料库的应用研究逐渐扩大到其他学科。 我国在语料库的应用上还处于起步阶段,在计算语言学和语言信息处理领域,语料库主要用来为统计语言模型提供语言特征信息和概率数据,在语言研究的其他领域,多使用语料的检索和频率统计结果。 目前国外已建成且较有影响的主要为以下的语料库:美国:布朗大学的今日美国英语标准语料库(The Brown University Standard Corpusof Present Day American English)、兰卡斯特一奥斯陆/卑尔根语料库(The Lancast-er-Oslo/Bergen (LOB) Corpus)、英语语库(TheBank of English)、英国国家语料库(The BritishNational Corpus(BNC、伦敦一隆德语料库(Lon-don -Lund Corpus(LLC》、美国传统中介语料(American Heritage Intermediate(AHI) Corpus)以及英语国际语料库(The Intemational Corpus ofEnglish(ICE》等。

语料库整理要求及方法

一、需整理的多是ppt语料,也有些word文档的语料(见Boston Consulting-需做库-12.10文件夹)。整理要求如下: 1、利用Align Assist工具将ppt中原文译文提取出来,并根据中英文内容一句句对齐。如图: 2、利用Align Assist工具对ppt中的内容进行提取时,软件会遗漏部分内容。因此需要在对齐之后将软件自动提取后遗漏的句对逐句复制补充进去。 3、对齐完成后,将对齐结果分别保存为tmx格式及aares格式,tmx为最终需要的语料格式,但无法修改且预览不便。aares为临时语料文件,可修改,可即时预览。因此,请大家对齐时两种格式都保存下来。保存方法见第二部分。 二、整理方法: 1、安装Align Assist语料对齐工具(安装程序见AlignAssist_Setup_1.5.1文件夹)。双击AlignAssist_Setup_1.5.1.exe的程序进行安装。语言选择为english。

2、双击运行。将要对齐的原文文件和译文文件分别添加进去。

注意原文和译文语言方向。根据文件夹要求确定英文、中文何为原文,何为译文。 例:project1-中到英,则中文文件为source file,英文文件为target file。 源文本和译文本添加完成后,点击Align。进入如下界面。 3、注意split、merge、delete、swap的用法。 (1)split:将一句话断开为两句

随意举例:将第六句原文“当前全球经济正经历深度调整,各国需联手培育新的经济增长点和竞争优势。”断为:“当前全球经济正经历深度调整,”及“各国需联手培育新的经济增长点和竞争优势。”选中第六句原文,边框变黑。 单击上方菜单split。 进入下图界面。将第二小句内容剪切粘贴到cell 2部分,然后单击ok。 即分句完成。

如何自建英语语料库

论自建小型学习者语料库的方法及作用 ——以自建中学生英语写作语料库为例 曹鹤 北京市第三十一中 摘要: 大型语料库的出现和发展在研究语言的用法、翻译、教学、教材编写以及词典编撰等方面起着重要作用,但对于处于一线从事基础教育的外语教师而言,针对性和使用性不强。本文以自己建立小型基础英语教学中中学生写作语料库为例介绍了小型学习者语料库建设的可行性、方法和应用,借以提倡广大一线从事基础教育的教师利用高科技所带来的成果,武装和丰富自己,让自己的教学科学化、客观化。 关键词:小型学习者语料库;英语写作;基础教育 自20世纪60年代至今,语料库从萌芽阶段已经发展到广泛应用于语言研究的各个方面,如:词典编撰、语言学研究、教材编写、翻译、语言教学等等。同时,计算机技术的高速发展使语料库(Corpus)在过去的50多年来也得到了长足的发展,突出表现就是大型语料库的出现。大型语料库为语言研究提供了可靠的信息,但正因为其包罗万象、内容泛泛,在辅助基础教学研究等方面缺乏针对性,实用性不强。作者认为广大英语教师可以根据自己的实际需要建设小型学习者语料库,开展有针对性地研究,并将其应用到教学中。本文以建立中学生写作语料库为例介绍建设小型学习者语料库的方法、以及如何使用小型语料库等方面做主要论述,向基础英语教师展示如何运用这一新技术来辅助英语写作教学。 一、语料库简介 建设语料库之前,我们应首先明白什么是语料库。语料库并不复杂,它通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体(杨惠中,2004)。语料库可以帮助人们观察和把握语言事实,分析和研究语言系统的规律。从语料库语言学的发展历程可以看出,语料库的用途主要体现在对语言现象以及语言本质的研究,如语言统计、词典编撰、词汇搭配和自然语言处理等方面(顾曰国,1988)。现在语料库也开始逐渐应用到语言教学研究中。根据邢富坤(2006)的统计,国内基于语料库的教学研究的数量越来越大,将语料库应用于外语教学的趋势也越来越明显。

语料库常用术语

语料库常用术语 Type 类符 Tokens 形符 例如“I see a cat and a dog”类符6个,形符7个 Type/token ratio =TTR TTR 是衡量文本中词汇密度的常用方法,可以辅助说明文本的词汇难度。但是,文本中有大量功能词出现,文本每增加一个词,形符就会增加一个,但类符却未必随之增加。这样文本越长,功能词重复次数越多,TTR会越低。因此用TTR衡量词汇密度不合理,于是,出现了标准化类符/形符比,即STTR。例如,计算每个文本1000词的TTR,均值处理,得出STTR。Frequency(频率) 例如每百万词、十万词中,某单词出现次数。常常将某个单词在两个语料库中出现的频率参照两个语料库的容量,用卡方检验或对数似然率进行对比,来确定两个库中该单词的使用是否有差异。 Wordlist词表 根据单词或词组在语篇中出现的频率大小而排列形成的列表。 Ranks Lemma词目,词元 比如go是lemma,对应各种屈折变化形式(inflections),go,goes,went,going,gone共5种屈折变化形式。在分析语言时,需要将它们全部归到go名下,这个过程叫词形还原。Keywords关键词、主题词positive keywords 正关键词negative keywords 负关键词 Concordance 索引(KWIC 语境中的关键词key words in context) 运用索引软件在语料库中查询某词或短语的使用实例,然后将所有符合条件的语言使用实例及其语境以清单的形式列出。通过前后语境,可以分析“collocation词汇搭配”“colligation 类连接、语法搭配”“semantic preference语义倾向”“semantic prosody语义韵”Collocation词汇搭配 搭配强度MI,T-score ,Z-score Colligation类连接、语法搭配 semantic prosody语义韵 词汇的语义韵大体可分为积极语义韵、中性语义韵、消极语义韵。 POS tagging 词性赋码 Regular expression regex 正则表达式

利用WordPilot在外语教学中自建小型语料库

中图分类号:H319.9 文献标识码:A 文章编号:100125795(2003)062004220004 利用WordPilot 在外语教学中自建小型语料库 梁茂成 (南京大学外国语学院,江苏南京 210093) 摘 要:在外语教学界,语料库技术已经成为一个热门话题并孕育着十分广阔的应用前景。Word 2Pilot 正是为了顺应这种趋势而开发的软件系统,它使得语料库技术方便地进入语言课堂。本文简述了WordPilot 的基本功能、特点和操作方法,探讨了它应用于语料库辅助外语教学的理论基础和益处,旨在 促进基于语料库的外语教学活动的展开。 关键词:WordPilot ;语料库;语料库的创建;外语教学 Using WordPilot To Create A Small -Scale Corpus For EFL Class L IA N G M ao 2cheng (Foreign Languages School ,Nanjing University ,Nanjing ,Jiangsu 210093,China ) Abstract :Corpus technology has become a hot issue and is promising broad applications in the foreign language teaching field.WordPilot ,a software system developed in compliance with this very trend ,makes it very easy for corpus technology to enter the language classroom.This paper gives a introduction to the ba 2sic functions ,features and the operation of the software and probes into the theoretical basis and the benefits of its application to corpus -aided foreign language teaching ,with an aim to promote corpus -based foreign language teaching. K ey w ords :WordPilot ;Corpus ;Corpus Creation ;Foreign Language Teaching 从外语教学的角度看,大型语料库是可供语言教师参考 和使用的大型数据库,教学大纲和语言教材应该根据其内容而合理地编制。而应用于语言课堂中的语料库则有所不同。它一般说来是精心采集的、旨在帮助语言学习者理解语言现象的小型语料库(Guy Aston ,1995:259)。本文介绍的WordPilot 正是为了达到这一目的而设计的一种语言教学和学习工具。它利用现代语料库技术,对个人采集的生语料进行加工,以达到检索和统计等目的。语料库及其检索、统计等过程可以通过视频展示设备,采用十分有利于学生学习的方式呈现在学生面前,从而有效地辅助外语课堂教学。 1 WordPilot 简介 WordPilot 是Langsoft Online (http ://https://www.360docs.net/doc/1f10337104.html, )公司推出的基于Microsoft Windows 操作系统的优秀软件 产品,其主要目的在于服务于语言教学和语言学习。WordPilot 运行时的主界面如下图所示(图1)。 WordPilot 具有良好的语言教学辅助功能,主要概括如下:1.1 卓越的检索功能 在WordPilot 主界面上的常用工具中,有一个功能强大的检索(concordancing )功能,这也是现代语料库 作者简介:梁茂成(19642)男,汉,副教授,博士生。研究方向:应用语言学。收稿日期:2002210224 第94期2003年12月 外语电化教学ETFL T No.94Dec. 2003

可以免费使用的大型英语语料库资源

英语语料库#参考 2012-03-02 22:29:26 ■BNC=The British National Corpus英国国家语料库 https://www.360docs.net/doc/1f10337104.html,/(备用) https://www.360docs.net/doc/1f10337104.html,/bnc/ ■ANC = The American National Corpus美国国家语料库 https://www.360docs.net/doc/1f10337104.html,/ ■COCA = Corpus of Contemporary American English 美国当代英语语料库 https://www.360docs.net/doc/1f10337104.html,/ ■COHA = Corpus of Historical American English 美国近当代英语语料库 https://www.360docs.net/doc/1f10337104.html,/coha/ ■BOE=Bank of English 柯林斯英语语料库 https://www.360docs.net/doc/1f10337104.html,/wordbanks/ ■NMC=New Model Corpus 新规范语料库 https://www.360docs.net/doc/1f10337104.html,/ ■ARC=ACL Anthology Reference Corpus (ARC) 文选参考语料库 https://www.360docs.net/doc/1f10337104.html,/auth/preloaded_corpus/aclarc/ske/first_form ■BAWE=British Academic Written Eng Corpus (BAWE) 英国学术书面语语料库 https://www.360docs.net/doc/1f10337104.html,/auth/preloaded_corpus/bawe2/ske/first_form https://www.360docs.net/doc/1f10337104.html,/AcaDepts/ll/app_ling/internal/bawe/sketch_engine_bawe.htm download ■BASE= British Academic Spoken English Corpus (BASE) 英国学术口语语料库 https://www.360docs.net/doc/1f10337104.html,/fac/soc/celte/research/base/ ■SCTS=Scottish Corpus Of Texts and Speech苏格兰口语与书面语语料库 https://www.360docs.net/doc/1f10337104.html,/ ■SCTS=Corpus Of Modern Scottish Writing 当代苏格兰语实库 https://www.360docs.net/doc/1f10337104.html,/cmsw/ Slang https://www.360docs.net/doc/1f10337104.html,/ (American, English, and Urban slang) https://www.360docs.net/doc/1f10337104.html,/slang/ (UK) https://www.360docs.net/doc/1f10337104.html,/ https://www.360docs.net/doc/1f10337104.html,/cybereng/slang/ https://www.360docs.net/doc/1f10337104.html,/ https://www.360docs.net/doc/1f10337104.html,/

国内语料库建设一览表

国内语料库建设一览表 类型语料库名称及大小建设单位 英语学习者语料库(书面语及 口语) 中国学习者语料库CLEC(100万)广外、上海交大大学英语学习者口语语料库COLSEC (5万) 上海交大香港科技大学学习者语料库HKUST Learner Corpus 香港科技大学中国英语专业语料库CEME (148万) 南京大学中国英语学习者口语语料库SECCL (100万) 南京大学 国际外语学习者英语口语语料库中国部分LINSEI-China (10万) 华南师大硕士写作语料库MWC (12万) 华中科技大学 平行语料库 汉英平行语料库PCCE 北外 南大-国关平行语料库南京大学 英汉文学作品语料库; 外研社冯友兰《中国哲学史》汉英对照语料库 李约瑟(Joself Needham)《中国科学技术史》英汉对照语料库 计算机专业的双语语料库;国家语言文字工作委员会语言文字应用研 究所柏拉图(Plato)哲学名著《理想国》的双语语料库 英汉双语语料库(15万对) 中科院软件所

英汉双语语料库:LDC香港新闻英汉双语对齐语料36294段以及香港法律英汉双语对齐语 料31万句子对 中国科学院自动化研究所英汉双语语料库(100万),网上英汉语段电子词典及网上电子英汉搭配词典(1000万) 东北大学 英汉双语语料库(40-50万句子对) 哈尔滨工业大学 双语语料库(5万多对) 北京大学计算语言学研究所对比语料库LIVAC(Linguistic variety in Chinese communities) 香港城市理工大学平衡语料库(Sinica Corpus);树图语料库(Sinica Treebank) 台湾 特殊英语语料 库 中国英语(China English)语料库河南师范大学军事英语语料库(Corpus of Military Texts) 解放军外语学院新视野大学英语教材语料库上海交通大学 汉语语料库汉语现代文学作品语料库(1979年,527万字) 武汉大学现代汉语语料库(1983年,2000万字) 北京航空航天大学 中学语文教材语料库(1983年,106万8000字) 北京师范大学 现代汉语词频统计语料库(1983年,182万字) 北京语言学院国家级大型汉语均衡语料库(2000万字) 国家语言文字工作委员会《人民日报》语料库(2700万字) 北京大学计算机语言学研究所大型中文语料库(5亿字,10分库) 北京语言文化大学

语料库

语料库、学习者语料库与外语教学 ① □李文中 0.概述语料库(corpora )是应用计算机技术对海量自然语言材料进行处理(包括预处理、语法自动附码、自动句法分析、语义分析等)、存储,以供自动检索(retrieval )、索引(concordance )以及统计分析的大型资料库。它是按照明确的设计标准为某一具体目标而建立的语言资料库(Atkins and Clear 1992:5,引自G ranger 1996)。如果作进一步区分,还可以把语料库与大型文档资源库(text archives )区别开来。前者具有明确语料选择比例和设计标准,而后者更注重语料容量和语料来源的多样性(Edwards 1993)。所谓自然语言是指任何人类在童年习得的语言(Leech 1987:1)。使用这一概念的意义在于,把人类自然语言同人工编制的人工语言(artificial languag 2es )(如C 语言、BASIC 、JAVA 、FORTRAN 等)区别开来;在对语言描述和研究中,自然出现的语料不同于研究者为某一目的而引出的材料(elicited data )。语料库的研究对象是人类语言自然运用(performance ),而不是内在语言能力(com petence )。语料库的应用主要在于以下几个方面:1)自然语言处理(包括自动语言识别、自动语法附码、句法分析、语义分析、知识表达、机器翻译等)。基于语料库方法可以提供有关语言结构和特征的可靠信息,而这些信息是内省法研究或心理测验获取的信息所不能比拟的。语料库是人们广泛深入理解语言所必需的工具(Edwards 1993,Leech 1991,1992,Svartvik 1992)。2)词典编纂。语料库能够提供更为完备和详尽的关于词义和词汇搭配信息(K jellmer 1984,Sinclair 1982,引自Edwards 1993)。3)语言学习与语言教学。早在本世纪60年代,美国Brown 大学创建了最早的语料库BROW N C ORPUS ,容量为100万词,广泛搜集了当时美国英语各种文体的语言材料。与此相呼应的是70年代初在欧洲同样容量的LOB 语料库,搜集了同年代的英国英语材料。基于这两个语料库,开展了大量的重要研究,研究的重点是对英语语法的描述和分析(Rundell 1996)。另外,70年代初还建成了50万词的英语口语语料库London 2Lund C orpus (LLC )。但对于大规模的词汇研究(如词典编纂)而言,100万词的容量显然不能满足要求。80年代初,由Birmingham 大学John Sinclair 主持建成了专门用于词典编纂的大型语料库BCET (Birmingham C ollection of English T exts )。该语料库最初容量为730万词,到80年代中期,其迅速扩充为2000万词。与此同时,朗曼公司词典部开始建立自己的语料库Longman 2Lancaster 语料库,容量达到3000万词。在我国,上海交通大学杨惠中教授在80年代末主持建成了容量为300万词的科技英语语料库(JDEST ,1997年扩充至360万词),主要用于大学英语教学大纲制定和教材开发。80年代建成的语料库还有Lancaster 的英语口语语料库(ESC ,1984—1987)、用于跨文化比较的PIXI 语料库。90年代初,包含英国书? 15?外语界1999年第1期(总第73期)①本文在写作过程中,承蒙Sylviane G ranger 教授惠寄有关资料以及对有关问题的讨论。C ornelis H.J.Vaes 寄来International Journal o f Corpus Linguistics 以供参考。M ike Scott 寄来有关索引软件M icroC oncord 使用手册。导师杨惠中教授阅读了初稿并提出了修改意见。在此一并致谢。

自建小型口译语料库用于口译教学

龙源期刊网 https://www.360docs.net/doc/1f10337104.html, 自建小型口译语料库用于口译教学 作者:吕倩 来源:《青年文学家》2013年第07期 摘要:语料库在教学中的应用已经越来越受到重视,将语料库建设融合到口译教学是实现IT技术与教学的整合。本分分析了语料库建设对口译教学的重要意义,提出自建小型口译语 料库用于口译教学。 关键词:口译教学;语料库;自建 [中图分类号]:G42 [文献标识码]:A [文章编号]:1002-2139(2013)-7--01 一、引言 Shlesinger探讨了语料库口译研究作为语料库翻译研究分支的可行性,将口译研究纳入语料库翻译研究的视野。他指出口译语料库的建立可以采用可比语料库和平行语料库的形式,并提出如何运用当前单语语料库来进行口译研究。(Shlesigner, 1998:486)然而,国内外对口译语料库的研究都较为滞后,语料库翻译研究的对象一直局限于笔译,很少涉及口译。虽然口译语料的采集难度大,口译语料库建设费时费力,但口译作为翻译研究的一个重要领域,理应成为语料库翻译研究的对象。目前已建成的口译语料库十分少,且已经建立的语料库中,大多都不开放且规模较小,并不适合用于口译教学。根据口译的特殊性和当前口译语料库匮乏的现状,本论文提出了自建小型口译语料库用于口译教学。 二、语料库种类的选择 2.1 平行语料库 Mona Baker 将与翻译研究有关的语料库分为三类:平行语料库,多语语料库和可比语料库。(Baker, 1995:230-260)平行语料库收集某种语言的原创文本和相应的翻译成另一种 文字的文本。平行语料库的建成使语言学家能对比两种文本在词汇、句子和文体上的差异,平行语料库最典型的应用范围是翻译者培训、双语词汇教学、词典编纂和机器翻译。例如:在口译中的词汇搭配研究中,“经济增长”的表达究竟是“economic growth” 还是“economic development”,通过搭配的概率统计,便可得知应该是“economic growth”。平行语料库的建立在目前看来对于翻译教学的意义是最大的。 2.2 音文同步

国家标准《建立术语研究用语料库的一般原则与方法》.

国家标准《建立术语研究用语料库的一般原则与方法》 (征求意见稿)编制说明 一、任务来源 随着科学技术的发展,新术语、新概念层出不穷,为了更好的管理、规范日益增多的新术语,需要借助更先进的工具及方法。目前国内外已经建立了大量的术语数据库,为了更好的对大量术语资源进行研究就需要建立术语语料库,大规模真实语料库是术语研究的可靠基础和最主要的来源,建设与术语库相配合的、统一规范的精加工术语语料库,可以使我们对中文术语构成、术语专业分布、术语地域分布、术语来源以及术语发展等各种复杂现象获得更为直观、深刻的全面认识,进而为推动中文术语规范化和标准化的进程、促进语言信息处理技术的总体发展起到关键的作用。因此制定建立术语语料库的标准已经十分必要。 GB/T XXXX-XXXX《建立术语研究用语料库的一般原则与方法》项目由中国标准研究中心提出,于2002年列入国家质量监督检验检疫总局制、修订国家标准项目计划,项目编号:20020411-T-424。该标准由中国标准研究中心归口,计划于2002年底完成。 二、工作情况: 1、标准起草小组的同志积极参与对《建立术语研究用语料库的一般原则与方 法》国家标准的制定工作,在工作中深入的研究了术语语料库的功能,吸取国内外先进经验,制定出一套实用的术语语料库建立标准。 2、进行了广泛的调研工作,搜集了使用者的一些建议,同时争求了一部分专 家的意见,作为本项目的重要参考。 3、在制定标准过程中,标准起草工作组根据实际情况制定工作计划,保证工 作顺利进行。 4、标准起草工作组多次召开会议,反复研究了《建立术语研究用语料库的一 般原则与方法》讨论稿,广泛征求了该专业领域的专家及用户的意见,对

自建小型化工英语语料库

2019年9月第46卷第9期 云南化工 Yunnan Chemical Technology Sep.2019 Vol.46,No.9 doi:10.3969/j.issn.1004-275X.2019.09.075 自建小型化工英语语料库 杜燕航,田文杰 (空军工程大学,陕西西安710038) 摘要:对自建小型化工英语语料库进行了阐述,希望对相关研究人员提供参考,促进涉外化工行业中翻译工作的开展。 关键词:自建;化工英语;语料库 中图分类号:H315.9文献标志码:A文章编号:1004-275X(2019)09-187-03 Self-built Small Chemical English Corpus Du Yanhang,Ttian Wenjie (Air Force Engineering University,Xi’an710038) Abstract:This thesis elaborates on the construction of a small chemical English corpus,hoping to provide reference for relevant researchers and promote the translation in the exchange between Chinese and foreign chemical enterprises. Key words:Establishment;Chemical English;Corpus 随着经济全球化的高速发展,世界各国间的经济往来日益频繁,在这些交往过程中,高效率、高质量的翻译,已经成为直接影响交流速度和效果的重要因素。离开了好的翻译,不仅可能造成经济损失,严重的甚至可能引发国际争端。大量的翻译需求在为译员提供了更多的就业机会和展示才华的舞台的同时,也对译员的能力和译文的质量提出了更高的要求。在多语言并存的背景下,传统的人工翻译已经难以适应数量巨大的翻译需求,而语料库由于其自身独有的优势,成为了人工翻译的重要补充,甚至在有些情况下,如术语和缩略语的翻译方面,可以完全替代人工翻译。本论文把自建小型化工语料库作为研究对象,对研究现状、研究方法和研究意义进行了阐述和说明。 1研究现状 1.1语料库在国外的发展 1961年,全球第一个机读语料库(Brown Corpus)在美国布朗大学诞生。其后,随着计算机技术的发展,已经发展为各种不同类型的第二代语料库。语料库一般可分为平行语料库(parallel corpora)、多语语料库(multilingual corpus)、可比语料库(comparable corpus)。目前在翻译实践中应用较多的是平行语料库。这种语料库中含由于有大量专业准确的双语术语和句子,为翻译实践、翻译教学、翻译语言研究提供了良好的基础。但是目前,对化工英语这种专门用途的平行语料库的研究开展较少。 1.2语料库在国内的使用 目前,国内先后建立了多个应用于不同领域的专业语料库。语料库技术在教学、字典编撰、辅助译员翻译等方面都得到了广泛的应用。通过语料库的使用,译员可以不用花费大量时间去熟悉记忆相关领域的术语,而是将更多的精力放在提高译文质量上,实际翻译中的效率就会大大提高。可以说,语料库具有很强的现实意义广阔的发展前景。译员根据自己的实际需要,在不单纯追求语料范围和大小的情况下,自建目的明确的小型专门语料库既是必要的也是可行的。 2研究方法 2.1语料的搜集 和普通英语相比,化工英语具有专业性强、术语繁多、缩略语使用广泛等特点。在化工英语知识的学习中,优秀的中英文对照教材非常重 187--

相关文档
最新文档