BNC和COCA语料库

合集下载

基于语料库BNC和COCA对SORRY的对比研究_丁玲玲

基于语料库BNC和COCA对SORRY的对比研究_丁玲玲

156青年文学家·语言研究基于语料库BNC和COCA对SORRY的对比研究丁玲玲 西安电子科技大学人文学院 陕西 西安 710071TOTBNC 10766COCA 40036图一:sorry 的频数对比摘 要:本文使用英国国家语料库BNC(The British NationalCorpus)和当代美国英语语料库COCA(Corpus of ContemporaryAmerican English)对sorry 进行对比研究。

目的是说明这两种语料库之间的异同点以及加深语言学习者对于sorry 的认识。

关键词:BNC ;COCA ;sorry ;对比研究[中图分类号]:H061 [文献标识码]:A[文章编号]:1002-2139(2013)-13-156-01一、前言现在国内运用BNC 、中国学习者英语语料库CLEC 以及中国大学学习者英语口语语料库COLSEC 进行对比研究的较多,但是运用BNC 与COCA 来进行英式英语与美式英语对比的研究还较少。

本文将以sorry 为例在这方面做一尝试。

二、使用工具——BNC 和 COCA本文用到的语料库有英国国家语料库(BNC ),美国当代英语语料库(COCA )。

本文会依次对sorry 上述两个语料库中进行检索,比较得出的结果,并进行阐释说明。

BNC :英国国家语料库是目前世界上最具代表性的当代英语语料库之一,是目前网络可直接使用的最大的语料库,其中书面语语料库9千余万词,口语语料库1千余万词。

COCA :美国当代英语语料库,是由美国Brigham Young University 的Mark Davies 教授开发的高达3.6亿词汇的美国最新当代英语语料库,是当今世界上最大的英语平衡语料库。

与其他语料库不同的是它是免费在线供大家使用,是不可多得的一个英语学习宝库。

三、研究问题本文的研究将从以下几个方面展开:(一)sorry 在BNC 与COCA 里面的总频数对比;(二)sorry 在BNC 与COCA 里面的搭配 a)左右搭配情况的对比(取前一百个例子分析),b)sorry 在KWIC 中搭配频率最高的单词统计对比;(三)sorry 在BNC 和COCA 里面出现场合情况对比;四、研究结果与分析(一)sorry 在BNC 与COCA 里面的总频数对比首先我们将SORRY 放入BNC 语料库与COCA 语料库分别进行检索,发现SORRY 在BNC 中一共出现了10766次,而在COCA 中却出现了40036次(如图一所示)。

可以免费使用的大型英语语料库资源

可以免费使用的大型英语语料库资源

英语语料库#参考2012-03-02 22:29:26■BNC=The British National Corpus英国国家语料库/(备用)/bnc/■ANC = The American National Corpus美国国家语料库/■COCA = Corpus of Contemporary American English 美国当代英语语料库/■COHA = Corpus of Historical American English 美国近当代英语语料库/coha/■BOE=Bank of English 柯林斯英语语料库/wordbanks/■NMC=New Model Corpus 新规范语料库/■ARC=ACL Anthology Reference Corpus (ARC) 文选参考语料库/auth/preloaded_corpus/aclarc/ske/first_form■BAWE=British Academic Written Eng Corpus (BAWE) 英国学术书面语语料库/auth/preloaded_corpus/bawe2/ske/first_form/AcaDepts/ll/app_ling/internal/bawe/sketch_engine_bawe.htm download■BASE= British Academic Spoken English Corpus (BASE) 英国学术口语语料库/fac/soc/celte/research/base/■SCTS=Scottish Corpus Of Texts and Speech苏格兰口语与书面语语料库/■SCTS=Corpus Of Modern Scottish Writing 当代苏格兰语实库/cmsw/Slang/ (American, English, and Urban slang)/slang/ (UK)//cybereng/slang///可以免费使用的大型英语语料库资源常用语料库资源链接汇集(语料天涯)/time/http://www.lextutor.ca/concordancers/concord_e.html 常用语料库资源链接汇集(语料天涯)http://202.204.128.82/sweccl/Corpus//netprints/Corporalink/Corporalink.htm1. BNC-World Simple Search ☆☆☆/lookup.html But no more than 50 hits will be displayed, with a fixed amount of context.2. Brown, LOB, BNC sampler ☆☆☆Here are a few links for searching corpora online, including monolingual corpora like Brown, LOB, and BNC sampler and also some parallel English-Chinese corpora.English: /concordance/WWWConcappE.htmEnglish: http://www.lextutor.ca/concordancers/concord_e.htmlParallel: /concordance/paralleltexts/3. Collins Cobuild Corpus Concordance Sampler☆☆☆☆☆/Corpus/CorpusSearch.aspxThe Collins WordbanksOnline English corpus is composed of 56 million words of contemporary written and spoken text.4. New BNC interface - VIEW: ☆☆☆☆☆/5. Samples (about 2 million words) from the British National Corpus: both written and spoken ☆☆☆The Brown Corpus and many others - native, learner... Go tohttp://www.lextutor.ca/concordancers/concord_e.html6. MICASE ☆☆☆☆/m/micase/There are currently 152 transcripts (totaling 1,848,364 words) available at the site.7. CLEC online concordancing ☆☆☆☆/corpus/EngSearchEngine.aspxCLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词,并对言语失误进行标注。

专业的语料库建设理论

专业的语料库建设理论

专业的语料库建设理论语料库是指用于语言学研究的大型文本数据库,它包含大量实际使用的自然语言文本,如书籍、报纸、杂志、互联网文本、对话录音等等。

语料库建设理论旨在有效地选择、组织和分析语料库,以便满足研究者的需求。

本文将介绍一些专业的语料库建设理论。

1. 语料库选择选择合适的语料库是语料库建设的首要任务。

语料库的规模和内容应该与研究目的相匹配。

通常,大型综合性语料库可以满足大多数研究项目的需求。

研究者可以选择已经存在的现成语料库,如COCA (Corpus of Contemporary American English)、BNC(British National Corpus)等,也可以根据自己的需要创建新的语料库。

2. 语料库组织语料库的组织需要考虑多种因素。

首先,语料库应该包含各种不同类型的文本,以反映真实的语言使用情况。

其次,语料库应该具有丰富的标注信息,如词性标注、句法分析、语义标记等,以便进行更深入的语言分析。

最后,语料库还应该具备良好的可访问性和可搜索性,以便研究者能够方便地检索和提取需要的语言样本。

3. 语料库分析语料库的分析是语料库建设的核心内容。

研究者可以利用语料库中的样本进行语言学的定量和定性分析。

定量分析可以通过统计方法计算出语言现象的频率、分布和变异等信息,帮助研究者揭示语言规律和趋势。

定性分析则可以通过人工观察和解释来深入理解特定的语言现象,如语言变体、修辞手法等。

4. 语料库应用语料库的应用范围广泛。

首先,语料库在语言学研究中扮演着重要角色,帮助研究者进行语言规律的发现和验证。

其次,语料库也被广泛应用于语言教学和学习中。

教师可以利用语料库的真实语言样本来帮助学生理解和掌握语言的实际用法。

另外,语料库还可以用于机器翻译、语音识别、自然语言处理等领域,为相关技术的发展提供重要的数据支持。

总结:专业的语料库建设理论包括语料库选择、语料库组织、语料库分析和语料库应用四个方面。

美国当代英语语料库(COCA)使用介绍要点

美国当代英语语料库(COCA)使用介绍要点

COCA语料库简介
COCA简介
– COCA美国当代英语语料库涵盖美国这一时期 的口语(spoken)、小说(fiction)、流行杂志(pop magzine)、报纸(newspaper)和学术期刊 (academic)五大类型的语料库,并且在这五个类 型方面基本呈均匀平衡分布。
– 网址:/coca
• 例1. 输入单词“mysterious” (图2.1.1-1):得 到相关结果(图2.1.1-2):在各子库中的频率,每 百万词使用的频率。
• 若对图2中的相应条块进行点击,那么就可以看到 KWIC,如图2.1.1-3 (以点Fiction的条块为例):
图2.1.1-1
图2.1.1-2
使用CHART显示
POS LIST
det.GEN 类指限定词 det.POS 物主限定词 num.CARD 基数词 num.ORD 序数词 conj.CRD 并列连词 conj.SUB 从属连词 Interj. 叹词 PUNC 标点
词性列表的使用
• 1)查询多义词特定的词性 • 2)某个词前或者后面特定词性的若干搭配
COCA界面简介
• 语料库分类区(五大类型语料库共包括42个 子语料库)。
COCA界面简介
• 语料库分类区(五大类型语料库共包括42个 子语料库)。
二、COCA主要搜索功能
• 2.1 搜索words、phrases、lemmas(单 词的所有形式)、wildcards(通配符)和 其他更加复杂的字词。
POS LIST
pron.INDF 不定代词 pron.PERS 人称代词 pron.WH 疑问代词 pron.REFL 反身代词 adj.CMP 形容词比较级 (comparative) adj.SPRL 形容词最高级 (superlative) adv.particle 副词小品词 adv.WH 疑问副词

常用的英语语料库

常用的英语语料库

常用的英语语料库有以下几个:
英国国家语料库(BNC):是目前世界上非常有代表性的当代英语语料库之一,收录了1亿字的电子资源,涉及口语和书面英语。

美国当代英语语料库(COCA):是目前最大的免费英语语料库,包含5.2亿词的文本,由口语、小说、流行杂志、报纸以及学术文章五种不同的文体构成。

密歇根大学学术口语语料库(MICASE):专注于学术口语,收集了大量学术讨论和讲座的语音转录。

密西根高阶学生论文语料库(MICUSP):主要收录高年级学生的论文,对于研究学术写作风格和习惯很有帮助。

台湾清大自然语言处理语料库(Linggle):结合大数据分析,提供了丰富的语料和语言统计信息。

这些语料库各具特色,可以根据具体的研究需求选择合适的语料库。

coca等级词汇

coca等级词汇

coca等级词汇摘要:一、引言1.介绍COCA 等级词汇的背景和作用2.阐述COCA 等级词汇对于学习者的重要性二、COCA 等级词汇的概述1.COCA 的定义和来源2.COCA 等级词汇的分类和特点三、COCA 等级词汇的应用1.在英语学习中的作用2.如何有效地利用COCA 等级词汇提高英语水平四、COCA 等级词汇与其他词汇体系的比较1.GSL (General Service List)2.BNC (British National Corpus)五、结论1.总结COCA 等级词汇的重要性2.鼓励学习者积极利用COCA 等级词汇提高英语能力正文:一、引言COCA(The Corpus of Contemporary American English)等级词汇是英语学习者提高英语能力的重要工具。

COCA 等级词汇不仅可以帮助学习者掌握英语中最常用的词汇,还能让学习者了解词汇的难度和重要性,从而更好地进行英语学习。

二、COCA 等级词汇的概述COCA 等级词汇是基于COCA 语料库(The Corpus of Contemporary American English)进行的研究成果。

COCA 语料库包含了大量美国英语的文本,包括书籍、报纸、杂志、网络文章等,共约5.2 亿词。

通过对这些语料库的分析,研究人员将词汇按照其在英语中的使用频率和重要性进行分类,形成了COCA 等级词汇。

COCA 等级词汇共分为十个等级,从最常用的Level 1 词汇到较为生僻的Level 10 词汇。

每个等级的词汇都有其特定的使用场景和重要性。

例如,Level 1 词汇是英语中最常用的词汇,学习者需要熟练掌握这些词汇;而Level 10 词汇虽然在日常生活中使用频率较低,但对于学习特定领域(如科技、医学等)的专业知识具有重要意义。

三、COCA 等级词汇的应用COCA 等级词汇在英语学习中具有广泛的应用。

学习者可以通过掌握不同等级的词汇,提高自己的英语水平。

杨百翰大学BNC语料库使用说明

杨百翰大学BNC语料库使用说明
规则:在words的方格里分别输入hot和warm,再在context方框里输入 [nn*],表示后面所跟任何名词。当然也可以比较在某个子语料库中出现的频 率比较。
• 2.4.2 比较反义词 • 如:woman和man前面所跟的形容词的区
别(如图2.4.2)
图2.4.2
规则:在words的方格里分别输入woman和man,再在context方 框里输入[aj*],选在左3,表示前面3个跨距内所有的形容词。当然 也可以比较在某个子语料库中出现的频率比较。
• 以上方法同样可以用于检索代表当代美国 的语料库 /, 以及以不同年代的TIME做成的历史语料库
/
• 2.1.5 输入某种词性且部分带有某些字母的命令, 如要得到以un-开头、-ed结尾的所有形容词的所 有 形 式 ( 见 图 2.1.5-1 ) 和 得 到 动 词 + 任 何 词 +ground的所有词组(见图2.1.5-2):
• 规则:若要得到某种词性且词中带有部分带有某 些字母的形式时,如要得到以un-开头、-ed结尾 的所有形容词的所有形式,那么输入: un*ed.[aj*]; 若要得到动词+任何词+ground的所有词组,那么输 入: [vv*]*[ground]即可。前者用来研究词汇,后者 用来查询特定词性的搭配。
• 2.4.3 搜索近义词 • 如:搜索beautiful的所有近义词(如图
2.4.3-1)
规则:在words的方格里输入[=beautiful],表示和beautiful语义相 近的所有形容词。
• 再如:搜索动词clean的所有近义词,如下 图:
图2.4.3-2
• 当然可以进一步搜索与clean语义相近的动 词+the+名词的词组,[[=clean]].[v*] the [n*] 如下图:

基于COCA、BNC语料库的近义词辨析r——以raise和rise为例

基于COCA、BNC语料库的近义词辨析r——以raise和rise为例

基于COCA、BNC语料库的近义词辨析r——以raise和rise为例姜敏;黄蕾【摘要】随着语料库语言学的发展和各种语料库的建立,基于语料库的行为描述法在语言学研究和教学方面被公认为是一种科学有效的方法.正确运用英语词汇,尤其是近义词,是英语学习的重点和难点.基于美国当代语料库(COCA)、英国国家语料库(BNC),分别从语域、类连接和搭配三个方面对近义动词raise和rise进行辨析,使英语学习者运用语料库更好地掌握近义词.【期刊名称】《长春教育学院学报》【年(卷),期】2018(034)006【总页数】4页(P39-41,46)【关键词】COCA;BNC;语域;类连接;搭配;近义词【作者】姜敏;黄蕾【作者单位】成都理工大学外国语学院,四川成都610059;成都理工大学外国语学院,四川成都610059【正文语种】中文【中图分类】H313词汇是英语学习的基础。

据统计,英语中同义词、近义词的数量约占总词汇量的60%(贺晓东,2003)。

由此看出,英语近义词数量庞大,是英语学习重中之重,掌握好近义词辨析,就能更好地学习英语。

现代语料库的出现为研究同义词区别及应用提供了新的途径。

语料库收集语料范围广泛、规模较大,再现该语言在母语人群中真实自然的使用情况,为英语学习者提供更加直观、可靠的语境,以便更好地辨析近义词。

以往的学者大多采用单一语料库研究近义词辨析,采用两个及以上语料库的比较少见。

笔者在前人研究的基础上,基于COCA和BNC两个语料库对raise和rise进行辨析,探讨这两个词在语域、类连接和搭配上的差异,希望对今后的英语教学有所启示。

一、研究设计(一)研究工具美国当代英语语料库(COCA)由杨百翰大学Mark Davies教授开发,是当今世界最大的美国英语平衡语料库。

迄今其规模已超过5.6亿词汇,收集从1990年至2017年期间美国境内口语、小说、杂志、报纸及学术期刊五大领域的语料。

同时也是一款在线免费的语料库。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
BNC COCA语料库
周雪清 李杏
BNC
BNC特点
COCA
杨百翰大学(Brigham Young University)语料库 英国国家语料库BNC /bnc 当代美国的语料库COCA / 不同年代的TIME做成的历史语料库Time Corpus of American English
6.若要得到动词+任何词+ground的所有词组,那么输入: [vv*]*[ground]即可。
动词+任何词+ground的所有词组

7.搜索近义词 如:搜索beautiful的所有近义词
规则:在words的方格里输入[=beautiful],表示和beautiful语义相 近的所有形容词。
Un开头 ly结尾的词源自R开头中间有 N的词
4. 输入 lemma (即一个单词的单复数、时态等所 有形式)以sing为例
规则:若要得到某个单词的所有单复数和时态形式,那 么就要在输入时,在这个单词外加 [ ]。
形容词early的原型,比较级和最高级三种形式一次性检索出 来检索
5.若要得到某种词性且词中部分带有某些字母的形 式时,如要得到以un-开头、-ed结尾的所有形容 词的所有形式,那么输入: un*ed.[aj*]

/
杨百翰大学BNC语料库使用方法说明
/bnc
BYU-BNC界面简介
1.单词 mysterious 为例
使用LIST显示
使用CHART显示
使用KWIC(key words in the context)显示方式
翻译是一个循序渐进的过程。需要积累,需要 耐心,需要不断挖掘知识的方方面面 。 语料库为我们做翻译带来了便利。希望我们能充 分利用各种有利条件,不断提升自己的翻译水平 与能力。 希望我们在岑老师的带领下,把翻译做好,把自 己今后的翻译之路规划好。

再如:搜索动词clean的所有近义词,如下图:


8.比较反义词 如:woman和man前面所跟的形容词的区别)
规则:在words的方格里分别输入woman和man,再在 collocates方框里输入[aj*],选在左3,表示前面3个跨距内所有的 形容词。


9.比较近义词 近义形容词hot和warm后面所跟名词的区别
规则:在words的方格里分别输入hot和warm,再在collocates方框里输入[n*], 表示后面所跟任何名词。
11.搜索搭配词以及出现的频率 如:thick后跟的名词
规则:在context里输入[nn*] 后选择4,表示在thick后面(4跨距范围内)出现的任何 名词
we want to say
2.词组(形容词+名词)


输入词组“white+ 名词” 得到的结果都是 white后面跟的名词 短语 检索表达式为: white [n*]

规则:输入名词的话用正 确表达式: [n*];动词: [v*]; 形容词: [aj*]; 副词: [av*]……
White+名词的短语
3. 输入un*ly和r?n*,
相关文档
最新文档