在美国当代英语语料库(COCA)如何查词
BNC和COCA语料库

6.若要得到动词+任何词+ground的所有词组,那么输入: [vv*]*[ground]即可。
பைடு நூலகம்
动词+任何词+ground的所有词组
7.搜索近义词 如:搜索beautiful的所有近义词
规则:在words的方格里输入[=beautiful],表示和beautiful语义相 近的所有形容词。
/
杨百翰大学BNC语料库使用方法说明
/bnc
BYU-BNC界面简介
1.单词 mysterious 为例
使用LIST显示
使用CHART显示
使用KWIC(key words in the context)显示方式
规则:在words的方格里分别输入hot和warm,再在collocates方框里输入[n*], 表示后面所跟任何名词。
11.搜索搭配词以及出现的频率 如:thick后跟的名词
规则:在context里输入[nn*] 后选择4,表示在thick后面(4跨距范围内)出现的任何 名词
we want to say
2.词组(形容词+名词)
输入词组“white+ 名词” 得到的结果都是 white后面跟的名词 短语 检索表达式为: white [n*]
规则:输入名词的话用正 确表达式: [n*];动词: [v*]; 形容词: [aj*]; 副词: [av*]……
White+名词的短语
3. 输入un*ly和r?n*,
再如:搜索动词clean的所有近义词,如下图:
8.比较反义词 如:woman和man前面所跟的形容词的区别)
coca等级词汇

coca等级词汇一、什么是COCA词汇等级COCA(Corpus of Contemporary American English)词汇等级是根据词汇在当代美国英语中的使用频率划分的。
COCA等级词汇分为五个等级,分别是:最常用词汇(Level 1)、较常用词汇(Level 2)、中等常用词汇(Level 3)、较少用词汇(Level 4)和极少用词汇(Level 5)。
二、COCA词汇等级的划分标准COCA词汇等级是根据词汇在COCA语料库中的出现频率划分的。
COCA 语料库包含了大量的当代美国英语文本,包括书籍、杂志、报纸、网络文章和口语等。
词汇等级的划分标准如下:1.最常用词汇(Level 1):在日常生活中、书籍、文章等方面频繁出现的词汇。
2.较常用词汇(Level 2):在一般阅读材料中经常出现的词汇。
3.中等常用词汇(Level 3):在特定领域或专业文章中出现的词汇。
4.较少用词汇(Level 4):在较为生僻的文章或专业领域中使用的词汇。
5.极少用词汇(Level 5):非常生僻、罕见的词汇。
三、COCA等级词汇的应用场景COCA等级词汇对于英语学习者和使用者具有很高的指导意义。
通过掌握不同等级的词汇,可以基本满足日常生活和学习中的阅读需求。
在学习过程中,可以根据自己的实际需求选择相应等级的词汇进行学习。
此外,COCA等级词汇还可以用于以下场景:1.英语考试:了解COCA等级词汇有助于提高英语考试的阅读理解和写作能力。
2.英语写作:掌握高级词汇可以提升写作水平,使文章更具深度和说服力。
3.专业领域:在特定领域的研究中,熟练运用COCA等级词汇有助于展现专业素养。
四、如何提高COCA等级词汇量1.制定学习计划:根据自己的英语水平和需求,制定合适的学习计划,逐步提高COCA等级词汇量。
2.使用教材和词汇书:选用适合自己的教材和词汇书进行学习,如《新概念英语》、《英语词汇的奥秘》等。
3.多读多写:通过阅读书籍、文章、新闻等,积累COCA等级词汇,并尝试在写作中运用。
COCA 语料库界面查询输入说明(修订)

1. COCA界面的字符串查询(WORD(S))处输入词示例内容的说明
输入词示例
作用
说明与技巧
Jumbo或
soft landing
查具体的词或短语
也可以输入长字符串(9词以下)
borrow/lend
简单对比两个词的使用频率
SECTION 2=FIC
查smart的同义词在报纸和小说中的使用情况
查beautiful的同义词与flower的同义词搭配的情况
small
little
[nn*]
0/3各
RELEVANCE
查small和little后面3个词内的名词使用对比情况
ground.[n*]
floor.[n*]
[j*]
3/0
RELEVANCE
各查ground和floor作名词时前面3个词内的形容词使用对比情况
查is被缩写为’s情况的句式结构
’s在本语料库中可以被视为一个词单独查询,即,和前面的单词要空格且输成‘s,其它缩写形式也是用类似方法查询
it is [v*] that
或we [vv*] that
查句式结构
选择CHART显示可以看出第一个是学术结构,是口语的8.5倍;第二个结构口语中最常用
to [v*] or not to [v*]
dis* [v?d]
查第一个词以dis开头,
下一个词为过去式结构
(注意与上面的区别)
查到district had, disease was, disease had等
*ly.[j*]
查以ly结尾的形容词
仅查ly结尾的词作形容词使用情况
美国当代英语语料库(COCA)在词汇教学中的应用价值

美国当代英语语料库(COCA)在词汇教学中的应用价值张仁霞【摘要】本研究介绍了美国当代英语语料库(COCA)在英语词汇教学中的利用价值:充实单词语义,建立图式;学习单词搭配,归纳语义偏好;培养学生语体意识,学会恰当使用单词;发现单词的同义词近义词;真实语料和语境中习得词汇,培养观察归纳思维能力。
COCA对于学生进行英语词汇网络自主学习是很有价值的语料库资源和工具。
【期刊名称】齐齐哈尔大学学报(哲学社会科学版)【年(卷),期】2015(000)004【总页数】4【关键词】语料库;COCA;词汇教学□学科教学研究近年来,计算机和网络技术的迅猛发展为英语教学创造了新的条件,大大提高了英语教学的效率。
教学中引入网络语料库手段,将极大丰富英语教学的手段。
COCA—美国当代英语语料库 (Corpus of Contemporary American English) 是美国最新当代英语语料库,是当今世界上最大的英语平衡语料库。
关于其系统介绍,可以参考《美国当代英语语料库(COCA)——英语教学与研究的良好平台》[1]专业语料库需要购买昂贵的软件或者注册费用,繁忙的教学使得教师们无暇自建语料库,所以提到语料库,很多英语教师望而却步,加上多数具有“技术恐惧症”,认为语料库望尘莫及。
英语教师和学习者要观察当今美语使用变化的情况,COCA 提供了在线免费使用的良好平台。
它是由杨伯翰大学 Mark Davies 教授开发的高达 4.5 亿词汇库容的美国最新当代英语语料库,是当今世界上最大的英语平衡语料库。
其界面主要是为语言学家和语言学习者了解单词、短语以及句子结构的频率及进行相关信息比较而设计。
它具备了一个好语料库的三项最基本条件:规模、速度以及词性标注。
[2] 它收集的数据涵盖了最近22 年(1990 年到2012 年)美国的口语、小说、流行杂志、报纸和学术期刊五大类型的语料,并且每种类型基本呈均匀平衡分布。
值得一提的是,COCA 具有其它语料库不可企及的突出优势,它是一种动态的语料库资源,没有最后的版本,处于不断更新与发展中,每年约2000 万词汇,而且今后每年至少更新两次。
coca等级词汇

coca等级词汇【原创实用版】目录1.引言:介绍 COCA 词汇等级2.COCA 词汇等级的定义与划分3.COCA 词汇等级的应用领域4.COCA 词汇等级对于英语学习的重要性5.结论:总结 COCA 词汇等级的价值和意义正文1.引言COCA(Corpus of Contemporary American English)是美国当代英语的一个大规模语料库,它包含了众多英语词汇和短语。
在 COCA 中,词汇被分为五个等级,分别为高频词汇、中频词汇、低频词汇、罕见词汇和极罕见词汇。
这些等级对于英语学习者来说具有重要的参考价值。
2.COCA 词汇等级的定义与划分(1)高频词汇:在 COCA 语料库中出现频率最高的词汇,如“the”、“is”、“and”等。
这些词汇是英语基础中的基础,掌握这些词汇有助于提高阅读和写作效率。
(2)中频词汇:在 COCA 语料库中出现频率较高的词汇,如“education”、“technology”等。
这些词汇扩大了英语学习者的词汇量,有助于提高阅读理解的能力。
(3)低频词汇:在 COCA 语料库中出现频率适中的词汇,如“empanada”、“antics”等。
这些词汇在日常交流中不常用,但在特定场景下会出现,掌握这些词汇有助于提高英语表达的准确性。
(4)罕见词汇:在 COCA 语料库中出现频率较低的词汇,如“plethora”、“ephemeral”等。
这些词汇在日常交流中很少出现,但在文学作品或专业领域中会有所涉及,掌握这些词汇有助于提高英语阅读和写作的深度。
(5)极罕见词汇:在 COCA 语料库中出现频率极低的词汇,如“supercalifragilisticexpialidocious”等。
这些词汇在英语学习中几乎不会用到,但对于语言研究和词汇爱好者来说具有一定的价值。
3.COCA 词汇等级的应用领域COCA 词汇等级在英语教学、研究、翻译等领域都有广泛的应用。
英语学习者可以根据这些等级有针对性地进行学习和记忆,提高自己的英语水平。
美国当代英语语料库(COCA)使用介绍要点

COCA语料库简介
COCA简介
– COCA美国当代英语语料库涵盖美国这一时期 的口语(spoken)、小说(fiction)、流行杂志(pop magzine)、报纸(newspaper)和学术期刊 (academic)五大类型的语料库,并且在这五个类 型方面基本呈均匀平衡分布。
– 网址:/coca
• 例1. 输入单词“mysterious” (图2.1.1-1):得 到相关结果(图2.1.1-2):在各子库中的频率,每 百万词使用的频率。
• 若对图2中的相应条块进行点击,那么就可以看到 KWIC,如图2.1.1-3 (以点Fiction的条块为例):
图2.1.1-1
图2.1.1-2
使用CHART显示
POS LIST
det.GEN 类指限定词 det.POS 物主限定词 num.CARD 基数词 num.ORD 序数词 conj.CRD 并列连词 conj.SUB 从属连词 Interj. 叹词 PUNC 标点
词性列表的使用
• 1)查询多义词特定的词性 • 2)某个词前或者后面特定词性的若干搭配
COCA界面简介
• 语料库分类区(五大类型语料库共包括42个 子语料库)。
COCA界面简介
• 语料库分类区(五大类型语料库共包括42个 子语料库)。
二、COCA主要搜索功能
• 2.1 搜索words、phrases、lemmas(单 词的所有形式)、wildcards(通配符)和 其他更加复杂的字词。
POS LIST
pron.INDF 不定代词 pron.PERS 人称代词 pron.WH 疑问代词 pron.REFL 反身代词 adj.CMP 形容词比较级 (comparative) adj.SPRL 形容词最高级 (superlative) adv.particle 副词小品词 adv.WH 疑问副词
基于美国当代英语语料库的外研版教材词汇分析

基于美国当代英语语料库的外研版教材词汇分析何欢(华东师范大学教师教育学院,上海200062)摘要:词汇是外语学习的基础,尤其是高频词的学习会对外语学习者产生重要影响,而学生学习的词汇主要来源于教材。
文章运用基于语料库的定量分析的方法,借助美国当代英语语料库COCA5000高频词,描述分析外研版初高中系列教材词汇,发现教材中的词汇在COCA5000高频词中所占比例达到80%以上,词汇选择比较合理,但每本教材中仍有相当一部分词汇属于低频词,建议教师应合理使用该教材进行词汇教学,同时教材编者应充分利用语料库这一资源,在教材中呈现更全面、更具代表性的词汇。
关键词:语料库;高频词;教材词汇分析一、引言英国著名语言学家Wilkins说过:没有语法,人们不能表达很多东西;而没有词汇,人们则无法表达任何东西(Wilkins,1972,转引自李健民,2012)。
《普通高中英语课程标准(2017年版)》(教育部,2018)提出了英语学科的四大核心素养,其中英语语言能力构成英语学科核心素养的基本要素。
词汇作为英语语言能力的重要组成部分,是最小的可独立运用的语言单位,也是外语学习的基础,对语篇的理解、听、说、读、写、看各项技能的提升都有着不可忽视的作用。
在词汇学习中,高频词的学习又是最为基础和重要的部分。
高频词在文本中出现频率较高,对语篇覆盖率较大。
在BROWN语料库中,频率最高的1000个词,对普通英语的覆盖率为72%,2000个高频词的覆盖率为79.7%(桂诗春,2006)。
可见高频词的学习会为外语学习者打下良好基础。
外语学习者学习的词汇主要来源于教材,教材作为教师主要的教学材料和学生的学习资源,其词汇的选择和呈现对教师和学生的词汇教学会产生重要影响。
因此,评估外语教材中的词汇具有重要意义。
本文借助美国当代英语语料库COCA5000高频词(以下简称为COCA5000高频词),描述和分析外研版初高中系列教材中高频词汇的比例和变化趋势,以期能为新课改背景下教师词汇教学和教材编写提供参考意见。
基于COCA语料库英语同义词辨析——以Compulsory和Mandatory为例

- 217 -校园英语 / 语言文化研究基于COCA语料库英语同义词辨析——以Compulsory和Mandatory为例成都理工大学外国语学院/郭齐园 金铠【摘要】本文基于语料库的研究方法,以compulsory和mandatory为例,利用美国当代英语语料库COCA从不同语域的词频分布、搭配特征、句法结构等方面,结合定性和定量的方法,辨析英语同义词。
本研究对英语教学和实践提供了一种有效的手段和视角,以语料库为基础的英语同义词教学有一定的借鉴意义。
【关键词】COCA语料库 同义词 搭配特征 类连接统计数据表明,同义词占到所有英语单词的60%以上。
传统方法是词典学习,老师自身经验,学生内化。
此类学习方法宏观,不具体。
而COCA 语料库在辨析同义词,微观,具体。
一、语料库语言学背景20世纪中后期,语料库语言学对于辨析同义词的研究成为一种新的方法,具有语言真实,数据量大,检索快速。
在语言学中,语料库即大量文本的集合,库中的文本(称为语 料),通常经过整理,具有既定的格式与标记,特指计算机存储的数字化语料库。
语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源。
应用于词典编纂、语言教学、传统语言研究、自然语言处理中基于统计或实例的研究等方面。
语料库可分成四种类型:(1)异质的:没有特定的语料收集原则,广泛收集并原样存储各种语料;(2)同质的:只收集同一类内容的语料;(3)系统的:根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实;(4)专用的:只收集用于某一特定用途的语料。
COCA 是当前重要的语料库工具之一,全称为美国当代英语语料库,可免费在线使用且分布均匀,其涵盖SPOK ,FIC ,MAG ,NEWS ,ACAD 五个部分。
二、研究对象及工具1. compulsory 和mandatory 在字典中的定义。
《牛津高阶英汉双解词典,(7th Edition)》中,compulsory 解释为:that must be done because of a law or a rule (因法律或规则 而)必须做的,强制的,强迫的;短语和例句有:Compulsory education / schooling 义务教育、Compulsory redundancies 强制裁员等。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
在美国当代英语语料库(COCA)如何查词.doc 在美国当代英语语料库(COCA)如何查词摘要:美国当代英语语料库(Corpus of Contemporary American English,COCA)由美国Brigham Young University 的Mark Davies教授开发,目前单词容量在4.5亿,是美国当前最新的当代英语语料库,也是当今世界上最大的英语平衡语料库。
该语料库的语料来自1990-2012年,每年更新,检索功能强大,是最佳的英语学习助手。
本文以sorry为例介绍了如何在美国当代英语语料库中查询单词及对单词sorry的检查与研究结果。
关键词:美国当代英语语料库,平衡语料库,sorryAbstract: The Corpus of Contemporary American English (COCA) is the largest freely-available corpus of English,and the only large and balanced corpus of American English.The corpus was created by Mark avies of Brigham Young University,and it is used by tens of thousands of sers every month (linguists,teachers,translators,and other searchers).COCA is also related to other large corpora that we have created.The corpus contains more than 450 million words of text and isqually divided among spoken,fiction,popular magazines,newspapers,and academic texts.It includes 20 million words each year from 1990-2012.Key words: the Corpus of Contemporary American English,parallel corpus,sorry中图分类号:H319.3文献标识码:A文章编号:1006-026X(2013)12-0000-02一、引论美国当代英语语料库(Corpus of Contemporary American English,COCA)由美国Brigham Young University 的Mark Davies教授开发,目前单词容量在4.5亿以上,是美国当前最新的当代英语语料库,也是当今世界上最大的英语平衡语料库,且与其他所建语料库相连。
访问者可利用COCA查询单词,短语,通配符,词形,词性,或任何以上的结合。
帮助访问者对比词在不同类型,如口语,小说,杂志或报纸中的用法,或对比从1990年至今的该词的用法。
每个月COCA的访问量都在好几万,其中有语言学家,教师,翻译,也有其他研究人员和英语学习者。
与其他语料库需要注册或付费使用所不同的是,它是免费在线供大家使用,且每年更新,最新更新于2012年夏季。
涵盖了1990-2012年的口语、小说、流行杂志报纸和学术期刊五大类型的语料,是观察及研究美国当代英语使用变化的一个良好平台。
二、关于COCA的界面及使用COCA的查询界面由四部分组成:基本显示区,显示语料库名称和语料库容量;显示及查询条件界定区,查询结果数据显示区和例句显示区。
下面以sorry为例,对其使用做详细阐述。
使用COCA查单词:直接在显示及查询条件界定区的查询栏中输入所要查询的单词sorry,其他项忽略,点击search即在查询结果数据显示区得到下面(图表一)的查询结果:此表表明COCA中所有关于sorry的词条总数为40036条。
再在上图的sorry上点击一下,将在例句显示区得出100个有关sorry的例句,且显示例句的来源,如是选自杂志还是报纸,名称(即杂志或报纸的名字)和年份(语料库默认从当前向1990年排列),每页例句显示为100条。
但这样笼统的查询并不能具体直观的显示sorry的用法。
在其他项忽略的情况下,将显示方式(display)选为图表显示(chart),则得到下图的显示结果:(图表二)此图左半部分表明sorry一词在COCA五大类型语料中的使用频率,在小说中的使用频率最高,其次为口语中,在杂志、报纸和学术刊物中甚少使用;右半部分是从1990至2012年每五年的使用情况,图中显示sorry的使用变化差别不大。
分别点击各个单项可在例句显示区得到五大语料类型下的sorry的例句,其中普遍看到的有以下四种情况:1.sorry与系动词构成 be sorry的句子单独使用;2.sorry单独成句;3.sorry后搭配to;4.sorry后接for;以上结果只是用户的推断,对sorry前后的具体搭配并不清楚。
如果想要弄清sorry经常前后与何种词搭配频率高,则可以在显示方式(display)中选择KWIC(前后文关键字)。
在其他项忽略的情况下,系统的sorting and limits 项将自动变更为display/sort项,且display默认为按字母排列(Alphabetical),排序(sort)项默认为L。
-。
R,-表示关键字,L表示排序关键字左边三个词,R表示排序关键字右边三个词。
点击查询,则得出的结果与上面用户的推断有很大的出入:例句显示区中的例句中关键字sorry左右三个词都出现了颜色标示,通过颜色标示可清楚的看出与sorry 经常构成的搭配的单词中,按频率由高往低排列: 1.sorry与系动词构成be sorry 的句子;2.sorry后接for;3.sorry后接to;4.sorry state of;5.sorry that…;由上图看出该词在学术期刊上的使用频率最低,所以应尽可能避免在学术期刊中该词的使用。
在显示及查询条件界定区中的字符串查询区(search string)有最后称之为random的一项,在语料库中这是用来随机查询浏览新词的。
在显示及查询条件界定区中的语料库分类区(sections),若点击选择则可看到所查单词在五大语料中各分区的使用频率及年代排列;若默认则显示的是所查单词在语料库中总的使用情况。
Section中有两个内容相同的部分,但其功能是不一样的。
此区可对所查询的字符串限定语料类型和时段,并可以明确到查询某一个子语料库,时段也可以查询任何一年的某个字词的使用情况。
可以在点选了一个语料库后按住CTRL键继续选择多个语料库或时段,另外在CHART显示结果后,可在查询结果显示区点击SEE ALL SECTIONS也可以看到所查询的字符串在每个子语料库和每年中的细节信息。
选择显示方式(display)为图表显示(CHART),Section 1选择口语(Spoken),Section 2也选择相应项则sorting and limits 项自动变更为按相关排列(Relevance),最低出现频率(minimum)为10.得到下图结果(图表三): 从此图中可以看出,sorry的词频为12260,每百万词频是128.27,右半部分是在每个年代分布中的使用情况;Sorting and Limits这一项中,可选择查询结果的排序方式,系统默认为按字符串总词频排列,即最频繁使用的最先显示。
也可以选择按相关度。
若点击查询结果排列方式区(Click to see options),可看到Group by(按词形排列)、Display(显示方式)、Save Lists(存储结果)和#HITS(最多显示条数)。
其中Group by中有五小项:LEMMAS、WORDS、NONE、BOTH WORDS和BOTH LEMMAS,默认为WORDS.由于本文查询的是单个词sorry,且sorry只有一个词性,因此这一项并没有起作用。
BOTH WORDS和BOTH LEMMAS 可以查询到词的多重搭配,在比较同义词时效果明显。
Display(显示方式)包括以下四项:RAW FREQ(字符串总词频)、PER/ML(每百万词频)、RAW FREQ+(总词频和每百万词频)和PER/ML+(每百万词频和总词频)。
表示查询结果在查询结果数据显示区的显示方式,图表二中的上两项分别就是总词频和每百万词频的查询结果,且五个语料类型的查询结果是分开显示的。
用存储结果区(SAVE LISTS)可以将查询结果存入自己的列表,做多显示条数(#HITS)的默认值是100,可修改的最大值为1000.若想知道sorry这个形容词都与那些名词搭配时,在查询栏中输入sorry.[n*],collates中输入[n*],默认数字选择5,则得到下图(图表四): 前五项即为与本词经常搭配的名词词语。
三、结论通过以上查询和说明,表明美国当代英语语料库(COCA)词量丰富。
功能强大,对于英语语言学习者是不可多得的研究和学习助手。
它不仅可以做简单的单词查询,还可以对关键字进行查询,并对各年代段的单词使用频率做直观的图表显示。
参考文献:[1]Davies,Mark.The Advantage of using relational databases forlarge corpora: speed,advanced queries,and unlimitedannotation.International Journal of Corpus Linguistics,2005,10[2]Davies,Mark.Semantically-based queries with a jointBNC/WordNet base.In Corpus Linguistics Twenty-five years on,ed Roberta Facchinetti Amsterdam: Rodopi,2007。