可以免费使用的英语语料库资源
语料库

到目前为止, 国际上学习者语料库多数都是用于研 究二语习得,并且以研究英语的习得为主,除了 ICLE和NICE两个英语学习者语料库之外,建成的 其他英语学习者书面语法料库还包括: 匈牙利英语 学习者语料库(JPU )、波兰英语学习者语料库 (PELCRA )、瑞典英语学习者语料库(USE)、日本 英语学习者语料库(JEFLL )、美国英语学习者语料 库(MELD) 等。 国外学习者口语语料库目前已建成的有2 个, 它们是 国际英语中介语口语语料库(LINSEI) 和日本标准化 英语口试语料库(SSIC)。
学习者语料库的发展
最早的学习者语料库是20 世纪80 年代末由Longman 出版集 团建立的朗曼学习者语料库(Longman L earners’ Corpus) , 约1000 万词的规模。由剑桥大学出版社建立的剑桥学习者 语料库(Cambridge Learners Corpus) , 词汇规模达1500万。 到目前为止,在国际上得到公认的最重要的学习者语料库是 ICLE( International Corpus of L earner English) , 即国际英 语学习者语料库, 1990 年启动建立, 项目负责人为比利时 Louvain - L a - euve 大学的Sylviane Granger 教授。它包括 母语背景不同的英语学习者书面语200 多万词, 并按照第一 语言(母语)背景分为14 个子库, 目前子库还在不断增加。为 了便于对比研究, 它还建有一个由英语为母语的高中生和大 学生所写的议论文文体语料库, 词数为30 万(Granger, 1998; 2002)。
NICE-NNS
1)English study history 2)Language other than English 3) Length of studying other language 4) Qualifications: TOEIC, TOEFL, STEP 5) Experience going abroad 6) Daily amount of English reading, writing, listening, speaking 7) Essay writing (in Japanese or English) proficiency self-estimation Japanese essay
语料库

3 语料库的设计
语料库三方面 A. 语料本身
属性 规模 领域
体裁 时代 语体 语种
语言层次
值
百万词级 | 千万词级 | 亿万词级 | … 政治 | 经济 | 体育 | 心理学 | …
文学 | 应用文 | 新闻 | …
共时 | 历时 书面语 | 口语 单语 | 双语 | 多语 双语平行语料库 | 双语比较语料库 语音(音节,韵律) | 语法(词,句,…)
11
第二代语料库
建于1980年代,由英国Birmingham大学 与Collins出版社合作完成,规模达2000 万词次,基于该语料库出版的Collins Cobuild词典(1987)受到了广泛的好评
COBUILD语料库 Longman语料库
千万词级 词典编纂 - 应用导向
建于1980年代,包括三个语料库: LLELC语料库(Longman/Lancaster英语语料库) LSC语料库(Longman口语语料库) LCLE(Longman英语学习语料库) 目标是编撰英语学习词典,为外国人学习英语服 务,词典规模达5000万词次
7
London-Lund英语口语语料库部分标记
标记
含义
#
语调群的结束 (end of tone group)
^
语音开始 (onset)
/
上升型核心语调 (rising nuclear tone)
\
下降型核心语调 (falling nuclear tone)
^
先升后降型核心语调 (rise-fall nuclear tone)
检索工具 | 人机界面 | 数据接口 | … 16
语料的选取
精品原则 有影响力原则 随机挑选原则 高流通度原则 典型性原则 易于获得原则 具有统计样本意义原则 符合语言规范原则
英汉语料库汇总

1.英语学习者语料库(书面语及口语)中国学习者语料库 CLEC(100万)广外、上海交大2.大学英语学习者口语语料库 COLSEC (5万) 上海交大3.香港科技大学学习者语料库 HKUST Learner Corpus 香港科技大学4.中国英语专业语料库 CEME (148万) 南京大学5.中国英语学习者口语语料库 SECCL (100万) 南京大学6.国际外语学习者英语口语语料库中国部分 LINSEI-China (10万) 华南师大7.硕士写作语料库 MWC (12万) 华中科技大学9.平行语料库汉英平行语料库 PCCE 北外10.南大-国关平行语料库南京大学11.英汉文学作品语料库;外研社12.冯友兰《中国哲学史》汉英对照语料库13.李约瑟(Joself Needham)《中国科学技术史》英汉对照语料库14.计算机专业的双语语料库;国家语言文字工作委员会语言文字应用研究所15.柏拉图(Plato)哲学名著《理想国》的双语语料库16.英汉双语语料库(15万对) 中科院软件所17.英汉双语语料库:LDC香港新闻英汉双语对齐语料36294段以及香港法律英汉双语对齐语料31万句子对中国科学院自动化研究所18.英汉双语语料库(100万),网上英汉语段电子词典及网上电子英汉搭配词典(1000万) 东北大学19.英汉双语语料库(40-50万句子对) 哈尔滨工业大学20.双语语料库(5万多对) 北京大学计算语言学研究所21.对比语料库 LIVAC(Linguistic variety in Chinese communities) 香港城市理工大学22.平衡语料库(Sinica Corpus);树图语料库(Sinica Treebank) 台湾23.特殊英语语料库中国英语(China English)语料库河南师范大学24.军事英语语料库(Corpus of Military Texts) 解放军外语学院25.新视野大学英语教材语料库上海交通大学26.汉语语料库汉语现代文学作品语料库(1979年,527万字) 武汉大学27.现代汉语语料库(1983年,2000万字) 北京航空航天大学28.中学语文教材语料库(1983年,106万8000字) 北京师范大学29.现代汉语词频统计语料库(1983年,182万字) 北京语言学院30.国家级大型汉语均衡语料库(2000万字) 国家语言文字工作委员会31.《人民日报》语料库(2700万字) 北京大学计算机语言学研究所32.大型中文语料库(5亿字,10分库) 北京语言文化大学33.现代汉语语料库(1亿字) 清华大学34.汉语新闻语料库;(1988年,250万字) 山西大学35.标准语料库(2000年,70万字)36.生语料库(3000万字);《作家文摘》的标注语料库(100万字) 上海师范大学37.现代自然口语语料库中国社会科学院语言所38.旅游咨询口语对话语料库和旅馆预定口语对话语料库中国科学院自动化所39.北京大学汉语语言学研究中心的三个语料库现代汉语语料库/yuliao.asp?item=1古代汉语语料库/yuliao.asp?item=2汉英双语语料库/yuliao.asp?item=3/printthread.php?t=2742汉语语料库使用权限国家语委语料库(http://219.238.40.213:8080/CpsQrySv.srf)”虽说是通用型平衡语料库,但不能完全免费使用;北京语言大学的汉语语料库(http://202.112.195.8)语料产出时间较早,且不能完全免费使用;北京大学汉语语言学研究中心语料库(现代汉语子库)”(/YuLiao_Contents.Asp)规模最大,逾亿字,但取样极不均衡,多半为文学作品;台湾“中央研究院”Sinica Corpus也是可免费使用的平衡汉语语料库。
中国学生英语口笔语语料库2.0

我国学生英语口笔语语料库2.0在现代社会中,英语的重要性日益凸显。
作为全球通用的语言,掌握一定程度的英语能力不仅有利于个人的职业发展,还能丰富生活,促进国际交流与合作。
然而,对于我国学生来说,英语学习一直是一个重要的课题。
建立一份高质量的我国学生英语口笔语语料库2.0显得尤为重要。
让我们从中小学英语教育的现状说起。
随着我国改革开放的不断深入,英语作为一门重要的外语,也逐渐成为学校教育的一部分。
然而,传统的英语教学往往偏重于语法、词汇的机械记忆,而忽视了学生口语和写作能力的培养。
这导致了许多学生在英语交流和表达方面存在较大的障碍。
我国学生英语口笔语语料库2.0的建立,对于帮助学生提高口语和写作能力至关重要。
接下来,让我们深入探讨我国学生英语口笔语语料库2.0的意义。
通过收集学生的口语和写作作品,可以更好地了解学生在英语表达方面存在的问题和需求。
语料库的建立可以为教师提供更丰富的教学资源,帮助他们更好地指导学生,针对性地做出教学安排。
学生也可以通过语料库的参考,丰富自己的词汇量和表达能力,从而提高英语综合应用能力。
我国学生英语口笔语语料库2.0的建立还可以为学术研究提供重要的数据支持。
通过对学生口笔语表达的统计和分析,可以揭示学生在英语表达中常犯的错误、难点和特点,为相关学科研究提供重要的参考依据。
我国学生英语口笔语语料库2.0的建立对于提高学生的英语水平、改善英语教学质量、促进学术研究都具有重要意义。
希望有关部门能够高度重视这一问题,积极推动语料库的建设和使用,为我国学生的英语学习提供更好的支持和保障。
随着我国国际地位的提升,越来越多的人开始意识到英语在国际交流中的重要性。
作为一种全球通用的语言,英语不仅可以帮助人们更好地了解世界文化,还可以拓宽个人的职业发展渠道。
我国学生学习英语的重要性不言而喻。
然而,英语学习并非易事。
尤其是对于我国学生来说,英语口语和写作能力的不足一直是一个难题。
传统的英语教学模式注重了语法和词汇的灌输,对于学生的口语和写作能力的培养却偏少。
中国学生万篇英语作文语料库网址

中国学生万篇英语作文语料库网址The Chinese Student English Essay Corpus (CSEEC) is a vast collection of over ten thousand English essays written by Chinese students from various educational levels. This corpus serves as a valuable resource for researchers, educators, and students interested in understanding the writing patterns, errors, and development of English writing skills among Chinese learners.The CSEEC can be accessed online through its dedicated website, which provides a user-friendly interface for searching, browsing, and analyzing the essays contained in the corpus. Users can search for specific topics, key words, or types of essays to explore the diverse range of writing styles and proficiency levels among Chinese students.One of the key benefits of the CSEEC is its potential for facilitating research in the field of second language acquisition. By analyzing the essays in the corpus, researchers can gain insights into the common errors, strategies, and development patterns of Chinese learners of English. This can inform the design of more effective teaching materials, methods, and assessments for English language learners in China.Educators can also benefit from the CSEEC by using it as a teaching resource in the classroom. By analyzing and discussing essays written by Chinese students, teachers can help students improve their writing skills and language proficiency. This can also help students develop a better understanding of cultural differences in writing styles and conventions between Chinese and English academic writing.For students, the CSEEC provides a valuable opportunity to compare their own writing with that of their peers and gain insights into common errors and strategies for improvement. By reading and analyzing essays in the corpus, students can identify areas for improvement in their own writing and learn from the successes and challenges of their peers.In conclusion, the Chinese Student English Essay Corpus is a valuable resource for researchers, educators, and students interested in understanding and improving the English writing skills of Chinese learners. By analyzing the essays in the corpus, users can gain valuable insights into writing patterns, errors, and development strategies among Chinese students, ultimately leading to improvements in English language teaching and learning in China.。
高中英语读后续写语料库

高中英语读后续写语料库③Her face was twisted with fury.她的脸因愤怒而扭曲。
④The room was filled with n and anger.房间里充满了紧张和愤怒。
⑤His voice was shaking with anger.他的声音因愤怒而颤抖。
⑥She clenched her fists in anger.她愤怒地握紧了拳头。
⑦I could feel the anger boiling inside me.我感觉到愤怒在我内心沸腾。
⑧He was seething with anger.他因愤怒而满腔怒火。
⑨Her words were dripping with anger.她的话语中充满了愤怒。
⑩I was consumed by anger.我被愤怒所吞噬。
⑪His face was red with anger.他因愤怒而脸红。
⑫The anger in the room was palpable.房间里的愤怒是可以感觉到的。
⑬She was shaking with anger.她因愤怒而颤抖着。
⑭I could see the anger in her eyes.我能从她的眼神中看出愤怒。
⑮His anger was like a storm brewing inside him.他的愤怒像是一场正在酝酿的暴风雨。
⑯She was seething with righteous anger.她因义愤填膺而满腔怒火。
⑰His anger was so intense that it was almost palpable.他的愤怒如此强烈,几乎可以感受到。
⑱The room was filled with the sound of angry voices.房间里充满了愤怒的声音。
3.悲伤烦恼He stood in silence。
剑桥和诺丁汉商务英语语料库

剑桥和诺丁汉商务英语语料库
剑桥商务英语语料库(Cambridge Business English Corpus)是
由剑桥大学出版社和剑桥大学语言中心合作建立的一个商务英语语料库。
该语料库收集了各个领域的商务英语文本,包括商务报告、商务会议记录、商务合同、商务信函等。
语料库中的文本涵盖了各个专业领域的商务英语,如市场营销、国际贸易、金融、人力资源等。
剑桥商务英语语料库不仅包含了原始文本,还包括了词性标注、句法分析和语义角色标注等语言信息。
这些语言信息有助于研究商务英语的词汇、句法和语用等方面的特点。
诺丁汉商务英语语料库(Nottingham Business English Corpus)是由英国诺丁汉大学的商务英语研究中心建立的一个商务英语语料库。
该语料库也收集了各种商务英语文本,主要用于研究商务英语的语言使用和语篇结构。
诺丁汉商务英语语料库的特点在于它采用了专门开发的语料库软件,可以按照一定的标准对语料库中的文本进行搜索和分析。
这使得研究人员可以方便地根据自己的研究目的来使用该语料库。
这两个商务英语语料库都为商务英语研究提供了宝贵的资源,研究人员可以通过对语料库中的文本进行分析,了解商务英语的实际应用情况,从而提高商务英语的教学和学习效果。
美国当代英语语料库

美国当代英语语料库
美国当代英语语料库是一个包含大量英语文本的数据库,用于研究和
分析美国当代英语的语言使用。
该语料库包括各种类型的文本,如新闻报道、小说、学术论文、广告、社交媒体帖子等。
这些文本可以用于研究语
言变化、语言习惯、语言使用情况等方面。
美国当代英语语料库的建立是
为了帮助语言学家、翻译、教师和其他语言专业人士更好地了解和使用英语。
该语料库可以用于开发语言学习软件、自然语言处理系统、机器翻译
系统等。
此外,该语料库还可以用于研究社会和文化问题,如性别、种族、阶级等方面的语言使用情况。
美国当代英语语料库的建立需要大量的时间
和资源。
语料库的建立通常涉及到文本收集、文本清理、文本标注等多个
步骤。
此外,语料库的维护和更新也需要不断的努力和投入。
因此,美国
当代英语语料库是一个非常宝贵的资源,对于研究和教学都有着重要的意义。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
可以免费使用的大型英语语料库资源
常用语料库资源链接汇集(语料天涯)
http://202.204.128.82/sweccl/Corpus/
/netprints/Corporalink/Corporalink.htm
1. BNC-World Simple Search ☆☆☆
/lookup.html
But no more than 50 hits will be displayed, with a fixed amount of context.
2. Brown, LOB, BNC sampler ☆☆☆
Here are a few links for searching corpora online, including monolingual corpora like Brown, LOB, and BNC sampler and also some parallel English-Chinese corpora. English: /concordance/WWWConcappE.htm
English: http://www.lextutor.ca/concordancers/concord_e.html
Parallel: /concordance/paralleltexts/
3. Collins Cobuild Corpus Concordance Sampler☆☆☆☆☆
/Corpus/CorpusSearch.aspx
The Collins WordbanksOnline English corpus is composed of 56 million words of contemporary written and spoken text.
4. New BNC interface - VIEW: ☆☆☆☆☆
/
5. Samples (about 2 million words) from the British National Corpus: both written and spoken ☆☆☆
The Brown Corpus and many others - native, learner...
Go to http://www.lextutor.ca/concordancers/concord_e.html
6. MICASE ☆☆☆☆
/m/micase/
There are currently 152 transcripts (totaling 1,848,364 words) available at the site.
7. CLEC online concordancing ☆☆☆☆
/corpus/EngSearchEngine.aspx
CLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词,并对言语失误进行标注。
For an introduction of the corpus, its error tagset and some statistics, see
/baseinfo/achievement/Achievement1.htm
8. Business Letter Corpus Online KWIC Concordancer ☆☆☆
1 MILLION WORDS BUSINESS LETTER CORPUS (US & UK) AND OTHER CORPORA seek.co.jp/
9. Virtual Language Centre ☆☆☆
/concordance
The Starr Report, Brown, LOB, The Times (Jan, Feb, Mar) 3 files, SCMP, Business & Economy, Computing etc
10. Time Magazine archive ☆☆☆, 1923-2007 (100+ million words)
/time/ and more at /
11. Just the word
http://193.133.140.102/JustTheWord/
书店可以买到的语料库相关书籍
Austermühl, F. 2001. Electronic Tools for Translators《译者的电子工具》. Manchester: St.
Jerome Publishing. (外研社引进)
Biber, Douglas, Stig Johansson, Geoffrey Leech, Susan Conrad & Edward Finegan. 1999.
Longman Grammar of Spoken and Written English. Longman Publications Group.
(外研社引进)
Biber, Douglas, Susan Conrad & Randi Reppen. 1998. Corpus Linguistics. Cambridge: Cambridge University Press. (外研社引进)
Granger, S. et al. (eds.). 2003. Corpus-based Approaches to Contrastive Linguistics and Translation Studies《基于语料库的语言对比和翻译研究》. Amsterdam: Rodopi. (外研社引进)
Gries, Stefan Thomas. 2004. Multifactorial Analysis in Corpus Linguistics: A Study of Particle Placement. Beijing: Peking University Press. (北大出版社引进)Hunston, Susan. 2002. Corpora in Applied Linguistics. Cambridge: Cambridge. University Press. (世界图书出版社引进)
Kennedy, Graeme. 1998. An Introduction to Corpus Linguistics. London: Longman. (外研社引进)
Nattinger, James R. & Jeanette S. DeCarrico. 1992. Lexical Phrases and Language Teaching. Oxford: Oxford University Press. (外教社引进)
Sinclair, John. 1991. Corpus, Concordance, Collocation. Oxford: Oxford University Press.
(外教社引进)
Thomas, Jenny & Mick Short. 1996. Using Corpora for Language Education. London: Pearson Education. (外研社引进)
Zanettin, F., et al. (eds.). 2003. Corpora in Translator Education《语料库与译者培养》.
Manchester: St. Jerome Publishing. (外研社引进)
蔡金亭,2003,《语言因素对英语过渡中使用——一般过去时的影响》。
北京:外语教学与研究出版社。
何安平(主编),2004,《语料库在外语教育中的应用:理论与实践》。
广州:广东高等教育出版社出版。
何安平,2004,《语料库语言学与英语教学》。
北京:外语教学与研究出版社。
华南师范大学外国语学院编,2005,《语料库语言学的研究与应用》。
长春:东北师范大学出版社。
黄昌宁,李涓子著,2002,《语料库语言学》。
北京:商务印书馆。
濮建忠,2003,《学习者动词行为:类联接、搭配及词块》。
开封:河南大学出版社。
王建新,2005,《计算机语料库的建设与应用》。
北京:清华大学出版社。
王克非等,2004,《双语对应语料库研制与应用》。
北京:外语教学与研究出版社。
王立非、梁茂成等,2007,《计算机辅助第二语言研究方法与实用》。
北京:外语教学与研究出版社。
卫乃兴,2002,《词语搭配的界定与研究体系》。
上海:上海交通大学出版社。
卫乃兴,李文中,濮建忠等,2005,《语料库应用研究》。
上海:上海外语教育出版社。
文秋芳、王立非、梁茂成,2005,《中国学生英语口笔语语料库》。
北京:外语教学与研究出版社。
【含SWECCL语料库光盘】
杨达复,2000,《英语错误型式分析》。
西安:陕西人民出版社。
杨惠中、桂诗春,2003,《中国学习者英语语料库》。
上海:上海外语教育出版社。
【含CLEC 语料库光盘】
杨惠中、卫乃兴,2005,《中国学习者英语口语语料库建设与研究》。
上海:上海外语教育出版社。
【含COLSEC语料库光盘】
杨惠中等(主编),2005,《基于CLEC语料库的中国学习者英语分析》。
上海:上海外语教育出版社。
杨惠中主编,2002,《语料库语言学导论》。
上海:上海外语教育出版社。
2013年7月26日星期五。