基于语料库的中国英语学习者knowledge搭配研究

基于语料库的中国英语学习者knowledge搭配研究
基于语料库的中国英语学习者knowledge搭配研究

基于语料库的中国英语学习者knowledge搭配研究

【摘要】本文运用语料库方法对中国英语学习者语料库(CLEC)中出现的knowledge一词的搭配进行了研究,对比分析了中国英语学习者与本族语者在使用knowledge一词方面的特点,以及中国不同水平学习者之间的特点。研究结果表明,中国英语学习者在knowledge一词的使用方面存在过度使用搭配词等现象,并以此揭示其搭配规律,对英语词汇教学、翻译教学提供一个全新的研究途径。

【关键词】语料库;词语搭配;CLEC;BNC

0 引言

自从Firth于半个世纪前提出至今,语言学者关于词语搭配的研究一直在不断地发展、深入并取得了显著的成就。研究者试图从不同的角度、使用各不相同的研究方法去探讨和界定词语搭配。学者们使用的术语也不统一。过去的词语搭配研究仅限于学者的自觉,难免带有个人的偏好,具有一定的局限性。而语料库语言学的兴起为词语搭配的研究带来了全新的理念和研究方法。搭配不再是语言学家头脑里的直觉存在,它是成百上千万词容的语料库连续文本(running text )中的语言使用实体,是数据处理的结果显示。1961年,Sinclair开始了第一个基于语料库证据的词语搭配研究项目。此后,基于语料库的搭配研究在语言学界展开。目前,语料库语言学已形成一套研究词语搭配的方法和手段。

1 词语搭配的概念

根据Firth(1957年)对collocation的界定:“You shall know a word by the company it keeps” (“由词之结伴可知其词”)[1],词语搭配是指词与词的结伴使用这样一种语言现象。Firth关于collocation 的观点概括起来大致有四条:第一,collocation是指词与词的结伴使用;第二,collocation是一种意义方式;第三,习惯性词语搭配的各伙伴相互期待和相互预见;第四,类联接(colligation)是高于词语搭配的抽象。Susan Hunston“…here it is sufficient to note that collocation is the statistical tendency of words to co-occur.”(这足以说明词语搭配是具有统计意义的词语共现)[2]。

2 国内关于词语搭配研究的文献综述

中国期刊全文数据库的检索(CNKI)结果显示,1999-2006共发表以词语搭配为题目的论文53 篇。

卫乃兴(2002年)的《基于语料库和语料库驱动的词语搭配研究》是近年来该研究领域的代表作,在学界引起了广泛的关注,对搭配研究产生了积极的影响。该文介绍和讨论了语料库证据支持的词语搭配研究的基本方法和主要原则。作者将基本研究方法分为“基于语料库数据”和“语料库数据驱动”两类。基于数据

BCC语料库使用指南

1 、字处理(包括标点符号) [C]:错字标记,用于标示考生写的不成字的字。用[C]代表错字,在[C]前填写正确的字。 例如:地球[C](“球”是错字)、这[C]。 [B]:别字标记,用于标示把甲字写成乙字的情况。别字包括同音的、不同音而只是形似的、既不同音也不形似但成字的等等。把别字移至[B]中B的后面,并在[B]前填写正确的字。 例如:提[B题]高、考虑[B虎]。 [L]:漏字标记,用于标示作文中应有而没有的字。用[L]表示漏掉的字,并在[L]前填写所漏掉的字。 例如: 后悔[L],表示“悔”在原文中是漏掉的字。 农[L]药,表示“农”在原文中是漏掉的字。 [D]:多字标记,用于标示作文中不应出现而出现的字。把多余的字移至[D]中D的后面。 例如:我的[D的],表示括号中的“的”是多余的字(原文中写了两个“的”)。[F]:繁体字标记,用于标示繁体字。把繁体字移至[F]中F的后面,并在[F]前填写简体字。 例如:记忆[F憶]、单{F單}纯、养{F養}分{F份}。 注意: 1)繁体字标记标示的是使用正确的繁体字,如果该繁体字同时又是别字,则先标繁体字标记,再标别字标记。

例如:俭朴[F樸[B僕]]。 2)繁体字写错了,标为:后[F後[C]]。 [Y]:异体字标记,用于标示异体字。把异体字移至[Y]中Y的后面,并在[Y]前填写简体字。 例如:偏[Y徧]、沉[Y沈]。 [P]:拼音字标记,用于标示以汉语拼音代替汉字的情况。把拼音字移至[P]中P的后面,并在[P]前填写简体字。 例如:缘[Pyúan]分、保护[Phù]。 [#]:无法识别的字的标记,用于标示无法识别的字。每个不可识别的字用一个[#]表示。例如:更[#][#]保存自己的生命,…… [BC]:错误标点标记,用于标示使用错误的标点符号。把错误标点移至[BC]中BC的后面,并在[BC]前填写正确的标点符号。 例如:勤奋、[BC,]刻苦的精神。 [BQ]:空缺标点标记,用于标示应用标点符号而未用的情况。把[BQ]插入空缺标点之处,并在[BQ]中BQ的后面填写所缺的标点符号。 例如:周围的环境很安静[BQ,]生活也非常平凡。 [BD]:多余标点标记,用于标示不应用标点符号而用了的情况。把多余的标点移至[BD]中BD的后面。 例如:我家周围的[BD,]美丽风景。 2、词处理:(包括成语) {CC}:错词标记,用于标示错误的词和成语。包括4种情况: 1)把词的构成成分写错顺序的。

小学英语教育基础英语翻译答案.doc

Unit 15 Hong Kong 1.当游客们看到溪水从山崖上奔腾而下,他们激动地欢呼起来。(cascade) The tourists cheered with excitement when they saw water cascading down the mountainside. 2.多亏了改革政策,小镇一天比一天繁荣。(thrive) Owing to the policy of reform, the small town is thriving day by day. 3.你是否能给我把这个材料从头到尾读一?遍,强调一下要点。(highlight) Could you read through this for me and highlight the important points? 4.有时我纳闷,不知道死记硬背是否有用。(at times) At times I wonder if rote learning is worthwhile. 5.旧中国曾经盛行的迷信正在慢慢消失。(prevail) The superstitions that used to prevail in Old China are disappearing gradually. 6.由于外销的增加,公司成功地完成了销售计划。(thanks to) Thanks to the improvement / increase in export sales, the company has successfully fulfilled its marketing plan. Unit 14(289) 1.遭受水灾地区:的人民急切需要食品,衣服和药品o (be hungry for) The people in die flooded area are hungry for provisions / food, clothes and medicine. 2.他整夜看电视连续剧,难怪他看上去这么累。(no wonder) As he sat up late watching TV all night, (it's) no wonder that he looked so tired 3.如果我是你的话,我不会卷入那些复杂的事情。(involve) If I were you I wouldnl get / be involved in those complicated affairs. 4.她的手艺非常好,做的蛋糕简直是艺术品。(work of art) Her workmanship is so excellent that the cakes she makes are simply works of art.

自建小型语料库在英语教学中的运用

自建小型语料库在英语教学中的运用 引言:随着语料库语言学近年来的发展,运用电脑语料库进行教学已经成为现代外语教育的新趋势。各种大型语料库(如LOB, BROWN, ELEC)已被广泛用于课堂教学的很多方面,如语料库在语法教学中的应用(何安平,2001;关文玉,2004),语料库在英语精读课中的应用(林丽云,2004)以及语料库在词汇(莫咏仪,2004;邓飞,2004)及写作(胡玉迎,2004)等方面的应用。然而,大型语料库最初的建库目的并非直接用于课堂教学,其语料规模庞大,就语言教学的具体方面而言,难免缺乏针对性,而且,由于价格,市场等原因,个人很难购买到大型语料库及检索软件。因此,在日常教学中,个人教学语料库的建设就显得尤为重要。Ragan(2001)指出小型语料库已成为以课堂为中心的实证教学研究的有力手段。而国内目前对个人教学语料库的研究还相对贫乏,本文将初步探讨自建小型语料库在帮助学生理解课文篇章主题意义方面的作用。 1.自建小型语料库的特征 1.1 针对性强。首先,与大型语料库相比,自建小型语料库规模小,但在内容选择上却比较有针对性,建库者可以根据自己教学及学生自主学习的需要科学的选择合适的语料,从而,使语料能够充分体现学习者的需求,满足不同层次学习者的需要,如目前大多数小学都开设了英语课,但适合这些初学者的语料库却几乎没有。在这种情况下,老师便可以通过因特网搜集儿童英语的材料和儿童感兴趣的话题制成小型语料库,从而是儿童能从开始就学到地道的英语。其次,小型语料库易于突出语言的语域和语体特征,正如Beaugr (2001)所说,依据特定的语域,语篇和话题而建的小型语料库有助于学习者培养语言的体裁,语域,语篇感,深化对语言在具体环境下的涵义的理解。 1.2 实效性强。与大型语料库相比,小型语料库在内容选择上非常灵活,可以避免选择那些语法正确但已经过时的语料,使语料库能跟上语言不断发展变化的步伐,尤其是新闻,杂志等语料更是能把最前沿的语言变体及新词,新句带给学习者。另外,小型语料库标注比较灵活,能满足更多学习者的个性化需求,而且,检索方便快捷,学习者可以在自己的操作过程中去发现目标语的各种语法特征和规律,便于学习者进行自主学习。 2.自建小型语料库促进英语教学的实例 正如Guy(1997)所说,小型语料库有助于学习者通过建构陈述性和程序性知识培养语言使用能力。目前计算机的使用已经相当普遍,所以对中学生灌输有关计算机方面的知识是非常有必要的。下面我们将以the use of computer 一文为例,说明在引导学习者建构该篇课文主题意义及对已有知识进行扩展方面,自建小型语料库能起什么作用。 学习者通过日常接触,对有关计算机方面的基础知识已经有了一定的基本图式,如计算机是一种高科技产品,运用广泛,速度快,因特网,游戏等。然而,若要比较全面的建构出有关计算机的图式,则还需对已有图式进行深入和扩展,如对计算机功能,利弊,历史,前景等方面知识的掌握。为了使学习者能够最大限度熟悉该话题,建构起该话题的心理词库,流利准确的表达该话题的相关知识,我们将利用自建的语料库的词频显现和语境共现功能,为学习者提供大量真实的语料,让学习者在自己观察,分析,概括的基础上归纳出相关图式,建构起该话题的陈述性知识;并通过小组讨论,任务汇报,课堂演示等方法扩展和巩固该话题的图式,从而,实现程序性知识的建构。 2.1 建立相关微型语料库 在大学英语第二册中有一篇the use of computer的课文,主要介绍了计算机的历史及目前计算机在各个行业中的广泛运用。为了向学习者提供更多的相关语料,笔者另外从因特网上搜集了十篇难度和体裁相当的相关文章,通过对无关内容的删减,加工,标注后制成微型

语料库与语料库建设

语料库和语料库建设 一、什么叫语料库 1、定义 语料库,通俗意义上指的是语言材料库。严格意义上的语料库(corpus)是指按照一定的 语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。 目前,语言学家对于语料库的定义不尽相同,如辛克莱(Sinclair)认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作语言的样本”。阿特金斯等(Atkins & Clear)认为语料库是“按照明确的设计标准,为某一具体目的而集成的大型文本库”。赫努(Renouf)认为语料库是“由大量收集的书面语或口头语构成,并通过计算机储存和处理,用于语言学研究的文本库”。我们看到,以上关于语料库的几种定义相同之处在于都谈到语料库是语言材料的汇集;不同之处在于前两个定义指出语料库的设计是有明确的设计标准的,赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。 语料库不同于电子文档,语料库的建设有特定的研究目的和具体用途,因此在语料抽样范围和文类覆盖方面都力求取得平衡,在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。而大型文档目标在于搜集任何可获得的语言材料或所限定的数种文类语料,其语言材料之间的关系较为松散。 语料库具有以下特征:1、语料库的设计与建设有系统的语言学理论指导,语料库的开发具有明确而又具体的目的;如,布朗语料库用于对20世纪60年代的美国英语的研究,LOB是与布朗语料库对齐的同时期的英国英语语料库,可用以对英国英语进行研究,也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料,不是随意的语言材料的堆积,更不是由某个个人杜撰出来的。语料库的容量和语料采用随机抽样方式都保证了语料具有代表性,由此保证基于语料库的语言研究的科学性、客观性。3、语料文本是连续的文本或话语片断,而不是孤立的句子或词汇,可以借以获得语法关系、用法、词语搭配以及语篇信息。4、语料库以当代先进的计算机技术为技术手段,语料库语料通过电子文本形式储存并且是通过计算机处理的,具有资源优势和处理速度优势。5、基于语料库的研究以量化研究为基石,以概率统计为手段,以数据驱动为基本理念。6、语料库既是一种研究方法,又代表着一种新的研究思维。 二、语料库产生的背景及发展历史 对真实语言材料的搜集与研究是语言学研究的优秀传统。尤其是在20世纪50年代中期, 在语言研究中占主导地位的是重语言材料的经验主义。这种学术氛围无疑促进了对语料的重视。1959年夸克(R.Quirk)等人着手进行的“英语用法调查”(Survey of English Usage)通过系统的调查建立了第一个现代英语语料库,在此基础上完成的《现代英语语法》( A Grammar of Contemporary English)和《英语语法大全》(A Comprehensive Grammar of the English Language)对现代英语进行了系统全面的描写,在英语语言学界产生了广泛的影响。但在当时这项浩大的工程是通过手工的方式完成的。

哪里有可以免费使用的大型英语语料库资源-外语教学与研究出版社

语料库相关资源 David Lee语料库研究书签 Bookmarks for Corpus-based Linguists (David Lee) https://www.360docs.net/doc/4315934592.html,.au/~dlee/CBLLinks.htm (https://www.360docs.net/doc/4315934592.html,/corpora) 常用语料库资源链接汇集(语料天涯) https://www.360docs.net/doc/4315934592.html,/corpus/ 互动平台 https://www.360docs.net/doc/4315934592.html,/forum/ 入门读物 专著 梁茂成、李文中、许家金,2010,《语料库应用教程》。北京:外语教学与研究出版社。Hunston, Susan. 2002. Corpora in Applied Linguistics. Cambridge: Cambridge. University Press. (世界图书出版社引进) Kennedy, Graeme. 1998. An Introduction to Corpus Linguistics. London: Longman. (外研社引进) 期刊论文 中国期刊网 EBSCO英文期刊数据库 书店可以买到的语料库相关书籍 Aijmer, K. & B. Altenberg (Eds.). 2004. Advances in Corpus Linguistics. Papers from the 23rd International Conference on English Language Research on Computerized Corpora (ICAME 23). Amsterdam: Rodopi. (世界图书出版社引进) Austermühl, F. 2001. Electronic Tools for Translators《译者的电子工具》. Manchester: St. Jerome Publishing. (外研社引进) Biber, Douglas, Stig Johansson, Geoffrey Leech, Susan Conrad & Edward Finegan. 1999. Longman Grammar of Spoken and Written English. Longman Publications Group. (外研社引进) Biber, Douglas, Susan Conrad & Randi Reppen. 1998. Corpus Linguistics. Cambridge: Cambridge University Press. (外研社引进) Connor, U & T. Upton (Eds.). 2004. Applied Corpus Linguistics: A Multidimensional Perspective. Amsterdam: Rodopi. (世界图书出版社引进)

国际儿童口语语料库录写系统的赋码原则初探

国际儿童口语语料库录写系统的赋码原则初探* 王立非1,刘斌2 (1.南京大学, 江苏南京 210093; 2.解放军国际关系学院,江苏南京 210039) 摘要:国际儿童口语语料库是目前世界上最完整的口语语料库之一, 对开展口语语料库研究和语言习得研究具有重要价值,本文探讨该语料库 的录写系统的赋码原则与具体操作问题,对促进我国英语口语语料库的建 立和研究具有借鉴作用和启示意义。 关键词:国际儿童口语语料库;英语口语语料;语料库语言学 中图分类号:文献标识码:文章编号:The CHILDES Corpus: Coding and Operation of the CHAT Tool WANG Lifei1, LIU Bin2 (1. Nanjing University Nanjing, Jiangsu Prov., 210093; 2. PLA International Studies University, Nanjing, Jiangsu Prov., 210039, China) Abstract: This paper describes the basic coding and operating principles of CHAT for the CHILDES talk-bank, a very valuable corpus for studies on spoken English and language acquisition. It aims to promote the development and use of the CHILDES as a reference for constructing the EFL spoken corpus in China. Key words: CHILDES;English spoken corpus;corpus linguistics 1.引言 新世纪的语言学研究已进入计算机时代,基于语料库的研究成果不断涌现,国际儿童口语语料库CHILDES(Child Language Data Exchange System)就是众多语料库中的一员,已有一千项基于这个语料库的研究成果发表。该语料库由美国麦克阿瑟基金会资助,于1984年开始筹建,经过近20年的建设,已成为目前世界上最大的儿童口语语料库。到目前为止,该语料库已收集了包括英语、汉语在内的25种语言。用户可直接从网上免费登录、使用或下载(https://www.360docs.net/doc/4315934592.html,/CHA T.html)语料。CHILDES语料库由三部分组成,第一部分是儿童英语口语语料库(DATA-BASE),第二部分为文本赋码系统(CHAT),第三部分为语料分析程序(CLAN),均可在网上免费下载。本文探讨该语料库的录写系统的文本赋码原则和操作,目的是对我国建设英语口语语料库提供借鉴与启示。 2.录写赋码系统的途径与原则

基础英语 1000词

A again /??????/ad.又一次;而且a art.一(个) ;每一(个) able / ???●/a.有能力的;出色的 about / ?????/prep.关于;在…周围 above /?????/prep.在…上面;高于 accept /???????/vt.vi.接受;同意 across /??????/prep.横过;在…对面 act /???/vi.行动;见效n.行为 add vt.添加,附加,掺加 addreafraid a.害怕的;担心的 Africa / ??????/n.非洲 after prep.在…以后;次于 afternoon / ???????◆??/n.下午,午后 age n.年龄;时代vt.变老 ago ad.以前 agree /??????/vi.同意;持相同意见 air /??/n.空气;空中;外观 all a.全部的prep.全部 allow /??●??/vt.允许,准许;任 almost / ??●?????/ad.几乎,差不多alone /??●???/a.单独的ad.单独地along /??●??/prep.沿着ad.向前 aloud /??●???/ad.出声地,大声地already / ?●?????/ad.早已,已经also ad.亦,也;而且,还 although / ?●????/conj.尽管,虽然always ad.总是,一直;永远 America n.美洲;美国 American /?????????/a.美洲的n.美国人and conj.和,又,并,则 angry / ?????/a.愤怒的,生气的 animal / ?????●/n.动物,兽a.动物的 another a.再一个的;别的 answer / ?????/vt.回答;响应;适应 any a.什么,一些;任何的 apple n.苹果,苹果树 around /???????/prep.在…周围 arrive /??????/vi.到达;来临;达到 article / ?????●/n.文章;条款;物品 as conj.当…的时候 Asia / ????/n.亚洲 Asian/ ?????/.亚洲的n.亚洲人 aside /??????/ad.在旁边,到旁边 ask vt.问;要求;邀请 asleep /???●???/a.睡着的,睡熟的 at prep.在…里;在…时 Australia / ??????●??/n.澳大利亚 autumn / ?????/n.秋,秋季 away ad.离开,远离;…去 B baby / ?????/n.婴儿;孩子气的人 back /???/ad.在后;回原处;回 bad /???/a.坏的,恶的;严重的 badly / ???●?/ad.坏,差;严重地 bag /???/n.袋,包,钱包,背包 ball /???●/n.球,球状物;舞会 banana /????????/n.香蕉;芭蕉属植物 bank /????/n.银行;库;岩,堤 bar /??????/n.酒吧间;条,杆;栅 base /????/n.基础,底层;基地 basket /???????/n.篮,篓,筐 basketball / ??????????●/n.篮球; 篮球运动 be aux.v.&vi.是,在,做 beautiful / ??◆?????●/a.美的,美丽 的 beauty / ??◆???/n.美,美丽;美人 because conj.由于,因为 become /??????/vi.变成;成为,变得 bed /???/n.床,床位;圃;河床 beer /???/n.啤酒 before prep.在…以前;向… beg [???]vt.&vi.乞求;请求 beggar / ????// /n.乞丐,穷人 begin /??????/vi.开始vt.开始 behind /????????/prep.在…后面 being / ?????/n.存在;生物;生命 belief /???●???/n.信任,相信;信念 believe /???●???/vt.相信;认为 belong /???●??/vi.属于,附属 below /???●??/prep.在…下面(以下) beside /???????/prep.在…旁边 besides /????????/ad.而且prep.除… 之外 best /????/a.最好的;最大的 better / ????/a.较好的ad.更好地 between /????????/prep.在…中间 bicycle / ??????●/n.自行车,脚踏车 big /???/a.大的,巨大的 bike /????/n.自行车vi.骑自行车 bird /????/n.鸟,禽 birthday n.生日,诞生的日期 black /?●??/a.黑色的;黑暗的 blackboard / ?●??????/n.黑板 blind /?●????/a.瞎的;盲目的 blue /?●◆?/a.蓝色的n.蓝色 boat /????/n.小船,艇;渔船 body / ????/n.身体;主体;尸体 book n.书,书籍vt.预定 boss /???/n.老板,上司vt.指挥 both /????/pron.两者(都) box n.箱,盒;包箱 boy n.男孩,少年;家伙 break /?????/vt.打破;损坏;破坏 breakfast / ????????/n.早饭,早餐 bring /????/vt.带来;引出;促使 brother / ?????/n.兄弟;同事,同胞 build /??●?/vt.建筑;建立;创立 building n.建筑物,大楼;建筑 bus n.公共汽车 business n.商业,生意;事务 busy / ????/a.忙的,繁忙的 but conj.但是,可是 buy vt.买,购买vi.买 by prep.在…旁;被,由 C call vt.把…叫做;叫,喊 camel / ????●/n.骆驼 can aux.v.能,会,可能 Canada n.加拿大 cap / ??/n.帽子,便帽;帽状物 car / ??/n.汽车,小汽车,轿车 card / ???/n.卡,卡片,名片 care / ??/vi.关心,介意n.小心 careful / ?????●/a.仔细的;细致的 careless a.粗心的,漫不经心的 carry / ????/vt.携带;运载;传送 case / ???/n.情况;事实;病例 cat / ??/n.猫,猫科,猫皮 catch / ???/vt.捉住;赶上;领会 cause n.原因,理由;事业

可以免费使用的大型英语语料库资源

英语语料库#参考 2012-03-02 22:29:26 ■BNC=The British National Corpus英国国家语料库 https://www.360docs.net/doc/4315934592.html,/(备用) https://www.360docs.net/doc/4315934592.html,/bnc/ ■ANC = The American National Corpus美国国家语料库 https://www.360docs.net/doc/4315934592.html,/ ■COCA = Corpus of Contemporary American English 美国当代英语语料库 https://www.360docs.net/doc/4315934592.html,/ ■COHA = Corpus of Historical American English 美国近当代英语语料库 https://www.360docs.net/doc/4315934592.html,/coha/ ■BOE=Bank of English 柯林斯英语语料库 https://www.360docs.net/doc/4315934592.html,/wordbanks/ ■NMC=New Model Corpus 新规范语料库 https://www.360docs.net/doc/4315934592.html,/ ■ARC=ACL Anthology Reference Corpus (ARC) 文选参考语料库 https://www.360docs.net/doc/4315934592.html,/auth/preloaded_corpus/aclarc/ske/first_form ■BAWE=British Academic Written Eng Corpus (BAWE) 英国学术书面语语料库 https://www.360docs.net/doc/4315934592.html,/auth/preloaded_corpus/bawe2/ske/first_form https://www.360docs.net/doc/4315934592.html,/AcaDepts/ll/app_ling/internal/bawe/sketch_engine_bawe.htm download ■BASE= British Academic Spoken English Corpus (BASE) 英国学术口语语料库 https://www.360docs.net/doc/4315934592.html,/fac/soc/celte/research/base/ ■SCTS=Scottish Corpus Of Texts and Speech苏格兰口语与书面语语料库 https://www.360docs.net/doc/4315934592.html,/ ■SCTS=Corpus Of Modern Scottish Writing 当代苏格兰语实库 https://www.360docs.net/doc/4315934592.html,/cmsw/ Slang https://www.360docs.net/doc/4315934592.html,/ (American, English, and Urban slang) https://www.360docs.net/doc/4315934592.html,/slang/ (UK) https://www.360docs.net/doc/4315934592.html,/ https://www.360docs.net/doc/4315934592.html,/cybereng/slang/ https://www.360docs.net/doc/4315934592.html,/ https://www.360docs.net/doc/4315934592.html,/

CCL语料库与检索系统方案

一关于CCL语料库及其检索系统 (如果时间紧张,可直接跳到最后的举例部分!) 1.1 CCL语料库及其检索系统为纯学术非盈利性的。不得将本系统及其产生的检索结果用于任何商业目的。CCL不承担由此产生的一切后果。 1.2 本语料库仅供语言研究参考之用。语料本身的正确性需要您自己加以核实。 1.3 语料库中所含语料的基本内容信息可以在“高级搜索”页面上,点击相应的链接查看。比如: “作者列表”:列出语料库中所包含的文件的作者 “篇名列表”:列出语料库中所包含的篇目名 “类型列表”:列出语料库中文章的分类信息 “路径列表”:列出语料库中各文件在计算机中存放的目录 “模式列表”:列出语料库中可以查询的模式 1.4 语料库中的中文文本未经分词处理。 1.5 检索系统以汉字为基本单位。 1.6 主要功能特色: ?支持复杂检索表达式(比如不相邻关键字查询,指定距离查询,等等); ?支持对标点符号的查询(比如查询“?”可以检索语料库中所有疑问句); ?支持在“结果集”中继续检索; ?用户可定制查询结果的显示方式(如左右长度,排序等); ?用户可从网页上下载查询结果(text文件); 二关于查询表达式 本节对CCL语料库检索系统目前支持的查询表达式加以说明。 2.1 特殊符号 查询表达式中可以使用的特殊符号包括8个: | $ # + - ~ ! : 这些符号分为四组: Operator1: | Operator2: $ # + - ~ Operaotr3: !

Delimiter: : 符号的含义如下: (一) Operator1: Operator1是二元操作符,它的两边可以出现“基本项”(关于“基本项”的定义见2.2) (1) | 相当于逻辑中的“或”关系。 (二) Operator2:Operator2是二元操作符,它的两边可以出现“简单项”(关于“简单项”的定义见2.3) (2) $ 表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。两个“简单项”之间相隔字数小于或等于Number (3) # 表示它两边的“简单项”出现于同一句中,不考虑前后次序。两个“简单项”之间相隔字数小于或等于Number (4) + 表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。两个“简单项”之间相隔字数刚好等于Number (5) - 表示它左边的“简单项”出现于句子中,并且,在右边相隔Number个字的范围内,-号右边的“简单项”不出现。 (6) ~ 表示它左边的“简单项”出现于句子中,并且,在左边相隔Number个字的范围内,~号右边的“简单项”不出现。 (三)Operator3:Operator3是一元操作符。 (7) ! 表示它后面的“简单项”是本次查询的主关键字符串,显示查询结果时以该“简单项”作为中心来进行定位。 注意: Operator2后面的Number是必须的,不能省略。Number=0表示相 邻,Number=1表示间隔1个单位,其余依此类推。 (四)Delimiter:西文冒号 : 是分隔符 (8) : 跟在 path,author,name,type,pattern 等关键字后面,用于分隔关键字和它们的取值。这样形成的查询式我们称之为“过滤项”(见下面2.5) 注意:上述特殊字符不能作为基本项在语料库中进行检索。path,author等关键字可以作为基本项进行检索。 2.2 基本项 指不包含特殊符号和空格的连续字符串

可以免费使用的大型英语语料库资源

可以免费使用的大型英语语料库资源 https://www.360docs.net/doc/4315934592.html,/time/ http://www.lextutor.ca/concordancers/concord_e.html 常用语料库资源链接汇集(语料天涯) http://202.204.128.82/sweccl/Corpus/ https://www.360docs.net/doc/4315934592.html,/netprints/Corporalink/Corporalink.htm 1. BNC-World Simple Search ☆☆☆ https://www.360docs.net/doc/4315934592.html,/lookup.html But no more than 50 hits will be displayed, with a fixed amount of context. 2. Brown, LOB, BNC sampler ☆☆☆ Here are a few links for searching corpora online, including monolingual corpora like Brown, LOB, and BNC sampler and also some parallel English-Chinese corpora. English: https://www.360docs.net/doc/4315934592.html,/concordance/WWWConcappE.htm English: http://www.lextutor.ca/concordancers/concord_e.html Parallel: https://www.360docs.net/doc/4315934592.html,/concordance/paralleltexts/ 3. Collins Cobuild Corpus Concordance Sampler☆☆☆☆☆ https://www.360docs.net/doc/4315934592.html,/Corpus/CorpusSearch.aspx The Collins WordbanksOnline English corpus is composed of 56 million words of contemporary written and spoken text. 4. New BNC interface - VIEW: ☆☆☆☆☆ https://www.360docs.net/doc/4315934592.html,/ 5. Samples (about 2 million words) from the British National Corpus: both written and spoken ☆☆☆ The Brown Corpus and many others - native, learner... Go to http://www.lextutor.ca/concordancers/concord_e.html 6. MICASE ☆☆☆☆ https://www.360docs.net/doc/4315934592.html,/m/micase/ There are currently 152 transcripts (totaling 1,848,364 words) available at the site. 7. CLEC online concordancing ☆☆☆☆ https://www.360docs.net/doc/4315934592.html,/corpus/EngSearchEngine.aspx CLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词,并对言语失误进行标注。For an introduction of the corpus, its error tagset and some statistics, see https://www.360docs.net/doc/4315934592.html,/baseinfo/achievement/Achievement1.htm 8. Business Letter Corpus Online KWIC Concordancer ☆☆☆

语料库常用统计方法

3.5语料库常用统计方法 第3章前几节对语料库应用中的几种主要技术做了介绍。通过语料检索、词表和主题词表的生成,可以得到一定数量的句子、词汇或结构。为能更好说明所得到的结果的真正意义,常常需要对它们加以统计学分析。本章主要介绍语料分析中的一些常用统计方法。 3.5.1 语料库与统计方法 介绍相关统计方法之前,首先需要了解为什么语料库应用中需要运用统计方法。在2.1节讲到文本采集时,我们知道文本或会话构成了最终的语料库样本。这些样本是通过一定的抽样方法获得的。研究中,我们需要描述这些样本的出现和分布情况。此外,我们还经常需要观察不同语言项目之间在一定语境中共同出现(简称共现)的概率;以及观察某个(些)语言项目在不同文本之间出现多少的差异性。这些需要借助统计学知识来加以描写和分析。 理论上说,几乎所有统计方法都可以用于语料库分析。本章只择其中一些常用方法做一介绍。我们更注重相关统计方法的实际应用,不过多探讨其统计学原理。这一章我们主要介绍语料分析中的频数标准化(normalization )、频数差异检验和搭配强度的计算方法。 3.5.2 频数标准化 基本原理 通常语料检索、词表生成结果中都会报告频数(frequency, freq 或raw frequency )。那么某词(如many )在某语料库中出现频数为100次说明什么呢?这个词在另一个语料库中出现频数为105次,是否可以说many 在第二个语料库中更常用呢?显然,不能因为105大于100,就认定many 在第二个语料库中更常用。这里大家很容易想到,两个语料库的大小未必相同。按照通常的思维,我们可以算出many 在两个语料库中的出现百分比,这样就可比了。这种情况下,我们是将many 在两个语料库中的出现频数归到一个共同基数100之上,即每100词中出现多少个many 。这里通过百分比得到的频率即是一种标准化频率。有些文献中标准化频率也称归一频率或标称频率,即基于一个统一基准得出的频率。 实例及操作 频数标准化,首先需要用某个(些)检索项的实际观察频数(原始频数,raw frequency )除以总体频数(通常为文本或语料库的总词数),这样得到每一个单词里会出现该检索项多少次。在频数标准化操作中,我们通常会在此基础上乘以1千(1万、1百万)得到平均每千(万、百万)词的出现频率。即: 1000?=总体频数 观测频数标准化频率(每千词) (注:观测频数即检索词项实际出现的次数;总体频数即语料库的大小或总形符数。) 例如,more 在中国学生的作文里出现251次,在英语母语者语料中出现475次。两个语料库的大小分别为37,655词次和174,676词次。我们可以根据上面的公式很容易计算出251和475对应的标准化频率。另外,我们还可以利用Excel 或SPSS 等工具来计算标准化频率。比如,可以将实际观察频数和语料库大小如图3.5.1输入相应的单元格,然后在C1单元格里输入=(A1/B1)*1000即可得到中国学生每千词使用more 约为6.67次。要得到母语

基础英语词汇

基础英语词汇 1.Make for 朝向 2.Make a fool of….. 出。。。。的洋相 3.Successor 接班人 4.Roll down 滚下来 5.Put things in order 把东西放整齐 6.Affairs of state 国务 7.Money belt 腰包 8.In the first place 原来,第一点 9.Zero in on 把矛头指向 10.Destroyed 失望的 11.Be on the case 负责处理 12.Apparently 看来,似乎 13.Rear-pocket 裤子后面的口袋 14.Shake down 敲诈 15.Mudflow 泥石流 16.Handbook 手册 17.Storekeeper 店主 18.Head for 招致 19.Look on 旁观 20.Look into 考虑 21.Look up 好转

22.Look down upon 瞧不起 23.Look up to 尊敬 24.Employment agency 中介 25.This bag of bones 这把老骨头 26.Get back on one’s feet 身体恢复 27.Forefathers 祖先 28.Infancy 初期 29.Shimmer 发微光,闪烁 30.Congest (v.) 拥挤,布满 31.A pane of glass 一块玻璃 32.Slip 纸条 33.Before long 不久以后 34.Get away with 幸免于难 35.The young master of Ma family 马家小少爷 36.Incorrect 不正确的 37.Throw up one’s hands 束手无策 38.As so often happens 事情往往如此 39.With anger 因为生气 40.Chuckle 暗笑,咯咯地轻声笑 41.Raise the devil 好好闹一下,好好抗议一下 42.Disillusioned 幻想破灭的 43.Doorknob 门把,拉手

语料库语言学与中国外语教学_桂诗春

2010年11月November 2010 第33卷第4期Vol.33No.4 现代外语(季刊) Modern Foreign Languages (Quarterly )语料库语言学与中国外语教学 桂诗春 冯志伟杨惠中何安平卫乃兴李文中梁茂成 [编者按] 为推动我国应用语言学研究的新发展,教育部人文社科重点研究基地———广东 外语外贸大学外国语言学及应用语言学研究中心于2010年9月24-25日成功举办了“首届广外应用语言学论坛”,庆贺我国著名语言学家、应用语言学学科的开拓者桂诗春教授八十华诞。期间,举行了题为“语料库语言学与外语教学”的高层论坛,就语料库语言学的现状、发展前景及语料库的建设、共享、应用等展开了互动讨论。以下是根据专家发言,整理后的主要内容。 [中图分类号]H319 [文献标识码]A [文章编号]1003-6105(2010)04-0419-08 语料库语言学的发展前景与资源共享 广东外语外贸大学 桂诗春 1.语料库语言学的发展前景 语料库语言学在外国和国内都发展很快,有的人选择了它作为发展方向,因为它的入门比较容易,上手较快;有的人把语料库语言学作为收集数据的重要手段。但是总的来说,我们的语料库研究还处在比较初级阶段,需要提高。究其原因是很多人把它看成是一种工具或手段,可以运用现有的一些现成的程序和公开的语料库,如Brown ,LOB ,Frown. Flob , BNC ,CLEC ,只要选题得当,就能获得很多量化的数据,从而写出洋洋洒洒的文章来。在计算机和扫描仪的支持下,自行收集一些语言素材,建立一个特定的语料库,也不是什么难事。 我觉得,语料库语言学既是一种工具,但更是一门学科;它是对语言行为进行概率性归纳和概括的一门学科,它本身是跨学科性的,要做语料库语言学研究必须许多方面要有比较雄厚的基础。首先是数学和统计学。Herdan (1960)的一本早期著作,叫做《词次/词型数学》(Type /token Mathematics ),其副标题就是《数理语言学教科书》(A Textbook of Mathematical Linguistics ),当时还是前计算机 时代,但Herdan 觉得有两件语言事实值得我们注意:一是大量语言资料(language in mass ),二是语言排列(language in line ),它们是任何语言运作都不能离开的两个方面。某些语言学研究分支如果考虑到这两个方面,将会从中获益。当时还没有真正的机读语料库, Brown 的语料库在1967年才面世,美国心理 学家John Carroll 根据该语料库以及他后来参与制作500万词的AHI 语料库,所提出的词汇频数对数正态模型(lognormal model )均源于Herdan 所奠定的基础。一直到最近美国Barber 利用计算机对英语语体的各种研究,更是利用了因子分析的统计方法。其次是计算机科学。语料库的发展离不开现代科学技术,其主要表现是个人电脑、扫描仪和大容量硬盘的普及,当初Brown 语料库要动用到大型电脑,而到如今,只需一万元左右就能在家里拥有这些设备,制作出甚至比Brown 还要大的语料库。但是我们往往只注意到硬件部分,而不认识到软件的建设。从事语料库语言学研究的人而不掌握一到两种编成语言,也不可能拓展他们的研究领域,因为他不能根据个人的研究需

相关文档
最新文档