基于语料库方法的_Friends_脚本词块研究
基于影视语料库的英语口语词块研究及课堂应用

1引语语言教学的内容无穷无尽,英语教学的时间捉襟见肘,如何在有限的时间内提高教学质量是英语教学亟需解决的问题.本院学生在毕业回访问卷中提到:口语的水平有待提高,希望学院充实教学内容和创造实践机会.由于各方面的原因,目前我院的口语教学确实存在实践机会少;英语交际活动缺乏真实的交际环境;常用会话句型、交际策略,中西方在人际交往中的文化差异等方面涉及不多的问题,所以一些学生的英语口语较差,对日后的求职和发展不利.笔者在总结各位学者和前辈的研究成果基础上,打算从词块入手,系统地、循序渐进地、科学地向学生输入口语知识和技巧并加以训练,以期有效提高学生的口语水平.2词块及词块的使用问题我们将词块定义为:由多词组成,可以独立用于构成句子或者话语,实现一定语法、语篇或语用功能的最小的形式和意义的结合体.这个定义表明,词块是大于词、小于句子的语言单位,可以像词那样独立运用,而且词块应该是连续的,具有完整的意义或明确的功能.也就是说,词块不包括那些不连续的,或具有词汇与结构双重特征的,或语义与功能不明确的语言片段.(马广惠,2011:1)Biber,etal.(2004)按语篇和语用功能将词块分成四类,即立场词块、组篇词块、指示词块和会话专用词块.立场词块指那些用于表达诸如态度、肯定等人际意义的多词单位,如:Idon’tknowwhatthevoltageishere.Idon’twanttodeliverbadnewstoher.组篇词块指那些用于建立上下文关系的多词单位,如:WhatIwanttodoisquicklyrunthroughit等.指示词块指那些直接涉及实体或抽象体的多词单位,如:Studentsmustdefineandconstantlyrefinethenatureoftheproblem.会话专用词块指那些在会话中用于表示礼貌、询问和陈述的多词单位,如thankyouverymuch、Isaidtohim.等.目前学生在口语使用上主要会出现:口语词汇量较少,并且过度使用和使用不足某些常用词汇并存;没有完全掌握英语会话的常用词汇,其会话缺乏足够的交互性;不会使用模糊用语.根据甄凤超的调查(甄凤超,2005:41),中国学习者会话中最常用的词目同英语母语者存在显著差异.差异最明显的词目并非功能词(如代词、冠词、介词、助动词、连词等),而是一些意义宽泛的实词,如get,yeah,well,think,know,right,see,mean,come,really.Stenstrom(1990)把这些词定义为话语标记词(discoursemarkers),在会话中起到组织话语结构(如well、right、yeareally),以及表现人际关系(如youknow,Ithink,Isee,Imean,youmean)等功能.有数据显示,学习者在会话时不能灵活使用话语标记词,导致其会话缺乏交互性.另外,英语学习者高频率使用某些意义宽泛的实词,但其搭配形式却较为简单.3如何提取词块为了解决上述问题并给学生提供高质量的词块教学资料,笔者自建了影视脚本语料库.为了体现现代口语的特征,语料库收集90年代之后的电影和电视脚本,主要以语言质量和数量较高的以下类型构成:喜剧(Comedy)、动画片(An-imation)、纪录片(Documentary)、戏剧片(Drama)、家庭剧(Family)等,将所有的脚本储存为纯文本文件建立起约500万字的语料库.建库之后,笔者利用AntConc软件(该软件是日本早稻田大学LaurenceAnthony博士实验室研发的多平台的语料库分析工具)来研究口语高频词块.该软件可以生成单词表、索引呈现(Concordance)、检索词或词组在上下文中高亮显示、设定关键词左右语境、检索结果的打印和存储等.操作步骤如下:(1)调入语料;(2)选择Clusters窗口模式下SearchTerm右边的N-Grams选项;(3)选择N-Grams的大小,本文选择4词短语;(4)选择最小N词短语频数;(5)选择合适的排列选项;(6)按开始键;(7)点击词汇束会产生一组上下文关键词行.以下是自建的影视脚本语料库的前10个4词词块:Vol.28No.9Sep.2012赤峰学院学报(自然科学版)JournalofChifengUniversity(NaturalScienceEdition)第28卷第9期(上)2012年9月基于影视语料库的英语口语词块研究及课堂应用王颖(深圳信息职业技术学院,广东深圳518029)摘要:为了提高口语教学质量,本文利用自建的影视脚本语料库,运用AntConc软件提取高频词块,然后截取相关视频,建立高频词块训练网站,学生通过看、听、说和练全方面的提高口语水平.关键词:影视语料库;词块;口语教学中图分类号:G642文献标识码:A文章编号:1673-260X(2012)09-0263-02基金项目:深圳信息职业技术学院教学成果培育项目JXCG201019,深圳市教育学会“十一五”规划教育科研第二批立项课题(XH045)263--经过观察分析这些高频4词词块我们发现大部分都是表达自己立场的词块.根据何安平教授的研究:若按语义功能归类排行,英语2000个最常用词汇中,位居头三位的就有情态类和立标类(O’Keefe,McCarthy&Carter,2007:37—38).在多个大型英语本族语者口语语料库的机切四词语表中,均有50%以上的高频语块属于立标语类.这表明立标语其实是由最常用的基本词汇构成,但以往教学却很少关注这些基本词的常用范式和语用功能.(何安平,2011:30)接下来我们提取高频动词do,get,make,take,think等词的词块搭配,通过仔细观察含有“think”高频词块,我们发现除了有Ithink,doyouthink,soIthink,butIthink这样的常见搭配外,还有以下的常见词块:因此,通过自建影视脚本语料库和AntConc软件,我们可以提取符合学生实际情况和适合英语口语教学的词块.解决学生口语表达中选词错误、词语搭配不当、语体与语境不符、中国式英语等问题.高频词块习得有助于词汇的搜索、提取,使学生能够更加流利、准确和得体地使用语言.4词块的课堂教学经过两个学期的课堂应用,学生能够在平时学习的过程中注意记忆和积累高频词的搭配情况,这样就减少了说话时用汉语思维临时组织英语单词,造成词汇搭配不当和语义表达的偏差;提高了英语产出的效率,能够按自然语速表达思想.在今后的口语教学中,笔者继续着眼于影视脚本语料库的词块加工与提取,并截取相关的视频,学生可以通过跟读模仿、重复句子、补充对话、复述、配音、角色扮演等方式提高口语表达水平.视频要综合考虑本族语者的使用特点和学生词块常见的问题来进行选取.目前,影视脚本语料库的高频词块训练网站已初步建成.学习流程如下:整段熟悉→分句模仿→跟读和原声比较(不看字幕跟读)→复述剧情→听写测试.为了提高学习效果,网站支持听力测试模式.学生在听力过程中先隐藏画面,然后在写字板上听写,提交文本后屏幕会自动弹出正确答案.为了增强交互性,网站还提供搜索和评价功能.学生可以通过电影名字,关键词,场景等搜索到相关的视频片段;学生在注册后,可以评价视频,留言等.影视脚本语料库网站将过去静态的、二维的教材转变为由声音、文字、图像构成的动态的教材.学生通过创设情境、自主学习、协作学习、讨论学习掌握高频词块的使用方法.学生通过网站能掌握一定的英语基础知识,培养良好的语言学习方法,提高文化素养,在今后的对外日常活动和业务来往中进行得体的口头和书面交流.5结语笔者综合利用AntConc软件和自建的影视脚本语料库进行某些词块的定量分析,以期在口语教学中引入自然真实的语料并找到一些普遍用法促进英语词汇教学.影视脚本语料库大大地扩展了语言输入的范围,为教师提供最真实可靠的语言信息;影视脚本语料库可以弥补教科书单一的教学内容;影视脚本语料库是一个开放性系统,语料选取灵活、难度易控,可以不断更新和补充;影视语料库还是一个教育资源库,它可辅助教师工作,总结出口语的规律,同时吸引学生进行探索式学习.———————————————————参考文献:〔1〕Biber,D.,Conrad,S.&Cortes,V.2004.“If you look at…:Lexical bundles in university teaching and text-books“.Applied Linguistics,25(3),371–405.〔2〕马广惠.词块的界定、分类与识别[J].解放军外国语学院学报,2011,1(1).〔3〕甄凤超.中国学习者英语口语词汇量及常用词汇研究—基于英语口语语料库的词目研究[J].解放军外国语学院学报,2005,9(41)〔4〕何安平.语料库视角的英语口语“立标语块"探究[J].外语教学理论与实践,2011,1(30).排序频数例子11481I don't know 2513I don't think3457I don't want 4452I can't believe 5451don't want to 6435I'm going to 7405What are you doing 8398I m sorry I9300don't have to 10239I don't have 11231I want you to 12209Why don't you 13187I don't care 14180don't know I 15176I didn’t know 16175What's going on1I don't think2I think it s3What do you think4don't think so5I think I m6I think you're7don't think that8don't you think9I think you should10I think that's11know what I think12I think we should13I’ve been thinking14How do you think15I was just thinking 264--。
基于语料库的非英语专业学生词块使用特点研究

基于语料库的非英语专业学生词块使用特点研究作者:陈蕊来源:《校园英语·下旬》2017年第04期河南理工大学【摘要】本研究采用语料库语言学的研究方法,同时基于词块理论,从结构特点方面分析总结了大学英语学习者四级作文中词块使用的结构特点,并探讨了其对大学英语教学的启示与影响。
【关键词】语料库词块学术英语结构特征一、前言词块现象早在19世纪就被语言研究者关注,Ellis于1893年在研究中首次使用了“词块”这一概念。
随着互联网技术的进步和语言研究的发展,词块领域相关文献、成果层出不穷,很多语言研究者开始从不同角度对词块进行研究并提出了自己的定义,如:词束、词丛、程式序列、预制块等50多种。
与此同时,语言研究者们还在研究过程中对词块进行了不同层次和范畴的分类。
与给词块下定义一样,对词块进行合理分类也是一道极其复杂的难题。
不同语言学研究者从词块的频数、词块的亲疏程度、词块的结构及功能等角度进行了不同尝试。
在对词块的众多分类中,Biber(1999)的分类方法被认为是较为全面且被广大语言研究者们采用的一种。
Biber从结构层面将词块分为7种主要类型,各类型下又可进一步划分为12种子类型;功能层面上,词块可被分为:立场、组篇、指示和会话词块4大类。
Biber突破了仅从单一角度对词块进行分类的局限性,开创性的采用结构和功能相结合的分类方法,使研究者们对词块的认识和相关研究进入了一个全新的领域。
二、思路与讨论本研究将采用中国学习者英语语料库CLEC 中的大学英语4级ST3子语料库中的所有四词词块。
研究表明,四词词块在数量上较具代表性,更能体现学习者词块水平。
本研究先通过Antconc这一工具中的Cluster功能提取所需词块,然后,本研究从结构方面对四词词块进行数据分析及分类,最后找出深层次原因。
三、分布特点及原因探析本研究从结构上采取Biber(1999)口语会话和学术语篇中最常用词块的分类方法,得到了如下的分析结果:在这12种结构分类中,数量最多的前四位分别是:(动词/形容词)+ to短语片段、其他介词短语片段、系动词be+名词短语/形容词短语片段、先行词it+动词短语/形容词短语片段。
基于语料库的应用语言学学术英语词块研究及词块表的创建

[ 1 ] A l b e  ̄ ,H.Ma r c k wa r d t .E n g l i s h a s a S e c o n d L a n g u a g e a n d
圈 语 料 库 应 用 语 言 学 学 术 英 语 词 块 研 究 中 存 在 的 不 足
词块理 论 的重 要性开 始得到 广大研究 者和学 者 的
E n g l i s h a s a F o r e i g n L a n g u a g e [ J ] . P M L A , 1 9 6 3 ( 2 ) : 2 5 - 2 8 . N e w Y o r k : Wi l e y ,1 9 6 7 .
【 关键词】语料库 ;应用语言 学;学术英语词块研 究
的教学 方法 ,使外 语学 习向二语学 习方 式靠拢 ,以提高 语言教学 的效率 。 具体 而言 ,从 环境 因素来 说 ,尽量 把语言 和生活与
日常 文化联 系起来 ,创造尽 可能多 的丰富多彩 的 、贴近
【 中图分类号】H 0 — 0 【 文献标识码】A 【 文章编号】1 0 0 9 . 6 1 6 7 ( 2 0 1 7 ) 0 3 — 0 0 6 4 . 0 2
、
生 活的 语 言 环 境, 而 不是 一 开 始 就 要 求初 学 者大 量 背 诵
i l l引 言
国外对 于词块 的提 出最早 能追溯到 2 O 世纪 7 0 年代 牛 期 ,有研究 学者认 为 ,在英 语 中存 在着大量 的兼有 句法 和词 汇双重 特征 的固定语 言结构 ,这些模式 化 的结 构司 以作 为一个 整体 ,储 存到人 类 的大脑当 中。通过扩 大学 生 的词汇块 搭配 能力 以及 有效地 掌握基本 词汇语 言维
基于可比语料库的中外期刊ESP_论文摘要词块研究

2023年8月第40卷 第4期西南科技大学学报:哲学社会科学版Journal of Southwest University of Science and TechnologyAug. 2023Vol. 40 No. 4基于可比语料库的中外期刊ESP 论文摘要词块研究杨 成1,2 Fiona Henderson 1,2 朱战炜1 (1. 湖北汽车工业学院 湖北十堰 442002; 2. 澳大利亚维多利亚大学 澳大利亚墨尔本 3011)【摘要】基于可比语料库,借助词块结构、功能经典分类法考察了中外高水平期刊ESP 论文英文摘要中四词词块的结构、功能及关联性。
研究显示,在结构上中外期刊均以短语词块为主,句干词块为辅。
国内期刊显著多用名词和介词词块,少用其他词块。
两类期刊功能词块的类别、频数分布相似,结构——功能构式关联显著,但国内期刊关联性较弱。
研究表明多数中国作者已基本具备摘要语篇短语化输出意识,但句干词块名词化能力仍然欠缺。
同时,摘要写作依赖被动表达和固定句型,缺少人际互动。
【关键词】结构和功能;词块;英文摘要;可比语料库;学术写作【中图分类号】H030 【文献标识码】A 【文章编号】1672-4860(2023)04-0057-08收稿日期:2022-09-11 修返日期:2022-11-10作者简介:杨 成(1985-),男,汉族,湖北十堰人,副教授,硕士。
研究方向:ESP 教学、语料库语言学。
Fiona Henderson (1960-),女,澳大利亚人,副教授,博士,博士生导师。
研究方向:TESOL (外语教育学)。
朱战炜(1978-),男,汉族,湖北十堰人,教授,硕士,硕士生导师。
研究方向:外语教学。
基金项目:教育部产学合作协同育人项目:基于‚语料库+云平台‛的商务英语写作实践研究,项目编号:220506337253659;湖北省哲学社会科学项目:元话语名称在学术语篇中的人际互动研究,项目编号:21Q173;湖北省教育厅人文社会科学项目:语料库驱动的中国作者ESP 英文论文摘要中四元词块特征研究,项目编号:18Q113。
基于语料库的英语专业高年级学生口语词块结构特征研究_胡元江

*本文为教育部人文社科研究项目(编号:12YJC740033)、江苏省高校“青蓝工程”(编号:苏教师﹝2014﹞23号)、江苏省高等教育教改研究重点课题(编号:2015JSJG459)和国家社科基金项目(编号:13BYY079)的阶段性成果。
0.引言近三十年来,口语产出中的词块研究成为口语研究领域的重要内容,也是当前二语习得研究的热点之一。
研究显示,本族语者口语中至少三分之一的内容为词块(Biber et al.1999;Conklin &Schmitt 2008)。
词块有助于减少加工负荷(Alali et al.2012;李更春2014),可以预测口语产出能力(胡元江2011),甚至被视为二语水平高低的衡量标准之一(Cortes 2004)。
基于语料库的口语词块描述研究主要有两个路径:一是描述本族语者口语词块的特点;二是探讨学习者口语词块的使用情况,并常以本族语者语料为参照。
第一个路径的研究显示本族语者口语中大量使用各类型词块(如Biber et al.1999;Biber &Barbieri 2007;Biber 2009)。
第二个路径的探讨主要在外语教学环境下展开,国内的研究取得了一系列成果,有两个维度:学习者口语词块的局部特征和整体特征研究。
在第一个维度方面,卫乃兴(2004)发现学习者口语中能够熟练使用的词块数目较少、长度偏短、缺乏应有的变体。
许家金,许宗瑞(2007)的研究表明,中国大学生口语词块具有表达形式单一、受汉语影响的简单对译、自我中心、直率生硬等缺乏人际互动技巧的特点,且绝大部分互动词块不如英语本族语者。
在第二个维度方面,杨惠中,卫乃兴(2005:62)研究发现,中国非英语专业学生口语中普遍存在词块的多用、少用和误用现象。
王立非,钱娟(2009)研究发现我国学生英语独白中较少使用习俗语和多元词,词块使用频次与本族语者相比存在显著差异。
但是,以往研究中尚缺乏对英语学习者口语词块结构类型的研究,此类研究有利于我们全面而系统地了解学习者口语产出中总体词块情况和各结构类型的具体特点,从而为教材建设和口语教学提供有益的建议。
基于语料库的词块研究在教学中的应用

所示 :
表 一
词 且 包 括 词 汇 知 识 深 度 的延 伸 。 于 常用 词 来 说 , 对 掌握 词 汇 的形 、 、 只是 习 得 其 音 义 冰 山一 角 。 近些 年来 。 来 越 多 的 研究 者注 意到 词 汇 知 识 深 度 越 的重 要 性 。 言 的记 忆 和 存 储 、 出 和使 用 不 是 以单 个 词 为 单 语 输 位 ,那 些 固定 或 半 固定 模 式 化 的 版块 结 构 才 是 人 类 交 际 的最 小 单 位 ( ek r17 ) 即 词 块 是 人 们在 使 用 语 言 时 从 大 脑 当 B e,9 5 , 中提 取 的 预 置 在 人 类 大 脑 当 中 的 最小 的语 言 版 块 。 词 块 的 研 究 在 指 导 外 语 教 学 方 面 具 有 举 足 轻 重 的 地 位 ,那 么 如 何 通 过 利 用 语 料 库 索 引 开 展 词 块 教 学 ,从 而 加 强 学 习 者 的 语 言 输 出 呢 ? 文 利 用语 料 库 索 引分 析 手 段 对 词 块 进 行 实 证 分 析 , 本 为词 汇 教 学 提 供 一 个 新 的视 角 。
2 词块 的含 义 .
词 性
N.
模 式
Pe .+(h /d)ec (f rp te ajrah o)
r a h+N. ec
出现 次 数
1 3
7 9 8
V.
r a h+Pr p ec e .+N.
r a h+a v ec d.
5
语 料 库 语 言 学 的研 究 成 果 表 明 :形式 与 意 义 密 切 相 关 ” “ , “ 汇 与 句 法 共选 ” 基 于 词 汇 的这 种 特 性 , 块 这 个 概 念 被 提 词 . 词 出来 了 。Snli 19 ) ica (9 1 曾指 出 , 语 言 中 , r 在 同时 有 两 条 原 则 在 起 作 用 , 条 是 自 由选 择 原 则 . 条 是 熟语 原 则 。 自 由选 择 原 一 一 则 指 在 一 定 规 则 下 选 择 词 语 组 句 :熟 语 原 则 强 调 说 话 者 在 构 造 语 言 的 时 候 直 接 使 用 存 储 在 大 脑 中 的不 经 分 析 的 习 惯 性 结 构, 即词 块 。 词块 是语 言 学 习 及 输 出时 , 时 取 用 的 整 体 记 忆 随 的版 块 , 可 作 为组 句 的基 本 原 料 。 它 他 认 为 。 些 出 现 频 率 高 、 同程 度词 化 的 词 块 是 英 语 中 那 不 的基 本 语 言 单 位 。 h n eg 19 ) A eb r(9 8 的研 究 也 发 现 , 语 自然 话 英 语 中有 8 % 由各 类 板 块 结 构 组 成 ,也 就 是 说 大 部 分 话 语 是 通 0 过词块来实现 的。 3研 究 结 果 与 讨 论 . 语 料 库 索 引 是 语 料 库 最 基 本 的 分 析 手 段 。 濮 建 忠 (0 3 指 出 词 块 体 现 的 是 词 汇 语 法 的 基 本 精 神 和 观 点 . 20 ) 但 它 把 意 义 、 连 接 和 搭 配 有 机 地 结 合 成 一 体 。 下 面 以rah 类 ec 词 为 例 说 明 学 习 者 如 何 应 用 语 料 库 索 引 学 习 词 块 。由 于 ra h ec 的原 形 能 够 反 映 其 他 形 式 的 用 法 , 此 不 考 虑 其 他 屈 因
基于语料库的大学英语四级作文词块研究

基于语料库的大学英语四级作文词块研究一、研究背景语料库是指由自然、连续的语言运用文本或经过一定语言学信息标注组成的具有一定容量的电子文库。
通过研究特定语言或群体的语料库,可以分析、发现并总结出目标语言的一些重要特征。
进入70年代以来,随着一些大型和专业语料库的出现,语料库语言学的发展重新焕发了生机。
到目前,语料库语言学已经成为现代语言学的一个重要的分支。
对于语言学研究来说,语料库语言学以真实的语言数据为研究对象,通过对众多语言事实的概率分析,总结出语言运用的规律,从全新的角度揭示出自然语言的多样性和复杂性。
语料库最早也是最基础的应用是在语言数据的频率统计方面,如字频、词频、词类等的统计上。
随着计算机技术和互联网的发展,语料库在语言研究、语言教学和语言工程等方面得到了广泛的应用。
20世纪80年代,以计算机语料库为载体的语言数据研究使语言学家和教师对语言的实际使用情况有更为详细和客观的研究。
人们通过研究发现,语言是由被称之为“词块”的大量程式化表达所构成。
词块一词最早由美国语言学家Ellis 提出,随后众多语言学领域的学者对词块进行了多维度的研究,并提出各自不同的定义甚至名称:词束(lexical bundle)、词汇短语(lexical phrase)、预制块(prefabricated chunks)等共计50余种。
词块是学术论文中不可或缺的一部分,英语学习者过少使用或过多使用某些词块将会对语言产出的地道性产生了负面的影响,其被认为对于流畅会话和写作具有重要的作用。
虽然相关研究成果众多,但语言学界目前并未达成对词块定义的统一认识。
然而,国内外越来越多的研究者认识到词块对语言学习者的写作能力具有十分重要的意义。
学术英语是中国英语语料库的有机组成部分,反映了中国英语变体的一个较为规范的侧面。
基于大量可靠的数据,系统地描述学术英语文本在词语运用、词语搭配、词块分布特征和典型特点,不但能为学术英语文本的读者提供有用材料,而且能对他们进行的或者进行过的学术英语写作提供积极反馈。
基于语料库的英语专业学生英语议论文词块研究

研究 , 取 了两种 语料 库 中最 常 出现 的四词词 块 , 选 具体 描述 了两类 词 块 类 型 : 多词 词语 组 合 ( ut m l i
~
面表达 中 , 块 都 占有极 大 的 比例 。语 料 库 语 言 词 学 的研究 成果 也进 一步 验证 了词 块在 二语 习得 过 程 中 的作 用 。
词块 这个 概念首 次 出现 在 Bb r 1 9 ie 于 9 9年 出
版 的著作 Lnm nGa m r f pknadWrtn og a rm a oe n ie oS t E gs 。他 认 为词 块 是扩 展 化搭 配 , nlh中 i 它们 可 以
是两词组合 、 三词组合 、 四词组合或者四词以上的 组合。这些词的组合在结构和意义上可以是完整 的, 也可 以是 不完 整 的 。
万词 的美式 英语 口语 语料 库 和 5 0万词 的英 语 书 3
包含更多的信息 , 这就是预制语块 (r ar a d pe b ct fi e
cu k) hn s 。预制语 块普 遍存 在 于人 的记 忆 中 , 而且 随着 我们对 记 忆 内容 的熟 悉 程 度 而 增加 , 而 使 从 大脑 可 以存 储 和 回忆 更 多 的信 息 j 。
中的基 本结 构 单位 , 们 可 以在 语 言学 习过 程 中 它 获 取 , 多 词 块在 结 构上 都 比较 复 杂 。在 教 学 过 很 程 中 , 过 帮助 学生 掌握 各种 类 型 的词 块 , 以使 通 可 他 们不 断提 高语 言水 平 。 此 后 , ie j Bbr 2 比分 析 了规 模 分 别 为 40 跎对 5
词块差 异 。研 究 结果 显 示 : 词块 是 口语 及 书 面 语
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
职 业 时 空 2010年7月
基于语料库方法的“Friends”脚本词块研究
王 颖
(深圳信息职业技术学院,广东 深圳 518029)
摘要:利用“Friends”脚本语料库,使用 AntConc 免费绿色软件和 C O C A 美国当代英语语料库作为研 究工具,从三个方面对词块进行研究:一是高频词 块的提取;二是提取语境共现(Concordance)发现单 词的普遍用法;三是提取搭配词表发现词块的搭配 信息。
对所说的话不肯定或者负责任的程度较低。模糊标 emphatically,indignation,emotional and emphatic)。
签语的功能主要是语用的,它给听话者提供了解读 它可以被认为是一个组织性词块,是一种完全预制
话语的方向和框架范围。由于实时话语的压力和对 或部分预制单位。预制词块就像单词一样作为不可
参考文献: [1] 杨惠中.语料库语言学导论[M].上海:上海外语教育出
客观世界知识的局限,许多信息不可能准确地表达, 分的组块储存在大脑词库中,很容易自动检索。所
而为了保险起见或出于礼貌的考虑,说话者会故意 以,这样的一些预制词块给学生提供在缺乏丰富的
不准确地表达信息。这些动因导致了模糊标签语在 语言资源时自我表达的可能性,学生无需知道其内
本族语话语中的大量使用。表面上话语似乎显得空 部结构就可以流利地表达,在交际时可以整体快速
表 9 “o d d s”在“Friends”脚本语料库中搭配词的 MI 值
综合分析频数和 MI 值,我们发现“be attracted to”是“attracted”的普遍用法,那么该数据是否只 是在“Friends”脚本中的个案体现呢?我们在 COCA 口语语料库中同样输入“attracted”并且把结果按照 相关度排列(Relevance),它能过滤掉高频搭配的噪 音词(e m p t y w o r d s ),并给出与所查询的词关系最 为紧密的搭配词,查询结果按所查询的词的互信息 (M I )值的高低排列。本文仅展示部分数据:
表 7 “[be]attracted to”在 COCA 口语语料库中的频数
表 11 “against*odds”在 COCA 口语语料库中出现次数
通过分析以上数据,我们对“odds”的词语搭配 情况有了全面的了解。词语搭配分析对研究词语行为 具有重要的意义,因为,“词语像人类一样喜欢聚集”, 一个词的出现往往预示或决定其他词的出现。所以, 研究词语与词语搭配在句法学、语义学以及语用学研 究中具有重要价值。在外语学习中,学习者并不是孤 立地学习单个的词汇,而是成组成块地学习和运用。[4]
本文以“kind of”为例:“kind of”在“Friends” 脚本语料库中总共出现 292 次,在 2 9 2 个索引行中
收稿日期:2010-05-30 基金项目:深圳市教育学会“十一五”规划教育科研第二批立项课题(X H 0 4 5 ) 作者简介:王颖(1 9 7 8 -),女,深圳信息职业技术学院应用英语系讲师,研究方向:英语教学。
表 3 “Friends”脚本语料库的四元词块
值(Mutual Information)是对随机的两个词相关性的
度量,也就是要查询的词和可能性搭配词在所有语料
库中的共现搭配比重(百分比),根据互信息 MI 值衡
量的是词语搭配的力度,观察 M I 值很容易发现语料
库中的专有名词、科技术语、特殊词组和固定搭配,并
· 129·
学术平台
CAREER HORIZON
职 业 时 空 2010年7月
表 5 “attracted”在“Friends”脚本语料库中搭配词的 MI 值
故此,本文把搭配跨度设置为 4:4,以下是”odds” 在“Friends”脚本语料库中的搭配信息:
一些普遍用法促进英语词汇教学。目前,在校生包括
很多英语教师都没有在英语国家口语交际的实战经
验,口语语料库的词块学习可以弥补这个缺憾。词块
的熟练掌握使学生节省编码时间、缓解交际的实时
压力、增加语言范例、提高口语流利性等。所以,我
总结表 7 和表 8 中的数据:“be attracted to”出 们应重视词块的研究和教学,培养学生理解和运用
COCA(corpus of contemporary American E n g l i s h )—美国当代英语语料库(h t t p :/ / w w w . americancorpus.org/)由美国杨伯翰大学 Mark Davies 教授开发,该语料库库容量目前为 4 亿多词 汇,涵盖美国 1990~2009 年的口语、小说、流行杂 志、报纸和学术期刊五大类型的语料,该语料库免费 在线供研究者和学习者使用。
表 2 “kind of”作为模糊用语的索引行
根据对索引行的分析,“I can’t believe”通常
后面都跟人称代词,表达对问题的看法,通常是一些
愤怒、惊讶和质疑的态度。(I c a n ’t b e l i e v e
我们发现模糊用语的发言者通常都语气含糊, (epistemic)+(you,it,they)personal involvement,
二、词块研究
1 . 提取高频词块(n - g r a m ) 词块的频数高低反映词块在真实语言材料中的 使用情况,词块的频数信息也可以使学生初步掌握 词块,并了解词块的难易程度,AntConc 软件中的 n- gram 功能可以提取高频词块。n-gram 是由 n 个连续 单词组成的序列,一个、两个、三个词组成的元组分 别叫 uni-gram,bi-gram,tri-gram 等。需要强调的 是,由于计算机只是机械地切分统计词块的频数,所 以对于计算机生成的词块表,一定要进行后期的意 义分析,把生成词块表中没有意义的词块或者与研 究主题不相关的词块去除。本文以二元词块和四元 词块为例。“Friends”脚本语料库的二元词块经过处 理后的检索结果如下:
2.提取语境共现(Concordance)发现单词的普遍用法 本文运用 AntConc 软件的语境共现(Concordance) 中的 K W I C 显示格式(关键词居中对齐显示)查看检 索结果,检索结果可以保存为 text 文件。 本文以 attracted 为例观察到“attracted”20 个例 子中有 18 个是“be attracted to”的用法。互信息 MI
且语料库的整体容量对 M I 值的影响并不是很大。一
本文以“I can’t believe”为例:“I can’t believe” 般认为当MI>=3.0时,搭配呈现出显著性。“attracted”
总共出现了 3 3 5 次,以下是部分索引行的展示:
在“Friends”脚本语料库中搭配词的 MI 值如下:
三、结束语
然后我们再输入“[be]* attracted to”
本文综合利用 A n t C o n c 软件和 C O C A 口语语料
表 8 “[be]* attracted to”在 COCA 口语语料库中的频数 库对“Friends”脚本语料库进行某些词块的定量分
析,以期在口语教学中引入自然真实的语料并找到
· 128·
第 6 卷·第 7 期 职 业 时 空
学术平台
CAREER HORIZON
去除表示类别(type)的意思后,剩下的 153 个索 引行经过观察分析是模糊用语(h e d g e ),部分索引 行如下:
表 4 “I can ’t believe”部分索引行
表 10 “odds”在 COCA 口语语料库中搭配词的 MI 值
表 10 显示 against 是与 odds 最常见的搭配,相关 的搭配词块行如下:
表头的英文说明如下:“C O N T E X T ”是上下文 限定,也就是“attracted”的搭配词;“TOT”表示 词块出现的总数;“ALL”表示所查到的与 attracted 搭配的词在整个语料库中出现的总数。检索出现的 495 个“attracted to”的组成部分又是那些呢?首先 我们输入“[be]attracted to ”
一、研究目的、方法
AntConc 是日本早稻田大学 Laurence Anthony 博士实验室研发的多平台的语料库分析工具。 AntConc 可以免费下载使用并具有良好的语言教学辅 助功能:生成单词表、索引呈现(Concordance)、检 索词或词组在上下文中高亮显示、设定关键词左右 语境、检索结果的打印和存储等。
表 1 “Friends”脚本语料库的二元词块
为了提高学生习得的词块个数和口语流利程 度,本文尝试运用 AntConc 免费绿色软件和 COCA 美国当代英语语料库作为研究工具,结合风靡美 国多年的长篇情景喜剧《老友记》(“Friends”)脚 本语料库中的词块从以下三个方面进行研究:高 频词块的提取、提取语境共现(Concordance)发 现单词的普遍用法、提取搭配词表发现词块的搭 配信息。
表 6 “attracted”在 COCA 口语语料库中搭配词的 MI 值
所以发现最常见的搭配词是:the,are,what 等, 这些搭配词构成了“what are the odds”词块,那 么 “what are the odds”是不是 odds 的惟一搭配 呢?参考美国 COCA 口语语料库的 o d d s 的搭配词及 其 M I 值数据如下:
词块称作“语块”、“程式化语言”、“词汇短语”、 它是指一个具有一定结构,表达一定意义的预制的 多词单位,它以整体形式被记忆储存,并在即时交 际时被整体提取,而不需要使用语法规则来加工分 析。我们可以认为词块为“在语料库中频繁出现的 不同长度的连续词语片段。”[2]根据文献[3]的结论“语 块个数、语块运用频度与二语口语流利性之间存在 着相关性,也就是说,语块个数越多、语块使用频 度越高,口语表达越流利。”所以要培养学生以词块 为基本单位记忆和使用词汇的习惯。语言尤其是口 语不应该只学习单词,而是学习预制结构,这样会 加快学习过程并且增强口语的流利性。[1 ]