52 基于Web的多媒体新闻语料库的建设与实施_以听力教学与研究为目的的设计模型

合集下载

智能网络语料库iWeb及其在英语教学中的应用

智能网络语料库iWeb及其在英语教学中的应用

收稿日期:2018 ̄05 ̄18基金项目:安徽高校人文社会科学重点研究项目(SK2017A0388)作者简介:王毅聪(1979-)ꎬ男ꎬ安徽休宁人ꎬ又松大学Endicott国际经营学院讲师ꎬ博士ꎬ研究方向为跨文化传播㊁教育国际化ꎮ智能网络语料库iWeb及其在英语教学中的应用王毅聪(又松大学Endicott国际经营学院ꎬ韩国大田ꎬ34606)㊀㊀摘㊀要:网络语料库汇集了大量现实中语言运用的数据ꎬ对语言学研究有较大的实用价值ꎬ已成为语言教学与研究的主流方法之一ꎮiWeb语料库是由著名语料库语言学家MarkDavies于2018年5月发布的基于网络的新一代智能英语语料库ꎬ融合了BYU系列语料库的优势与特点ꎬ代表了国际上语料库语言学最新最前沿的研究成果ꎬ是英语教学研究的多用途辅助工具ꎮiWeb语料库以其超大的容量㊁强大的检索功能㊁高频词汇表等特点ꎬ可以更好地服务于英语教学ꎬ有着广泛的现实应用前景ꎮ关键词:iWeb语料库ꎻ语料库语言学ꎻ英语教学ꎻ应用中图分类号:H319.3㊀文献标志码:A㊀㊀文章编号:1008 ̄8008(2018)04 ̄0074 ̄07一㊁引言现代语言学的研究对象不外乎语言结构和语言运用ꎬ而这两项都得依赖对语料的分析[1]ꎮ对真实语料的收集与整合其实就是早期语料库的雏形ꎮ语料库是指一个由大量的实际使用的语言信息组成的ꎬ专供语言研究㊁分析和描述的语言资料库(Sinclair)ꎮ语料库是通过特定规则采样收集以该语言为母语的人群实际使用的㊁具有典型性的言语材料而建立起来的数据库ꎬ是语言研究与教学的重要方法ꎬ是编写词典㊁语法书和教材的重要依据与资源[3]ꎮ语料库具有数据样本大㊁语域范围广等优势ꎬ收集的语言材料典型性特征明显ꎬ多用于研究语言结构与运用的特征ꎬ如单词频次㊁语法结构㊁语义表达以及语用特征等ꎮ正因为上述特点ꎬ语料库在语言学的各个研究领域都凸显了其实际应用价值ꎬ弥补了传统研究方法的缺陷ꎬ已成为语言研究的三大方法之一[4]ꎮ新一代语料库的基本特征都在智能网络语料库得到了体现ꎬ它的出现为语料库的建设和研究带来了新的方法与工具ꎮ与前期的语料库相比ꎬ它具有海量语料资源㊁全球共享㊁智能标注等功能上的优势ꎬ因此在外语教学中具有重要的意义ꎮ随着近年网络技术的飞速发展和语料库应用的认识推广ꎬ网络语料库应用于英语教学已成为全球潮流ꎮ如何紧跟国际语料库的发展趋势ꎬ持续关注国际语料库研究最新最前沿的成果ꎬ将最新的智能网络语料库应用于英语教学与研究ꎬ与世界英语教学研究发展接轨ꎬ是中国英语教育界应担负的历史使命ꎮ二㊁语料库的发展与其在英语教学中的应用1959年ꎬ英国伦敦大学学院的Quirk就着手建立了 英语用法调查 (SEU)语料库ꎬ但是由于早期手工语料库的应用局限性与Chomsky转换生成语法理论的冲击ꎬ直到20世纪80年代语料库语言学才迎来了真正的繁荣发展ꎮ最早的计算机语料库是1963-1964年美国Brown大学建成的Brown语料库ꎬ是第一个面向语言学研究的电子语料库ꎬ映射了美国英语的部分语用形态ꎮ随后ꎬ各国多个大型语料库的陆续建成且容量不断扩大ꎬ如COBUILDBoE㊁BCET㊁BNC等ꎮ[5]另一方面ꎬ语料库语言学方法在科研和教学领域也得到了广泛的应用ꎮ根据Johansson等人的统计ꎬ1959-1980年间与语料库研究有关的项目数为年74均6.4项ꎬ而1981~1991年间项目数增加到年均43.6项ꎬ[6]可见语料库有关研究的迅猛增长态势ꎮ随着国际上基于语料库的研究方法在外语教学与研究领域的广泛应用ꎬ上个世纪80年代以后ꎬ我国外语界也引入了这种新的研究视角和方法ꎬ并逐渐开展语料库在外语教学领域中的具体应用研究ꎮ[7]我国最早出现的语料库相关文章为1982年发表的«JDEST科技英语计算机语料库»ꎻ最早把语料库应用到英语教学的文章为黄人杰㊁杨惠中所著«从统计角度分析科技英语词汇»ꎮ21世纪以后ꎬ语料库在中国英语教学与研究中的应用得到了飞速发展ꎮ在中国知识资源总库中进行关键词检索ꎬ1999-2017年之间语料库在英语教学中应用有关文章的发表数据如图1所示ꎬ呈线性增长趋势ꎮ[8]由此可见ꎬ基于语料库的应用研究在我国英语学界越来越受关注ꎮ2010-2016年期间有关论文发表数量年均增加500篇左右ꎬ而近4年发表的论文数量年均超过了3000篇ꎬ充分说明了近10年来语料库研究方法在我国英语教育界的广泛应用ꎮ图1㊀1999年以来 语料库与英语教学 有关的论文数量(来源:中国知识资源总库)三、智能网络语料库iWeb的特点按照McEnery&Hardie对语料库的代际划分ꎬ第四代语料库工具是集成了话语分析工具的网络语料库[9]ꎮ其突出代表是由美国杨百翰大学语言学教授MarkDavies创建的包括英国国家语料库(BNC)㊁美国当代英语语料库(COCA)㊁美国历史英语语料库(COHA)㊁全球网络英语语料库(GloWbE)ꎬ以及西班牙语与葡萄牙语语料库在内的14个独立又相互共享的杨百翰大学(BYU)系列语料库ꎮBYU系列语料库包含了立足于多个视角㊁目前世界最大最全的语料库ꎬ其免费在线使用的优势也使该系列语料库成为世界上应用最广的语料库ꎮ其中ꎬ美国当代英语语料库(COCA)于2008年发布ꎬ是全球语料库的经典之作ꎬ在我国学界的应用也相当广泛ꎬ[10]2017年中国用户数量排世界前列ꎮ根据中国知识资源总库的统计数据ꎬ2008-2012年我国公开发表的与美国当代英语语料库(COCA)有关的论文数年均仅有10篇ꎬ2013-2017年期间骤增至年均200多篇ꎮ这一方面说明了近几年COCA语料库在我国英语学界的受欢迎程度ꎻ另一方面也揭示了我国外语界的研究与国际语料库研究前沿有一定的脱节ꎬ存在时间上的滞后性ꎮ除了COCA之外ꎬ其他的BYU系列语料库ꎬ如BNC㊁GloWbE等网络语料库也都成了英语教学研究的有力辅助工具ꎮ2018年5月ꎬMarkDavies发布了TheIntelligentWeb-basedCorpus(iWeb)ꎬ他本人断言这 可能是对语言学习者㊁教师和研究人员最有用的杨百翰语料库 [11]ꎮ该语料库包含了来自94ꎬ391个网站的22ꎬ388ꎬ141个网页中的约140亿个单词ꎮ这是仅有的单词量超过12亿的三个大型网络语料库之一ꎬ收纳的语料涵盖了2017年这个时间节点上全世界政治㊁经济㊁科技㊁教育㊁文化所有重要社会层面的网络共时资讯ꎮ因此ꎬ这个语料库的建成并投入使用将有助于语言研究的进一步科学化ꎬ再次推进认知语言学的现实应用ꎮiWeb语料库领先于其他语料库的主要优势是其超大的语料容量㊁强大的检索功能㊁个性化虚拟语料库以及高频词汇表辞典主页等ꎬ对于语言研究者㊁学习者与教师来说都是非常实用的工具ꎬ而且在网络页75面上可免费获取使用ꎬ检索使用非常便利ꎮ1.iWeb语料库拥有其他语料库所无法企及的语料容量ꎬ收录了140亿个单词ꎬ2ꎬ200万个网页ꎬ95ꎬ000个网站ꎬ由图2可以看出ꎬ不仅远远超过了BYU系列的其他语料库ꎬ也遥遥领先于JohnSinclair所创建的著名的BoE语料库(BankofEnglish)ꎮ语料库收录的文本越多ꎬ其所覆盖的面越宽ꎬ则语料库提供的信息就越可靠[12]ꎮ与其他大型网络语料库随机抽样不同ꎬiWeb中95ꎬ000个网站是以系统化的方式选择的ꎬ每个网站抽取240个网页ꎬ每个网页抽取145ꎬ000个词ꎮ正因为其语料资源的庞大与样本来源的丰富多样性ꎬ使得运用该语料库开展英语研究的可信度便大大增加ꎮ图2㊀五大著名英语语料库的容量对比2.搜索引擎功能强大ꎬ查询界面简明㊁类型多㊁速度快ꎮ该语料库基于浏览器与服务器融合的关系数据库ꎬ是一个利用云计算技术将语料库与分析工具合二为一的软件系统[13]ꎮ其查询平台主要由检索(Search)㊁词频(Word)㊁上下文(Context)与概述(Overview)4个人机交互界面组成:检索界面主要是检索栏与检索选项ꎻ词频界面(图3)显示检索结果的类型汇总及其出现的频次ꎻ上下文界面显示检索结果的出处与上下文等语用环境信息ꎻ概述是对语料库的介绍与使用帮助ꎮiWeb语料库与BYU系列语料库之间实现了无缝对接ꎬ相互补充ꎬ检索方式也一致ꎬ主要提供了以下4种方式来进行全库语料的检索ꎮ图3㊀iWeb语料库检索界面首先ꎬ如图4所示在列表(List)选项下检索栏内输入词根㊁短语和字符串ꎬ检索结果将以索引列表的形式呈现ꎮ因为语料库对速度进行了优化ꎬ所以对短语和通配字符串(如∗iaꎬin∗ive等)的搜索速度也非常快ꎬ大部分可以在4--5秒内呈现相关结果ꎬ还可以检索单词词根(lemma)㊁词汇的派生形式ꎬ动词短语㊁名词词组ꎬ形容词+名词短语ꎬ以及甚至像 FromJunetoJuly BUY∗形容词+名词 这样的意群76组合ꎮ图4㊀iWeb语料库结果索引界面其次ꎬ在单词(Word)选项下搜索栏内输入检索单词ꎬ再点击检索结果中的Context按钮ꎬ则转到上下文界面(图5)ꎬ这里提供与有关结果相关的主题ꎬ包含该词的网站网址以及语境共现(concordance)与词义聚类(cluster)相关词等具体信息ꎮ图5㊀iWeb语料库上下文界面再次ꎬ在搭配(Collocate)选项下搜索栏内查询一个词如何搭配使用时ꎬ可以通过设定检索前后单词的数量与词性来搜索搭配的范围ꎮ最后ꎬ上下文关键词(KWIC)选项是用来检索某个单词上下文内容的展示ꎬ即查询时显示左边的几个词或右边的词是什么ꎮ比如想要查询suggest的用法ꎬ则可以在KWIC选项中来检索ꎬ检索结果如图6所示ꎬ显示了suggest在语句中前4个词与后4个词分别是什么ꎬ并用不同颜色标识出来了相关词的词性ꎮ经过对索引行进行简单抽样分析ꎬ研究者即可得出初步的推论:suggest之前多用不定式ꎬ后面多用that引导的宾语从句ꎮ3.可创建独立的 虚拟语料库iWeb充分发挥了微软关系数据库技术的优势ꎬ可以在几秒钟内ꎬ通过输入话题关键词来创建个性化㊁独立的 虚拟语料库 ꎮiWeb依据与此话题的相关度列出词汇与短语ꎬ文章网页等信息ꎬ便于比较不同虚拟语料库中单词㊁短语或语法结构的频率与用法ꎮ这可以省去了自建语料库的麻烦ꎬ适用于主题式语言77图6㊀iWeb语料库KWIC选项检索结果界面分析的研究人员或引导学生进行数据驱动学习ꎮ4.语言学习中非常实用的6万个高频词汇列表与基于COCA的成果提取整理的20000个高频词汇一样ꎬiWeb也依据大数据筛选出了英语中使用频率最高的60000个单词ꎮ高频词汇列表中的6万个单词按词根的使用频次排序ꎬ每个单词都有一个 辞典主页 ꎬ不仅提供了每个单词的原形与屈折形式㊁释义㊁词性㊁搭配㊁例句㊁同义词㊁语境共现等情况ꎬ还有单词的发音㊁与该词有关的视频㊁谷歌的相关图像㊁首选语言的相应译文以及更多信息的网页链接ꎮ高频词汇列表中的单词甚至可以通过语音识别来进行模糊搜索ꎬ查询的便利性㊁精确度㊁信息丰富程度远远超过了词典以及其他各类高频词汇表ꎬ对学习者和教师来说界面更直观㊁功能更全面㊁效率更高ꎮ四、iWeb语料库在英语教学中的应用语料库语言学以真实的语言材料作为研究对象ꎬ是主要着眼于语言运用的一种研究方法ꎬ因此外语教学是语料库的重要应用领域ꎮiWeb语料库一般应用于语言教学目标㊁内容选择㊁教学过程以及考核评价等环节ꎮ从iWeb语料库的特点可以看出ꎬiWeb搜集的语料代表了英语当前使用中的典型用法ꎻiWeb语料库的设定与检索分析工具都按照服务教学的需求进行了改进ꎬ比如:通过多媒体链接技术提供了更多的信息资源ꎬ通过提供60000高频词汇表的辞典主页来指导帮助英语学习ꎮ相比于其他BYU语料库ꎬiWeb语料库的功能优势使得它能够真正被应用到英语教学中ꎮ1.语料库对英语教学目标的指导意义大型语料库对语言交际的各个方面ꎬ从词汇㊁语法㊁语义㊁语用一直到语篇层面ꎬ都进行了全面的描述ꎬ其成果可以体现在教学大纲设计中ꎬ为精选教学内容㊁制订教学目标提供可靠的决策依据ꎮ[14]语言的使用变化一直是比较快的ꎬ之前流行的一些英语表达方式过几年可能就会过时ꎬ很少再使用了ꎮ英语课程教学目标的制定者可以通过查询iWeb语料库来检验教学目标的设定是否合理ꎬ是否贴近现实中英语的使用ꎮ例如ꎬ初次见面时使用的问候语 Howdoyoudo? 在iWeb语料库仅出现了638次ꎬ而 Nice/pleasuretomeetyou 则出现了6049次ꎬ是前者的10多倍ꎮ这说明英语使用者们现在更倾向于使用 Nice/pleasuretomeetyou ꎬ那么在设定教学目标时就要考虑实际应用情况而对这两个表达方式进行取舍ꎮ2.iWeb语料库在编写教材㊁词典等工具书方面的应用语料库是编撰词典㊁语法参考书和教材的重要依据与现实资源ꎮ正是依托于BoE语料库的研究成果ꎬ«柯林斯英语大词典»成了最为成功㊁最为权威的英语词典之一ꎮ«朗文英语口语与笔语语法»出版时也说明自己的语法体系是 根据口语语料库建立起来的一种全新的语法 ꎮ[15]同时ꎬ教学大纲与教材里词汇表的开发均应基于大型语料库ꎬ收录的单词大部分都是在对大量普通语料中提取出来的ꎮ由于高频词汇的准确性很大程度上依赖于语料库的规模ꎬ容量越大的语料库进行的词汇频次分析就越准确ꎮ因为78iWeb语料库样本资源领先于其他所有通用语料库ꎬ所以根据iWeb语料库的分析成果总结出来的高频词汇表就更可靠ꎬ在实际生活中运用的可能性也就越高ꎬ对英语教学来说也就更有权威性ꎮ3.iWeb语料库在教学过程中的应用作为一种多媒体智能网络语料库ꎬiWeb语料库集成了数据库检索技术㊁网络流媒体技术及人机交互界面ꎬ为英语教学提供真实语料资源ꎬ便于开展数据驱动学习ꎮ语料的纯正与准确可以用来反映客观真实的语用规律ꎬ一方面可以应用于教学ꎬ作为英语学习者的参照标准ꎬ便于学习者模仿对照ꎻ另一方面依据TimJohns提出的数据驱动学习方法(Data-drivenLearning)应与于教学ꎬ指的是引导学生观察语料库中的真实语料ꎬ描述㊁分析㊁归纳语用现象ꎬ让学生带着问题去利用语料库开展探索学习ꎮ按照因材施教的个性化学习原则ꎬ教师可以基于iWeb语料库针对不同学生自建分级虚拟语料库ꎬ引导学生自己发现规则ꎬ通过 探索 英语的表达方式进行学习ꎬ掌握地道的英语㊁培养英语语感ꎮ数据驱动学习方法有助于学生自学习惯的养成ꎬ激发了学生自主学习与研究的主观能动性ꎬ提高了学生的语言意识与学习能力ꎮ[16]iWeb语料库还可用于词汇教学ꎬ为之提供一个更有效更直观的学习工具ꎮiWeb语料库提供的60000高频词汇列表可以说是对英语教学最为有用的工具ꎬ词汇量已经可以满足绝大多数情况下的教学需要ꎬ而iWeb语料库基于关系数据库的框架结构结合了多媒体呈现技术与检索工具ꎬ使得高频词汇的辞典主页不仅提供传统意义上的辞典语义与用法功能ꎬ还对单词进行声音㊁图像㊁视频等多维度的诠释ꎬ对英语学习有重要帮助ꎮ4.iWeb语料库在教学评价中的应用语料的真实性是语料库的最大优势ꎬ比凭空杜撰出来的例句更地道ꎬ更符合逻辑ꎮ[17]因此ꎬ在组试卷的过程中iWeb语料库不仅可以提供了上下文与近义词比较等工具ꎬ还按照主题关键词将有关文章分类形成索引ꎬ对教师设计阅读理解㊁翻译等题型来说是非常方便的ꎮ在写作与翻译的过程中ꎬ学习者在把目的语转化为英语时经常对于英语中是否有这种表达存有疑虑ꎮ传统的语言描述语法只区分英语中 正确的 和 错误的 话语ꎬ但却很少关注实际语言运用中哪些话语经常出现ꎬ哪些话语极少出现ꎮ基于iWeb语料库庞大的数据ꎬ对话语查询后语料库中没有检索结果或者频次非常少ꎬ即可判定这些话语或是 错误的 ꎬ或是 典型性 不够ꎬ即为非常罕见的表达ꎬ也可能是已经过时的表达ꎮ例如ꎬ用iWeb语料库检索以前英语教材与辞典上常见的表达方式 Raincatsanddog 的使用频次ꎬ检索发现其频次仅有65次ꎬ而表达同样意思的rain与pour的搭配在语料库中出现了1072次ꎮ显然ꎬ现在英语教学中应当重视rain与pour的搭配使用ꎬ而评价学生是否掌握了 Raincatsanddog 的意义就不大了ꎮ五㊁结论iWeb语料库作为当今世界上使用最为广泛的BYU系列语料库的集大成者ꎬ在数据规模㊁运行速度㊁系统功能等多个方面上都堪称国际语料库语言学的最先进最前沿的研究成果ꎮ虽然人机交互界面还有待优化ꎬ数据分析功能也还不全面ꎬ但是它提供了定量与定性结合的研究方法ꎬ拓宽了语言研究的视野ꎬ是词典编纂㊁翻译㊁二语习得㊁文学与文化等领域研究的最新工具ꎬ特别为英语教学提供了多方面应用的可能ꎮ对于我国英语教育工作者来说ꎬ研究iWeb语料库一方面可以紧跟世界语料库的发展潮流ꎬ尽力赶超西方同行在这一领域的领先优势ꎻ另一方面应不断深入探究iWeb语料库在英语教学与研究中新的应用ꎬ利用其为新时代的英语教学改革服务ꎮ参考文献:[1]BiberꎬD.ꎬConradꎬS.&ReppenꎬR.CorpusLinguisticsInvestigatingLanguageStructureandUse[M].Cambridge:CambridgeUniversityPressꎬ1998.[2]BiberꎬD.ꎬJohanssonꎬS.ꎬLeechꎬG.ꎬConradꎬS.&FineganꎬE.LongmanGrammarofSpokenandWrittenEnglish[M].LondonandNewYork:AddisonWesleyLongmanꎬ1999.[3]DaviesꎬMark.TheAdvantageofUsingRelationalDatabasesforLargeCorpora:SpeedꎬAdvancedQueriesandUnlimitedAn ̄notation[J].InternationalJournalofCorpusLinguisticsꎬ2005(10).[4]JohanssonꎬStig&Anna-BritaStenstr?m.(Eds.).EnglishComputerCorpora:SelectedPapersandResearchGuide[C].Berlin:Moutonꎬ1991.79[5]SinclairꎬJ.LookingupanAccountoftheCOBUILDProjectinLexicalComputing[M].CollinsELTꎬ1987.[6]SinclairꎬJ.M.CorpusꎬConcordanceꎬCollocation[M].Oxford:OxfordUniversityPressꎬ1991.[7]TonyMcEneryAndrewHardie.CorpusLinguistics:MethodꎬTheoryandPractice.Cambridge:CambridgeUniversityPressꎬ2012.[8]陈潇.语料库㊁语料库语言学及其应用[J].佛山科学技术学院学报ꎬ2006(4).[9]丁信善.语料库语言学的发展及研究现状[J].当代语言学ꎬ1998(1).[10]何安平.语料库辅助英语教学入门[M].北京:外语教学与研究出版社ꎬ2012.[11]梁茂成ꎬ李文中ꎬ许家金.语料库应用教程[M].北京:外语教学与研究出版社ꎬ2010.[12]许家金㊁吴良平.基于网络的第四代语料库分析工具CQPweb及应用实例[J].外语电化教学ꎬ2014(5).[13]唐洁仪ꎬ何安平.语料库在外语教学中的应用[J].外语电化教学ꎬ2004(5).[14]张欢.网络语料库COCA在大学英语教学中的应用[J].新乡学院学报ꎬ2013(5).[15]汪兴富ꎬMarkDavis.美国当代英语语料库(COCA) 英语教学与研究的良好平台[J].外语电化教学ꎬ2008(123). [16]杨惠中.语料库语言学导论[M].上海:上海外语教育出版社ꎬ2002.[17]中国知识资源总库.语料库与英语教学[EB/OL].2018-06-11.http://yuanjian.cnki.com.cn/Search/Result.ʌ责任编辑㊀马㊀牛ɔIntelligentWeb-basedCorpusiWebandItsApplicationinEnglishTeachingWANGYi-cong(EndicottCollegeofInternationalstudiesꎬWoosongUniversityꎬDajeonꎬKoreaꎬ34606)Abstract:TheIntelligentWeb-basedCorpusbringstogetheralargeamountofreal-worlddataforlan ̄guageuseꎬwhichisofgreatpracticalvalueforlinguisticstudiesꎬthushasbecomeoneofmainstreammethodolo ̄gyoflanguageteachingandresearch.TheiWebcorpusisanewgenerationofweb-basedintelligentEnglishcorpusreleasedbythefamouscorpuslinguistMarkDaviesonMayꎬ2018.Itcombinestheadvantagesandchar ̄acteristicsoftheBYUserialcorporaandrepresentsthelatestandmostcutting-edgeresearchresultsincorpuslinguisticsinternationallyaswellasbeinganmulti-purposesmartaidingtoolsforEnglishteachingandre ̄search.TheiWebcorpuscanserveEnglishteachingbetterwithitslargetokencapacityꎬpowerfulsearchengineꎬhighfrequencyvocabularylistandotherfeaturesꎬsoitmayhaveawiderangeofpracticalapplicationsinpros ̄pect.KeyWords:IntelligentWeb-basedCorpusꎻCorpusLinguisticsꎻEnglishTeachingꎻApplication80。

语料库创建的具体实施步骤

语料库创建的具体实施步骤

语料库创建的具体实施步骤1. 准备语料在创建语料库之前,首先需要准备合适的语料。

语料是指已经标注好的文本数据集,可以包括文档、句子或者短语。

语料的选择应该与你的语言模型训练目标相匹配,例如,如果你的目标是训练一个用于自动文本摘要的模型,那么你的语料应该包含大量的新闻文章或者博客文章。

语料库的大小和质量对训练模型的效果有很大的影响,因此在准备语料时需要尽可能收集大量的高质量数据。

在准备语料时,还需要考虑到数据的来源和版权问题。

确保你有权使用和处理所选语料中的所有文本。

2. 数据清洗与预处理在创建语料库之前,必须对数据进行清洗和预处理。

数据清洗的目的是去除一些无用或噪音数据,以提高模型的质量。

预处理的目的是将数据转化为可用于训练的形式。

下面是一些常见的数据清洗和预处理步骤:•删除特殊字符和标点符号•转换为小写•去除停用词(如“的”,“是”,“在”等)•词干提取(例如将“running”转化为“run”)•标准化词汇形式(如将美国英语和英国英语统一为一种形式)•分割文本为句子或短语•去除重复数据数据清洗和预处理工作可以使用各种编程语言和工具来完成,如Python中的NLTK库或者其他文本处理工具。

3. 构建语料库构建语料库是将预处理后的数据存储起来,以便进行进一步的处理和训练。

一种常见的方法是将数据保存为文本文件,每个文本文件对应一个文档,每行对应一个句子或短语。

文本文件之间可以使用特殊符号或者空行进行分隔。

你也可以使用数据库或者其他数据存储方式来构建语料库。

在构建语料库时,还可以考虑将不同类型的文档存储在不同的文件夹或者数据库表中,以便更好地组织和管理数据。

4. 标注语料库标注语料库是指为语料库中的文本数据添加一些额外的标记或标签,以便后续的处理和分析。

例如,你可以为每个文档添加一个主题标签,或者为每个句子添加一个情感极性标记。

标注语料库是为了进一步的研究和应用而做的准备工作,具体的标注方式和规则需要根据具体的需求来定制。

新闻听力教案设计模板范文

新闻听力教案设计模板范文

课程名称:新闻听力课时安排:2课时教学目标:1. 知识与技能:(1)掌握新闻听力的基本技巧,如注意新闻要素、抓住关键词、理解新闻背景等。

(2)提高学生听力理解能力,学会从新闻中获取信息。

(3)培养学生关注时事、关心国家大事的习惯。

2. 过程与方法:(1)通过听力练习,提高学生听、说、读、写能力。

(2)引导学生学会运用多种方法处理听力材料,如查字典、做笔记等。

(3)培养学生的合作学习意识,提高课堂互动效果。

3. 情感态度与价值观:(1)激发学生对新闻听力的兴趣,培养学生热爱新闻、关注社会发展的情感。

(2)培养学生的民族自豪感,增强对国家的认同感。

教学重点:1. 新闻听力的基本技巧。

2. 从新闻中获取信息的能力。

教学难点:1. 在复杂语境中准确理解新闻内容。

2. 培养学生关注时事、关心国家大事的习惯。

教学准备:1. 新闻听力材料:国内外时事新闻、政治、经济、文化、科技等方面的新闻。

2. 教学课件:新闻听力技巧讲解、听力练习题、听力材料文本。

3. 教学工具:多媒体设备、录音机等。

教学过程:第一课时一、导入1. 提问:同学们,你们平时喜欢看新闻吗?你们觉得新闻对我们有什么作用?2. 引导学生思考新闻的重要性,激发学生对新闻听力的兴趣。

二、新闻听力技巧讲解1. 讲解新闻听力的基本技巧,如注意新闻要素、抓住关键词、理解新闻背景等。

2. 通过实例分析,让学生了解新闻听力的方法。

三、听力练习1. 学生分组,每组选择一篇新闻材料进行听力练习。

2. 教师指导学生注意新闻要素,找出关键词,理解新闻背景。

四、课堂小结1. 总结本节课所学的新闻听力技巧。

2. 学生分享听力心得,教师点评。

第二课时一、复习导入1. 回顾上节课所学的新闻听力技巧。

2. 提问:同学们,你们觉得掌握了新闻听力技巧后,在听力过程中还有哪些困难?二、听力材料分析1. 教师展示一篇新闻材料,引导学生分析新闻要素、关键词和新闻背景。

2. 学生分组讨论,总结分析结果。

《2024年语料库研究》范文

《2024年语料库研究》范文

《语料库研究》篇一一、引言语料库作为一种资源丰富的语言数据集合,已成为语言学、语言学研究以及相关领域的热点研究对象。

它能够为语言分析、语言教学、翻译、词典编纂等多个领域提供支持。

本文将介绍语料库研究的重要性,并就当前语料库研究的现状进行梳理,进而分析其中存在的挑战和问题,并探讨未来的发展趋势。

二、语料库研究的现状1. 语料库类型及建设随着技术的进步,语料库建设日趋成熟。

根据不同领域和用途,语料库可大致分为通用型和专用型。

其中,通用型语料库如COCA、BNC等,涵盖了广泛的语言使用场景;专用型语料库则针对特定领域或主题进行收集,如法律、医学等。

此外,还有多媒体语料库和口语语料库等类型。

在建设过程中,研究者需考虑语料库的规模、代表性、时效性等因素。

2. 语料库应用领域语料库在多个领域得到了广泛应用。

在语言学领域,语料库为语言研究提供了丰富的数据支持;在翻译领域,语料库可帮助提高翻译的准确性和效率;在词典编纂方面,语料库为词汇的收集和释义提供了有力支持。

此外,在语言教学、自然语言处理等领域,语料库也发挥着重要作用。

三、当前挑战与问题尽管语料库研究取得了显著成果,但仍面临诸多挑战和问题。

首先,在语料库建设方面,如何确保数据的代表性和真实性是一个亟待解决的问题。

此外,随着技术的发展,如何利用人工智能等手段对语料库进行智能化处理和利用也是一大挑战。

其次,在应用方面,如何将语料库与实际需求相结合,提高应用效果也是一个难题。

此外,不同领域和行业对语料库的需求存在差异,如何满足这些不同需求也是一项挑战。

四、未来展望面对未来的发展,语料库研究将呈现以下几个趋势:1. 多样化与个性化:随着用户需求的多样化与个性化发展,未来的语料库将更加关注用户需求和实际应用场景的差异。

研究者需要设计更多类型的语料库来满足不同领域和行业的需求。

2. 智能化与自动化:人工智能技术的不断发展将促进语料库的智能化和自动化处理。

例如,利用自然语言处理技术对语料进行自动标注、分类和分析等操作,提高处理效率和准确性。

基于Web的在线教育平台的设计与实现研究

基于Web的在线教育平台的设计与实现研究

基于Web的在线教育平台的设计与实现研究随着科技的不断进步和互联网的普及化,网络化教育逐渐成为一种受欢迎的学习方式。

在这一背景下,基于Web的在线教育平台应运而生。

本文将重点探讨基于Web的在线教育平台的设计与实现研究。

一、基于Web的在线教育平台的定义基于Web的在线教育平台是一种利用互联网技术,搭建在线教育平台,为人们提供在线教育服务的平台。

它通过网络实现教师和学生之间的互动,可以随时随地进行学习和教学活动。

二、基于Web的在线教育平台的优势1、时间和空间上的自由化基于Web的在线教育平台可以让学习者在任何时候、任何地点进行学习,不受时间和空间的限制。

2、个性化的学习在线教育平台可以根据学生个人的需要和差异性制定出个性化的学习计划。

教师可以根据学生的学习进度、学习情况以及学习方法的差异,进行全面的指导和辅导,从而实现个性化的学习。

3、交互性强在线教育平台可以促进学生和教师之间的交互和沟通,提高学习质量。

学生和教师可以通过论坛、聊天室和电子邮件等方式进行交流和反馈,教师可以及时发现学生的问题,解决学生的困惑。

三、基于Web的在线教育平台的设计与实现1、系统架构设计基于Web的在线教育平台需要有一个清晰的系统架构设计。

该系统可以分为前端、后端以及数据库三部分。

前端是由客户端和Web服务器组成,后端是由应用服务器和数据库服务器组成。

后端主要实现业务逻辑处理,前端主要实现用户的交互和视觉设计,数据库主要用于存储数据。

2、数据库设计基于Web的在线教育平台需要有一个高效的数据库设计。

数据库包括学生信息、教师信息、课程信息和作业信息等。

需要根据实际需要来设计数据库结构,确保系统的高效性和可靠性。

3、可靠性设计基于Web的在线教育平台需要具备高可靠性。

设计时需要考虑系统的稳定性、数据安全性、可扩展性和容错能力等方面。

需要做好系统的备份和恢复,确保数据的安全性。

此外,需要设计好系统升级和扩展的规划,以满足后续的需求变化。

基于WEB的多媒体素材管理库的开发及应用分析

基于WEB的多媒体素材管理库的开发及应用分析

基于WEB的多媒体素材管理库的开发及应用分析作者:林永怡陈自琛来源:《硅谷》2011年第09期摘要:目前,国内的教育网站涵盖比较丰富的建设资源。

这些资源在实践中扮演着越来越重要的角色,是广大师生学习、各社会人士研究的重要渠道。

对开发和应用WEB的多媒体素材库进行初步的分析,探究完善多媒体素材管理库的方法。

关键词: WEB建设;多媒体素材管理库;分析中图分类号:G434文献标识码:A文章编号:1671-7597(2011)0510134-01教育资源系统、常态远程教育平台、高校教育数据库、和远程学习教育试点是多媒体素材的主要内容。

另外衍生出一系列二级教育建设内容,如多媒体材料库、教案数据库、在线教学频道、案例课件库等,它们的产生和发展为众多的学员提供了丰富的学习资源。

1 重点开发技巧高等教育的多媒体素材库突破了传统教学中意纯文字学习的单调形式,以文本、声音、图像、视频影像等相互交叉结合构建出时代感强烈的新颖教育资源库。

多元化的学习资源和海量的选择空间更容易激发广大学员的学习兴趣,发挥其主观能动性,拓展知识的视野。

因此,重点研究以上的要素能进一步优化多媒体网络体系中的信息和数据,实现效用最大化。

1.1 合理运用检索技术。

在文本、图像、音频、视频影像的共同作用下,才能构建出高質量的多媒体素材库。

在繁多的资源中必须合理使用资源检索才能使学习者搜索出合适自己的资源。

检索系统应符合简明、高效、易操作等特性,以方便搜索者。

另外,管理库中的资源要符合原来的教学知识结构,以各学科中的知识结构为基础,向关联的多媒体素材进行辐射,通过高效检索使WEB多媒体素材库更完善:通过输入题目、关键字等的信息便可对对应的多媒体资源进行检索。

1.2 完善B/S结构的多媒体素材管理库。

正确维护和管理多媒体素材管理库是完善之的重要途径,这不仅为广大的使用者提供便利,还有利整个多媒体管理技术的优化升级。

库中需要广泛收集以图像为重点内容包括音频素材、动画素材、视频素材的规范化存档和应用。

高中英语听说语料库的构建及应用研究

高中英语听说语料库的构建及应用研究一、背景语料库是以电子计算机为载体承载语言知识的基础资源,它是按照采样标准、代表语言变体和代表某一种语言的电子文本集合。

立足于语言教学角度,语料库可以为语言学习者提供自然文本,其最具代表性的语言功能是索引关键词,学习者通过划定特定词汇、短语和句子获得大量被查询相关语言实例,进而采取分析推理,获得语言学习规律和心得。

构建英语教学语料库的平台基础是多媒体信息技术,本研究采用AntConc语料库检索软件,它适合于语言文字等方面的研究,具有索引,词表生成,主题词计算,搭配和词族提取等多种功能,以便于更好地分析文本中的词汇主题。

随着计算机技术的突飞猛进,语料库软件开发和应用也得到极大地推广,基于语料库技术的语块教学在高中英语听说教学方面有着极大的优势。

二、意义语料库中收集了真实环境中产生的语言,更加重视单词频度的作用,更加强调单词的搭配关系和词语用法,更加注意语言变异,更加注意词汇在语法中的作用,更加重视语料的真实性,提高了词汇教学大纲( lexical syllables),词典和其他教学材料的编写。

提高学生在语言学习中的主动性。

例如“数据驱动的学习” (DDL), “交互式学习”(reciprocal learning)。

本构建高中英语听说语料库并采用Lewis的“语块教学法”,旨在探讨利用语料库技术把语块教学法应用到高中英语听说教学中的可行性。

三、现状述评随着认知语言学和心理语言学理论的发展和研究的深入,美国心理学家米勒(Miller)和塞尔弗里奇(Selfridge)于1950年率先提出“chunking”即组块的概念,主要指将若干小的单位组合成更大一记忆单位的信息加工过程。

组块策略的运用对提高记忆效率,巩固短时一记忆的效果有很大的好处。

里奇(1991)曾指出,一个语料库具有代表性,是指在该语料库上获得的分析结果可以概括成为这种语言整体或其指定部分的特性。

罗凤文等(2002)研究得出词块教学对提高英语学习者的语言输出能力具有促进作用。

构建语料库的方法

构建语料库的方法《构建语料库的超酷方法,独家分享!》嘿,宝子!今天我要跟你唠唠构建语料库这个超有用的事儿,就像我要把我压箱底的独家秘籍传给你一样,可别外传哦(开个小玩笑啦)。

一、明确语料库的用途(这就像确定目的地一样重要)首先呢,你得知道为啥要构建这个语料库。

是为了写学术论文,还是搞创作写小说,或者是为了学习外语呢?比如说我有一次想写个科幻小说,结果我构建语料库的时候,都不知道要收集啥,后来发现我连科幻小说里常见的一些科学术语、星际旅行的词汇都没搞清楚,就瞎收集,那肯定不行啊。

就像你要去旅游,你得先知道你要去海边还是山里吧。

要是为了学术论文,那就要围绕你研究的领域,像我一朋友研究古代历史的,他构建语料库的时候就专门收集古代文献、考古报告这些相关的语料。

二、确定语料的来源(找食材的过程)这一步就像我们做饭找食材一样。

来源可多啦。

1. 书籍去图书馆或者网上找相关的书籍。

如果你是搞文学创作,那各种经典小说、散文都是你的宝库。

我有次构建关于爱情主题的语料库,就从《霍乱时期的爱情》《简·爱》这些书里扒出了好多超感人的句子和词汇。

2. 网络资源这可是个大宝库。

各种新闻网站、博客、论坛啥的。

不过要小心筛选哦,就像你在菜市场买菜,有些菜看着新鲜,其实可能有农药残留呢。

比如你要构建关于时尚的语料库,时尚博主的文章就很有用,但有些小网站可能会有错误信息。

像我之前在一个不靠谱的小论坛上找美食语料,结果好多错字,还把一些食材名字都写错了,差点闹笑话。

3. 学术数据库(如果是学术用途)学校或者机构的学术数据库里有很多专业的研究论文、报告。

这些就像高级食材,特别适合学术研究这个“大餐”。

三、收集语料(开始疯狂囤货啦)现在开始把你找到的语料收集起来。

可以用笔记软件,像印象笔记就超好用。

你可以把文字复制粘贴进去,要是看到纸质书上的好内容,那就打字输入进去呗。

我刚开始的时候可傻了,我看到一本超棒的诗集里的句子想放进语料库,我就手抄,抄了半天,手都酸了,后来才发现可以拍照识别文字,再稍微修改下就好,真是笨死了。

信息技术环境下的视唱练耳教学创新策略

信息技术环境下的视唱练耳教学创新策略信息技术在教育领域的应用日益普及,视唱练耳作为音乐教育中的重要一环,也在信息技术的支持下得到了更好的发展。

本文将介绍在信息技术环境下的视唱练耳教学创新策略,并分析其优势和应用前景。

1. 多媒体教学:利用信息技术的多媒体功能,制作视唱练耳教学课件,将视唱练耳的教学内容以图像、声音、文字等形式呈现,丰富教学资源,提高教学效果。

2. 网络互动教学:通过网络平台进行视唱练耳教学,学生可以在家中进行练习并上传作业,老师可以随时进行评价和指导,提高了教学的便捷性和灵活性。

3. 虚拟实景教学:利用虚拟现实技术,创造视唱练耳的虚拟实景,让学生在这个虚拟环境中进行练习,增加学习的趣味性和吸引力。

4. 数据分析辅助教学:利用信息技术对学生的视唱练耳数据进行分析,可以及时发现学生的问题并进行针对性的指导,帮助学生提高练唱的效果。

1. 提高教学效率:利用信息技术支持的教学方法,能够更好地激发学生的学习兴趣,提高学习的效率。

2. 个性化教学:信息技术能够根据学生的不同特点和需求进行个性化的教学,帮助学生更好地理解和掌握视唱练耳的技巧。

3. 互动性教学:信息技术支持的教学可以更好地实现师生互动和学生之间的互动,增强了教学的交流性和互动性。

4. 资源丰富化:利用信息技术,可以更好地整合和利用各种教学资源,为学生提供更为丰富和多样的学习资源,提高了教学的质量。

5. 多样化评价:信息技术支持的教学方法,可以更好地进行学生学习情况的评价和分析,帮助老师更好地了解学生的学习情况并进行针对性的指导。

三、信息技术环境下的视唱练耳教学的应用前景1. 多媒体教学在课堂教学中的应用,将能够更好地丰富教学资源,提高教学效果。

2. 网络互动教学的应用,将能够更好地拓展教学的空间和时间,提高教学的便捷性。

3. 虚拟实景教学的应用,将能够更好地激发学生的学习兴趣,增加视唱练耳的趣味性。

结语:信息技术在视唱练耳教学中的应用,将有力地提高了教学效率和教学质量,提供了更为丰富和便捷的教学资源,将有着广阔的应用前景。

基于Web的多媒体新闻语料库的建设与实施——以听力教学与研究为目的的设计模型


【 中图分类号 】G 00 7 4 .5
【 文献标识码 】A
【 文编 号 】1 0- 8 9 2 1 )0— o 7— 0 论 0 9 0 7(0 2 8 02 5
的积极性也很高 ,但 是缺 乏真实而有针对性 的听力材料 以及 教师的有效指导 ,导致 无法有效地利用移 动学习来提高 听力 状及 其面 临 的问题
听力是最重要 的四种 语言技能之一 ,也是在 日常交 际中
最常用的语言技 能。 r y1 Mol [使用数字量化说明听力的重要性 e J
“ 们 听 到 的是 说 的 两 倍 ,是 阅 读 的 四 倍 , 是 写 作 的 五倍 ” 我 。 此 外 ,听 力 理解 是 其 他语 言技 能 不 断发 展 的基 础 。【因此 ,听 2 】
能 很 好 地 顺 应 学 生 的 实 际 水 平 。最 后 , 从 学 生 方 面 来 讲 , 英
文献 也尚不 多见 。 [多模态 语料 库是经过对 声音、图像、 】 动作 、 手势、面部表情等 多种 模态形式进行 人工标注后 的语料库 , 其特点是 以 “ 言语 理论 ”基础 ,以言语活动为研 究对 象 ,以
第2 2卷
现 代教 育 技 术
M o e d c t n l e h oo y d m E u a i a c n l g o T
、, _2 0l 2
2 1 年第 8 02 期
NO 82 1 . 02
基于 We b的多媒体新闻语料库的建设与实施木
一 一
以听力教学与研究为 目的的设计模 型
编 写 到 出 版 发 行 需 要 ~ 定 的 过 程 ,信 息 的 实 时 性 不 足 。 即使
视频 点播等 多个子库的资源检索 系统 ,其多媒体素 材字库可
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第22卷现代教育技术V ol. 22 2012年第8期Modern Educational Technology No.8 2012基于Web的多媒体新闻语料库的建设与实施*——以听力教学与研究为目的的设计模型杨林伟1 伍忠杰2(1.烟台大学 外国语学院,山东烟台 264005;2.电子科技大学 外国语学院,四川成都 610045)【摘要】Web多媒体或多模态语料库作为第四代语料库,其建设与研究已成为研究热点。

多媒体语料库具有文本、声音、视频等多种媒体共存、关联、互动的特点和优势,非常适合应用于英语听力教学实践。

建立为听力教学服务的Web多媒体语料库除需要有丰富的多媒体数据库,确定语料库结构,并按照一定的标准进行格式化入库等常规建库操作之外,还需设计适于听力教学的辅助功能,如在线练习自动生成,词汇难度列表,语料可读性分析、听力新闻专有名词提取等。

具备教学功能的Web 多媒体语料库,使语料库教学实施更具灵活性、广适性和可操作性,有利于学习者利用语料库进行移动学习、自主学习和研究性学习,提高英语听力教学效率和效果。

【关键词】多媒体语料库;听力教学;Web;方法;实施【中图分类号】G40-057 【文献标识码】A 【论文编号】1009—8097(2012)08—0072—05一 英语听力教学现状及其面临的问题听力是最重要的四种语言技能之一,也是在日常交际中最常用的语言技能。

Morley[1]使用数字量化说明听力的重要性“我们听到的是说的两倍,是阅读的四倍,是写作的五倍”。

此外,听力理解是其他语言技能不断发展的基础。

[2]因此,听力理解,不仅在第一语言沟通起着至关重要的作用,也是外语学习的核心。

鉴于听力的重要性及其课程特殊性,我国英语专业听力教学最早引进了多媒体语音室设备,较早地实现了多媒体外语教学,教育技术在英语专业听力教学中起到了关键的推动作用。

随着网络与多媒体技术的不断发展与进步,目前大学听力课堂教学电化设备发生了巨大变化,由原来的“教师主机+卡座/显示器终端”,升级为“教师服务器+学生电脑终端”。

加之移动学习设备如MP3、MP4、智能手机、平板电脑的广泛普及,听力教学硬件设备及其多媒体学习条件处在前所未有的大好时期。

然而与之形成对比的是英语专业听力教学“软件”上存在不足,主要有以下三个方面。

首先,纸质教材从编写到出版发行需要一定的过程,信息的实时性不足。

即使是英语专业最新的听力教材,其信息也会滞后,导致教学过程中存在学生对内容不熟悉,兴趣不足的问题。

其次,课外听力材料,尤其是新闻材料选取的难度及其适应性缺乏客观标准。

从教师方面而言,向学生提供的单一围绕专业四级考试的材料在难度方面可以较好地适应学生水平。

但是,在新闻材料的选取方面带有盲目性,无法客观地确定其难度,不能很好地顺应学生的实际水平。

最后,从学生方面来讲,英语专业学生听力学习动机强,利用自己的移动设备提高听力的积极性也很高,但是缺乏真实而有针对性的听力材料以及教师的有效指导,导致无法有效地利用移动学习来提高听力水平。

另外,听力教学及其教学改革的研究多以理论为主,譬如图式理论、认知理论等在听力教学中的应用。

虽然上述的研究对教师遵循科学规律进行听力教学起到了重要的指导作用,但是其理论研究的抽象性和概括性以及听力教师自身科研水平的差异性,导致在教学中的实际操作与应用效果存在较大不同。

二 多媒体新闻资源库、语料库与听力教学多媒体资源库与语料库在听力教学中都有着十分重要的作用。

多媒体资源库是包含多媒体素材、课件、案例、习题、视频点播等多个子库的资源检索系统,其多媒体素材字库可看作为未加标注的“生”多媒体语料库。

而多媒体语料库是语料库经由文本语料库、口语语料库发展到目前的新型语料库。

多媒体、多模态语料库的提法由来已久,但目前学界对其还缺乏一个统一的定义,国内外系统论述多媒体语料库的文献也尚不多见。

[3]多模态语料库是经过对声音、图像、动作、手势、面部表情等多种模态形式进行人工标注后的语料库,其特点是以“言语理论”基础,以言语活动为研究对象,以从原始数据中抽取信息和知识为手段,以语境模型为驱动的囊括整个言语活动的语言、声音、图像和动作。

[4]多媒体语料库可以认为是含有文本媒体标注,但未加模态标注的“生多模态语料库”。

从功能角度来讲,未经深加工的多媒体语料库主要用于72满足语言教学研究的需要,而多模态语料库主要用于语言基础研究如多模态话语分析。

由于建立多媒体语料库,不仅需要文本还需要声音、视频、字幕、图片等多媒体形式,其与传统语料库相比更加费时、费力、成本更高。

在多媒体语料库的研究多以理论研究为主,如刘芹潘[5]、李学宁[6]、曾庆敏[7]、孙志楠[8]等在理论框架、应用前景等方面进行的基础研究。

目前国内建成并应用于教学的多媒体语料库在开发形式、应用范围、教学衔接等方面都存在不足之处。

比如,由教育部语言文字信息管理司、国家广播电影电视总局宣传管理司和中国传媒大学共建的有声媒体语言资源网提供基于Web的音视频语料检索系统,是国内大型的汉语新闻多媒体语料库,仅提供简单的文本语料库检索,基本功能为音视频数据型网站。

某高校语料库研究中心以语料驱动学习为指导思想,整合了多媒体技术,实现了语料检索与音视频定位同步播放的多媒体语料库开发系统。

[9]基于Windows系统单机运行,在应用范围、跨平台、教学衔接方面尚存在薄弱点。

多媒体新闻语料库的语料一般包括动态更新的官方电台和电视台真实的新闻报道。

学习者使用语料库是既能分析索引行文本,又能听新闻或者看新闻,还可以看到随时间变化的滚动字幕。

梁红梅等[10]提出“把语料库索引与文本、音频、视频有机地结合起来, 建立多功能的多媒体语料库更能满足我国大学英语学习者的实际需求”。

笔者在烟台大学外国语学院英语专业二年级学生中使用自行开发的教学用Web多媒体新闻语料库的教学实验证明,多媒体语料库的建立与应用能有效地解决目前英语专业听力教学中存在主要问题,有利于帮助学生克服新闻听力这一难以攻克的难关。

鉴于上述对英语专业听力教学现状以及多媒体语料库与听力教学的分析,本文提出建立与“教师服务器+学生电脑终端”的多媒体课堂以及与移动学习相匹配的Web多媒体新闻语料库,探索建库方式,研究与之相适应的听力课堂可操作性教学方法。

本研究提出的建立多媒体语料库的方法与业已建立并投入使用的新闻语料库,以完全服务英语教学、迎合英语学习者自主学习需求与期望为目的[11],克服前人研究与实践的缺点,以移动教育技术发展方向为指导,与听力教学紧密结合,具有网络化、开放性、教学性、易于移动学习等显著特点。

三 自建多媒体新闻语料库的方法与实施本文所用到的多媒体语料库是作者自建的为听力教学服务的小型多媒体新闻语料库,其主要来源为VOA、BBC、ABC 和NBS。

语料来源全部来自美国和英国主流媒体的英语新闻材料。

该语料库是经过Treetagger赋码后的熟语料,其检索工具并非传统的单击运行的软件,而是基于Web的检索平台。

基于Web的优势在于大大拓展语料库的使用范围,既可以在局域网又可以在互联网上使用。

学习者和教师不需要单机安装和学习软件的使用,而是直接通过浏览器浏览网页程序即可。

语料库要让全校学生使用,较理想的模式是采用B/S(浏览器/服务器)架构的语料库。

[12]作者在建立、使用该语料库进行听力教学过程中,研究和总结了一套自建小型多媒体语料库的方法以及其应用于教学的实施方案,以期对听力教师能起到积极的指导作用。

第一,语料的选取。

听力课程的特殊性以及围绕听力教学建立的语料库的教学特性决定了语料选取与加工的方法。

教师在选取语料时,应以热点新闻、突发事件为主。

学习者对上述两种新闻的内容一般会比较熟悉,并且关注度较高,学习兴趣较浓。

此外,新闻主题应避免单一,涵盖政治、经济、科技、农业、教育等常见领域,力求语料库的平衡性。

第二,语料的加工。

多媒体新闻语料的加工与传统的纯文本语料不同。

除对新闻文本(脚本)进行赋码加工处理外,还要对体现多媒体概念的主要三大元素包括图片、声音和视频进行规范化和格式化。

作者推荐对图片采用Web上通用的png格式,声音采用HTML5支持的Mp3格式,视频则使用H.264进行编码处理。

在HTML5技术流行的趋势下,使用上述格式对教学实施过程的兼容性,对后期扩展到移动学习中有重要的意义。

对于文本的加工推荐使用梁茂成教授开发界面的Treetagger进行赋码,其准确率达96%。

文本加工更重要的一点在于对文本添加时间标签,制作成字幕文本,实现文本、声音、视频的相互关联检索,这也是多媒体语料库的重要特点之一。

对于听力教学而言,建议授课教师自行进行有针对性的对语料进行深度多模态标注加工,标准语料库平台提供开放的在线加工和上传接口,供教学使用。

多模态标注加工加工后的文件结构,建议采用规范的结构管理,如图1。

图1 多媒体语料库的文件结构第三,语料检索。

技术上采用BS模式,即浏览器加服务器的方式。

BS模式的语料库检索方式方便、易用、扩展性强。

使用者不需要安装软件,只需浏览器即可使用检索工具。

其7374易用性还体现在支持教师独立建库,教师只要按照图1所示的文件结构收集、加工语料,上传至服务器后,不需要做任何技术处理,即可在线使用。

学习者既可以使用电脑,有可以使用手持设备如平板电脑、智能手机、PDA ,智能MP5等检索语料库。

扩展性还体现在很好地支持多教师基于Web 进行合作建库。

语料检索方式采用经典的索引行(KWIC )方式,既可以检索纯文本,实现文本行索引并提供检索词搭配索引,又可以显示检索音视频多媒体语料,做到文本、声音、视频三维度检索。

第四,教学功能。

自建多媒体新闻语料库要服务听力教学,除具备检索功能外,须体现完整、易用的教学功能。

结合听力教学实际,提出以下五种功能。

(1)单句点读。

该功能包括两部分,第一是语料库检索结果的索引行,可以点读;第二是具体到语料库中每一篇脚本中,可以实现逐句点读。

如图2所示。

图2 单句点读(2)可读性分析。

采用Flesch–Kincaid 可读性计算公式(图3和图4),利用PHP 文本处理类分别准确计算出文章的易读性值和年级水平值。

学习者可以根据这两个参考值,选择适合自己阅读水平的材料进行拓展学习(如图5)。

图3 易读性值计算公式图4 年级水平值计算公式(3)词汇难度统计。

利用专业四、八级词库,大学英语四、六级词库与语料脚本进行对比,计算出脚本的词汇难度分布情况,并利用PHP 文本分析类提取多音节词的词频以及长度大于7个字符的单词频数供教学参考(图6)。

图5 文章可读性分析工具图6 词汇难度分析(4)词表生成。

采用PHP 脚本程序生成两种词表,包括语料库最常用的按频数生成的word list 和利用专有名词识别技术生成的专有名词词表(图7)。

相关文档
最新文档