语料库语言学与中国外语教学_桂诗春
语料库相关源

语料库相关资源David Lee语料库研究书签Bookmarks for Corpus-based Linguists (David Lee).au/~dlee/CBLLinks.htm (/corpora)常用语料库资源链接汇集(语料天涯)/corpus/互动平台/forum/入门读物专著梁茂成、李文中、许家金,2010,《语料库应用教程》。
北京:外语教学与研究出版社。
Hunston, Susan. 2002. Corpora in Applied Linguistics. Cambridge: Cambridge. University Press. (世界图书出版社引进)Kennedy, Graeme. 1998. An Introduction to Corpus Linguistics. London: Longman. (外研社引进)期刊论文中国期刊网EBSCO英文期刊数据库书店可以买到的语料库相关书籍Aijmer, K. & B. Altenberg (Eds.). 2004. Advances in Corpus Linguistics. Papers from the 23rd International Conference on English Language Research on Computerized Corpora (ICAME 23). Amsterdam: Rodopi. (世界图书出版社引进)Austermühl, F. 2001. Electronic Tools for Translators《译者的电子工具》. Manchester: St.Jerome Publishing. (外研社引进)Biber, Douglas, Stig Johansson, Geoffrey Leech, Susan Conrad & Edward Finegan. 1999.Longman Grammar of Spoken and Written English. Longman Publications Group.(外研社引进)Biber, Douglas, Susan Conrad & Randi Reppen. 1998. Corpus Linguistics. Cambridge: Cambridge University Press. (外研社引进)Connor, U & T. Upton (Eds.). 2004. Applied Corpus Linguistics: A Multidimensional Perspective. Amsterdam: Rodopi. (世界图书出版社引进)Granger, S. & S. Petch-Tyson (Eds.). 2003. Extending the Scope of Corpus-based Research: New Applications, New Challenges. Amsterdam: Rodopi. (世界图书出版社引进)Granger, S. et al. (Eds.). 2003. Corpus-based Approaches to Contrastive Linguistics and Translation Studies《基于语料库的语言对比和翻译研究》. Amsterdam: Rodopi. (外研社引进)Gries, Stefan Thomas. 2004. Multifactorial Analysis in Corpus Linguistics: A Study of Particle Placement. Beijing: Peking University Press. (北大出版社引进)Hunston, Susan. 2002. Corpora in Applied Linguistics. Cambridge: Cambridge. University Press. (世界图书出版社引进)Kennedy, Graeme. 1998. An Introduction to Corpus Linguistics. London: Longman. (外研社引进)Kettemann, B. & G. Marko. 2002. Teaching and Learning by Doing Corpus Analysis.Amsterdam: Rodopi. (世界图书出版社引进)Meyer, Charles. 2002. English Corpus Linguistics: An Introduction. Cambridge: Cambridge University Press. (外教社引进)Mukherjee, J. 2001. Form and Function of Parasyntactic Presentation Structures. A Corpus-based Study of Talk Units in Spoken English. Amsterdam: Rodopi. (世界图书出版社引进)Nattinger, James R. & Jeanette S. DeCarrico. 1992. Lexical Phrases and Language Teaching. Oxford: Oxford University Press. (外教社引进)Sinclair, John. 1991. Corpus, Concordance, Collocation. Oxford: Oxford University Press.(外教社引进)Thomas, Jenny & Mick Short. 1996. Using Corpora for Language Education. London: Pearson Education. (外研社引进)Zanettin, F., et al. (eds.). 2003. Corpora in Translator Education《语料库与译者培养》.Manchester: St. Jerome Publishing. (外研社引进)蔡金亭,2003,《语言因素对英语过渡中使用——一般过去时的影响》。
语料库资源在英语程式语教学中的应用

索技巧在程式语教学中的应用案例,为英语教师开展程式语教学提供了参考。
关键词:语料库;程式语;语言教学;大学英语
中图分类号:G642
文献标识码:A
文章编号:1002-4107(2021)11-0078-02
随着现代教育技术的快速发展, 具有大数据理念和 “语料库与翻译学习”专题研讨会上,集中研究了译员培
得 出 如 下 结 论 :few studies 和 little research 是
个1 到 5 个连词的语料,属于通用、单语、面向学习者的笔 “少数研究”更为常用、更为地道的表达形式。 同时,由于
语语料库。 Linggle 最实用的功能之一就是可以通过词性 这两个词组中的词汇共现的频率非常高, 可以认定为程
真实、有代表性、便于查询与分析等特点,语料库已经成 的应用。
为语言研究和语言教学不可缺少的资源和工具[2]。 因此,
国内基于语料库的外语教学起步较晚。 2004 年,有学
在大学英语教学中科学合理地使用语料库资源, 既是现 者通过语料库索引共现动态语境、文本等值概率分析、译
代教育技术发展的必然趋势, 也是大学英语教学改革的 文风格量化与多译本对比研究的方法, 建构了语料库翻
或 a、后接形容词,并以名词 role 结尾的多词表达。 包括 guage,然后调整左右搜索范围并设置最小词频,如“form
“play an important role”“plays an important role”“play a key 1L to 1R”,表示左侧一个词,右侧一个词。 最后,开始检索
78 黑龙江教育·理论与实践 2021.11
语料库资源在英语程式语教学中的应用
语料库、专用语料库等。 需要说明的是,这种多维度的划
语料库与语料库建设

语料库和语料库建设一、什么叫语料库1、定义语料库,通俗意义上指的是语言材料库。
严格意义上的语料库(corpus)是指按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。
目前,语言学家对于语料库的定义不尽相同,如辛克莱(Sinclair)认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作语言的样本”。
阿特金斯等(Atkins & Clear)认为语料库是“按照明确的设计标准,为某一具体目的而集成的大型文本库”。
赫努(Renouf)认为语料库是“由大量收集的书面语或口头语构成,并通过计算机储存和处理,用于语言学研究的文本库”。
我们看到,以上关于语料库的几种定义相同之处在于都谈到语料库是语言材料的汇集;不同之处在于前两个定义指出语料库的设计是有明确的设计标准的,赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。
语料库不同于电子文档,语料库的建设有特定的研究目的和具体用途,因此在语料抽样范围和文类覆盖方面都力求取得平衡,在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。
而大型文档目标在于搜集任何可获得的语言材料或所限定的数种文类语料,其语言材料之间的关系较为松散。
语料库具有以下特征:1、语料库的设计与建设有系统的语言学理论指导,语料库的开发具有明确而又具体的目的;如,布朗语料库用于对20世纪60年代的美国英语的研究,LOB是与布朗语料库对齐的同时期的英国英语语料库,可用以对英国英语进行研究,也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。
2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料,不是随意的语言材料的堆积,更不是由某个个人杜撰出来的。
语料库的容量和语料采用随机抽样方式都保证了语料具有代表性,由此保证基于语料库的语言研究的科学性、客观性。
中国学习者英语拼写失误的多因素分析

频间隔越来越大 , 也就是说 , 拼写失误主要集中在词频较低的单词中 。 从词型失 误数上看 , 一半以上的拼写错误集中于词频小于 2 从失误词次数上 3 的单词中 ,
·8 9 8·
邓劲雷 中国学习者英语拼写失误的多因素分析
为A C E D EM I C 可以生成以下编辑路 径 : S t a r t A=2, S t a r t B=2, d e l e t e d A=1, , 位 置 初 始 值 为 0) i n s e r t e d B=1。 其中 , S t a r t A 代表删除位 置 ( d e l e t e d A 代表删 除的字母数 ; S t a r t B 代表 插 入 位 置 ; i n s e r t e d B 代 表 插 入 的 字 母 数。通 过 最 短 编 我 们 可 以 查 找 出 编 辑 的 字 母 信 息。因 辑路径当中的编辑位置和 编 辑 长 度 信 息 , ) ; 而, 该编辑路径表示 : 在位置 2 处 删 除 1 个 字 母 ( 即 删 除 字 母 A) 在位置2 1 2) 。有 了 最 短 编 辑 路 径, 处插入 1 个字母 ( 即插入 字 母 E) 我们可以很方便地统计 拼写失误的位置信息和字母信息 。 此外 , 在对单词的拼写和注音进行切分后 , 我 们还可通过查找删除字母对应的音素来统计被删除的音素 。 3.结果与讨论 3. 1 拼写失误在单词不同位置的分布 ) 何安平 ( 和H 认为单词词尾比较容易出现拼写失 2 0 0 1 o n &C h e n( 2 0 1 1) g 误, 但是王雪文和孙蓝 ( 认为单词的头尾不易出现拼写失误。为统计拼写 2 0 0 4) 失误的位置分布 , 我们统一将单词词长转化为 1 将拼写失误的编辑路 0 个字母 , 该线段的起点值 = 编辑位置 ÷ 径信息转化为长度为 1 0 的线段上的一段线段 , ( 单词词长 × 1 终点值 = ( 编辑位置 + 编辑长度 ) 其中 , 删 0; ÷ 单词词长 × 1 0 。以 A 除操作使用正确拼写的单词词长 , 插入操作使用错误拼写的单词词长 ) C - 字母删除位置为 3, AD EM I C 被误写为 A C E D EM I C 为例 。 该单词含 8 个字母 , 编辑长度为 1, 因而该拼写失误的 删 除 操 作 的 起 点 值 = 3 ÷ 8 × 1 终 0 =2. 5; ) 点值 = ( 该删除操作 3+1 ÷8×1 0 =3. 7 5。 将线段值转化为位置值后得出 , 在第 3 个字母位置删除了 0. 在第 4 个字母位置删除了 0. 5 个字母 , 7 5 个字母 。 拼写失误位置分布结果如图 1 所示 。
学习者语料库与“学习者常犯错误辨析词典”的编纂

中有 针 对 性 的 者避 免 再 犯 类似 的 错 提
误 。本文就英语 学习者语料库与 学习者常犯错误类词典的编纂进 行探 讨。
关键词 语料库 学 习者 语 料 库 常见 错 误
库 ( a bi e ere o u ) C m r g a r r s 由剑 桥 大学 出版 社 和剑桥 大学地 方考 d L n Cp
试 委员 会 ( nvrt o a bi eLcl xm nt nSn i t, 称 U i s y fC m r g oa E a iao yd a 简 e i d i ce
9 5
维普资讯
就是根 据此 语料 库编 成 的 , 为后来 一 系 列 以机读 语 料 库 为基 础 它
而编纂的词典开了先河。 与利 用本族 语 者的语 言 素材 而 建立 的语 料库 不 同 , 习 者语 学 料库 (e re cru ) 把外语 学 习者 的语 料 汇集 成库 并 加 以分 析 Ianr o  ̄是 _ p 研究 和利用 。它 的建 立 是 近 十 几 年 的 事情 。2 纪 9 代 初 , 0世 0年
语 料库包 含有母 语 背景 多达十余 种 的学 习者 的英 语语 料资 源。 朗文 出版公 司和 剑 桥 大学 出 版社 分 别 有 自己 的学 习者 语 料
库 。朗文 学 习者语 料 库 ( og k L nr n ̄anr’C ru ) 要搜 集 全 球 r a re s o s主 p
各地 学 习者 的英 语 习作 , 目前 已有 一 千多 万 词 。剑 桥 学 习 者语 料
是一个商业性语料库 , 其使用者较严格地限于为剑桥大学出版社 写 作或 编写词 典 的人 员 。
基于语料库的网络辅助英语教学

个学生语料库 . 发现学生有哪些错误具有普遍性 , 需要注意 和 改正的 , 就 有针 对 性 的建 立“ 中 国英语 学生语料 库” 。 现 在 我们 可以总结 出中国学生常犯 的错误 有 以下四种 :
( 1 拼写和断词错 误 : We h e a r i t e v e r y d a y i n c h e H e ws . ( 2 问 序 错误 : I a m t a l l 1 8 0 c e n t i me t r e s . ( 3 ) 搭 配错误 : We l o o k e d山e T v u n t i l a b o u c 1 0 O ' C l o c k . ( 4 ) 句 法语 法 错 误 : T h e y l i v e i n a v e r y l o v e l y h o u s e I l e a l "
【 摘要】 作为一 个新 型的教 学辅助 工具 , 语料 库越 来越 广泛地应 用于大学英语教 学。 本 文基 于网络语料库 的语 言教 学理论 基础 , 探 讨 网络语料库应 用于外语教 学的理 论与 实践 意义。 【 关键词】 语料库 网络 英语教 学 【 中图分类号】 H 3 1 【 文献标识码 】 A 【 文章编号】 2 o 9 5 — 3 0 8 9 ( 2 o 1 3 ) 0 4 — 0 1 1 卜0 1
基于网络语料库 的语言教 学理论基础 现代语料 库是 一种 巨大的语 言文化 资源 . 是广 大外语教 师和研 究人 员进行教 学和研 究的必备 资 源和 工具。为 了顺应 大规模 真 实文本 处理的 需求 . 越 来越 多的人提 出了以网络语 料 库为基础 的语 言学研 究及 自然语 言处理 的新 思想 . 坚持认 为语 言 学知识 的真正源泉是 大规模 活生生的语料 语 料库 问 题 是 文本分类研 究 中的一 个重要 问题 。 是 大量能代表 同类 某 领域 的语 言现象的真 实语 言材料 的集合。语料库 对 于 自动 归类 的研 究意义 主要在 于 它可 以为 自动 归类研 究提 供技 术 上的 支撑 , 我们 可 以将其 作为 一个平 台而加 以使 用 。它最显 著的特征 体现在校 园环境 内。有一 个机制在 不 断地 协调教 、 学、 管之间 的关 系, 有一个 开放 式 的英语 学 习中心( 相 当于一 个开放 式的计 算机 网络 中心 ) , 是 一个 师 生交流 、 辅导 、 实践 的场所【 ” 。 认 知心理学 中建 构主义理论认 为 , 知识不是 通过教 师传 授 的 , 而是 学 习者在一 定 的情境 下借 助 于他 人 ( 教 师和 学 习伙伴 ) 的帮助 , 利 用必要 的 学习数 据和 工具 。 自 主地 通过 意义建构 的过 程而 获得 的 。简单地说 , 学 习是 一种 自 主 建构 的过 程 。因此 , 网络 语料库 为外语教 学提供 了一种新型 的教 学模 式。 =、 网络语料 库在 大学英 语教 学 中的应 用 1 . 语料库 与词汇教 学 在教 学 中,教 师引导 学生注意 语言 形式的一 种方 法 , 是 在课 堂上使 用网络 从语料 库 中索引产 生的结 果 。 让学生从 中 探索目 标 语言里相 关词 汇与结构 的规 律性 。 单 词是英语 学 习 的根 基 , 学生经常混 淆词 的搭 配 , 造成许 多语 法错误 , 而语料 库是搭 配词研 究和教 学 中最常使 用的工具 。它可提 供丰 富 自 然 的语料 , 是 一种 快速检 索查询搭 配词 的工 具 。 同时也具 有 加 注词类搭配和按 照使 用频率排序 等功 能 。 让 学生在 自主学 习上发 挥极 大效益 ,是传 统的纸质 学习方式 所无法 比拟 的 。 学生可利 用语料 库搜 索单 词 , 了解单 词 的不 同用 法 , 明 白不 同的语 言环境 和 句子 单词 所 呈现 的意 思不 同,例 如 形容 词 b l a c k 有 多种意 思 , 分 别为黑的、 不加牛奶 的、 很 脏的 、 愤怒的 、 令人 沮丧 的、 邪 恶的 、 阴沉 的 、 机密的, 不 同意 思需要 在具 体 的语境 中才能分辨 出来 。 从语料 库 中我们 可 以看得 出来 :
浅谈外语教学中的语料库应用

浅谈外语教学中的语料库应用贾一丹【摘要】随着计算机辅助语言教学的深入发展,“基于语料库教学”(corpus- based language teaching)在国内已经不再是一个陌生的话题,近年来越来越多的学者已经开始重视语料库在教学中的应用.但对于普通初、高中教师而言,没有时间和机会学习语料库知识并将其应用于实践之中,因此他们对语料库的了解还不够普及.而他们却恰恰是战斗在教学一线的精英,是将语料库应用于外语教学设计的最佳人选.因此普及语料库的基本知识重点推介其在外语教学中的应用,可以帮助有意了解语料库的老师和同学对其加以更好的理解和应用.【期刊名称】《黑龙江教育学院学报》【年(卷),期】2011(030)008【总页数】3页(P159-161)【关键词】语言教学;基于语料库教学;基本知识;应用【作者】贾一丹【作者单位】哈尔滨师范大学,哈尔滨150025【正文语种】中文【中图分类】H319;G40-05一、语料库简介(一)语料库的含义及特点某种语言中自然出现的、书面或口头的语言材料经过收集并科学地组织起来就构成了语料库(corpus)。
利用语料库对语言进行研究的成果不断出现,其应用范围也越来越广,正在逐渐引发应用语言学特别是外语教学的一场革命。
通过对大量的语料即语言事实进行提取和分析,利用检索工具找出语言现象出现的频率并借此发现语言使用的规律等,这为语言和教学研究提供了事实基础和新的思路。
“作为一种新的教学研究资源,我们发现语料库可为外语教学提供丰富的教学材料、教学方法、教学技术甚至是教学理念。
”[1]2这是因为,首先,语料具有真实性,这是语料库最根本的属性。
当下最倡导任务型教学,纽南(Nunan)总结的任务型教学的原则中就包括语言材料的真实性原则。
真实文本使学习者直接接触目的语文化,有助于获得对目的语的真实体验,能够促进学习者以接近母语者的方式使用新习得的语言,参与有意义的交际。
语料库恰恰能为任务的设置提供真实的语料,从而创设出真实、复杂的任务情景,使学习者在掌握语言知识的同时提高语言应用能力。
语料库在大学英语词汇教学中的应用

库 … 。在其 发展初期 , 料库只进 行词 的一般分 析 , 语 如词频 统计等 , 后来增加 了词的语法属性标注( 如词性等) 到 现在 , ,
的大学英语教 学提 出了挑战。 当前 , 各大 高校都在进行 信 息化 环境 下大学英语教 学改革 实践, 力图使 各类语料 库
更好地为教 学服务 。国内一些外语 专业院校教 师已经利 用语料 库进行 了英语 的听、 、 、 译教 学实践 。词汇 说 读 写、 作为英语教与 学的重要组成 , 当给 予更 多的关注。新形势 下, 应 如何 充分结合利 用语料库 进行词 汇教 学成 为广大
理论为指导 , 并集多种教学模式和教学手段 为一体的教学体 系” 。外语教学 中语言教学与文化教学 相结合 ,培养学 习者 的跨文化交际能力 已成为外语 教 师的共识 。而语言 的学 习
参考书或者词典摘抄例句 , 的凭直觉 和经验来编造例 句呈 有
现 给学生 , 很难保证 例句 中语言 的真 实性和 地道性 , 使得学 生不能真正掌握词汇的意义和用法 。
早在 20 04年 , 教育部高等教育司颁发的 《 大学英语课程 教学要求》 试行就明确指 出“ 大学英语 是以英语语 言知识与 应用技能 、 习策略 和跨文化 交际为 主要 内容 ,以外语教学 学
般在讲授词汇时 , 教师会提供几个例 句 以便加深学生对新
单词 的例句 。这本身 出发 点是好 的 , 在这过 程 中, 但 教师不
能充分考虑词汇出现或可能出现的语境 因素 , 在例句 的选择 上带有较强 的任意性 , 起不到很好 的教学效果 。有 的教 师从
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2010年11月November2010第33卷第4期Vol.33No.4
现代外语(季刊)
ModernForeignLanguages(Quarterly)
语料库语言学与中国外语教学桂诗春冯志伟杨惠中何安平卫乃兴李文中梁茂成[编者按]为推动我国应用语言学研究的新发展,教育部人文社科重点研究基地———广东外语外贸大学外国语言学及应用语言学研究中心于2010年9月24-25日成功举办了“首届广外应用语言学论坛”,庆贺我国著名语言学家、应用语言学学科的开拓者桂诗春教授八十华诞。期间,举行了题为“语料库语言学与外语教学”的高层论坛,就语料库语言学的现状、发展前景及语料库的建设、共享、应用等展开了互动讨论。以下是根据专家发言,整理后的主要内容。
[中图分类号]H319[文献标识码]A[文章编号]1003-6105(2010)04-0419-08
语料库语言学的发展前景与资源共享广东外语外贸大学桂诗春
1.语料库语言学的发展前景语料库语言学在外国和国内都发展很快,有的人选择了它作为发展方向,因为它的入门比较容易,上手较快;有的人把语料库语言学作为收集数据的重要手段。但是总的来说,我们的语料库研究还处在比较初级阶段,需要提高。究其原因是很多人把它看成是一种工具或手段,可以运用现有的一些现成的程序和公开的语料库,如Brown,LOB,Frown.Flob,BNC,CLEC,只要选题得当,就能获得很多量化的数据,从而写出洋洋洒洒的文章来。在计算机和扫描仪的支持下,自行收集一些语言素材,建立一个特定的语料库,也不是什么难事。我觉得,语料库语言学既是一种工具,但更是一门学科;它是对语言行为进行概率性归纳和概括的一门学科,它本身是跨学科性的,要做语料库语言学研究必须许多方面要有比较雄厚的基础。首先是数学和统计学。Herdan(1960)的一本早期著作,叫做《词次/词型数学》(Type/tokenMathematics),其副标题就是《数理语言学教科书》(ATextbookofMathematicalLinguistics),当时还是前计算机时代,但Herdan觉得有两件语言事实值得我们注意:一是大量语言资料(languagein
mass),二是语言排列(languageinline),
它们
是任何语言运作都不能离开的两个方面。某些语言学研究分支如果考虑到这两个方面,将会从中获益。当时还没有真正的机读语料库,
Brown的语料库在1967年才面世,美国心理学家JohnCarroll根据该语料库以及他后来参与制作500万词的AHI语料库,所提出的词汇频数对数正态模型(lognormalmodel)均源于Herdan所奠定的基础。一直到最近美国Barber利用计算机对英语语体的各种研究,更是利用了因子分析的统计方法。其次是计算机科学。语料库的发展离不开现代科学技术,其主要表现是个人电脑、扫描仪和大容量硬盘的普及,当初Brown语料库要动用到大型电脑,
而到如今,只需一万元左右就能在家里拥有这些设备,制作出甚至比Brown还要大的语料库。但是我们往往只注意到硬件部分,而不认识到软件的建设。从事语料库语言学研究的人而不掌握一到两种编成语言,也不可能拓展他们的研究领域,因为他不能根据个人的研究需语料库语言学与中国外语教学1.双语料库的建设我很赞同桂诗春教授的意见,积极推进语言资源的共享,语料库只有共享才能变成财富,如果把语料库的研究成果“藏诸名山,束之高阁”,只是一堆数据垃圾,必将自毁前程。桂诗春教授刚才提到宾西法尼亚大学的LinguisticDataConsortium(我建议最好翻译为“语言数据联盟”,简称LDC),是一个很好的供语料库语言学研究者进行交流互动的平台。在语言数据联盟和其他相关机构的帮助下,研究者们可以获得口语和书面语的大规模的语料。重要的是,在这些语料中还包括一些标注过的语料,如宾州树库(PennTreebank),布拉格依存树库(PragueDependencyTreeBank),
命题库(PropBank),宾州话语树库(Penn
DiscourseTreebank),修辞结构库(RSTBank)
和TimeBank(我不知道TimeBank这个名称如何翻译为中文)。这些语料库是带有句法、语义和语用等不同层次的标记的标准文本语言资源。这些语言资源的存在大大地推动了人们使用“有监督的机器学习方法”(supervised
machinelearning)
来处理那些在传统上非常复
杂的自动句法剖析(automaticsyntactic
parsing)和自动语义分析(automaticsemantic
双语语料库的建设与用途国家教育部语言文字应用研究所冯志伟
要,通过计算机自行编程来检验假设。此外,要做语料库语言学研究,文本分类(又叫文本分析或内容分析)也必须具备雄厚的基础。它的研究范围也很广,从信息的提取、组织、储存,文本(包括语体)的分析,社会舆论调查,著作归属到文本格式。这也牵涉到许多统计学知识和计算机知识。数理语言学和计算机语言学的研究对象是文本和语篇。有志于研究这门科学的必需具有这些基础训练,否则不会走得很远的。我觉得,当务之急是让我国语料库语言学的先行者们聚在一起,研究语料库语言学作为一门科学应该在什么层次上开设?它有什么基本内容?由哪些核心课程组成?只有规范语料库语言学专业的课程,按照这些课程设置来培养我国语料库语言学的学生,他们才能高瞻远瞩,取得真正的进展。2.资源共享问题语料库语言学对资源有很大的依赖性,为了促进语料库语言学在我国的发展,应该提倡资源共享。回顾语料库语言学在国外的迅猛发展,和资源共享有密切的关系。共享的方法有多种:一是免费提供,最典型的例子是George
Miller领衔制作的英语大型词汇数据库Wordnet受到各方面资助,前后参与制作的不下一千人,而且还在不断完善。他们认为这不是一个商品,应该为公众所有。二是提供网上服务,整个语料库不提供,但是在网上可以自由检索获得数据,像美国BrighamYoung大学的MarkDavies在他的网页上检索美国现代英语语料库、美国历史英语语料库、英国国家语料库、《时代》杂志语料库、西班牙语语料库、
葡萄牙语语料库以供检索。三是成立语料库分配中心,收少量成本费提供语料库,像挪威的ICAME(InternationalComputerArchiveofModernandMedievalEnglish),美国的LDC(TheLinguisticDataConsortium),等等。一些语料库工具,如TACT、LEXA,Wordcruncher
,
Wordsmith、Antconc也都很容易在网上获取。
资源共享的理念是,只要有更多的人使用,我们所开发的资源、工具才能完善,学科才能发展。只有互通有无,才能共同协作,才能减少重复劳动,制作出更成熟的成品。
4201.语料库语言学的应用研究这次专题讨论的题目“语料库语言学与外语教学”我觉得很好,很及时。语料库语言学本来就是实践性、应用性很强的一门学科,
语料库语言学的应用研究与贡献上海交通大学杨惠中
analysis)等问题。
这些语言资源也推动了有竞
争性的评测机制的建立,评测的范围涉及到自动剖析(parsing)、信息抽取(informationextraction)、词义排歧(wordsensedisambiguation)、问答系统(question-answersystem)、自动文摘(automaticsummarization)等领域。几年前由中国中文信息学会发起,在北京创建了“中文语言数据联盟”(ChineseLinguisticDataConsortium,缩写为CLDC),是一个自愿组成的学术性社会团体,其宗旨是团结中文语言资源建设领域的广大科技工作者,建成代表中文信息处理国际水平的、通用的中文语言和语音的资源库。欢迎语言学界的同仁积极参与CLDC的工作,促进语料库资源的共享。目前单语语料库很多,已取得煌煌的成绩,但双语并行语料库(parallelcorpus)不容易获得,它的构建和加工是很困难的工作。我国还没有高质量的、大规模真实文本的英汉双语语料库,更没有成熟的、可共享的加工工具,最近公布的2010年国家社会科学基金重大项目中有一项就是“大规模英汉平行语料库的构建与加工研究”,资助强度大约是50万元左右,可见国家对于双语语料库建设的重视。这个项目是我和王克非教授在今年的社科基金评审会议上建议提出的,已开始招标,希望大家积极投标,积极推进我国的双语语料库建设。2.如何将语料库语言学运用到外语教学,如何从语料库中挖掘知识?我认为英汉双语语料库的最大用途就是推进英语教学,我们可以从双语语料库中抽取教材的原材料,帮助语言学习者提高对于真实语言材料的语感,从而编写出高质量的外语教材。有的外语老师冥思苦想地根据自己的语感来编写教材,费时费力,其实,如果依靠英汉双语平行语料库,就可以减轻搜集素材之困难,
大大提高编写教材的工作效率。
另外,语料库中蕴藏着无比丰富的知识等待我们去挖掘,如果我们使用“文本数据挖掘”(textdatamining)的技术,从语料库中挖掘知识,既可以挖掘语言学的知识,也可以挖掘非语言学的知识,就像从矿石中挖掘出黄金一样,这些知识可以弥补传统语言学的不足,克服研究者的主观性和片面性。我们在textdatamining这个术语中使用mining(
挖
掘)这个单词,而没有使用extraction(抽取)这个单词,正是为了强调在从语料库中获取知识的时候,要开动脑筋,要经过一番“去粗取精,去伪存真,由此及彼,由表及里”的深思熟
虑的功夫来加工数据,而不要被海量的数据所迷惑。数据就像矿石,我们的任务是从海量的数据中挖掘出隐藏在其中的有规律性的东西,把海量的、离散的“数据”(data)变为精炼的、系统化的“知识”(knowledge),从而把经验主义方法和理性主义方法紧密地结合起来。这种知识获取方法上的巨大变化,有可能引起整个语言学研究的“战略转移”(strategy
transit);
我们中国的语言学家应当敏锐地关
注“战略转移”问题,做出我们的应有的贡献,
千万不要错过这个在语言学历史上千载难逢的良机。
桂诗春冯志伟杨惠中何安平卫乃兴李文中梁茂成421