语料库在对外汉语教学中的应用

合集下载

语料库辅助对外汉语口语教学的应用设计

语料库辅助对外汉语口语教学的应用设计

语 料 库 辅 助 对 外 汉语 口语 教 学 的应 用 设 计
庞 亚 美
( 郑州铁 路职 业技 术 学院 , 河南 郑州 40 5 ) 5 0 2

要 : 于传 统 对外 汉语 口语 教 学 的现 状 , 对如何 把语 料库 运 用到对 外汉语 口语教 学 中来 的问题 , 基 针 提
出语 料库 在对 外 汉语 口语教 学应 用的 新模 式。 一方 面语 料库 提供 的真 实语 料 可 以改善 教 材 系统 和教 学 大纲
潜力。它可 以为汉语学习者 口语水平 的提高提供大
量 的语 料和 模 拟 真 实 的语 言 环 境 , 以更 好 地 培 养 可
学 生 的 自主 学 习能力 。


语 料库在 教 材编 写与修 订 中的应 用
借鉴 语 料库 语 言 学 的方 法 , 现 有教 材所 选 的 对
文章进行分 析, 对各种指 标进行量化 。目前使 用 的
库 和 文本分类 主题 词 自动标 引系 统 , 根据 课 程性 质 、
文章类别做到集成课文 、 自动选择生词级别、 自动生
成 词语 解 释 和例 句 。因此 , 料库 辅 以计 算 机 筛 选 语
分 析 技术 , 得 教 材 趣 味 性 . 用 性 加 强 , 文 注 解 使 、 实 课 更详细。
对 外汉语 教 材 中把 生 词 分 为 甲 乙丙 丁 四级 标 注 , 但
话题 、 词汇、 知识点 , 以利用教材语料库 迅速搜索 可
出相 关信 息 , 助 于 学 生温 故 知新 。教 师 还 可 以在 有 课 堂 上补 充其他 语料库 中关 于再 现 内容 的实 例 和相 关 内容 , 学生 对其有 更全 面 的观 察 和准 确 的认 识 , 让

语音学知识在对外汉语教学中的应用

语音学知识在对外汉语教学中的应用

语音学知识在对外汉语教学中的应用一、引言对外汉语教学作为一种以汉语为目的语的第二语言教学,必须遵循第二语言教学和外语教学的普遍规律,但同时又必须考虑汉语本体的特殊性。

从20世纪50年代起,经过几十年的发展,越来越多的高校开始设置对外汉语专业,开展对外汉语教学工作。

同时,也有越来越多的汉语教师投入到对外汉语教学研究中,并取得了丰硕成果。

一般来说,人们认为对外汉语教学包括五个方面,即语音、词汇、语法、汉字以及文化。

其中,语音教学一般只出现在汉语教学的初级阶段,一旦入门,教师、教材都不再重视,也不再象词汇、语法一样继续学习,使得很多汉语学习者即使进入中高级阶段,也很容易出现“洋腔洋调”的现象,并且在后期的学习中也难以改善。

究其原因,主要在于语音学习的特殊性以及对其重视程度不够。

事实上,语音学习是外语学习的基础,无论其他方面的知识如何增加,不能正确掌握语言发音,无法克服“洋腔洋调”,就称不上真正掌握了这门语言。

W.F.麦基(1990)曾经指出:“在学生练习口头表达之前,重要的是使他们形成语言的发音。

这点最好在一开始就做到,因为学生每学一个词都会加深他的发音习惯。

如果他一旦形成了错误的发音,将很难纠正。

即使能纠正,也是很费时间的。

如果最初他就能正确发音,那么在整个教学过程中他说的每句话都将有助于形成良好的发音习惯。

”①因此,鉴于语音教学的特殊性和重要性,在学习的初级阶段,就要注意培养正确的发音。

就目前许多学校的对外汉语教学情况来看,大部分语音学学习都是简单的发音跟读。

尽管这是语音学习的必由之路,但是其弊端也很明显。

学习发音更多依靠学生自身的领悟能力,对发音中的一些偏差难以得到有效的纠正和指导。

因此,理性的语音学知识的介入,会对发音学习起到重要的辅助作用,有助于提高发音的准确性。

二、语音学基本原理在教学中的应用(一)发音机制语音由人的发音器官产生,经过一定的方法发出,变成声波传递出去,成为有意义的语言。

与语音教学有关系的发音器官主要在口腔和鼻腔。

留学生汉语中介语语料库的建立与研究

留学生汉语中介语语料库的建立与研究

留学生汉语中介语语料库的建立与研究留学生汉语中介语语料库的建立与研究,有三个意义:第一,有利于对外汉语教学的多方面研究。

第二,有利于全方位探索汉语学习者的语言特征。

第三,有利于对外汉语的学科建设。

汉语中介语语料库建设的基本思路如下:1.搜集各阶段留学生汉语学习者的语料,同时完整记录每份语料的背景信息,以及语料提供者的详细信息。

2.对语料进行加工,包括偏误标注和基础标注。

3.将加工后的语料分别存入错别字语料库和语句语料库这两个子库。

每个子库包括生语料库、熟语料库、背景信息库三个部分。

汉语中介语语料库建设的构成原则有三个:第一,语料的真实性原则;第二,语料的平衡性原则;第三,信息的完备性原则。

标签:汉语中介语语料库中介语(interlanguage)概念由美国学者Selinker于1969年提出,并于1972年在论文《中介语》中进行了详细论述。

Selinker认为中介语是由不同心理过程生成的规则构成的一个单一语言系统。

中介语理论在20世纪80年代引入我国,对对外汉语教学及相关研究领域发展产生了极大的促进作用。

1984年,鲁健骥先生发表论文首次引进“偏误”与“中介语”两个概念,并分析了外国人学习汉语过程中产生语音偏误的五个原因。

鲁先生认为,中介语是学习外语的人在学习过程中对于目的语规律所做的不正确的归纳和推论而产生的一个语言系统,这个语言系统既不同于学习者的母语,也区别于他所学的目的语(鲁健骥,1984)。

[1]鲁先生的文章在国内学术界产生了巨大影响,此后越来越多的学者开始这方面的研究,使得偏误分析和中介语研究成为第二语言习得研究领域的主要课题。

一、汉语中介语语料库建立与研究的现状语料是中介语研究的基本材料。

而语料的搜集与整理是很繁琐费时的工作,因此,中介语语料库的建设就成了研究者迫切所需。

针对留学生汉语学习的语料库是汉语中介语语料库,它是为研究母语非汉语的学生在学习汉语过程中的中介语现象而制作的专门用途语料库。

试论对外汉语新词语教学的可行性

试论对外汉语新词语教学的可行性
编 纂 方式 的 新词 语 词典 为新 词 语 教学提 供 了可供 选取 的词 汇信 息和教 学 资料 。 | ( )新词 语语 料 库 的建 立 为新 词 语教 学 提供 了具有 说服 力 三 的语料 数据 。 随着 计 算机 技术 的发 展 ,新 词语 语 料库 成 为人 们 用来 界 定 、 l 考察 新 词 语 的重 要工 具之 一 。 许 多新 词语 词 典 的编 纂就 是基 于 不 同的新 词语 语 料 库进 行 的 。比如 2 0 年 出版 的 《 l 07 2 世纪 华语 新 词 I 引言 语 词典 》就 是 基 于L V C 时语 料 库编 写 的 。L V C 时语 料库 是 IA 共 IA 共 新 词 语 的产 生 , 是 各 种 语 言 中 的 普 遍 香港 城 市 大学 语 言资 讯科 学 研 究 中心及 其 语料 库 实验 室于 19 年 95 现象 。据 语 言学 家统 计 ,现 代文 化语 言 的词 建立 的 。至2 0 年 ,语料库 共 收集 10 个 词条 ,总字 数超 过3 08 5万 亿5 汇库 中 ,平均 每 年均 递增 30 个 新词 语 。据 千万 字 。语料 来 自于 香港 、 台湾 、北京 、上 海 、澳 门、新加 坡共6 40 色 巴恩 哈斯 ( a n a t B r h r )统计 ,美 国英 语每 年 个华 语地 区 。 新增 个 约 8 0 。据 巴黎 国 际法 语 委 员会 调 0个 众 多大 规 模语 料 库 的建 设 和使 用 为开 展 新词 语 的调 查研 究 提 | ~ _ 查, 9 3 17年问产生了l0 0 7—9 9 00 多个新词 供 了广 阔 的平 台 和现 代化 的手 段 。新 词语 教 学可 以借 助 新词 语 语 语 。 …自1 4 年 两 德成 立至 两德 重 新统 一 , 99 料库 印证 新 词语 在 实 际语 料 中 的表现 ,从 而获 得 具有 说服 力 的语 德 语共 增 加 了约 l 万 个 新词 语 。 汉语 ,近 料 数据 。 4 l年 每 年新增 词语 约 为304 0 。 O 0- 0个 ( )新词 语在 媒 体 中表 现 活跃 ,是新 词 语 教学 重要 的语 料 四 g 0 进 入2 世 纪 ,一 大批新 词 语在 当代 汉 语 来 源 O 词 汇系 统 中得 以涌 现 ,这些 汉 语新 词语 代表 新词 语 与媒 体 的联 系 密切 。网络 作 为 当前 最 重要 的新 媒 体之 了当代 中 国文化 的特色 ,并 与 日常 生活 联 系 是 新 词语 最主 要 的产 生 地 与传 播 者 。 比如博 客 、黑 客等 新 词语 密 切 ,研 究与 整理 这些 新 词语 成 为语 言研 究 是伴 随 网络 技术 的发 展而 产 生 ,而 固 、雷 等则 是 在 网络传 播 的过 界 的一 致共 识 。语 言研 究 界 的学者 首先 从 新 程 中 产 生 了新 的语 义 、新 的 用法 。电视 媒体 作 为 影响 力最 为广 泛 叠 m 词 语的 产生 、构 词特 点 以及 社会 心 理角 度对 的传统 媒 体 也是 新 词语 产 生 与传 播 的重要 途 径之 一。 许多 的 电视 其进 行 了研 究 。新词 语研 究 的理 论 与实 践成 节 目与 电视作 品 使许 多方言 词 、外 来 词进 入 到普 通 话系 统 中 ,成 果在 对外 汉语 教 学领 域 中的 应用 性研 究及 创 为 新词 语产 生的 一个 重 要来 源 。报 纸 作 为传 统 的媒 体也 与新 词 语 新等 方面 , 显得相 对 滞后 ,诸 多方面 尚待 深 的 产生 与 发 展密切 相 关 。随 着 社会 的 发展 ,报纸 标题 的重要 性 日 入与拓 展 。 益 突 出 ,其 简 洁 性 、醒 目性 、生动 性 促使 了以缩 略 词 为主 要代 表 二 、对 外 汉语新 词语 教学 的可 能性 的新 词语 。 j ( )开始 于2 世纪 8 年代 的新 词语 理 一 0 0 对 于 汉 语 学 习者 而 言 ,媒 体 是 他们 了 解 中 国 社 会 的 重 要 媒 论研 究为对 外汉 语新 词语 教学 奠定 了基础 。 介 ,也 是他 们 课 外接 触 的重 要语 言环 境之 一 。新 词 语在 媒 体上 的 我 国开 始进 行新 词语 的 收集 、整 理 与研 创 制和 高频 复 现 ,可 以为新 词语 教 学提 供 丰 富 的语料 ,使汉 语 学 7 。 j 究 工 作 l 8 年, 9 4 吕叔湘 在 《 书研 究 》 第 习 者得 到鲜 活 的 、实 际 的 、具 体的 语 言材 料 ,提 高新 词 语的 运用 辞 1 期上 发 表 《 家来 关 心 新 词 新义 》 一 文 , 大 能力 。 l 誓主 l 标 志着 新词 新 语研 究开 始 引起 国 内语言 研 究 ( )对 外 汉 语教 学 中 的报 刊 阅读 课 的教 学经 验 为新 词 语教 五 界 的重 视 。1 8 年 初 ,语用 所 开始 整理 、研 学 提供 了重 要 的参考和 指 导 。 96 0 究 新词 新语 新 用法 ,并 在 《 文建 设》 18 语 96 在 对 外 汉语 的 多 种 教 材 中 ,报 刊 课 教 材 的新 词 语 数 明显 多 年 第4 一 9 9 第 5 开辟 专 栏发 表 工 作札 于 基 础 汉 语 综 合 课 教 材 的新 词 语 数 。根 据 常 志斌 对 报 刊课 教 材 期 18 年 期 记 。进 入9 年 代 ,新词 语研 究 得到 更大 的 重 《 刊 语 言 教程 ( ) ( ) 》 ( 京语 言 文化 大 学 出版 社 , 0 报 上 下 北 视 。 1 9 年 初 语用 所 开始进 行 “ 91 新词 新 语新 1 9 )与两 套基 础 汉 语综 合 教材 : 《 础汉 语 4 课 ( 99 基 O 上册 ) ( 下 用 法研 究 ”的课 题 。 1 9 年 ,周洪 波 的 《 96 新 册 )》 ( 东师 范 大学 出版 社 ,2 0 )和 中级 课 本 《 华 03 桥梁 ( ) 上 词 语的 预 测 》 发表 在 《 言 文字 应 用 》 第2 语 ( )》 ( 京 语 言文化 大 学 出版 社 , I 9 )中 的新 词语进 行 的 下 北 96 期 ,标志 着对 新 词语 的规 范观 念 从追 认观 开 统 计调 查显 示 , 两套 基 础汉 语综 合 教 材 中的 新词 语 数在 生词 总 数 始 进入 预 测观 时期 。同年 , 于根 元在 《 文 中均 不 足 百分 之一 ,而 《 刊语 言 教程 ( ) ( ) 》两册 总 计 语 报 上 下 建 设 》第 3 发表 的 《 “ ” 》一 文 ,提 出 了 占位等 语 言 预 测 新 词语 数 占生 词总 数 的 1. 7 , 是基 础 汉语 综合 教 材新 词语 数 的 期 说 友 12% 的 策略 途径 ,并在 《 言哲 学对 话 》 中提 出 了合 乎 条件 的成 批 类 l 倍 。 [ 语 2 推 的策 略途 径 。2 0 年3 2 0 0 月 日, 教育 部部 级 科研 项 目 《 词新 语 新 由此 可 见 ,新 词 语 教 学 对 于对 外汉 语 教 学 来 讲 并 不 是 完 全 规 范基 本 原则 》 由 国家语 委 科研 规 划领 导 小 组 审批 立项 。 自此 之 陌 生的 领域 ,在报 刊 阅 读课 中积 累的 教学 经验 可 以指 导新词 语 教 后 。国 内的新词 语研 究进 入一 个高速 发 展的新 阶段 。 H 学 的开 展 ,有 价值 的教 学方 法可 以加 以参 考运 用 到新 词 语教 学 之 对 外汉 语 教学 作 为应 用语 言 学 中 的重 要组 成 部 分 ,必然 要 利 中 。只 是新 词 语教 学 需 系统 地对 新 词语 加 以讲解 与教 学 ,而 不 是 用理 论语 言 学研 究 的成 果 ,新 词 语理 论研 究2 年 的发 展 ,足 以 成 像 报刊 阅读 课那样 “ 个解 决 ”式 的对 待 新词 语 。 O 逐 为对 外汉 语新 词 语 教学 的坚 实 基础 。其 中 的重 要成 果 ,如 新 词语 三 、 结 语 的界 定与 规 范 、新 词语 的 成词 理据 分 析 、新 词 语 的特 点研 究 以及 当下 ,对 外 汉语 教 学 正处 于 飞速 发 展 的阶段 ,汉 语和 中 国文 新 词 语的 社会 心 理研 究 都将 对 新 词语 教 学起 到 重要 的指 导与 借 鉴 化 的广 泛 传播 促 使 其与 时俱 进 ,不 断吸 收新 的理 念、 新 的 内容 、 作用。 新 的理 论 。在 这 一 形势 下 ,将 新 词语 教 学与 相 关 的文化 教 学 引入 ( )不 断 编纂 出版 的新 词语 词 典 是对 外 汉语 新 词语 教 学 重 到 对 外汉 语 教学 中 意义 重 大 ,值 得有 关 学者 专 家 、汉 语教 师广 泛 二 要 的参考 工 具书 。 关 注和深 入探 讨 ,并在 实践 中收 获更 多的研 究经 验与 教学 成果 。 18 年 ,上 海 辞书 出 版社 出版 了闵 家骥 主 编 的 《 语 新词 词 97 汉 典》 , 自此 ,新词 词 典 的 编纂 出版 便 一 发不 可 收拾 。 19 1 9 参考文献 9 卜 94 年 ,于根 元 主编 的四 部新 词语 词 典 得 以连 续 出版 。这 些 新 词词 典 【 张志毅, 1 】 张庆云. 汇语 义学与词典 编纂【 . 词 M1 北京: 外语教 学与研 究出 的编 纂 出版 ,填 补 了汉 语词 典的空 白点 ,为现代汉 语研 究特别 是现 版 社 .0 7 20. 代汉语 词汇 的研 究 和大型详 解 型汉语词 典 、汉 外词 典的编 纂积 累 了 【J ’潘再平 . 新词语 刍议U . 德语 1 外国语 , 9 1 2 9 资料 ,改变 了 以往 汉语 词典远 落后 于语言 变化 发展 实际 的状况 。_ ( 常志斌. 5 3 】 留学生汉语 新词语课 ��

浅谈语块在对外汉语教学中的应用

浅谈语块在对外汉语教学中的应用
取, 是一 种预 制 的语 言单 位 。 这 里 所讨 论 的 “ 语 汉
语 块 ”并 不 等 同于通 常语法 分类 中的“ 组 ” “ , 词 或 短 语 ”, 子 中 的 固定 结 构 都 可 以视 为 语 块 , 括 词 句 包
组、 短语 、 固定 结 构 。在对 外 汉 语教 学 中 , 们更 关 我 注 的是 那些 构 句性 强 、 有 固定语 用 功 能 和 与特 定 具
话 题 密切联 系 的常用 语块 。
( ) 语 语 块 的 类 型 二 汉
大 量 的英 语教 学 实 践 已经 证 明 , 语块 在 第 二语 言教学 中的优势 显 而 易 见 。 同样 , 块 在汉 语 中大 语
量 存在 , 对外汉 语教 学 中以语块 为单 位教 学 , 大 在 很 程 度 上能提 高教 学 效 率 。总 的来 说 , 块对 留学 生 语 汉 语 学习 的作用 主要 有 以下 几个 方 面 。 ( ) 一 克服 中介语 , 少母语 的 负迁 移和 词 汇搭 减
中, 有侧 重 、 有选 择地 加 强 对 语 块 的指 导 和 训 练 ,
有 条件 的情 况下 建立 汉 语 语 块 的语 料 库 , 课 程 设 使 计 和课 堂授课 能 有 的放 矢 , 免 出现 词 汇教 学 和 语 避
法 教学 互相 孤立 的情 况 , 而 更加 实 用 和 灵 活 。周 从
过 程 中提 高听话 敏感 度 和表 达流利 度 。 ( ) 进 学生 语 言产 出的地 道性 和得 体性 三 促
彭 雪
( 云南师范大学 文学 院,云南 昆明 6 09 ) 50 2
[ 摘
要 ]语块在提 高外语 学习者 的语 言运 用能 力方 面具有重要作 用。在 对外汉语教 学 中, 如何 应用汉语语 块进行

基于语料库的现代汉语课程改革探析高晓梅

基于语料库的现代汉语课程改革探析高晓梅

2012年4月佳木斯大学社会科学学报Apr.,2012第30卷第2期JOURNAL OF SOCI AL SCIENCE OF JIA MUSI UNIVERSI TY Vol.30 No.2基于语料库的现代汉语课程改革探析高晓梅,金乃茹(佳木斯大学人文学院,黑龙江佳木斯154007)[摘 要]具有实证和量化特点的语料库的迅速发展,在语言研究和语言教学领域发挥了重要作用,为现代化课程的改革提供了新的契机。

本文拟探求基于语料库的现代汉语课程的教学内容及教学方法的改革,并就现代汉语在对外汉语汉字教学中的语料库方法的运用加以分析,为语料库研究方法与汉语教学相结合作以新的探索。

[关键词]语料库;现代汉语;课程改革[中图分类号]G642.3 [文献标识码]A [文章编号]1007-9882(2012)02-0163-02计算机技术日臻完善,使得语言研究的工具更现代化,由此建立的语料库为大规模的语料搜集、整理以及定量分析提供了便捷的条件,为解决语言研究问题提供了一条新途径。

语料库对语言研究影响巨大,乃至基于语料库的语言学研究方法形成了一个新兴的语言学学科 语料库语言学,普遍应用于语言研究及教学,语料库与汉语教学的结合研究也成为今后语言研究的一种趋势。

一、语料库建设为现代汉语课程更新提供可能在语言学中,语料库指大量文本的集合,运用随机抽样方法收集大规模的真实语料,经过整理,具有既定的格式与标记,并可利用计算机进行检索、查询、分析,是理想的语言知识资源,通常应用于词典编纂、语言教学、传统语言研究、自然语言处理中基于统计或实例的研究等方面。

20世纪60年代,美国布朗语料库的建成标志着语料库的诞生,此后各国纷纷投入巨资,相继建立了规模较大的不同语种的语料库。

在我国,70年代末以来,汉语现代文学作品语料库、现代汉语语料库等机器可读语料库开始建设。

90年代后,开始建立大型的国家级语料库,语料库成为研究中文信息处理的基本语言资源。

基于语料库的对外汉语教学领域术语提取

基于语料库的对外汉语教学领域术语提取

基于语料库的对外汉语教学领域术语提取卢一鑫(河南财经政法大学外语学院,河南郑州㊀450046)摘㊀要:文章介绍了自动提取对外汉语教学领域术语的方法㊂以对外汉语教学领域文本为目标文本,遵循主题取向㊁语料科学性㊁样本代表性㊁规模有限性等原则,建立专用语料库,并对其进行分词标注等加工;将统计学和语言学规则相结合,引用C -value 方法计算术语度值,探索该领域内不同长度术语的发现㊁辨识及提取的 混合方法 (hybrid solution),最终建立对外汉语教学术语集,其中包含单词型术语238个,两词术语375个,三词术语121个和50个由4~6个单词组成的长术语㊂关键词:专用语料库;术语提取;对外汉语教学;对外汉语教学术语集;C -value 算法中图分类号:H083;TP391㊀㊀文献标识码:A㊀㊀DOI :10.12339/j.issn.1673-8578.2024.01.002Corpus-Based Term Extraction in Field of Chinese Teaching as a Foreign Language //LU YixinAbstract :This paper introduces a method to extract terms of Chinese teaching as a foreign language.We take the text in the field of Chinese teaching as a foreign language as the target text,follow the principles of subject orientation,scientific corpus,and limited sample representation to establish a specialized corpus,and process it such as word segmentation and POS tagging.We combine sta-tistical and linguistic rules,use the C -value method to calculate the term degree value,and explore the hybrid solution to find,de-fine and extract terms of different lengths in this field.Finally a terminology base for Chinese teaching as a foreign language is estab-lished,including 238single word terms,375two word terms,121three word terms,and 50long terms (consisting of 4-6words).Keywords :specialized corpus;term extraction;Chinese teaching as foreign language;terminology base for Chinese teaching;C -value algorithm收稿日期:2023-07-09㊀㊀修回日期:2023-08-25㊀㊀网络出版日期:2023-11-16基金项目: 中国外语教育基金 项目 基于语料库的汉俄对外语言教学术语词典编纂方式探究 (ZGWYJYJJ11A102)阶段性成果0㊀引言术语作为描述和传播科学概念㊁定义和规律的基本要素,集中体现和负载了一个学科领域的核心知识,是人类科学知识在语言中的结晶,也是促进学科建设的有力工具㊂一种学问要成为一门独立的学科,必须有一整套术语来描述其研究对象㊁目的㊁方法㊁规律和定理的基本概念㊂科学㊁规范㊁系统的术语体系能促进一门学科的健康发展,相反,不科学㊁混乱的术语体系常常会阻碍一门学科的发展㊂随着对外汉语教学在全球的推广,有关对外汉语教学法㊁教学理论的研究越来越多㊂为促进对外汉语教学在全球的进一步发展,建立一个科学㊁规范的术语集具有重要意义㊂它不仅可以辅助编纂专业词典,同时也可在知识传播㊁机器翻译㊁科技写作等方面发挥重要作用㊂术语来源于文献资料,其中包括标准㊁词表㊁辞书㊁数据库㊁专著及论文等[1]277㊂语料库是由大量在真实情况下使用的语言信息经过科学地收集和组织而集成的专供研究使用的资料库,其主要应用领域为词典编纂㊁语义学研究㊁语言教学㊁信息获取㊁未登录词(out of vocabulary)获取以及基于实例的机器翻译等[2]5㊂对于自然语言处理而言,术语通常都是未登录词[3]㊂为此,建设用于提取对外汉语教学领域术语的专用语料库(specialized cor-pus),并对其进行加工,使其信息更加丰富,可以大大提高术语的辨识和提取效率㊂1㊀语料库的设计与建立语料库并非语篇的简单堆砌或集合,它应具有样本代表性㊁规模有限性㊁机读形式化等特征[2]2㊂本研究中创建语料库的目的是提取对外汉语教学术语,同时形成一个术语数据库,因此在创建该专用语料库时,遵循以下语料选取原则㊂1.1㊀主题取向性对外汉语教学是指对外国人的汉语教学㊂作为应用语言学下的一个分支学科,其理论基础是语言学理论(包括心理语言学㊁社会语言学㊁人类语言学)㊁心理学理论和教育学理论㊂它的研究对象就是对外汉语教学中的一般原则㊁方法和规律,以及与此相关的各种内部联系和外部联系㊂对外汉语教学研究围绕 怎样教 教什么 如何学 三方面展开,其实质就是作为第二语言或外语的汉语本体研究及其教学规律与习得过程研究㊂在目标领域文本中,术语具有较高的出现频率,而在其他领域文本中出现的频率则较低[3]㊂为保证该领域术语的识别和提取效率,减少噪声和漏提现象,在建库过程中,应选择专门研究以上对外汉语教学理论和方法论的书面文献,同时作者应是以中文为母语的对外汉语教学领域的学者㊂1.2㊀语料科学性术语作为专业领域中用来表示特定理论体系中普遍概念的专用词汇单位[4]60,具有专业性㊁科学性㊁理据性㊁确切性㊁系统性等特点㊂科技语体通常用来准确表述科学原理和科学规律,或系统地表述研究成果,因术语的含义固定㊁概念明确而大量运用术语,术语性就成为科技语体的首要和显著特点㊂因此,研究中仅选择符合上述主题取向的科技语体文献作为目标文本纳入语料库㊂1.3㊀样本代表性所选择的文献资料是否具有科学性和权威性,能否从总体上体现学科整体框架,直接影响术语抽取的精确率㊂1983年 中国教育学会对外汉语教学研究会 的成立标志着对外汉语教学作为一门学科正式诞生㊂之后,随着我国经济的发展和综合国力的提升,世界范围内学习汉语的人数逐年增长,对外汉语教学的理论和方法也在不断完善㊂2000年后,对外汉语教学事业飞速发展,学科内多个领域和方向的研究著作层出不穷,卷帙浩繁㊂为此,本研究选择出版于2000年后能够较为全面地涵盖该学科理论与实践研究成果并切实反映该学科发展水平的科学著作作为目标文本纳入语料库㊂1.4㊀规模有限性根据上文,所建的专用语料库应覆盖目标领域内所有术语,并且每个术语应出现一定次数以上,才可能获得有关其使用信息的可靠统计结果㊂因此,语料库需要达到相应的文本量㊂统计研究显示,汉语每个词平均有2个义项,要求每个义项出现5次,那么,为编制10000词的词典而创建的语料库应该包括10000ˑ2ˑ5=100000个句子㊂若句子的平均长度是40个字,那么语料库要达到400万字[2]6㊂在术语词典编纂中,影响其篇幅的主要因素是词典的学科取向㊁用途和功能㊂术语词典的基本功能之一是清点功能,即最大限度地反映某一学科领域的专业词汇㊂根据国际标准化组织的建议,规范术语词典的篇幅一般不宜超过1000个概念㊂而某一题材术语教学词典的最佳篇幅也应该在1000个词汇单位左右[1]148-149㊂因此,可以假设对外汉语教学领域的术语数量大约为1000个词汇单位,根据以上公式,旨在提取1000个术语的语料库规模应为40万字㊂根据上述标准,选择了以下两部学术著作,以扫描识别加人工校对的方式录入文本,创建语料库:1)商务印书馆于2014年出版的‘对外汉语教学概论“,陈章太㊁于根元主编,全书共计304 756字[5];2)商务印书馆于2016年出版的‘汉语可以这样教 语言技能篇“,赵金铭主编,全书共计95479字[6]㊂以上两部著作系统全面地阐述了对外汉语教学的基本理论㊁教学法㊁教材基本理论研究㊁汉语作为第二语言的习得与测试㊁汉语综合技能训练等各方面的内容,理论基础扎实,实践性强,作为对外汉语教师的培训教材,具有较高的权威性和代表性㊂2㊀语料库加工语料库加工分为不同层次㊂本研究的建库目的是提取对外汉语教学领域的术语,为此对语料库进行下列多层次加工㊂2.1㊀预处理将目标领域文本数字化是为随后的计算机自动处理文本所做的初步准备㊂为避免出现后续的标注和检索错误,以获得可靠统计结果,需要对文本进行预处理(语料清理),从而获取一个整洁的文本㊂在坚持原创原则的基础上,认真校对电子语料文本,删除乱码和嘈杂信息,检查错字漏字情况,然后借助软件 文本整理器 整理文本中空格㊁段落及标点符号方面的格式问题㊂2.2㊀切词(segmentation )与词性标注(POS tag-ging )汉语的最小书写单位是汉字,书面语句是连续字符串,除了标点符号之外,字与字之间没有空白㊂切词就是按照特定规范,对汉语按切词单位进行切分㊂经过切分,词与词之间的界限才会显现出来㊂词性标注是对已经过切词的语料中的每一个词赋予一个词性标记[2]8㊂按照国家标准‘信息处理用现代汉语分词规范“(GB /T 13719 1992)和‘信息处理用现代汉语词类标记规范“(GB /T 205322006),通过教育部语言文字应用研究所计算语言学研究室开发的 语料库在线 [7]中的汉语分词和词性自动标注系统,对语料进行自动切词与词性标注,如图1所示㊂图1㊀分词和词性标注示例2.3㊀词频分析在目标领域文本中,术语与其他词语相比,出现频率较高㊂因此可以提出假设,一个词语的出现次数越多,它作为术语的可能性也越大㊂在对语料库文本进行切词与词性标注之后,使用 语料库在线 的词频统计功能确定词频㊂该程序允许每次输入和处理的最大文本量为10万字,因此,所建规模为400235字的语料库按前后顺序被分为4部分,最终得出4个词频表,其中不仅包括候选术语,还存在一些广为使用的不具备区分性的高频常用词汇㊂为提高术语抽取的效率和准确率,去除词频表中的那些明确不是该领域内术语的词语是非常有必要的㊂2.4㊀停用词处理停用词是那些执行句法功能但不具有领域区分度的词㊂在文本处理过程中,停用词具有很大的干扰性,因其严重影响文本处理效率和准确性而被视为噪声㊂汉语常用停用词主要包括:数词㊁连词㊁代词㊁拟声词㊁感叹词㊁副词㊁成语㊁语气词㊁介词㊁处所词㊁助动词㊁时间词和状态词㊂目前应用范围较广的停用词表有百度停用词表(baidu stopwords)㊁哈尔滨工业大学停用词表(hit_stopwords)㊁四川大学人工智能实验室编制的停用词表(scu _stop-words)㊂百度停用词表中,除包含英文停用词外,两字词占比较大;四川大学停用词表则侧重三字词㊁四字词及常见俗语;哈尔滨工业大学停用词表囊括了大量的标点符号和特殊字符㊂将这三个停用词表合并,构成一个新的停用词表,命名为‘中文停用词全表“㊂利用软件AntConc 的自动删除停用词功能,过滤掉四个词频表中的停用词,然后将剩余部分词表合并(如表1所示),获取每个词的词频总数,之后进行下一步计算,抽取出单词候选术语㊂表1㊀各词频表中部分术语的词频统计词词频表1词频表2词频表3词频表4总计语言8877992922532231汉语3955399722732179文化2502117972612语法19611325348610汉字624541451572词汇1216217853414习得35337193394表达774246180345词语113589190325句子162685186313母语391687316296语音385614736277教学法147172734225课文6508132196音节0138423120 3㊀术语抽取不同语言中,术语的构词方式有着本质的不同,特殊的语法结构在一定程度上也是术语特征㊂因此,汉语术语的构词规则可以成为识别术语的语言学标准㊂冯志伟[8]㊁韩红旗[9]㊁Sui Zhifang等[10]众多学者对中文术语的长度㊁词性㊁构词规则等方面进行了研究㊂对以上学者的相关研究进行分析,可得出如下结论:(1)包含在术语中的单词数,被称作术语的长度㊂术语通常由一个或多个单词组成㊂由一个单词构成的术语为单词型术语(simple-word term),其长度为1;由多个单词组成的术语称作词组型术语或多词术语(multi-word term),其长度大于1㊂单词型术语不仅能单独用作术语,还可以用作词组型术语的组成成分㊂(2)术语的主要功能是称名概念㊂在各个词类中,名词最常执行称名功能㊂因此,名词有很大的机会充当术语㊂与此同时,用于描述特定情况下的过程或现象的动词也可以是独立的术语㊂单词型术语更多地是由单个名词或动词构成的㊂除此之外,名词和动词也可以作为词组型术语的组成部分,而形容词㊁副词等其他词类在大多数情况下作为一个组成部分出现在词组型术语中,很少单独用作术语㊂(3)词组型术语在数量上远超单词型术语㊂词组型术语的主要特点是具有稳定性和再现性,比单词型术语更能反映其命名概念的区分特征及种属关系,可以使术语更好地满足 系统性 有序性 准确性 等要求㊂词组型术语的这些属性在形式上具有语法标志,这就意味着,确定词组型术语的基本构词模式,并借此对它们进行自动识别的客观前提是存在的[4]184㊂基于上述研究,确定了由2~3个单词组成的词组型术语的构词规则,如表2所示㊂(4)汉语词组型术语通常由2~3个单词组成,在某些领域存在少量由4~6个单词组成的多词术语,但由于其使用不便,它们往往被缩减成缩略语(单词型术语)进行使用㊂随着术语长度的增加,长术语的构词模式也不断增加,但其覆盖率却急剧下降,大部分长术语构词模式的覆盖率不足1%,可见长度超过3的术语已不适合采用构词规则作为识别手段㊂因此,在上述研究的对比分析过程中,可以总结出识别由4~6个单词构成的多词术语的如下一般特征:①4~6词候选术语中不包括:代词,习用语,状态词,处所词,拟声词,感叹词,标点符号和成语;②4~6词候选术语不以连词或助词开头;③4~6词候选术语不以连词㊁方位词作词尾㊂3.1㊀单词型术语的抽取单词型术语更多地由单个名词或动词构成㊂因此,从经过停用词处理后的词频汇总表中抽取所有名词和动词,并对它们进行术语度值(Termhood)的计算㊂术语度用来计算候选术语与特定领域的关联程度,术语度值越高,候选术语成为术语的可能性就越大㊂表2㊀由2~3词组成的词组型术语的构词规则术语类别构词规则示例构词规则示例2词术语n +n 语言/n 行为/n a +n 基本/a 能力/n v +n 表达/v 能力/n f +n对外/f 汉语/nn +v 笔头/n 练习/v a +v 完全/a 掌握/v v +v阅读/v 理解/vm +n第二/m 语言/n3词术语n +n +n 中介/n 语/n 理论/n d +n +n 对外/d 汉语/n 教材/n n +v +n 汉字/n 输入/v 法/na +n +n 多/a 语言/n 背景/n v +v +n教学/v 辅助/v 手段/n v +n +v 跨/v 文化/n 交际/vv +n +n 产出/v 性/n 技能/n n +v +v汉语/n 写作/v 教学/vn +n +v汉语/n 水平/n 考试/v m +n +v 第二/m 语言/n 教学/v m +n +n第二/m 语言/n 习得/nd +n +v对外/d 汉语/n 教学/v备注:n 代表名词,v 代表动词,a 代表形容词,d 代表副词,f 代表方位词,m 代表数词㊂㊀㊀C -value 作为自动术语提取研究中常见的术语度计算方法,在计算时不仅考虑了候选术语的长度及其在目标领域文本中出现的频率,同时也考虑了它作为组成部分嵌套在其他词组型术语中的频率㊂一个词若能被嵌套在更多词组中,它成为术语的可能性就越大㊂一般情况下,C -value 计算公式只能计算词组型候选术语的术语度值,因其公式中的log 2|t |恒为0,使得所有计算结果均为0,为此Barron-Cedeno 等[11]提出了适用于计算单词型术语的术语度值的C -value 计算公式,将公式中的系数log 2|t |改为C (t ),并设置C (t )=1+log 2|t |:C -Value(t )=c (t )㊃TF (t )c (t )㊃(TF (t )-ðs TF (s )|{s ʒt ⊂s }|)ìîíïïïï其中:t 表示候选术语,TF 表示嵌套术语的频率,s 表示包含t 的候选术语的数量㊂通过上述公式计算出所有单词型候选术语的术语度值,并据此对它们进行排序㊂与此同时,将计算出的平均值作为阈值,之后提取出术语度值高于阈值的候选术语,构建最终的单词型术语列表㊂3.2㊀词组型术语抽取如上所述,词组型术语结构稳定,并形成特有的固定搭配㊂从统计学角度看,词组型术语各组成部分的共现频率通常较高[3],由高频词汇组成且高频率出现的字符串更有可能成为词组型术语,由此提出假设,该领域词组型术语嵌套已提取的单词型术语㊂通过日本早稻田大学Laurence Anthony 设计的语料库分析工具AntConc 的索引(Concordance)功能对词组型术语进行处理㊂索引又被称为 语境中关键词 (key word in context,KWIC),是指运用索引功能在语料库中查询某词或短语的使用实例,然后将所有符合条件的语言使用实例及其语境以清单形式列出并可对其进行排序,使用者可以设定不同的排序方法对检索词的前后语境进行排序,以便从索引行中寻找规律㊂需要特别指出的是,中文语料只有经过分词和标注后才能使用AntConc 索引功能,西文语料可以直接使用该功能㊂词组型术语最常由2或3个单词组成,而中文单词多由1~3个汉字组成,因此可将三词术语的最大长度设定为9,即最多包含9个汉字㊂以抽取出的单词型术语为关键词,为了避免漏提可能成为候选术语的字符串,需将关键词的上下文视界宽度在其左侧和右侧均设定为9,即只呈现关键词在上下文中直接相连的9个汉字㊂图2所示为从语料库中检索 语音 一词所得索引结果的一部分㊂在这些索引行中,每一行中检索词 语音 都位于中间,前后各有若干词及其词性标注㊂一共检索到以 语音 为关键词的322条字符串,并统计了其出现频率㊂图2㊀索引示例㊀㊀将符合表2中2~3词词组型术语构词规则的字符串抽取出来,分别构成两个候选术语列表:由双词构成的候选术语列表和由三词组成的候选术语列表㊂需要注意的是,这些列表中不仅包含了术语,还可能存在常用词组及无意义字符串㊂确认最终的2~3词词组型术语,需要通过以下公式,计算抽取出的候选词组型术语的术语度值㊂C -Value(t )=log 2|t |㊃f (t )㊀㊀㊀㊀㊀㊀㊀㊀t 未被嵌套log 2|t |㊃(f (t )-ðs f (t )|{s ʒt ⊂s }|)㊀其他ìîíïïïï其中:t 表示候选术语,|t |是候选术语t 的长度(以汉字字数为单位),f (t )是t 在语料库中出现的频率,s 是包含候选术语t 的候选词组型术语(即候选术语t 嵌套在候选术语s 中)㊂计算候选术语列表中的平均值作为阈值,提取高于阈值的候选术语组成该领域术语表㊂使用Concordance 索引功能的优势在于可以直接观察到核心词汇的前后搭配规律,并对其上下文的自动分词标注结果进行人工校对,避免因分词或标注错误产生漏提或错提㊂与此同时,可以在检索到符合2~3词词组型术语构词规则的字符串时,拓宽其上下文视界宽度,使其呈现出与关键词相连的更多汉字,挑选出符合上文所提到的由4~6个单词构成的词组型术语一般特征的字符串,然后人工判断这些术语的真假㊂最后,将所有提取出的由2词㊁3词㊁4~6词组成的词组型术语进行列表归纳,组成对外汉语教学领域的词组型术语表,如表3所示㊂4㊀结语为构建对外汉语教学术语集,本文以对外汉语教学领域的文本为目标文本,遵循主题取向性㊁语料科学性㊁样本代表性㊁规模有限性原则,选择出版表3㊀词组型术语表示例2词术语3词术语㊀㊀㊀㊀㊀由4~6词组成的词组型术语㊀㊀㊀对外/d汉语/n 对外/d汉语/n教学/v对外/d汉语/n教学/v大纲/n 对外/d汉语/n教学法/n对外/d汉语/n教学/v理论/n 对外/d汉语/n教材/n对外/d汉语/n教材/n编写/v第二/m语言/n 第二/m语言/n教学/v第二/m语言/n习得/n第二/m语言/n教材/n第二/m语言/n学习者/n第二/m语言/n教学/v实践/v第二/m语言/n教学/v领域/n第二/m语言/n习得/n研究/v第二/m语言/n习得/n理论/n第二/m语言/n教材/n编写/v第二/m语言/n教材/n评估/v第二/m语言/n学习/v过程/n交际/v能力/n 跨/v文化/n交际/v跨/v文化/n交际/v能力/n 汉语/n交际/v能力/n无口语/n交际/v能力/n无㊀㊀㊀㊀㊀㊀备注:n代表名词,v代表动词,a代表形容词,d代表副词,f代表方位词,m代表数词㊂于2000年后且能够较为全面地涵盖该学科理论与实践研究成果并切实反映该学科发展水平的科学著作作为语料纳入语料库,规模约为40万字㊂㊀㊀提取术语主要分为两个阶段:第一阶段提取候选术语;第二阶段利用C-value方法对候选术语进行术语度值的计算和评估㊂在此过程中,为提高效率,避免漏提或者错提术语,引用了停用词表,删去了不可能成为术语的词,并引用了语言学知识,用预设的汉语术语构词规则对候选术语进行筛选㊂最终共提取对外汉语教学术语784个,其中包括单词型术语238个,两词术语375个,三词术语121个和长术语(由4~6个单词组成)50个㊂实验研究发现,本文使用的基于语料库的将统计学和语言学规则相结合的方法,在提高术语提取效率的同时,可有效避免漏提或错提,特别是用于提取由2~3词组成的高频术语,效果十分明显㊂与此同时,因为语言学规则的引用,自动分词标注程序不完善,会出现标注错误的情况进而影响候选术语的产生,因此需要对语料库文本进行词类标注处理㊂为此,如何减少术语自动提取过程中的人工核校工作,减少噪声,提高低频术语的识别效率,仍是今后术语提取研究中需要进一步解决的重要问题㊂参考文献[1]刘青.中国术语学概论[M].北京:商务印书馆,2015.[2]郭曙纶.汉语语料库的建设及应用[M].上海:上海外语教育出版社,2011.[3]常宝宝.科技术语自动提取技术:现状与思考[J].中国科技术语,2022,24(1):3-13.[4]吴丽坤.俄罗斯术语学探究[M].北京:商务印书馆, 2009:278.[5]陈章太,于根元.对外汉语教学概论[M].北京:商务印书馆,2014:516.[6]赵金铭.汉语可以这样教:语言技能篇[M].北京:商务印书馆,2016:191.[7]语料库在线[CP/OL].[2023-05-30].http://corpus. .[8]冯志伟.现代术语学引论[M].增订本.北京:商务印书馆,2011:599.[9]韩红旗,安小米.C-value值和unithood指标结合的中文科技术语抽取[J].图书情报工作,2012:85-89.[10]SUI Z F,CHEN Y R,HU J F,et al.The research on theautomatic term extraction in the domain of information sci-ence and technology[C]//Proceedings of the5th EastAsia Forum of the Terminology.Haikou.2002:444-451.[11]BARRON-CEDENOА,SIERRA G,DROUIN P,et al.An improved automatic term recognition method for Span-ish[M]//Computational Linguistics and Intelligent Text Processing.Springer.2009:125-136.作者简介:卢一鑫(1989 ),女,博士,河南财经政法大学讲师㊂主要研究领域为应用语言学,汉俄对比语言学㊂先后参与 外汉多语言词典数据库建设 中国传统哲学在俄罗斯的译介与传播历史研究 等科研项目㊂在国内外学术会议及期刊发表论文近10篇㊂通信方式:yixinhn@mail.ru㊂‘中国科技术语“开展科学数据出版为顺应大数据时代的发展,‘中国科技术语“开展科学数据出版服务,为作者和读者提供集文献和数据于一体的信息化服务㊂本刊的数据出版分为2种模式:(1)科技论文附加数据:本刊鼓励作者在提交科技论文时,附加支撑数据集,在文中对相关数据集进行描述和管理,为使用者在阅读论文的同时提供科学数据的访问㊁引用㊁分析等㊂作者按照本刊投稿流程将附加数据集上传到本刊投审稿系统()或科学数据银行(),如果是已发表的数据集,添加已注册的DOI到论文中即可㊂(2)数据论文:如果作者认为阶段性数据处理工作具有发表和共享意义,可直接发表数据论文㊂数据论文须详细描述所对应的数据集,包括数据采集和处理方法㊁样本描述㊁质量控制方法以及数据价值㊁使用方法和建议等相关信息㊂请作者将拟发表的数据集存储到科学数据银行(),在数据论文中添加已注册的DOI即可㊂请务必确保数据论文信息与保存到数据存储库的元数据信息一致㊂作者提交的数据包括但不限于:原始数据㊁处理后的数据㊁软件㊁算法㊁协议㊁方法㊁材料㊁数据文件或电子表格㊁术语数据库㊁语料库㊁术语集以及其他多种形式,如视频㊁问卷或幻灯片等㊂作者所存储的数据将永远存在并且开放访问㊂本刊对两种模式的数据出版论文投稿均按流程进行审稿㊂本刊‘中国高铁 出海 术语库建设与应用“为数据出版论文,扫描右侧二维码可查看相关数据㊂更多信息,请联系本刊编辑部:010-********,84010681㊂。

汉语中介语语料库在对外汉语研究中的应用的论文

汉语中介语语料库在对外汉语研究中的应用的论文

汉语中介语语料库在对外汉语研究中的应用的论文汉语中介语语料库在对外汉语研究中的应用语料库是一个由大量在真实情况下使用的语言信息集成的专供研究使用的资料库。

语料库语言学则是以语料库为研究目的和手段的语言学方法,包括语料库的建立、数据的处理、统计分析和研究、数据资源的检索和应用等诸多方面的内容。

随着计算机应用于语言研究,建立语料库所需的技术设备日益完善,语料库的建设规模不断扩大,利用语料库进行语言研究的手段也相应得以改善。

一、语料库应用为语言学研究带来的影响语料库既已成为语言学实证研究的一个重要手段,基于语料库的实证研究也随之逐年增加,成为语言学研究的热点之一。

按研究目的来分,基于语料库的研究主要分为三类——二语习得、母语习得和自然语言处理,二语习得研究所占比例最大。

二语习得重视对学生在学习过程中所犯的语言错误进行对比分析,特别是对“中介语”进行偏误分析。

与人工收集的有限的学生病句卡片资料相比,“中介语”语料库能够更加真实、详尽地反映二语学习者的汉语中介语原貌,帮助我们更加全面系统地观察他们学习和习得汉语的过程,了解影响学习和习得的各种因素,所发现的规律也可以为第二语言教学的总体设计、教材编写、课堂教学、测试等各个环节的研究提供依据。

二、汉语中介语语料库在对外汉语研究中的应用情况汉语中介语语料库为对外汉语的教学和研究提供了更为客观和翔实的数据以及经验性的研究方法。

(一)汉字习得研究《外国留学生规则字偏误分析——基于中介语语料库的研究》从北京语言大学的中介语语料库中分别选取了日本、韩国和欧美留学生使用过的汉字,并在此基础上进一步筛选了日、韩、欧美学生共同使用的形声字,对比分析了留学生在读音规则形声字和不规则形声字的错误类型。

结果显示,国籍(母语)和hsk等级和留学生对形声字的掌握有密切的关系;留学生对规则字和不规则字的学习掌握没有明显差别;欧美和韩国留学生在不成字部件构成的汉字上的错误率高于成字部件构成的汉字,表明留学生在形声字的认知加工中一定程度上还是会主要依赖字形信息。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1999年第4期 厦门大学学报(哲学社会科学版) N o.41999 (总第140期) JOURNA L OF XI AME N UNI VERSITY(Arts&S ocial Sciences) G eneral N o.140语料库在对外汉语教学中的应用卢 伟摘 要:以语料为基础的语言研究方法及其成果语料库,在对外汉语教学与研究方面可以得到广泛的应用。

现代汉语语料库不仅可以为编制教学大纲提供定量依据,为编写教材提供真实的语言素材,为编纂教学专用辞书提供语料和语言信息,还有助于研究语言形式的语境意义和用法,有助于发现第二语言学习和习得的规律,有助于发现和修正语言规律,促进汉语研究和教学的发展。

因此,有必要加强我国语料库建设及其在对外汉语教学与研究中的应用。

关键词:语料库;应用;对外汉语教学收集真实语言环境中的语言材料,并将它们作为素材来解释和例证现存的语言现象,或者发现新的语言规律,这是语言研究的基本方法。

在计算机尚未应用于语言研究之前,语言研究人员只能通过手工收集、记录和整理语言材料。

近年来,由于计算机应用于语言研究,建立语料库所需的技术设备日臻完善,语料库的建设规模不断扩大,功能越来越强大,检索愈来愈方便,利用语料库进行语言研究的手段也随之得到改善。

正如语言学家M.A.K.Halliday所言,“现代语料的巨大包容性及开发语料的种种手段的出现构成了深化我们对语言的认识和理解的强大力量。

”①不断涌现的研究成果改变了人们对语言研究的固有观念和模式,也使得利用语料进行语言研究的优良传统得以发扬光大。

如今,语料库的建设和利用它进行语言研究,正在发展成为一门新兴的语言学分支学科———语料库语言学。

它对语言研究的许多领域产生愈来愈大的影响,并广泛地应用于语言的词汇、语法、语义、语用、语体等方面的研究、社会语言学研究、口语研究、词典编纂以及自然语言处理、人工智能、机器翻译、言语识别和合成等研究。

对外汉语教学是将汉语作为外语或第二语言的教学,属于语言学的应用学科,涉及多种相关学科的交叉研究,必须从相关的新兴学科中汲取研究方法和应用成果,以丰富自身的学科理论,促进学科的发展。

以计算机存储的语料为基础的语言研究方法,是当今语言学任何分支学科研究的一种自然的、现代化的、甚至是不可或缺的辅助方法。

因此,我国的对外汉语教学也必须从相关的语料库中提取真实、客观、丰富的语言素材,进行教学与学术方面的研究。

笔者认为,语料库在对外汉语教学与研究方面应得到广泛的应用。

1.为研制汉语词汇、语法和汉字教学大纲提供科学的参考依据定量统计是研制任何标准应该遵循的原则。

我国对外汉语教学界的两个指导性纲领《汉语水平词汇与汉字等级大纲》和《汉语水平等级与语法等级大纲》,也把“多学科定量统计”作为编制原则之一。

如果我们建成一个学科覆盖范围广泛的大规模现代汉语语料库,那么就可以为从事对外汉语教学和研究的人员提供大量反映各种语体和语域的真实语料,便于对现代汉语的字、词和语法项目进行更加科学、客观、准确的定量统计分析。

可见,汉语作为外语或第二语言教学的各种等级大纲,如果能够建立在语料库提供的汉字、词汇和语法项目使用频率的定量统计基础上,就更具有广泛性、客观性、科学性和权威性,因而对教学实践和相关的学术研究也更有指导意义。

2.为编写对外汉语教材提供真实的语言素材对外汉语教学的最终目的,就是培养留学生运用汉语进行言语交际的能力,因此必须强调用于教学的语言材料的真实性,也就是语言素材应该具有实际的言语交际价值。

如果我们能从大量真实的口头与书面语料中选取素材,就能让学生学到自然的、地道的汉语。

反之,如果用于第二语言教学的汉语教材中,关于词汇和语法教学的语言素材和例子是编者依靠经验、凭借语感或者按照语法规则演绎编造出来的,那么其中有些例子就可能与实际交际中的言语事实有差距,甚至可能失去交际价值。

英国语言学家Quirk曾批评道:“从这些自己编写的例证出发”,“把材料仅仅当作‘例证’来使用,用来证明先验的、或者是语法学传统规定的、甚至是凭直觉认定的某些语法上的区别和结构,而不是从大量自然语言材料中归纳这些语法上的差别,这只能是一种很不令人满意的权宜之计。

”②有鉴于此,我们首先应该利用语料库所提供的材料进行分析和统计,从而发现使用频率高的词语、表达方式和句型等,将它们编入教材并作为教学重点,这样就可以减少教学的盲目性。

其次还应该根据语料库所提供的语料,解释和例证语法规则和词语用法。

根据语料处理教学中的语言项目,具有量化的标准和统计学的依据,能够使语言描写更加全面客观,解释更加准确科学,例证更有说服力。

3.有助于研究语言形式在语境中的意义和用法如果没有语料库为我们提供大量的语言材料,仅仅依靠有限的语料对语言形式进行意义和用法研究,可能会因为材料不足导致研究结论不够准确全面。

相反地,利用语料库的定位检索系统,比如“上下文中的关键词(K WIC)”索引形式,可以从大量的语料中检索出某个汉语单词、短语、语法结构等语言形式以及它们出现的上下文。

现代化的手段使得我们有可能从宏观的角度,对语言形式及其语境进行全面的观察和分析。

因此,利用语料库进行各种语言形式在语境中的语义和语用研究,可以避免分析和判断的失误,有助于更加全面准确地认识汉语语言形式在交际语境中的意义和用法,据此所进行的描写也更加可靠。

其研究成果可以帮助学习者掌握汉语单词、短语和表达方式的正确用法,加深对词语的语境意义的理解,还有助于克服第二语言学习过程中的“语用失误”(pragmatic failure)。

4.可提供第二语言学习者的“中介语”(interlanguage)形式第二语言学习与习得理论重视对学生在学习过程中所犯的言语错误进行对比分析,特别是对“中介语”进行偏误分析。

传统的作法是,教师通过人工收集学生的病句,但是由于受到种种客观原因的限制,所能搜集到的病句毕竟有限,而大规模的第二语言学习者语料库却能为教师提供现代化的研究工具。

比如北京语言文化大学的“汉语中介语语料库系统”,收集了汉语中介语语料350多万字,其中核心语料100多万字作了断句、分词和词性标注。

通过语料检索系统,实现了对语料在字、词、句、篇等不同层次上快捷方便的自由检索和浏览,可以提供各种单项的或综合的资料、数据和信息。

它为中介语研究和偏误分析提供了大量宝贵的资源,为这方面的研究提供了科学便捷的集成环境和先进技术手段。

与人工收集有限的学生病句卡片资料相比,“中介语”语料库能够更加真实详尽地反映第二语言学习者的汉语中介语本来面貌,帮助我们更加全面系统地观察他们学习和习得汉语的过程,了解影响学习和习得的各种因素,所发现的规律反过来可以为第二语言教学的总体设计、教材编写、课堂教学、测试等各个环节的研究提供依据。

此外,建立在中介语语料库基础上的偏误分析,也有助于预测和纠正第二语言学习者的言语错误。

5.为编写第二语言教学专用的辞书提供真实的语料和相关的语言信息西方早期的某些语料库是为编纂词典收集语料而建立的。

西方所谓的“语料库革命”给信息资料学带来了根本的变化,因此我们完全有理由说,大型的汉语语料库也必将引起汉语辞书编纂的变革。

同时,也为编写对外汉语教学专用的辞书提供大量真实客观的语料和相关的语言信息,诸如词频统计、词汇分级、词性标注、词语搭配、语体特征、词语用法、语境中的例句,等等。

此外,在编纂词典的时候,首先应该坚持“描写性”(descriptive)而不是“规定性”(prescrip2 tive)的方法,也就是要客观地描述语言事实,而不是单凭编者的主观判断来规定词语的用法。

因此,如果对外汉语教学专用的汉语词典能够以大型的汉语语料库为基础,那么,这样的词典必将更加具有统计学的定量依据,对词语的意义和用法的描述也会更加客观全面,其科学性和权威性也就更强,对教学与研究也就更有参考价值。

6.有助于从汉语的实际使用情况中发现和修正语言规律英国语言学家Quirk等人编写的《当代英语语法》之所以被公认为权威之作,很重要的原因在于这本语法专著是建立在“英语用法调查”语料库的基础上的。

后来,他们又根据扩充了的语料合编了更有权威性的《当代英语语法大全》。

这本巨著发现了一些新的语法规律,补充或修正了一些原有的语法规则。

“语料库可用来作为验证有关语言假说的手段”③。

西方语言学家利用语料库研究语言,特别是语法的经验和成果表明,对语料库提供的大量语料进行分析,有时可以发现一些过去被忽略的语言规律,比如语法书上没有或者没有详细描述过的语言规律。

有时,以语料库的大量语料为基础所进行的语言研究,更有可能使语言研究者发现原有对某些语法现象的解释与自然语言中的实际情况不相符合,这就使得他们有机会去修正或补充前人的结论,促进语言研究不断发展。

因此,语料库不但有助于汉语语言的应用研究,而且为高效、全面、科学地进行现代汉语的理论研究提供了强大的现代化技术保证,特别是在发现和修正语言规律方面大有可为。

毫无疑义,语言规律的发现和修正对于汉语研究具有重要的意义,而对汉语本体的研究成果,也必将促进对外汉语教学与研究进一步发展。

我国语料库建设发展较慢,这对于一贯重视利用真实语料进行语言研究的我国语言研究传统来说,显得很不适应,尤其是在对外汉语教学的应用方面,还有待于进一步发展。

比如我国的对外汉语教学界,虽然成功地研制了“汉语中介语语料库系统”和“现代汉语研究语料库系统”,为第二语言教学与研究提供了基于大规模真实语料的现代化研究环境和技术手段,但是仍然远远不能满足教学与研究的实际需求,况且还有很多理论和技术问题没有解决。

诸如怎样汲取和应用西方语料库语言学的研究方法和建库经验,现有的语料库规模偏小,语料标注加工的广度和深度不够,语料检索软件还有待改进,等等。

针对这些不足,我们认为至少必须重视以下几个方面的工作。

首先必须继续学习西方语料库语言学的理论和方法以及语料库建设的经验和教训,并结合汉语特点加以汲取和应用。

其次,继续收集样本语料扩充并标注现有的语料库,使之语料更丰富,覆盖面更广,标注更科学。

可以利用光电扫描技术和语音录入软件提高语料输入的效率,也可充分利用现有的电子出版物和“因特网”上的中文信息作为语料来源。

应该特别加强语义层面和语用层面的标注。

第三,有关部门统一组织力量研制不同用途的新语料库,比如普通话口语语料库、“专用型(specialized)”语料库、双语“平行对照型(parallel)”语料库等,以利于普通话口语研究、汉语与外语的双语比较研究。

第四,在技术方面,提高现有语料库的运行速度,引进国外的或者改进现有的标注和检索程序,开发新的工具软件,使语料检索更加方便快捷,功能更加强大。

第五,尽最大可能地发挥现有语料库的作用。

相关文档
最新文档