小型学习者语料库的建设与应用
新媒体环境下日语JLPT语法视频语料库之小程序平台设计与实现

新媒体环境下日语JLPT语法视频语料库之小程序平台设计与实现①夏国锋(苏州农业职业技术学院,江苏苏州215008)[摘要]“互联网+”正推动着教育行业朝着线上线下混合发展模式变革。
拟在新媒体环境下利用近年来兴起的微信小程序设计开发日语JLPT语法视频语料库,力求突破传统语料库使用的技术要求,以最新日剧为素材,建立一个将语言、文化、情景、练习等融为一体的多模态考级语料库,让日语学习者利用移动智能设备就能随时置身真实的语境中感同身受,同时学习者的日语知识框架也会变得动态化、立体化、社会化。
[关键词]新媒体环境;日语JLPT;视频语料库;微信小程序[中图分类号]G712[文献标志码]A[文章编号]2096-0603(2020)26-0102-02一直以来,阻碍日语学习者应用能力培养的主要因素就是“缺乏接触真实语境的机会”,这就直接导致了多数学习者的日语语法应用能力弱,尤其是日语JLPT考试题型都是选择题,在这种考试模式下语法学习的结果往往是讲不成句、写不成型,会考不会用。
纽南(Nunan.D)认为语法学习要做到句法形式、语义和语用三个维度的统一,属于语言交际的范畴,不能只偏重句法形式的解释。
随着多媒体的发展和信息技术的革新,影视作品被广泛地运用在日语教学中,尤其是以JLPT语法条目为目标语的视频片段的精准学习如何在日语教学中得以运用成为重难点。
在调研过程中发现JLPT考试高分者或者口语交际能力较强的学习者超半数都有在看日本动漫、日剧、日本综艺节目等,究其原因,就是影视作品可以将语言、情景、文化礼仪等融为一体,让学习者可以置身于仿真的环境中感同身受,是日语学习者增强日语实际应用能力的理想载体。
利用传统语料库进行学习对于普通学习者来说既有技术难度又不方便操作。
利用移动智能设备开发的学习软件虽然很多,但开发成本高、上线周期长、打开率低、学习者手机储存空间不足。
随着技术的革新,作为一种轻度云端App近年盛行的微信小程序被开始运用到教育行业,它不用常驻手机内存,无须安装、卸载,可以实现“随时可用、即用即开、用完即走、走亦无痕”,学习者可以非常便捷地登录,扫一扫或搜一搜即可打开平台,这种新媒体技术可以突破传统语料库使用烦琐的问题。
大学英语教学新型语料库建设研究

从教材 ,必须 持有批评的眼光分析 教材 ,加强学
生对文化意识 形态 差异的敏感性 ,加深 对本 国文
化 的 认 识 ,使 之 树 立 正 确 的 世 界 观 和 价值 观 。
的建 设 , 在 推 动 高 校 英 语 教 学 的 同 时 ,还 对 高 校 英 语 教 师 的教 学质 量起 到 了创 新 作 用 , 在 整 个 大 学教 学 中有 着 极 其 重 要 的作 用 。在 此 ,本 文 针 对 大 学 英 语 教 学 新 型评 语 言学 :理 论与 应 用[ . 2 批 M]上海 :上海 外 语 教 育 出版社 ,2 0 . 05 [] 程 晓 堂 . 语教 材 分析 与设 计 [ . 京 :北 京 外语 教 3 英 M]北 学与研 究 出版社 ,2 0. 02
Ab t a t C ic l i o re ay i ( D many sr c : r i s us l s C A) il taD c An s
Ro t d e& Ke a a 1 9 9 ul g e g n P u .1 7 .
Ⅱ 大 英 教 语 库 作 学语学料的用
在整个大 学英语教学 中,语料库创建 的核心 目的在于为大 学英语 教学服务 ,确保 英语教师在 日常 教学 中,能够 熟练地将 语 料 库 中 的 英 语 知 识 应 用 到 英 语 教 学 的 各 个 环 节 中 , 避 免 单 调 的教 学模 式 出现 。此外 ,英语作为一 门外来语 ,教师 在 日常备 课 中 ,也 需要语料 库 的支 持与帮 助 。与其 他语 料库不 同的 是, 英语 语料库的建立 ,除了对各项资料进 行精心搜集外 ,还需要 帮助英语学 习者对这些语言进行相应的理解。但在 实际应用中, 语料 库的实际用途 取决于语料库 的实际建库容量 。若 语料库 的 容 量 越 大 ,则 表 明 其 代 表 性 越 强 。此 外 ,在 考 虑 语 料 库 代 表 性 的过 程 中 ,还 应 结 合 语 料 库 的用 途 及 实 际 应 用 对 象 等 两 个 因 素 进行分析 。
全球华语语料库建设及功能研究

全球华语语料库的建设方法
全球华语语料库的建设需要采集大量华语语料数据,包括文字、音频和视频 等多种形式。采集数据时要确保语料的多样性、真实性和可靠性。此外,对语料 进行加工处理也是非常重要的一环,包括文本清洗、标注、分词、句法分析和语 义分析等。在语料库建设过程中,质量检测也是必不可少的一环,以确保语料库 的准确性。最后,语料库需要存储在一个稳定、可扩展的数据库中,以便进行后 续的分析和处理。
在翻译领域,全球华语语料库可以为翻译者提供更加准确和地道的翻译参考, 提高翻译质量。然而,全球华语语料库也存在一些不足之处,例如数据偏差、文 化差异等问题,需要在使用时加以注意。
挑战与解决方案
全球华语语料库建设面临的挑战主要来自以下几个方面:数据采集的难度和 成本、数据处理的复杂性和准确性、以及如何保证语料库的实时更新和维护。为 了解决这些问题,我们提出以下解决方案:
3、应用领域将不断扩展,除了语言研究、教学和翻译等领域,全球华语语 料库还将应用于舆情分析、智能客服、机器翻译等领域,为社会各界提供更加高 效和精准的华语智能服务。
4、全球华语语料库将积极参与国际交流与合作,与全球其他语言资源库进 行互联互通,共同推动全球语言研究与应用的发展。
ቤተ መጻሕፍቲ ባይዱ 参考内容
随着全球汉语学习者人数的不断增长,汉语教学资源和工具的需求也日益增 加。为了满足这一需求,建设全球汉语学习者语料库成为了一项重要的任务。本 篇文章将介绍全球汉语学习者语料库建设的背景和意义、目标用户、建设方案、 技术保障、人才保障以及运营方案。
功能
全球汉语中介语语料库具有以下功能:
1、学习资源:全球汉语中介语语料库首先被视为一种学习资源,为汉语学 习者提供了丰富多样的真实语境,有助于学习者更好地理解和掌握汉语。
对接环保专业的小型英语语料库建设构想——以长沙环境保护职业技术学院为例

机和网络平 台的语料库极大地丰富教学方法 , 在其 保专业英语教 学中建设小 型语料库不仅是必要 的,
基础 上可创 设 多维演 示 立体 教学 和 人 机互 动 教学 模 而且 是可行 的 。 式, 实现 纸质教 材 、 电子 光盘 和互 联 网三维 立 体 现代 教学 资源 整合 , 创造 灵 活有趣 的学 习环 境 , 快 速 地 激 发学 生学 习兴 趣 , 有 效地 提 升教 学效 果 ; 作 为教 学 改
础 语 言知识 欠 缺 , 学 习高 职公 共 英 语 已 显力 不 从 心 , 飞猛进 。语 料库 是 “ 按照 一定 的语 言 规则 , 运 用 随机
+ [ 基金项 目] 湖南省职业教育与成人教育学会与 中国职业技术教育学会教学工作委员会 2 0 1 3 — 2 0 1 4年度科研规划联合立项课题 “ 工作 过程导 向观照下 的高职环保专业英语课程改革研究与实践—— 以长沙环境保护 职业技术学院为例 ” ( X H B 2 0 1 3 0 4 1 ) ; 本 文 也是长沙环境保护职业技术学院 2 0 1 3年度 教育教 学立项课 题阶段研究成 果之一 。
2 0 0 9 年教育部在《 高等职业教育英语课程教学 环保 英语 教学 通 常 由环 保专 业 教师 和 英语 教 师 共 同 要求》 中提出通过“ 开设行业英语教学提高就业竞争 承担 , 专业教师具有扎实的专业理论知识 , 但缺乏系
力” , 强调 以“ 岗位 需求 ” 为 主线 开发 和构建 教 学 内容 统 的英 语 语 言 知 识 , 公 共 英 语 教 师拥 有 系统 的语 言
2 0 1 4年 2月第 1期 第2 7卷 ( 总第 1 3 4期 )
湖南税务 高等专科 学校学报
J o u m ̄ o f Hu n a n Ta x C o l l e g e
基于深度学习的自然语言声音语料库建设与应用研究

基于深度学习的自然语言声音语料库建设与应用研究随着深度学习的发展,音频和自然语言处理技术越来越成熟,自然语言声音语料库的建设和应用已经成为了深度学习领域里非常重要的一部分。
这篇文章就会来探讨一下基于深度学习的自然语言声音语料库构建,以及它在多种应用领域中的应用和影响。
1. 自然语言声音语料库的基础自然语言声音语料库指的是一种由自然语言文本和语音数据组成的一套语料库。
在建设自然语言声音语料库时,需要从大量的现有数据中挑选出适合自己的数据,并且将它们整理成一套完整的语料库。
为了保证语料库的质量,可以从以下几个角度进行考虑:- 数据来源:应尽可能选用多样化和高质量的数据,包括普通话、地方方言、英语、日语等不同语言的音频和文本数据。
同时,数据应该来自不同的领域,如新闻报道、科技、娱乐和教育等不同领域的数据。
- 数据预处理:由于语音和自然语言文本数据的标注成本过高,可以使用无监督和半监督方法来减少标注成本。
同时,也可以使用基于机器学习的方法来对数据进行预处理,来提升数据质量。
例如,可以使用卷积神经网络(CNN)和循环神经网络(RNN)等模型来处理语音数据,使用贝叶斯网络和逻辑回归等模型处理自然语言文本数据。
- 数据标注:标注也是语料库建设过程中的重点之一。
数据标注涉及到对语音数据的分段和清晰度进行评估,以及对自然语言文本数据进行分词、词性标注和实体识别等工作。
为了提高语料库的质量和效率,可以使用自动化标注方法来处理大量的语音和文本数据,并最终形成一个高度标准化、语意准确的语料库。
2. 自然语言声音语料库的应用如何有效利用自然语言声音语料库已经成为了人们关注的热点话题。
以下是一些自然语言声音语料库已经成功应用的领域:- 自然语言处理:自然语言处理是一个广泛而复杂的领域,需要大量的数据支撑。
语音数据可以用于自然语言的语音识别和语音生成,文本数据则可以用于语言模型的训练和语义理解。
- 影视娱乐:自然语言声音语料库可以用于电影、电视剧、动漫和游戏音效等娱乐产品的制作,可以提供多样化和高质量的音频、字幕和翻译。
英语语料库建设及应用现状的几点反思

校园英语 / 语言文化英语语料库建设及应用现状的几点反思甘肃农业大学外国语学院/栗娜【摘要】众所周知,建立语料库对加速推进语言研究的进程具有非常重大的意义。
本文对英语语料库的建设方法以及反思,进行了深入的探讨,从英语语料库的设计、语料的收集以及文本的整理等很多内容进行了详细阐述。
【关键词】英语语料库 建设 应用可以说,语料库的建设并不是一件简单的事情,因为,建设者仅仅是对相关语料进行收集是不够的,还要对所收集到文本进行整理和加工,又由于语料所覆盖的范围很广,这就导致他们巨大的工作量,给建设者的工作增加了一定难度。
因此,如何有效的开展英语语料库的建设工作成为摆在建设者面前急需解决的问题。
基于此种情况,笔者对英语语料库建设及应用提出了自己的几点看法。
一、关于英语语料库建设的思路和方法建设英语语料库是一项系统、繁琐的工程,它涉及到英语语料的采集、分析、整理、标注等内容,同时,其建设过程也需按照繁复的程序循序渐进的完成。
英语语料库建设的重点和难点是语料库的代表性、实用性和权威性。
即英语语料能否对英语起到代表作用,其实用效果是否理想,英语语料是否标准、规范、权威。
这就需要在英语语料采集环节前进行取样论证,根据语料的来源、获得途径以及相关的法律法规明确取样的标准和原则。
然后,根据取样的分析和论证来进行英语语料库工作计划和流程的制定。
1.英语语料库的设计思路和方法。
英语语料库的设计工作需明确以下内容:明确建设英语语料库目的。
建设英语语料库的目的,是为了满足英语教学、英语语言研究、英语应用的需要。
明确英语语料库建设规模。
比如,根据取样分析明确取样时间跨度,英语语料库是否为开放性语料库,初步的设计规模为多少词汇容量等。
并根据实际需要按照设计要求继续拓展。
明确英语语料库构成方向。
通过确定英语语料库建设是属实用领域还是研究领域,明确其构成方向。
比如,实用领域可以以英语理论、英语基础知识、语言运用等内容为主要组成结构。
英语语料库建设及应用研究现状与趋势

英语语料库建设及应用研究现状与趋势作者:葛婧来源:《校园英语·中旬》2018年第09期【摘要】世界上任何一门语言的发展都不是独立形成的。
在这个过程中,语料库的建设就成为了其发展不可或缺的资源。
英语,作为一门国际通用语言在我国越来越普及。
我国对英语的研究虽然没有西方国家早,但是研究者结合了我国基本国情和国民学习英语的实际情况,在英语语料库建设及应用研究方面不断地努力,并已经取得了满意的成绩。
在未来的英语语料库的建设方面,我国不仅要多探究借鉴国外的成功经验,还应该注重它的规范性、专业性以及建立资源的共享。
这样有利于整合、完善英语资料库的信息,从而为英语语言的研究与学习提供可靠的资源。
【关键词】英语语料库;现状;趋势【作者简介】葛婧(1983.4-),女,汉族,河南平顶山人,河南城建学院外国语学院,硕士研究生,高校助教,研究方向:语篇分析。
一、当前我国英语语料库建设及应用的现状英语语料库汇总了所有英语语言的真实数据,并且涵盖了英语语言的各个领域,如商务、农业、计算机、建筑、法律等方面。
目前我国建立的英语语料库大多数都是为了英语的学习者使用,这也为英语语言教学提供了所需的语言材料,使教学内容更加专业化、精准化。
我国曾在2004年召开的首届语料库语言学与英语教学研究讨论会上提出过,今后应把对英语语料库的研究多应用于英语教学方面。
而且近年来,英语语料库应用于教学方面的研究越来越多,并且范围也越来越宽泛。
1.英语语料的资源主要来源于英语考试试题中。
我国英语语料库中的语料大都主要来源于英语考试试题中,如不同级别、不同类型的笔试、听力、口语等英语考试。
因为这样不仅仅让英语语料收集起来比较容易一些,而且对于不同年龄段、不同级别的英语学习者更具有代表性和针对性。
2.英语语料库在学校英语教学中的直接应用。
由于英语语料库涵盖的英语知识比较丰富、全面、准确,所以教师通过向学生讲授语料库的知识,直接达到教学目的,而且不会有遗漏知识的情况。
基于语音识别的语料库建设与应用研究

基于语音识别的语料库建设与应用研究语音识别是计算机科学领域中的一项重要技术,随着人工智能技术的不断发展,语音识别的应用越来越广泛。
而语音识别的准确率又需要依靠语料库的建设。
因此,本文将探讨基于语音识别的语料库建设与应用研究。
1、语音识别技术的基础与应用语音识别是一种语音信号自动转换为文本或命令的技术,即将人类的语言能力转化为计算机可识别的数字信号。
语音识别技术主要包括信号预处理、特征提取和模型训练等步骤。
其中,语料库的数据质量和多样性对语音识别的准确率有着重要的影响。
目前,语音识别在智能语音助手、智能家居、无人驾驶、语音翻译等领域已被广泛应用。
2、语料库建设的意义和方法语料库是语音识别的基础,它包含了大量的口语语音数据,能够对不同语种、口音和应用场景进行覆盖。
因此,语料库的建设非常重要。
语料库建设的方法一般分为人工标注和自动标注两种。
人工标注需要大量的人力和时间,但是标注结果准确性高,适用于小规模的语料库建设。
自动标注则采用机器学习算法自动标注语音数据,能够快速批量处理并标注数据,但是准确率一般较低。
3、语料库建设的质量控制语料库的质量对语音识别的结果有着重要的影响。
语料库建设过程中需要进行质量控制。
常见的质量控制方法包括人工审核、自动审核和抽样审核。
人工审核是最直观、最有效的方法,但是成本较高。
自动审核则采用计算机算法进行审核,效率较高但是准确率一般不高。
抽样审核则随机抽取部分数据进行审核,能够代表全部数据的质量,但是存在一定的误差。
4、语料库应用的研究除了建设语料库,对语料库的应用研究也是非常重要的。
语料库可以用来进行语音识别的训练、语音合成、语音情感分析等应用。
同时,还可以将语料库用于语音识别系统的优化,提高系统的识别准确率和处理速度。
语料库应用的研究也是一个非常广阔的领域,需要涵盖多个学科和技术,如深度学习、自然语言处理、语音处理等。
5、基于语音识别的语料库建设的前景语音识别的应用越来越广泛,语料库建设的重要性也日益突出。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第25卷第6期贵州大学学报(社会科学版)V o.l 25 N o .62007年11月J OURNAL OF GU IZ HOU UN IVERS I TY (Socia l Sc i ences)N ov .2007小型学习者语料库的建设与应用周 杰(贵州大学大学外语教学部,贵州贵阳550003)摘 要:语料库在研究语言的用法、翻译、教学、教材编写以及词典编撰等方面起着重要作用。
外语教师可以收集整理相关材料,有针对性地建设小型学习者语料库,并将其应用到实际教学、研究、翻译中。
本文介绍了语料库的种类和用途、建设小型学习者语料库的基本方法以及小型学习者语料库的应用等。
关键词:小型;学习者语料库;建设与应用中图分类号:H 319.3 文献标识码:A 文章编号:1000-5099(2007)06-0117-04语料库自20世纪60年代发展至今,已经广泛应用于语言学研究的各个方面,如:词典编撰、语言本质的研究、教材编写、翻译比较、语言教学等。
计算机技术的高速发展使语料库语言学(Corpus L i n gu istics)在过去的20多年来也得到了长足的发展,已成为现代语言学的一个重要分支(潘永樑,2001)。
大型语料库语料收集面广,代表性强,可以为语言研究提供可靠的信息。
但正因为其包罗万象,大型语料库在辅助教学研究等方面缺乏针对性,实用性不强。
作者认为,广大教师可以根据自己的实际需要建设小型学习者语料库,开展有针对性地研究,并将其应用到教学中。
本文从语料库语言学的种类与用途、建设小型学习者语料库的可行性、建设小型语料库的基本方法以及如何使用小型语料库等方面做了主要论述。
一、语料库的种类与用途建设语料库之前,我们应首先明白语料库的定义。
在语料库语言学的长期发展过程中,根据不同学者的研究内容或形式,形成了语料库的不同定义,但其核心内容均包含计算机和语料文本以及检索分析工具等。
笔者认为,Granger 的定义能清楚明确地描述语料库(Co r pus),即:应用计算机技术对海量自然语言材料进行处理(包括预处理、语法自动赋码、自动句法分析、语义分析等)、存储,以供自动检索(retr i e val)、索引(concordance)以及统计分析的大型资料库。
它是按照明确的设计标准为某一具体目标而建立的语言资料库(转引自李文中,1999)。
简单说来,语料库是指存放在计算机里的大量原始语料文本或经过加工后带有信息标注的文本。
它是一个庞大的语言素材的集合体,主要用于观察、分析和研究目标语的各种特征(唐洁仪,2004)。
而更通俗的说法则是把语料库看作是 按照特定的目的与方式建立起来的存储语言材料的仓库 (武和平,2002)。
那么,这个 仓库 能发挥怎样的作用呢?从语料库语言学的发展历程我们可以看到,语料库的用途主要体现在对语言现象以及语言本质的研究,如语言频率统计、词典编撰、词汇搭配研究和自然语言处理等方面。
现在,语料库也逐渐应用到教学研究中。
根据邢富坤(2006)的统计,国内基于语料库的教学研究的绝对数量越来越大,将语料库应用于外语教学的趋势也越来越明显。
根据不同标准,语料库可以分为单语语料库、多语种平行语料库、历时语料库、共时语料库等多种类型(潘永樑,2001)。
以下为其中两种分类法:1)以语料的原始形式分类:书面语语料库、口语语料库和视频语料库。
书面语语料库语料收集相对容易,因而语料库规模较大;而口语和视频语料库的内容需要通过音频或视频转写,工作繁杂,难度大,因而相对来说,这两种语料库规模较小,且建成的不多,国内现已完成的库容量较大的主要有南京大学的!117! 收稿日期:2007-11-08作者简介:周 杰(1971-),女,四川乐山人,贵州大学大学外语教学部副教授。
中国学生英语口笔语语料库。
2)以语料的来源分类:母语语料库和学习者语料库。
实际上,现在国际上规模最大的语料库如TheB ritish N ational Corpus(BNC)、COB U I LD和The Longm an Corpus Net w or k等收集的语料均来自英语为母语的国家。
国内的 现代汉语语料库(清华大学)和 大型中文语料库(北京语言文化大学)等也属于母语语料库。
各国现在也在建设自己的学习者语料库。
国内最早建立的学习者语料库是上海交通大学与广州外语外贸大学联合建成的 中国学习者语料库(CLEC)。
根据Leech(1998)的论述,学习者语料库的语料来自外语学习者产出的口语或书面语。
将这些语料经过计算机处理后形成的数据库即为学习者语料库。
学习者语料库的建设将为深入研究学习者的二语语音、词汇、语法、语篇、语用、交际能力的发展提供充分的数据,而且还为研究学习过程、自主性学习以及教材编写和测试提供重要的反馈和支持(文秋芳,2005)。
随着语料库语言学的发展,学习者语料库的建设已经成为了当今语料库语言学研究的重点之一(甑凤超,2004)。
国外建成的规模较大的学习者语料库是Ca m bri d ge Lear ner Cor pus(CLC)。
国内也逐渐出现了学习者语料库,除拥有100万词的CLEC之外,规模较大的还有南京大学的 中国英语专业语料库(100多万词)和 中国学生英语口笔语语料库(200多万词)以及规模更大的香港科技大学学习者语料库等。
这些大型语料库为广大学者和教师提供了大量真实的学习者的语料,可以对学习者的词汇用法、语法特征,特别是错误分析等进行研究。
同时,可以对照英语本族语语料库,将英语学习者的语料与本族语语料进行对比,找出它们的异同,为教材编写、大纲制定等提供有用的数据。
二、小型学习者语料库的建设(一)建库的可行性和目的尽管国内已经建成了上述学习者语料库,也有大量基于这些语料库的研究成果,但这些语料库涵盖的语料来源太广,广大教师可以利用其对国内英语学习者语言的整体特点等方面进行研究。
但具体来看,这些语料库并不能反映广大一线教师自己所任班级的学生的语言学习情况和语言特点。
相对来说,基于这些语料库的研究对一线教师的教学并没有很强的针对性。
因此,一般的外语教师应自己动手,收集与教材相关的材料和学生日常的材料,建立适用于教学的各种语料档案,如与课文相关的阅读材料档案库、学生作文档案库、教师∀∀∀学生课堂话语档案库等(卫乃兴,2005)。
这种小型语料库有着种种优势,如:目标明确、语料收集针对性强、语料能不断扩展、及时更新、自主设计、灵活标注等特点(谢家成,2003)。
技术的发展使语料库软件的操作越来越简单。
教师可以利用计算机对这些档案库中的语料进行处理,再利用语料库软件进行分析。
笔者认为,如上所述的学生作文语料库,即小型学习者书面语语料库是针对具体学生语言学习情况的最重要的语料库之一。
教师可以利用检索软件得出分析数据,了解学生总体的语言学习情况、词语搭配掌握情况以及错误情况等,而不是根据个人直觉对学生的学习情况作出判断。
从中找出自己学生的问题所在,分析问题,解决问题,从而达到提高学生整体水平的效果。
(二)语料来源和分类保存学习者语料库的语料应来自学生在课堂或课外的语言产出,可以是书面的,如课堂作业、写作和考试等;也可以是口头的,如课堂对话、演讲和口语考试等。
书面语料的收集较为容易,可以在课后将课堂作业输入计算机存档;计算机的普及可以让学生用电子文档的方式提交写作材料。
相对来说,考试中的作文语料收集工作量较大,需要在试卷批改存档后输入计算机。
大部分书面语料的收集在日常教学中就可以完成。
口语语料收集输入需要两个基本步骤:录音和转写。
现代设备如MP3使录音的工作较为简单,但录音之后的转写需要花费大量的时间和精力。
以上述方式获得的语料是未经计算机处理的语料,可以称为生文本(ra w text)。
存档时,应把每一个生文本作为一个独立文件单独命名存放。
文件应以英文字母形式命名便于能让软件识别,并统一格式,方便以后添加新的文件。
同时,所有文件的格式应统一,建议使用纯文本(.txt)格式存档,这是几乎所有的语料库软件都能识别的格式。
(三)语料的标注和赋码存档之后,应对生文本进行加工,使它具备更多的信息。
首先应加注篇头或文本头(header)。
文本头应提供这篇语料的相关基本信息,如作者姓名、年级、专业班级、性别、年龄、文本文体、文本字数等。
信息!!118越多,对以后的研究就更实用。
通常的标注方法是将上述信息放入尖括号 <>中。
例如:<GRADE> =年级;<CLASS>=班级;<SEX>=性别;<AGE>=年龄;等等。
如果教师建设学习者语料库的目的是要对学生的错误现象进行分析,然后开展有针对性地教学,那么,文本头标注之后,就应对文本进行错误标注。
错误标注是一项细致的工作,教师应先对错误分类,然后制定错误标注赋码表,解释各赋码的含义,方便教师在标注时使用。
例如:代码代码说明举例<sp->拼写错误It i s ture<sp-true>t hat w e shou l d#<ca->首字母应大写未大写#v ie w s on co m puter ga m es.i n<ca-In>m y opi n i on,#<pr->代词使用错误Students like p l ay i ng g a m es.H e<pr-They>play g a m es everyday#<g r->语法错误T he student want<gr-w ants>to p l ay ga m e上表是笔者在对错误进行标注时使用的赋码表中的一些内容。
这只是对错误的简单标注。
若教师希望对学生的某一错误了解得更细的话,可以再将错误进一步分类,比如语法错误,可以分为第三人称单数错误、主谓一致错误、时态错误等等。
标注完成之后,就可以利用检索软件进行检索。
检索赋码与检索其他单词或词组都是相同的操作,所以简便易行。
若建库目的是了解学生的词汇搭配或词汇量等语言使用情况,则不用进行错误标注,这样工作量相对较小。
此外,应对语料进行词性赋码。
在进行词性赋码之前,应确定赋码方案(tagset)。
现在已经开发了多种词性赋码方案,如CLAW S自动词性赋码器等。
目前比较流行的词性赋码工具有AnnoToo l和GoTagger软件(赵宏展,2007)。
值得注意的是,无论做何种标注或赋码,都应保存一份生文本,以备将来进行更多的研究或标注时使用。
(四)语料库检索软件计算机的普及让广大教师都能利用计算机对收集到的语料进行整理和处理。
下一步需要定位检索软件来对这些语料进行管理和检索。
很多功能强大、使用简便的定位检索软件网上也能免费下载,如:M i croconcord、Concapp、Concor dance等(谢家成,2003)。