语料库研究的优势及问题的理论解析

合集下载

浅谈语料库应用于高校翻译教学的优势

浅谈语料库应用于高校翻译教学的优势

浅谈语料库应用于高校翻译教学的优势
语料库是指一定数量的语言材料集合,这些材料可以是书面材料、口语材料、电子文
献等,语料库可以为翻译学生的学习和研究提供可靠的语言数据。

1. 语料库可以提高翻译质量
语言是变化的,过去的翻译作品可能已经不能适应今天的语言要求。

通过语料库,学
生可以获得大量的实际语料,了解当今语言的发展趋势和变化,可以更好地掌握专业术语,提高翻译质量。

通过语料库,翻译学生可以快速找到相应的语料,不需要耗费大量时间在文献检索上,提高了翻译速度。

3. 语料库可以培养学生自主学习的能力
语料库需要学生自己去探索和发现,这可以锻炼学生的自主学习能力,促进学生的知
识建构和能力提升。

4. 语料库可以加强文化交流和跨文化理解
语料库不仅包含了语言材料,还包含了文化材料,通过学习语料库中的文化材料,学
生可以更好地理解不同文化之间的差异和共同点,加强文化交流和跨文化理解。

总之,语料库对于高校翻译教学的优势是显而易见的,语料库在翻译教学中的应用也
将会越来越广泛。

语料库语言学名词解释

语料库语言学名词解释

语料库语言学名词解释1. 什么是语料库语言学?语料库语言学是一门研究自然语言的学科,通过收集和分析大量的实际文本数据(称为语料库),以揭示自然语言的结构、用法和变化规律。

它结合了计算机科学、统计学和语言学等多个领域的方法和理论,旨在提供对自然语言的全面、详细和深入的理解。

2. 什么是语料库?语料库是指由大量实际文本组成的数据集合,可以包括书籍、报纸、杂志、网页、社交媒体帖子等。

这些文本通常经过数字化处理并按照一定规则进行标注,以便进行进一步的分析和研究。

3. 为什么要使用语料库进行研究?使用语料库进行研究有以下几个优点:•自然性:语料库中的文本来自真实世界,反映了人们在不同情境下使用自然语言的方式。

•大规模性:大型语料库包含了大量文本数据,可以提供更加全面且具有代表性的样本。

•可比性:通过比较不同文本之间的共同点和差异,可以揭示语言的普遍规律和个体差异。

•可验证性:研究者可以重复使用相同的语料库进行验证和复制研究结果。

•数据驱动性:语料库语言学强调通过数据来推动理论的发展,以实证为基础进行研究。

4. 常用的语料库类型4.1. 平衡语料库平衡语料库是指在不同领域、不同类型文本中均匀采样而得到的语料库。

它旨在保持各个领域和类型的文本在整个语料库中的比例相对均衡,以便更好地反映自然语言的使用情况。

4.2. 非平衡语料库非平衡语料库是指在采集过程中没有保持各个领域和类型文本比例均衡的语料库。

这种类型的语料库可能更加关注某些特定领域或主题,适用于特定研究目标。

4.3. 同步平行语料库同步平行语料库是指包含两种或多种不同自然语言版本(例如英文、法文、汉文)的对应文本。

这些文本在句子或段落级别上具有相同的语义内容,可以用于机器翻译、跨语言信息检索等领域的研究。

4.4. 异步平行语料库异步平行语料库是指包含两种或多种不同自然语言版本的对应文本,但其对应关系并不是在句子或段落级别上一一对应。

这种类型的语料库适用于跨语言补全、跨语言文本摘要等研究。

如何利用语料库技术提升对外汉语教学质量

如何利用语料库技术提升对外汉语教学质量

如何利用语料库技术提升对外汉语教学质量在当今全球化的时代,汉语的国际地位日益提升,对外汉语教学的重要性也愈发凸显。

如何提高对外汉语教学的质量,满足不同国家和地区学习者的需求,成为了教育工作者关注的焦点。

语料库技术作为一种新兴的语言研究和教学手段,为提升对外汉语教学质量提供了新的思路和方法。

一、语料库技术简介语料库是按照一定的采样标准采集而来的、能够代表一种语言或语言变体的电子文本集合。

语料库技术则是指利用计算机软件和算法对语料库中的文本进行分析、处理和应用的一系列方法和手段。

通过语料库技术,我们可以对大量的真实语言文本进行统计、分类、标注等操作,从而揭示语言的使用规律、特点和趋势。

二、语料库技术在对外汉语教学中的应用优势1、提供真实的语言材料传统的对外汉语教材往往存在语言材料不够真实、鲜活的问题。

而语料库中的文本都是来自于实际的语言使用场景,能够为学习者呈现最真实、自然的汉语表达方式。

这有助于学习者接触到原汁原味的汉语,提高他们对汉语的感知和理解能力。

2、个性化教学通过对学习者的语言产出进行分析,并与语料库中的数据进行对比,教师可以了解每个学习者的语言水平、语言偏误和学习需求,从而为他们提供个性化的教学方案和学习建议。

3、辅助词汇教学词汇是语言学习的基础。

语料库技术可以帮助教师统计词汇的出现频率、搭配情况等信息,从而确定教学重点和难点。

同时,学习者也可以通过查询语料库了解词汇的用法和语境,加深对词汇的记忆和理解。

4、促进语法教学语法教学一直是对外汉语教学的重点和难点。

语料库中的大量文本可以为语法规则的讲解提供丰富的例证,帮助学习者更好地理解和掌握语法结构的使用条件和语境。

此外,通过对语料库中语法错误的分析,教师可以有针对性地进行语法纠错教学。

三、如何利用语料库技术提升对外汉语教学质量1、建设适合对外汉语教学的语料库目前,虽然已经有一些通用的汉语语料库,但针对对外汉语教学的专门语料库还相对较少。

因此,我们需要建设更多包含不同水平、不同国别学习者语言样本的语料库,以及涵盖各种主题和文体的汉语教学语料库。

浅谈语料库应用于高校翻译教学的优势

浅谈语料库应用于高校翻译教学的优势

浅谈语料库应用于高校翻译教学的优势随着信息时代的到来,语料库的作用在翻译教学中越来越重要。

语料库是大规模语言现实样本的电子化储存库,包括各种类型的语料,如文本、音频、视频等,是翻译教学中不可缺少的资源。

本文将从三个方面浅谈语料库应用于高校翻译教学的优势:贴近真实语言使用、提高学生实践能力、提高翻译质量。

首先,语料库应用于高校翻译教学的优势之一在于它可以贴近真实语言使用。

学习翻译不是单纯地学习语法知识和单词词汇,更重要的是学习语言的实际应用。

语料库中的数据来源于真实的语言使用环境,可以很好地贴近实际场景,从而让学生更好地掌握语言的使用方式和特点。

在实际的翻译中,学生还可以通过语料库去寻找典型的句型和语言表达方式,快速准确地翻译。

因此,语料库能够帮助学生更好地掌握语言,更准确、更生动地进行翻译。

其次,应用语料库能够提高学生的实践能力。

在翻译教学中,学生单纯地学习语法知识和单词很难直接应用到翻译实践中。

但是,语料库可以提供大量的例句和标准翻译,让学生可以在实践中进行学习和运用。

学生可以通过对原文和译文的反复对照,找到最优的翻译方式,同时也能够通过对标准翻译的学习,提高学生的翻译水平和实践能力。

语料库中的实例可以让学生更好地理解翻译的技巧和方法,同时也增强们的自信心,提高他们的翻译实践能力。

最后,语料库应用于高校翻译教学的优势之一在于它可以提高翻译质量。

翻译作为语言交际的一种形式,需要高水平的语言能力和专业的知识水平。

语料库中的实例和样本,具有很高的可靠性和准确性,可以帮助学生掌握标准的翻译方法和技巧。

同时,语料库中的资料能够丰富翻译的语言内容,有助于让翻译更加准确、简洁、生动。

因此,应用语料库能够提高翻译质量,让学生可以创造优质的翻译作品。

综上所述,语料库在高校翻译教学中有着广泛的应用优势,可以帮助学生贴近真实语言使用,提高实践能力和翻译质量。

因此,采用语料库教学,不仅能够切实提高学生的翻译能力,而且更能够让学生更快、更准确地掌握语言应用能力,使翻译教学变得更加有效和高效。

分析语言学中的语料库与语言教学

分析语言学中的语料库与语言教学

分析语言学中的语料库与语言教学语言是人类交流和表达思想的工具,而语言教学是培养学习者掌握一门语言的技能和能力的过程。

在语言教学中,语料库是一个重要的工具和资源。

本文将从分析语言学的角度,探讨语料库在语言教学中的应用与意义。

一、语料库的定义与特点语料库是指收集和整理大量真实语言材料的数据库。

它可以包括书面语料和口语语料,涵盖多种语言形式和语境。

语料库的特点有以下几个方面:1.真实性:语料库中的语言材料是真实的、自然的,反映了实际语言使用的情况。

2.多样性:语料库中包含了丰富的语言形式和语境,可以涵盖不同的话题、风格和文体。

3.数量性:语料库中包含大量的语言材料,可以提供丰富的例句和语言数据供学习者使用。

4.可检索性:语料库可以通过搜索功能进行检索和查询,方便学习者找到所需的语言材料。

二、语料库在语言教学中的应用语料库在语言教学中有着广泛的应用价值,主要体现在以下几个方面:1.语言输入:语料库可以提供大量真实的语言输入,学习者可以通过阅读和听取语料库中的语言材料,了解语言的用法、结构和表达方式。

这有助于学习者建立语感和语言模型,提升语言理解和运用能力。

2.语言输出:语料库可以为学习者提供丰富的例句和语言模板,帮助他们进行语言输出。

学习者可以通过模仿和借鉴语料库中的表达方式,提升自己的口语和写作水平。

3.语言规律:语料库中的语言材料可以反映语言的规律和特点。

通过对语料库中的语言数据进行分析和比较,学习者可以发现语言的规律和用法,提高对语言的理解和掌握。

4.词汇学习:语料库可以为学习者提供大量的词汇例句和语境信息。

学习者可以通过语料库查找词汇的用法、搭配和固定搭配,提高词汇的掌握和运用能力。

5.语言研究:语料库不仅可以用于语言教学,也是语言研究的重要工具。

语言学家可以通过分析语料库中的语言数据,研究语言的变异、演变和规律,为语言教学提供理论依据和指导。

三、语料库在语言教学中的实践案例1.语言输入与输出:教师可以利用语料库中的语言材料,设计听说读写的综合训练活动。

语料库研究技术在语言教学中的应用

语料库研究技术在语言教学中的应用

语料库研究技术在语言教学中的应用随着计算机和网络技术的飞速发展,语言研究也逐渐进入了数字化时代。

语料库研究技术作为一种新兴的语言研究方法,被广泛应用于语言教学领域。

本文将从语料库研究技术的基本概念、特点及其在语言教学中的应用等方面进行论述。

一、语料库研究技术的基本概念和特点语料库是指一个特定的语言使用的实际样本集合,它涵盖了不同类型的语言数据,包括口头语、书面语、纯文本、音频、视频等。

语料库研究技术是在计算机和网络技术的支持下,将语言数据经过系统处理和分类、统计分析、代表性抽样等方法,得到有关语言使用规律及语言变化的信息。

语料库研究技术的主要特点包括以下几个方面:1.大规模数据:语料库所涉及的数据量往往是庞大的,这对于数据的收集,分类和处理提出了挑战。

2.实际性:语料库所涉及的数据是从实际的语言使用情况中收集而来的,具有非常强的实际性和代表性。

3.系统性:语料库研究技术采用切实可行的方法对数据进行处理,质量和准确性有了保障,从而得到更客观、准确的结论和推断。

二、语料库研究技术在语言教学中的应用语言教学是语料库研究技术应用的一个非常重要的领域,尤其是在语言教学的词汇、语法、语用等方面,语料库研究技术具有非常丰富的应用前景。

以下是语料库研究技术在语言教学中的具体应用:1.词汇教学:语料库研究技术可以根据语料库中所涉及的词汇频率、搭配、义项等信息,为词汇教学提供更全面、准确的语言规律。

通过语料库技术,教师可以更好地掌握学习者需要掌握的生词、固定搭配及其语用功能,使学习者更加自然、流利地使用目标语。

2.语法教学:语料库研究技术可以通过对语料库的分析,提炼出目标语的语法规则和常见的语法错误,帮助学习者掌握语法知识。

同时,语料库研究技术还可以帮助学习者更好地理解目标语言的语法习惯和特点,提高学习者对不同语言体系之间的转换能力。

3.口语教学:语料库研究技术通过对语音和语音流程的分析,可以帮助教师在口语教学中更好地帮助学习者改善发音、掌握语音规则、加强口语表达能力。

专业的语料库分析

专业的语料库分析

专业的语料库分析语料库分析是一种研究语言使用和语言变化的方法,通过收集、整理和分析大量的语言样本,可以深入了解语言的特点和规律。

在今天的信息时代,语料库分析成为了语言学研究、翻译教学、自然语言处理等领域中不可或缺的工具。

本文将介绍语料库分析的定义、意义和应用,并探讨如何进行专业的语料库分析。

1. 语料库分析的定义与意义语料库分析是指通过采集和分析大量的自然语言文本,以了解语言形式、语义和语用的使用规律。

语料库是包含真实语言文本的大型数据库,可以包括书面文本、口语对话、新闻报道等多种类型。

语料库分析的主要目的是揭示语言的普遍规律和变异现象,帮助我们理解语言的真实使用情况。

语料库分析的意义在于:- 提供可靠的语言数据:语料库中的文本是真实的、自然的语言使用样本,与人们日常使用的语言相符合。

因此,通过语料库分析可以获得更加真实可靠的语言数据,而不仅仅依赖于语言学家的直觉和主观判断。

- 揭示语言的普遍规律:通过对大量语料的统计分析,可以发现语言的普遍规律和共性特征。

这些规律和特征可以用来解释语言学上的问题,如语音、语法和语义等方面的规律。

- 研究语言变异:语料库分析不仅能揭示语言的共性规律,还能研究语言的变异情况。

通过比较不同文体、不同地区、不同社会群体的语言数据,可以了解语言的变异现象,如方言、社会变异和时代变异等。

2. 语料库分析的应用领域语料库分析在语言学研究以及其他相关领域中有着广泛的应用。

下面列举几个常见的应用领域:2.1 语言学研究语料库分析为语言学研究提供了重要的工具和方法。

通过对语料库进行统计分析,可以验证和推测语言学理论,探讨语言的结构和功能,研究语言的变化和发展等。

语料库分析可以帮助语言学家更好地理解自然语言的特点和规律。

2.2 翻译教学语料库分析在翻译教学中的应用越来越广泛。

通过对双语语料库的对比分析,可以揭示两种语言之间的差异和相似之处,帮助学生理解和掌握翻译的技巧和策略。

语料库分析还可以用来构建机器翻译系统,提高翻译效率和质量。

专业语料库使用

专业语料库使用

专业语料库使用语料库是指包含大量语言材料的数据库,可用于研究和分析自然语言。

专业语料库是指针对特定学科领域的语料库,包含该领域相关的专业术语和语言表达。

专业语料库的使用对于学术研究、翻译、专业写作等工作都具有重要的意义。

本文将介绍专业语料库的使用方法及其在不同领域中的应用。

一、专业语料库的定义和特点专业语料库是指针对特定学科或领域的语料库,其中包含了该领域相关的文本材料,如学术论文、专著、期刊文章等。

专业语料库的特点主要体现在以下几个方面:1. 丰富的语言资源:专业语料库收录了大量的文本材料,涵盖了特定领域的各个方面,提供了丰富的语言资源供研究者和用户使用。

2. 专业术语的准确性:专业语料库中的文本材料都是经过专业领域的专家审核和筛选的,其中包含了大量准确的专业术语,可以满足用户对于专业术语的需求。

3. 语言表达的多样性:专业语料库中的文本材料来源广泛,涵盖了不同作者、不同风格和不同语言表达方式,可以帮助用户了解和掌握专业领域中的不同语言表达方式。

二、专业语料库的使用方法专业语料库的使用方法主要包括以下几个步骤:1. 确定需求:首先,用户需要明确自己的需求,确定需要查找的领域、文本类型以及相关的关键词。

2.选择语料库:根据需求,选择合适的专业语料库。

常见的专业语料库有PubMed、Web of Science、Google Scholar等。

3. 关键词检索:在选择的语料库中进行关键词检索。

根据用户的需求,输入相应的关键词进行检索,获取相关的文本材料。

4. 筛选和分析:根据检索结果,筛选出符合需求的文本材料,并进行分析。

可以通过对文本材料的统计、频次分析等方法来获取信息。

5. 比较和对比:对不同文本材料进行比较和对比分析,了解不同作者、不同文体和不同时期的语言表达方式。

6. 学习和应用:通过专业语料库的使用,学习和掌握专业领域的语言表达方式,并将其应用到学术研究、翻译和专业写作等工作中。

三、专业语料库在不同领域中的应用专业语料库在不同领域中都有重要的应用价值,以下分别介绍其在学术研究、翻译和专业写作中的应用。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

语料库语言学的理论解析摘要:本文试图剖析有关语料库语言学的几个理论问题,以期揭示语料库语言学的本质。

第一:语料库语言学是不是独立的新兴学科?第二:语料库提供的数据到底可以给语言学家带来什么?第三:语料库语言学的真正任务是什么,它应该成为怎样一项研究?回答好这几个问题实际上也就回答了语料库语言学的性质和理论地位,以及这项研究向何处去的问题。

这将有助于我们更好地从事基于语料库的语言研究和实践。

关键词:语料库语言学;基于语料库的研究方法;理论架构;语料库数据;发展前景Abstract: This paper attempts to answer some theoretical questions of corpus-based language studies. Three theoretical considerations are addressed to capture the nature of corpus linguistics. 1) Is Corpus Linguistics an independent branch under the umbrella of linguistics? 2) What can corpus data offer to linguists? and 3) What kind of research that Corpus Linguistics should be? Answers to the three theoretical questions will conduce to a fuller understanding of the nature of corpus-based language studies and their development.Key words: Corpus linguistics; corpus-based approach; theoretical construct; corpus data; future directions1.0 导言目前利用语料库从事研究的学者主要有两类。

一类是计算语言学家。

他们主要从事自然语言处理(NLP)的研究,诸如语音合成、语音识别和机器翻译等等。

他们的终极目标并非要揭示语言的本质,而是注重技术层面的研究,比方如何改进算法,如何完善词库的建设以实现技术上的突破。

另一类就是语言学家,他们则希望借助这一强大的工具去揭示语言的本质这一学科目标,这正是本文所要关注的。

本文缘起于语言研究者中的一种争论,即“语料库语言学”是否配得上这个名称,它是一种新兴的理论视角还是“暴发户造谱牒”?而本文要探讨的正是有关于语料库语言学研究的理论意义。

或者说,语言学家从语料库所提供的信息中到底可以获得什么?这是本文试图解决的核心问题。

语料库建设、开发和利用在国内外语言学界日渐兴起,在国内也有相当数量介绍性和综述性文献涌现,为语料库语言学在我国的发展奠定了一定的理论基础。

此外,一些语言学者和语言教师(包括外语教师和对外汉语教师)也设计、建立了一些自己的语料库以服务于教学科研。

然而真正对语料库的理论问题进行深入探讨的著述却为数不多。

本文将试图剖析语料库语言学的几个理论问题,以期对语料库语言学的优势和不足有进一步的认识。

第一:语料库语言学是不是独立的新兴学科?第二:语料库提供的数据到底可以给语言学家带来什么?第三:语料库语言学的真正任务是什么,它应该成为怎样一项研究?回答好这几个问题实际上也就回答了语料库语言学的性质和理论地位,以及这项研究向何处去的问题。

这将有助于我们更好地从事基于语料库的语言研究和实践。

2.0 语料库语言学是不是独立的新兴学科?2.1 语料库语言学是一种理论架构完全赞成语料库语言学是一种理论架构的几乎没有。

只是某些学者比较强调语料库语言学的理论意义。

比如,Halliday(1991;1992;1993)指出,语料库语言学作为一种理论架构(theoretical construct),将语料收集和理论概括统一了起来,从而使我们对语言的理解产生一种质变。

这种新的理论架构有助于考察同时作为系统和实例(instance)的语言的本质。

因为在Halliday的语言学思想当中,实际话语是语言系统的实例再现(instantiation)。

而语言系统,或者说是语法体系是一种统计概率上(probabilistic)的自然结果。

这一思想与所谓语言学规则是浮现特征(emergent properties)的说法颇为暗合(李平,2002)。

也就是说,因为严格设计并创建的语料库所包含的应该是真实文本和真实话语,其中语言实例在出现频率上的优势即是对其背后语法体系的概率体现。

另外,我们知道Halliday功能主义思想中的一个重要概念就是“意义的选择”(Halliday, 1985)。

这种意义的选择反映了语言运作的内在机制。

语料库辅之以计算工具,便可以将这些机制进行抽象概括从而形成语法。

这里特别值得一提的是,上述思想是与Chomsky的心灵主义相对立的。

Chomsky历来认为语言是一种天赋能力,而自然语料都是杂乱无章的。

其中包括很多显然不会出现的,或者错误的句子,还有很多诸如迟疑,注意力的不集中和外界的干扰等等。

所以他主张我们研究的应该是理想的听话人/说话人的语言能力(Chomsky, 1965)。

因而Chomsky提倡通过内省和诱发的手段来获得语言资料,而反对使用语料库进行语言研究的。

2.2 语料库语言学是一种基于语料库的研究方法然而,尽管众多语言学家承认语料库对语言研究的巨大贡献,他们并不认为语料库语言学像语言学其他分支一样成为独立的学科领域。

Tognini-Bonelli(2001)对语料库语言学的性质进行了重新思考。

她指出语料库语言学并不是一个真正意义上的科学研究领域,只不过是为语言研究提供了一种方法论基础,同时它又给语言学的研究提供了新的哲学思路。

所以它是介于理论和方法论之间的一种东西。

应该说她的这一观点代表了相当多语言学家的看法。

比如,Leech(1992)说过,“……[语料库语言学]倒是更应该被看作是从事语言研究的一种方法论基础。

理论上(而且常常在实践当中)语料库语言学与其他语言学分支轻松结合:我们能够借助语料库研究语音学,句法……。

”(p. 105)Leech在这里明确指出了语料库语言学的工具性和方法论价值。

但同时他又表示:“语料库语言学不仅界定了一种研究语言的方法论,……而且事实上界定了该项研究课题的一些哲学/理论视角。

”(pp. 105-6)换言之,借助于语料库语言学所提供的方法,语言学家一方面可以验证由内省得到的语言规则,也可以基于语料库提供的数据推演出语法、语用规则。

由于不同类型的语料库和丰富的标注手段的出现,语料库语言学使我们的研究视野更加开阔,研究手段也愈加强大了。

综上所述我们认为,基于语料库的研究方法(corpus-based approach)这一提法倒是更能准确地反映语料库语言学的性质和定位。

3.0 语料库提供的数据到底可以给语言学家带来什么?明晰了语料库语言学的理论定位之后,接下来我们要看一看语料库数据真的能反映语言的本来面貌吗?从现有的语料库的规模、类型来看,语料库所提供的数据有以下特点:3.1 产品/过程对立问题从某种意义上讲,语料一旦入库,它所记录的便是语言的产品(product)而不是语言的过程(process)。

虽然在定义“语料库”的时候,总少不了提到“自然语言”和“真实文本”这样的概念。

但是,实际现场即席话语中的很多鲜活的内容(如:情景语境和文化语境)入库之后即不复存在。

毕竟多数语料库所记录的都是文本的或少量的声音信息。

由大规模的多媒体数据构成的语料信息还很少见。

一则是数据收集的工作量巨大;更重要的是在实际操作中,一旦进行录像,就难免会引起受调查者主观上的注意,从而影响语料的信度和效度。

因此在尽可能多地收集多媒体语料的同时,还要认识到收集语料的局限和现有语料的先天不足。

面对已有的语料,要想真正研究语言的本质和实际运作,还需借助诸如句法学、话语分析、语用学、社会学、人类学、民俗学等其他理论手段,对语言使用的真实状态进行描写,接近其本质特征。

3.2 取样范畴和代表性问题毋庸置疑,所有语料库建库人都力图使其创建的语料库足以代表或反映其所要研究的目标语域或整个语团的语言事实。

因此在创建初期都会对语料库的设计、取样进行科学的分析(Biber, 1993; Biber, 1994; Greenbaum, 1991; Nelson, 1996)。

但是有一点我们必须认识到,我们无论如何也无法穷尽“某种语言的全体使用者说出来(或写下来)的和尚未说出来(或写下来的)所有话语”(顾曰国,1999:3),因为它是一个开放集。

我们是无法真正捕获理论上的语言的全貌的。

因而为了尽可能地(至少在统计上)反映语言的实际状况,取样的方法在一定程度上可以满足我们研究的需要。

与之紧密关联的一个重要概念是“代表性”问题。

也就是说所收集的语料是否可以在统计上代表各种类型的真实话语。

此时,语料库的大小绝不是一个关键问题。

因为在现有技术条件下,一个人可以在数小时之内收集数以亿计(词次)的电子文本。

当然,真实的口语语料的收集则要困难得多。

另外,语料类型的代表性还应与研究需要紧密结合。

建库人可以根据需要收集某一语域的口语或书面语的共时语言实例;也可以收集该语域历时的语言实例(比如:赫尔辛基英文文本语料库历时部分);还可以建用于翻译或对比研究的双语或多语的平行语料库;还有像国际英语语料库(ICE)那样的某一语言的不同变体之间的语料库;还有研究一语、二语或外语学习者(口语、笔语)语料库等等。

从理论上来讲,只要我们按照严格的统计取样(辅以前期实验性取样并验证)的办法去收集,就可以获得我们所想要的具有足够代表性的语料。

3.3 有无多重标注和强大的处理工具语料库标注的好坏,类型的多寡和有无适合专项研究的处理软件很大程度上决定了语料库的有用程度。

自从最早的计算机化的Brown和LOB语料库进行了POS(Part-of-Speech)标注之后,利用这两个语料进行研究的成果激增。

当然我们也注意到迄今为止,只有词汇层次的标注较为成熟,基本上可以实现正确率很高的自动标注。

这也就是为何在利用语料库所从事的研究中,词典编纂以及相关的教材开发方面的成果最为显著。

其实语料库标注可以被理解为一种元语言形式。

它是对原始语料进行一种初步的静态的注解。

词性标注是这样,某些句法层的标注也是这样。

曾经还听说有人将所有语料进行主位、述位的标注,以便对其施行系统功能分析。

因此如果对口语语料再进行音段和超音段的标注,那将会给对话语的动态分析带来极大方便(参见:Chafe, 1993; Chafe et al, 1991; Du Bois et al, 1993)。

相关文档
最新文档