几个大的语料库评析

合集下载

专业的语料库分析方法

专业的语料库分析方法语料库是语言学和计算语言学中非常重要的研究资源，它是一种大规模的语言数据集合，通过对其中的文本进行分析，可以揭示语言使用的规律和特点。

本文将介绍一些专业的语料库分析方法，以帮助读者更好地理解和利用语料库进行研究。

一、语料库获取与构建语料库的获取是进行语料库分析的第一步。

目前，常见的方式包括手动构建语料库和利用自然语言处理技术从互联网上抓取文本数据。

手动构建语料库需要多人合作，通过收集、整理和标注文本数据，构建一个具有代表性的语料库。

这种方式对数据质量要求较高，但可以获得更加精细和专业的语言资源。

另一种方式是利用自然语言处理技术从互联网上抓取文本数据构建语料库。

这种方式可以获取大规模的文本数据，但需要对数据进行清洗和预处理，以确保数据的准确性和一致性。

二、语料库标注与注释语料库中的文本数据需要进行标注和注释，以便后续的分析和研究。

常见的语料库标注方法包括词性标注、句法分析、命名实体识别等。

词性标注是将每个单词与其所属的词性进行对应，句法分析则是分析句子的结构和成分。

命名实体识别可以识别出文本中的人名、地名、机构名等实体。

通过标注和注释，可以使语料库的数据更加有结构和可利用，为后续的分析提供基础。

三、语料库查询与分析语料库的查询和分析是通过提出特定的问题或假设，从语料库中获取相关的语言数据，并进行统计分析和语言学研究。

常见的语料库查询方法包括关键词查询、语境查询和词汇共现分析。

关键词查询可以指定一个或多个关键词，从语料库中检索包含这些关键词的文本。

语境查询则可以指定一个词的上下文环境，寻找与该词相关的语言现象。

词汇共现分析可以通过统计某个词与其他词之间的共现频率，揭示词汇之间的语义关系。

通过语料库查询和分析，可以得出一些关于语言使用规律和特点的结论，为语言研究和自然语言处理技术的发展提供依据。

四、语料库分析的应用领域语料库分析方法在多个领域具有广泛的应用。

下面简单介绍几个主要的应用领域：1. 语言学研究：语料库分析为语言学提供了大量真实的语言数据，可以揭示不同语言现象的规律和特点，如词汇使用频率、句法结构、语义关系等。

语料库的分类

语料库的分类一、介绍语料库是指用于语言学研究的大规模文本数据集合，是自然语言处理（NLP）领域的重要资源之一。

通过对语料库的分类和应用，可以帮助我们更好地理解和分析自然语言现象，提高机器对语言的理解能力和处理效果。

本文将介绍几种常见的语料库分类及其应用。

二、基于文本来源的分类1. 平衡语料库平衡语料库是指从各个领域、不同类型的文本中均匀采样得到的语料库。

这类语料库可以用于构建通用的语言模型，对各种领域的文本进行处理和分析。

2. 领域特定语料库领域特定语料库是指针对某一特定领域的语言样本进行收集和整理的语料库。

比如医学领域的语料库可以用于医学文本的分类、信息抽取和实体识别等任务。

3. 实时语料库实时语料库是指根据实时产生的文本数据构建的语料库，例如社交媒体上的实时文本。

这类语料库可以用于情感分析、事件检测和舆情分析等任务。

三、基于语言类型的分类1. 单语语料库单语语料库是指只包含一种语言的文本数据集合，例如中文语料库、英文语料库等。

这类语料库可以用于机器翻译、语言模型训练等任务。

2. 双语对照语料库双语对照语料库是指包含两种语言的文本数据集合，例如中英文对照语料库。

这类语料库可以用于机器翻译、跨语言信息检索等任务。

3. 多语语料库多语语料库是指包含多种语言的文本数据集合，例如欧洲各国的语料库。

这类语料库可以用于跨语言信息检索、语言联系研究等任务。

四、基于文本属性的分类1. 口语语料库口语语料库是指包含口语化文本的语料库，例如电话对话、社交媒体文本等。

这类语料库可以用于语音识别、对话系统等任务。

2. 书面语语料库书面语语料库是指包含书面语文本的语料库，例如新闻报道、学术论文等。

这类语料库可以用于文本分类、信息抽取等任务。

3. 平行语料库平行语料库是指包含相同内容但使用不同语言表达的文本对，例如中英文平行语料库。

这类语料库可以用于机器翻译、句子对齐等任务。

五、应用领域1. 机器翻译语料库是机器翻译系统的重要训练数据来源，通过对平行语料库的分析和建模，可以提高机器翻译的准确性和流畅度。

浅谈语料库分类及用途

浅谈语料库分类及用途一、语料库的定义在语言学中，语料库是指大量文本的集合。

在语料库语言学中，他们是主要用来进行统计分析与假设检定，在某一领域中，测试语言规律的出现或有效性。

语料库可以是某一单独语种的文本（单语语料库），又或者是多种语言中的文本数据。

二、语料库的分类1.多语种语料库多语种语料（Multilingual corpora）经常经过格式特殊处理进行比对研究，也被称作平行语料库。

它是由大量的平行文本（parallel text）组成。

平行文本通常是几种语言放在一起，有原文有译文，对齐放置。

较为著名的平行文本有洛布古典丛书和克莱梵语丛书。

平行文本不仅仅是两种语言的平行，有时会有多种语言集合。

如圣经研究中，关于圣经的译文可以有多种版本。

较为著名的便是俄利根的《圣经六国译文合璧》，其中为旧约提供了六个版本。

在多語种语料库中，一定要注意多语种语义的平行对齐，这是保障语言学研究的前提条件。

一般情况下，双语平行语料库中，主要有两种类型，翻译语料库（translation corpus）和对比语料库（comparable corpus）。

在翻译语料库中，一种语言的文本会是另外语种语言文本的翻译。

在翻译过程中，翻译人员可以对句子进行拆分、合并、删除、插入或重新排列。

翻译语料库现如今广泛运用于机器翻译中，机器翻译实际属于计算机语言学中的一类，其方法是通过某种程序将一种语言翻译成另外一种语言。

借助语料库，便可以提供大量准确而地道的目标语言文本，从而使计算机可以生成更加复杂的自动翻译，处理更复杂的语言翻译。

在对比语料库中，文本都是同种类型，覆盖同种内容，但是他们并不是互相翻译的关系。

为开发平行语料库，有些文本需以一个短语或句子组成的语块进行匹配。

其中，经常会运用由两种语言语料库组成的平行语块对双语的机器翻译进行训练。

为使语料库能够对语言学研究更能有用，他们通常会运用到注释程序，比如，对演讲的部分内容进行注释或是词性标注。

语料库的主要评价指标

语料库的主要评价指标
语料库的主要评价指标是评估语料库的质量和可用性。

以下是几个常见的评价指标：
1. 数据量：语料库的规模越大，覆盖的领域和话题越广泛，对于各种应用需求都更有价值。

一般来说，语料库的数据量应足够大，以保证语言模型的训练和应用效果。

2. 多样性：语料库应包含多种文本类型和语言风格，涵盖不同领域和主题，以能够满足不同应用场景的需求。

多样性的语料库能够提供更全面的语言模型和更准确的文本分析结果。

3. 精度：语料库应准确无误，无歧义和误导性信息。

语料库中的文本应具有高质量的语法和语义，以确保语言模型和文本分析的准确性和可靠性。

4. 标注质量：如果语料库中的文本已经进行了标注（例如词性标注、命名实体标注等），则标注的质量也是一个重要的评价指标。

标注应准确、一致，并且能够提供有意义的语言信息。

5. 实用性：语料库应具有一定的实用性，能够满足特定应用的需求。

例如，针对机器翻译任务的语料库需要提供双语对照的文本，针对情感分析任务的语料库需要提供情感标注的文本等。

6. 更新频率：语料库应具有一定的更新频率，以反映语言使用的变
化和发展。

随着时间的推移，新词汇、新短语和新的语言现象不断出现，语料库需要及时更新以保持其有效性和实用性。

7. 版权和许可：语料库中的文本应遵守版权和许可规定。

合法获取和使用语料库中的文本对于开展研究和应用非常重要。

一个好的语料库应具有大规模、多样性、精度高、标注准确、实用性强、更新及时以及合法许可的特点。

这样的语料库能够为各种自然语言处理任务提供有效支持，并推动相关技术的发展。

语料库与批判话语分析

语料库与批判话语分析语料库与批判话语分析引言语料库与批判话语分析是当前语言学领域中受到广泛关注的研究方法，它提供了一种利用大规模实际语言数据进行分析和研究的途径。

本文将介绍语料库和批判话语分析的基本概念，并探讨这两个领域之间的关系以及它们在当代语言学研究中的应用。

一、语料库概述语料库是指收集并整理的自然语言的大规模实际语言数据的集合。

它可以被视为语言的一个现实样本，通过对其进行分析，可以揭示出语言使用的规律和模式。

语料库的建设和应用涉及到语言学、计算机科学、统计学等多个领域的知识，因此具有很高的学科交叉性和应用性。

语料库可以分为专业语料库和通用语料库。

专业语料库以特定领域的语言为主题，如法律语料库、医学语料库等，它们可以用来分析语言在特定领域中的应用情况。

通用语料库则以各种领域的综合语言为主题，如语言学研究用的综合语料库、多语言对比语料库等，它们可以用来研究语言普遍性和多样性。

二、批判话语分析概述批判话语分析是一种研究社会文化问题的方法，它强调在话语中存在的权力关系、意识形态和社会结构等方面的问题。

该方法通常通过对社会实践中的话语进行深入分析，以揭示社会文化现象的内在因果关系。

批判话语分析关注话语背后的权力关系和话语的隐含意识形态。

它关注话语背后的表达方式、话语权力的行使者以及话语的消费者等方面。

批判话语分析的目标是通过揭示话语的复杂性和隐含意义，来理解和解释话语所涉及的社会关系和社会问题。

三、语料库与批判话语分析的关系语料库和批判话语分析都以实际语言数据为研究对象，但研究的侧重点有所不同。

语料库研究主要关注语言的现象和规律，通过对大规模语料数据的统计和计量分析，揭示出语言使用中的频率、分布、变异等规律。

语料库研究提供了一种基于实际数据的语言描述和分析方法，使语言学的研究更加客观和科学。

批判话语分析主要关注话语中隐含的权力关系和意识形态。

它通过对话语的语义、语用和语境等方面的分析，揭示出话语权力的行使者、话语的潜在意图以及话语的影响和效果。

专业的语料库语言分析

专业的语料库语言分析语料库是指大量收集并整理起来的自然语言文本资源的集合。

在语言学和计算机科学领域，语料库是进行语言学研究和自然语言处理的重要基础。

语言分析是对语料库中的文本进行系统地处理和研究的过程。

本文将探讨专业的语料库语言分析的方法和应用。

一、语料库的构建与特点语料库的构建是一个相对复杂的过程，需要采集、整理、标注和存储大规模的文本数据。

常见的语料库类型包括平行语料库（Parallel Corpus）、单语语料库（Monolingual Corpus）和特定领域语料库（Specialized Corpus）等。

语料库的特点有多样性、真实性和大规模性。

多样性指语料库中的文本来自于不同的语言、文体和主题领域，能够涵盖各种文本类型的特征。

真实性指语料库中的文本是真实的语言数据，具有一定的时效性和可靠性。

大规模性指语料库中包含大量的文本数据，可以提供足够的样本数量进行分析和研究。

二、语料库语言分析的方法专业的语料库语言分析需要结合语言学和计算机科学的方法和技术。

以下是一些常用的语料库语言分析方法：1.词汇频率分析通过统计语料库中词汇的频率和分布情况，可以了解到不同词汇在语言中的重要性和使用情况。

词汇频率分析可以对文本进行关键词提取、词汇排序和热点话题挖掘等。

2.搭配分析搭配是指一组词在语境中经常一起出现的现象。

通过对语料库中的搭配进行分析，可以了解到词汇之间的搭配规律和固定搭配的使用频率。

搭配分析可以帮助改进词汇的搭配选择和提高语言表达的准确性。

3.句法分析句法分析是对语料库中句子结构和语法关系的分析。

通过句法分析，可以了解到句子的句法结构、成分之间的关系和句法规则的应用情况。

句法分析可以帮助理解句子的语法结构和语义含义，对翻译、文法教学和机器翻译等领域具有重要意义。

4.样式分析样式分析是对语料库中文本样式和表达方式的分析。

通过样式分析，可以了解到文本的体裁和风格特点、修辞手法和篇章结构等。

样式分析可以帮助提高写作能力和文本理解能力，对文学研究和科技写作等领域具有重要价值。

语料库的类型

语料库的类型［作者：李文中转贴自：Corpora and the ELT点击数：97 文章录入：neilruan ］语料库来自拉丁词corpus，原意为“汇总”、“文集”等，复数形式为corpora或corpuses。

语料库是“作品汇集，以及任何有关主题的文本总集”(OED)是“书面语或口头语材料总集，为语言学分析提供基础”(OED)。

语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集，旨在用作语言的样本”(Sinclair，1986:185-203)。

语料库是按照明确的设计标准，为某一具体目的而集成的大型文本库（Atkins and Clear，1992:1-16）。

Renouf认为，语料库是“由大量收集的书面语或口头语构成，并通过计算机储存和处理，用于语言学研究的文本库”（Renouf, 1987:1）。

Leech指出，大量收集的可机读的电子文本是概率研究方法中获得“必需的频率数据”的基础，“为获得必需的频率数据，我们必须分析足量的自然英语（或其它语言）文本，以便基于观测频率（observed frequency）进行合乎实际的预测。

因此，就需要依靠可机读的电子文本集，即可机读的语料库”(Leech, 1987:2)。

综上所述，语料库具有以下基本特征：1〕语料库的设计和建设是在系统的理论语言学原则指导下进行的，语料库的开发具有明确而具体的研究目标。

如二十世纪六十年代初的BROWN语料库主要目的是对美国英语进行语法分析，而随后的LOB语料库基本按照BROWN语料库的设计原则收集了同年代的英国英语，目的是进行美国英语和英国英语的对比分析和语法分析。

2〕语料库语料的构成和取样是按照明确的语言学原则并采取随机抽样方法收集语料的，而不是简单地堆积语料。

所收集的语料必须是语言运用的自然语料（naturally-occurred data）。

3）语料库作为自然语言运用的样本，就必须具有代表性(representativeness)。

语言学常用语料库

语言学常用语料库
语言学常用语料库有很多，以下是一些常用的语料库：
1. Brown语料库：美国布朗大学语言学部于1960年代编制的语料库，是英语语料库中最早的、最著名的语料库之一。

2. Penn Treebank语料库：由宾夕法尼亚大学开发的语料库，主要用于句法分析和语言学研究。

3. CoNLL语料库：共享任务（Conference on Computational Natural Language Learning）所使用的语料库，包括各种语言的语料。

4. Europarl语料库：包括欧洲议会会议的多种语言翻译版本，用于机器翻译和跨语言研究。

5. Google语料库：由Google搜索引擎收集的大规模网络文本语料库，可用于研究自然语言处理和文本挖掘等领域。

6. Corpus of Contemporary American English (COCA)：包括当代美国英语的语料库，涵盖了各种不同类型的文本。

7. British National Corpus (BNC)：出版物、广播和会话等来源的英国英语语料库，是英国英语的重要资源。

这些语料库提供了大量的文本数据，可用于研究不同语言的语
言学现象，如词汇使用、语法结构和语义等。

它们对于语言学研究和自然语言处理的发展起着重要作用。

专业的语料库分析

专业的语料库分析语料库分析是一种研究语言使用和语言变化的方法，通过收集、整理和分析大量的语言样本，可以深入了解语言的特点和规律。

在今天的信息时代，语料库分析成为了语言学研究、翻译教学、自然语言处理等领域中不可或缺的工具。

本文将介绍语料库分析的定义、意义和应用，并探讨如何进行专业的语料库分析。

1. 语料库分析的定义与意义语料库分析是指通过采集和分析大量的自然语言文本，以了解语言形式、语义和语用的使用规律。

语料库是包含真实语言文本的大型数据库，可以包括书面文本、口语对话、新闻报道等多种类型。

语料库分析的主要目的是揭示语言的普遍规律和变异现象，帮助我们理解语言的真实使用情况。

语料库分析的意义在于：- 提供可靠的语言数据：语料库中的文本是真实的、自然的语言使用样本，与人们日常使用的语言相符合。

因此，通过语料库分析可以获得更加真实可靠的语言数据，而不仅仅依赖于语言学家的直觉和主观判断。

- 揭示语言的普遍规律：通过对大量语料的统计分析，可以发现语言的普遍规律和共性特征。

这些规律和特征可以用来解释语言学上的问题，如语音、语法和语义等方面的规律。

- 研究语言变异：语料库分析不仅能揭示语言的共性规律，还能研究语言的变异情况。

通过比较不同文体、不同地区、不同社会群体的语言数据，可以了解语言的变异现象，如方言、社会变异和时代变异等。

2. 语料库分析的应用领域语料库分析在语言学研究以及其他相关领域中有着广泛的应用。

下面列举几个常见的应用领域：2.1 语言学研究语料库分析为语言学研究提供了重要的工具和方法。

通过对语料库进行统计分析，可以验证和推测语言学理论，探讨语言的结构和功能，研究语言的变化和发展等。

语料库分析可以帮助语言学家更好地理解自然语言的特点和规律。

2.2 翻译教学语料库分析在翻译教学中的应用越来越广泛。

通过对双语语料库的对比分析，可以揭示两种语言之间的差异和相似之处，帮助学生理解和掌握翻译的技巧和策略。

语料库分析还可以用来构建机器翻译系统，提高翻译效率和质量。

语料库的类型

语料库是“作品汇集，以及任何有关主题的文本总集”(OED)是“书面语或口头语材料总集，为语言学分析提供基础”(OED)。

语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集，旨在用作语言的样本”(Sinclair，1986:185-203)。

语料库是按照明确的设计标准，为某一具体目的而集成的大型文本库（Atkins and Clear，1992:1-16）。

Renouf认为，语料库是“由大量收集的书面语或口头语构成，并通过计算机储存和处理，用于语言学研究的文本库”（Renouf, 1987:1）。

因此，就需要依靠可机读的电子文本集，即可机读的语料库”(Leech, 1987:2)。

综上所述，语料库具有以下基本特征：1〕语料库的设计和建设是在系统的理论语言学原则指导下进行的，语料库的开发具有明确而具体的研究目标。

2〕语料库语料的构成和取样是按照明确的语言学原则并采取随机抽样方法收集语料的，而不是简单地堆积语料。

所收集的语料必须是语言运用的自然语料（naturally-occurred data）。

3）语料库作为自然语言运用的样本，就必须具有代表性(representativeness)。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

纵观西方语言科学发展的历史 ,Quirk 的 SEU 无论是在研究观念上还是方法上都是一大
创新 ,为语料库语言学的发展开了个好头 ,也为语言学研究提供了全新的科学手段。六十年代初 ,美国布朗大学 (Brown U niversity) 的两位语言学家 Nelson Francis 和 Herry
( Private) ;广播 ( Radio) ;不公开 ( Surreptitious) 等。最后 ,用字母 S 和数字给各语篇加上标示。
Svartvik 除了给各语篇内的每个语段标出语调及节律外 , 还精心设计了一套索引程序
(concordance program) ,叫做 KWIC(key word in context) 。这样一来 ,不仅为检索某个语篇提
·14 ·
当代语言学
© 1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.
LL C 最初包含 87 个语篇 ,每篇约 5 ,000 字左右。为了检索方便起见 ,首先对这些语篇进
行详细的分类编目。这些语篇共分为五大类 :
从这个定义可以看出 ,所收集的语料已从早期的词语、短语、单句扩大到语篇 (text) ;收集范围从特定语言扩大到方言和语言的其它分支。值得注意的是 ,所选语篇必须考虑到典型性
或代表性 ,语篇本身和语料库还得具备相当的容量 ,才足以反映出语言特定部分的真实特征。要使收集到的语篇达到这样的标准 ,毫无疑问 ,在收集语料的过程中 ,语言学家就得凭自己对语言的直觉 ,仔细地对所选语料内省一番不可。当然 ,其中也不排除典型调查和诱导询问的方
·13 ·
有准备的演说 (未转写)
演说
自发言语评论体育
现代
其他
( Ⅱ) 原始口说材料 (100 篇)
6 10
亲密不公开
疏远言学
4 4
交谈
可公开
亲密疏远
亲密电话
疏远
24 10 20 6 10 的。6
可以看出 ,该库共收集 200 个语篇 ,口头语书面语各占一半 ,每个语篇约 5000 字左右 ,共有百万字之多。其内容包罗了各种不同的语体及社会的各个层面。
Kucera 继 Quirk 之后 , 建起了第一个计算机可读的 ( machine- readable) 布朗语料库 (Brown
Corpus) 。此后不久 , G. Leech (Lancaster 大学) ,S. Johansson (Oslo 大学) 和 K. Hofland (Bergen 大学) 三方协同 ,依据布朗语料库的模式 ,建起了“兰开斯特 —奥斯陆 / 卑尔根语料库”( The Lancaster- Oslo / Bergen (LOB) Corpus) 。与 Brown Corpus 所不同的是 ,LOB Corpus 还能对英语的不同变体 (varieties) 进行分析研究。
7
(C) 口语 (18) 剧本 i 4
资讯性谈话
想象性
正式演说 (经转写)
3
故事
广播新闻
3
5 6 6 4 ti 4 4 4 4
4 2 2
1998 年第 1 期 © 1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.
TOSCA 语料库 (1. 5 百万字)
九十年代以来 ,还有一些电脑语料库正在筹建之中。Sidney Greenbaum (伦敦大学教授)
计划从所有讲英语的国家里广收最新语料 ( 1990 —1993) ,设计筹建“英语国际语料库 ( The
International Corpus of English ( ICE) ) 。赫尔辛基大学 (U niversity of Helsinki) 英语系的三位教
(relative pronouns) ;V = 动词 (verbs) ,然后在每个大写字母后附加上其它符号以表示词的不同
变化形式 ,如在表示名词 N 的字母后加上 + 2 来表示名词的复数形式 (plural) ;用 + z 表示名词
的所有格 (genitive) ;用 + 表示动词原形 (t he baseform of a verb) ; + D 表示动词的过去时形
供了方便 ,同时 ,还可用这套程序检索某个语段 ,甚至某个词在整个语篇中或语段中所处的位
置、搭配关系、属何种词类、出现次数等。这就要求不仅对每个语段标上数码 ,而且 ,还要给每
个词按不同词类设计一套标示。在词类标示中先用不同的英语大写字母来表示不同的词类 :
A = 副词 ( adverbs) ; C = 连词 (conjunctions) ; E = 前限定词 (predeterminers) ; G = 关系代词
了达到语法描写的目的 ,还要设计一套句法标示 ( syntactic tagging) 以区分句法分析单位 (t he
unit of syntactic analysis) 。而且 ,为了对语法进行更为精细的描写 ,甚至还设计了一套短语分
析程序 (t he p hrase analysis program) 。当然 ,也少不了为各类从句里的不同语法成分设计一套
表 1.“英语用法调查”语料库
( I) 原始书写语料 (100 篇)
(A) 印刷品 (46)
(B) 非印刷品 (36)
人文科学自然科学
6
想象性连续书写品
7
资讯性
教学
6
亲密
一般新闻报刊
4
社交书信平等
专门报导
4
C
疏远
文书法律
4 3
平等非社交书信 l 疏远
论说文
5
日记
散文小说
式 (past form) ; + G 表示动词的-ing 形式 ; + N 表示动词的过去分词 (past participle) ; + 3 表示
单数第三人称形式等。用 VM 表示情态动词 ( model verb) ,系动词用 VB 表示 ,如 : be = VB +
,is = VB + 3 ,been = VB + N ,being = VB + G ,仅词类标示的设计就够费心思的了 ,更不用说为
1975 年 ,Quirk 的一名学生 ,瑞典隆德大学 (L und U niversity) 英语系教授 J an Svartvik 带领他的同事们 ,发起并组织了一项“英语口语调查”( The Survey of Spoken English) ( SSE) 。这项工程实际上是 SEU 的姊妹工程 ( sister project ) ,目的是实现用电脑自动化处理方式获取 SEU Corpus 的英语口语的原始资料。语料库标注包括节律分析 (prosodic analysis) ,语调单位
1998 年第 1 期
·15 ·
© 1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.
为了对美国口语进行广泛深入的研究 ,美国加州大学 ( U niversity of California) 语言学系的三位教授 W. L . Chafe , J . W. Du Bois 和 S. A. Thompson 正着手筹建“口头美国英语语料库”( The Corpus of Spoken American English (CSA E) ) ,计划收词约 20 万左右。另外 ,其它一些讲英语的国家如澳大利亚、新西兰等国也已建成或正在筹建电脑语料库。
(tone unit) ,重音 (st ress) ,语调 (tone) ,调核位置 (place of nucleus) 等。 SSE 历时六载 ,1981 年宣告完成。这个电脑自动化语料库被命名为“伦敦 —隆德口头英
语语料库”(London-L und Corpus of Spoken English (LL C) ) 。LL C 可称得上是一项复杂而艰巨的工程 ,是把计算机技术与语言研究相结合的较完美的成果 ,是计算机与语言学交叉领域里的一个创举。
三大电脑语料库的建立 ,结束了个人费时费力收集语言材料的历史 ,确立了语料库语言学在语言研究中无可争议的地位。同时也给 corpus 赋予了新的含义 ,提出了新的标准。这一点在 Francis 给 corpus 下的定义中得到了充分体现 :语料库即“文本的集合 ,假定代表某一语言、方言或语言的品种 ,用于语言分析”(1979 :110) 。
标示 (tagging of clause elements) 。另外 ,还得注意到各种不同的否定形式 ,如否定词缀和非否
定词缀等 ,以及其它一些语言现象。不仅如此 ,LL C 的库容量也从最初的 100 ,000 增加到了
500 ,000 个词。LL C 的诞生标志着语料库建设已跨入了全新的电脑自动化阶段 ,为语言学界
(1) 依赖自己的语言直觉 (intuition) ,通过自我内省 (self- retrospection) ,自造例证 ; (2) 以取样调查的方法 ( sampling technique) 收集有代表性的语料 , 并建语料库 (corpus work) ; (3) 进行诱导询问 (elicitaton) ,发放调查表 ,向合作人提问诱导来获取经过验证的语料。这三种方法虽然各有各的用途 ,各有各的优点 ,但使用最普遍的是第 (2) 种方法 ,这就是建语料库。本文着重介绍几个影响较大的语料库。 1959 年伦敦大学语言学教授 Randolp h Quirk 组织发起了“英语用法调查”( The Survey of English Usage) ( SEU) 项目 ,有计划地收集不同语体的大量语料 ,并利用计算机对收集到的语料进行储存、分类。语言科学史上的第一个较大型的电脑语料库从此诞生了。该库的各种语料成分及分类如下 (引自 J an Svartvik et al. 1982) :