语料库的类型
语料库的基本特征

语料库的基本特征
语料库是指用于研究语言的大规模数据集合,是语言学、计算语言学和自然语言处理等领域中的重要资源。
语料库的基本特征包括以下几个方面:
1. 语料库的规模和构成:语料库的规模和构成取决于研究的目的和领域。
例如,对于计算机自然语言处理领域来说,需要大规模、多样化的语料库,以涵盖尽可能多的语言现象和场景。
而对于语言学研究来说,需要针对某一语言或语言族群的语料库。
2. 语料库的类型:语料库可以分为平衡语料库和非平衡语料库。
平衡语料库是指各类文本和语言现象在语料库中的比例相对均衡,如新闻语料库、百科全书语料库等;非平衡语料库则是指某些语言现象在语料库中的比例偏高,如口语语料库、科技文献语料库等。
3. 语料库的数据来源:语料库的数据来源有多种,包括人工采集、网络爬虫、自然语言生成等。
其中,人工采集是最常见的方式,可以通过实地调查、问卷调查、录音或录像等方式获取。
4. 语料库的标注与清洗:语料库的标注和清洗是保证语料库质量的重要环节。
标注过程包括词性标注、命名实体识别、依存句法分析等;清洗过程则是去除重复文本、错误文本、非目标文本等。
5. 语料库的应用:语料库在语言学、计算语言学和自然语言处理等领域中有着广泛的应用。
例如,语言学家可以通过对语料库的分析来研究语言现象的规律;自然语言处理领域则可以利用语料库来训练模型、提高机器翻译的准确率等。
总之,语料库是语言研究不可或缺的基础资源,其基本特征决定了它在不同领域中的应用和价值。
语料库的分类

语料库的分类一、介绍语料库是指用于语言学研究的大规模文本数据集合,是自然语言处理(NLP)领域的重要资源之一。
通过对语料库的分类和应用,可以帮助我们更好地理解和分析自然语言现象,提高机器对语言的理解能力和处理效果。
本文将介绍几种常见的语料库分类及其应用。
二、基于文本来源的分类1. 平衡语料库平衡语料库是指从各个领域、不同类型的文本中均匀采样得到的语料库。
这类语料库可以用于构建通用的语言模型,对各种领域的文本进行处理和分析。
2. 领域特定语料库领域特定语料库是指针对某一特定领域的语言样本进行收集和整理的语料库。
比如医学领域的语料库可以用于医学文本的分类、信息抽取和实体识别等任务。
3. 实时语料库实时语料库是指根据实时产生的文本数据构建的语料库,例如社交媒体上的实时文本。
这类语料库可以用于情感分析、事件检测和舆情分析等任务。
三、基于语言类型的分类1. 单语语料库单语语料库是指只包含一种语言的文本数据集合,例如中文语料库、英文语料库等。
这类语料库可以用于机器翻译、语言模型训练等任务。
2. 双语对照语料库双语对照语料库是指包含两种语言的文本数据集合,例如中英文对照语料库。
这类语料库可以用于机器翻译、跨语言信息检索等任务。
3. 多语语料库多语语料库是指包含多种语言的文本数据集合,例如欧洲各国的语料库。
这类语料库可以用于跨语言信息检索、语言联系研究等任务。
四、基于文本属性的分类1. 口语语料库口语语料库是指包含口语化文本的语料库,例如电话对话、社交媒体文本等。
这类语料库可以用于语音识别、对话系统等任务。
2. 书面语语料库书面语语料库是指包含书面语文本的语料库,例如新闻报道、学术论文等。
这类语料库可以用于文本分类、信息抽取等任务。
3. 平行语料库平行语料库是指包含相同内容但使用不同语言表达的文本对,例如中英文平行语料库。
这类语料库可以用于机器翻译、句子对齐等任务。
五、应用领域1. 机器翻译语料库是机器翻译系统的重要训练数据来源,通过对平行语料库的分析和建模,可以提高机器翻译的准确性和流畅度。
浅谈语料库分类及用途

浅谈语料库分类及用途一、语料库的定义在语言学中,语料库是指大量文本的集合。
在语料库语言学中,他们是主要用来进行统计分析与假设检定,在某一领域中,测试语言规律的出现或有效性。
语料库可以是某一单独语种的文本(单语语料库),又或者是多种语言中的文本数据。
二、语料库的分类1.多语种语料库多语种语料(Multilingual corpora)经常经过格式特殊处理进行比对研究,也被称作平行语料库。
它是由大量的平行文本(parallel text)组成。
平行文本通常是几种语言放在一起,有原文有译文,对齐放置。
较为著名的平行文本有洛布古典丛书和克莱梵语丛书。
平行文本不仅仅是两种语言的平行,有时会有多种语言集合。
如圣经研究中,关于圣经的译文可以有多种版本。
较为著名的便是俄利根的《圣经六国译文合璧》,其中为旧约提供了六个版本。
在多語种语料库中,一定要注意多语种语义的平行对齐,这是保障语言学研究的前提条件。
一般情况下,双语平行语料库中,主要有两种类型,翻译语料库(translation corpus)和对比语料库(comparable corpus)。
在翻译语料库中,一种语言的文本会是另外语种语言文本的翻译。
在翻译过程中,翻译人员可以对句子进行拆分、合并、删除、插入或重新排列。
翻译语料库现如今广泛运用于机器翻译中,机器翻译实际属于计算机语言学中的一类,其方法是通过某种程序将一种语言翻译成另外一种语言。
借助语料库,便可以提供大量准确而地道的目标语言文本,从而使计算机可以生成更加复杂的自动翻译,处理更复杂的语言翻译。
在对比语料库中,文本都是同种类型,覆盖同种内容,但是他们并不是互相翻译的关系。
为开发平行语料库,有些文本需以一个短语或句子组成的语块进行匹配。
其中,经常会运用由两种语言语料库组成的平行语块对双语的机器翻译进行训练。
为使语料库能够对语言学研究更能有用,他们通常会运用到注释程序,比如,对演讲的部分内容进行注释或是词性标注。
语料库的分类、创建和检索简述

语料库的分类
语料库的分类
根据不同的标准,语料库可以分为多种类型。常见的语料库类型包括: 1、通用语料库:包含来自不同领域、不同语言的语料,适用于广泛的研究和 应用领域。
语料库的分类
2、专业语料库:针对特定领域或专业构建的语料库,例如医学、法律、金融 等。
3、口语语料库:包含口头语言 材料,如录音、口语表达等。
二、图像分类技术
另外,降维技术也可以用于图像分类。降维技术可以将高维的图像特征降维 到低维的空间,从而使得分类更加简单和高效。常用的降维技术有PCA、t-SNE和 autoencoder等。
三、图像语义检索与分类技术的 研究现状
三、图像语义检索与分类技术的研究现状
近年来,图像语义检索和分类技术的研究取得了显著的进展。在图像语义检 索方面,研究者们提出了多种基于内容、语义相似度和向量空间模型等方法。在 图像分类方面,SVM、神经网络和降维技术等算法的应用取得了重要突破。
一、图像语义检索技术
图像语义检索是指通过自然语言描述或者用户提交的查询关键词,从图像库 中检索出与查询相关的图像。近年来,研究者们提出了多种图像语义检索的方法。
一、图像语义检索技术
基于内容的图像语义检索是通过分析图像的内容,提取出图像的特征,然后 根据这些特征进行检索。例如,可以通过提取图像的颜色、纹理、形状等特征进 行检索。另外,还可以利用深度学习技术,如卷积神经网络(CNN)来提取图像 的特征,提高检索的准确性。
语料库的创建
此外,为了便于语料库的管理和检索,需要构建语料库的索引和词典。索引 可以记录每个单词在语料库中出现的位置和频率,而词典则包含了单词的语义信 息和语法信息等。最后,语料库的创建还需要注意保证数据的安全性和隐私保护。
语料库语言学名词解释

语料库语言学名词解释1. 什么是语料库语言学?语料库语言学是一门研究自然语言的学科,通过收集和分析大量的实际文本数据(称为语料库),以揭示自然语言的结构、用法和变化规律。
它结合了计算机科学、统计学和语言学等多个领域的方法和理论,旨在提供对自然语言的全面、详细和深入的理解。
2. 什么是语料库?语料库是指由大量实际文本组成的数据集合,可以包括书籍、报纸、杂志、网页、社交媒体帖子等。
这些文本通常经过数字化处理并按照一定规则进行标注,以便进行进一步的分析和研究。
3. 为什么要使用语料库进行研究?使用语料库进行研究有以下几个优点:•自然性:语料库中的文本来自真实世界,反映了人们在不同情境下使用自然语言的方式。
•大规模性:大型语料库包含了大量文本数据,可以提供更加全面且具有代表性的样本。
•可比性:通过比较不同文本之间的共同点和差异,可以揭示语言的普遍规律和个体差异。
•可验证性:研究者可以重复使用相同的语料库进行验证和复制研究结果。
•数据驱动性:语料库语言学强调通过数据来推动理论的发展,以实证为基础进行研究。
4. 常用的语料库类型4.1. 平衡语料库平衡语料库是指在不同领域、不同类型文本中均匀采样而得到的语料库。
它旨在保持各个领域和类型的文本在整个语料库中的比例相对均衡,以便更好地反映自然语言的使用情况。
4.2. 非平衡语料库非平衡语料库是指在采集过程中没有保持各个领域和类型文本比例均衡的语料库。
这种类型的语料库可能更加关注某些特定领域或主题,适用于特定研究目标。
4.3. 同步平行语料库同步平行语料库是指包含两种或多种不同自然语言版本(例如英文、法文、汉文)的对应文本。
这些文本在句子或段落级别上具有相同的语义内容,可以用于机器翻译、跨语言信息检索等领域的研究。
4.4. 异步平行语料库异步平行语料库是指包含两种或多种不同自然语言版本的对应文本,但其对应关系并不是在句子或段落级别上一一对应。
这种类型的语料库适用于跨语言补全、跨语言文本摘要等研究。
语料库_精品文档

语料库引言语料库是自然语言处理和文本分析中非常重要的资源。
它是大量有序的文本数据的集合,用于研究和分析自然语言的结构、语法和语义。
语料库的建立既可以依赖于人工的文本收集和整理,也可以通过网络爬虫等自动化的方式获取。
本文将介绍语料库的定义、类型、应用和建立方法等内容。
一、语料库的定义语料库是由大量文本信息组成的有序集合,可以涵盖广泛的领域和主题。
语料库可以包含书籍、报纸、杂志、电影字幕、社交媒体信息等不同来源的文本数据。
这些文本数据以电子文档的形式存储,方便进行搜索和分析。
语料库不仅包含自然语言的表达,还包括文本的元数据信息,例如作者、出版日期、地理位置等。
这些信息可以帮助研究人员更好地理解文本的背景和语境。
二、语料库的类型根据语料库的来源和用途,可以将其分为不同的类型。
1. 原始语料库:原始语料库是从真实的文本数据中收集而来的,通常包含大量的未经处理的文本。
原始语料库可以覆盖多个领域和主题,有助于研究人员深入了解各种语言现象。
2. 标注语料库:标注语料库是在原始语料库的基础上进行了人工标注的语料库。
标注可以包括分词、词性标注、句法分析、语义标注等。
标注语料库可以用于训练和评估自然语言处理的算法和模型。
3. 平行语料库:平行语料库是包含双语或多语文本的语料库,可以用于机器翻译和跨语言信息检索等任务。
平行语料库中的文本在语义和结构上是对应的,可以用于训练和评估翻译模型的准确性。
4. 专门领域语料库:专门领域语料库是根据特定领域或主题进行了选择和整理的语料库。
例如医学领域的语料库可以收集和整理包含医学术语和知识的文本,有助于医学研究和医学文档的分析。
三、语料库的应用语料库在自然语言处理和文本分析的研究中具有广泛的应用。
1. 语言模型训练:语料库可以用来训练语言模型,提高自然语言处理任务中的语言理解和生成能力。
通过学习大规模的文本数据,语言模型可以预测下一个词的概率、处理歧义和生成连贯的语言表达等。
2. 文本分类和情感分析:语料库可以用来训练文本分类器和情感分析模型。
专业的语料库语言分析

专业的语料库语言分析语料库是指大量收集并整理起来的自然语言文本资源的集合。
在语言学和计算机科学领域,语料库是进行语言学研究和自然语言处理的重要基础。
语言分析是对语料库中的文本进行系统地处理和研究的过程。
本文将探讨专业的语料库语言分析的方法和应用。
一、语料库的构建与特点语料库的构建是一个相对复杂的过程,需要采集、整理、标注和存储大规模的文本数据。
常见的语料库类型包括平行语料库(Parallel Corpus)、单语语料库(Monolingual Corpus)和特定领域语料库(Specialized Corpus)等。
语料库的特点有多样性、真实性和大规模性。
多样性指语料库中的文本来自于不同的语言、文体和主题领域,能够涵盖各种文本类型的特征。
真实性指语料库中的文本是真实的语言数据,具有一定的时效性和可靠性。
大规模性指语料库中包含大量的文本数据,可以提供足够的样本数量进行分析和研究。
二、语料库语言分析的方法专业的语料库语言分析需要结合语言学和计算机科学的方法和技术。
以下是一些常用的语料库语言分析方法:1.词汇频率分析通过统计语料库中词汇的频率和分布情况,可以了解到不同词汇在语言中的重要性和使用情况。
词汇频率分析可以对文本进行关键词提取、词汇排序和热点话题挖掘等。
2.搭配分析搭配是指一组词在语境中经常一起出现的现象。
通过对语料库中的搭配进行分析,可以了解到词汇之间的搭配规律和固定搭配的使用频率。
搭配分析可以帮助改进词汇的搭配选择和提高语言表达的准确性。
3.句法分析句法分析是对语料库中句子结构和语法关系的分析。
通过句法分析,可以了解到句子的句法结构、成分之间的关系和句法规则的应用情况。
句法分析可以帮助理解句子的语法结构和语义含义,对翻译、文法教学和机器翻译等领域具有重要意义。
4.样式分析样式分析是对语料库中文本样式和表达方式的分析。
通过样式分析,可以了解到文本的体裁和风格特点、修辞手法和篇章结构等。
样式分析可以帮助提高写作能力和文本理解能力,对文学研究和科技写作等领域具有重要价值。
专业的语料库与语言分析

专业的语料库与语言分析语料库是一种大规模的文本数据库,包含大量的实际语言使用情况的样本。
它是语言学和语言分析领域中非常重要的资源,能够提供大量的语言数据用于研究和分析。
本文将介绍专业的语料库及其在语言分析中的应用。
一、什么是语料库语料库是由各种各样的文本样本组成的数据库,其中包含书籍、报纸、杂志、广播、网页、社交媒体等不同来源的文本。
这些文本样本都是根据特定的语言学原则进行分类和标记的,以便进行更深入的研究。
专业的语料库不仅仅是简单的文本集合,还包含了各种统计数据,如词频、词汇搭配、句法结构等。
这些数据可以帮助研究者揭示语言使用的规律和变化。
二、语料库的分类根据语料库的规模和特点,可以将其分为不同类型,例如:1. 专业语料库:专门针对特定领域的语言进行收集和整理,如医学语料库、法律语料库、金融语料库等。
这些语料库可以帮助研究者深入理解专业领域内的语言使用规律。
2. 平衡语料库:包含各种文本类型和风格的语料库。
这种语料库旨在从更全面的角度研究语言使用,涵盖不同领域和不同社会群体的语言样本。
3. 时代语料库:通过收集不同时间段的语言样本,可以展示语言在不同时期的变化和发展。
三、语料库在语言分析中的应用语料库在语言学和语言分析研究中起着关键的作用。
以下是语料库在语言分析中的一些常见应用:1. 词频分析:通过统计语料库中词汇的频率,可以确定常见词汇和特定领域内的专用词汇。
这对于教学、翻译和词汇学研究非常有价值。
2. 词汇搭配分析:语料库可以帮助研究者了解不同词汇之间的搭配关系,例如哪些词汇常常同时出现,或者哪些动词通常与特定名词搭配使用。
3. 语法分析:通过分析语料库中的句子结构和语法规则,可以揭示语言使用中的句法规律和变化。
这对于语言教学和语法研究非常有益。
4. 文体分析:通过分析不同文本类型的语言样本,可以了解特定文体的特点和语言习惯。
这对于文学研究和写作风格的模仿非常有帮助。
5. 语言变化研究:通过比较不同时期的语料库,可以分析语言的演变和变化。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语料库的类型
[作者:李文中转贴自:Corpora and the ELT点击数:97 文章录入:neilruan ]
语料库来自拉丁词corpus,原意为“汇总”、“文集”等,复数形式为corpora或corpuses。
语料库是“作品汇集,以及任何有关主题的文本总集”(OED)是“书面语或口头语材料总集,为语言学分析提供基础”(OED)。
语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作语言的样本”(Sinclair,1986:185-203)。
语料库是按照明确的设计标准,为某一具体目的而集成的大型文本库(Atkins and Clear,1992:1-16)。
Renouf认为,语料库是“由大量收集的书面语或口头语构成,并通过计算机储存和处理,用于语言学研究的文本库”(Renouf, 1987:1)。
Leech指出,大量收集的可机读的电子文本是概率研究方法中获得“必需的频率数据”的基础,“为获得必需的频率数据,我们必须分析足量的自然英语(或其它语言)文本,以便基于观测频率(observed frequency)进行合乎实际的预测。
因此,就需要依靠可机读的电子文本集,即可机读的语料库”(Leech, 1987:2)。
综上所述,语料库具有以下基本特征:
1〕语料库的设计和建设是在系统的理论语言学原则指导下进行的,语料库的开发具有明确而具体的研究目标。
如二十世纪六十年代初的BROWN语料库主要目的是对美国英语进行语法分析,而随后的LOB语料库基本按照BROWN语料库的设计原则收集了同年代的英国英语,目的是进行美国英语和英国英语的对比分析和语法分析。
2〕语料库语料的构成和取样是按照明确的语言学原则并采取随机抽样方法收集语料的,而不是简单地堆积语料。
所收集的语料必须是语言运用的自然语料(naturally-occurred data)。
3)语料库作为自然语言运用的样本,就必须具有代表性(representativeness)。
Chomsky曾经批评语料库不过是试图用很小的样本代表巨量的甚至无限的实际语言材料,其结果必然存在偏差,缺乏代表性,“自然语料库存在如此严重的偏差,以至于对其所进行的描述将不过是一个词表而已”(Chomsky, 1962:159)。
这种批评对任何以概率统计为基础手段的研究都是有价值的(McEnery, 1996:5)。
但是,目前的计算机语料库可以通过控制抽样过程和语料比例关系来缩小偏差,增强语料的代表性。
决定语料代表性的主要因素不外乎样本抽样的过程和语料量的大小。
语料库抽样一般采取随机抽样方法。
一种做法是在抽样前首先确定抽样的范围,如BROWN语料库和LOB语料库分别是以1961年全年的美国英语和英国英语出版物作为抽样范围i[i];再就是确定语料的分层结构,进行分层抽样,如把语料按文类(genre)和信道(channel, 如书面语和口语等)进行分层,如图2.1所示。
从各种语料的抽样比例上又可分为‘均衡抽样’(balanced)和‘塔式抽样’(pyramidal)。
前者对各种语料按平均比例抽取,而后者对不同的语料进行不等比例抽取。
4)语料库语料以电子文本形式储存并且是通过计算机自动处理的。
巨量语料以纯文本形式存储在磁盘上,以便语料库索引软件检索和处理。
也可以通过转换软件把其它格式的文件如超文本(htm 或html)格式转换为纯文本。
另外,语料库具有一定的容量。
语料库的大小取决于语料库的设计原则和研究需求,以及建库过程中语料资源的获取难度及其它因素。
计算机语料库实际上提供了一种人机交互,这种交互方式随着语料库工具的发展而逐步加强其自动化特性。
Leech认为这种人机交互有以下四种渐进的模式:(1)‘数据检索模式’。
计算机以便利的形式提供数据,人进行分析。
(2)‘共生模式’。
计算机提供部分经过分析的数据,人不断改善其分析系统。
(3)‘自我组织模式’。
计算机分析数据并不断改善其分析系统,人提供分析系统参数及软件。
(4)‘发现程序模式’。
计算机基于数据自动划分数据范畴并进行分析,人提供软件(Leech,1991:19)。
计算机自动处理包括自动词性附码(tagging)、自动句法分析(parsing)等。
其基本处理和分析过程包括以下几个步骤:
语音分析(phonetic analysis)指音段分析,主要用于语音识别和语音合成。
正字分析(orthographic analysis)指对文本中各种非文字符号、标点、大小写问题等进行处理和歧义消除。
形态分析(morphological analysis)即词性指定和附码。
语料库自动附码软件通过概率统计和分析,对所给句子每一个词指定一个或多个词性码。
结果显示分列显示和行显示两种。
目前语料库自动词性附码准确率一般在97%以上。
句法分析(syntactic analysis)是指句子成分切分、句法关系识别、以及句法分析。
语义分析(semantic analysis)和语用分析对语篇进行语义指定和意义解释。
5)基于语料库的研究以量化研究为基石,以概率统计为基本手段,以“数据驱动”为基本理念。
其基本方法是通过对实际语言运用的抽样,确定其对语言整体的代表性,通过对样本特征的描述概括整体特征。
在量化分析中,首先对特征进行分类,并统计各个特征的频率,通过建立复杂的统计模型对观测到的数据进行解释。
分析结果可对研究对象总体进行概括。
量化分析能够使我们发现在某一种语言或语言变体中哪些现象反映了语言的真实特征,那些现象仅属于偶然的个例。
针对某一语言变体而言,我们还可以确切地知道某一语言现象的显著性,从而确认该现象是规范的还是异常的(McEnery,1997:3)。
6)语料库既是一种研究方法,又代表着一种新的研究思维,并以当代先进的计算机技术为技术手段。
7)语料文本是一连续的文本或话语片断(running text or continuous stretches of discourse),而不是孤立的句子和词汇。
在语料库研究中,对某一搜索词的语法关系、用法、以及搭配的观察是通过分析提供的语境(context)进行的。
语料库索引提供的语境可分为以下几种:(1)指定跨距,即使用者指定以搜索词为中心左右相邻的词数;(2)意元语境,即以某一意义单元结束为一微型语境,在语料库索引中意元的确定是以意义结束符号如“,;”等为标识的;(3)句子语境,即以句子终结符号如“. !”等为标识;(4)可扩展语境,即对搜索词所在语境可无限扩展。
这对研究词汇的语法关系、词汇用法、词汇搭配、词丛(word cluster)、词汇在连续语篇中呈现的范型(pattern)、以及主题词汇之间的意义关系提供了可靠而方便的途径。
如“necessarily”一词在《新英汉词典》中作为“necessary”词条下该词的副词形式,定义为“必定,必然”;Oxford Advanced Learner’s Dictionary of Current English把它列为一个单独的词条,给出的定义为“adv as a necessary result; inevitably”;各种英语教科书中对该词的定义和解释也大同小异。
在上海交大科技英语语料库(以下简称JDEST)中搜索“necessarily”这个词,发现该词在全库中出现264次,频率最大的搭配词“not”出现在该词左边第一个位置,观察搭配频数为136。
全库中出现5次以上的三词词丛有20组,同时含有“not”和“necessarily”的词丛有18组。
通过索引行统计和词丛统计可以看出(见图2.4示例),“necessarily”一词最典型的用法是与“not”
搭配使用,表示含有否定意义的主观评价,意为“未必”,“不一定”。
如果把这个词看成是一个孤立词条并确定其定义,很难概括该词在用法中的真实行为和典型特征。
除此之外,现代计算机语料库还具有以下重要优势:1〕资源优势。
可获得的语料资源丰富,获得渠道方便。
传统的语料库建设,语料输入工作极为浩繁,基本输入手段要靠手工键盘输入以及扫描输入。
靠这种输入方式收集的语料存在大量输入错误,需进一步人工校对。
如今大量的在线语料资源,光盘资料,因特网资源,包括新闻、邮件列表、电子邮件等使得语料库的建设和扩充变得非常快捷方便。
2〕速度优势。
早期的语料库是通过手工处理来完成分析过程的,不仅费时费力,而且误差很大,严重影响分析结果的可靠性。
后来出现了在DOS环境中运行的语料库软件,提高了语料处理的自动化。
但每次处理语料量受到限制,且不易操作。
另外,传统的语料库软件大多与库本体集成开发,软件不易剥离,且适用平台少。
如今,不少语料库索引软件可以在不同的操作环境中运行,且每次处理的语料量不受限制。
通过专用索引软件,使得大型语料库计算机分析更加快捷。
例如,只能在DOS 环境中运行的索引分析软件TACT2.1每次只能处理1兆字节左右的语料,而如今在WINDOWS环境中运行的WORDSMITH TOOLS可以同时处理的语料量只受计算机硬件的限制,即内存和硬盘的大小以及CPU的速度。
3〕精确度提高。
现代语料库索引软件内嵌各种统计和检验功能,使各种统计误差更精确地体现出来
文章来源:中国计算机辅助语言教学研究。