语料库常用统计方法

合集下载

语料库中ttr的计算方法

语料库中ttr的计算方法
词汇丰富度（TTR）是一种用于衡量语言表达多样性和丰富度的
统计指标。

TTR的计算方法是通过将文本中不同词汇的数量除以总
词汇的数量来得出结果。

具体计算步骤如下：
1. 首先，需要对语料库进行分词处理，将文本中的单词进行拆
分并统计每个单词的出现次数。

2. 接下来，计算语料库中不同单词的数量，也就是词汇表的大小。

3. 然后，统计整个语料库中的总词汇量，包括重复出现的单词。

4. 最后，将词汇表的大小除以总词汇量，得出的结果就是TTR。

举例来说，如果一个语料库中有1000个不同的单词，总词汇量
为10000个，那么TTR的计算方法就是1000/10000=0.1。

TTR的结果越接近1，表示语料库中的词汇使用越丰富多样。

这
个指标对于语言学研究和文本分析非常有用，可以帮助我们理解文
本的多样性和丰富程度。

当然，TTR也有一些局限性，例如在不同长度的文本之间比较时可能存在偏差，因此在使用TTR时需要结合具体的语境和分析需求来综合考量。

专业的语料库分析方法

专业的语料库分析方法语料库是语言学和计算语言学中非常重要的研究资源，它是一种大规模的语言数据集合，通过对其中的文本进行分析，可以揭示语言使用的规律和特点。

本文将介绍一些专业的语料库分析方法，以帮助读者更好地理解和利用语料库进行研究。

一、语料库获取与构建语料库的获取是进行语料库分析的第一步。

目前，常见的方式包括手动构建语料库和利用自然语言处理技术从互联网上抓取文本数据。

手动构建语料库需要多人合作，通过收集、整理和标注文本数据，构建一个具有代表性的语料库。

这种方式对数据质量要求较高，但可以获得更加精细和专业的语言资源。

另一种方式是利用自然语言处理技术从互联网上抓取文本数据构建语料库。

这种方式可以获取大规模的文本数据，但需要对数据进行清洗和预处理，以确保数据的准确性和一致性。

二、语料库标注与注释语料库中的文本数据需要进行标注和注释，以便后续的分析和研究。

常见的语料库标注方法包括词性标注、句法分析、命名实体识别等。

词性标注是将每个单词与其所属的词性进行对应，句法分析则是分析句子的结构和成分。

命名实体识别可以识别出文本中的人名、地名、机构名等实体。

通过标注和注释，可以使语料库的数据更加有结构和可利用，为后续的分析提供基础。

三、语料库查询与分析语料库的查询和分析是通过提出特定的问题或假设，从语料库中获取相关的语言数据，并进行统计分析和语言学研究。

常见的语料库查询方法包括关键词查询、语境查询和词汇共现分析。

关键词查询可以指定一个或多个关键词，从语料库中检索包含这些关键词的文本。

语境查询则可以指定一个词的上下文环境，寻找与该词相关的语言现象。

词汇共现分析可以通过统计某个词与其他词之间的共现频率，揭示词汇之间的语义关系。

通过语料库查询和分析，可以得出一些关于语言使用规律和特点的结论，为语言研究和自然语言处理技术的发展提供依据。

四、语料库分析的应用领域语料库分析方法在多个领域具有广泛的应用。

下面简单介绍几个主要的应用领域：1. 语言学研究：语料库分析为语言学提供了大量真实的语言数据，可以揭示不同语言现象的规律和特点，如词汇使用频率、句法结构、语义关系等。

专业的语料库与语言数据分析

专业的语料库与语言数据分析语料库和语言数据分析是现代语言学和计算机科学领域中的重要研究方向。

语料库是指收集和组织大规模语言数据的存储库，通过语料库可以获取真实的语言使用情况，从而进行精确的语言分析和研究。

本文将介绍专业的语料库与语言数据分析的基本概念、应用领域以及研究方法。

一、语料库的概念与分类语料库是语言研究中的重要资源，它可以包含不同形式的语言数据，如书面文本、口语对话、网页内容等。

根据收集和组织方式的不同，语料库可以分为自建语料库和现成语料库两种。

自建语料库是研究人员通过特定的采集方法和技术自行构建的语料库，收集对象可以是特定领域的文本或特定人群的口语对话。

现成语料库则是基于已有的语言数据进行整理和分类构建的语料库，常用的现成语料库包括英语语料库、汉语语料库等。

二、语言数据分析的应用领域语言数据分析可以在多个领域中得到应用。

首先，在语言学领域中，语料库可以提供真实的语言使用数据，用于研究语言的规律、变体和演化等问题。

其次，在教育学领域中，语料库可以用于语言教学和学习资源的开发，帮助学习者更好地理解和掌握语言知识。

此外，在社会学和心理学领域中，语言数据分析可以用于分析社会和个体的语言使用习惯、偏好和行为等。

三、专业的语料库与语言数据分析方法专业的语料库与语言数据分析需要借助计算机科学的方法和工具进行处理和分析。

常用的语料库与语言数据分析方法包括语言统计分析、语义分析和文本挖掘等。

语言统计分析是使用统计学方法对语料库中的语言数据进行分析。

通过计算词频、词组搭配、句法结构等指标，研究人员可以了解语言的词汇使用规律、语法结构和语义关系等。

语义分析是研究语言中词义和句义的方法。

通过对语料库中的词语和句子进行语义分析，可以揭示词汇的语义关系、词义变化和句法结构等问题。

文本挖掘是从大规模文本数据中挖掘出有价值的信息和知识的方法。

通过对语料库进行文本挖掘，可以发现隐藏的规律、模式和趋势等，从而为科研、商业决策和社会分析等提供有力支持。

语料库常用统计方法

3.5语料库常用统计方法第3章前几节对语料库应用中的几种主要技术做了介绍。

通过语料检索、词表和主题词表的生成，可以得到一定数量的句子、词汇或结构。

为能更好说明所得到的结果的真正意义，常常需要对它们加以统计学分析。

本章主要介绍语料分析中的一些常用统计方法。

3.5.1 语料库与统计方法介绍相关统计方法之前，首先需要了解为什么语料库应用中需要运用统计方法。

在2.1节讲到文本采集时，我们知道文本或会话构成了最终的语料库样本。

这些样本是通过一定的抽样方法获得的。

研究中，我们需要描述这些样本的出现和分布情况。

此外，我们还经常需要观察不同语言项目之间在一定语境中共同出现（简称共现）的概率；以及观察某个（些）语言项目在不同文本之间出现多少的差异性。

这些需要借助统计学知识来加以描写和分析。

理论上说，几乎所有统计方法都可以用于语料库分析。

本章只择其中一些常用方法做一介绍。

我们更注重相关统计方法的实际应用，不过多探讨其统计学原理。

这一章我们主要介绍语料分析中的频数标准化（normalization ）、频数差异检验和搭配强度的计算方法。

3.5.2 频数标准化基本原理通常语料检索、词表生成结果中都会报告频数（frequency, freq 或raw frequency ）。

那么某词（如many ）在某语料库中出现频数为100次说明什么呢？这个词在另一个语料库中出现频数为105次，是否可以说many 在第二个语料库中更常用呢？显然，不能因为105大于100，就认定many 在第二个语料库中更常用。

这里大家很容易想到，两个语料库的大小未必相同。

按照通常的思维，我们可以算出many 在两个语料库中的出现百分比，这样就可比了。

这种情况下，我们是将many 在两个语料库中的出现频数归到一个共同基数100之上，即每100词中出现多少个many 。

这里通过百分比得到的频率即是一种标准化频率。

有些文献中标准化频率也称归一频率或标称频率，即基于一个统一基准得出的频率。

用正字的方法统计

用正字的方法统计
要使用正字统计的方法，首先需要明确正字的定义。

正字多指规范的、正确的汉字，也可以理解为排除错误、非法和不规范的字词。

下面是一种可能的正字统计方法：
1. 确定语料库：选择一篇文本作为语料库，该文本应该代表要统计的文本类型。

可以选择新闻、科技、文学或其他感兴趣的领域。

2. 预处理文本：将文本从原始格式转换为纯文本形式，去除非汉字字符（如标点符号、数字等），保留汉字字符。

3. 分割文字：将文本分割成单个字的序列，可以使用分词工具（如jieba分词）进行分割。

4. 统计正字频次：遍历处理后的文本，统计每个字的频次。

可以使用字典（Dictionary）或哈希表（HashMap）来保存字及其频次。

5. 过滤非正字：根据正字的定义，排除非正字的字词（如生僻字、繁体字等）。

可以提前准备一个正字列表，或者使用机器学习方法进行判断。

6. 统计结果呈现：根据需要，可以将统计结果呈现为字频统计表、词频统计表、词云图等形式，以便进行进一步分析和可视化。

需要注意的是，正字统计只是对现有文本的分析，可能会受到文本样本的限制。

如果需要进行更加全面和准确的正字分析，可以考虑使用更大规模的语料库和专门的正字识别工具。

语料库语言学简介

语料库语言学简介语料库语言学是指利用语料库（一种大规模的文本数据集合）进行语言学研究的方法和理论。

通过构建、标注和分析语料库，可以揭示语言在不同层面上的特征和规律，为自然语言处理、机器翻译等领域提供基础和支持。

语料库语言学的研究内容包括：语言的音系、形态、句法以及语义等方面；语言的变异、演化和变化；语言使用者的使用习惯、语言背景和社会属性等。

语料库语言学的主要方法包括：语料库的构建和管理、语料库的标注和注释、语料库的查询和分析、语料库的应用和评估等。

语料库语言学的应用领域包括：机器翻译、信息检索、语音识别、文本分类、自然语言生成等。

此外，语料库语言学还被广泛应用于各种语言教学、语言规划和语言政策制定等领域。

总的来说，语料库语言学已经成为现代语言学和自然语言处理领域不可或缺的一部分，对于研究和应用语言都有着重要的意义。

一、语料库语言学的意义（一）定义和概述语料库语言学是指利用计算机对大规模语料库进行统计学分析、计算和比较，从而研究语言规律和现象的语言学方法。

语料库是指收集、整理、储存在计算机中的自然语言文本，包括书面文本和口语文本。

语料库语言学旨在通过对语言数据的分析，揭示语言的内在规律和现象，为语言学、语言教学、翻译等领域提供科学依据。

（二）语料库语言学的历史语料库语言学起源于20世纪50年代的美国，当时ChomSky等人提出了生成文法理论，但是这个理论无法解释自然语言的很多现象。

50年代后期，美国普林斯顿大学的SinClair教授提出了使用实际语言数据进行语言研究的观点，并开始编制语料库，由此开启了语料库语言学的先河。

之后，随着计算机技术的发展，语料库语言学得以快速发展，成为现代语言学研究和应用的重要领域。

二、语料库语言学的重要性（一）提供真实语言数据语料库收集大量的自然语言文本，包括书面语和口语，具有代表性和真实性。

这些数据包含了语言使用中的各种现象和规律，是研究语言的最基本素材。

（二）揭示语言规律和现象语料库语言学可以对语言数据进行分析、计算和比较，从而揭示语言的内在规律和现象。

语料库2——精选推荐

语料库2由于语料库⽂体学特别注重⽂学语篇语⾔特征的分析, 到⽬前为⽌,基于语料库的⽂学语篇语⾔⽂体特征的分析主要集中在以下⼏个⽅⾯:1.利⽤语料库的词汇统计原理识别某个语篇的作者 2.主题词(Key Words)分析:对语篇的关键词进⾏统计,得出关于该语篇的主题相关性;3.两种语⾔风格对⽐:以平⾏语料库的⽅法对不同作家或同⼀作家不同时期⽂学语篇、不同作家的同类语篇或⽂体特征进⾏⽐较研究;4.⽂学⼿段如象征⼿法等的运⽤;5.利⽤词汇频率(包括使⽤频率、覆盖率和分布率)的统计对⽂学⽂本进⾏体裁特征及体裁差异分析;6.词语搭配(修辞搭配、异常搭配等)的⽂体意义分析。

语料库⽂体学:⽂学⽂体学研究的新途径对⽂学作品主题、⼈物形象的塑造、叙事的发展以及作家风格等进⾏研究。

纵观⽂学⽂体的语料库研究,根据研究⾓度的不同,⼤致可分为以下三个主要研究领域:1)以个体语⾔特征的⽂体研究为⽬的的语料库标注和分析;2)对作品主题的语⾔表现⽅式的研究;3)作家风格研究搭配研究可以⽤于语⾔创造性使⽤、⽂体变异、作家风格等研究⽬的《警察与赞美诗》的语料库检索分析⽤语料库⽅法分析美国⼩说家欧·亨利的⼩说《警察与赞美诗》,能揭⽰⼩说的情节、⼈物的塑造及作者的写作技巧。

最近⼏年来语料库语⾔学正以其独特的优势得以迅猛发展,语料库（Corpus）被⼴泛应⽤于与语⾔相关的各个领域。

语料库检索软件(Concordancer)在语⾔学领域,尤其是在⽂本分析中已被⼴泛使⽤。

语料库检索结果就是在语料库中抽取⼀个⽂本的⼀个检索词班代及其出现的语境按字母顺序罗列出来,语料库检索软件是提供这些词的罗列结果的系统。

它使⽤既简单⼜省时,因为它可以快速有效地显⽰出检索词的搭配词频。

作为⼀种建⽴在庞⼤的数据基础上的极有威⼒的假设检验设置,语料库索引可以使⽂本隐含的结构显现出来,同时⼜激发⼈的想像⼒,并能检验⽂本对读者的感染⼒,具有很强的客观检验性。

语⾔学并不是语料库检索软件应⽤的惟⼀领域,它也可以⽤于⽂学批评领域来分析⽂学⽂本。

语料库常用统计方法

6
3IM 。法算的值�3IM�3 息信互的到看面下是即这。了低降大大值息信互的终最�后数对取过经�理处方立了做数频现共的词点节同词频低将者学有�重权的中法算息信互典经在词频低低降了为。配搭强作视�等 egap-552 词字数的次一现出和 nonnac 的次 2 现出如�词频低将易容息信互即�足不显明个一在存法算值息信互�出看以可果结的中 4.5.3 图从�而然。词配搭强作视词配搭的 3 于大值息信互即�值界临为作 3 值息信互以中作操际实在出提�17�2002�notsnuH。现共内境语定一在于向倾不词两即�象现的斥排相互现出间之词两明表则�负为值息信互如。值负或值正为能可值息信互。高越度强配搭的间之词个两明说 �大越值息信互。系关引吸相互的间之词配搭和词点节是的现体值息信互果结配搭的序排低高值息信互按 4.5.3 图
7
值Z 。际实用使言语的 tub 合符更乎似词配搭的得所法算息信互典经比词配搭强为定认被项词些这。面前到提被词的高常非数频现共 tub 词点节与也时同�高很数频体总的中库料语在身本些这。 � ��号符点标及以�a、fo、eht 词频高�到看以可中 5.5.3 图从果结配搭的序排低高值 3 息信互按 5.5.3 图
5
�3IM 和 noitam rofni lautum�IM�息信互。行引索的 eht 词配搭频高最和 tub 含是的示显口窗方下面界�的列排序降数频的�setacolloc�词配搭即�)c(f 列 3 第以是的示显果结的中 3.5.3 图。 �果结的列排序降得获可则�次一击点再�列排序升为果结列所次一第击点果如�可即行题标的列 3IM 或�IM 击点需只�时词配搭的序排值息信互按到得要需们我果如。比然似数对和值 gol-goL、值 T、值 Z、3IM、IM 到得时同次一以可后行运具工 rotacolloC USFB 出看以可 3.5.3 图从果结配搭的序排低高数频词配搭按 3.5.3 图

语料库中ttr的计算方法

语料库中ttr的计算方法全文共四篇示例，供读者参考第一篇示例：在语言学研究中，TTR指的是类型-令牌比。

TTR是一种用来衡量一段文本中词汇多样性的指标。

通过计算TTR可以了解文本中词汇的丰富程度，从而推断文字的难易程度、作者的风格和读者对文字的理解难度等。

TTR的计算方法一般分为两种：词频法和抽样法。

下面将分别介绍这两种计算方法。

一、词频法词频法是一种简便快速的计算TTR的方法。

该方法主要通过统计文本中出现的不同词汇（类型）的数量以及总的词汇个数（令牌）来计算TTR。

具体计算步骤如下：1. 统计文本中不同词汇的个数，即类型的数量。

2. 统计文本总的词汇个数，即令牌的数量。

3. 通过类型的数量除以令牌的数量得到TTR值。

如果一段文本中有100个不同的单词，总共出现了1000个单词，则TTR为0.1（即100/1000）。

词频法计算简单直观，但有时会被文本长度的影响，比如较长的文本可能TTR值较低。

二、抽样法抽样法是一种更加精确的计算TTR的方法。

该方法通过随机抽取一定数量的词汇来计算TTR，以减小文本长度对TTR值的影响。

抽样法可以有效减小文本长度的影响，得到更加准确的TTR值。

但是抽样的数量和方式也会影响最终结果的准确性。

TTR的计算方法有词频法和抽样法两种，可以根据实际情况选择合适的方法来计算TTR值。

TTR在语言研究中有着重要的作用，可以帮助研究者了解文本的词汇多样性以及其他相关信息。

希望以上内容对大家有所帮助。

第二篇示例：语料库中的TTR（Type-Token Ratio）是指不同词语类型数与总词数之比，用来衡量语料库的词汇多样性和丰富度。

TTR的计算方法是非常简单的，但对于研究语言特征和分析语言学趋势具有重要意义。

要计算一个语料库的TTR，首先需要对语料库进行分词处理，将文本分割为单词序列。

然后，统计语料库中不同词语的出现次数，得到词频表。

接着，计算不同词语的数量（即类型数）和总词数（即标记数），用来代表语料库的词汇丰富度和变化程度。

sci重复率计算方法

sci重复率计算方法重复率是指在一个文本中出现的相同词语或短语的频率。

在科学研究、学术论文撰写和文本相似度分析中，重复率是一个重要的指标，用于评估文本的原创性和独特性。

本文将介绍一些常用的重复率计算方法。

1.词频统计法：这是最常见的重复率计算方法。

首先，将待计算的文本拆分成单词或短语；然后，根据出现的次数统计每个词语或短语的频率；最后，以重复词语的频率或百分比作为重复率。

这种方法简单易行，但不考虑词语的位置信息，可能会导致计算结果不准确。

2. N-gram模型：N-gram模型是一种语言模型，用于计算文本中相邻N个词语的频率。

在计算重复率时，将文本分割成N个词语的序列，然后统计每个序列的出现次数。

根据重复序列的频率或百分比，即可得到重复率。

N-gram模型考虑了相邻词语的关系，因此计算结果更准确。

3.基于TF-IDF的方法：TF-IDF是一种衡量文本重要性的方法，其中TF表示词频，IDF表示逆文档频率。

计算重复率时，首先计算待计算文本和参考文本之间的TF-IDF值；然后，根据相同的词语或短语的TF-IDF值的平均值或总和，计算重复率。

该方法不仅考虑了词语的频率，还考虑了词语在整个语料库中的重要性。

1.余弦相似度：余弦相似度是一种常用的文本相似度计算方法。

计算重复率时，将待计算文本和参考文本转化为词向量表示；然后，根据两个向量的余弦相似度计算重复率。

余弦相似度的取值范围为[-1,1]，值为1时表示完全相同，值为-1时表示完全不同。

2. Jaccard相似度：Jaccard相似度是一种用于计算集合相似度的方法，也可用于计算文本重复率。

计算重复率时，将待计算文本和参考文本分别转化为词语的集合；然后，计算两个集合的交集和并集的比值，即可得到Jaccard相似度。

Jaccard相似度的取值范围为[0, 1]，值为1时表示完全相同，值为0时表示完全不同。

以上介绍了几种常用的重复率计算方法，每种方法都有其优缺点。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

3.5语料库常用统计方法第3章前几节对语料库应用中的几种主要技术做了介绍。

通过语料检索、词表和主题词表的生成，可以得到一定数量的句子、词汇或结构。

为能更好说明所得到的结果的真正意义，常常需要对它们加以统计学分析。

本章主要介绍语料分析中的一些常用统计方法。

3.5.1 语料库与统计方法介绍相关统计方法之前，首先需要了解为什么语料库应用中需要运用统计方法。

在2.1节讲到文本采集时，我们知道文本或会话构成了最终的语料库样本。

这些样本是通过一定的抽样方法获得的。

研究中，我们需要描述这些样本的出现和分布情况。

这些需要借助统计学知识来加以描写和分析。

理论上说，几乎所有统计方法都可以用于语料库分析。

本章只择其中一些常用方法做一介绍。

我们更注重相关统计方法的实际应用，不过多探讨其统计学原理。

这一章我们主要介绍语料分析中的频数标准化（normalization ）、频数差异检验和搭配强度的计算方法。

3.5.2 频数标准化基本原理通常语料检索、词表生成结果中都会报告频数（frequency, freq 或raw frequency ）。

这里大家很容易想到，两个语料库的大小未必相同。

按照通常的思维，我们可以算出many 在两个语料库中的出现百分比，这样就可比了。

这种情况下，我们是将many 在两个语料库中的出现频数归到一个共同基数100之上，即每100词中出现多少个many 。

这里通过百分比得到的频率即是一种标准化频率。

有些文献中标准化频率也称归一频率或标称频率，即基于一个统一基准得出的频率。

实例及操作频数标准化，首先需要用某个（些）检索项的实际观察频数（原始频数，raw frequency ）除以总体频数（通常为文本或语料库的总词数），这样得到每一个单词里会出现该检索项多少次。

在频数标准化操作中，我们通常会在此基础上乘以1千（1万、1百万）得到平均每千（万、百万）词的出现频率。

即：1000⨯=总体频数观测频数标准化频率（每千词）（注：观测频数即检索词项实际出现的次数；总体频数即语料库的大小或总形符数。

）例如，more 在中国学生的作文里出现251次，在英语母语者语料中出现475次。

两个语料库的大小分别为37,655词次和174,676词次。

我们可以根据上面的公式很容易计算出251和475对应的标准化频率。

另外，我们还可以利用Excel 或SPSS 等工具来计算标准化频率。

比如，可以将实际观察频数和语料库大小如图3.5.1输入相应的单元格，然后在C1单元格里输入=(A1/B1)*1000即可得到中国学生每千词使用more约为6.67次。

要得到母语者more使用的每千词频率，只需点击C1单元格，将光标移至单元格右下角直至光标变为黑+时，按住鼠标左键，顺势下拉至C2格即可得到母语者每千词使用more的次数约为2.72次。

如有更多频数数据需要标准化处理，可依同样方法求得。

图3.5.1 频数标准化3.5.3 频数差异检验上节，我们通过将频数归到一个共同的基数，从而可以对不同频数加以比较。

然而，在统计学中，常常需要对参与比较的数据之间的差异是否具有显著性加以综合检验。

在语料库数据分析中，最常用的是卡方检验（chi-square或χ2）和对数似然比（log-likelihood ratio，常简写为LL）。

两种检验方法的作用和实际操作类似，以下我们重点讲解卡方检验。

这两种检验方法也可以用作搭配强度计算。

基本原理与频数标准化不同，卡方检验除了考虑到某个检索项在两个不同语料库中的出现频数和语料库大小外，还考虑到检索项在语料库不出现的情况。

例如，在1000词的文本中the出现50次，那么它不出现的情况就是余下的950次。

类似的频数数据，我们用到的是2×2连列表（contingency table）方法的卡方检验。

在统计学上，综合该检索项在两个语料库中出现和不出现的情况，统计学家提出了该检索项理论上的预期频数，其算法是：表3.5.1 2×2连列表某检索项出现频数所有词出现频数合计语料库A 语料库B acbda +bc + d合计 a +c b + d a +b + c + d其中：a = 检索项X在语料库A中的实际频数b = 检索项X在语料库A中的不出现的频数c = 检索项X在语料库B中的实际频数d = 检索项X在语料库B中的不出现的频数N = a + b +c + d = 各项频数总和，即两个语料库累计大小dc b a *+++=列频数之和行频数之和预期频数而卡方检验的基本公式为：预期频数预期频数）（观测频数22-=∑χ 卡方检验的具体计算公式为：E E O 22）（-=∑χ = d) (c *d) (b *c)(a *b) (a *bc ad 2++++-N ）（实例及操作研究问题：有两个语料库，一个为口语语料库，总词数为1,714,443，另一个为书面语语料库，总词数2,593,452。

其中填充停顿（filled pause ）词er 分别出现9,589次和9,307次。

那么9,589和9,307是否存在显著性差异呢？这里可以采用卡方检验的方法（参见图3.5.2）。

在配套光盘中，找到名为X2的Excel 文件。

在打开的工作表中，按界面提示，分别输入Corpus 1的总字数1,714,443和Corpus 2的总字数2,593,452。

然后，在主体数据表框中Freq in Corpus 1和Freq in Corpus 2分别输入er 分别的次数9,589和9,307。

这时，Chi-square 列会自动出现相应的卡方值，这里是949.5474。

卡方值（自由度为1时）如果大于临界值3.83, 6.64和10.83，则表明该值在显著性水平0.05, 0.01和0.001的情况下是有意义的，即参与比较的两个数值（9,589和9,307）具有显著性差异。

为便于辨识和解读卡方值，我们将所得的卡方值对应的显著性水平的p 值也同时提供，并按所处的置信区间标定星号（*），在0.05, 0.01和0.001显著性水平下分别标为*、**和***。

表格最后一列的“+”表明er 在Corpus 1中使用频数要多于其在Corpus 2中的频数，即我们常说的频数过多使用（overuse ）；反之，“-”号为使用不足（underuse ）。

回到我们的问题，er 一词在两个语料库中的使用频数具有显著性差异，且er 明显在第一个口语语料库较多使用，可理解为属于口语特征词。

为方便批量实施卡方检验，判别词项在两个语料库中出现频数的差异。

该卡方检验计算器支持一次完成多个卡方检验运算。

操作方法是，先输入Corpus 1的总字数和Corpus 2的总字数，然后将某组词项在Corpus 1和Corpus 2中的出现频数分别拷贝到Freq in Corpus 1和Freq in Corpus 2列中，即可得到所有词项跨语料库差异的卡方值和显著性水平。

图3.5.2 卡方检验计算器界面配套光盘中同时附有对数似然比计算工具（Log-likelihood Ratio Calculator），文件名为LL.xls。

也是检验词项跨语料库差异显著性的常用方法。

其操作步骤与卡方检验计算器相同，数据的解读方法也一样。

在此不赘述。

3.5.4 搭配强度计算基本原理搭配分析的计算方法在实际应用中主要有两种处理方法：以Mike Scott的WordSmith 为代表的经典搭配计算法，以及以Stefan Evert提出的BNCweb的搭配计算方法。

两种方法的主要不同在于是否将跨距作为搭配的核心考查要素（WordSmith计算Z值时用到跨距，BNCweb的算法中多数都用到跨距）。

计算搭配强度的主要算法包括：互信息（MI，mutual information和MI3）、Z值（Z score）、T值（T score）、Log-Log值、卡方值（χ2）、对数似然比（Log-likelihood）、Dice系数等。

这些方法各有优劣。

需要略加说明的是，卡方和对数似然比既可用作检验单个词项跨语料库频数差异的显著性。

也可作为检验两个词在同一个语料库中，一定跨距内的共现强度。

以下对不同搭配强度计算方法的适用性做一简介（这里以BFSU Collocator工具为例）。

更多相关介绍可参阅本章结尾处提供的相关参考文献和网络上有关collocation的讨论。

以下是利用BFSU Collocator工具提取的but一词的搭配情况。

在下面的示例中，我们选用的是光盘中NS_written\raw文件夹下的TEXT001.txt。

【Settings】中【Set Data Type】选的是【Raw】。

点击【Collocate】选项卡后，跨距设为左5右5。

点击【Run】即可得结果。

图3.5.3显示的结果是以搭配词的实际出现频数排序的。

双击搭配结果的每一行，界面窗口下方即会显示含节点词和搭配词的索引行。

本节所举实例使用的检索词（节点词）为but。

搭配强度值小于0的情况，在BFSU Collocator工具里都归为零。

图3.5.3 按搭配词频数高低排序的搭配结果从图3.5.3可以看出BFSU Collocator工具运行后可以一次同时得到MI、MI3、Z值、T 值、Log-log值和对数似然比。

如果我们需要得到按互信息值排序的搭配词时，只需点击MI（或MI3列的标题行即可，如果点击第一次所列结果为升序排列，再点击一次，则可获得降序排列的结果）。

图3.5.3中的结果显示的是以第3列f(c)，即搭配词（collocates）的频数降序排列的，界面下方窗口显示的是含but和最高频搭配词the的索引行。

互信息（MI，mutual information和MI3）图3.5.4 按互信息值高低排序的搭配结果互信息值体现的是节点词和搭配词之间的互相吸引关系。

互信息值越大，说明两个词之间的搭配强度越高。

互信息值可能为正值或负值。

如互信息值为负，则表明两词之间出现互相排斥的现象，即两词不倾向于在一定语境内共现。

Hunston（2002：71）提出在实际操作中以互信息值3作为临界值，即互信息值大于3的搭配词视作强搭配词。

然而，从图3.5.4中的结果可以看出，互信息值算法存在一个明显不足，即互信息容易将低频词（如出现2次的cannon和出现一次的数字词255-page等）视作强搭配。