共词分析法研究_三_共词聚类分析法的原理与特点

合集下载

colexification的含义共词

colexification的含义共词摘要：1.共词概念介绍2.共词方法论分析3.共词应用领域及案例4.共词面临的挑战与未来发展正文：一、共词概念介绍共词（Co-occurrence），又称为共现，是指两个或多个词语在同一文本中同时出现的现象。

在语言学、信息检索和文本挖掘等领域，共词分析作为一种重要的研究方法，旨在揭示词语之间的关联性和语义关系。

二、共词方法论分析1.共词矩阵：将文本中的词语两两组合，统计它们在同一句子中出现的次数，构建一个对称的共词矩阵。

共词矩阵的元素表示两个词语在文本中的共现次数，矩阵的行和列分别对应文本中的所有词语。

2.聚类分析：对共词矩阵进行聚类分析，可以发现词语之间的相似性，从而挖掘出文本的主题和结构。

3.网络分析：将共词矩阵转换为有向图，可以研究词语之间的因果关系、影响力度等。

4.词频统计：分析文本中的词语出现频率，可得出关键词、热点话题等。

三、共词应用领域及案例1.文献综述：在学术研究中，共词分析可以帮助研究者了解某一领域的研究热点、研究现状和发展趋势。

2.文本分类：共词分析可用于自动分类文本，如新闻分类、文档分类等。

3.情感分析：分析文本中的情感词汇共现关系，判断文本的情感倾向，如正面、负面或中性。

4.语言学习：共词分析可以帮助学习者掌握词汇之间的关联性，提高语言学习效果。

四、共词面临的挑战与未来发展1.数据规模：随着互联网的发展，文本数据呈现出爆炸式增长，如何处理大规模文本数据成为共词分析的一个挑战。

2.词语歧义：在自然语言处理中，词语存在多种含义，共词分析需要解决词语歧义问题。

3.语义关系挖掘：共词分析目前主要关注词语的统计关系，未来研究可深入挖掘词语间的语义关系。

4.智能化应用：结合人工智能技术，共词分析有望在更多领域发挥智能化作用。

总之，共词作为一种重要的文本分析方法，在多个领域具有广泛的应用价值。

共词分析方法理论进展

共词分析方法理论进展一、本文概述共词分析方法，作为一种文本挖掘和信息分析的重要工具，近年来在多个学科领域中都得到了广泛的应用。

该方法通过统计和分析在特定领域或主题中共同出现的词汇对（即共词），揭示出这些词汇之间的关联性和内在结构，从而帮助研究者深入理解该领域或主题的知识结构和发展趋势。

本文旨在全面梳理和评述共词分析方法的理论进展，包括其基本概念、发展历程、主要方法和技术，以及在不同领域中的应用实践。

通过对现有文献的综述和分析，本文旨在为研究者提供一套系统的共词分析理论框架和实践指南，以促进该方法在更多领域中的有效应用和发展。

二、共词分析的基本原理共词分析是一种基于文献计量学的文本分析方法，其核心原理在于通过统计和分析一组词汇在同一文本或文献集中共同出现的频次，来揭示这些词汇之间的关联性和内在结构。

这种方法主要基于两个基本假设：一是共同出现的词汇之间存在某种潜在的关联或相似性；二是这种关联性或相似性可以通过统计数据进行量化和描述。

数据收集与预处理：需要收集包含目标词汇的文本或文献集，并进行必要的预处理，如去除停用词、词干提取、文本清洗等，以消除噪音数据，提高分析的准确性。

共词矩阵构建：接下来，通过统计目标词汇在文本或文献集中共同出现的频次，构建一个共词矩阵。

这个矩阵的每一个元素代表两个词汇共同出现的频次，反映了它们之间的关联强度。

关联强度分析：通过对共词矩阵的分析，可以揭示词汇之间的关联强度和关联模式。

常用的分析方法包括词频分析、中心性分析、聚类分析等，这些方法可以帮助我们深入了解词汇之间的关系和结构。

可视化展示：为了更好地理解和展示共词分析的结果，通常需要借助可视化工具进行展示。

例如，可以通过绘制共词网络图、词云图等方式，直观地展示词汇之间的关联性和结构关系。

结果解释与应用：根据共词分析的结果，可以对词汇之间的关联性进行解释和解读，进而挖掘出隐藏在文本或文献集中的潜在信息和知识。

同时，这些结果也可以应用于各种实际场景中，如主题识别、趋势预测、知识图谱构建等。

共词分析法的基本原理及实现

共词分析法的基本原理及实现共词分析法是一种通过分析一组关键词之间共同出现的频率来揭示它们之间关联强度的方法。

这种分析方法在各个领域都有广泛的应用，如文献计量学、信息科学、社会科学等。

本文将详细介绍共词分析法的基本原理和实现过程，并举例说明其在文章撰写中的应用。

共词分析法的基本原理共词分析法的基本原理是建立在词汇共现理论基础上的。

词汇共现是指一组词汇在文本中出现位置相邻或相近的情况。

通过统计一组关键词在文本中共同出现的频次，可以衡量它们之间的关联程度。

共词分析法利用这一点，将文本中出现的词汇视为一个有向图中的节点，而词汇之间的共现关系则视为有向图中的边，从而构建出一个词汇共现网络。

在具体实现过程中，共词分析法需要解决三个关键问题：词典编写、扫描策略和挖掘算法。

词典编写词典编写是共词分析法的第一步。

它通过选择一组具有一定代表性的关键词作为初始节点，然后在文本中搜索这些关键词的同义词、近义词以及相关词汇，将其添加到词典中。

在这个过程中，需要考虑词汇的规范化和停用词的去除等问题。

扫描策略扫描策略是共词分析法的核心环节之一。

它通过扫描文本中的每个句子，统计每个句子中出现的词汇，并记录它们之间共同出现的次数。

一般来说，扫描策略可以分为两种：全局扫描和局部扫描。

全局扫描统计整个文本中词汇的共现次数，而局部扫描则只统计特定领域或主题范围内的词汇共现次数。

挖掘算法挖掘算法是共词分析法的另一个核心环节。

它通过一定的统计方法和算法，从词汇共现网络中挖掘出有用的关联规则和知识结构。

常用的挖掘算法包括聚类算法、关联规则算法、复杂网络分析算法等。

共词分析法的实现共词分析法的具体实现步骤包括数据准备、特征提取和模型构建三个阶段。

数据准备数据准备是共词分析法的第一步。

它包括数据收集、清洗和预处理等环节。

在数据收集环节，需要从多个来源收集相关领域的文本数据。

在清洗环节，需要去除数据中的噪声和无用信息，如停用词、标点符号、数字等。

引文分析法共词分析法浅析

共词分析法的过程
1 2 3 4 5 确定分析的问题确定分析单元高频词的选定共词分析中统计方法对共词结果的分析
一、确定分析的问题
利用共词分析法基本原理可以概述研究领域的研究热点,横向和纵向分析领域、学科的发展过程、特点以及领域或学科之间的关系等等。不同的问题有不同的分析过程，采用不同的数学计量方法。
常见的引文网络测度指标可以分为四类: ①引文数量特征测度指标:引文数; ②引文分布特征测度指标:平均引用数、自引数与自引率、被引次数与引用数的比值; ③期刊(论文)影响力测度指标:被引用数、同引和耦合、期刊影响因子即年指标引率
关于自引和自引率的研究是引文分析的内容之一。目前在国外研究最多的是关于期刊的自引和自引率。一般认为，期刊高自引有助于提升其影响因子；也有研究人员研究去除期刊自引数对影响因子的影响，认为未去除影响因子的数据可以采用；还有研究显示期刊自引与自引率与影响因子的负相关性。
引文分析和统计中的误差
引文分析以其独特的科学评价功能而备受推崇，然而随着应用的深化，越来越多的人开始对引文分析的有效性与可靠性提出质疑。因为无论是引文分析的对象，还是引文分析的方法本身，都存在一些虚假和错误的成份。虽然不是很热门，但针对引文分析和统计误差的研究一直伴随着SCI 的成长历程。尽管专论相对而言不是很多，但在不少采用引文数据进行研究工作的文献中多少都存在对引文分析中缺陷和错误的分析和研究，很多文献也以善意的提醒或者警示来告知读者要谨慎地使用引文数据。目前，国内对于引文虚假和误差讨论最多的当属伪引和漏引。
注：两个必要条件： (1)对于相似性测度，变量A和变量B 的相关系数s(A，B)在加入0-模块后不能减小；(2)未加入0-模块前，如果s(A， >s(C，D)，那么加入0-模块后，这种关系也仍要保持。

共词分析法——精选推荐

共词分析法共词分析法属于内容分析法的一种，其原理主要是对一组词两两统计它们在同一篇文献中出现的次数，对这些词进行聚类分析，从而反映出这些词之间的亲疏关系，进而分析这些词所代表的学科和主题的结构变化的方法。

共词分析法演进：（1）基于包容指数和邻近指数的共词分析法包容指数和邻近指数主要用于测量款目之间关系的强度。

包容指数主要用来计算主题领域的层次，计算公式如下：Lij=Cij/min(Ci,Cj)其中,Cij代表关键词对Mi和Mj在文献集合中的数量；Ci代表关键词Mi在文献集合中的出现频次；Cj代表关键词Mj在文献集合中的出现频次；min（Ci,Cj）代表Ci和Cj两个频次的最小值。

这个公式可以用来计算那些出现频次相对高的关键词。

当存在着一些中间关键词，而且这些关键词的相对出现频次比较低，但是仍然在这些非重要的关键词之间存在着一定的关系，于是用邻近指数来计算潜在的领域，计算公式如下：Pij=（Cij/CiCj）*N其中Cij、Ci和Cj意思同上，N代表集合中文献的数量。

Callon等提出等价系数（Equivalence Coefficient，简化为E），用来计算关键词之间的关联值。

Eij=（Cij/Ci）*（Cij/Cj）=（Cij）2/(Ci*Cj)其中Eij值在0~1之间。

由于Eij可以同时计算关键词i和j出现在对方集合的频次，因此Turner和他的同事称这个参数为相互包含的系数。

以上面3个指数为基础，把主题词或关键词聚类成组，并以网络地图的方式表现出来。

通过比较不同时期的网络地图，就可以表现出科学的结构和动态变化。

（2）基于战略坐标的共词分析法战略坐标是在建立主题词的共词矩阵和聚类的基础上，用可视化的形式来表示产生的结果。

用“战略坐标”来描述某一研究领域内部联系情况和领域间相互影响情况。

在战略坐标中，x轴为向心度，表示领域间相互影响的强度；y轴为密度，表示某一领域内部联系强度。

其中，向心度用来测量一个学科领域和其他学科领域的相互影响程度。

今天看到的三种量化研究方法

今天看到的三种量化研究方法，主要应用于文献研究：1.文献计量法文献计量法是借助文献各种特征的数量，采用数学与统计学方法来描述、评价和预测科学技术的现状与发展趋势的定量分析方法。

这一术语最早是1969年由英国人Ａ·普里查德提出的。

文献计量法的使用需要文献引文数据库的支持。

中国引文数据库来源于中国学术期刊(光盘版)电子杂志社出版的源数据库产品中的文献和参考文献，如：中国期刊全文数据库、中国优秀博硕士学位论文全文数据库、中国重要会议论文全文数据库、中国重要报纸全文数据库、中国图书全文数据库、中国年鉴全文数据库等。

2.内容分析法伯纳德·贝雷尔森（Bernard Nerelson）在1952年发表的“传播学研究的内容分析”给出了内容分析法的定义：“内容分析是一种客观、系统、能对明确的传播内容进行定量描述的研究方法。

”内容分析过程包括以下六个相互联系的步骤：•定义研究问题；•选择具体的媒介和案例；•定义分析的类型；•制定编码表；•进行预试，检验编码表的可靠性；•数据的准备和分析。

3.共词分析方法共词分析方法属于内容分析方法的一种。

其原理主要是对一组词两两统计它们在同一篇文献中出现的次数，对这些词进行聚类分析，进而分析这些词所代表的学科和主题的结构变化。

共词分析方法的主要内容集中在聚类和数据可视化方法上。

聚类方法除统计方法中的多维标度(Mulitdimensional scaling ) 、聚类分析法( Clusteranalysis) 外，还有M· Callon 等提出的基于共词矩阵的包容性指标( inclusion index ) 、临近性指标(proximity index ) 、等值系数指标( Equivalence Coefficient index) ，并按照指标值从大到小进行人工分类的方法。

可视化方法是将类目之间的关系用图形方式直观、形象地揭示出来的方法。

目前共词分析的主要可视化方法包括包容图( Inclusion Map) 、临近图(Proximity Map) 、战略坐标图(Strategic Diagram)等方法，多维标度(Mulitdimensional scaling) 的结果也可以直观地表示类目之间的关系。

聚类分析法ppt课件全

8/21/2024
25
1.2.2 动态聚类分析法
1.2 聚类分析的种类
（3）分类函数
按照修改原则不同，动态聚类方法有按批修改法、逐个修改法、混合法等。这里主要介绍逐步聚类法中按批修改法。按批修改法分类的原则是，每一步修改都将使对应的分类函数缩小，趋于合理，并且分类函数最终趋于定值，即计算过程是收敛的。
8/21/2024
23
1.2.2 动态聚类分析法
1.2 聚类分析的种类
（2）初始分类有了凝聚点以后接下来就要进行初始分类，同样获得初始分类也有不同的
方法。需要说明的是，初始分类不一定非通过凝聚点确定不可，也可以依据其他原则分类。
以下是其他几种初始分类方法： ①人为分类，凭经验进行初始分类。 ②选择一批凝聚点后，每个样品按与其距离最近的凝聚点归类。 ③选择一批凝聚点后，每个凝聚点自成一类，将样品依次归入与其距离
8/21/2024
14
1.2 聚类分析的种类
（2）系统聚类分析的一般步骤 ①对数据进行变换处理； ②计算各样品之间的距离，并将距离最近的两个样品合并成一类； ③选择并计算类与类之间的距离，并将距离最ቤተ መጻሕፍቲ ባይዱ的两类合并，如果累的个
数大于1，则继续并类，直至所有样品归为一类为止； ④最后绘制系统聚类谱系图，按不同的分类标准，得出不同的分类结果。
8/21/2024
18
1.2 聚类分析的种类
（7）可变法
1 2 D kr
2 （8）离差平方和法
(D k 2 pD k 2 q)D p 2q
D k 2 rn n ir n n p i D i2 pn n ir n n q iD i2 qn rn in iD p 2 q
8/21/2024

近十年文献计量指标关键词研究进展

近十年文献计量指标关键词研究进展摘要：关键词是表达文献主题概念的自然语言词汇，有效利用各种分析方法对关键词进行处理，并在此基础上对关键词进行研究分析，能够揭示某一学科或领域研究成果的总体内容特征，研究内容之间的内在联系和学术研究的发展脉络与发展方向等。

利用中国期刊网、维普数据库、万方数据库及EBSCO等数据库，收集近十年基于文献计量指标关键词研究的论文，对近十年的研究成果进行深入分析，从关键词研究分析方法、关键词的选取和基于关键词分析的意义三个方面进行综述，以期为今后基于文献计量指标关键词的研究提供一定的参考。

关键词：关键词；共词分析法；内容分析法；文献计量分析A Review of Studies on Key Words,One of the BibliometricIndicators, in Recent DecadeAbstract :The key words ,belonging to the vocabulary of natural language express the conception of the literature topics.To research and analyse the key words which has been processed by various analytical methods ,can reveal the characteristics of the overall content of the research in one subject or field ,the inner link of the research and the the course of development as well as the trend of academic research.This article summarizes the research briefs on the key words from the methods of researching and analysing the key words ,the selection of the key words and the signification of the study on the key words, based on the collection of research about the key words in recent decade from the databases such as CNKI,VIP,WANFANG and EBSCO ,hoping for providing some references for the further study.Key words:Key words；co-word analysis；Content Analysis；Bibliometric Analysis关键词是表达文献主题概念的自然语言词汇，一个学术研究领域较大时，域内大量学术研究成果的关键词的集合，可以揭示研究成果的总体内容特征，研究内容之间的内在联系和学术研究的发展脉络与发展方向等。

共词分析法研究_三_共词聚类分析法的原理与特点

基金项目:广东医学科研课题/广东省热点医学科研主题现状研究0(编号:A2006474)。

作者简介:钟伟金,男,1976年生,硕士,馆员,研究方向为文献计量分析。

共词分析法研究(三))))共词聚类分析法的原理与特点The Research of Co -word Analysis (3))))The Principle and C haracteristics of the C o -Word Cluster Analysis钟伟金李佳杨兴菊(广东医学院图书馆湛江 524023)摘要共词聚类分析法采用聚类的计算方法,对文章中共现的词对(主题词或关键词)的关联性进行运算,将关系密切的词聚集归类,从而达到挖掘隐含信息的目的。

通过对聚类原理的分析,认为该方法具有客观性、科学性、敏感性的特点。

并讨论了共词聚类分析法的不足以及其解决办法,最后介绍了共词聚类分析法的最新研究进展。

关键词共词聚类分析法研究进展共词聚类原理中图分类号 G251.5随着期刊数量的增长与学科的细化发展,给情报工作者带来了新的挑战:文献的组织与检索、文献内容的分析评价、文献信息的提取与挖掘。

传统的文献检索方式如分类号、主题词、关键词等,由于缺乏文献内容间的联系、智能化检索程度低,在文献呈爆炸式增长的时代,传统的检索方式已难以在查全率与查准率间取得平衡,说明这种信息的组织检索方式难以满足人们的需求。

由于人类科研活动及其成果主要是以文献方式记录储存的,因此对文献量与文献主题的统计分析可在某种程度上反映出一门科学在一定时期研究的基本趋势、研究的水平和发展速度[1],文献量的大量增长,无疑给情报人员通过对文献集的分析来评价学科的发展现状的难度,也为情报人员通过文献集提取、挖掘有用的信息带来困难。

为解决这一矛盾,需要采用新的方法来处理组织、整理和分析文献集。

新方法应该具有以下三方面的特点:能对文献内容进行识别;能反映文献之间的内容联系;能借助机器进行批量处理。

聚类分析法

聚类分析法聚类分析是一种常用的数据分析方法，主要用于将相似的样本归类到同一类别中。

它是数据挖掘和机器学习领域中非常重要的一项技术，被广泛应用于各个领域，如市场研究、医学诊断、社交网络分析等。

本文将介绍聚类分析的基本概念、方法和应用，并分析其优势和局限性。

聚类分析是一种无监督学习方法，它不依赖于事先标定好的训练数据集。

通过对给定的数据进行聚类，我们可以发现数据中隐藏的模式、结构和规律。

聚类分析的基本思想是通过计算样本之间的相似度或距离，将相似的样本归为一类，从而实现对数据的分类。

在聚类分析中，相似度或距离的度量是一个关键问题，常用的度量方法包括欧氏距离、曼哈顿距离、余弦相似度等。

聚类分析的方法主要有层次聚类和划分聚类两种。

层次聚类是将样本逐步合并或分割成不同的类别，形成层次化的分类结果。

划分聚类是将所有的样本划分为K个不相交的类别，每个类别之间是互不重叠的。

这两种方法各有优劣，选择何种方法取决于具体的问题和数据特点。

聚类分析的应用非常广泛。

在市场研究中，聚类分析可以将消费者按照其购买行为、兴趣偏好等特征划分为不同的群体，为企业提供有针对性的营销策略。

在医学诊断中，聚类分析可以将病人按照其病情特征进行分类，帮助医生进行准确的诊断和治疗。

在社交网络分析中，聚类分析可以将社交网络中的用户划分为不同的社区，研究社交网络的结构和特征。

然而，聚类分析也存在一些局限性和挑战。

首先，聚类算法的结果很大程度上依赖于选择的相似度或距离度量方法，不同的度量方法可能导致不同的聚类结果。

其次，聚类算法对初始的聚类中心的选择非常敏感，不同的初始选择可能会得到不同的聚类结果。

此外，聚类算法还面临维度灾难的问题，当数据的维度很大时，聚类算法的计算复杂度会急剧增加。

在实际应用中，我们还可以将聚类分析与其他数据挖掘方法相结合，以获得更好的分析结果。

比如，我们可以将聚类分析与关联规则挖掘结合起来，通过挖掘不同类别之间的关联规则，深入分析不同类别之间的关系。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

基金项目:广东医学科研课题/广东省热点医学科研主题现状研究0(编号:A2006474)。

作者简介:钟伟金,男,1976年生,硕士,馆员,研究方向为文献计量分析。

通过对聚类原理的分析,认为该方法具有客观性、科学性、敏感性的特点。

并讨论了共词聚类分析法的不足以及其解决办法,最后介绍了共词聚类分析法的最新研究进展。

为解决这一矛盾,需要采用新的方法来处理组织、整理和分析文献集。

新方法应该具有以下三方面的特点:能对文献内容进行识别;能反映文献之间的内容联系;能借助机器进行批量处理。

共词聚类分析法是共词分析法中的一种,它的分析对象是科技论文中高度概括文献内容并被专家规范的主题词,研究的是在一篇文献中同时出现的主题词对,通过这种共现的词对把文献集关联起来形成相互关联的网。

对这种共词进行聚类统计分析的过程是共词聚类分析的全部。

1 共词聚类分析的原理共词分析法利用文献集中词汇对或名词短语共同出现的情况,来确定该文献集所代表学科中各主题之间的关系。

一般认为词汇对在同一篇文献中出现的次数越多,则代表这两个主题的关系越紧密。

由此,统计一组文献的主题词之间两两在同一篇文献出现的频率,便可形成一个由这些词对关联所组成的共词网络,网络内节点之间的远近便可以反映主题内容的亲疏关系。

共词聚类分析是共词分析中常用的一种方法,在共词分析的基础上,以共词出现的频率为分析对象,利用聚类的统计学方法,把众多分析对象之间错综复杂的共词网状关系简化为数目相对较少的若干类群之间的关系并直观地表示出来的聚类的过程。

通常在一篇文献中,由多个主题词组合在一起反映文献的内容,这个些主题词因为存在着一定的内容上的联系,而标引到一篇文章中,如果一对主题词同时在多篇文献中出现,则说明这对主题词的关系紧密。

在文献群的主题中,通过聚类分析,能把这些关联密切的主题聚集在一起形成类团,表达某一领域分支的组成。

类团的组成、演化以及消失是共词聚类分析的重点。

共词在同一篇文献出现的频率的大小,反映主题间关系紧密的程度。

在主题词关系网中,有些主题词内容联合紧密,相互靠拢聚集在一块,形成概念相对独立的类团。

相互关联的共词网络中,一个主题与多个主题形成关联,相互间构成立体状的关系网,在这种关系网中,很难分辨出由哪些主题词组成类团。

为此,要借助数据挖掘中的聚类分析法,对共词关系网络中的词与词之间的距离进行数学运算分析,将距离较近的主题词聚集起来,形成一个个概念相对独立的类团,使得类团内属性相似性最大,类团间属性相似性最小[2]。

1.1 聚类时距离的确定在进行聚类分析时,类组合的确定有两种概念方式:一是类和类之间的距离;二是点和点之间的距离。

类间距离是基于点间距离定义的,比如两类之间最近点之间的距离可以作为这两类之间的距离,也可以用两类中最远点之间的距离作为这两类之间的距离;当然也可以用各类的中心之间的距离来作为类间距离。

在计算时,各种点间距离和类间距离的选择是通过统计软件的选项实现的。

统计类间的距离时,采用组间距离法(Between-g roups linkage),即两类的平均距离最小。

点间距离有很多定义方式,常用的是欧氏距离(Euclidean distance),其算法为[3]:情报杂志2008年第7期 Journ al of Information No.7,2008在欧氏算法中,将要计算的对象分成多维计算空间,以共词聚类分析来算,两个主题词的聚类称为2维,三个主题词间的聚类称为3维,对于2维空间距离的算法为:主题词M1的从标为M1=(X1,X2),主题词M2的坐标为M2=(Y1,Y2)M1与M2的欧氏距离为:D=sqrt((X1-Y1)2+(X2-Y2)2)3维的公式:D=sqr t((x1-x2)2+(y1-y2)2+(z1-z2)2)推广到n维空间,欧氏距离的公式为:D=sqrt(E(x i1-x i2)2),这里i=1,2,,,n在公式中x i1表示第一个点的第i维坐标,x i2表示第二个点的第i维坐标。

1.2聚类的途径聚类分析(Cluster Analysis)是物以类聚的一种统计分析方法。

用于对事物类别的面貌尚不清楚,甚至在事前连总共有几类都不能确定的情况下进行分类的场合。

聚类分析实质上是寻找一种能客观反映元素之间亲疏关系的统计量,然后根据这种统计量把元素分成若干类。

目前常用的聚类方法有两种:一是K类中心聚类(也称为快速聚类),常用于大样本的样品聚类方法;二是等级聚类(Hierarchical Cluster),是目前使用最多、研究最为充分的算法[4]。

等级聚类也称为系统聚类、层次聚类。

根据聚类过程方向的不同,可以分为分解法(divisively)和凝聚法(agglomerative)两类[5]。

a.分解法。

聚类开始把所有个体(观测量或变量)都视为属于一大类,然后根据距离和相似性逐层分解,直到参与聚类的每个个体自成一类为止。

b.凝聚法。

其程序与分解法相反。

先将n个元素(样品或变量)看成n类,然后将性质最接近(或相似程度最大)的2类合并为一个新类,得到n-1类,再从中找出最接近的2类加以合并变成了n-2类,如此下去,最后所有的元素全聚在一类之中。

2共词聚类分析法的特点(作用)2.1客观性学科研究发展的评价,科学家依据自身的知识积累、学科背景等主观认识,可以描述出不同发展阶段的知识体系,但这种分析不可避免地会受到科学家研究背景、个人偏好及知识结构的影响[6]。

共词聚类分析法,从主题分析的选择到类团的生成都以数学统计的方式进行,大大减少人为的干预。

共词分析对主题的选择,通常选用文献群的高频主题词(关键词),由于一篇文献的主题词是文章核心内容的浓缩和提炼,因此,如果某一主题词在其所在领域的文献中反复出现,则可反映出该主题词所表征的研究主题是该领域的研究热点[7]。

高频词的确定根据主题在文献群中出现的次数来确定,频率越高表示该主题受到的关注越多,是学科研究的重点与热点。

高频词的选择是客观的,词频的大小由相关文献的篇数决定。

选用高频词为共词聚类分析的对象,还能有效减少不规范的主题对聚类结果的影响。

在聚类统计中,主题的聚类是由主题间的距离决定,通常两个主题在同一篇文献中出现的频率越高,两个词间的距离越近,也就是说主题距离与相关文献的篇数息息相关。

因此共词聚类的结果是文献群内容现状的客观的、真实的反映。

212科学性共词聚类分析的目的,在于通过对学科文献群的研究,反映学科研究的结构与热点。

这一过程涉及到三个逻辑性问题:一是主题的发文量与研究热点的逻辑。

根据文献学研究的规律,如果某一学科的文献量呈逐年增长,表明该学科的研究处于稳步发展阶段,其学科发展的动向与其研究成果的文献数量密切相关。

研究主题的发文量与很多因素有关,如:主题文献的易产性。

在学科领域中,有些方面的主题容易生产出大量学术论文,而有些领域要经过漫长的实验研究才有少量论文产出,因此对于学科内各领域而言,文献发表的数据不是/机会均等0的。

此外,科研管理政策与学术氛围也会影响到文献量的增长。

因此,共词聚类分析对文献集来源刊的选择应有一定规定,应选择学科的核心性期刊,特别是在世界范围内在本学科有相当影响刊物。

通常一种期刊的级别越高,它对论文的质量要求越高,通过学科专家的审核,能有效确保文献内容有较高的新颖性与学术性,把那些产文量大、学术性不够强的主题的文献排除在外,从而提高学科内各学科主题文献量的/机会均等0的几率。

在这样的条件下,发文量越大的主题越是学科中研究的热点。

二是研究内容与类团(若干个相关主题)的逻辑。

聚类分析的结果是把所有高频词按相互间距离的远近划分为一个个类团,一个类团代表一个研究的子领域。

一篇论文记录某一方面的研究成果,它由若干个主题词标引出来,反向推断,如果两篇论文中的相同主题词数越多,则表明两篇论文的内容越接近,说明它们是同一领域内的研究。

三是主题的距离与主题内容的逻辑。

按照距离的远近聚类的结果,因为主题间的相互影响,类团内所有主题词未必都代表一个研究方向,但通过对类团主题词的重要性进行分析,依据核心主题词的义,能推断出类团所代表的研究方向。

213排斥性在聚类的过程中,无论是分解法还是凝聚法,都使得一个主题词只能聚入一个类团。

对于学科的各研究领域,一个主题词可能在多个子领域中出现,聚类的时候,由于主题词间的相互影响,只把相关文献量较多的子领域的类团聚类出来。

这种聚类的结果,有可能影响到其它类团成员的个数,甚至不能形成类团。

214敏感性主题词对的距离由它们共同出现的频率决定,对于一个主题而言,如果相关论文基数不够大,主题词对的距离变得非常敏感,增多一篇相关文献会导致词对间的紧密度成倍增长。

3共词聚类分析法中应注意的问题等级聚类法的突出优点是它能够生成比较规整的类集合,聚类结果不依赖文档的初始排列或输入次序,与聚类过程的先后次序无关,聚类结果比较稳定,不易导致类的重构。

但共词聚类的分析方法存在一些不足的地方,需要我们在使用过程尽量避免。

主要表现在以下几点:a.缺乏指标控制,如高频词的定义,类团划分标准,各种指标统计方式、方法都会影响到类团归类。

高频词的确定主要有两种方法:一种是结合研究者的经验在选词个数和词频高度上平衡,该方法具有一定的主观性。

在我国一些有关共词分析的文章中,高频词的阈值定在40%左Journ al of Information No.7,2008情报杂志2008年第7期右[8~11]。

共词分析法研究_三_共词聚类分析法的原理与特点

colexification的含义 共词

共词分析方法理论进展

共词分析法的基本原理及实现

引文分析法共词分析法浅析

共词分析法——精选推荐

今天看到的三种量化研究方法

聚类分析法ppt课件全

近十年文献计量指标关键词研究进展

共词分析法研究_三_共词聚类分析法的原理与特点

聚类分析法

colexification的含义共词