引文分析词频分析
词频分析研究的现状、方法及工具

词频分析研究的现状、方法及工具今天主要跟大家介绍词频分析研究现状、方法及工具。
词频分析是什么呢?词频分析(Word Frequency Analysis)是对文献正文中重要词汇出现的次数进行统计与分析,是文本挖掘的重要手段。
它是文献计量学中传统的和具有代表性的一种内容分析方法,基本原理是通过词出现频次多少的变化,来确定热点及其变化趋势。
词频分析使用现状如何?以中国知网全文数据库(期刊)为检索对象,以“篇名”为检索条件,在617篇论文题目中出现“词频”二字,其中206篇核心期刊;如果以“主题”为检索条件,则有3423条文献以“词频”为主题开展了研究,其中1722篇在核心期刊发表。
由图可知,将“词频”分析工具来队研究对象进行分析,一直都处于增长态势。
说明有越多越多的论文开始基于词频分析来开展研究工作。
由上图可知,以“词频”为主题的研究涉及多个学科,其中图书情报与数字图书馆、计算机软件及计算机应用这两个学科方向对“词频”主题的研究较为关注;中国语言文学、外国语言文学、心理学、新闻与传媒、互联网技术、高等教育、教育理论与教育管理等学科方向次之;职业教育、管理学、中医学等其他学科零星涉及“词频”相关研究主题。
要彻底了解词频分析,必须先了解次词频统计方法。
TF-IDF (term frequency–inverse document frequency)词频--反转文件频率,是一种用于情报检索与文本挖掘的常用加权技术,用以评估一个词对于一个文件或者一个语料库中的一个领域文件集的重要程度。
感兴趣的小伙伴可以通过百度百科了解该方式的原理及优缺点。
/view/920592.htm目前,有很多分词软件默认使用TF-IDF技术,后文介绍的几款软件在一定程度上应用了该技术。
SCWS是Hightman开发的一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正确的切分成词。
它采用的是采集的词频词典,并辅以一定的专有名称、人名、地名、数字年代等规则识别来达到基本分词,经小范围测试大概准确率在90-95%之间,已能基本满足一些小型搜索引擎、关键字提取等场合运用,目前,该技术主要用于网站全文索引领域。
引文分析法

引文分析法除了前面两节介绍的内容分析法,内容相关分析涉及到的另外两个主要的领域是情报检索和引文分析。
本节在扼要阐述和比较这两者之后,集中介绍引用相关分析的方法—引文分析法如何进行内容相关分析。
一、检索相关检索相关是指以情报检索为目的的内容相关分析。
可以说,各种情报检索理论和方法都围绕着准确、高效地显示、识别和判断检索对象内容或概念上的相关关系。
例如,任何一种检索语言在编制技巧上的一个最重要而又最困难的问题就是如何显示概念之间的相互关系。
不能充分显示或未显示概念之间真正的相关关系,就会影响检索语言的缩检扩检功能,发生漏检误检。
从相关分析的角度上,可以将查全率理解为相关内容的菠盖程度,将查准率理解为内容真正相关的显示程度。
又如,在数据库检索中,发展出了详尽显示概念或内容相关关系的词典,这种词典可以帮助用户揭示相关的主题词从而提高检索效果。
美国能源部的一个能源数据库配有约1000页及2.5万个表的词典,能显示出相关的代替词或不同层次的相关词项,如词典在“蒸馏”之下列出的拓宽词为“分离处理”,而缩小词为“干馏”和“真空蒸馏”,还显示出约12个相关的代替词,包括“共沸混合物”、“蒸发”等。
情报检索的相关分析在方法上的特征是:(1)以标引和标识为基础。
由此发展出了多种情报检索语言和查找途径。
概念内容是通过标识来显示的;(2)以标识是否一致或符合作为判断是否相关的判据。
我们将这种相关分析称之为“符合相关”,即标识相符时才被看作是相关的,否则为不相关。
二、引用相关引用相关是指通过科学活动中的引用行为来揭示文献内容之间的相关关系。
由于在科学活动中,任何一个人的劳动及其知识产品都不是孤立存在的,而是以前人的劳动为前提和条件的,因此,知识劳动的主要形式一一科技文献在内容上存在必然的相关联系。
通过引用行为来显示这种内容上的相关联系并进而作出种种推论,是一种独特的途径。
尽管关于引用能否从本质上真正揭示出相关,以及引用行为的复杂性等间题,尚有种种的讨论,但在统计的意义上,通过引用分析来反映相关,的确是一种有特色、有价值的方法,其有效性已经被大量实例所证明和肯定。
词频分析法在学科发展动态研究中的应用综述_张勤

知识、学习与管理Knowledge,Learn ing &Management[基金项目] 本文系中国博士后科学基金第二批特别资助项目(200902448);北京物资学院工商管理创新基地资助项目(WYJD200904)成果之一。
[作者简介] 张勤,女,1976年生,博士,副教授,发表论文10余篇,出版学术著作、译著各1部。
词频分析法在学科发展动态研究中的应用综述Rev ie w o n the W or d Fre quency Analys is Emplo yed to Disco v er the De v elo pment o f Scienc e Rese arch in China张 勤(北京物资学院商学院,北京,101149)[摘要] 词频分析法能够用于揭示某一学科的发展动态和研究进展。
本文通过对国内词频分析法的相关学术期刊论文(112篇)进行梳理和挖掘,总结了词频分析法目前的主要运用学科领域和发展阶段,分析了词频分析法在运用中的数据处理与计量方法,发现了词频分析法在运用中存在的问题,在此基础上,对词频分析法的未来发展进行了展望,提出词频分析法的运用改进措施。
[关键词] 词频分析法 研究进展 文献综述[中图分类号] G 350 [文献标识码] A [文章编号] 1003-2797(2011)02-0095-04[Abstract] Word frequency analysis can be employed to discover the development of science res earch.This arti cle,on the basis of analyzing the 112papers on word frequency analys i s study issued in correlati ve Chinese periodicals,di scovers i ts mainly suppl yed subject fields and developmemt phases,discusses how to deal wi th the data in applying,findes out the exis-t ing problems in applying;and puts forward the countm easures to improve the m ethod i n applying.[Key words] Word frequency analysis;R esearch development;Literature review1 引言词是文献中承载学术概念的最小单位。
词频分析

共词聚类分析法
借助数据挖掘中的聚类分析法,对共词关 系网络中的词与词之间的距离进行数学运算 分析,将距离较近的主题词聚集起来,形成一个 个概念相对独立的类团,使得类团内属性相似 性最大,类团间属性相似性最小。
共词关联分析法
关联规则是描述一个事物中物品之间同时 出现的规律的知识模式,更确切地说,就是通过量 化的数据描述物品A的出现对物品B的出现有多 大的影响。共词关联分析以此为原理,通过关联 统计方法,揭示主题词间的依存关系,在这基础上 可现实对文献知识的提取以及组织文献数据库 的作用。在共词关联分析的过程,涉及到4个重要 的概念:a.支持度(Support) b.可信度(Confidence) c.期望可信度(Expected Confidence)d.作用度 (Lift)。
突发词监测法
它关注焦点词-相对增长率突然增长的词。突发 词监测与高频词词频不同,前者主要是从关注词自身 的发展变化出发,关注单个词发展的阶段性,而后者主 要是对领域中各个词的增长势头进行比较。由于科 技领域中的局部热点变化不一定会引起全领域的注 意或者研究,但又是领域发展中不可缺少的部分,比如 关于某学科的教育研究,不一定会引起全领域范围的 讨论,但是它的研究本身也会不断发展。因此基于单 个词的词频增长率变化更有可能涉及到领域局部热 点的变化。突发词监测法更注重的是研究领域内,那 些研究活跃、有潜在影响研究热点的因素,因此,突发 词监测有助于发现推动学科(或主题)研究发展中的微 观因素。
三、高频词的选定
为简化统计的过程及减少低频词对统计过 程带来的干扰,通常共词分析选择高频主题词 为分析的对象。共词分法对高频词数量的选 择没有统一的见解,如果主题的范围过小,则不 能如实反映学科知识点的构成;如果主题的范 围选择过大,则给共词分析过程带来不必要的 干拢。用域值表示高频词划分的频次值,高频 词域值越高,高频词的数量越多。高频词阈值 是被认定高频词的词频总和,占所有词频总和 的比率。
第七章 引文分析法

第七章引文分析法第一节引文分析概述1. 引文分析就是利用各种数学及统计学的方法和比较、归纳、抽象、概括等逻辑方法对科学期刊、论文、著者等各种分析对象的引证或被引证现象进行分析,以便揭示出研究对象所具有的特征或它们之间的关系及其规律性的一种文献计量研究的方法。
2.引文分析的特点:(1)良好的易用性和实用性。
(2)引文具有丰富的内涵。
引文丰富的内在含义是由多种引用动机所造成的。
(3)引文分析可以反映多种文献的特征。
引文分析可以针对受引文献的各种特征来反映学科发展的规律,能为优化文献管理与利用提供有益的参考。
如引用文献的引文量,语种分布,年代分布等。
(4)引文分析可以反映自我回馈。
第四节科学引文的结构分析1 引文年代分布:从时间的角度对引文分布规律进行分析是引文分析的主要内容之一。
它可以反映出被引文献的出版、传播和利用情况,特别是在文献老化和科技史的研究中,引文年代分布的分析更是一种广泛应用的有效方法。
2引文语种分布:引用文献是由不同语种文献构成的。
某一语种的文献被引用量越大则说明该语种比较重要和常用。
考察和分析引文语种分布对于人们有计划的引进外文文献、译文选题、外文教育都有参考价值。
3引文按文献类型分布:科学研究中引用的文献面很广,如期刊、图书、专利说明书、科技报告、会议文献、学位论文等类型。
引文类型就是研究所有引文中各种类型文献所占的比率。
4引文国别分布:由于科学研究的需要,任何一个国家的科技工作者都不可避免的要用别国的科学文献,这样就形成了引文按国家分布的情况。
引文的国别分析,特别是各国文献互引情况的统计分析,可以探明各国互引文献的状况,弄清国际文献交流的数量和流向。
一般采用抽译分析法。
5引文按学科专业分布:通过此分析,可以了解相关学科。
6引文按著者分布:推出这个专业的核心作者。
第五节科学文献的自引和双引分析1、文献自引在引用文献的行为中,限于本身范围内的引用称为“自引”。
自引的最主要的原因是作者把目前工作与先前的工作相联系。
[指南]词频分析法
![[指南]词频分析法](https://img.taocdn.com/s3/m/d66de4f90875f46527d3240c844769eae109a35f.png)
一、词频【释义】:一定范围的语言材料中词的使用频率。
TF-IDF(term frequency–inverse document frequency)词频--反转文件频率,是一种用于情报检索与文本挖掘的常用加权技术,用以评估一个词对于一个文件或者一个语料库中的一个领域文件集的重要程度。
字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。
原理在一份给定的文件里,词频(term frequency,TF)指的是某一个给定的词语在该文件中出现的次数。
这个数字通常会被正规化,以防止它偏向长的文件。
(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否。
)对于在某一特定文件里的词语 ti 来说,它的重要性可表示为:以上式子中 ni,j 是该词在文件dj中的出现次数,而分母则是在文件dj中所有字词的出现次数之和。
逆向文件频率(inverse document frequency,IDF)是一个词语普遍重要性的度量。
某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到例子有很多不同的数学公式可以用来计算TF-IDF。
这边的例子以上述的数学公式来计算。
词频(TF) 是一词语出现的次数除以该文件的总词语数。
假如一篇文件的总词语数是100个,而词语“母牛”出现了3次,那么“母牛”一词在该文件中的词频就是0.03 (3/100)。
一个计算文件频率(DF) 的方法是测定有多少份文件出现过“母牛”一词,然后除以文件集里包含的文件总数。
所以,如果“母牛”一词在1,000份文件出现过,而文件总数是10,000,000份的话,其逆向文件频率就是 9.21( ln(10,000,000 / 1,000) )。
最后的TF-IDF的分数为0.28( 0.03 * 9.21)。
23种常用的资料分析方式汇总

23种常⽤的资料分析⽅式汇总社会科学的研究步骤在每⼀个环节都需要理论的指导。
其中,在检验研究假设结束之后,需要与现有的⽂献对话,再次发现新问题,开始新⼀轮的研究过程。
在这个环节之中,资料分析作为重要⼀环,对于社会科学的研究极为重要。
资料分析的⽅式分类教育研究包含多样化的研究⽅法及分类。
⼀般情况下,按照认识论基础,研究⽅法可以分为定量研究、定性研究和混合研究。
也有部分学者按照研究⽬的、⼿段等对研究⽅法进⾏分类。
⽐如别敦荣和彭阳红将研究⽅法分为:理论思辨、经验总结、历史研究、调查研究、⽐较研究、数学分析、质的研究和个案研究;在国内,根据刘良华对研究⽅法的分类⼤体上有三个基本类型:实证研究(量化的、质化的)、思辨研究(⼜称理论研究)、实践研究(常以教育对策、教育反思、教育改⾰形式显现)。
实证研究是基于“事实”的⽅式进⾏论证并有规范的研究设计和研究报告。
陈向明指出,“研究⽅法”⼀般包含三个层⾯:第⼀,⽅法论,即指导研究的思想体系,其中包括基本的理论假定、原则、研究逻辑和思路等;第⼆,研究⽅法或⽅式,即贯穿于研究全过程的程序与操作⽅式;第三,具体的技术和技巧,即在研究的某⼀阶段使⽤的具体⼯具、⼿段和技巧等。
⽂中所采取的分类是按照陈向明定义中的第三个层⾯为标准进⾏的分类。
在实际的研究过程中⼤多数时候是以⼀种研究⽅法为主,其他为辅,交叉使⽤的。
以下内容是介绍每⼀种具体的⽅式。
那么资料搜集上来了?该如何分析呢?具体的资料分析⽅式- 01 -思辨分析1、历史研究⽅法历史研究法是运⽤历史资料,按照历史发展的顺序对过去事件进⾏研究的⽅法。
亦称纵向研究法,是⽐较研究法的⼀种形式。
在政治学领域中,它着重对以往的政治制度、政治思想、政治⽂化等的研究。
历史研究的⽬的在于解决政治制度的现状及其演变趋向。
但不是断章取义地分析政治制度的现状,⽽是系统地研究它们以往的发展及其变迁的原因。
历史研究法主要是研究政治制度的发展历史,从各种事件的关系中找到因果线索,演绎出造成制度现状的原因,推测该制度未来的变化。
文献计量学六大规律

文献计量学:文献分布定律,布拉德福定律,词频分布定律,齐普夫定律,科学论文作者分布定律,洛特卡定律,文献增长,科学文献老化,引文分析,情报冗余等。
文献信息源的定量研究开始于20世纪初。
在20世纪70年代末,就形成了布拉德福定律、齐普夫定律、洛特卡定律、文献增长规律、文献老化规律、文献引用规律等六大规律,并在后来的研究中得到不断的完善与发展。
布拉德福定律:也称文献分散定律。
是由英国文献学家布拉德福(S.C.Bradford)1934 年首先提出。
它是定量描述科学论文在相关期刊中集中——分散状况的一个规律。
经过后来的许多研究者的修正和研究,发展成为著名的文献分布理论。
布氏定律的文字描述为“如果将科学期刊按其刊载某个学科领域的论文数量以递减顺序排列起来,就可以在所有这些期刊中区分出载文量最多的‘核心’区和包含着与核心区同等数量论文的随后几个区,这时核心区和后继各区中所含的期刊数成1:a:a 2 …… 的关系(a>1)。
”布氏定律主要反映的是同一学科专业的期刊论文在相关的期刊信息源中的不平衡分布规律。
布氏定律的应用研究也获得了许多切实有效的成果,应用于指导文献情报工作和科学评价,选择和评价核心期刊,改善文献资源建设的策略,确立入藏重点,了解读者阅读倾向,评价论文的学术价值以节约经费、节约时间,切实提高文献信息服务和信息利用的效率和科学评价的科学性。
洛特卡定律:是由美国的统计学家、情报学家洛特卡(A.J.lotka)研究出来的描述科学论文作者动态的最早的量化规律。
在科研活动中,不同人的科研能力及其成果著述数量肯定是不同的。
那么,在同样的一段抽样时间内,不同的科技工作者的论著数量分布有没有什么规律呢?1926 年,洛特卡发表了论文“科学生产率的频率分布”。
他在文中统计分析了化学和物理学两大学科中一段时间内科学家们的著述情况,提出了定量描述科学生产率的平方反比分布规律,又被称为“倒平方定律”。
其经典公式为:f(x) =(C为常数)上式的意义为:设撰写X 篇论文的作者出现频率为f(X) ,则撰写X篇论文的作者数量与他们所写的论文数量呈平方反比关系。