文献计量学综述演示教学
《文献计量学方法》PPT课件

作者的统计分析——作者的系统分布
46
作者的统计分析——作者的地区分型分布
48
文献计量学方法的类型
文献计量学方法按研究手段可分为文献统计分析法、 数学模型分析法、系统分析法、矩阵分析法、网络 分析法等。
文献统计分析方法 利用统计学方法对文献进行统计分析,以数据来
究
学、向量分析、矩阵论、图论、聚类分析、模拟方法、模糊数学等
方 法
同
具体的研究方法都有引文分析、文献统计分析和数学模型法 计量模型都有词(字)频率模型(齐夫定律)、期刊等级模型(布
拉德福定律)、倒平方模型(洛特卡定律)、老化模型、半衰期模
型、拟合逼近方法。
研 究
异
图书流通及内部 使用、藏书布局 与藏书建设等
20
布氏定律的基本内容 区域描述。 如果将科学期刊按其登载某个学科的论文数量的
大小,以渐减顺序排列,那么可以把期刊分为专门 面向这个学科的核心区和包含着与核心区同等数量 论文的几个区。这时,核心区与相继各区的期刊数 量成1 : a : a2 ⋯⋯的关系。
a——布拉德福常数,或称比例系数。
21
图像描述。
19
文献信息离散分布规律 ———布拉德福定律
布氏定律的形成和基本内容 布氏定律的形成和确立 《专门学科的情报源》(Sources of Information on Specific Subject) ( 1934 年 1 月 《 工 程 》 (Engineering) 周刊的“图书与文献”栏目),首次 公开提出定量描述文献分散规律的经验定律。
动态特性:指科学文献或其特征信息随时间的延续而增长 和老化的性质。
7
文献计量学方法的基础 文献增长定律 文献老化定律 文献作者分布理论——洛特卡定律 文献分散理论——布拉德福定律 词频分布理论——齐普夫定律
文献计量学方法

内容分析法
补充
内容分析法(Content Analysis)是对 文献内容进行系统的定量分析的一种 专门方法,其目的一般是弄清或测度 文献中本质性的事实或趋势。
20世纪初,人们提出在一般性阅读文献获得理解 之外,采用半定量的统计方法对文献的内容进行 深入分析和解释。二战中,美国传播学家拉斯韦 尔等在进行战时军事和政治信息分析中,以德国 公开出版的报纸为分析对象,分析获取法西斯政 权重要军政机密情报,取得了出乎意料的成功, 使内容分析法显示出实际效果。60年代,前苏联 学者在社会科学研究中采用内容分析法。60年代 日本巧妙获取大庆油田的相关情报。
洛特卡定律的数学表达式为:
发表x篇论文的著者出现的频率(在所 统计的著者总数中所占的比例)
f(x)=C/X2 ≈0.6/X2
C为常数,C的极 限值为0.6079 科学工作者发表 的论文数量
齐普夫定律及其应用
美国哈佛大学语言学教授齐普夫于1935年提出齐普夫定律: 在一篇足够长的文章(5000字以上)中,如果我们以单词词 频的高低进行等级排列(约定词频越高,则单词的等级越高), 词频最高的单词等级为1,次之为2,再次之为3,……,则词 频与等级之间存在着一次反比关系。
应用: 主要体现在文献信息的搜集环节上。 也可用于研究某一学科发展的特点以及学科之间的交叉影响 和相互渗透关系,并以此确定某些新学科的生长点。
布拉德福定律及其应用
也可用于研究某一学科发展的特点以及学科之间的交叉影响 和相互渗透关系,并以此确定某些新学科的生长点。
洛特卡定律及其应用
洛特卡定律是揭示文献著者与数量关系的基本定律,是为了 评价科学工作者的贡献,由洛特卡于1926年提出的。
分析单元——是内容的“指示器”。一般先依 据目的确定分析范畴,即确定符合目的要求的 最一般的关键性概念。确定范畴时应避免两个 极端:过大的范畴可能使分析结果表面化和简 单化;过细的范畴造成几乎重复原文。范畴选 择之后,再明确相对应的分析单元。分析单元 是不再细分析测度单位。对文字对象,词是最 小的分析单元。此外,意义独立的词组、简单 句、段和意群甚至独立的篇也可视作分析单元。 在复杂的内容分析中,可同时采用几种分析单 元。
文献计量学(Bibliometrics)(共3页)

文献(wénxiàn)计量学(Bibliometrics)文献计量学是以文献体系和文献计量特征为研究(yánjiū)对象,采用数学、统计学等计量方法,研究文献情报的分布结构、数量关系、变化规律和定量(dìngliàng)管理,并进而探讨科学技术的某些结构、特征和规律的一门学科[5-12]。
这一术语(shùyǔ)最早是1969年由英国人A.普里查德(Alan Britchard)提出的。
文献(wénxiàn)计量学中常用的定律有如下几种。
布拉德福定律:布拉德福定律是由英国著名文献学家B.C.Bradford于本世纪30年代率先提出的描述文献分散规律的经验定律。
文字表述为:如果将科技期刊按其刊载某专业论文的数量多寡,以递减顺序排列,则可分出一个核心区和相继的几个区域,每区刊载的论文量相等,此时核心期刊和相继区域期刊数量成1:n:n2……的关系。
洛特卡定律:洛特卡定律是由美国学者A.J.洛特卡在本世纪20年代率先提出的描述科学生产率的经验规律,又称“倒数平方定律”。
它描述的是科学工作者人数与其所著论文之间的关系:写两篇论文的作者数量约为写一篇论文的作者数量的1/4;写3篇论文的作者数量约为写1篇论文作者数量的1/9;写n篇论文的作者数量约为写一篇论文作者数量的1/ n2……,而写一篇论文作者的数量约占所有作者数量的60%。
该定律被认为是第一次揭示了作者与数量之间的关系。
齐普夫定律:齐普夫定律是美国学者G.K.齐普夫于本世纪40年代提出的词频分布定律。
它可以表述为:如果把一篇较长文章中每个词出现的频次统计起来,按照高频词在前、低频词在后的递减顺序排列,并用自然数给这些词编上等级序号,即频次最高的词等级为1,频次次之的等级为2,……,频次最小的词等级为D。
若用f表示频次,r表示等级序号,则有fr=C(C为常数)。
人们称该式为齐普夫定律。
文献计量学方法-PPT精品文档

内容分析法
补充
内容分析法(Content Analysis)是对 文献内容进行系统的定量分析的一种 专门方法,其目的一般是弄清或测度 文献中本质性的事实或趋势。
20世纪初,人们提出在一般性阅读文献获得理解 之外,采用半定量的统计方法对文献的内容进行 深入分析和解释。二战中,美国传播学家拉斯韦 尔等在进行战时军事和政治信息分析中,以德国 公开出版的报纸为分析对象,分析获取法西斯政 权重要军政机密情报,取得了出乎意料的成功, 使内容分析法显示出实际效果。60年代,前苏联 学者在社会科学研究中采用内容分析法。60年代 日本巧妙获取大庆油田的相关情报。
分 析 方 法
内容分析的 类 型
指定分析:统计分析指定的人、 事、物出现的频次。 归因分析:统计分析相关特征 贾尼斯(美国内容分析专家)划分法 的频次。如分析某人物时统计 实用内容分析——对某些主题词或特定的词汇进行统计分 其不诚实信息出现的次数。 断言分析:统计对某人、事、 析,并赋予不同的权重(如对不同的字体、版面位置、排 物作出反应的有关信息次数, 名顺序等),推断其出现的原因和可能的后果。对报纸、 以分析特定的主题(如对某项 新闻进行内容分析时,常属该类型。 政策的反应)。 语义内容分析——针对文字的语义内容,对特定词汇作统
半定量分析方法。 对大量样本进行特征识别的系统方 法,具有统计性。 可以揭示出隐性的内容。是一种从 公开资料中萃取秘密信息的方法。
确定目的 建立假设
选择样本
定义分析单元 制定分析框架 频数统计 检验假设
内容 分析 步骤 框图
结论汇总
确定目的——必须首先明确。 选择样本——力求样本信息量大,有 连续性,便于统计分析并尽可能是分 析人员所熟悉的。
应用: 主要体现在文献信息的搜集环节上。 也可用于研究某一学科发展的特点以及学科之间的交叉影响 和相互渗透关系,并以此确定某些新学科的生长点。
文献计量学方法

03
文献计量学在科学研究中 的应用
学科发展评估
学科发展趋势分析
通过分析特定学科领域内的文献 发表情况、引用频次、关键词等 数据,评估学科的发展趋势和未 来发展方向。
学科交叉融合研究
利用文献计量学方法分析不同学 科领域之间的交叉融合情况,揭 示学科交叉对创新发展的影响。
学科结构优化建议
基于文献计量学分析结果,为学 科结构的优化提供建议,促进学 科的均衡发展。
总结词
通过共词网络分析,探究某领域内关键词之 间的关联和结构。
详细描述
利用文献计量学方法,对某领域的大量文献 进行关键词提取和共词分析,构建共词网络 ,探究关键词之间的关联和结构,从而揭示
该领域的研究重点和主题分布。
案例三:某期刊的质量评价与影响因子预测
总结词
通过文献计量学方法,评价某期刊的质量和预测其影响 因子。
共词分析法
总结词
通过分析同一篇文献中词汇或短语共同 出现的情况,揭示学科领域内主题间的 关系。
VS
详细描述
共词分析法是文献计量学中的一种重要方 法,通过分析同一篇文献中词汇或短语共 同出现的情况,可以揭示学科领域内主题 间的关系。这种方法可以帮助研究人员了 解学科领域内的主题分布、主题交叉和主 题演化,进而为学科领域的知识组织和知 识服务提供支持。
学术期刊评价
期刊质量评估
通过分析期刊发表的论文质量、影响因子、被引频次 等指标,对学术期刊的质量进行评估。
期刊影响力排名
根据学术期刊的质量、学术影响力和学术声誉等指标, 对学术期刊进行排名,为学术交流提供参考。
期刊发展建议
基于文献计量学分析结果,为学术期刊的发展提供建 议,促进期刊质量的提升和学术交流的繁荣。
8文献计量学方法

2019/2/18
浙江传媒学院
9
《信息分析与 预 测 》课件
8.2 基本原理及其应用
8.2.1 布拉德福定律及其应用 8.2.2 洛特卡定律及其应用 8.2.3 齐普夫定律及其应用 8.2.4 引文分析及其应用
2019/2/18
浙江传媒学院
10
《信息分析与 预 测 》课件
8.2.1 布拉德福定律及其应用
2019/2/18 浙江传媒学院 13
《信息分析与 预 测 》课件
8.2.2 洛特卡定律及其应用
f ( x) C / x 0.6079 / x
其中1.2 3.8
该公式被称为广义的洛特卡定律。
二、应用
洛特卡定律在信息分析与预测中的应用是明显的,比如 我们可以利用它来预测著作数量与文献数量,从而便于搜集 信息、掌握文献信息流的变动规律、预测科学家数量的增长 和科学发展的规模及趋势等。 此外,在分析研究人口的分布状况和城市的比例结构等类 似的信息分析与预测工作中,洛特卡定律也有一定的应用。
2019/2/18 浙江传媒学院 14
《信息分析与 预 测 》课件
8.2.3 齐普夫定律及其应用
一、概念
齐普夫定律是揭示文献的词频分布规律的基本定律,由美 国哈佛大学语言学教授齐普夫于1935年提出的。 词频是指某一单词在文章中出现的次数。齐普夫经过大量 研究发现:在一篇足够长的文章中(5000字以上),如果我们 以单词词频的高低进行等级排列(约定词频越高,则单词的等 级越高),词频最高的单词等级为1,次之为2,再次之为 3,……则词频与等级之间存在着一次反比关系。这就是齐普 夫定律。用数学公式可表示为: f·r=C f表示某一单词的词频,r表示该单词的等级序号,C 为与样本有关的常数。
文献计量学方法图文

文献计量学在科学评价中的应用方式
文献计量指标
通过文献的被引频次、下载量、影响因子等 指标来衡量其学术价值。
学术期刊评价
利用文献计量学方法评估学术期刊的学术水 平和质量。
学科领域发展态势分析
通过文献计量学方法分析学科领域的研究热 点和发展趋势。
科研机构和学者评价
通过文献计量学方法对科研机构和学者的研 究成果进行评价。
文献计量学在科学评价中的作用
科学评价的基本原则
01
客观性原则
科学评价应以客观事实为基础,避 免主观臆断和偏见。
准确性原则
科学评价应准确反映研究对象的实 际情况,避免误导和错误。
03
02
全面性原则
科学评价应全面考虑研究对象的各 个方面,避免片面和偏颇。
可重复性原则
科学评价应具备可重复性,以便他 人验证和进一步研究。
跨文化比较研究
随着全球化的加速,跨文化比较研究成为文献计 量学的重要发展方向,有助于深入了解不同文化 背景下的学术发展状况和趋势。
文献计量学的未来展望
深化理论体系
未来文献计量学需要进一步深化和完善自身的理论体系, 明确核心概念、原理和方法,提高学科的严谨性和科学性 。
强化方法创新
随着研究问题的复杂化,文献计量学需要不断强化方法创 新,吸收借鉴其他学科的方法和技术,提高分析的准确性 和可靠性。
。
词频分析法
总结词
通过分析文献中词汇的现频率,揭示 学科领域的研究重点和发展趋势。
VS
详细描述
词频分析法是一种通过统计文献中词汇的 出现频率,来揭示学科领域的研究重点和 发展趋势的方法。这种方法可以帮助研究 者快速了解某一学科领域的热点话题和变 化趋势。
中国计量学校文献综述

中国计量学院现代科技学院毕业设计(论文)文献综述学生姓名:吴鹏晖学号:0930333222专业:电子信息工程班级:电信092设计(论文)题目:基于LVQ神经网络的人脸朝向识别算法研究指导教师:李向军系:信息工程系2013年1月3日基于LVQ神经网络的人脸朝向识别算法研究文献综述一、人脸识别概述人脸识别作为一个复杂的模式识别问题,近年来受到广泛的关注,识别领域的各种方法在这个问题上各显所长,而且发展出了许多新方法,大大丰富和拓展了模式识别方向。
人脸识别、检测、跟踪、特征定位等技术近年来一直是研究的热点、人脸识别是人脸应用研究中重要的第一步,目的是从图像中分割出不包括背景的人脸区域。
由于人脸形状的不规则性以及光线和背景条件多样性,现有的人脸研究算法都是在试图解决某些特定实验环境下的一些具体问题,对人脸识别位置和形状都有一定的要求。
而在实际应用中,大量图像和视频源中人脸的位置,朝向和旋转角度都不是固定的,这就大大增加了人脸识别的难度。
在人脸识别领域的众多研究方向中,人脸朝向分析一直是一个少有人涉及的领域。
在以往的研究中,一些研究者谈及了人脸朝向问题,但其实绝大多数都是希望在人脸识别过程中除去人脸水平旋转对识别过程的不良影响。
但是,实际问题要复杂的多,人脸朝向是一个无法回避的问题。
因此,对于人脸朝向的判断和识别,将会是一件非常有意义的工作。
人脸检测与识别技术是生物特征鉴别技术中研究最多和最热门的技术之一,它已经在身份认证、安全检查、罪犯查询、人机交互等广泛领域得到了初步应用。
在人脸检测研究中,构建快速而精确的检测方法一直是该领域的研究热点;在人脸识别研究中,如何克服获取图像光线、表情、视角等变化的影响,提高识别率则是迫切需要研究的问题。
针对这两个问题,本文以彩色和灰色正面人脸静态图像为研究对象,将模式识别理论和图像处理技术相结合,重点研究基于LVQ人工神经网络(ANN)的肤色像素检测和基于模板匹配的人脸精确检测方法,以及基于小波包分解(WPD)和(2D)2PCA的不同变化条件人脸图像的识别方法,为建立快速精确的人脸识别系统提供技术依据。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
文献计量学综述文献计量学综述一、起源及发展早在20世纪初,人们已经开始对文献进行定量化研究,但是当时文献计量学并没有作为一门独立的学科而存在。
直到1969年,英国著名情报学家阿伦.普理查德首次提出术语“Bibliometrics”,这一术语的出现标志着文献计量学的正式诞生。
三阶段:萌芽、发展和分化萌芽(1917-1933)这一时期文献研究人员首创文献统计方法,并在一些学科领域解剖学和化学专业进行了文献计量分析的大胆尝试,取得了一定的成果。
这些研究都为文献计量学的诞生与后期的发展奠定了基础发展(1934- 1960)年注重理论研究与规律发现,著名的文献计量学的三大基本定律中的布拉德福定律以及齐普夫定律就是在这一时期发现的到成熟与分化阶段全面发展与分化时期(1960年至今) 这一时期文献计量学已由狭隘的理论研究发展到了广阔的应用研究和指标的研究,同时涉及的领域和主题也越来越多。
迁移衍生:专利计量学文献计量学网络计量学政策计量学二、概念界定文献计量学是以文献体系和文献计量特征为研究对象,采用数学、统计学等计量研究方法,研究文献信息的分布结构、数量关系、变化规律和定量管理,并进而探讨科学技术的某些结构、特征和规律的一门学科。
可以定量地揭示某一学术领域的发展历程、研究重点以及未来的研究方向。
目前,文献计量分析已被看作总结历史研究成果、揭示未来研究趋势的一种重要工具。
学科交叉使得文献计量研究内容体系日益丰富。
数学中的图论、社会学中的社会网络分析、物理学中的复杂网络等理论与方法均被移植到文献计量学的研究体系中。
三、三大定律布拉德福定律该定律描述文献分布规律,利用刊载某专业论文的数量来确定该专业的核心期刊,应用于指导文献情报工作和科学评价。
齐普夫定律该定律用以统计文献中的词频,通过文献的词频分析可确定学科或行业的研究热点和研究趋势。
洛特卡定律该定律描述著者人数与所著论文之间的关系。
探讨了科学论文著者分布平衡的规律,在宏观的科学著作活动中,少数作者写出了大量文章,大多数人的著作还是很少的。
依此定律推论出“杰出科学家数目仅是科学家数目的平方根”。
从表面上三大定律的统计对象各异,其结论也不尽相同,但是它们的研究方法存在着某些相似之处,事实上它们属于同一个分布体系。
该体系被称为布-齐-洛体系。
如果把期刊、字词、书籍、文章等称为信息发生源,将作品、论文、字词的出现、书籍的使用、文章的被引等称为产物,那么文献计量学的规律可认为是发生源数量与产物数量之间存在的函数关系。
四、主要研究方法:引文分析+数据挖掘+数据可视化传统文献计量学方法可以分为 3类: ①基于引文的计量方法,如引用频次统计、文献同被引分析、文献耦合分析等; ②基于作者的计量方法,如作者同被引分析、合著分析等; ③基于词汇的计量方法,如词频统计、关键词共现分析等; (引文分析)近年来趋势是①基于两种对象的交叉共现计量方法。
如使用双向聚类方法应用此方法文献计量学领域有广阔的运用前景。
例如,高被引论文和引用文献的双向聚类可以反映出被引文献和引用文献的对应关系,甚至是同时实现同被引聚类分析和基于高被引论文的引文耦合分析; 作者( 或单位) 和主题词的双向聚类可以反映作者( 单位) 研究内容之间的相似性及其研究特色; 作者合著( 或单位合作) 和相应文献的双向聚类分析可以反映出作者( 单位) 合作的具体论文和成果等。
②引文分析结和数据挖掘和数据可视化操作,更直观且准确的反应出研究现状、研究热点和趋势1、引文分析:作者在撰写或编辑论著时,常以尾注、脚注、文中注和参考文献的形式标明所引用的概念、理论、方法、文献资料等等的来源出处,为自己的论述提供佐证和依据,形成被引文献记录即引文(Citation)。
追寻这种引证联系,可以找到一系列内容相关的文献,从中可以找出某些学术观点的演化发展脉络,某一领域的研究动态、走向和规律,某一学科的核心作者群,学术研究中的启承转合关系,以及某一名词、概念、方法出现的时间、频次和衰减情况。
引文数据库可以提供以引证关系为特征的特殊的文献检索方法,客观准确地揭示文献之间跨时空、跨学科、多领域的网状联系。
在科研评价中,引文数据库可以从文献的“数量”(科研产出率)和“质量”(成果影响力)方面提供有关学科分布、作者、机构、期刊和地区的多项统计数据和指标。
引文分析包括耦合分析、同引分析和引文数量分析。
多篇论文引用同一篇文献,这些多篇论文之间的关系称为耦合,耦合关系的强弱由共同引用的参考文献的篇数测定,揭示学科的内部结构,通过耦合分析可以在学科内部划分出耦合度较高的论文簇。
同引分析是指两篇文章同时被后来的文献引用,可用以跟踪学术前沿,映射研究领域。
引文数量分析,用于对期刊和论文学术价值的评价,目前,引文分析技术日趋完善,应用不断扩大,已发展成为文献计量学的重要方法之一。
引文分析方法的应用主要有以下几个方面:(1)测定学科或主题的影响和重要性:通过文献引用频率的分析研究可以测定某一学科的影响和某一国家某些学科的重要性。
(2)研究学科或主题的结构:通过引文聚类分析,特别是从引文间的网状关系进行研究,能够探明有关学科之间的亲缘关系和结构,划定某学科的作者集体;分析推测学科间的交叉、渗透和衍生趋势;还能对某一学科的产生背景、发展概貌、突破性成就、相互渗透和今后发展方向进行分析,从而揭示科学的动态结构和某些发展规律。
(3)研究学科或主题信息源分布:通过文献间的相互引证关系,分析某学科(或专业)文献的参考文献的来源和学科特性,不仅可以了解该学科与哪些学科有联系,而且还能探明其信息的来源及分布特征,从而为制定本学科的信息管理方案和发展规划提供依据。
(4)确定核心期刊:引文分析方法是确定核心期刊的常用方法之一。
这种方法的主要特点,是从文献被利用的角度来评价和选择期刊的,比较客观。
加菲尔德通过引文分析,研究了文献的聚类规律。
他将期刊按照期刊引用率的次序排列,发现每门学科的文献都包含有其它学科的核心文献。
这样,所有学科的文献加在一起就可构成一个整体的、多学科的核心文献,而刊载这些核心文献的期刊不过1000种左右。
利用期刊引文的这种集中性规律可以确定学科的核心期刊。
(5)研究文献老化规律:目前,有关文献老化的研究一般是从文献被利用角度出发的。
D.普赖斯曾利用引文分析探讨文献的老化规律。
通过对“当年指标”和“期刊平均引用率”的分析,他认为期刊论文是由半衰期绝然不同的两大类文献构成的,即档案性文献和有现时作用的文献。
科学文献之间引文关系的一种基本形式是引文的时间序列。
对引文的年代分布曲线进行分析,可以测定各学科期刊的“半衰期”和“最大引文年限”,从而为制定文献的最佳收藏年限、对文献利用进行定量分析提供依据。
同时,一个学科的引文年代分布曲线与其老化曲线极为相似。
这有力地说明文献引文分布反映了文献老化的规律性。
因此,从文献引用的角度研究文献老化规律是一种有效的途径和方法。
(6)研究信息用户的需求特点:利用引文分析方法进行信息用户研究是一种重要途径。
根据科学文献的引文可以研究用户的信息需求特点。
一般来说,附在论文末尾的被引用文献是用户(作者)所需要和利用的最有代表性的文献。
因此,引文的特点可基本反映出用户利用正式渠道获得信息的主要特点,尤其是某信息中心对其所服务的用户所发表的论文的引文分析,更具有直接的指导意义。
通过对同一专业的用户所发表的论文的大量引文统计,可以获得与信息需求有关的许多指标,如引文数量、引文的文献类型、引文的语种分布、引文的时间分布、引文出处等。
(7)评价人才:在人才评价方面,常采用引文分析方法。
这是因为某著者的论文被别人引用的程度可以是衡量该论文学术价值和影响的一种测度,同时,也从科研成果被利用的角度反映了该著者在本学科领域内的影响和地位。
因此,引文数据为人才评价提供了定量依据。
从对历年诺贝尔奖金获得者的论文被引用情况的统计来看,物理学、化学、医学领域中诺贝尔奖金获得者中,其论文被引次数最高者(ndan)为1888次;最低的也有79次(J· H· D· Jensen);只有六名低于 200次。
可见,这些科学界的精英的论文的引用次数是很高的。
近年来,引文评价方法的研究重点不再局限于定量指标的直接测算与简单排名,而是转移到引文影响力指标的总结与优化、引文数据源的覆盖率与可用性、引文现象的复杂性对引文频次的影响这些方面的研究。
除了期刊论文的结构属性之外,引文分析研究逐步拓展到论文的正文。
在文本分析过程中,需要借助计算机科学领域中的自然语言处理、自动分词等方法。
这些研究将促使引文分析作为学术影响力评价方法不断地去面对新的议题,逐渐完善定量评价方法的指标、数据与理念。
2、数据可视化:指的是运用计算机图形和图像处理技术,将数据转化为图形或图象在屏幕上显示出来,并进行交互处理的理论、方法和技术。
数据挖掘:数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。
数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
操作步骤:分类-估计-预测-相关性分析-聚类-描述和可视化(复杂数据类型挖掘)聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。
它是一种重要的人类行为。
聚类分析的目标就是在相似的基础上收集数据来分类。
聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。
在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。
3、可视化操作:采用高级检索,检索条件选择“主题”,具体检索词为“创新生态系统”,检索途径选择“精确”,时间跨度为 2003 /10 /01—2015 /10 /01(绩效考核or绩效评价or绩效评估or绩效考评and政府财政预算)从CNKI导出数据(Refworks)或者利用litespace软件将来自SCI或SSCI 等数据库的软件进行格式转化,将数据导入Citespace或TDA、书目信息共现挖掘系统进行统计和可视化操作——将小类别按照主题自行分为大类别,不同聚类代表不同类别,如主题,研究方法,指标体系,指标体系构建方法等——(依据各类引文指标了解学科或某一主题的研究现状,趋势、热点判断,改进建议)。
使用软件CNKI\SCI\WOS(数据库)+ Tableau \Citespace \TDA(可视化操作软件)图例某领域发文数量,期刊名称,数据源(来自何种数据库),区域分布文献计量学领域代表人物与代表作品时间序列文献计量学领域研究热点知识图谱文献计量学领域研究前沿和趋势五、代表性应用1、科研创新目前国内对于科研创新评价,基本上是沿用文献计量学指标,关于科研创新评价指标体系的研究,目前还只停留在理论探讨或是构想中。