文献计量学文献引用规律
文献计量三定律

文献计量学三定律一、布拉德福定律布拉德福定律是由英国著名文献学家B.C.Bradford于本世纪30年代率先提出的描述文献分散规律的经验定律。
其文字表述为:如果将科技期刊按其刊载某学科专业论文的数量多少,以递减顺序排列,那么可以把期刊分为专门面对这个学科的核心区、相关区和非相关区。
各个区的文章数量相等,此时核心区、相关区,非相关区期刊数量成1:n:n2(n的平方)的关系。
布拉德福定律的应用:为文献情报部门使用有限的资金、获取情报密度最高的情报源提供定量依据。
它的作用在帮助确定核心期刊、文献检索、考察专著的分布、动态馆藏的维护、检索工具完整性的测定、学科幅度的比较、指导读者利用期刊、指导期刊订购工作等方面。
二、洛特卡定律洛特卡定律是由美国学者A.J.洛特卡在本世纪20年代率先提出的描述科学生产率的经验规律,又称“倒数平方定律”。
它描述的是科学工作者人数与其所著论文之间的关系:写两篇论文的作者数量约为写一篇论文的作者数量的1/4;写三篇论文的作者数量约为写一篇论文作者数量的1/9;写N篇论文的作者数量约为写一篇论文作者数量的1/ n2……,而写一篇论文作者的数量约占所有作者数量的60%。
该定律被认为是第一次揭示了作者与数量之间的关系。
洛特卡定律的应用:(1)在情报学图书馆学方面,一般是用它来预测发表不同数目文章的著者数量和特定学科的文献数量。
(2)在预测科学方面,从社会科学著者数量来预测文献数量的增长速度和文献流的动向;预测学者数量的增长和科学发展的规模及趋势。
(3)在科学学和人才学方面,研究科学家的活动规律,研究人才的著述特征。
三、齐夫定律美国哈佛大学教授G.K.齐夫(G.K.Zipf)1935年通过对文献词频规律的研究,认为:若把一篇较长的文章中每个词出现的频次从高到低进行递减排列,其数量关系特征呈双曲线分布。
该定律应用于情报检索用的词表的编制和情报检索系统中文档结构的设计。
齐夫定律的应用:(1)文献标引和词表编制。
文献计量学

26 / 12
洛特卡定律的应用
1、在图书馆学情报学方面,一般是用它来预测 发表不同数目文章的著者数量和特定学科的文献数 量;
2、在预测科学方面,按照洛特卡定律,可以从 统计或计算科学著者数量来预测文献数量的增长速 度和文献流的动向,便于掌握文献的交流规律,同 时从文献计量学的角度出发,也可以预测科学家数 量的增长和科学发展的规模及趋势等;
25 / 12
洛特卡定律的局限性
LOTKA 定律是有局限性的,平方反比率是科学 生产率一般的理论估计,不是一个精确的统计分布, 它是对 CA 中收录的物理、化学两个领域十年间著 者(姓氏以A A 、B B 开头)抽样研究结果的推广。 后来的学者沿着这个思路进行的研究,有些数据符 合这个规律,有些则不符合。
核心区:所发表的论文来自数量不多但是效率最高 的期刊 相关区:数量较多的中等效率的期刊 非相关区:数量众多但效率最低的期刊
11 / 12
图像分析
此外,布拉德福还对收集的数据进行图像分析:取 上述等级排列的期刊数量的对数㏒为横坐标,以相 应的论文累计数R(n)为纵坐标进行图像描述,就得 到了布拉德福分散曲线。
20 / 12
基本内容
从洛特卡定律的产生过程可以看出,该定律的目的 和基本内容是:描述科学工作者人数与其所论著论 文之间的关系。 如果设f(x)为写了x篇论文的作者数占作者总数的 比例,则洛特卡定律可表示为:
C——某特定主题领域的特正常数。 洛特卡统计的指数a约:a=2,即“平方反比率”。
21 / 12
齐夫在做了大量艰苦的统计工作后,将单词以其出现 的频次的多寡进行了等级排队,经过计算,论证了描述词 的频率与等级序号之间关系的定量形式。
文献计量学

齐普夫定律
7 / 12
布拉德福定律
的含义:信息流的序性结构经验定律,
也叫文献分散定律。 布氏定律, 是英国文献学家布拉德福于1934 年在 《 Engineering 》 杂志上发表的《 Sources of information onspecific subjects 》 上提出的描述文分散规律的经验定律。 在其专著 《 文献工作 》 中,他又一次阐述了文献分散定律。 认为‚“在数量很大的文献体中,文献按某一规律的模型分散…… ”。 科学信息很大程度上是以科技期刊的形式出现的,借助期刊这 个载体得以交流传播,科技期刊对促进科学技术发展起着举足轻重 的作用。 布拉德福定律 (Bradford’ Law of Scattering)就是描述某一学 科论文在相关期刊中的分布规律。它定量的揭示了 ,今天仍然具有不可替代的理论价值和实 际意义。
10 / 12
区域分析
布拉德福定律的区域分析:如果将科学期刊按其登 载某个学科的论文数量的大小,以减序排序,那么 可以把期刊分为专门面向这个学科的核心区、相关 区、非相关区,3个区的论文数量相等,此时核心区、 相关区、非相关区期刊数量之比为:1∶a∶a² ,a 为 布拉德福常数。 核心区:所发表的论文来自数量不多但是效率最高 的期刊 相关区:数量较多的中等效率的期刊 非相关区:数量众多但效率最低的期刊
洛特卡定律的发展
一. 洛特卡定律的验证工作
1926年,洛特卡定律诞生; 1941年,Davis对洛特卡的结果进行验证; 1949年,Zipf在《人类行为和最小努力法则》中 肯定洛特卡定律的同时也指出它的不足之处在于只 是一种近似的计算方法,而不是一种严格意义上的 分布。 后来,众多的学者在不同的领域取得数据进行研 究,对洛特卡定律的验证、完善与发展起到一定的 作用。 (在洛特卡定律的基础上,普莱斯进一步研究了科学家人数
洛特卡定律、齐夫定律、布拉德福定律和普赖斯定律都是文献计量学的重要的经典

洛特卡定律、齐夫定律、布拉德福定律和普赖斯定律都是文献计量学的重要的经典洛特卡定律(Lotka's Law)、齐夫定律(Zipf's Law)、布拉德福定律(Bradford's Law)和普赖斯定律(Price's Law)是文献计量学中的重要经典定律,它们用来描述和分析作者、文章、期刊等在学术领域的分布和产出规律。
洛特卡定律,由美国数学家洛特卡于1926年提出,也被称为洛特卡-派尔分布。
该定律以作者产出的分布规律为基础,认为作者的产出量和其对应的排名呈反比关系。
具体地说,洛特卡定律指出,一个领域的作者人数(n)和其产出量(N)之间满足一个幂次关系:N=k/n^a。
其中,k和a是常数,n是排名。
这意味着,排名为n的作者的产出量约为总产出量的1/n^a倍。
洛特卡定律揭示了科学创新中存在少数人多产和多数人少产的现象。
齐夫定律,由美国语言学家乔治.齐夫于1949年提出,主要用来描述自然语言词频的分布规律。
根据齐夫定律,一个给定的词在自然语言中的出现频率(f)与该词在词频排名中的位置(r)之间大致呈反比关系:f = C/r^b。
其中,C和b是常数。
换句话说,词频排名越靠前,该词的出现频率越低,而排名越靠后,该词的出现频率越高。
齐夫定律适用于许多自然语言现象,如词频、城市人口、个人财富等。
布拉德福定律,由美国图书馆学家萨美鲁.布拉德福于1934年提出,用来描述同一领域内期刊的核心文献与边缘文献的分布规律。
根据布拉德福定律,核心文献的产出量与总产出量之间呈幂次关系。
布拉德福定律指出,核心文献的产出量通常占总产出量的一小部分,而边缘文献的产出量则占总产出量的较大部分。
具体而言,布拉德福定律认为,如果n篇核心文献的总产出量为N,那么边缘文献的总产出量通常是核心文献总产出量的a * n倍。
其中,a是常数,n是核心文献的个数。
布拉德福定律可用于期刊评估、信息组织和知识管理等领域。
普赖斯定律,由经济学家德鲁.普赖斯于1976年提出,用来描述科学家在科学研究中的产出分布规律。
洛特卡定律、齐夫定律、布拉德福定律和普赖斯定律都是文献计量学的重要的经典

洛特卡定律、齐夫定律、布拉德福定律和普赖斯定律都是文献计量学的重要的经典洛特卡定律(Lotka's Law)洛特卡定律,也称为洛特卡分布或洛特卡-布伦茨定律,是文献计量学中一种描述科学家(或作者)发表的论文数量与发表论文数量排名之间关系的经验定律。
该定律由库尔特·洛特卡(Kurt Lotka)于1926年提出,被广泛应用于研究科学家的科研产出。
洛特卡定律的数学表达式为:N(n) = K/n^α其中,N(n)表示在科学家排名为n的科学家所发表的文章数量,K是一个与科学领域有关的常数,α是一个介于1和2之间的指数。
根据洛特卡定律,科学家排名越高,他们发表的文章数量越少。
洛特卡定律的应用有助于了解科学家之间的科研产量差异以及科学合作网络的形成与演化。
在研究领域的科学家群体中,往往只有少部分科学家占据主导地位,发表了大量的论文,而大部分科学家则发表较少的论文。
这种不平衡的分布特征在许多领域得到了验证。
齐夫定律(Zipf's Law)齐夫定律,又称作齐夫定律分布,是一种描述单词、城市、公司等各种现象频率与其排名之间关系的经验定律。
该定律最早由美国语言学家乔治·金斯里·齐夫(George Kingsley Zipf)于1949年提出。
齐夫定律的数学表达式为:f(n) = N/Rank^(s)其中,f(n)表示排名为n的现象的频率,N是总现象的数量,Rank表示排名,s是介于0和1之间的指数。
齐夫定律被广泛应用于语言学、经济学、计算机科学等领域的研究中。
例如,齐夫定律可以用来描述自然语言中单词的频率分布,即常用单词的出现频率远高于不常用单词。
在城市研究中,齐夫定律可以用来解释城市的人口分布与城市规模之间的关系。
布拉德福定律(Bradford's Law)布拉德福定律,也称为布拉德福定律分布,是一种描述文献集合的核心和边际部分之间关系的经验定律。
该定律由英国图书馆学家萨缪尔·C·布拉德福(Samuel C. Bradford)于1934年提出。
科学计量学的几个定律

科学计量学的几个定律1.描述文献增长定律——普赖斯指数文献增长定律是描述文献数量随时间而有规律地增长。
令F表示文献数量,t表示时间,则文献增长定律的数学表达形式为:Ff(t)式中f(t)的总趋势满足t增大时,F也应相应增大。
描述文献增长规律的主要函数是:线性函数、指数函数、逻辑曲线函数等。
其中以D.J.普赖斯(Price)建立的指数增长定律最为著名F(t)aebt式中,F(t)为某年(t)的文献累积数量;t为时间(以年为单位);b为文献持续增长率,即每一年文献的增长率。
图:科学期刊与文摘期刊按指数增长示意图(据普赖斯)(半对数坐标,直线实际上指数曲线经对数转换后的结果)《化学文摘》年度文献累积曲线图:图:1600—1950年代科学发明的指数增长(据赵红洲)指数增长规律只有在没有限制或干扰的情况下才会出现,如果受到智力的、物质的和经济的限制,普赖斯指出文献增长更趋于逻辑曲线。
苏联学者弗勒杜茨和B.纳利莫夫提出了著名的逻辑曲线方程式FK1aebt式中,F(t)表示t年的文献累积量,K为F(t)增长的最大值,a与b为参数。
例:有A、B两个学科,研究其引用文献的情况。
(假设研究时间为2004年底)A学科:假设全部引用文献共674篇,其中发表于近5年的文献为409篇文献B学科:假设全部引用文献共2419篇,其中发表于近5年的文献为1796篇文献则A学科的普赖斯老化指数为:409/674=60.68%B学科的普赖斯老化指数为:1796/2419=74.25%Cy(某)n某格特卡指出“这两个例子表明的指数近似等于2.0。
”于是,上式被C.K.齐普夫(zipf)称为“倒平方定律”。
但是后人的继续研究表明,指数2仅是一个特例。
1974年,J.维拉奇,对不同的学科而言,n可以从1.2浮动到3.5以上。
此外,普赖斯的一项研究也支持了上述结果:60&的人,4.科技文献离散定律──布拉德福定律科学论文在科技期刊中的分布是不均匀的,少数期刊中“拥挤”着大量的论文,大量的期刊中“稀释”着少量的论文。
文献计量学六大规律

文献计量学:文献分布定律,布拉德福定律,词频分布定律,齐普夫定律,科学论文作者分布定律,洛特卡定律,文献增长,科学文献老化,引文分析,情报冗余等。
文献信息源的定量研究开始于20世纪初。
在20世纪70年代末,就形成了布拉德福定律、齐普夫定律、洛特卡定律、文献增长规律、文献老化规律、文献引用规律等六大规律,并在后来的研究中得到不断的完善与发展。
布拉德福定律:也称文献分散定律。
是由英国文献学家布拉德福(S.C.Bradford)1934 年首先提出。
它是定量描述科学论文在相关期刊中集中——分散状况的一个规律。
经过后来的许多研究者的修正和研究,发展成为著名的文献分布理论。
布氏定律的文字描述为“如果将科学期刊按其刊载某个学科领域的论文数量以递减顺序排列起来,就可以在所有这些期刊中区分出载文量最多的‘核心’区和包含着与核心区同等数量论文的随后几个区,这时核心区和后继各区中所含的期刊数成1:a:a 2 …… 的关系(a>1)。
”布氏定律主要反映的是同一学科专业的期刊论文在相关的期刊信息源中的不平衡分布规律。
布氏定律的应用研究也获得了许多切实有效的成果,应用于指导文献情报工作和科学评价,选择和评价核心期刊,改善文献资源建设的策略,确立入藏重点,了解读者阅读倾向,评价论文的学术价值以节约经费、节约时间,切实提高文献信息服务和信息利用的效率和科学评价的科学性。
洛特卡定律:是由美国的统计学家、情报学家洛特卡(A.J.lotka)研究出来的描述科学论文作者动态的最早的量化规律。
在科研活动中,不同人的科研能力及其成果著述数量肯定是不同的。
那么,在同样的一段抽样时间内,不同的科技工作者的论著数量分布有没有什么规律呢?1926 年,洛特卡发表了论文“科学生产率的频率分布”。
他在文中统计分析了化学和物理学两大学科中一段时间内科学家们的著述情况,提出了定量描述科学生产率的平方反比分布规律,又被称为“倒平方定律”。
其经典公式为:f(x) =(C为常数)上式的意义为:设撰写X 篇论文的作者出现频率为f(X) ,则撰写X篇论文的作者数量与他们所写的论文数量呈平方反比关系。
文献计量学第五章

5齐普夫定律的应用
5.1 在文献标引和词表编制中的应用 5.2 在情报检索中的应用 5.3 在科学评价中的应用
29
5齐普夫定律的应用
齐普夫定律有着普遍的意义和广泛的应用: 齐普夫定律有着普遍的意义和广泛的应用:
在广阔的社会领域,如科学文献出版量分布、城市人口分布、 地理特征分布、生物种属分布等,都普遍呈现出齐普夫分布 形式或特征; 齐普夫定律是解决社会科学分布现象的最好定律; 在图书馆学、情报学、信息管理和科技管理领域
30
5.1在文献标引和词表编制中的应用
5.1.1词表编制 词表编制 5.1.2自动标引 自动标引
31
5.2在情报检索中的应用
一个文献集的词表通常服从齐普夫分布; 一个文献集的词表通常服从齐普夫分布; 如果有N篇文献,某一个检索词涉及其中的 篇文献, n篇,那么给这个词以log(N/n)+1的权 ( ) 将取得较好的检索效果。 值,将取得较好的检索效果。
12
设有一包含N个词的文献 设有一包含 个词的文献(N>5000),统计 个词的文献 统计 其中每个词的出现频次( ), ),按频次递减 其中每个词的出现频次(F),按频次递减 顺序将它们排列起来, 顺序将它们排列起来,并用自然数给这些 词编上等级序号( ),那么每个词的等级r ),那么每个词的等级 词编上等级序号(r),那么每个词的等级 与相应的频次F 之积为: 与相应的频次 r之积为:Fr r=C = C为常数,但不是绝对不变的恒量。 为常数, 为常数 但不是绝对不变的恒量。
16
2.4齐普夫定律的分析 齐普夫定律的分析
优点:一般来说, 优点:一般来说,齐普夫定律较符合西文文献 中词频分布的实际情况, 中词频分布的实际情况,定量揭示文献信息的 词频分布规律; 词频分布规律; 局限性; 局限性;对出现频次特别高的词和特别低的 词,不能圆满地反映其分布规律。 不能圆满地反映其分布规律。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
引用的动机
• 预告或揭示新著作 • 对散布不广、索引不良或未被索引的著作,提供检 索线索 • 证实有关数据和事实 • 鉴定引文的原始著作 • 鉴定原始著作中的概念和术语 • 否认他人的著作或者观点 • 对著者声称著作或观念先于他人的事实,予以驳斥。
引用文献的类型
美国社会学期 刊 动机与原因 背景资料 研究方法 比较 争辩与建议 48.1% 11.9% 14.8% 5.3% 11.4% 美国传染病 学期刊 33.4% 11.4% 9.1% 30.8% 12.6% 图书馆研究 36.4% 5.2% 21.4% 19.7% 4.6% 美国教育研 究期刊 47.0% 4.7% 25.1% 9.2% 9.9% 人口统计 学 49.5% 11.3% 14.2% 8.0% 8.2%
引文分析的基本假设
• 文献的引用表示著者确实曾经使用过 • 文献的引用是文献价值、重要性、影响力的 指标 • 最好的文献才被引用 • 来源文献和被引文献之间内容必然有相关性 存在
引文分析的盲点
• 引文的自引(self-citation),即著者引用自己的 著作所产生的计量问题 • 合著,是多位著者联合发表的论著在计量时会遇到 的问题 • 著者同名同姓,造成的错误
引文分析的概念
• 实质:一种文献计量学研究方法 • 方法:
– 各种数学及统计学的方法 – 比较、归纳、抽象、概括等逻辑方法
• 对象:科学期刊、论文、著作等 • 指标:引用或被引用现象 • 目的:揭示其数量等特征和内在规律
引文分析的类型
原始资料
历史回顾 其他 合计
2.6%
0.3% 7.0% 100.0%
1.5%
6.9%
4.0%
1.0%
5.8%
1.2% 100.0%
1.7% 100.0%
3.1% 100.0%
3.0% 100.0%
人文学研究的引用特性
• • • • • • 被引文献主题较为广泛 被引文献所使用的文种较多 被引文献所涵盖的时间较长 被引文献的资料类型较为复杂 被引文献中图书的比率较高 文献老化的情形并不象科技文献那样明显
• 马太效应的影响
–例如某一期刊因为发表名人的文章而为众人所引用,以至于 引起连锁反应,结果被引用率很高 –马太效应的心理作用,影响文献引用的真实性
大纲
• • • • • • • 引文分析的定义 引文统计与计量指标 引文分析的主要工具 科学引文的结构与分析 科学文献的自引分析 科技文献的双引分析 引文分析法的应用
来源文献 Source
Reference
被引文献1 被引文献2 Cited paper
Citing paper
引用文献
被引文献3
被引文献4 citation
引用的动机
• • • • • • • 尊敬学科开创者 赞誉相关研究工作的成就 鉴别研究方法、设备等等 提供背景资料 修正自己的著作 批评他人的著作 为自己的著作提供佐证
• 信息检索
– 引用文献可以补充关键词的功能,代表文献的主题, 用来发展文献检索的策略,以辅助传统的信息检索。
引文分析的应用
• 使用者研究
– 通过对研究者著作中参考书目的分析,探讨研 究者引用文献的资料类型、年代、主题
• 学科历史发展研究
– 引文分析可以对于文献的出版与参考书目的关 系作分析,利用文献追寻事件发生的历史,分 析事件彼此之间的关系与相关性
文献计量学
文献引用规律
科技文献的组成
• • • • 题名 作者 摘要 正文
• 引用文献 • 参考文献
引用
• 信息使用者引用前人的观点或行为,称为 “citation”。
• 在科学技术的发展历史上,任何一门学科或 者研究的发展和创新,都是建立在前人的研 究成果基础之上。
引用关系
• 一个引用的行为包括两个对象:一个是来源 文献;另一个是被引文献。
• 著者姓名相似或者异形,这种现象在翻译的时候最 常发生 • 引文来源的类型不同,也会造成计量上的差别
引文分析的盲点
• 引用时效消失,即众所周知的学说、理论无需再特 别注明,因而计量时降低了原著的影响力 • 引文数量的起伏不定 • 不同的研究领域有不同的引用文献的行为 • 参考资料漏列
• 英文文献的优势,使得英文文献被引用几率较其他 语言高 • 著者偏好引用美国文献
引文分析的盲点
• 性别歧视,即著者习惯于引用同性别著者的作品 • 引用文献的本义不同,因而 造成计量上的偏差
• 主题的新颖度,会影响学者的研究兴趣的高低,同 时也影响到引用文献计量 • 研究方法和态度的改变,也会造成引用文献计量分 析的差别
引用文献时的限制
– J.W. Coffman, 1985
引文分析法(Citation Analysis)
• 是文献计量学中的重要研究领域 • 引文分析就是探讨分析来源文献(source works)及被引文献(Cited works)之间的关系 • 最重要的特征就是利用各种数学、统计学的方 法,以及比较、归纳、抽象、概括等逻辑方法, 对于期刊、论文、著者等各种分析对象的引用 或被引用现象进行分析。 • 通过引文分析,研究者可以了解某学科领域的 发展状况、学科领域内文献使用的特性、学科 领域内文献彼此之间的关联性,以及学科领域 研究的未来发展趋势等等。
• 外在的限制
– 资料的汇集无法齐全 – 引用文献的来源过于集中
• 内在限制
– 作者个人的教育水平 – 作者个人的语言能力 – 作者个人对主题的认知和了解
引文分析的应用
• 引文模式的研究
– 引文分析可对于文献的引用模式进行研究
• 科学评价
– 引文分析可以用来作为对于论文、学者、研究单位 的评价工具,并常被用来评价该学科的影响力和生 产力
互联网的世界
• 互联网的虚拟文献空间 • 超链接的作用
引用的争议
• • • • 自我引用 引用错误 均等引用 二次引用
引文分析
文献计量学07
引文分析法的局限性(续)
• 引文关系上假联系的影响
–两篇论文可能基于不同原因引用同一篇文章,一个可能是引 用其方法;另一个可能是引用其结果,那么这两篇文章在内 容上的关系可能就是虚假的 –目前引文分析中,对于这些引用都是同等看待,不加区分, 这也容易造成假关系