计算机文献检索的基本方法与策略
文献检索复习题名解简答

文献检索复习题一、名词解释1.二次文献信息:二次文献也称二级文献,它是将大量分散、零乱、无序的一次文献进行整理、浓缩、提炼,并按照一定的逻辑顺序和科学体系加以编排存储,使之系统化,以便于检索利用。
2.学科化服务:指图书馆设专人与某一学科专业作为对口单位建立联系,在院系、学科专业与图书馆之间架起一座桥梁,相互沟通,为用户主动地,有针对性的收集和提供文献信息的服务。
3.网络电子图书:以电子图书形式发行,以互联网为流通渠道,以数字内容为流通介质,以网上交易为主要支付手段的图书。
4.专利文献:是实行专利制度的国家、地区及国际性专利组织在审批专利过程中产生的官方文件及其出版物的总称。
5.引文分析法:引文分析法,就是利用各种数学及统计学的方法进行比较、归纳、抽象、概括等的逻辑方法,对科学期刊、论文、著者等分析对象的引用和被引用现象进行分析,以揭示其数量特征和内在规律的一种信息计量研究方法。
6.书目数据库:是指存储某些或某一个领域的二次文献书目数据的一类数据库。
7.个性化导读服务:又称阅读指导服务,是图书馆针对各类型读者,采取各种措施主动诱导读者的阅读行为,提高其阅读意识,阅读能力和阅读效益的一种教育活动。
8.双词频控制检索:指对一个检索项中的两检索词分别实行词频控制,也就是一个检索项使用了两次词频控制。
是针对单项双词组合检索而设置的。
9.专利法:专利法是确认发明人(或其权利继受人)对其发明享有专有权,规定专利权人的权利和义务的法10.网络信息资源:网络信息资源是指通过计算机网络可以利用的各种信息资源的总和。
具体的说是指所有以电子数据形式把文字、图像、声音、动画等多种形式的信息存储在光、磁等非纸介质的载体中,并通过网络通信、计算机或终端等方式再现出来的资源。
11.参考数据库:指为用户提供信息线索的数据库,它可以指引用户获取原始信息。
参考数据库包括书目数据库(Bibliographic Database)和指南数据库(Referral Database)。
利用文献检索获取信息的方法和步骤

利用文献检索获取信息的方法和步骤
利用文献检索获取信息的方法和步骤可以分为以下几步:
1.明确检索目的:明确你所需要获取的信息的具体内容和目的,以便更好地进行检索。
2.选择文献检索工具:选择合适的文献检索工具,常见的文献
检索工具包括学术搜索引擎(如Google学术、百度学术)、
数据库(如PubMed、Web of Science、Scopus)等。
3.构建检索策略:根据检索目的,构建检索策略,包括确定关
键词、关键词组合、限定条件(如时间范围、语言、文献类型)等。
4.进行检索:在选定的文献检索工具中,根据构建好的检索策
略进行检索,获取相关文献的列表。
5.筛选文献:根据文献的标题和摘要,初步筛选出与检索目的
相关的文献。
6.评估文献质量:对筛选出的文献进行进一步评估,包括查看
文献中的方法、数据来源、研究设计等,判断其质量和可靠性。
7.阅读文献:对评估通过的文献进行仔细阅读,理解其中的研
究内容和结论。
8.提取所需信息:从阅读的文献中提取所需的信息,如数据、
实验方法、结论等。
9.整理和分析信息:将提取的信息进行整理和分析,根据需要进行归纳总结、比较研究等。
10.撰写研究报告:根据所获取的信息,撰写研究报告或其他相关文档。
总之,利用文献检索获取信息需要明确目的、选择适当的检索工具、构建检索策略、进行检索、筛选文献、评估质量、阅读文献、提取信息、整理分析并最后撰写报告。
这一系列步骤能够帮助研究者更有效地获取所需的信息。
文献检索与利用_02文献检索基础知识教材

信息检索类型划分示意图
文献线索检索 文献信息检索 依检索结果内容 划分 信 息 检 索 类 型 依信息存储与 检索方式划分 数据信息检索 全文检索
事实信息检索
手工检索
计算机检索
二、检索工具类型
文献检索工具
题录(Title) 索引(Index) 文摘(Abstract) 文献数据库(Database)
代码语言
Code 代表某种意义的符号标识系统
规范化的人工语言
规范化的人工语言
主题语言--叙词 Descriptors
对概念进行严格的词义限 定、词形规范、词类规范, 具有概念组配和词间语义 关系显示功能。
主题语言--关键词
Key Words
直接从文题、文摘中抽取 出的具有实质意义,表达 主要内容、起关键作用的 词语。
检索语言类型
描述文献 外表特征
•
描述文献 内容特征
•
• • • • •
题名 作者(地址) 出处 序号 文献类型 原文语种
检索语言
•
分类语言 主题语言
• •
叙词 关键词
•
代码语言
描述文献内容特征检索语言
分类语言
Classification
按文献内容所属学科分门别 类进行 组织,由总到分、由一般到 具体。 由简单到复杂一个大类产生 许多子 类目,子类目向上层层隶属, 向下 级级派生,形成一个严谨有 序的直 线型等级分类体系。
3、数据库的利用:是存贮的逆过程。
计算机检索基本方法
计算机检索的查寻过程实际上就是将用户的 检索提问与数据库的检索标识相比较决定取舍的 过程,两者比较结果相一致者即为命中。命中的 中间结果可以再次与新的提问式相比较匹配。一 个检索课题通常经过如此多次的修饰匹配检索, 直至最终命中检出的文献符合用户的需求。
计算机检索基本知识

3、私营公司 例如:英国Derwent Derwent公司 例如:英国Derwent公司 美国Knight Ridder公司 Knight美国Knight-Ridder公司 Mead Data Contral OVID公司 OVID公司 Information, Silver Platter Information,Inc. 传统新闻/ 4、传统新闻/出版机构 例如: 德国Springer Springer出版社 例如: 德国Springer出版社 美国Join Wiley电子出版公司 美国Join Wiley电子出版公司 荷兰Elsevier Elsevier科学出版社 荷兰Elsevier科学出版社
数据库类型: 数据库类型:
按存储数据的类型分:数值型、事实型、词典型、书目型、 按存储数据的类型分:数值型、事实型、词典型、书目型、 全文型 按存储的介质分: 按存储的介质分: 光盘数据库:数据存储在计算机的光盘或光盘塔上, 光盘数据库:数据存储在计算机的光盘或光盘塔上,因而存 储量有限, 储量有限,更新速度慢 网络数据库:数据存储在服务器的硬盘上,存储量大, 网络数据库:数据存储在服务器的硬盘上,存储量大,更新 速度快
文章号 001 002 ……
篇名 asd bys vcx
文章号 001 002 ……
作者 Li Wang deng
文章号唯一, 文章号唯一,且 索引文档与主文 档的文章号一一 对应
索引文档1 索引文档1: 篇名索引 篇名索引
索引文档2 索引文档2: 作者索引 作者索引
文章号
篇名 asd bys vca
输出端),网络(或通信电缆),数据库存储服务器 输出端),网络(或通信电缆),数据库存储服务器 ),网络 ),
服务器(数据库终端) 服务器(数据库终端)
信息检索的思路方法与技巧

学术机构官网
直接访问相关学术机构、研究机构的官方 网站,获取最新研究成果、研究报告等。
专利信息查询与分析方法
01
专利检索系统
02
专利分析工具
利用国家知识产权局等提供的专利检 索系统,通过关键词、申请人、发明 人等信息进行专利检索。
使用专门的专利分析工具,如智慧芽 、IncoPat等,对检索到的专利信息 进行深度分析,包括技术趋势、竞争 对手分析、法律状态等。
03
专利地图
制作专利地图,将相关领域的专利信 息以可视化的方式呈现,便于快速了 解技术布局和竞争态势。
竞争情报收集与整理策略
行业报告与统计数据
收集行业协会、市场研究机构等发布的 行业报告和统计数据,了解行业发展趋
势和竞争格局。
专家访谈与调研
通过专家访谈、市场调研等方式,获 取关于竞争对手的一手信息和行业内
信息检索发展历程
手工检索阶段
01
早期的信息检索主要依赖手工方式,如图书馆目录、卡片式索
引等。
计算机化检索阶段
02
20世纪60年代开始,计算机技术在信息检索领域得到应用,出
现了计算机化的检索系统和数据库。
网络化检索阶段
03
90年代以后,随着互联网技术的普及,网络搜索引擎逐渐成为
信息检索的主要工具。
信息检索应用领域
跨语言信息检索挑战与机遇
语言障碍 机器翻译技术 多语言资源整合 跨文化交流
不同语言之间的词汇、语法、语义等差异,给跨语言信息检索 带来挑战。
利用机器翻译技术将不同语言的文本转化为同一种语言,降低 语言障碍的影响。
整合多种语言的信息资源,提高跨语言信息检索的覆盖率和准 确性。
通过跨文化交流,了解不同文化背景下的信息需求和表达方式 ,提高跨语言信息检索的针对性和实用性。
文献检索第二课

截词符
截词方式有多种。 按截断的位臵分:后截断、前截断、中间截断。 按截断的字符数量分:有限截断和无限截断。
后截断,是将截词符号放在一个字符串的 右方,满足截词符左方所有字符的记录都 为命中记录。从性质上讲,这是一种前方 一致的检索。 前截断,是将截词符放在一个字符串的左 方,表示其右的有限或无限个字符不影响 该字符串的检索,或者说这是一种后方一 致检索,对汉语中的复合词组的检索非常 方便。 中间截断,前截断和后截断可以结合使用 , 中间一致 。
优先算符
优先算符用()表示,在含有多个运算的 检索式中,可以用()将需要优先运算的 部分括上,系统会优先运算()中的部分, 然后在按照not, and, or的顺序进行运 算。如: (计算机 or 电脑) and 病毒
禁用词
在数据库中,下列九个词不能作为检索词使用, 这些词称为禁用词。 禁用词有: AN、AND、BY、FOR、FROM、OF、TO、 THE、WITH
6.信息检索基本技术
逻辑算符 位臵算符 截词符 基本索引字段标识符 优先算符
布尔逻辑算符
定义:表达检索提问的各概念之间的逻辑关系。 逻辑算符有三种: AND (与)、OR(或)、NOT(非)。 三种算符可同时在一个检索式中使用,也可单独使 用。 使用逻辑算符时应注意的事项: ①逻辑算符的优先级为:NOT、AND、OR,可用括号 来改变优先顺序。 ②在逻辑组配时,算符的两侧必须各留有一个空格。
(4)全文数据库
(5)图像数据库 (6)多媒体数据库
电子期刊数据库 电子图书数据库 检索数据库 学位论文数据库 专利标准数据库 会议论文数据库 学习考试平台 视频数据库 试用数据库
5、计算机检索原理
1.计算机检索的原理就是利用计算机将用户所提出 的检索标识与检索系统中的标引标识进行比较, 并将匹配的文献提出作为命中。 2.标引标识是在信息加工过程中产生的。标引就是 将信息中的具有检索特征的词语或标志抽出并按 照一定的规范制成索引的过程。 3.检索标识是检索者根据对课题的分析,制定出的 既能反映课题的要求,又符合计算机检索要求的 检索语言,其中包括适当的检索词,以及合适的 逻辑算符和位臵算符。
文献检索复习知识点

第一、二章定义:(1)信息P3 广义:信息源于世界一切事物及其运动,它是事物存在状态及其运动形式的特征;狭义:信息是人们对事物存在状态及运动形式的陈述,它常以语言、文字、图形、数据等形式表现出来,供人们传递处理和利用。
(2)文献(记录有知识的一切载体) (3)信息检索P49 :就是根据一定的需要,运用科学的方法利用检索工具或参考工具书。
从大量的信息集合中查找特定的信息或信息线索的过程。
(4)信息检索语言:是指用来描述、组织信息记录,进行信息检索的标志系统知识点:信息的分类(按加工深度分)P6一次文献信息:一切原始的信息包括决议、报告、记录、心得、经验、消息、创作和研究成果等二次文献信息:对原始文献信息加工处理后的信息包括卡片、目录、索引、文摘等检索工具书三次文献信息:通过二次文献信息提供的线索多某一范围内的一次信息进行分析研究而加工成的第三个层次的文献信息包括手册、百科全书、年鉴、名录、指南等参考工具书(能区别,能举例)文献检索分类:P49按检索方式分:手工检索机器检索按检索对象分:文献检索事实检索数据检索文献检索如:查找“会计电算化在企业中的应用”方面的信息或文章。
事实检索如:禽流感最早出现在哪些国家数据检索如:某一年我国的自然出生人数和死亡人数。
(注:多出现在填空、选择、判断题,要会举例,会区别)信息检索主要方法:P51-521)顺查法(时间上,远→近)如撰写中国收税史的问题,就是需要从古代、近代、现代和当代各种有关信息中柱期查找才能查全常用法:2)逆查法(时间上,近→远)3)抽查法(抽查一定时期的资料)例如如果要获取电子计算机的有关信息,只要把目光聚集到20世纪40年代以来的数十年时间就可以了。
追溯法;循环法:信息检索效果评价P53查全率查准率漏检率误检率响应时间输出方式5、检索语言按基本属性分为P57分类检索语言(在我国,分类检索语言以《中国图书馆分类法》为代表)主题检索语言《中图法》知识:P60-61将所有知识分为五个基本部类:马克思主义、列宁主义、毛泽东思想、邓小平理论部类;哲学、宗教部类;社会科学部类;自然科学部类;综合性图书部类。
计算机信息检索

2022/9/5
第4章 计算机信息检索
15
常见辅 助 字 段
段码名称 英文段码全称
作者
Author
作者单位 Author Affiliation
期刊名称 Serials Title
语种
Language
英文段码简称
AU AF ST LA
2022/9/5
第4章 计算机信息检索
16
3.2.4 文献信息数据库-检索原理
2022/9/5
第4章 计算机信息检索
4
机检与手检的比较
计算机情报检索的优点在于速度快,耗时少,查 阅范围广,查到的信息新, 专指性强。计算机检索 适用于最近20年内文献以及动态性信息的检索。
计算机情报检索的缺点是追溯时间有一定限制, 检索费用比较昂贵。
手工检索的优点是检索时间和检索范围都不受限 制,且费用低廉。手工检索尤其适用于学术性和 文科文献的检索。
文献.
概念分析:硬件 软件 逻辑关系:相互排斥关系
检索策略:硬件不包含 软件
hardware NOT software
2022/9/5
第4章 计算机信息检索
26
3.3.1 检 索 技 术
2 、优先算符:括号()
计算机优先执行括号内的检索式; A OR B (检索结果即集合号为S1) C OR D (检索结果即集合号为S2) S1 AND S2
2
计算机信息检索的定义
计算机信息检索,简称机检,是
指利用计算机查找文献信息的 过程。
2022/9/5
第4章 计算机信息检索
3
计算机信息检索的发展历史
四个主要的发展阶段 第一阶段:50年~ 电子管 第二阶段:65年~ IC,联机检索 第三阶段:85年~ DOS,光盘网络 第四阶段:93年~ WINDOW,互联网
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
计算机文献检索的基本方法与策略
>计算机信息检索,实质上由计算机将输入的检索策略与系统中存贮的文献特征标识及英逻辑
组配关系进行类比、匹配的过程。
由于信息需求本身具有不确左性,加之对数据库中的文献特
征标识不能充分了解,以及系统功能的某些限制,都会不同程度地影响检索效果。
但是只要遵
循一左的检索步骤,制圮良好的检索策略,便可以减少各种不利因素的影响,尽可能地使检索
提问标识与信息需求和检索系统保持良好的一致性,从而在系统中检索岀满足用户需求的信。
1.检索步骤
(1)弄淸信息需求,明确检索目的
信息需求是人们客观上或主观上对各种情报信息的一种需求。
这种需求是人们索取情报信息的岀发点,也是联机信息检索时选择数拯库、确定检索策略以及评价检索效果的依据。
不同类型的课题,英信息需求的范羽和程度也不尽相同。
例如,申请发明、申报成果奖励、鉴左及立项类的查新课题,往往需要全而地收集某一主题范国的文献信息,这类课题具有普查、追溯的特点,应着眼于查全;而对于科研、生产中为解决某一特左问题的攻关课题,往往只要求检岀的信息对自己的研究有所帮助,而对査找的文献范囤不需要很广。
因此,这类课题则要求查准。
如何对信息需求进行正确的分析呢?不妨从信息需求的形式和内容两方而来分析。
有关信息的
形式需求要明确的问题有:
①明确检索目的。
检索是为了申报成果,还是为了了解学科的最新进展等等,据此以制左出符合査全或査准要求的检索策略。
②明确所需的文献量。
规泄所需文献数量的上限,对以后确左检索策略和控制检索费用是一个很重要的参数:同时还需对检索课题可能有的相关文献量做岀估计。
③明确所需文献的语种、年代范弗I、类型、作者或其他外表特征,这对限定检索范用也很重要。
关于信息的内容需求要明确的主要问题有:
①明确检索课题内容涉及的主要学科范用,这对以后选择合适的数据库很重要。
②分析检索课题的主要内容,用自然语言来表达这些内容要求,这是联机检索中较为重要的环节。
(2)选择数拯库,确立检索途径
分析了信息需求后,可根据已知的条件来选择合适的数据库,这一步隐含了检索系统的选择。
如欲检索国外专利文献,则可以检索国内的BDSIRS系统的GWZL库。
但其提供的检索途径及报道最新专利文献方而不及美国的DIALOG系统的WPI库,当检索要求较髙时,仍常选用美国的DIALOG系统。
选择数据库时,首先应了解:
①数据库收录的信息所涉及的学科领域:
②收录的文献类型,最好能进一步了解文献的主要来源:
③收录的时间范羽:
④数据库的基本索引及辅助索引,它们提供的检索途径及检索标识的特点:
⑤数拯库的检索费用,包括机时费和每篇记录的打印费。
数据库选左之后,其提供的检索途径也随之确左,并可根据已知的条件来确怎某一个或几个检索途径。
由于计算机存贮容量大和运算速度快,又对比较多的字段建立了索引,它不仅可以从手检中常用的主题词、分类号及作者等途径检索,而且可以从篇爼、文摘的自由词、文献类型、期刊名称等途径进行检索,并且还能利用各种途径的组配进行交叉检索,这些都是手工检索所不及的。
(3)确定课题的槪念组面和检索标识
弄淸信息需求,了解了检索课题的主要内容后,确定其概念组而和检索标识是重要的一步。
当
检索课题包含较复杂的主题内容时,应明确组成课题内容的几个概念组面,并通过一定的逻辑
组配形成一定的复合概念或概念关系来表达用户的信息需求。
确左了课题的概念组而,还须将概念组而转换成相应的为系统所识别的检索标识,检索标识的
表示应符合两方而的要求,一是切题性,即检索标识反映信息需求;二是匹配性,即检索标识
和检索系统的存贮特征标识相一致。
检索标识一般有如下三种形式:
①规范词:从待检数据库的叙词表或主题词表中选取规范化的词或词组,因为词表是数据库标引和检索必须共同遵循使用的检索语言。
为了使检索提问标识与文献特征标识相一致,获得最
佳的检索效果,应优先选用规范词。
②规范化的代码:索引代码是数据库系统为某些主题范畴或主题概念规定的索引单元。
这类单元有很好的专指性,是一种有较好检索效果的文献特征标识。
如国际专利分类号IC=, PTS 数据
库的产品代码PC=,标准工业代码SC =等等。
③自由词:使用自由词检索能够充分利用系统的全文査找功能。
规范词或代码的选择需利用词表或分类表等进行自然语言到规范语言的转换,而标引人员和检索人员的思路不一致时也会影
响检索效果。
此时,用自由词在篇爼、文摘甚至全文中查找显露出一泄优越性,自由词直接、
简明是科技人员易为接受、较为常用的一种方法。
④拟立检索提问式,确定具体的査找程序
检索提问式,是指讣算机信息检索中用来表达用户检索提问的逻辑表达式,由检索词和各种布尔逻辑算符、位宜算符以及系统规泄的其他组配连接符号组成。
从某种意义上讲,检索式是检索策略的具体体现,它的质量好坏,将关系到检索策略的成败。
检索标识确定后,接下来就是用一泄的组配关系把各个检索标识联接起来组成检索提问式,并表达齐种复杂的槪念关系,以准确地表达信息需求。
要注意各种逻辑运算符、位置算符、截词符等的使用方法,如位宜算符的松紧程度及先后次序,还要考虑各个检索项的限左要求及输入的次序,以及根拯反馈信息对检索式进行调整等,参见检索策略部分。
2.检索策略
(1)检索策略的概念
所谓检索策略,就是在分析课题内容具有哪些概念单元的基础上,确定检索系统、检索文档、检索途径和检索词,并科学安排各检索词之间的位置关系和逻借关系以及査找步骤等。
检索策略考虑得是否周全,直接影响文献的査全率和查准率。
(2)制定检索策略的步骤
制定检索策略的前提条件是明确数据库及整个检索系统的基本性能。
不同数据库收藏内容、标引方法和检索方法是不同的,不同检索系统配备不同的技术性能和操作符。
在制泄检索策略之前对数据库有几条检索途径,这些途径的标引所遵循的规则都必须有比较淸醒的认识。
如果在提问式中列出系统没有的检索点,是不可能检出文献的。
(3)制立检索策略的基础是弄淸检索课题的内容要求和检索目的。
在这一基础上,才能对检索课题进行槪念分析,如果课题属单一槪念就用单个检索词表达,若课题概念复杂,就把复杂槪念分解为若于个槪念单元,再用逻辑运算符把表达概念单元的检索词组配起来。
将概念单元转换为检索词时,应尽量选用规范化词。
检索新课题、边缘学科或是比较含糊的概念时,应特别小心,因为这些词往往没有收入系统,这里应从专业范畴出发选用本学科内具有检索意义的关键词即自由词,不然就会带来误检或漏检。
(4 )检索策略构成的关键是正确地选词和配备逻借符。
< 5 )调整检索策略。
在计算机中检索中,常常会出现文献资料过少甚至为零,或文献资料过多的情况。
作为检索人员,应与用户进行分析,及时调整检索策略,以使检索达到令人满意的效果。
文献资源过多或过少,均可通过增加检索项,运用布尔逻辑的组配,以增加或缩小检索范围,达到减少或增加命中文献的目的。
通常来说,逻辑与总是缩小检索范囤,达到查准的目的;逻辑或总是扩大检索范用,达到查全的目的。
而逻辑非总是排它检索,缩小检索范困,达到查准的目的。
3.检索效率
检索效率就是利用检索系统(或工具)开展检索服务时产生的有效结果。
它直接反映检索系统的性能,影响系统在信息市场上的竞争能力和用户的利益。
检索效率包括技术效果和社会经济效果两个方而。
技术效果主要指系统的性能和服务质量,系统在满足用户的信息需要时所达到的程度。
社会经济效果是指系统怎样经济有效地满足用户需要,使用户或系统本身获得一左的社会效益和经济效益。
我们以下讨论的主要是系统技术效果的评价问题。
在检索中最理想的是查全率和查准率都达到100%,就是数据库中收录的全部相关文献都被检索出来,而且检索出来的文献全部都是相关文献。
但事实上,检索中有许多因素使这个指标很难达到,总存在一左的误差。
那么就出现了两个评价误差的指标漏检率和误检率。
在评价工作中,最常用的是査全率和査准率,而且应同时使用,否则就难以反映检索系统的功能及检索结果的效率。
查准率和查全率结合起来,描述了系统的检索成功率、查全率和查准率之间有着互逆的关系,就是说査全率提高,査准率就下降,反之亦然。
在计算机检索中,一般认为查准率为60—70%、查全率为40—60%是较为理想的。
系统的收录范伟I、索引语言、标引和检索等都是影响查全率和査准率的因素,这里就不再一一细讲。