《信息检索》考试重点剖析
信息检索考试重点

信息检索考试重点1. 按物质载体和记录形式划分,信息可分为印刷型、缩微型、声像型、机读型和手写型。
2. 文献是指“记录有知识的一切载体”,情报是“作为交流对象的有用知识”3. 内容、符号系统、物质载体、记录方式是构成文献的四个基本要素。
4. 按出版形式和内容的不同,信息可分为图书、期刊、报纸和特种信息。
特种信息也叫做灰色信息,包括:专利信息、学位论文、标准信息、会议信息、科技报告、政府出版物、产品样本资料和档案。
5. ISBN是国际标准书号,由13位数字组成,分成四段:组号(国家、区域、语言的代号);出版者号;书序号;检验码。
ISSN号是国际标准出版物号,由8位数字组成,分两段:分序号、校验码。
6. 图书按用途可分为3种类型:阅读用书,参考工具书,检索用书7. 按检索方法划分,检索工具可分为手工检索工具、计算机和网络检索工具。
8. 知识产权范围主要包括专利权、著作权和商标权9. 知识产权具有两大功能:保持功能和公开功能10. 广义的检索包括信息的存储和检索两个过程。
11. 检索方法分为常规法、引文法(追溯法和检索引文法)和交替法三种12. 检索途径可以分为主题途径、分类途径、责任者/著者途径、号码及其它途径13. 手工检索工具中的著录项目在数据库中称为字段,字段的集合称为记录。
14. 文献数据库内英文段码Abstract对应的中文段码名称是文摘。
Keyword对应的中文段码名称是关键词。
15. 按国际上通用的分类法,数据库分为参考数据库、源数据库和混合型数据库。
16. 中国现行主要的图书分类方法是《中国图书馆分类法》,它属于体系分类语言。
17. 《中图法》第四版将图书分为5部,22大类,L.M.W.Y没有,计算机属于TP类, 属于二级类目。
18. 索书号主要由分类号和著者号组成。
19. 在因特网中,政府机构和商业组织的二级域名分别是GOV、COM。
域名.hk所指的国家或地区是香港;.org的含义是非营利组织.20. 公告号为8510961的专利是发明专利,专利号为200420011414.6的专利是实用新型专利;申请号为99322746.5的专利是外观设计专利。
信息检索考试重点

信息检索考试重点信息检索考试类型:闭卷考试题型:单选、判断、名词解释、应用(信息检索过程)考试重点:1、文献:文献是记录知识的一切载体。
凡是用文字、图形、符号、声频、视频记录下来,具有存贮和传递知识功能的一切载体都称为文献。
2、文献类型:印刷型缩微型视听型机读型3、知识:是在人们对信息进行分析的基础上提供的解决方案。
知识管理的主要目的是使信息能够服务于人们的行动和决策。
4、信息:是凭借人的认知能力和经验对数据进行选择、评价、组织和分析的结果。
信息管理主要是解决数据的相关性、系统化和规范化的问题。
5、数据:指离散孤立的互不关联的事实、文字、数据和符号, 这些资料之间缺乏相关性。
6、文献级次:零次文献(灰色文献):指非正式出版物或非正式渠道交流的文献。
一次文献(原始文献):凡是著者在科学研究,生产实践中根据科研成果,发明创造撰写的文献,称为一次文献。
一次文献是文献的主体,是最基本的情报源,是文献检索的对象。
二次文献:它是将分散、无序的一次文献,按照一定的原则进行加工,整理、提炼、组织,使之成为便于存贮、检索的系统。
如目录等检索工具。
三次文献:它是在利用二次文献的基础上,选用一次文献的内容,进行分析、概括、综合研究和评价而编写出来的文献。
它又可分为综述研究类和参考工具类两种类型。
前者如动态综述、学科总结、专题述评、进展报告等;后者如年鉴、手册、大全等。
三次文献源于一次文献,又高于一次文献,属于一种再创性文献。
三次文献一般来说系统性好,综合性强,内容比较成熟,常常附有大量的参考文献,有时可作为查阅文献的起点。
高级文献:计算机型文献,如:PTF HTM等。
7、十大文献源1 图书(Books)2 期刊(Periodicals) 或(Journal,Magazine) 3科技报告仃echnical reports) 4 政府出版物5会议文献(Confere nee papers) 6 专利文献:(patents) 7 学位论文(ThesisQissertati on)8 技术标准(Technical standards) 9 科技档案(document) 10产品样本&文献检索:从大量的文献中查找与特定课题有关的文献的过程。
信息检索考试重点

信息检索考试重点 TTA standardization office【TTA 5AB- TTAK 08- TTA 2C】1种类型。
3、按文献的加工深度划分,文献分为零次文献、一次文献、二次文献和三次文献。
4、常用的书目检索途径有题名、作者、分类号、主题词等。
5. 图书馆馆藏文献分为:两种。
6. 利用文献末尾所附的参考文献为线索,查找原始文献的检索方法是引文追溯法。
7. 我国专利法规定:发明专利的保护期为 20 年,实用新型专利 10 年,外观设计专利保护期为 10 年我们常见的文献信息的出版、发布及外在表现形式特征,可以把文献资源归结为118、专利是一个集技术、经济、法律于一体的概念。
9、根据我国国家标准,文献是。
文献信息检索的全过程包括文献信息的( A )两个过程。
A.存贮和检索B.标引和编排C.存贮和编排D.存贮和标引2、书目数据库主要用来检索文献的收藏情况,它们是指:( CD )A 、全文期刊数据库B 、中文文摘数据库C、 OPCA系统D、联合目录3、在布尔检索法中,“A not B”表示查找出(C )A.含有A、B之一或同时包含AB两词的文献B.含有这两个词的文献集合C.含有检索词A而不含检索词B的文献D.含有检索词B而不含检索词A的文献4、下列措施有助于提高信息检索的查准率的是( ABC )A.精确检索B.截词检索C.全文检索D.使用分类语言进行检索5、下列工具书中,可以用来查找2002年国内经济统计数据的是:( D )A、《世界知识年鉴2002》B、《中国出版年鉴2003》C、《中国统计年鉴2002》D、《中国统计年鉴2003》6、查找中国财政金融方面的一些统计资料,以下哪个网站的资源最符合需求?DA、新华网B、中刊网C、人民网D、国研网7、欲检索国内标准可选择()A、万方数据资源系统B、中国标准网C、A、B都可以D、A、B都不可以8、 ISSN是哪种文献特有的标识(D )A 会议文献 B标准文献C学位论文 D期刊9、常用的数据库检索途径主要包括:( ABD )A.分类检索 B.主题检索 C.代码语言 D.名称检索 E.刊名检索1、下列参考文献属于哪种文献类型:( A )1989-06-26.A. 专利B. 标准C.图谱D. 学位论文2我国专利法所规定的授予专利权的条件是( BCE )A.逻辑性B. 创造性C. 实用性D.可行性 E新颖性3. ISBN是( )的缩写 ( B )A、国际标准刊号B、国际标准书号C、连续出版物代码D、国内统一刊号4、下列措施有助于提高信息检索的查全率的是( )A.精确检索B.截词检索C.上位类检索D.使用分类语言进行检索5、下列工具书中,可以用来查找2010年国内经济统计数据的是:( D )A、《世界知识年鉴2010》B、《中国出版年鉴2012》C、《中国统计年鉴2010》D、《中国统计年鉴2011》6、万方数据库可以查找以下哪种类型的文献信息:( B )A. 档案资料B. 学位论文C.教材D.会议论文7、欲检索国内专利可选择( C )A、万方数据资源系统B、中国专利网C、A、B都可以D、A、B都不可以8、采用分类号检索比采用关键词检索获得的检索结果:( A )A.相关度更高 B.相关度更低 C.检索结果更多 D.检索结果更少9、常用的数据库检索途径主要包括:( ABD )A.分类检索 B.主题检索 C.代码语言 D.名称检索 E.关键词检索10、 Ei的来源出版物主要是:()A. 期刊B. 学位论文C. 会议论文D. 专利11、以下专利国别代码正确的有:( ABC )A. 中国CN,瑞士CH,加拿大CAB. 欧洲专利局EP,英国GB,法国FRC. 日本JP,德国DE,比利时BED. 美国US,奥地利AU,世界知识产权组织WOE. 英国GR, 奥地利AU, 比利时BS12、国研网包括近十个专题栏目、多个专项数据库,下列哪个数据库不属于国研网。
(完整版)信息检索考试重点

新
hing at a time and All things in their being are good for somethin
(二)
1、什么是检索工具?它的主要作用是什么? 答:检索工具是用来存储、报道和检索一次文献的工具,属于二次文献。 主要作用:报导作用、累计作用、查询作用、选择作用。 2、目录、题录、索引、文摘、文献指南各有那种类型? 答:目录可以分为国家目录、馆藏目录、联合目录、出版社与书商目录和专题目录。 题录的类型一般都是用代号表示。 索引类型可分为篇目索引和内容索引 文摘按其内容的详简程度可以分为指示性文摘和报道性文摘;按其适用对象可以分为一 般性文摘和倾向性文摘;按内容性质可以分为综合性文摘和专业性文摘。 文献指南主要介绍该科学和专题的主要文献类型。 3、什么是参考工具书?它有哪些主要作用? 答:参考工具书是根据一定的社会需要,广泛汇集某一范围的知识材料,按一定方式加以 编排,专供人们解释疑惑的特定类型的出版物。 作用:查字词、查事项、查人物、查机构、查产品、查物名、查地名、查年代、查数据。 4、字典和词典、百科全书、年鉴、名录、图录有哪些主要类型? 答:字典类型一般分为两种:○1 详解词典○2 专门词典。 词典从语种文别角度分为:○1 单语言辞典○2 多语言辞典。 从词量规模角度:○1 大型词典○2 中型词典○3 小型词典。 从收录内容角度:○1 百科全书○2 语文词典○3 专门词典。 百科全书分为两种类型:一类是概括人类一切门类知识,包括哲学、社会科学、自然科学 和应用科学等所有门类知识的综合性百科全书。另一类是指内容只收内容某一学科或某个 门类、某个专业的知识信息的专科性百科全书。 年鉴类型分为综合性年鉴、专业性年鉴、统计性年鉴。 名录类型分为人名录、地名录、物名录、机构名录。 图录类型分为地图录、科学技术用图集、历史图谱、文物图谱及人物图录。 (三)
信息检索考试重点

名词解释4*4’1.信息素质:个体在现实需求的驱动下,能有效地发现、获取、评价和利用信息。
2.信息检索广义的信息检索全称是“信息存储与检索”,是指将信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程。
狭义的信息检索“信息存储与检索”的后半部分,通常称为“信息查找”或“信息搜索”,是指从信息集合中找出用户所需要的有关信息的过程。
3.登记性目录(概念)也叫国家书目,它是出版物国家登记制度的产物,反映国家出版的全部图书,实际上也反映了一个国家的文化、科学和出版业的水平。
4.联合目录(概念)汇总若干个单位馆藏而形成的目录,是馆藏目录的放大。
5.年鉴(概念)年鉴是汇辑一年内的重要时事文献、学科进展,汇辑各种统计资料和重要信息,并按年度出版的连续性出版物。
6.OPAC(公共联机书目查询系统)利用计算机终端来查询基于图书馆局域网内的馆藏数据资源的一种现代化检索方式,通过联机查找为读者提供馆藏文献的线索。
7.引文索引(概念)根据美国科学信息研究所(Institute for Scientific Information,简称ISI)的定义:对于文献A和B:若文献B提到或引用了文献A,则A是B的引文。
这里,文献A被文献B 提到或引用,A是被引用文献或参考文献。
同时由于B引用了A,故B又称为引用文献。
8.垂直搜索引擎(概念)也被称为专业搜索引擎,或主题搜索引擎。
它专门收录某一方面、某一行业或某一主题内的信息,专为查询某一个学科或某一主题的信息提供检索服务,在解决某些实际查询问题的时候比综合搜索引擎更有效。
简答4*9’信息素质包含四个层面的含义:第一,用户有一定的信息需求,即在某个时候需要了解某方面信息。
第二,掌握了主要的信息源和信息工具的知识及技能。
第三,能够分析评价选择相关信息。
第四,利用信息的目的是为了有效地解决具体问题。
信息素质主要表现为信息理论素养和信息的实践能力,包括信息意识、信息知识、信息能力和信息道德等内容。
【云南大学】信息检索期末复习重点

【云南大学】信息检索期末复习重点第一篇:【云南大学】信息检索期末复习重点云南大学信息检索重点第一章一、检索策略定义:在处理信息需求提问实质的基础上确定检索途径、检索词语并明确各词语之间的逻辑关系,查找步骤、系统输出顺序等方面的科学安排,与检索效果密切相关。
二、检全率与检准率1.检全率及其影响:检全率=(检出的相关信息数/信息库中相关信息总数)x100%2.检准率及其影响:检准率=(检出的相关信息数/检出的信息总数)x100% 影响检出文献的检索效果的质量。
三、检索模型1.布尔检索模型(1)定义:布尔检索模型采用布尔代数和集合论的方法,用布尔表达式表达用户提问,通过对文献表示与提问式的逻辑运算来检索文献。
(2)优点:简单、易理解、易实现、能处理结构化提问(3)缺点:A.布尔检索式的非友善性,即构建一个好的检索式是不容易的。
尤其是对复杂的检索课题,不易套用布尔检索模型。
B.易造成零输出或过量输出。
检索输出完全依赖布尔提问式与系统倒排挡中的文献匹配情况,输出量较难控制。
C.无差别的组配元,不能区分各组配元的重要程度。
D.匹配标准存在某些不合理的地方。
由于匹配标准是有或无,因此,对于文献中表因此的数量没有评判,都一视同仁。
E.检索结果不能按照重要性排序输出。
2.向量检索模型(1)定义:向量检索是以向量的方式确定检索内容的方法,系统中的每一篇文献和每个提问均用等长的向量表示。
(2)优点:A.采用自动标引技术维文献提供标引词B.改变了布尔检索非“1”即“0”的简单判断,标引词和文献的相关程度可在【0,1】闭区间中取值,使标引和检索者都可比较灵活地定义组配元(标引词)与文献的关系深度,改变了布尔检索模型僵化的特点。
C.由于以其相似的程度作为检索的标准,可从量的角度判断文献命中与否,从而使检索更趋于合理。
D.检索结果可按提问的相关度排序输出便于用户通过相关反馈技术修正提问,控制检索量。
E.布尔模型的逻辑关系依然可以使用,保留了直观性和方便性。
信息检索考试大一下知识点

信息检索考试大一下知识点信息检索是指从大量的信息中快速找到满足特定需求的信息过程。
在大一下学期的信息检索考试中,通常会涉及以下几个知识点:一、信息检索基础概念1. 信息检索的定义和目的信息检索是指通过使用计算机技术,在海量信息中寻找到与用户需求相匹配的信息。
其目的是快速、准确地获取到用户所需的信息。
2. 检索模型和流程信息检索基于检索模型,常见的模型包括布尔模型、向量空间模型和概率模型。
检索流程一般包括问题建模、索引构建、查询处理和结果排序等步骤。
二、关键词检索1. 关键词的选择与组合在进行信息检索时,关键词的选择和组合非常重要。
关键词应该准确描述用户需求,并且能够尽可能覆盖相关领域的信息。
2. 布尔查询与逻辑运算符布尔查询是一种基础的检索方式,通过使用逻辑运算符(AND、OR、NOT)对关键词进行组合,从而获得符合用户需求的信息。
三、索引构建与检索技术1. 逆向索引逆向索引是一种常用的索引结构,它通过将文档中的每个单词与包含该单词的文档进行关联,实现了关键词到文档的快速定位。
2. 向量空间模型向量空间模型将文档和查询都表示为向量,在向量空间中进行计算,通过计算文档与查询之间的相似度来判断文档的相关性。
3. 布尔模型的实现与优化布尔模型的实现与优化涉及到倒排索引的构建与压缩、布尔运算的优化算法等方面的技术。
四、评价与改进1. 检索结果的评价对于检索系统的性能评价,一般使用准确率、召回率、F值等指标来衡量检索的有效性和完整性。
2. 改进方法与技术为了提升检索系统的性能,可以采用词干提取、查询扩展、排名算法优化等方式进行改进。
五、实际应用与发展趋势1. 商业搜索引擎与个性化推荐商业搜索引擎通过不断改进和优化信息检索技术,提供高效准确的搜索服务。
个性化推荐则基于用户的兴趣和行为,向用户推荐符合其需求的信息。
2. 大数据与信息检索随着大数据时代的到来,信息检索面临着处理海量数据的挑战。
如何有效地利用大数据技术来进行信息检索是当前的研究热点之一。
福州大学《信息检索》课程考试要点

福州大学《信息检索》课程考试要点work Information Technology Company.2020YEAR一、信息1、信息在发生源和吸收源之间,当发生源发出的信号被吸收源所理解,信号就变成为信息。
现代科学指事物发出的消息、指令、数据、符号等被包含的内容。
信息是具有一定特征意义的载体。
2、文献指固化在一定载体上的知识。
大凡人类的知识用文字,图形,符号,声频,视频的手段记录下来的东西,统统可被称为文献。
文献三要素:载体,知识,记录。
3、资料是固化在一定的实物或载体上的知识。
是为工作,生产,学习和科学研究等参考需要收集或编写的一切公开或者内部的材料。
二、信息的传递渠道:非正式传递渠道和正式传递渠道。
三、信息检索1、含义:指从大量的文献中查找与信息提问所指定的课题(对象)有关的文献,或者包含用户所需事实与消息的文献的过程。
2、信息检索包括三方面:数据检索、事实检索、文献检索;文献检索提出包含所需信息的文献,而数据检索和事实检索提出包含在文献中的信息本身。
四、文献检索1、含义:包括两方面的内容,一是检索系统的建立和检索工具的组织和积累。
二是文献的查寻。
2、文献检索的类型:①直接检索:通过阅读原始文献直接获取所需信息②间接检索:通过检索工具的指导再查找原始文献而获取所需信息。
五、信息的类型1、按信息加工层次划分:①一次信息:原始文献;②二次信息:通过检索工具所传递的信息,包括目录、文摘、题录、索引等。
③三次信息:通过百科全书、手册、年鉴等所传递的信息。
2、按信息载体的出版编辑特点划分:(十二大文献源)期刊、图书、会议文献、专利文献、科技报告、学位论文、政府出版物、标准文献、产品资料、技术档案、报纸新闻稿、工作文稿3、按信息载体的物理类型划分:印刷型、缩微型、电子型、声像型。
4、按信息的性质划分:自然信息和社会信息。
六、检索工具1、含义:检索工具是二次文献,是人们用来报道,存贮和查找文献的工具。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《信息检索》考试重点/p-411364119.html信息是指事物的存在方式和运动状态,是对客观世界中各种事物的变化和特征的反映,是客观事物之间相互作用和联系的表征,是客观事物经过感知或认识后的再现。
这里强调信息是事物属性的表征,即信息不是事物本身,而是用来表现事物特征的一种普遍的形式。
信息的特征7个:客观性、普遍性、可存储性、可传递性、扩散性、共享性、时效性。
信息的功能4个:经济型功能,选择与决策、管理与协调、研究与开发。
知识是人类通过信息对自然界。
生物界、人类社会运动规律的认识和概括,是人的大脑通过思维重新集成整合的系统化信息,是信息中最有价值的部分。
也就是说信息是产生知识的原材料,知识是信息的加工的抽象化产物。
知识是一种特定的人类信息,它四对信息进行提炼和深化的结果。
知识的类型:显性知识和隐性知识、实体知识和过程知识、核心知识和非核心知识。
情报是具有特定传递对象的特定知识或有价值的信息。
情报的特征:动态性、按特定方式传递、为特定目的服务的、常常带有一定的时效性和机密性情报的类型。
情报的分类:根据情报的来源与加工程度划分,情报可以分为:零次情报、一次情报、二次情报、三次情报。
零次情报是指为公开于社会、没有经过记录整理、非正式传递的、直接作用于人的、非文献情报的总称。
如私人笔记、手稿、设计草图、会议记录、口头言论等。
一次情报:是指为经过加工或者加工程度等于零的原生情报。
这种情报直接反映实际情况和科研成果,有如生产过程中的原料。
固定原生情报的文献称为原生文献,也称一次文献。
如调查报告、研究报告、科学论文、专利说明书、会议文献、专著等。
二次情报是一种派生情报,是针对一次情报加工的产品。
一二次情报的作用不仅在于报导,更重要的是为查找一次文献提供线索。
刊载二次情报的文献称为二次文献,二次文献按照加工的方式和深度又分为书目、索引、文摘等形式。
其中文摘是一份文献的内容缩短的精确的表达,它是二次情报的重要形式。
三次情报是在一次二次情报的基础上,经过分析研究和综合概括而编撰的情报。
刊载三次情报的文献称为三次文献,三次文献是情报研究的成果。
其主要形式有综述、专题评论、年度总结、科研进展报告、数据手册、专业年鉴等。
这种情报浓缩了所有的原生情报,可以节约大量阅读时间、减轻劳动强度、提高工作效率。
信息、知识和情报之间的关系:知识是人的大脑经过思维重新集成整合的、反映事物运动规律的系统化信息,是信息中最有价值的部分;情报是具有特定传递对象的特定知识或有价值的信息,其中一部分在知识之内,另一部分则在知识之外的信息之内。
因此,从逻辑上看,信息、知识、情报三者的概念是相容关系。
具体来说、信息与知识、情报之间是属种关系,信息是属概念,知识、情报是信息之下具有交叉关系的种概念。
信息资源的概念:广义,信息资源是指人类社会活动中积累起来的信息、信息生产者、信息加工技术等信息活动要素的集合。
狭义,信息资源是指人类社会经济活动中经过加工处理有序化并大量积累后的有用信息的集合。
信息资源的特征:作为生产要素的人类需求性、稀缺性、使用方向可选择性、共享性、时效性。
信息资源的类型:根据载体不同可以分为,载体信息资源、文献信息资源、实物信息资源、网络信息资源。
信息检索的概念:广义包括信息存贮和信息检索指将信息按一定方式收集组织和存储起来,并根据信息用户需求找出所需信息这一过程和技术;狭义不包括信息存贮,指依据一定方法,从已经组织好的信息集合中,查找并获取特定需求的信息这一过程。
信检类型1按检索内容或检索对象(文献数据事实检索)2按组织方式(全文检索超文本检索和超媒体检索)3按检索设备(手工检索和机器检索)信息检索的发展趋势:统一检索界面、主动的信息推送服务、多种检索模式融为一体、可视化技术实用化、检索的智能化。
信息检索的基本原理;检索提问标识与存储在检索系统中的标引标识进行比较,二者完全匹配或信息标引中的标识包含提问标识即为检索命中,具有该标识的信息就从检索系统中作为检索结果输出。
计算机检索的原理:计算机检索的实现过程,计算机检索如同手工检索一样,都分两个过程,一是信息存储,即按一定的规则将信息进行加工,赋予特征标识,并将这些标识按照一定的顺序编排后纳入检索系统;一是信息检索,就是用户根据自己的检索要求向系统发出含有提问特征的检索式,系统自动地将自己存储的相关信息集合的标引标识及其逻辑组配关系与之类比、匹配、给出特征标识相符的记录。
因此信息检索过程其实就是表示用户需求的字符串与系统内存储的大量字符串进行类比、匹配和逻辑运算的过程。
计算机信息检索的实现条件:计算机、通信网络、检索终端设备、数据库计算机信息检索的发展:脱机平批处理检索阶段、联机检索阶段、光盘检索阶段、网络化检索阶段。
计算机信息检索的服务方式:回溯检索、定题检索、随机问答、联机订购。
检索语言的概念:检索语言一般指文献标引和检索所使用的一种专门语言,是用以表达概括文献信息和检索课题内容特征的概念及其相互关系的一种概念标识系统,即在存储是用以描述文献信息的内容和外部特征,而在检索时则用于表达提问的语言。
检索语言的类型:按检索语言的规范化程度来划分,可以分为规范化的人语言和非规范化的自然语言;按检索语言的词汇组配方式来划分,可分为先组式语言和后组式语言;按描述文献信息内容特征来划分,可分为分类语言和主题词语言;按词汇的类型来划分,可分为关键词语言、单元词语言、标题词语言和叙词语言等等。
人工语言:由人工采用规范词而创建的一种受情报检索控制的语言。
人工语言使用的控制、规范词是用来专指某个概念和网络、指示宽度适当的概念,共检索时选择。
它可以将同义词、近义词、多义词和缩略词等规范在一起,由人工控制,因此又称为控程语言。
自然语言:检索用词是取其自然形态,从信息内容本身抽取,不收人工控制,主要赖于计算机自动抽词技术来完成,但是需要辅助以人工自由标引,即不一句词表的标引方法,使用非规范词或称自由词。
人工语言和自然语言的比较:人工语言的查全率和查准率均比较高,因此,人工语言的检索效率要高于自然语言。
但是,人工语言是基于印刷型文献资源产生的,对标引来说,工作量大,成本高,对文献信息检索来说,用户不易掌握。
而自然语言则不然,对标引来说主要由计算机检索系统自动完成,具有灵活性,新颖性、和专指性,并且检索点多,管理和维护的成本低;对文献信息检索来说,用户很容易掌握。
但是,由于目前计算机的抽词技术还无法达到从自然语言中抽取最准确并能够表达信息资源内容的词,无法自动规范自然语言,无法指示概念之间的关系,缺乏对词汇的控制能力,因此检索效率比较低。
先组式语言和后组式语言:先组式语言是指在检索实施前已事先组配好的一种检索语言。
用户只能用这种已经固定好的检索词组形式完成检索,它有较好的直接性和专指性,但灵活度差。
例如标题词语就属于此类。
后组式语言:是指在检索前未事先组配好的、以单元词等形式出现的一种检索语言。
用户在检索时将他们临时组配起来,表达一定的概念,来完成信息检索。
这种后组方式提供了灵活的组配方式在计算机检索中得到了广泛的应用。
分类语言和主题语言:分类语言属于人工语言,由人工创造并进行控制。
分类语言是按照学科范畴和知识之间的相互关系列出类目,并用数字、英文字母对类目进行标识的一种检索语言。
它集中反映学科的系统性及学科与学科之间的相关、从属、派生等关系。
主题语言,又称为主题词语言和主题检索语言,大部分主题语言属于人工语言,由人工创制并进行控制。
主题检索语言由主题词汇构成,也就是将自然语言中的名词术语经过规范化以后直接作为文献信息标识,按照英文字母排列信息标识,通过参照系统揭示主题概念之间的关系,因此也称为主题词表、主题词语言和主题法。
主题语言的类型:关键词语言、单元词语言、标题词语言、叙词语言。
检索系统的概念:检索系统是为了满足信息需求而建立的,具有收集、组织、存储和查询等功能的文献信息资源和相关设备设施的总称。
检索系统的类型:按加工手段和技术设备的不同,可将检索分为:手工检索系统、机械检索系统、计算机检索系统。
按载体形式不同,可分为卡片式、书本式、缩微式、磁性材料式等检索系统。
按著录格式不同,可将检索系统分为目录,题录、索引、文摘、全文检索系统。
计算机检索系统的组成:信息选择子系统、标引子系统、建库数据库被定义为:“至少一种文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合。
”简单地说,它是某一范围的附有检索标识的记录的集合,即为满足特定需要而按一定方式和特定结构收集、加工、处理并存储在计算机中的关联数据的集合,这些数据具有共同的存取方式,可以供多个用户共同利用。
顺排文档、倒排文档:顺排文档是按一种重要字段顺序排列而成的数据库中全部记录的集合。
倒排文档是抽出文档记录中的可检字段或其他特征标识,分别将包括该字段或标识的所有记录按某种顺序排列组织,并在每条记录后附上其存取号,所得到的文档就是倒排文档,它相当于手工检索工具中的索引部分,在文献数据库中也唱被称为索引。
有多少个倒排文档就有多少个检索方式。
基本索引、辅助索引,基本索引系统中,可检字段(也称检索项)通常分为表示文献信息内容特征的基本索引字段和表示文献信息外部特征的辅助索引字段两大类。
基本索引是反映内容特征的字段,如主题词、关键词、篇名等字。
辅助索引是反映文献信息外部特征字段的索引,辅助索引字段也称非主题字段,包括作者、刊名、出处、文献类型、语种、出版年份等。
从数据库用户的角度看数据库的结构可分为:集中式数据库结构、分布式数据库结构、并行数据库结构、易购数据库结构、客户机/服务器结构、浏览器/服务器结构。
数据库的特点:结构化、所存储的数据是面向现实世界的、数据的共享性好、数据库中数据的独立性强、数据库由数据管理系统统一管理和控制。
数据库的类型:按提供信息的等级来分,数据库可分为参考数据库和源数据库;按存储类型的不同科分为磁带数据库、磁盘数据库和光盘数据库等;按数据模型的不同分为层次型数据库、网状数据库和关系型数据库;按涵盖学科内容的不同分为综合性数据库、专业型数据库。
文献数据库的功用:对文献信息的规范化管理、为用户提供多途径的检索方式、为用户提供多种形式的服务内容、为用户提供多渠道的检索服务。
数据仓库技术,数据仓库不是简单的数据库产品,而是一种解决方案。
数据库仓储差别:事务处理与分析处理性质不同、数据集成问题、历史数据的使用。
数据仓储技术的内容:数据仓储技术、联机分析处理技术、数据挖掘技术。
信息检索的一般方法:常用法、引文追溯法、循环法。
检索途径:分类途径、主题途径、提名途径、引文途径、序号途径和符号代码途径、全文关键词途径著者/机构途径、其他途径。
检索策略有广义和狭义之分:从广义看,检索策略是为实现检索目标而制定的全部检索计划,即在对课题进行全面、实质分析的基础上,选择检索系统、检索途径和检索词、明确各词之间的逻辑关系,并根据各检索词之间的关系和系统允许使用的各种算符、限定字段等组建检索式,明确检索步骤。