信息检索习题汇总及答案
信息检索试题及答案

信息检索试题及答案一、选择题1. 下列哪项是信息检索系统的核心功能?A. 数据收集B. 信息处理C. 用户查询D. 结果展示答案:C. 用户查询2. 在信息检索中,对文本进行分词处理的目的是什么?A. 提高检索效率B. 进行语义分析C. 增加检索准确性D. 实现文本分类答案:A. 提高检索效率3. 下列哪种检索模型适用于由用户输入的关键词检索相关文档?A. 向量空间模型B. 布尔模型C. 概率模型D. 信息过滤模型答案:A. 向量空间模型4. 在信息检索中,下列哪项是用于评价检索系统性能的指标?A. 查准率B. 召回率C. F值D. 所有选项都是答案:D. 所有选项都是5. 下列哪种检索算法用于在大规模数据集中快速检索目标文档?A. 布尔检索算法B. TF-IDF算法C. 倒排索引算法D. PageRank算法答案:C. 倒排索引算法二、判断题1. 布尔模型是一种基于向量空间模型的检索方法。
答案:错误2. 信息检索的目标是使用户得到尽可能多的相关信息。
答案:错误3. 在信息检索中,查准率越高,召回率越低,表示结果越准确。
答案:正确4. TF-IDF算法用于评估一个词在文档中的重要性。
答案:正确5. PageRank算法是用于计算网页排序的算法,不能用于文本检索。
答案:错误三、简答题1. 请简要介绍一下倒排索引的原理和作用。
答:倒排索引是一种基于关键词的索引方法。
它通过将文档中所有出现的关键词作为索引的项,然后将每个关键词所在的文档列表记录下来,以便实现快速的文档检索。
倒排索引的作用是在用户查询时,根据关键词快速定位到相关的文档。
2. 请解释一下查准率和召回率的概念,并说明它们之间的关系。
答:查准率是指检索结果中相关文档的比例,召回率是指检索到的相关文档占所有相关文档的比例。
它们之间的关系是,查准率越高,表示检索结果中的文档更准确,但可能漏掉了一些相关文档而召回率较低;召回率越高,表示检索到的相关文档更全面,但可能会出现一些不相关的文档而查准率较低。
信息检索习题带答案

205、逻辑“与”是一种用于交叉概念或者限定关系的组配,可以缩小检索范围, 提高查准率。 答案.(正确)
206、逻辑“或”是一种用于概念并列关系的组配,可以扩大检索范围,提高查 全率。 答案.(正确)
最新文献检索
一、 判断题
1、《维普期刊资源整合服务平台》作者提供的关键词语言属于叙词语言。答
案.(错误)
2、借助于《维普期刊资源整合服务平台》期刊导航可查阅某年限范围期刊上发 表的文献。 答案.(正确)
3、《维普期刊资源整合服务平台》收录的范围限人文社会科学类。答案.(错
误)
4、在因特网上可任意检索《维普期刊资源整合服务平台》 ,并可以下载全文。 答案.(错误)
89、CNKI同样的检索策略条件下,模糊匹配的检索结果记录数一般多于精确匹 配的记录ቤተ መጻሕፍቲ ባይዱ 答案.(正确)
90、CNKI模糊匹配表示结果中含所输入检索词中的字或词素答案.(正确)
91、CNKI精确匹配表示与输入检索词一致或包含所输入的检索词语答案.(正
确)
92、CNKI专业检索中运算符号如“*”、“+”等可以用全角表示 答案.(错误)
62、NSTL系统可以为用户提供中、西、俄、日等语种的文献答案.(正确)
63、通过NSTL系统可以同时进行期刊、学位论文、会议论文、科技报告、专利、标准等文献的检索。答案.(正确)
64、通过文献传递平台可以直接阅读全文答案.(错误)
65、文献传递服务是图书馆利用本馆和外馆文献资源帮助读者获取原始文献的服 务 答案.(错误)
234、间接检索法是通过最新的报刊杂志、会议文献查找文献的方法。答 案.
信息检索试题及答案

信息检索试题及答案一、选择题(每题2分,共10分)1. 信息检索的英文缩写是()。
A. IRB. ITC. ISD. AI答案:A2. 以下哪个不是信息检索的类型?A. 文本检索B. 图像检索C. 声音检索D. 视频检索答案:D3. 以下哪个是全文检索系统?A. Google ScholarB. PubMedC. IEEE XploreD. All of the above答案:D4. 布尔逻辑中,“与”操作的符号是()。
A. ANDB. ORC. NOTD. XOR答案:A5. 以下哪个不是信息检索的评估指标?A. 查准率B. 查全率C. 准确率D. 召回率答案:C二、填空题(每题2分,共10分)1. 信息检索的目的是帮助用户从大量信息中找到______的信息。
答案:相关2. 信息检索系统通常包括______、索引和检索接口三个主要部分。
答案:数据库3. 在信息检索中,______是一种将用户查询与文档内容进行匹配的方法。
答案:关键词4. 信息检索的效率可以通过______和查全率两个指标来衡量。
答案:查准率5. 信息检索的发展历程可以分为手工检索、______和网络检索三个阶段。
答案:自动化检索三、简答题(每题5分,共20分)1. 简述信息检索的基本过程。
答案:信息检索的基本过程包括信息需求分析、选择检索工具、制定检索策略、执行检索操作、评估检索结果和调整检索策略。
2. 什么是信息检索中的查准率和查全率?答案:查准率是指检索出的相关文档占检索出的所有文档的比例,查全率是指检索出的相关文档占所有相关文档的比例。
3. 列举三种常见的信息检索技术。
答案:常见的信息检索技术包括全文检索、关键词检索和分类检索。
4. 信息检索在日常生活中有哪些应用?答案:信息检索在日常生活中的应用包括学术研究、市场调查、新闻报道、个人兴趣探索等。
四、论述题(每题10分,共20分)1. 论述信息检索在学术研究中的重要性。
《信息检索》试题与答案

《信息检索》试题与答案一、选择题1. 以下哪个不是信息检索的基本过程?A. 需求分析B. 检索策略制定C. 检索结果评价D. 信息编码答案:D2. 信息检索的核心技术是?A. 检索算法B. 检索系统C. 信息组织D. 用户界面答案:A3. 以下哪个不是信息检索的评价指标?A. 检索速度B. 检索结果的相关性C. 检索系统的稳定性D. 检索结果的数量答案:D4. 以下哪个不是信息检索的分类?A. 文本检索B. 图像检索C. 音频检索D. 数据库检索答案:D二、填空题5. 信息检索的目的是为了满足用户对信息的______。
答案:需求6. 信息检索的三个基本过程是______、______和______。
答案:需求分析、检索策略制定、检索结果评价7. 信息检索的评价指标包括______、______和______等。
答案:检索速度、检索结果的相关性、检索系统的稳定性8. 信息检索可以分为______检索、______检索、______检索等。
答案:文本检索、图像检索、音频检索三、判断题9. 信息检索的目的是为了获取用户感兴趣的信息。
()答案:正确10. 信息检索的评价指标只包括检索结果的相关性。
()答案:错误11. 信息检索的过程中,需求分析是非常重要的环节。
()答案:正确12. 信息检索的分类只包括文本检索和图像检索。
()答案:错误四、简答题13. 简述信息检索的基本过程。
答案:信息检索的基本过程包括以下三个环节:(1)需求分析:分析用户的信息需求,明确检索目标。
(2)检索策略制定:根据需求分析的结果,制定相应的检索策略,包括检索词、检索范围、检索方式等。
(3)检索结果评价:对检索结果进行评价,判断是否满足用户需求,并对检索策略进行优化。
14. 简述信息检索的评价指标。
答案:信息检索的评价指标包括以下三个方面:(1)检索速度:指检索系统在给定的时间内返回检索结果的能力。
(2)检索结果的相关性:指检索结果与用户需求的相关程度。
信息检索练习题答案

一、单项选择题1、分类途径是按照文献所属的学科分类,利用(C)进行检索的途径。
A学科名称B专业名称C分类号及分类名D以上均可2、利用文献后所附参考文献进行检索的方法叫(A )。
A.追溯法B.直接法C.抽查法D.综合法3、逻辑算符包括(D)算符。
A.逻辑与B.逻辑或C.逻辑非D.以上三项4、机检效果与检索人员的素质有着密切的关系。
人员的素质主要包括(D )。
A.对检索策略的掌握程度B.对数据库的掌握程度C.对检索语言的掌握程度D.以上三项5.最早的网络搜索引擎是(A)A. Yahoo B .Excite C. Archie D .Google6、我国最早的图书馆学专业教育机构创立于___年,它是__A____ 创始人_____A. 1920 武昌文华大学图书馆学专修科韦棣华B. 1922 武汉大学图书馆学专修科杜定友C.1927 南京金陵大学图书馆学系韦棣华D.1947 北京大学中国语言文学系图书馆学杜定友7、“我思故我在”,是____C____的名言,这句话说明思想的重要性。
人类的认知是不断进步的,随着人们不断的认识到新的事物思想也在不断转变A.帕斯卡尔B.伏尔泰C.笛卡儿D.孟德斯鸠8、Google和Baidu在其高级搜索中都提供特定格式文件的搜索,他们分别支持几种文件格式(D)A. 6 4 B .6 5 C.6 6 D. 6 79、4 中国互联网络信息中心(CNNIC)是在信息产业部的授权和领导下的,得到国际互联网络管理机构认可的,中立的,非盈利性的服务和管理机构,行使国家互联网络信息中心的职责,属于国家事业单位。
CNNIC在行政上受____A___的领导。
A. 信息产业部;B. 国务院信息化办公室;C. 中国互联网络协会;D. 中国科学院计算机网络信息中心;10、2003年12月1日是第16个“世界艾滋病日”,到目前为止,中国已有84万艾滋病病毒感染者,其中艾滋病病人8万名。
请问艾滋病的医学全名是什么?(C)A 、先天性免疫缺陷综合症B 、获得性免疫缺陷综合症C 、人类免疫缺陷综合症D 、动物免疫缺陷综合症11、1999年被列入“世界文化遗产”的大足石刻现有唐宋时期的摩崖造像75处,雕像共___C_____余尊。
(完整版)信息检索期末复习题及答案

《信息检索》期末复习题及答案(仅供参考)一、判断题1.综述和百科全书属于二次文献。
(× )2.从文献检索的角度来看,一次文献是检索对象,二次文献是检索手段。
(× )3.题录、目录属于一次文献;期刊论文属于二次文献。
(× )4.主题词规范化的目的是扩大检索范围。
(√)5.在众多的信息源中,期刊是最重要的信息源。
(√ )6.核心期刊是指经常使用的期刊。
(× )7.关键词和主题词都是表征文献实质性内容的词汇,前者是经过词表规范的,后者是未经词表规范的自由词。
(×)8.《中国图书分类法》(简称《中图法》)是由分类号(代码)和类名来揭示信息的主题概念。
(×)9.题录型的检索工具,其著录项目包括题目、作者、文献出处、文摘。
()10.一项发明创造要获得专利权必须具备新颖性、创造性和实用性。
()二、选择题1、广义的信息检索包含两个过程( B )A、检索与利用B、存储与检索C、存储与利用D、检索与报道2、文献是记录有知识的()。
A、载体B、纸张C、光盘D、磁盘3、下列哪种文献属于一次文献( A )。
A、期刊论文B、百科全书C、综述D、文摘4、下列哪种文献属于二次文献( D )。
A、专利文献B、学位论文C、会议文献D、目录5、下列哪种文献属于三次文献( C )。
A、标准文献B、学位论文C、综述D、文摘6、下列选项中属于连续出版物类型的选项有(C )。
A、人民日报B、学位论文C、科技期刊D、会议文献7、下列选项中属于特种文献类型的有( D )。
A、学位论文B、图书C、科技期刊D、标准文献8、纸质信息源的载体是()A、光盘B、缩微平片C、感光材料D、纸张9、《中国图书分类法》(简称《中图法》)将图书分成( A )A、5大部分22个大类B、5大部分26个大类C、6大部分22个大类D、6大部分26个大类10、《中国图书分类法》(简称《中图法》)是我国常用的分类法,要检索农业方面的图书,需要在( A )类目下查找。
大学信息检索考试题及答案详解

大学信息检索考试题及答案详解一、选择题(每题2分,共20分)1. 信息检索中,布尔逻辑运算符包括哪些?A. 与、或、非B. 只、和、但C. 加、减、乘D. 是、否、也许答案:A2. 下列哪个数据库属于全文数据库?A. CNKIB. Web of ScienceC. PubMedD. Google Scholar答案:A3. 在进行信息检索时,哪个步骤是不必要的?A. 确定检索词B. 选择检索工具C. 随意选择关键词D. 评估检索结果答案:C4. 以下哪个不是信息检索的基本原则?A. 准确性B. 完整性C. 经济性D. 随意性答案:D5. 搜索引擎中,使用“+”号的作用是什么?A. 表示搜索结果必须包含“+”后面的词B. 表示搜索结果可以不包含“+”后面的词C. 表示搜索结果必须不包含“+”后面的词D. 表示搜索结果与“+”后面的词无关答案:A6. 以下哪个不是信息检索的类型?A. 回溯检索B. 定题检索C. 定性检索D. 定性检索答案:C7. 在信息检索中,“查准率”是指什么?A. 检索出的相关信息量与检索出的信息总量的比率B. 检索出的相关信息量与实际相关信息总量的比率C. 检索出的信息总量与实际相关信息总量的比率D. 检索出的相关信息量与检索出的非相关信息总量的比率答案:B8. 以下哪个方法不能用于提高检索的查全率?A. 使用同义词B. 使用上位词C. 使用下位词D. 使用专有名词答案:D9. 在信息检索中,“查全率”是指什么?A. 检索出的相关信息量与检索出的信息总量的比率B. 检索出的相关信息量与实际相关信息总量的比率C. 检索出的信息总量与实际相关信息总量的比率D. 检索出的非相关信息量与检索出的信息总量的比率答案:B10. 下列哪个不是信息检索的步骤?A. 需求分析B. 选择检索词C. 随意浏览D. 检索结果评估答案:C二、填空题(每题2分,共20分)11. 在信息检索中,使用截词符可以扩大检索范围,常见的截词符包括________和“?”。
信息检索习题汇总及答案

一、填空题1.数据的记载方式主要有数值型_、文字型、_语音型、_图像型。
2.数据与信息的关系可看作是原料_和_成品_的关系。
3.信息分析过程是将数据转换为_信息_的过程。
4.信号分为_信息_信号和_人为_信号。
5.信息一般表现为_数据_、文本_、_声音、_图像_等形态。
6.一般认为,信息由_语义_、_差异_、_传递_、_载体_等要素构成。
7.信息的加工按加工对象的不同可分为对_外表_信息的描述,对_整体_信息的描述,如文摘对_内容_信息的描述。
8.信息管理的过程包括信息_收集_、信息_传输_、信息加工_、信息储存_。
9.信息加工包括_信息形式的变换和_信息内容的处理。
10.信息动机的形成原因有_内在的信息需要_和_外在刺激_。
11.主题语言包括_标题词_、_单元词_、_叙词_、_关键词_。
12.在信息存储的结构中,基本的逻辑结构有_线性结构_、_非线性结构、_树形结构_、网状结构。
13.总体上,信息检索系统可分为_数据预处理_、_索引生成_、_查询处理、_检索_。
二、名词解释1. 数据:是指记载下来的事实,是客观实体属性的值,它是由原始事实组成的。
2.信息加工:是指对获取的信息进行判别、筛选、分类、排序、分析、计算和研究等一系列过程,使收集到的信息成为对我们有用的信息资源。
3.信息组织:即信息序化或信息整序,也就是利用一定的科学规则和方法,通过对信息外在特征和内容特征的表征和序化,实现无序信息流向有序信息流的转换,从而保证用户对信息的有效获取和利用及信息的有效流通和组合。
4.检索标识:就是为沟通文献标引与文献检索而编制的人工语言,也是连接信息存储和检索两个过程中标引人员与检索人员双方思路的渠道,是用于文献标引和检索提问的约定语言。
5.信息检索:可以从广义和狭义两个角度理解。
广义的信息检索是指将信息按一定方式组织和存储起来,并根据用户的需要找出相关信息的过程,其中包括存与取两个方面。
狭义的信息检索仅指信息查找过程。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、填空题1.数据的记载方式主要有数值型_、文字型、_语音型、_图像型。
2.数据与信息的关系可看作是原料_和_成品_的关系。
3.信息分析过程是将数据转换为_信息_的过程。
4.信号分为_信息_信号和_人为_信号。
5.信息一般表现为_数据_、文本_、_声音、_图像_等形态。
6.一般认为,信息由_语义_、_差异_、_传递_、_载体_等要素构成。
7.信息的加工按加工对象的不同可分为对_外表_信息的描述,对_整体_信息的描述,如文摘对_内容_信息的描述。
8.信息管理的过程包括信息_收集_、信息_传输_、信息加工_、信息储存_。
9.信息加工包括_信息形式的变换和_信息内容的处理。
10.信息动机的形成原因有_内在的信息需要_和_外在刺激_。
11.主题语言包括_标题词_、_单元词_、_叙词_、_关键词_。
12.在信息存储的结构中,基本的逻辑结构有_线性结构_、_非线性结构、_树形结构_、网状结构。
13.总体上,信息检索系统可分为_数据预处理_、_索引生成_、_查询处理、_检索_。
二、名词解释1. 数据:是指记载下来的事实,是客观实体属性的值,它是由原始事实组成的。
2.信息加工:是指对获取的信息进行判别、筛选、分类、排序、分析、计算和研究等一系列过程,使收集到的信息成为对我们有用的信息资源。
3.信息组织:即信息序化或信息整序,也就是利用一定的科学规则和方法,通过对信息外在特征和内容特征的表征和序化,实现无序信息流向有序信息流的转换,从而保证用户对信息的有效获取和利用及信息的有效流通和组合。
4.检索标识:就是为沟通文献标引与文献检索而编制的人工语言,也是连接信息存储和检索两个过程中标引人员与检索人员双方思路的渠道,是用于文献标引和检索提问的约定语言。
5.信息检索:可以从广义和狭义两个角度理解。
广义的信息检索是指将信息按一定方式组织和存储起来,并根据用户的需要找出相关信息的过程,其中包括存与取两个方面。
狭义的信息检索仅指信息查找过程。
6.信息检索系统:是指按某种方式、方法建立起来的用于检索信息的一种有层次的体系,是表征有序的信息特征的集合体。
7.检索效果:是指利用检索系统(或工具)开展检索服务时所产生的有效结果。
三、简答题1.简述了解用户信息需求的作用答:用户信息需求是信息系统发展的动力,也是制定信息政策的出发点和依据。
了解用户需求的特点、心理规律、查询行为及需求方式,有助于系统制订合理的信息搜集方针和信息资源的合理布局,从而提高服务效益和质量。
2.简述影响信息动机向信息行为转化的主要因素答:(1)信息动机强度(2)认知能力(3)抱负水平3.简述信息需要的特点答:(1)信息需要的广泛性(2)信息需要的社会性(3)信息需要的发展性(4)信息需要的多样性4.简述信息检索系统的构成模式答:(1)信息数据的选择、处理、录入、维护子系统(2)词表和标引子系统(3)检索子系统(4)系统-用户接口子系统8.简述信息检索系统的流程系统可分为数据预处理、索引生成、查询处理和检索四个部分。
四、论述题1.有人说,信息加工是一个体系,你如何理解,请着重从“体系”这个角度加以说明答:(1)加工的方式、方法多种多样。
(2)加工的方式、方法相互之间有关联,从不同角度对信息进行加工的。
(3)加工过程有其内在联系,构成一个完整的系统。
(4)整个加工体系会随着时间的变化,信息数量的变化,载体的变化和技术的变化而不断变化和完善。
(5)信息的加工按其加工对象的不同可分为对外表信息的描述与加工,对整体信息的描述与加工,还有对内容信息的描述与加工。
2.请探讨一下信息加工的层次性根据信息加工特点,信息加工分为6个层次:①外表信息的加工是描述性的,给用户提供的是信息的线索;②整体信息的加工是概述性的,给用户提供的是信息的内容特点;③内容信息的加工要深入信息内部,对有用的信息给予揭示标引,使读者利用信息有据可查;④精粹信息的加工是通过比较鉴别的方法,选取价值高的整体或局部信息,给用户直接提供信息的精华,满足用户对实质性信息的要求;⑤深度信息的加工是研究性和评价性的,解决信息的优劣和有关信息的有效组合问题,给用户以启迪和决策依据;⑥相关信息的加工是信息的外延和扩展,使有关信息根据一定关系进行链接,给用户检索和直接利用的方便。
******************************* 二 ********************************************一、填空题1.数据库的定义功能主要是对数据库的结构进行描述,这些定义都保存数据字典中。
2.数据库系统提供了两种机制来支持完整性约束:第一种是完整性定义机制,第二种是完整性_验证约束机制_。
3.数据库的三级模式是指_外模式_、_内模式_、_模式_。
4.对文献数据库而言,加工深度表现为_题录_、_文摘_、_全文三个层次。
5.标引工作可分为_人工标引_、_计算机辅助标引_、_自动标引三种方式。
6.信息检索过程实际上是将检索提问式与文献记录标引词进行_对比匹配_的过程。
7.为提高检索效率,计算机检索系统从_概念相关性_、_位置相关性_等方面对检索提问实行技术处理。
8.用向量模型计算机向量时,一般采用向量的_夹角余弦_来表示。
9.通常,智能信息检索系统由_知识库_、_文本处理_、_智能接口_三部分组成。
二、名词解释1.数据模型:是描述数据、数据联系、数据操作、数据语义以及一致性约束的概念工具的集合。
2.著录:就是对信息外部特征进行分析、选择与记录的过程。
3.标引:就是指对信息内容特征进行分析,赋予信息以检索标识的过程。
4.词位检索:是以数据库原始记录中的检索词之间的特定位置关系为对象的运算,又称全文检索、邻近检索。
三、简答题1.什么是倒排文档?为什么要使用倒排文档?答:倒排文档是将主文档中的可检字段抽出,按某种顺序重新排列起来所形成的一种文档。
按表达文献内容特征的主题词排列的文档称为基本索引文档;按表达文献外部特征排列的文档称为辅助索引文档。
在实施检索时,必须和顺排文档配合使用。
倒排文档类似于检索工具中的辅助索引。
2.简述布尔模型及其优缺点答:布尔模型是最简单的信息检索模型。
这种模型的理论基础是集合论。
布尔模型最大的优点是理论简单、使用方便。
缺点是:(1)它只能给出精确匹配的结果;(2)检索结果有可能因查询词在大量文档中出现而数量太多;(3)由于找不到与查询词完全匹配的文档而使结果太少。
3.简述向量空间模型及其优点答:向量空间模型是一种简便、高效的文本表示模型,其理论基础是代数学。
向量空间模型最主要的优点在于:(1)该模型的权重计算方法能够提高系统的检索性能;(2)模型中使用的部分匹配方法能检索出与用户的查询输入条件“近似”的文档;(3)在模型中可以根据检索出的结果与查询条件的相关程度对结果进行排序。
另外,向量空间模型计算简单,检索速度快。
4.简述“网播”的信息推送方式答:(1)频道式推送(2)邮件式推送(3)网页式推送(4)专用式推送5.简述智能信息检索的系统结构答:智能信息检索系统是由知识库、文本处理和智能接口三部分组成。
6.简述智能信息检索的主要方法答:(1)统计方法(2)文本分析方法(3)人工智能方法(4)语料库方法7.有哪些种类的加权检索?各有哪些特征?加权检索把量化思想引入定性检索之中,是改善和提高检索效果的一种重要手段。
分标引加权和检索加权;检索加权是指检索者在给出检索词的同时,并为每个检索词赋予权值,以区分每个检索词在检索中的重要程度。
通过加权,明确了各检索词的重要程度,使检索更有针对性,并且能依据权值的大小,对命中记录的重要性进行排序词频加权检索是根据检索词在记录中出现的频次来计算命中记录的权和,依据命中记录权和数从大到小排列,最后由阈值控制输出命中结果。
与检索词加权检索不同的是,词的权值是由数据库记录中的词频决定,不是由检索者指定,不需人工干预,减轻了检索者的负担。
词频加权检索方法应建立在对全文数据库和文摘数据库基础之上,否则词频加权将失去意义。
简单词频加权检索:指检索时累计检索词在记录中出现的次数来决定记录的权值,然后累计该记录每个检索词权值之和来决定该记录是否为命中记录。
相对词频加权检索:是将每一个检索词在本文中频率和在整个数据库中的频率综合考虑,进行加权检索的方法。
标引加权检索是指在对文献进行标引时,根据每个标引词在文献中的重要程度不同,为它们附上不同的权值,检索时通过对检索词的标引权值相加来筛选命中记录。
四、论述题1.扩展的检索技术很多,请从提高可是查准率和查全率两个角度探讨一下扩展的检索技术。
循此思路。
你还有什么新的解决方法?2.如何理解布尔逻辑表达式的逆波兰转换?3.请用实例说明信息推送的实际应用******************************* 四 ******************************************一、填空题1.全文检索主要研究对整个文档信息的_表示_、_存储_、_组织_、_访问_。
2.全文检索的中心环节是_文件内容表达_、_信息查询的获得_、_相关信息的匹配_。
3.按检索对象来区分,全文检索可分为_基于文本_和_基于Web _两种类型;根据索引库中索引元素的不同,全文检索可分为_基于字表_的全文检索和_基于词表_的全文检索。
4.基于理解的分词系统通常包括_分词子系统_、_句法语义子系统_、_总控部分_等三个部分5.自动标引又分为_自动主题标引_、_自动分类标引_。
6.自动标引的方法主要有_统计标引法_、概率标引法_、_句法分析法_、_语义分析法、_人工智能法_。
7.一个自动标引系统通常包括文本输入_、_词典_、_抽词_、_知识库_、_综合与转换_、_输出_等六个子系统。
8.文本有_词频_、_标题_、_位置、_句法结构_、_线索词_、_指示性短语等新课程形式特征,这些特征是自动摘录的依据。
9.汉字全文检索系统主要包括两方面的核心技术,一是如何建立和维护全文检索的_索引数据库_,二是如何提供快速有效的_检索机制_。
10.索引数据库一般由一个变长的_主文件_和一个在索引文件控制下的_倒排文件_组成。
11.全文检索索引数据库的生成包括_数据准备_、_文本预处理_、_数据加载三个步骤。
二、名词解释1.全文检索自动标引主题词标引自动文摘三、简答题1.简述全文检索的优缺点2.简述基于字符串匹配分词方法的一般模型3.简述单汉字标引法及其优缺点4.简述主题词标引的基本思路5.简述主题词标引的实现6.简述自动标引的基本流程7.简述词索引的全文检索系统的索引算法8.简述全文检索系统的系统结构9.简述自动标引的基本方法10.简述汉语自动标引的方法11.简述自动标引的系统构成四、论述题1.针对全文检索存在的问题,你准备采取什么方式进行解决?2.根据简单匹配全文检索算法,画出其流程图3.请简要论述一下全文检索算法的发展轨迹4.请谈一下你对几种分词方法的看法。