信息储存与检索考点归纳

合集下载

信息存储与检索复习

信息资源：经过人类主观或客观处理了的，并且能够被传播或传输的文字、声音、图像、数据索引：是存取信息资源“地址”或“出处”的标识系统，是信息存储与检索的基本形式检索词：用户或检索者在检索活动开始前提出的字词或字符（叙词、标题词、自由标引词、关键词、全文检索自由词等），是检索式的基本单元提问检索式：检索提问表达式，简单为一个检索词和一个字段名，复杂为多个检索词及字段名由关系算符连接组成关系符：用于表示检索项在记录中出现的逻辑关系或位置关系的符号或位置算符（W）或（）：在检索结果中（W）算符两侧的检索词必须按此前后邻接的顺序排列，顺序不可颠倒，同时两个检索词之间不允许有其他词或字母，但可留空格或连字符（nW）：算符两侧的检索词之间允许n个实词或虚词，两个检索词的词序不允许颠倒（N）：由(N)连接的检索词的记录中出现的顺序可以调换，但必须彼此相邻（nN）：:算符的检索词之间可以插入n个词，且两个检索项的位置可以调换（F）：算符两侧的检索词必须同时出现在文献记录的同一字段中（S）：算符两侧的检索词必须同时出现在文献记录的相同子字段内，其检索词的顺序不限，夹在期间的词汇数量限（L）：算符两侧的检索词是从属关系（C）：算符两则的检索词须同时出现在一篇文献记录中，为and 关系（X）：两个相邻且词形相同的检索词作为词组出现，其间只能用“-”不得有其他字母或词gas(X)gas 即gas-gas（nX）：两个户型相同的检索词，其间夹有n-1个其他词时，可作为词组进行检索word by word可用word(2X)word表示截词检索：在检索词的某个局部截断，利用检索词的词干或不完整的词形加上截词符号所进行的检索前截断（后方一致检索）：将截词符号放在检索词词干的左边，以允许词干左边有若干个字符变化）：?magnetic后截断（前方一致检索）：将截词符号置于检索词词干的右方，以允许其右方有多个字符的变化）：geolog？中截断（前后方一致检索）：将截词符作为通用字符旋转在检索词的中间，以有有限个字符变化，符号的个数所字符变化的个数相同）：wom?n前后截断(:中间一致检索)：在检索词词干的左右两侧同时旋转截词符号，用以表示词干两侧允许有有限或无限个字符的变化)：?wave? 有限截断（在检索词干的左、中、右加上？和*，截词符的个数与允许变化的字符数相等）与无限截断（在检索词的后面加上？，允许在词干后出现的字符个数不限）：检索computer, comput？Comput??记录：是书目数据库文档的基本组成单位，也是描述某一信息实体牲数据的集合，由逻辑上相关的若干字段组成。

信息存储与检索重点

内容的揭示深度和检索入口，并直接影响
到用户查询的检索方式和检索途径。其功
能是用系统规定的规范化词语描述用户的
检索询问，包括对用户询问进行概念分析
和概念转换两个过程，也包括按照系统的
既定规则制定检索策略和构建检索式。该
子系统完成对数据库的查找过程，并与交
互子系统共同完成信息检索系统的检索功
能。
19
《信息存储与检索》
22
2.2.1 布尔模型
❖定义对于布尔模型而言，标引词权值变量都是二值的，即wi,j∈{0, 1}，查询q是一个常规的布尔表达式。用qdnf表示查询q的析取范式，qcc表示qdnf的任意合取分量。文档dj和查询q的相似度可以定义为：
sim(d
j
,
q)
1
0
如果qcc (qcc qdnf ) (ki , gi (d j ) gi (qcc )) 其它
现实的
（2）表示机理
信息
需求
（3）比较机理
输出检索结果图1-2 信息检索的一致性匹配作用机理
（4）判断机理（5）选择机理
5
《信息存储与检索》
1.1.2 信息检索的原理
1、提取机理：从现实的信息和现实的需求中提取出能够揭示特定信息和特定需求的语法特征和语义特征。可以归纳为内容特征和形式特征。
交互子系统用户群
词语子系统查询子系统
数据库
匹配子系统
图1-9 信息检索系统逻辑结构
标
采
引
选
子
子
系
系
统
统
信息源
16
《信息存储与检索》
1.2.4 信息检索系统的逻辑结构

信息存储与检索课堂笔记

第1章信息检索概论1.信息的定义：从认识论出发，我国大多数学者认为：信息具有物质属性，是物质的一种存在形式，它以物质的属性或运动状态为内容，并且总是借助于一定的物质载体传输或存储。

2.信息的特征：（1）传递性（2）时效性（3）共享性（4）客观性其他的特性还有开发性、存储性、价值的不定性、变换性、可伪性等。

3. 信息检索（Information Retrieval）定义：广义概念——是指将信息按一定的方式组织和存储起来，并根据信息用户的需要找出有关的信息过程，故全称：“信息存储与检索(Information Storage and Retrieval ) 。

狭义概念——仅指上述过程的后半部分，即从信息集合中找出所需要的信息的过程，相当于人们通常所说的信息查寻（Information Search)。

4.信息检索的基本步骤课题分析，明确检索范围选择检索系统和检索工具确定检索点和检索途径构造检索式选定检索方法索取原始文献5.计算机检索的发展历程计算机检索是在计算机技术和通信技术发展的基础上建立起来的。

它产生于20世纪50年代，发展于80年代中期，90年代后随着国际互联网技术的发展而进入了一个崭新的时期。

发展历程大致可以概括为：手工信息检索阶段(1954之前)脱机信息检索阶段(1954/1964)联机信息检索阶段(1965/1971)光盘信息检索阶段(1972/1994)网络信息检索阶段(1995年至今)6.知识的定义人们通过实践对客观事物及其运动过程和规律的认识。

在这里，知识作广义的理解，包括消息、情况、事实、数据。

知识可分为理性知识和感性知识。

理性知识，是对客观事物的本质和规律性的认识，是经过思维、逻辑加工的知识，构成知识体系；感性知识，是对客观事物的描述和对现象、事实的感知，是未经逻辑加工的知识。

知识的分类知识按不同标准可作如下分类：依照反映对象的深刻性和系统性程度，知识分为生活常识和科学知识；按知识的成熟程度，分为经验知识、理论知识。

信息检索知识点优选稿

信息检索知识点文件管理序列号：[K8UY-K9IO69-O6M243-OL889-F88688]信息检索考点整理1.信息检索的概念广义的信息检索是指将信息按一定的方式组织、存储起来，并根据信息用户的需要找出有关信息的过程，包括信息的存储和检索两个过程；而狭义的信息检索仅指有序化信息的检索查找。

2.信息检索的原理就是将检索者的检索提问标识与存储在检索工具中的信息特征标识进行相符性比较，凡是信息特征标识与检索提问标识相一致或者信息特征标识包含着检索提问的标识，则具有该特征的信息就从检索工具中输出，输出的信息就是初步命中检索所需的信息。

3.为什么说信息存储和检索是两个不可分割的有机体？检索的全过程包括存储和检索两个过程，存储和检索是相辅相成、不可分割的。

存储过程主要是利用检索语言对文献进行标引，形成文献特征标识并输入检索工具，为检索提供有规律的检索途径；检索过程主要是利用检索语言对检索提问进行标引，形成检索提问标识，再按照存储所提供的检索途径，将检索提问标识与文献特征标识进行比较。

检索过程是存储过程的逆过程。

因此，检索者只有在全面了解存储者是怎样把文献存入到检索工具中去以后，才知道怎样从检索工具中把所需要的信息检索出来。

4.信息检索的方法（1）顺查法（2）倒查法（3）抽查法（4）追溯法（5）循环法5.信息检索的途径（1）内部特征途径a)分类途径b)主题途径（2）外部特征途径a)题名途径b)着者途径c)文献编号途径d)目录检索途径e)机构检索法f)引文检索途径6.布尔模型的优缺点优点：（1）简单，形式简洁，易于理解；（2）可操作性强，应用广泛；（3）构成的逻辑提问式可以表达与用户思维习惯相一致的查询要求，提供非常精确的语义概念；（4）能处理结构化提问。

缺点：（1）表达用户复杂需求效果欠佳（2）准确匹配无法提供定量比较（3）匹配标准不尽合理（4）检索结果不易控制7.概率排序原则：如果一个检索系统对用户的每个检索提问的反应是以文献集合中的文献按相关性递减的顺序排列的，那么系统的总体效果是最好的。

信息存储与检索考试必看

信息存储与检索考试必看一、填空1、信息资源的特征：共享性、时效性、智能性、无限性和有线性并存、增值性及物质、资源的一般特征。

2、纸质文件按文献加工深度划分：一次文献、二次文献、三次文献、零次文献。

3、索引款目的构成：索引标题、说明语、地址参考项。

4、多媒体存取技术的核心是：媒体数据库技术。

5、网络信息检索工具有：字典型查询工具、索引型查询工具、交互式检索工具。

6、按系统存取的信息特征划分：文献存取系统、事实存取系统、数值存取系统、图像存取系统。

7、按检索工具划分：关键词检索工具、分类目录、混合型检索工具。

8、纸质文献资源的四个基本要素：信息内容、载体材料、记录符号和记录方式。

9、按检索系统的工作方式划分：脱机存取、联机存取、光盘存取、因特网存取。

10、文献存取系统包括：书目、全本和超文本。

11、存取系统的检索效果指标：检全率、检准率、检新率。

12、多元性检索工具：13、中文搜索引擎：谷歌、百度、雅虎、中国搜索、搜狗搜索等。

（三个可）14、多媒体信息存取系统的特征：信息载体的多样性、交互性、实时性、集成性。

二、名称解释：1、电子信息资源是以数字化形式把文字、图像、声音、动画等多种形式的信息存储在光、磁盘等非印刷型介质上，并以光信号、电信号的形式传输，通过相应的计算机和其他外部设备再现出来的信息资源。

2、索引是存取信息资源“地址”或“出处”的表示系统，是信息存储与检索的基本形式。

其基本功能是指示知识点在正文或文献款目中得位置。

3、标准文献狭义指按规定程序制订,经公认权威机构(主管机关)批准的一整套在特定范围(领域)内必须执行的规格、规则、技术要求等规范性文献，简称标准。

广义指与标准化工作有关的一切文献。

4、网络信息资源是指通过计算机网络可以利用的各种信息资源的总和。

具体的说是指所有以电子数据形式把文字、图像、声音、动画等多种形式的信息存储在光、磁等非纸介质的载体中，并通过网络通信、计算机或终端等方式再现出来的资源。

信息检索考试重点

名词解释4*4’1.信息素质：个体在现实需求的驱动下，能有效地发现、获取、评价和利用信息。

2.信息检索广义的信息检索全称是“信息存储与检索”，是指将信息按一定的方式组织和存储起来，并根据用户的需要找出有关信息的过程。

狭义的信息检索“信息存储与检索”的后半部分，通常称为“信息查找”或“信息搜索”，是指从信息集合中找出用户所需要的有关信息的过程。

3.登记性目录（概念）也叫国家书目，它是出版物国家登记制度的产物，反映国家出版的全部图书，实际上也反映了一个国家的文化、科学和出版业的水平。

4.联合目录（概念）汇总若干个单位馆藏而形成的目录，是馆藏目录的放大。

5.年鉴（概念）年鉴是汇辑一年内的重要时事文献、学科进展，汇辑各种统计资料和重要信息，并按年度出版的连续性出版物。

6.OPAC（公共联机书目查询系统）利用计算机终端来查询基于图书馆局域网内的馆藏数据资源的一种现代化检索方式，通过联机查找为读者提供馆藏文献的线索。

7.引文索引（概念）根据美国科学信息研究所（Institute for Scientific Information，简称ISI）的定义：对于文献A和B：若文献B提到或引用了文献A，则A是B的引文。

这里，文献A被文献B 提到或引用，A是被引用文献或参考文献。

同时由于B引用了A，故B又称为引用文献。

8.垂直搜索引擎(概念)也被称为专业搜索引擎，或主题搜索引擎。

它专门收录某一方面、某一行业或某一主题内的信息，专为查询某一个学科或某一主题的信息提供检索服务，在解决某些实际查询问题的时候比综合搜索引擎更有效。

简答4*9’信息素质包含四个层面的含义：第一，用户有一定的信息需求，即在某个时候需要了解某方面信息。

第二，掌握了主要的信息源和信息工具的知识及技能。

第三，能够分析评价选择相关信息。

第四，利用信息的目的是为了有效地解决具体问题。

信息素质主要表现为信息理论素养和信息的实践能力，包括信息意识、信息知识、信息能力和信息道德等内容。

信息检索-简答题(整理)较全版本

四、简答1. 简述信息组织、存储与检索的关系。

答：信息组织、存储与检索三者是不可分割的。

信息检索是通过信息存取系统（即检索工具）来实现的，任何一种信息存取系统都包括信息存储子系统和信息检索子系统，它们是同一事物中既相互对立又相互联系、互为依存的两个方面，而信息存取系统的建设，需要信息组织。

信息组织在信息资源开发中具有重要的地位，在信息管理中具有承上启下的作用，它是建立信息系统的重要条件，是信息存储与检索的基础。

所以，三者是不可分割的。

2. 简述信息存储的含义及作用。

答：信息存储是指通过多种形式记录和排序信息的过程。

它包含三层含义：一是将所采集的信息按照一定规则记录在相应的信息载体上；二是将这些载体按照一定的特征和内容性质组织成系统有序的、可供自己或者他人检索的集合体；三是应用计算机等先进的技术和手段，提高信息存储的效率和信息利用水平。

存储子系统的建设，要求根据一定的原则记录和描述信息或知识载体的内容与形式特征，然后按特征序化成各类信息集合并组织成系统。

信息存储部分是揭示信息特征、整序信息、建设系统的过程。

只有经过记录、描述与组织序化的知识集合，才能提供有效的信息检索。

因此，信息存储是基础，信息检索是目的。

3.文献的概念及分类4.什么是文献类型标识符，在什么情况下使用如何使用答：文献类型标识符：标识各种文献类型的符号。

使用范围：仅在含有各种文献类型的目录及其他检索工具中使用。

使用方法：著录在正题名后面，并用中括号“[ ]”括起来。

5.目录：是图书、期刊或其他单位出版物外表特征的揭示与报道。

它是以一本书、一种刊物为著录的基本单位，记录图书、期刊、资料等的名称、著者、出版项与馆藏项等内容，并按照一定的编排体例进行编制，但不涉及书中的章节或期刊中具体的文章。

6.信息检索语言7.追溯法：8.文献信息资源9.信息的概念是什么信息有哪些特征10.影响查全率和查准率的因素有哪些11试比较分类语言与主题词语言分类语言是运用概念划分的原理，以分类号为标识，将各种概念按学科性质加以划分和排列，用以分门别类地、系统地组织信息的一种检索语言，它又可以分为体系分类语言和组配分类语言以及混合分类语言。

2.信息存储与检索

61
论坛搜索
62
高级检索界面
63
高级检索
64
高级检索
65
统计数字变化
66
统计数字变化
67
网址关键字搜索：Inurl
68
网址关键字搜索：Inurl
69
网址关键字搜索：Inurl

把搜索范围限定在url链接中—inurl, 网页 url中的某些信息，常常有某种有价值的含义。如果对搜索结果的url做某种限定，就可以获得良好的效果。实现的方式，是用“inurl:”，后跟需要在url中出现的关键词。
6
分类法

《中图法》的标记符号
《中图法》是采用拉丁字母与阿拉伯数字结合的混合号码为标记符号。用22个拉丁字母代表22个基本大类，以字母的顺序反映大类的先后顺序。
7
《中图法》的22个基本大类

基本部类基本大类马克思主义 ……………… A 马克思主义列宁主义列宁主义毛泽东思想毛泽东思想邓小平理论………………………邓小平理论哲学、宗教……………………B 哲学、宗教社会科学………………………C 社会科学总论 D 政治、法律 E 军事
3
检索途径
每件文献均有内部的（信息内容）特征及其相关的外部特征，在检索系统中检索点是标目的总称。从文献的特征出发，将其特征值与检索系统中标目数据进行计算比较，通过匹配达到检索目的。反映文献信息内容特征：分类检索和主题检索；
反映文献外部特征：作者、名称和号码检索等。
4
5
1）分类检索
分类检索是从文献内容所属的学科类别出发来检索文献，它依据的是一个可参照的分类体系。分类体系按文献内容特征的相互关系加以组织，并以一定的标记(类号)作排序工具，它能反映类目之间的内在联系，包括从属、并列、交替、相关等。较权威的图书分类法有:中国图书馆分类法美国国会图书馆分类法杜威十进分类法

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1. 信息检索的原理：从下图可以看出，信息存储和信息检索有两个交汇处：一个是直接的，即表达信息主题内容的词语与表达需求主题内容的词语之间进行对比的交汇；另一个是间接的，即通过检索语言进行沟通，确保把存储用词和检索用词都统一到同一个检索语言体系中（对于自然语言检索系统来说，不存在存储与检索的间接交汇处）。

2.信息检索系统的物理结构一般包括硬件软件数据库3个部分。

信息检索系统的逻辑结构3.信息检索的研究内容包括以下几个方面：（1）信息检索理论研究（2）信息检索方法研究（3）信息检索技术研究（4）信息检索语言研究（5）信息检索系统研究（6）信息检索服务研究（7）信息检索评价研究。

4. 任何检索策略都包括3 个部分：文档表示查询表示匹配函数。

5..信息检索模型到底是什么？其描述如下:信息检索模型是一个四元组/D ，Q ，F ，R(qi, dj)/：（1）D 是文档集中的一组文档逻辑视图（表示），称为文档的表示；（2）Q 是一组用户信息需求的逻辑视图（表示），这种视图（表示）称之为查询；信息检索过图1-1 广义信息检索的基本图1-9 信息检索系统逻辑结构（3）F是一种机制，用于构建文档表示，查询及它们之间关系的模型；（4）R(qi, dj)是排序函数，该函数输出一个与查询qi ∈Q和文档表示dj ∈D有关的实数，这样就在文档之间根据查询qi定义了一个顺序。

6经典模型: 布尔模型向量模型概率模型。

7对于布尔模型而言，标引词权值变量都是二值的，即wi,j∈{0, 1}，查询q是一个常规的布尔表达式。

用qdnf表示查询q的析取范式，qcc表示qdnf的任意合取分量。

文档dj和查询q的相似度可以定义为：地址是指该行所在展开表中的地址；匹配成功时转向地址AFD，给出一旦在检索词与文献记录中标引词匹配成功时，下一步应该处理的提问检索词在提问表中的地址；匹配不成功时转向NFD地址，给出一旦检索词与标引词匹配失败时应该转向展开表中的地址；“层级值” 栏表示当前检索词在提问式中的层次级别；.8.布尔模型优缺点:优点：一是实现起来比较容易，速度快，计算的代价相对较少；二是查询语言表达简单，用户可以使用任意复杂的查询表达式，故得到广泛的应用.缺点;1布尔逻辑式的构造不易全面反映用户的需求。

2匹配标准存在某些不合理的地方。

3检索结果不能按照用户定义的重要性排序输出。

9.( t1 and t2) or ( t3 not t4) 或者qj = ( t1 ∧t2) ∨( t3 t4)。

10.计算机信息检索的基本原理仍是“匹配运算”，但是却不同于手工检索的“匹配运算”方式。

计算机匹配过程中，需要将检索提问式转化成计算机可以识别的形式，并且要使用系统中特定的检索指令、检索词和检索策略，由计算机自动对数据库中各文档记录进行查找。

当检索标示、检索策略与数据库中的信息标示关系一致时，即为命中，将结果输出给用户。

11.逻辑提问式即为Q=A*B*C*D.表展开法是将每个逻辑提问式转换成一个展开表, 如果有N个提问式就可做N个展开表。

每个检索词对应表中的一行。

其一般格式如下：展开表的生成，根据算法描述的顺序方向划分为两大部分：前处理部分和后处理部分。

前处理部分，也叫正向扫描处理部分。

按照逻辑提问式各项因子出现的先后顺序从左到右依次处理。

前处理算法描述:后处理算法： 1. 从最后一行条件满足指向栏往上推，如果遇到空，则置入下面最临近的且级位小于该栏的条件满足指向栏的内容，或最后一行条件满足指向栏的内容 2. 从最后一行条件不满足指向栏往上推，如果遇到空，则置入下面最临近的且级位小于或等于该栏的条件不满足指向栏的内容，或最后一行条件不满足指向栏的内容例：逻辑提问式(A+B)﹡(C+D)﹡E 的展开表形式11.布尔检索截词检索怎么实现的？布尔检索就是利用布尔代数中的逻辑与、逻辑或、逻辑非等运算符，将检索提问式转换成布尔表达式，计算机根据表达式查找符合限定条件的文献。

所谓截词（truncation ），是指检索者将检索词在自己认为合适的地方截断；而截词检索，则是用截断的检索词的一个局部去数据库中进行检索，凡是能与这个词局部中的所有字符（串）相匹配的文献，即为命中文献。

一）字段检索:字段检索是限定检索词在数据库记录中出现的字段范围的一种检索方法。

（二）使用限制符的限制检索:大部分信息检索系统都提供了一类限制符，使用这类符号进行检索，可以从文献的外部特征方面来限制检索结果。

词频加权检索:词频加权检索是根据检索词在文档记录中出现的频率来决定该词的权值，而不是由检索者来指定检索词的权值。

在这一方面，词频加权就消除了人工干预因素。

级位条件满足指向检索词代号地址条件不满足指向字段号比较条件检索词A B C D E 12345 3 3 5 5 1 0 1 0 0 命中不命中不命中不命中2 4 ( 略 )14.全文检索的技术指标既包含几种算法：一）索引膨胀系数二）检索速度邻接检索同记录检索15多媒体包含：磁盘、磁带、光盘等；另一是指信息的表现或传播形式，如声音、文字、图像、动画等。

多媒体的含义并非多媒体本身，二是处理与应用它的一整套技术。

多媒体技术的关键特征1）多样（2）集成性（3）交互性（4）实时性（5）互补性这5个特性缺一不可。

其中，多样性、实时性和互补性是基础，集成性是手段、方式或形式，交互性是核心或灵魂。

多媒体数据模型概述：数据模型就是在计算机数据世界中建立的计算机能接受的对现实世界中所要研究对象的抽象描述。

多媒体系统的数据模型的基本任务是：1.表示各种不同媒体数据的构造及其属性特征；2.指出不同媒体数据之间的相互关系。

多媒体数据模型概述：二）多媒体数据模型的体系结构一个完整的多媒体数据模型应该是对多媒体信息系统的信息和数据的内容、不同媒体对象或由它们合成的复合对象的表现、内容与表现之间的映射/对应关系进行组织结构上的抽象概括和规范描述的一个整体。

内容表现多媒体数据压缩的基本要求。

对数据进行压缩处理一般具有以下基本要求：（1）可还原（2）压缩比高（3）重现质量好（4）计算成本低（5）实时性好视频压缩的标准.;/视频压缩的一个重要标准是MPEG，即运动图像专家组（Moving Picture Expert Group）基于内容的多媒体信息检索原理:（一）基于文本的多媒体信息检索的局限性（二）基于内容的多媒体信息检索的特点及应用（三）基于内容的多媒体信息检索系统的体系结构基于内容的图像检索:基于内容特征的图像检索技术(content-based image retrieval，简称CBIR)，主要依据图像的画面内容特征和主题对象特征(即图像的实际内容)来标引和检索。

基于内容的图像检索分类：颜色检索形状检索文理检索草图检索对象检索由于传统的搜索引擎在设计方面存在局限性(集中式的体系结构，通过网络爬行器收集信息)，因此它们无法提供高准确度、搜索实时更新的数据库的服务。

因此，开发一个新的搜索框架，支持“点对点”，按照层次进行分布式搜索成为今后搜索引擎发展的趋势。

17.WWW是World Wide Web的简称，又常简称为Web。

目前Internet上Web信息资源的检索方法主要有三种基本形式：基于超文本/超媒体的信息浏览、基于目录的信息查询和基于搜索引擎的信息检索。

18超文本是由信息节点和表示信息节点间相关性的链构成的一个具有一定的逻辑结构和语义的网络：①数据库层；②超文本抽象机层；③用户接口层。

节点（Node）、链（Link）和网络（Web）是组成超文本的3个要素。

每个节点都有若干指针指向其他节点，或从其他节点指向该节点，这些指针称为链。

由多个链将节点连接起来就组成了一个网络，这就是超文本结构。

超媒体=超文本+多媒体19.HTML语言是一种简单的标记型语言，用于生成超文本。

确切地说，HTML并不是程序语言，而只是被放置在文本周围和内部的一组编码，使它通过浏览器以某种方式显示出来，并被赋予一些特定的属性，如能与另一个文件链接等超文本传输协议: HTTP是一个用于在客户端和服务器间请求和应答的协议。

20.超文本浏览器:Web Browser，也称网络浏览器或网页浏览器，简称浏览器。

浏览器是个显示网页伺服器或档案系统内的HTML文件，并让用户与这些文件互动的一种软件。

ftp:是FTP（档案传送协议）URL（统一资源定位符）21.搜索引擎的概念与基本功能？搜索引擎实际上就是对WWW站点资源和其他网络资源进行标引并提供检索服务的服务器或网站，是一个基于互联网的信息搜集、组织和用户查询的平台。

（一）一般检索功能布尔逻辑检索词组检索截词检索位置检索字段检索（二）高级检索功能加权检索自然语言检索多语种检索区分大小写的检索模糊检索概念检索22.搜索引擎的结构与原理：收集器索引器检索器用户接口1收集器负责信息的采集工作。

搜索引擎的信息采集机制按照人工程度划分，可分为人工采集和自动采集；按照信息时新性，可分为定期搜集和增量搜集两种。

2索引器的功能是理解收集器所搜索的信息，从中抽取出索引项，用于表示文档以及生成文档库的索引表，使检索者能够快速地检索到所需信息。

建立索引需要进行以下处理：（1）信息语词切分和语词词法分析；（2）进行词性标注及相关的自然语言处理；（3）建立检索项索引。

3搜索引擎的检索器负责根据用户的检索请求，从索引数据库中快速查找相匹配的网页，并将结果按顺序以Web 方式呈现给用户。

检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型四种。

4用户接口接受检索者提交的查询请求(包括查询内容及逻辑关系)，搜索引擎根据检索者所输入的关键词在其索引中查找，并寻找相应的Web 页地址。

搜索引擎的类型：按信息搜集方法和服务提供方式的不同，搜索引擎可以分为五大类。

目录式搜索引擎全文搜索引擎元搜索引擎集成搜索引擎智能搜索引擎23.人工智能技术24.专家系统的特征 :根据费根鲍姆的定义，专家系统是一种智能的计算程序。

（1）具备某个应用领域的专家级知识；（2）能模拟专家的思维；（3）能达到专家级的解题水平。

25专家系统与传统的计算机程序的区别：（1）从编程的角度来看：专家系统=知识库+推理机传统程序=数据+算法（2）传统程序不具备解释功能，而专家系统能对自己的行为作出解释。

（3）传统程序是根据算法来求解的，所以答案每次都是正确的。

而专家系统则像人类的专家一样工作，答案有错误的可能。

但其能从中吸取教训，改进其求解能力。

（4）从处理的对象来说，传统程序是面向数值计算和数据处理的，数据多是精确地，对数据的检索是基于模式的布尔检索;专家系统是面向符号处理的，数据、知识多是不精确、模糊的，对知识的匹配也是不精确地。