信息检索技术的现状与发展
信息检索知识点

计算机检索1.信息素养(信息素质、信息能力):作为具有IL(information literacy)能力的人,必须能够充分地认识到何时需要信息,并有能力去有效地发现、检索、评价和利用所需要的信息,从而具有终身学习的能力,总能够为任何任务和决策找到所需信息。
2.信息检索广义:指将信息按照一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程和技术。
包括存储和检索两个过程.狭义:从信息集合中找出所需信息的过程。
信息查找(Information Search,Information Seeking)2。
1信息现状分析1)信息爆炸导致文献量急剧增加,内容相互渗透,语种增多;文献分布异常分散;文献寿命愈来愈段;2)由于条件限制,人们吸收和利用信息的能力并未得到相应的提高。
3.检索的作用1)促进智力资源的开发;2)协助管理者做出正确的决策;3)帮助科研人员借鉴前人的研究成果,避免重复劳动;4)信息检索是知识更新的手段.4.数据库类型(1):作为图书馆数字资源的数据库特指为科学、教学、学习所需各种参考资料的集合,以数据库的形式管理和利用。
自建数据库:馆藏目录(OPAC),本校学位论文数据库。
商业性数据库:数据库商、出版商和其他机构以商业化方式提供的各种电子资源,图书馆需要支付一定的费用购买数据库的使用权再提供给一定的读者群。
免费数据库:开放获取资源、机构典藏和其他免费的网络资源。
5.数据库类型(2)从收录文献的内容分,有综合性数据库和专业性数据库之分;从收录文献的类型分,有图书数据库、期刊数据库、学位论文数据库、报纸数据库、会议文献数据库、专利文献数据库、标准数据库等;从提供文献的形式分,有全文数据库、文摘数据库、引文数据库;各数据库举例:专业数据库:Petroleum Abstract(PA)、EnCSciFinder Schoiar(CA)综合性数据库:读秀、Scopus、EI、SCI特定文献类型,如图书、期刊、学位论文等:超星、EIsevier ScienceDirect、PQDT全文数据库:CNKI、维普、SPE摘要性数据库:EI、PA引文数据库:Web of Science、CSSCI(中文社会科学引文索引)6.Science Citation Index Expanded(SCI—E)是个什么样的数据库?它是ISI检索平台中Web of Science核心合集中的一个子库它是一个摘要型数据库它是一个引文数据库它是一个期刊数据库它收录的学科范围包括科学、技术的各学科7.查文献应该如何选择数据库?学科专业:有专业型数据库时,首选专业型数据库;数据量:选择数据量大的;文献类型:根据研究的需要。
关于高等学校信息检索课现状的思考

关于高等学校信息检索课现状的思考摘要:信息爆炸时代的社会,需要的是能够又快又准检索到信息的”信息人”,高等学校的信息检索课程正是本着这一宗旨应运而生。
本文针对高等学校信息检索课的现状,提出了信息检索课目前存在的一些问题,并且针对这些问题和作者多年的教学经验,给出了信息检索教学改革的几点建议,供承担信息检索课教学工作的教师们参考。
关键词:高等学校;信息检索随着信息技术的发展,知识的载体呈现多样化的特征,并且电子信息资源不断丰富和发展起来,这就要求信息需求者的检索技术也要随之提高。
自1984年教育部要求在各高等学校开设这门课程以来,信息检索课程已经走过了近30个年头,课程的内容也随着信息技术的发展而不断变化和扩充。
信息检索课是一门培养大学生的信息素养、提高自我知识更新能力的课程,是 21世纪高校信息素养教育的重要课程之一。
它在增强学生信息意识、提高学生信息检索技能等方面起到了重要的作用。
一、高等学校信息检索课存在的问题(一)对课程的重视程度虽有所提高,但教材的选用还缺乏合理性虽然较之前几年,高等学校对信息检索越来越重视,大部分高校都成立信息检索课教研室,但在教材选用上还缺乏合理性。
信息资源具有很强的专业属性,各专业所需要的信息资源不同,检索的对象也就不同,检索方法自然也就有差异。
但由于很多高校开设这门课程的时间不长,没有专业的老师讲授这门课程,大部分授课教师都是在正常的工作之外又承担了这门课程的教学工作,精力有限,没法针对授课专业去选择适用性强的教材。
几乎所有专业的教材都是教研室统一安排的,教学大纲也是统一制定。
这样对各专业的学生来说是很不利于他们学习检索技术的。
例如选用的教材偏向工科专业,里面的案例也都是检索跟工科专业相关的数据库,对于文科学生来讲,既看不懂也学不会,白白浪费了课堂时间,等到检索的时候,还要重新学习所要检索的数据库系统的检索方法。
(二)师资力量不强,授课方式比较单一由于信息检索课是随着科学技术的发展才新兴起来的课程,起步比较晚,所以大部分高校的检索课教学工作都是由图书馆老师承担。
基于人工智能的档案信息检索技术研究

基于人工智能的档案信息检索技术研究摘要:本文旨在研究基于人工智能的档案信息检索技术。
通过对档案信息检索的现状和问题进行分析,介绍了人工智能在档案信息检索中的应用和价值,探讨了人工智能技术在提高检索效率和准确性方面的作用,并提出了相关改进和优化措施。
关键词:基于人工智能;档案信息检索;技术优化引言随着数字化时代的到来,档案信息的数量呈现爆炸式增长,传统的人工检索方式已经无法满足快速、精确地提取所需信息的需求。
人工智能技术的发展为档案信息检索带来了新的机遇和挑战。
本文旨在研究基于人工智能的档案信息检索技术,探索其在提高检索效率和准确性方面的应用和价值。
一、档案信息检索中存在的问题与挑战(一)信息过载随着信息技术的发展,档案中的信息量呈指数级增长。
传统的人工处理和手工标引方式无法应对大规模、高维度的档案信息,并且容易受到主观因素的影响。
档案管理员和用户都很难从这些海量信息中快速获取到所需的信息,存在信息过载的问题。
(二)检索效率与准确性传统的档案信息检索方式依赖于手工处理和手动分类,这使得检索的效率和准确性受到限制。
人工处理的速度慢、容易出错,并且难以处理复杂的检索需求。
传统方式往往无法满足用户对更高效和准确的档案信息检索的需求。
(三)个性化需求难以满足传统的档案信息检索方式缺乏对个体用户的个性化需求的理解和响应。
由于档案信息的固化性和静态性,很难根据用户的个性化偏好和搜索历史提供定制化的检索结果。
这导致用户的满意度和使用体验较低。
二、人工智能在档案信息检索技术中的应用与价值(一)自然语言处理技术在档案信息检索中的应用1.文本分类与语义理解利用自然语言处理技术,可以对档案中的文本进行分类,以便更好地组织和管理档案信息。
通过训练机器学习模型,可以将文本分为不同的类别,如文件类型、主题等。
这有助于提高档案馆和档案管理员的工作效率,使他们能够快速找到所需的信息。
另外,语义理解技术可以帮助机器更好地理解文本内容,包括识别语句结构、提取实体、理解语义关系等。
信息检索文献综述

信息检索文献综述前言:关于信息检索技术的文献综述,一、信息检索技术现状,信息检索技术综述,信息检索技术实现了把信息检索从基于关键词层面提高到知识层面,从传统的基于关键词的检索到吸引广大研究者眼球的语义检索,传统的基于关键词信息检索,语义检索是把信息检索与人工智能技术、自然语言处理技术相结合的检索技术,它从语义理解的角度分析信息对象和检索者的检索请求,提高了检索性能,语义检索技术将有一个长期深入研究的过程。
关于信息检索技术的文献综述一、信息检索技术现状【1】梁鸿雁,信息检索技术综述,2010(9),软件导刊,35~37,在现有研究的基础上,信息检索技术实现了把信息检索从基于关键词层面提高到知识层面。
从传统的基于关键词的检索到吸引广大研究者眼球的语义检索。
实现了把信息检索从基于关键词层面提高到知识层面。
传统的基于关键词信息检索,已取得了很大的成功,但是它不能从根本上表达用户的查询请求。
语义检索是把信息检索与人工智能技术、自然语言处理技术相结合的检索技术,它从语义理解的角度分析信息对象和检索者的检索请求,提高了检索性能。
但由于自然语言理解和人工智能等领域的局限,语义检索技术将有一个长期深入研究的过程。
二、信息检索技术类型及方法【1】赵阳,浅谈信息检索技术,2012年11月,科技创新与应用,45,介绍了当今比较热门的两种信息检索技术:第一,智能检索或知识检索传统的全文检索技术基于关键词匹配进行检索,智能检索利用分词词典、同义词典,同音词典等改善检索效果,还可在知识层面或者概念层面上辅助查询,通过主题词典、上下位词典、相关同级词典,形成一个知识体系或概念网络,给予用户智能知识提示,最终帮助用户获得最佳的检索效果。
第二,知识挖掘,目前主要指文本挖掘技术的发展,目的是帮助人们更好的发现、组织、表示信息、提取知识,以满足信息检索的高层次需要。
【2】孙广维,多媒体信息检索技术的研究,2012,6 ,吉林建筑工程学院学报,79~81,作者提出传统的多媒体检索方法处理比较简单,有的仅通过多媒体的外部属性和简单的文字描述进行检索,还脱离不了文本、数值和关键词的检索范畴,对图像、音频、视频信息则只有浏览或查看功能,缺乏多媒体本质特征的描述,在多媒体数据库中集成了图像、视频、音频等非文本信息,这样我们就可以用图像、音频、视频信息方便的进行检索。
信息检索教学在网络环境下的现状及改革建议的论文

信息检索教学在网络环境下的现状及改革建议的论文信息检索教学在网络环境下的现状及改革建议的论文在当前竞争日常激烈的信息化社会中,如何着手来加强现代化的信息教育,大力培养学生的创新意识,已经成为了当前教育的重要问题,高校的文献检索课程也正是为了更好满足这一需要而存在的。
文献检索能力可以有助于学生自学能力的培养,因为在文献检索的过程中,也可以培养学生的批判性思维和解决问题的能力。
随着互联网越来越发达,信息资源也就更加多载体化,这一切都迫切需要对目前的信息检索课程教学进行改革,以适应社会发展的要求。
1文献教学课程的改革目标文献检索课程本质上是一种较为重要的科学方法课程,其重点就在于传播文献检索的技巧技能,以及对图书馆资源进行有效利用方面的知识。
伴随着当前信息化浪潮的到来,文献检索课程迫切需要转变以往的教学方式,重点培养学生的创新思维能力,增强学生获取信息的能力,来满足社会对于高级检测人员的需求。
1.1加强学生的信息概念信息概念主要是指人们对于信息需求所产生的自我意识,本质上是人们要从信息的角度来观察、感受所有的行为状况,进而来有效地对信息进行利用的能力。
有意识地来培养学生的信息能力,可以帮助他们从各个方面来找到有价值的信息,提高他们的信息意识,帮助学生更加了解信息的内涵。
1.2增强学生的信息获取能力在当前的高校中,随着数字化图书馆的建设,学生已经可以在图书馆中获得海量的信息资源,学生也可以有针对性地选择各种不同的信息载体来制定有效的信息检索策略。
学生需要积极地把自身所学到的理论知识应用到实际的检索过程中,以便可以高效率地找到自己需要的信息,信息的获取需要学生具备完整的信息工具使用能力、筛选信息的能力、多线程同时处理各种信息的能力[1].2当前的信息检索教学现状2.1教学内容严重脱节当前使用的信息检索教材内容严重滞后于时代的发展,教材的主要内容仍旧处于数据库理论方面的旧知识,很少涉及目前迫切需要的信息安全意识、网络道德培养等方面的内容,这样的教材现状也就从根本上使得学生的信息意识不高、信息观念较为淡薄,这样的教材培养出来的学生自然也就达不到信息化社会的需要。
信息检索的现状和趋势

信息检索的现状和趋势
信息检索是指用户通过信息系统(如搜索引擎、数字图书馆等)来查找和获得所需要的信息的过程。
目前,随着互联网的普及和信息科技的不断发展,信息检索正面临着以下的现状和趋势:
1. 大数据时代:随着数据量的不断增加,与之相关的问题也愈发复杂,包括如何高效地存储、管理和处理这些数据,以及如何准确地提取有价值的信息。
2. 智能化:信息检索领域正朝着智能化方向发展,涉及机器学习、自然语言处理等技术,可以帮助用户更快更准地找到所需要的信息。
3. 面向普通用户:越来越多的人开始使用互联网和数字设备,他们对信息检索的需求也越来越强,因此信息检索的技术和服务需要更加贴近普通用户的需要。
4. 社交化:人们越来越倾向于通过社交网络和社交媒体来获取信息。
因此,信息检索技术需要将社交化的元素纳入其中,并结合社交网络中的人际关系等信息来提供更为个性化和精准的检索服务。
5. 面向多语言和多媒体:随着跨国公司和跨国组织的不断涌现,信息检索不仅要面对多种语言的问题,还要面对多媒体内容的问题,这也成为信息检索技术需求的重要部分。
综上所述,信息检索技术正以智能化、社交化、便于使用为主要趋势,同时还需要结合大数据、多语言、多媒体等特点来满足用户的需求。
2024年搜索引擎市场分析现状

2024年搜索引擎市场分析现状1. 引言搜索引擎是现代互联网时代的核心工具之一,它为用户提供了方便、快捷的信息检索服务。
随着互联网的普及和用户对信息需求的不断增长,搜索引擎市场也变得日益竞争激烈。
本文将分析当前搜索引擎市场的现状,并探讨其未来发展。
2. 搜索引擎市场概况2.1 主要搜索引擎公司目前,全球搜索引擎市场主要由以下几家公司主导:•谷歌(Google)•百度(Baidu)•必应(Bing)•搜狗(Sogou)•360搜索这些公司不仅在全球范围内竞争激烈,而且在各自本土市场上也有其独特的竞争优势。
2.2 市场份额分析根据最新的数据显示,全球搜索引擎市场份额分布如下:•谷歌:占据约80%的市场份额,是全球最大的搜索引擎公司。
•百度:主要在中国市场竞争,占据约15%的市场份额。
•必应:在全球范围内市场份额较小,约为4%。
•搜狗:在中国市场有一定的竞争力,占据约1%的市场份额。
•360搜索:同样在中国市场有一定的市场份额,约为1%。
从市场份额来看,谷歌一直占据着绝对优势地位,百度在中国市场表现突出,而其他搜索引擎则相对较小。
3. 搜索引擎市场竞争模式在搜索引擎市场中,公司之间的竞争主要集中在以下几个方面:3.1 搜索算法的技术优势搜索算法是搜索引擎的核心竞争力之一。
通过不断改进和优化搜索算法,搜索引擎公司可以提供更精确、更贴近用户需求的搜索结果,从而吸引更多的用户和广告客户。
3.2 用户体验的提升搜索引擎公司通过改善用户界面、加速搜索速度以及提供更全面的搜索结果来提升用户体验。
用户对于搜索结果的满意度将直接影响他们的使用习惯和忠诚度。
3.3 广告收入的竞争搜索引擎公司通过广告业务来获取收入,并在此方面展开竞争。
通过提供更精准的广告投放和更高的点击率,公司可以吸引更多的广告主和广告投资。
3.4 移动搜索的布局移动设备的普及使得移动搜索成为搜索引擎公司争夺的新的战场。
各大搜索引擎公司都在加大对移动搜索的布局力度,通过开发移动应用和优化移动搜索结果,以满足用户在移动设备上的搜索需求。
数字化图书馆与文献信息检索

数字化图书馆与文献信息检索摘要:数字图书馆的研究与建设涉及多方面内容,其中文献信息检索技术是数字图书馆建设发展中一个不可或缺的重要方面。
本文主要讨论了数字图书馆的兴起和特征,及在数字图书馆条件下对文献检索方式、方法和内容上的变革影响,分析了在此条件下图书馆文献服务重点的转移,提出了数字环境下优化图书馆信息服务的策略,以求得对当前图书馆数字化进程有所帮助。
关键词:数字化图书馆文献信息检索现状与发展1、数字化图书馆的发展历程及现状(1)数字化图书馆的兴起随着信息技术的发展和数字化时代的到来,特别是网络技术、数码存储与传输技术等的全面普及,使得人们对文献信息的加工、存储、查询、利用等方面有了新的要求。
因此,数字图书馆也就应运而生。
“数字图书馆”一词由英文Digital Library翻译而来,是用数字技术处理和存储各种图文并茂文献的图书馆,实质上是一种多媒体制作的分布式信息系统,它把各种不同载体、不同地理位置的信息资源用数字技术存储起来,成为一个跨越区域面向对象的网络查询和传播系统。
数字图书馆以组织数字化信息及其技术并提供有效服务,将分散于不同载体、不同地域的数字化信息资源以网络化方式互相联结,提供利用,实现资源共享。
(2)数字图书馆的特征馆藏资源数字化。
传统图书馆向数字图书馆演化的一个重要表现就是馆藏文献资源的逐步数字化。
传统图书馆的馆藏就是图书、期刊、专利、技术报告、会议录等印刷型文献和缩微制品、视听资料等非书资料。
数字图书馆的基本特征之一就是利用信息技术和网络通信技术,将这些传统文献信息资源文字资料、视频信息、声频信息转化处理为数字化信息。
文献传递网络化。
在信息资源数字化的基础上,数字图书馆的信息资源通过由宽带网组成的因特网和万维网将各地图书馆和成千上万台计算机联为一体。
网络通信系统是数字图书馆的重要基础设施,也是真正实现数字图书馆信息服务的先决条件之一。
网络已成为数字图书馆不可缺少的重要组成部分。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
检索
文档表示
建立索引
用户需求
匹配过 程
文档
8
Web 检索的一般模式
9
2. 信息检索的基本方法
在信息检索中,中心问题是如何判断一篇文 档是否与用户的查询条件相关。 通常方法是设计一个评分函数(即相似性计算 函数),对检索过的文档进行评分,然后再根 据评分的高低对这些文档进行排序。 评分函数是信息检索系统是否获得成功的关 键因素之一。
4
续
信息检索(IR)
广义上说,IR是指将信息按照一定的方式组织和存 储起来,并能根据用户的需求查找出其中相关信息 的过程。 “存”——主要指面向来自各种渠道的大量信息资 源而进行的高度组织化的存储; “取”——要求面向随机出现的各种用户信息查询 请求进行高度选择性的查找,并且强调查找的快速 与便利性。 狭义的信息检索一般仅指“取”的过程。对信息用 户而言,后者更为重要。
查询方式不同
查询需求不同
6
IR需求的发展
互联网信息的快速膨胀
1990互联网出现;
有 50 million 个网页; 1997.12 有 320 million个网页; 1999.2 有 800 million个网页; 2000 有 1 billion个网页; …… and growing every day now
5
文档检索与IR区别
信息源数据不同
结构化的数据 ( e.g. relational database ) 半结构或无结构化的数据 ( e.g. free text, web page, etc. ) 采用规则表达式的方法 采用自然语言的方法 面向专家的系统 面向普通用户的系统 ( e.g. SQL ) ( e.g. ―航空母舰的发展历史” )
2 xi yi
i 1 t
dice( X , Y )
x y
i 1 2 i i 1
t
t
2 i
其中:X=(x1, x2, …, xt) , Y=(y1, y2, …, yt) 为两向量, t为其维度。
35
Jaccard coefficient(杰卡德系数)
2 xi yi
i 1 t
p 1/ p i 1
20
续
xm表示第m 个项目在文档 d 中的重要性度量;
1≤p<∞ p表示项目间逻辑关系严格的程度(degree of strictness),取值为1 最松,取值为无穷大最严 p=+∞ p-norm模型等同于经典的布尔模型; 当p较低时,AND式中的一个权值较低的项会使总体值大大降低;OR式中的一个 权值较高的值会使总体值大大提高。
Jaccard ( X , Y )
xi2 yi2 xi yi
i 1 i 1 i 1
t
t
t
其中:X=(x1, x2, …, xt) , Y=(y1, y2, …, yt) 为两向量, t为其维度。
36
2.3 概率模型
检索问题即求条件概率问题 If Prob(R|di, q) > Prob(NR|di, q) then di 是检索结果, else di 不是检索结果
Document Retrieval is defined as the matching of some stated user query against useful parts of free-text records.
Donna Harman et al. , 1996, Document Retrieval, in Survey of the State of the Art in Human Language Technology
21
2.2 向量空间模型
思想: 文档D和查询Q(统称为文本)都可用向量表示 检索过程就是计算文档向量与查询向量之间的 相似度 根据相似度值的大小,对检索结果进行排序 根据检索结果反馈意见,作进一步的相关检索 (Relevance feedback)
22
从文本到向量空间(vector space)
29
tf.idf 加权(续)
Document frequency:含有termi 的文档的数量,记做dfi dfi 越高,意味着termi 在衡量文档之间相似性方面作用 越低,(大部分文档都包含,就没有特色了)。 比如“的”的df值肯定非常高,因此不具有区别性,这 类词称为“非焦点词”; 在前面的例子中,如果该篇谈论乔丹的文章是出自于 “篮球天地”这本期刊,显然该期刊中有很多篇文章 都含有“篮球”这个词,这样,尽管“篮球”这个词 在该篇文章中的tf值很高,但对该篇文章的唯一性方 面没有提供什么帮助。
16
续
对于Term1 OR Term2形式Query,相似度公式为:
x表示Term1在文档dj中的重要程度∈(0,1) y表示Term2在文档dj中的重要程度∈(0,1)
对于Term1 AND Term2形式Query,相似度公式为:
17
相似度计算示例
18
P-norm模型
思想:将上述只包含两个项目(Term)的查询式的 相似度计算进一步拓展为包含m 个项目的查询式 的相似度计算。 补:几种常用的向量范数 1. 向量的∞范数
2)查询表达式易于掌握
―飞碟”AND ―小说”:只能检索出D4,无法显现D1,D2,D3的差异 “飞碟”OR ―小说”:可以检出D1,D2,D4,但无法显现它们的差 异 即:页面之间的重要性无法表示。
15
扩展的布尔检索(Extended Boolean Model)
目的:为了克服布尔模型查询结果的无序性; 思想:将非此即彼的匹配方式改为计算相似度 (Similarity);将所检索文档信息中索引项与用 户查询表达式进行相似度计算,按相关的优先 次序排列查询结果; 常见:MMM模型、Paice模型、P-norm模型
在上面的例子中,如何度量q 跟 d1 还是 d2 更相似些?
25
余弦系数:相似程度的度量方法之一
26
余弦系数计算示例
27
索引项权值的计算(Term Weight)
权值的直观含义:
一个项目对于一个文本的重要程度: 即一个项目在多大 程度上可以将这个文档与其他文档区别开
计算权值的两种简单方式:
37
续
ቤተ መጻሕፍቲ ባይዱ
文档与查询条件的相似性计算是基于概率排序 原理,即通过估计文档与用户查询条件的相关 概率对文档集合进行排序。 概率模型的特点是它以文档与查询条件相关的 概率对文档进行降序排列,以期待得到最好的 检索性能,缺点:
(1)需要假定初始的相关和不相关文档集合; (2)没有考虑文档内部索引检索词的频率信息,检索 词的权重值是二元的; (3)假定索引检索词是互相独立的。
信息检索技术的现状与发展
主要内容
信息检索的概念(Information Retrieval, IR) 信息检索的基本方法
基于内容的检索
布尔模型 向量空间模型 概率模型
基于链接的检索
信息检索系统的性能评测 信息检索的未来发展
2
1. 信息检索(IR)的概念
文档检索
3
续
文档检索定义为在有用的自由文本中寻找与 用户查询相匹配的状态的过程;
11
2.1 布尔模型
查询表达式:由逻辑算子AND, OR, NOT连接若 干“项目”(Term)构成; e.g. 1) ―飞碟” 2) ―飞碟”AND ―小说” 3) ―飞碟”AND (―中国”OR (NOT ―科幻小 说”))
检索/匹配:返回值=1,表示文档符合 User Query要求 返回值=0,表示文档不符合User Query要求
12
布尔检索示例
13
真值表(Truth Table)
P
0 0
1 1
Q
0 1
0 1
NOT P
TRUE TRUE
FALSE FALSE
P AND Q
FALSE FALSE
FALSE TRUE
P OR Q
FALSE TRUE
TRUE TRUE
14
布尔检索的特点
优点
1)简单、速度快
缺点
1)不够精确,不能反映不同“项目”对一个 文档的重要程度的差异 (只提供“有/没有”两个选项) 2)检索结果地位平等,无法排序
23
文档的向量表示
假定有三个项目:
“葡萄”,“美酒”,“夜 光杯”
假定以项目在文本中的 出现次数为项目的权值 葡萄 美酒 夜光杯 T1 T2 T3 d1 2 3 5 d2 3 7 2
q
0
0
2
24
计算向量之间的相似度
向量间相似程度的不同度量方法
Inner product (内积) Cosine coefficient(余弦系数) Dice coefficient: (掷骰子系数) Jaccard coefficient(杰卡德系数)
31
tf.idf 加权(续)
索引项加权:给那些经常出现在一个文档中,而不常出现在 其他文档中的项目以更高的权重,即让“特别的词”从“一 般的词”中凸现出来。 在这个基本精神指导下,出现了许多不同的加权公式
32
tf.idf 加权示例
33
tf.idf 加权示例(续)
34
Dice coefficient: (掷骰子系数)
1995.11
信息表现形式的变化
: hardcopy electronic device 数据访问形式的变化:online data online information service