信息检索技术现状、发展和未来

合集下载

信息检索技术的发展历程及前景

信息检索技术的发展历程及前景

信息检索技术的发展历程及前景信息检索技术是随着信息时代的到来而逐步发展的一门重要技术。

它起源于20世纪60年代的信息检索领域,经过了几十年的发展,现如今已经成为了各个领域中不可或缺的技术之一。

本文将会介绍信息检索技术的发展历程及未来前景。

一、发展历程信息检索技术起源于20世纪60年代,当时主要应用于图书馆学、情报学等领域,用于帮助人们快速地找到需要的信息。

当时的主要工具是文献检索手册和分类索引卡等,效率很低。

到了20世纪70年代,随着计算机技术的不断发展和普及,信息检索技术开始运用计算机技术,采用关键词搜索等方式来提高信息检索的效率。

此外,还出现了全文检索、倒排索引等新技术,使检索更加方便快捷。

随着互联网的广泛应用,信息检索技术也得到了广泛的发展和应用。

Web搜索引擎的出现,为互联网上海量信息的检索提供了重要的工具。

1993年,两位斯坦福大学的学生创建了一个名为“Archie”的FTP搜索引擎程序,它是第一个互联网搜索引擎。

之后,Yahoo、Google等搜索引擎相继出现,彻底改变了人们获取信息的方式。

进入21世纪,信息检索技术加速发展。

随着大数据时代的到来,信息爆炸式增长,信息检索技术不断进行创新,启发式搜索、聚类分析等新技术应运而生。

目前,不仅网页搜索,而且图像、音频、视频、社交媒体等领域都发展了针对不同类型信息的信息检索技术。

二、发展前景在信息爆炸的时代,信息检索技术的发展前景非常广阔。

未来,信息检索技术将会向以下方面发展:1、深度学习技术将成为信息检索技术的重要工具。

目前,大量的科研工作者正在研发使用深度学习技术的信息检索算法,这些算法可以更加准确地理解用户的需求和意图,进而更快速、精准地为其提供所需信息。

2、人工智能和自然语言处理技术的应用将使得信息检索更加智能化。

未来,我们将看到越来越多机器人智能助手可以准确地理解人类语言,为人们提供精准的信息检索服务。

3、信息检索技术的深化和应用将催生出大量新的领域,比如语音识别、人脸识别、虚拟现实等等。

未来文献检索的发展趋势是

未来文献检索的发展趋势是

未来文献检索的发展趋势是
文献检索作为信息检索的一个重要分支,在数十年的发展中取得了长足的进步。

随着科技的不断进步和信息量的不断增大,未来的文献检索必然会朝着更智能、更高效、更个性化的方向发展。

本文将从多个方面探讨未来文献检索的发展趋势。

1. 多样化的检索方式
传统的文献检索主要依靠关键词检索,但随着语义检索、自然语言处理等技术
的发展,未来的文献检索将更加多样化。

用户可以通过语音、图片、甚至是视频等多种方式进行检索,实现更加智能化的信息获取。

2. 强化个性化推荐
未来的文献检索将更加注重个性化推荐。

基于用户的检索历史、偏好等信息,
系统将能够为用户提供更符合其需求的文献推荐,提升用户体验和检索效率。

3. AI技术的应用
随着人工智能技术的不断发展,未来的文献检索必将与AI技术更加紧密地结合。

智能算法将能够帮助用户更快捷地找到所需信息,同时还能够进行内容的深度挖掘和分析,提供更全面的信息服务。

4. 信息可视化技术的运用
未来的文献检索将更加注重信息可视化技术的运用。

通过图表、地图等形式展
现信息,让用户更直观地了解文献信息的关联和分布,提高检索效率和信息理解能力。

5. 个性化知识图谱构建
未来文献检索将借助知识图谱技术,为用户构建个性化的知识图谱,帮助用户
更好地理解信息之间的关系,快速获取所需信息,并且实现知识的跨学科整合。

未来文献检索的发展趋势是多样化、个性化、智能化,将更好地满足用户信息
需求。

随着技术的不断进步和应用的不断拓展,相信未来的文献检索会为人们的信息获取提供更加便捷、高效的服务。

未来文献检索的发展趋势是什么

未来文献检索的发展趋势是什么

未来文献检索的发展趋势是什么近年来,随着互联网技术的发展和信息量的爆炸性增长,文献检索技术也正经历着一场革命性的变革。

从最初的简单检索到如今的智能化搜索,文献检索技术在未来的发展趋势中将会呈现出哪些新的变化呢?本文将从几个方面探讨未来文献检索的发展趋势。

首先,未来文献检索将更加智能化。

传统的文献检索主要是通过关键词匹配实现的,用户需要输入准确的关键词才能获得准确的搜索结果。

然而,随着人工智能和自然语言处理技术的不断发展,未来的文献检索系统将能够理解用户的搜索意图,实现更加智能化的搜索。

例如,用户可以使用自然语言进行检索,系统会通过理解用户的意图,自动匹配相关的文献,提供更加准确和个性化的搜索结果。

其次,未来文献检索将更加多元化。

传统的文献检索主要局限于文本内容,用户只能通过检索文本来获取相关的文献信息。

然而,未来的文献检索系统将不仅仅局限于文本内容,还将整合多种多样的信息资源,如图片、音频、视频等,用户可以通过多种方式获取所需的文献信息。

此外,未来的文献检索系统还将整合用户的个人偏好和历史检索记录,实现更加个性化和精准的文献推荐。

第三,未来文献检索将更加开放和共享。

传统的文献检索系统通常会受限于特定的数据库或平台,用户需要在不同的平台之间切换来获取全面的文献信息。

然而,未来的文献检索系统将更加开放和共享,不同平台之间将实现互联互通,用户可以通过统一的接口访问各种文献资源,无缝获取所需的文献信息。

此外,未来的文献检索系统还将鼓励用户参与文献资源的采集和整理,实现更加开放、多样化的文献检索环境。

综上所述,未来文献检索的发展趋势将是智能化、多元化、开放共享。

随着人工智能技术和信息技术的不断发展,文献检索系统将实现更加智能化的搜索,整合多种信息资源,提供个性化的文献推荐,实现不同平台之间的互联互通,鼓励用户参与文献资源的采集和整理。

未来的文献检索系统将成为用户获取文献信息的重要渠道,为科研工作者和学术界提供更加便捷、高效的文献检索服务。

信息检索技术的发展与前景

信息检索技术的发展与前景

信息检索技术的发展与前景随着互联网的快速发展,信息科技成为了现代社会的核心组成部分。

而作为信息科技重要组成部分之一的信息检索技术更是在互联网时代发挥着越来越重要的作用。

本文将从信息检索技术的发展历程、技术创新以及未来发展前景三个方面探讨信息检索技术的发展及前景。

一、发展历程信息检索技术的起源可以追溯到20世纪50年代,当时美国D. J. Foskett等人成功引入机器进行文献检索工作,这被认为是信息检索技术的第一次应用。

而后随着计算机以及互联网技术的发展,信息检索技术得以更深入地发展。

在互联网时代,搜索引擎作为信息检索技术的一种方式,成为了信息检索的主要工具,其基本原理是通过建立庞大的索引来提供互联网上的信息检索服务。

二、技术创新信息检索技术作为一项技术性工作,其不断的技术创新是信息检索技术走向更高领域的重要推动力。

目前,信息检索技术在以下几个方面得到了技术创新:1. 数据挖掘技术:利用数据挖掘技术对互联网海量数据进行深入挖掘和分析,可以更准确、高效地进行信息检索。

数据挖掘技术可以帮助检索引擎识别和提取网页文本内容、结构信息和语义信息等,从而构建更加全面、准确的索引。

2. 人工智能技术:近年来,随着人工智能的发展,自然语言处理技术逐渐发展成熟,这为信息检索技术提供了新的机会。

例如,现在的搜索引擎已经可以通过识别用户的语音指令,根据用户的意图进行内容检索。

3. 语义检索技术:语义检索技术是智能信息检索的重要手段。

它通过对网页中不同实体之间的关系、属性以及语义进行分析和理解,实现对查询意图的识别和精准匹配。

这将为用户提供更加贴近他们真实需求的数据检索服务。

三、未来发展前景未来,信息检索技术的发展仍有巨大潜力。

1. 多模态信息检索的实现:近年来,随着互联网内容的多元化,包括文字、图片、视频和语音等在内的多种模态信息的比例逐渐增加,因此多模态信息检索技术的发展也成为信息检索技术的一个重要方向。

2. 个性化信息检索的实现:在信息检索过程中,个性化信息检索的意义越来越突出。

大数据时代下的信息检索技术研究

大数据时代下的信息检索技术研究

大数据时代下的信息检索技术研究随着技术的不断发展,大数据也成为了我们生活中不可或缺的一部分。

大数据时代下的信息检索技术也得到了迅速的发展和拓展。

在这篇文章中,我们将探讨大数据时代下信息检索技术的研究现状、挑战和未来趋势。

一、大数据时代下信息检索技术的研究现状在传统的信息检索技术中,用户通过输入关键词来搜索所需的信息。

然而,在大数据时代下,数据量的急剧增加使得这种传统的信息检索方法面临许多困难。

大数据不但量大,且类型多、变化快,还存在着噪声和错误等问题。

怎样利用这些数据来更好地满足用户的需求是目前信息检索技术面临的挑战。

对此,学者们提出了许多改进的方案。

其中一种是基于语义技术的信息检索,即通过分析用户输入的词语,找出它们之间的语义关系,从而更好地匹配用户的需求。

这种方法可以使搜索结果更加准确,提高信息检索的效率。

同时,在推荐系统中运用大数据技术来个性化推荐也成为了一种常见的信息检索手段。

二、大数据时代下信息检索技术面临的挑战在大数据时代下,信息检索技术不仅面临着大量的数据,还遇到了更复杂的情况。

用户的需求也分为不同的类别:有些需要快速简洁的回答,有些需要深入细致的答案;有的只是想娱乐一下,有的则是在寻找严肃的学术研究。

如何满足各种不同需求的用户,给他们提供满意的搜索结果成为了一个难题。

此外,多语言、多媒体信息的融合也是信息检索技术需要面对的挑战。

三、大数据时代下信息检索技术的未来趋势大数据时代下,信息检索技术将趋向智能化、多样化和自适应化。

智能化是指信息检索技术将追求更加准确的匹配用户需求,使得搜索结果更加贴合用户的真实意图,而不是仅仅依靠关键词来匹配。

多样化则是指为了满足不同需求的用户,信息检索技术将拓展搜索范围,实现多种技术的融合,从而更好地满足不同用户的需求。

自适应化则是指技术将逐渐实现个性化搜索,根据用户的历史记录和兴趣爱好等信息,对搜索结果进行个性化推荐。

总之,大数据时代下的信息检索技术不断拓展和发展,对于提高用户的工作效率和生活质量有着重要的意义。

信息检索的发展趋势

信息检索的发展趋势

信息检索的发展趋势信息检索作为一种重要的信息处理技术,随着互联网的普及和信息化程度的提高,发展迅速。

信息检索的发展趋势主要有以下几个方面:一、个性化和智能化随着用户信息需求的个性化和多样化,信息检索系统需要更加注重用户个性化需求的满足。

个性化推荐技术可以根据用户的喜好、行为模式等特征,为用户提供个性化的信息推荐服务。

同时,智能化的信息检索系统可以通过机器学习、自然语言处理等技术,对用户的查询进行分析,提供更加准确、智能的搜索结果。

二、知识图谱的应用知识图谱是一种将数据和语义联系在一起的结构化数据表示方法,可以用于构建更加智能、全面的信息检索系统。

知识图谱可以通过整合多种数据源,将数据之间的关系进行建模,使得信息检索系统可以更好地理解用户查询的意图,提供更加准确、相关的搜索结果。

同时,知识图谱还可以用于构建问答系统、智能助手等应用,进一步提升信息检索的智能化水平。

三、跨语言信息检索随着全球化的发展,人们对于跨语言信息的需求越来越多。

跨语言信息检索是指将用户的查询翻译成其他语言,再在其他语言的文档中进行检索。

传统的跨语言信息检索往往面临语言差异、翻译失真等问题,但随着机器翻译技术的进步,跨语言信息检索的效果已经得到了明显的改善。

未来的发展趋势将是进一步提升跨语言信息检索的准确性和效率,为用户提供更好的跨语言搜索体验。

四、多模态信息检索随着多媒体数据的快速增长,传统的文本检索已经无法满足用户对于多模态信息的需求。

多模态信息检索是指在多媒体数据中进行信息检索,包括图像检索、视频检索等。

多模态信息检索涉及到跨媒体的语义理解和匹配,需要融合计算机视觉、自然语言处理等多种技术。

未来的发展趋势将是进一步提升多模态信息检索的准确性和效率,实现多模态信息的无缝检索。

总之,信息检索作为一种关键的信息处理技术,随着互联网的不断发展和技术的不断创新,将会呈现个性化、智能化、知识图谱应用、跨语言检索和多模态检索等趋势。

未来的信息检索系统将会更加满足用户的个性化需求,提供更加准确、智能的搜索结果,促进人们更高效地获取和利用信息。

信息检索技术

信息检索技术

信息检索技术信息检索技术是一种用于从大规模文本数据中查找和提取所需信息的方法和工具。

随着互联网的普及和信息爆炸式增长,人们越来越需要有效地获取所需信息。

信息检索技术通过建立索引、设计搜索算法和优化检索结果等手段,帮助用户在海量信息中快速准确地找到所需内容。

一、索引与检索索引是信息检索技术的基础,它通过对文本数据进行分词、建立词典和构建倒排索引等过程,将文本数据转化为计算机可以快速检索的结构化数据。

倒排索引是一种常用的索引结构,它将词典中的每个词映射到包含该词的文档列表,实现了根据关键词查找相关文档的功能。

在进行检索时,用户可以输入关键词或查询语句,系统会根据索引进行匹配与排序,将与查询条件相匹配的文档按照相关性进行排序并返回给用户。

为了提高检索准确性,还可以应用一些技术,如词干提取、停用词过滤和同义词扩展等。

二、搜索算法与优化搜索算法是信息检索技术的核心,它决定了检索结果的质量和效率。

常见的搜索算法包括向量空间模型、概率模型和语言模型等。

向量空间模型将文档和查询向量化为数值向量,通过计算它们之间的相似度对文档进行排序。

概率模型基于统计方法,利用文档和查询的概率分布来计算文档的相关性得分。

语言模型则根据文档中的词语之间的概率关系来判断文档与查询的匹配度。

为了提高搜索效率和准确性,还可以采用一些优化技术。

例如,倒排索引压缩可以减小索引的存储空间;布尔运算和短语匹配可以对查询进行精确匹配;查询推荐和相关搜索可以通过用户行为分析提供更准确的搜索建议等。

三、应用领域与挑战信息检索技术广泛应用于互联网搜索引擎、电子商务、数字图书馆、企业知识管理等领域。

对于搜索引擎而言,精确的信息检索能力是保证用户体验和满足用户需求的关键。

然而,信息检索技术仍面临一些挑战。

首先是语义理解问题,由于语言的多样性和歧义性,系统往往难以准确理解用户的意图。

其次是个性化需求问题,不同用户对相同查询可能有不同的需求,如何根据用户的偏好和上下文提供个性化的搜索结果也是一个难题。

信息检索技术的发展现状与未来

信息检索技术的发展现状与未来

信息检索技术的发展现状与未来在当今数字化、信息化的时代,信息检索技术已经成为我们获取知识、解决问题的重要手段。

从互联网的海量数据中快速准确地找到所需的信息,犹如在茫茫大海中寻找宝藏,而信息检索技术就是我们手中的指南针。

信息检索技术的发展现状可以说是日新月异。

搜索引擎作为最为常见的信息检索工具,已经深入人心。

像谷歌、百度这样的搜索引擎巨头,通过不断优化算法和提升索引能力,能够在瞬间为用户提供大量相关的网页结果。

它们不仅能理解用户输入的关键词,还能通过语义分析和上下文理解,更好地把握用户的真实需求。

随着移动互联网的普及,移动端的信息检索也变得越来越重要。

各种 APP 都内置了搜索功能,为用户提供个性化、精准的信息服务。

比如,购物 APP 能根据用户的搜索历史和偏好,推荐相关的商品;新闻APP 能根据用户的兴趣推送相关的新闻资讯。

在技术层面,自然语言处理技术的发展为信息检索带来了新的突破。

以往,用户需要用特定的关键词和语法来进行搜索,而现在,用户可以用更自然、更接近日常交流的语言来表达需求。

信息检索系统能够理解这种自然语言,并给出准确的结果。

另外,多媒体信息检索技术也在不断进步。

图像检索、音频检索、视频检索等技术逐渐成熟,使得用户不仅能通过文字检索信息,还能通过图像、声音等多种形式进行检索。

例如,通过一张图片就能找到相似的图片或者相关的产品信息。

然而,当前的信息检索技术仍存在一些不足之处。

首先,搜索结果的准确性还有待提高。

有时候,用户输入一个明确的需求,得到的结果却包含大量无关或低质量的信息,需要用户花费大量时间去筛选。

其次,个性化推荐虽然能够满足用户的部分需求,但也可能导致信息茧房的问题,使用户局限于特定的信息范围,无法接触到更广泛的知识和观点。

再者,信息检索的安全性和隐私保护也是一个重要的问题。

在收集和处理用户数据的过程中,如果不能妥善保护用户隐私,可能会造成严重的后果。

那么,未来的信息检索技术又将走向何方呢?可以预见的是,人工智能技术将在信息检索中发挥更加重要的作用。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

发展阶段2—— 早期互联网时代
• 需求
– 超出人们预想的海量网页资源 – 被链接连接起来的文档和网络
• 超链接文本(Hyper-text) • 链接(Links) • 网络(Connected Web)
– 1994,World Wide Web Consortium founded;第 一届WWW会议召开
– Web数据质量研究受到重视
• “Does authority means quliaty”(B. Amento et al, 2000) • 搜索引擎的挑战性问题(Henzinger et al, 2003)(Singhal, 2005) • 反垃圾(作弊)研究(Z. Gyongyi,2004 )
• 中搜(2003年12月23日),搜狗(2004年8月3日) • 搜搜(2006年3月),有道(2006年12月)
发展阶段2—— 早期互联网阶段
• 里程碑:国内学术动态
– 2003年,第一届全国搜索引擎和网上信息挖掘学术研讨会召开
• 同时举行了第一届SEWM评测,设立中文网页分类测试任务
– 2004年,第一届全国信息检索与内容安全学术会议召开
frequency
informativity
123…
Rank
Used by Luhn for term significance
发展阶段1 —— 数字图书馆时代
• 技术:检索模型
– 集合论模型
• Boolean models (e.g. Lancaster et al., 1973)
– 代数模型
• Vector Space models (e.g. Salton et al., 1983)
– 概率模型
• RSJ model (Robertson & Sparck Jones,1976) • BM25(Robertson et al., 1994)
发展阶段1 —— 数字图书馆时代
• 评价
– Cranfield评价体系(Cleverdon,1950’s) – 关注“relevance” (F. W. Lancaster, 1979 )
1991 Cyril Cleverdon 在20世纪60年代完成了著名的Cranfield项目,对信息检索的评价 方法以及自动索引构建的方式做出了卓越的贡献。 1994 William Cooper 信息检索中引入概率的先驱。
1997 Tefko Saracevic 是情报学社会传播派的主要代表人之一,对信息检索系统的测 试和评估,尤其是信息检索中的人机交互等方面做出了突出的 贡献。
信息检索与内容安全专业委员会集体讨论稿
信息检索技术的发展—— 过去、现在和未来
信息检索
• 信息检索:
– 从数据中找到与用户需求相匹配的内容
• 信息检索的发展
– 紧随着用户需求的发展与变化 – 随着信息技术的爆炸式发展而产生质的飞跃 – 在不同的发展阶段遵循不同的商业模式
Figure Copyright by TREC
发展阶段1——数字图书馆时代
• 里程碑(国内):748工程
– 1985年,开始开展新闻资料检索的研究 – 1989年,研制出第一套基于关键词标引的新闻资料检索系 统 – 1992年,研制出基于我国第一套中文全文检索系统 – 1993年,开发商业化全文检索系统TRS – 1997年,获得国家科技进步二等奖
发展阶段2——早期互联网时代
• 技术:基本功能
– 数据获取技术:爬虫技术 – 大规模数据索引及检索 – 链接分析技术
• 超链接文本分析(Botafogo,1992) • 利用节点的入度、出度 • HITS(Kleinberg, 1997) • PageRank (S. Brin and L. Page,1998)
及相关改进:计算与实现,效率,并行化,topic-sensitive PageRank,…
• TrustRank (Z. Gyongyi,2004) • 利用anchor text
发展阶段2——早期互联网时代
• 技术:提高
– 开始理解用户查询,并初步细分检索任务
• 导航类、信息类、事务类 (Broder,2002) • Homepage/Site finding (主页/站点导航任务)(S. E. Robertson,2000) • Topic Distillation(主题提取任务)(K. Bharat, M. R. Henzinger, 1998)
发展阶段1——数字图书馆时代
• 应用形态
– 封闭数据集合 – 单机模式或专网内的主机-终端模式
• 商业模式
– 软件/解决方案提供 – 专网内的查询服务提供
信息检索发展
• 信息检索:从数据中找到与用户需求匹配的内容 • 信息检索的发展,紧随着用户需求的发展与变化
– 发展阶段1:数字图书馆时代 —— 对文档全文内容的快速检索
发展阶段1—— 数字图书馆时代
• 需求
对文档全文内容的快速检索
1945: Vannevar Bush’s article “As we may think” 目标:未来人们能够实现对海量图书 资源(1M)进行快速的访问 “A library of a million volumes could be compressed into one end of a desk… …It may be consulted with exceeding speed and flexibility.”
– 发展阶段2:早期互联网时代 —— ?
信息检索
• 信息检索:从数据中找到与用户需求匹配的内容 • 信息检索的发展,紧随着用户需求的发展与变化
– 发展阶段1:数字图书馆/文档电子化时代 —— 对文档全文内容的快速检索 – 发展阶段2: 早期互联网时代
• 世界上第一个网页 /History/19921103hypertext/hypertext/WWW/ThePro ject.html
• 里程碑:Salton奖的颁发情况
概率检索模型的提出者之一。 20 世纪 70 和 80 年代和另一位 Salton 奖得主 Jones 一起建立了信 息检索的概率框架。和Jones 一起给出了二值独立模型(BIM 的主要基础理论(1976)。 20 世纪 90 年代 在 Okapi 信息检 索系统上实现了 著名的 Okapi BM25检索模型,这一模型被广泛的应用于现代检索系统中。
– 文本的聚类、分类、文摘、推荐、翻译、信息抽取、 自然语言问答、话题跟踪与检测等技术纳入搜索引 擎框架
发展阶段2—— 早期互联网阶段
• 评价(国际)
– 开始细分和探索不同的检索任务的评价方法
• 通用Web搜索:主题提取任务/站点导航任务 • 新信息查询 • 检索的鲁棒性 • 问答,自动文摘,话题检测与跟踪
发展阶段2—— 早期互联网时代
• 技术:扩展
– 概率模型得到发展
• Language Model (e.g. Croft et al., 1998)
– 排序学习方法的兴起
• RankSVM (Joachims et al, 2003), RankBoost(Yoav Freund, et al 2003) • 其后还逐渐发展出了ListMLE, ListNet, SVMMAP等排序学习方法
"Relevance is the correspondence in context between an information requirement statement ... and an article (a document), that is, the extent to which the article covers the material that is appropriate to the requirement statement."
– 开始组织国内的中文信息检索评测
• 2003年开始组织中文Web信息检索评测SEWM
• 2003年,第一次评测,设立中文网页分类 • 2004年,第一次中文网页搜索评测,包括主题提取和导航搜索, CWT100g
– 2003,2004,2005年组织3次863计划信息检索评测
发展阶段2—— 早期互联网阶段
– 第一届TREC(Text REtrieval Conference)标准评测会 议举办(1992)
• 新闻报纸语料,部分政府文档,图书资料;压缩后2G
F. W. Lancaster, 1979
发展阶段1——数字图书馆时代
• 里程碑(国际):Salton奖的颁发情况
1983 Salton 现代信息检索的奠基人, 20 世纪 60 年代开发出信息检索系统 SMART 。 1975 年提出了著名的向量空间模型以及词项权重模型 TF-IDF
2000
索的研究,对信息检索领域做出卓越贡献 将贝叶斯网络引入信息检索中(1989,1991),将统计语言 建模的方法引入到信息检索中(1998),其对于贝叶斯网络 2003 W. Bruce Croft 以及语言模型的理论发展和应用做出的贡献在信息检索领域 是至关重要的。 另外,其建立的智能信息检索中心使得信息检索的基础研究 和实际应用能够很好的相互促进。
发展阶段2—— 早期互联网应用
• 里程碑:第二代搜索引擎
– Google 1998成立,于2000相继出现,中文检索服务开始繁荣
发展阶段1 —— 数字图书馆时代
• 技术:草创时期
– 数据库查询 自由文本的全文检索 – 倒排索引技术 – 词频与权重(term significance)
Frequency/Informativity
• Luhn 1957 • 后来发展出TFIDF权重计算方法
LUHN, H.P., 'A statistical approach to mechanised encoding and searching of library information', IBM Journal of Research and Development, 1, 309-317 (1957).
相关文档
最新文档