第四代搜索引擎前沿综述
国内外信息检索资源调研报告

国内外信息检索资源调研报告一、引言信息检索是指根据用户的需求,在信息资源中寻找与之相关的信息的过程。
随着互联网的快速发展,信息检索变得越来越重要。
为了满足用户的需求,国内外不断涌现出各种信息检索资源。
本文将对国内外的信息检索资源进行调研,以了解其特点和优势。
二、国内信息检索资源1. 中国知网中国知网是国内最大的综合性学术信息数据库,拥有大量的学术文献、期刊论文、学位论文、会议论文等资源。
其检索功能强大,可根据关键词、作者、期刊等进行检索。
此外,中国知网还提供了学术搜索、学术论坛等功能,方便用户交流和学术研究。
2. 万方数据库万方数据库是国内领先的综合性学术资源库,涵盖了学术期刊、学位论文、会议论文、专利等多种资源。
用户可以通过关键词、作者、学科等进行检索,并可获得相关的学术论文、期刊等。
3. 中文科技期刊数据库中文科技期刊数据库是中国科学技术信息研究所开发的学术资源库,提供了大量的科技期刊文章。
用户可以根据关键词、作者、期刊等进行检索,并可以在线阅读和下载相关的期刊文章。
4. 豆瓣图书豆瓣图书是国内最大的图书评论社区,用户可以在此搜索图书信息,并查看其他用户的评论和评分。
该平台还提供了图书推荐、书单分享等功能,方便用户选择合适的图书。
三、国外信息检索资源1. 谷歌学术谷歌学术是全球最大的学术搜索引擎之一,汇集了全球各学科领域的学术论文、期刊、学位论文等资源。
用户可以通过关键词、作者、期刊等进行检索,并可以在线阅读和下载相关的学术文献。
2. IEEE XploreIEEE Xplore是国际电气和电子工程师协会(IEEE)开发的学术资源库,包含了大量的电子和计算机科学相关的学术文献、期刊论文、会议论文等。
用户可以通过关键词、作者、学科等进行检索,并可以获取相关的学术论文和期刊。
3. PubMedPubMed是美国国立卫生研究院(NIH)开发的生命科学领域的学术资源库,包含了生物医学、生命科学等领域的学术文献和期刊。
智能搜索引擎发展现状及关键技术

能够实现信息服务的智能化 、人性化 、高效化 ,
数的增长 ,人们将 怎样在 网络上搜索 自己需要 的信息 。传统的搜索 引擎技 术在 日益庞大的信 息量面前逐渐显得力不从心。 在 这样的状 况下 , 智能搜索引擎技术应运 而生 ,也成为 当前搜索
第三代搜索 引擎 的智能化、人性化特征 ,不再 为 用 户 检 索 互 联 网信 息 提 供 了方 便 ,其 发 展 是 局 限于机械的 关键词检索 ,可以直接对用户输 入的检索词进行语义分析整合 ,满足了用户更 快 、更准、更方便的查询需求。
章 中有较全面 的综述 ),由此来提高搜索结果
的质量 。
的各个领域 。数据挖掘 又可称为数据库 中的知 识发现 ,指的是从存放数据库 、数据仓库货其 他信息库中的大量数据中获取有效的、 新颖 的、
潜在 有 用 的 、 最 终 可 理解 的模 式 的 过程 [ 5 】 。
从第 一代 搜索 引擎 到第 二代 搜索 引擎 是
参考文献
[ 1 ] 浅析 第 三 代 搜 索 引 擎 的 发 展 … .包 瑞 . 晋 图 学 刊,2 0 1 0 年第4 期 ( 总第
1 1 9期 ) .
基于 关键 词和特 殊算法 的搜索 ,是 依靠机 器 条进行 匹配 ,在 待分析 汉字串 与词典 中已有的
抓取 的、建立在超链分析 基础上的大规能满足网民的 检索需求 ,用户在信息检索过程 中有仍存在查 全率、查准率低 , 检索 多媒 体信息 的能力 差等。
一
个长期的过程 。目前的搜索 引擎 主要提供 基
于 文 字 内容 的 信 息 检 索 服 务 ,而 对 于 进 一 步提
高检索结果的相关 、个性化检索服务 、支持多 媒 体检 索、支持 自然语 言检索 、 增 强检 索界
开题报告的文献综述了解研究领域的前沿进展

开题报告的文献综述了解研究领域的前沿进展开题报告是科研工作中的一项重要任务,通过文献综述可以了解研究领域的前沿进展。
本文将对开题报告的文献综述内容进行详细讨论,探索如何准确把握研究领域的前沿动态。
一、前言开题报告是研究项目启动的第一步,文献综述则是该报告的重要组成部分,其目的是通过对已有研究成果的回顾、总结和分析,确定研究的动机和研究目标,并对研究方法和方案进行初步探讨。
因此,文献综述在开题报告中占据了至关重要的位置。
二、文献综述的意义1.了解研究领域的研究热点和前沿进展在进行科研工作之前,了解当前研究领域的研究热点和前沿进展是至关重要的。
只有了解研究领域的动态,才能确定研究的方向和目标,并为进一步的研究提供指导。
2.查找和分析相关研究成果文献综述的核心内容是对已有研究成果的回顾、总结和分析。
通过查找相关的文献,可以对研究领域的相关研究成果进行全面的梳理和分析,为研究的开展提供参考。
3.理清研究的思路和方法文献综述不仅可以帮助了解研究领域的前沿进展,还可以帮助研究者理清研究的思路和方法。
通过对已有研究成果的分析,可以确定研究方法和方案,并预判可能遇到的问题和挑战,为后续研究的开展提供方向。
三、文献综述的内容要点1.研究领域的概述开展文献综述的第一步是对研究领域进行概述。
要介绍该领域的背景和意义,说明该领域目前存在的问题,并阐明自己的研究动机和目标。
2.相关研究成果的回顾和总结在回顾和总结相关研究成果时,可以按照时间顺序或主题进行组织。
对于每一篇相关的文献,需要简要介绍其研究目的、方法、结果和结论,并分析其优缺点。
3.研究领域的热点和前沿进展在综述文献时,需要将研究领域的热点和前沿进展进行归纳和总结。
可以分析当前研究的趋势和未来的发展方向,为自己的研究方向提供指导。
4.研究方法和方案的初步探讨在文献综述的最后,可以对研究方法和方案进行初步探讨。
根据对研究领域的了解和已有研究成果的分析,可以提出自己的研究思路和方法,并针对可能存在的问题和挑战进行预测和分析。
信息检索文献综述

信息检索文献综述前言:关于信息检索技术的文献综述,一、信息检索技术现状,信息检索技术综述,信息检索技术实现了把信息检索从基于关键词层面提高到知识层面,从传统的基于关键词的检索到吸引广大研究者眼球的语义检索,传统的基于关键词信息检索,语义检索是把信息检索与人工智能技术、自然语言处理技术相结合的检索技术,它从语义理解的角度分析信息对象和检索者的检索请求,提高了检索性能,语义检索技术将有一个长期深入研究的过程。
关于信息检索技术的文献综述一、信息检索技术现状【1】梁鸿雁,信息检索技术综述,2010(9),软件导刊,35~37,在现有研究的基础上,信息检索技术实现了把信息检索从基于关键词层面提高到知识层面。
从传统的基于关键词的检索到吸引广大研究者眼球的语义检索。
实现了把信息检索从基于关键词层面提高到知识层面。
传统的基于关键词信息检索,已取得了很大的成功,但是它不能从根本上表达用户的查询请求。
语义检索是把信息检索与人工智能技术、自然语言处理技术相结合的检索技术,它从语义理解的角度分析信息对象和检索者的检索请求,提高了检索性能。
但由于自然语言理解和人工智能等领域的局限,语义检索技术将有一个长期深入研究的过程。
二、信息检索技术类型及方法【1】赵阳,浅谈信息检索技术,2012年11月,科技创新与应用,45,介绍了当今比较热门的两种信息检索技术:第一,智能检索或知识检索传统的全文检索技术基于关键词匹配进行检索,智能检索利用分词词典、同义词典,同音词典等改善检索效果,还可在知识层面或者概念层面上辅助查询,通过主题词典、上下位词典、相关同级词典,形成一个知识体系或概念网络,给予用户智能知识提示,最终帮助用户获得最佳的检索效果。
第二,知识挖掘,目前主要指文本挖掘技术的发展,目的是帮助人们更好的发现、组织、表示信息、提取知识,以满足信息检索的高层次需要。
【2】孙广维,多媒体信息检索技术的研究,2012,6 ,吉林建筑工程学院学报,79~81,作者提出传统的多媒体检索方法处理比较简单,有的仅通过多媒体的外部属性和简单的文字描述进行检索,还脱离不了文本、数值和关键词的检索范畴,对图像、音频、视频信息则只有浏览或查看功能,缺乏多媒体本质特征的描述,在多媒体数据库中集成了图像、视频、音频等非文本信息,这样我们就可以用图像、音频、视频信息方便的进行检索。
文献综述之信息检索技术

文献信息检索技术综述【摘要】介绍文献信息检索技术的发展过程,分析了网络文献信息检索的主要技术方法,以及今后文献信息检索的发展趋势。
【关键词】文献信息信息检索网络发展趋势一、前言据联合国教科文组织报道,目前世界上每年出版的文献已超过60万种,其中图书30万种,期刊15万种,其他形式的出版物15万种。
在我国仅期刊资源每年增长率就达到5% ~7%。
发表论文增长率为8%~9%。
面对如此巨量的文献资源,要从浩如烟海而又极其分散的信息中迅速、准确地查获自己所需要的信息资料,必须学会使用文献信息检索的方法。
文献信息检索,广义地说,是指将信息按照一定的方式组织和存储起来,并能根据信息用户的需要指出其中相关信息的过程,因此它的全称又叫“信息存储与检索”( Information Storage and Retriva1) 。
狭义地说,大多数人讲到信息检索时,一般只涉及“取”,即主要关注如何从存储的信息集合中快速获取各种需要的信息。
本文也主要从文献信息检索的概念、发展历史、主要文献检索方法及文献检索的发展趋势作一般概述。
二、文献信息检索技术的发展过程2.1手工检索方式检索方式主要以手工操作为主,这种检索既费时、费力,而且检索效率也很低。
其中包括纸质文献的检索和缩微式检索。
中国最早的检索工具是西汉刘向、刘歆父子整理编撰的摘要性书目《别录》和《七略》,世界上第一种文摘性科学期刊是1665年1月5日在巴黎创办的《学者周刊》以及著名的《美国工程索引》、《科学引文索引》、《科技会议录索引》等都属于手工检索工具。
2. 2脱机检索方式信息检索逐步实现了计算机检索中的单机批处理检索。
包括计算机可读文献磁带和磁盘检索以及光盘数据库检索。
机读磁带、磁盘检索实现了一种输入多种输出。
光盘数据库比磁带和磁盘有更大的存储空间,且存储速度更快,如《中国专利检索光盘》、《中国学术期刊全文数据库光盘版》等。
这是计算机检索的第一阶段。
2.3计算机联机检索方式进入20世纪70年代,计算机软、硬件技术不断进步,分组数字通信技术和实时操作技术发展迅速,出现了一台主机带多个终端的系统。
网络营销文献综述

网络营销文献综述第一点:网络营销的定义与发展网络营销,又称在线营销或电子营销,是指利用互联网和数字设备进行产品和服务的推广、销售和客户服务的过程。
随着信息技术的飞速发展,网络营销已经成为企业竞争战略中不可或缺的一部分。
从20世纪90年代中期互联网商业化起步至今,网络营销经历了从简单的信息发布到全面整合营销的演变。
早期的网络营销主要通过建立企业网站、发布产品信息等方式进行,随着网络技术的进步和社交媒体的兴起,网络营销的手段和形式也日益丰富。
现在,企业不仅可以通过搜索引擎优化(SEO)、内容营销、社交媒体推广等方式提高品牌知名度,还可以通过电子邮件营销、网络广告、在线公关等多种手段实现与消费者的互动和沟通。
网络营销的发展还体现在其对传统营销方式的补充和革新上。
相对于传统营销的单向传播和有限的互动性,网络营销具有更高的个性化程度和更广的覆盖范围。
它不仅能够帮助企业降低营销成本,提高效率,还能够根据用户行为数据进行精准定位,实现更加个性化的营销策略。
第二点:网络营销的主要策略与实践在网络营销的实践中,企业通常会采用多种策略组合以达到最佳的市场推广效果。
以下是一些主要的网络营销策略:1.内容营销:通过创造和分享有价值、相关和连贯的内容,来吸引和留住明确的目标受众群体,并最终驱动盈利性的客户行动。
内容可以包括博客文章、视频、信息图表、电子书等。
2.搜索引擎优化(SEO):通过优化网站内容和结构,提高网站在搜索引擎中的自然排名,从而吸引更多的有机流量。
SEO包括关键词优化、网站结构优化、内外链建设等。
3.社交媒体营销:利用社交媒体平台来提升品牌知名度、增加品牌忠诚度、提高客户转化率。
企业可以通过发布更新、参与讨论、举办活动等方式与用户互动。
4.电子邮件营销:通过发送电子邮件来促进产品或服务的销售,保持与客户的联系,并鼓励客户回购。
有效的电子邮件营销需要精准的目标客户列表、吸引人的内容和合理的发送频率。
5.网络广告:通过在互联网上购买广告空间,展示广告内容以吸引潜在客户。
搜索引擎发展史(一)

疯狂seo论坛:搜索引擎发展史(一)1990年第一个互联网上的搜索引擎Archie出现,用于搜索FTP服务器上的文件。
当时基于HTTP 协议的Web还没出现。
1993年6月,第一个Web搜索引擎World Wide Web Wanderer出现,只收集网址,并没有索引文件内容出现。
10月,第二个Web搜索引擎ALIWEB出现,开始索引文件元信息(也就是标题标签等信息),也没有索引文件内容。
1994年1月,Infoseek创立,其搜索服务稍后才正式推出。
Infoseek是早期最重要的搜索引擎之一,允许站长提交网址是从Infoseek开始的。
百度创始人李彦宏就是Infoseek的核心工程师之一。
4月,Yahoo!由David Filo和Jerry Yang(杨致远)创立。
当时还没有注册 域名,网站建立在斯坦福大学的域名上。
Yahoo!最初不是真正的搜索引擎,而是人工编辑的网站目录,创始人亲自把收集的有价值的网站列在Yahoo!目录中。
当网站数量还不大时,可以实现人工编辑,既为用户提供方便,又保证了信息质量,Yahoo!迅速成长为网络巨人。
4月,第一个全文搜索引擎(索引文件全部内容)WebCrawler推出。
起初是华盛顿大学的一个研究项目。
1995年被美国在线AOL在线收购,1996年又被Excite收购。
2001年停止研发自己的搜索技术,网站成为元搜索引擎(整合、显示多个第三方搜索引擎结果,被成为元搜索引擎。
)6月,Lycos创立,迅速成为最受欢迎的搜索引擎之一。
1995年1月,域名注册。
4月,Yahoo!公司正式成立。
12月,Excite搜索引擎正式上线,成为早期流行的搜索引擎之一。
2001年其母公司破产,被Infoseek购买。
2004年被Ask Jeeves收购。
12月,Infoseek成为网景浏览器的默认搜索引擎。
网景,Netscape,当时浏览器市场的绝对控制者,曾占市场份额的90%以上。
2024年搜索引擎市场分析现状

2024年搜索引擎市场分析现状1. 引言搜索引擎是现代互联网时代的核心工具之一,它为用户提供了方便、快捷的信息检索服务。
随着互联网的普及和用户对信息需求的不断增长,搜索引擎市场也变得日益竞争激烈。
本文将分析当前搜索引擎市场的现状,并探讨其未来发展。
2. 搜索引擎市场概况2.1 主要搜索引擎公司目前,全球搜索引擎市场主要由以下几家公司主导:•谷歌(Google)•百度(Baidu)•必应(Bing)•搜狗(Sogou)•360搜索这些公司不仅在全球范围内竞争激烈,而且在各自本土市场上也有其独特的竞争优势。
2.2 市场份额分析根据最新的数据显示,全球搜索引擎市场份额分布如下:•谷歌:占据约80%的市场份额,是全球最大的搜索引擎公司。
•百度:主要在中国市场竞争,占据约15%的市场份额。
•必应:在全球范围内市场份额较小,约为4%。
•搜狗:在中国市场有一定的竞争力,占据约1%的市场份额。
•360搜索:同样在中国市场有一定的市场份额,约为1%。
从市场份额来看,谷歌一直占据着绝对优势地位,百度在中国市场表现突出,而其他搜索引擎则相对较小。
3. 搜索引擎市场竞争模式在搜索引擎市场中,公司之间的竞争主要集中在以下几个方面:3.1 搜索算法的技术优势搜索算法是搜索引擎的核心竞争力之一。
通过不断改进和优化搜索算法,搜索引擎公司可以提供更精确、更贴近用户需求的搜索结果,从而吸引更多的用户和广告客户。
3.2 用户体验的提升搜索引擎公司通过改善用户界面、加速搜索速度以及提供更全面的搜索结果来提升用户体验。
用户对于搜索结果的满意度将直接影响他们的使用习惯和忠诚度。
3.3 广告收入的竞争搜索引擎公司通过广告业务来获取收入,并在此方面展开竞争。
通过提供更精准的广告投放和更高的点击率,公司可以吸引更多的广告主和广告投资。
3.4 移动搜索的布局移动设备的普及使得移动搜索成为搜索引擎公司争夺的新的战场。
各大搜索引擎公司都在加大对移动搜索的布局力度,通过开发移动应用和优化移动搜索结果,以满足用户在移动设备上的搜索需求。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第四代搜索引擎前沿综述刁轶夫3061401080 2010年5月1.介绍随着因特网的普及,网上信息的发展呈现两个基本的趋势:规模的爆炸性增长,覆盖领域的不断扩大。
如何在海量,非结构化信息中,提取对用户有用的信息是信息时代的核心课题。
搜索引擎正是通过对信息的自动搜集,索引,在用户发出请求时经过实时排序,为用户呈现其最有价值的信息。
由搜索引擎衍生而来的关键词广告产生了巨大的商业价值,并造就了谷歌、百度等互联网巨头。
但同时,谷歌以pagerank为核心的第三代搜索引擎已经不能满足日益增长的需求,数据量的增长和数据覆盖范围的增加迫切呼唤第四代搜索引擎。
我认为,第四代搜索将把个性化信息及人际推荐关系叠加到链接分析上,大大改善搜索结果排序效果;同时,跨媒体搜索将实现诸如用图片搜索图片等功能,打通文字,图片,视频,声音的界限,颠覆现在全部基于关键字的搜索方法,为用户带来更加直观的搜索体验。
2.搜索引擎发展历史及趋势2.1 搜索引擎发展历史从Lycos和Yahoo的时代到现在,搜索引擎的发展已经经过了三代。
Andrei[1]的文章中对前三代搜索引擎的特征做了描述:Google经过改进Pagerank和一系列技术,演化至第三代,而第四代搜索引擎有大量公司如Cuil,Quora探索,但还未形成成熟的产品。
下图援引自Google创始人论文[2],说明第二代,第三代搜索引擎的主要原理:首先搜索引擎通过爬虫技术(Crawler),根据网页链接爬取互联网内容;然后建立倒排索引(Inverted Index);同时通过Pagerank技术,基于random walk的思想计算出每个网页的Pagerank。
前面几步都是独立于用户查询进行的。
当用户提交查询关键词后,搜索引擎将首先对查询此进行分析(拼写建议,搜索建议,中文及日文等还需要分词),然后查询倒排索引,根据两项因素对网页文档排序:1,查询词语文档的匹配程度,主要通过TF-IDF 反映;2,网页的质量,通过预先算好的Pagerank反映。
其中,TF-IDF是第一代搜索引擎已经发展出来的技术。
2.2 现代搜索引擎的核心:PageRankGoogle推出后即风靡全球,其对搜索质量的提升,主要就在于Pagerank基于链接分析的排序技术,大大提高了搜索结果质量。
Pagerank自1998年提出至今10年时间,一直是第三代搜索引擎的核心,也经过了一定的改进。
在孟涛[3]的文章中,对于近年来Pagerank 的改进算法进行了较全面的综述。
Pagerank的算法的基本思想是通过网页间的互相引用(以链接形式表现),来区分出网页质量高低,类似论文的引用。
如果网页Q被共m个Pi网页所链接,则其权值PR(Q)为其中(1-λ)称为缓冲因子,为从一个网页随机跳转到另一个网页的几率。
od pi为网页P i链向其他网页的链接数量。
若将所有的网页权值看作一个矢量,则Pagerank的矩阵表示为:Pagerank技术很好的利用了链接信息,并且能够较快收敛,因此取得了很好的的效果。
在之后,出现了pagerank技术的各种改进:Weighted Pagerank算法:Web中存在不同的块结构: Domain, Host, Directory,等等(Host最好)块内和块外的链接应该给不同的系数。
改进后公式:Two-Layer PageRank算法:经典PageRank算法认为网页之间均等,随机跳转在网页之间;实际上存在网站和网页两极结构,应该修正马尔科夫模型到两级 Block-Level PageRank算法:网页可以细分到Block,各个块分量不一网页与Block之间互有链接。
改进之后的计算公式网页到块系数块之间的权值矩阵网页间的权值矩阵(Z:块到网页的矩阵)2.3 第三代搜索引擎的缺陷基于链接分析的第三代搜索引擎呈现出以下几点局限性:1,一个关键字查询词对所有用户呈现的搜索结果均相同。
但是实际上,比如一个计算机用户搜索“树”可能指数据结构,与其他用户有很大区别。
2,Pagerank基于链接反映网页质量的方法,只反映了网页制作者对于网页质量的评价,并没有反映网页浏览着对于网页的评价。
对于一些不善于进行链接优化的网站,虽然内容可能很优质,但是Pagerank可能并不高。
同时,一些新网站很难在短期内提高Pagerank,而一些擅长优化技术的网站会用大量垃圾链接作弊。
3,基于关键词的搜索方法是建立在用户对于搜索有明确目的,并能清晰表述这种目的的假设上。
但是实际上,用户的搜索引擎使用水平参差不齐;并且由于存在同义词等现象,同一个搜索请求有不同的表示方法,搜索结果也大为不同。
4,现在的图像搜索,视频搜索,音乐搜索也都是基于关键字,如图像Tag,音乐电影介绍等,而文字对于这些信息的表现能力是很有限的,也不直观。
5,并不是所有有价值的信息都能被搜索引擎爬取到,比如学校论坛,公司内网资料等有价值的资料就无法被搜索引擎检索,这叫做Hidden Web现象;同时一些信息需要经过人脑的加工,这方面问答平台更能胜任。
这部分不能被爬取的信息实际上占了人类所有信息的大部分。
2.4 下一代搜索的趋势此处的下一代搜索即指第四代搜索引擎,一个主要的变化是从信息检索(Information Retrieval)到信息推送(Information Supply)的转变,信息推送将主要通过个性化搜索和社交搜索实现。
第四代搜索将呈现出以下几个主要趋势:1,个性化的搜索。
基于个人的网页浏览历史,搜索关键词历史,个人档案信息,使得即使是同一个搜索关键词,也能为不同用户呈现不同的搜索结果。
个性化搜索将基本解决2.3节提到的第一点局限。
2,社交搜索大大提高网页排序质量,其影响主要在两方面:a,网页浏览者(普通用户)对于网页的评价(收藏行为,评分,举报等)将可以作为排序的依据b,通过用户的社交圈推测用户兴趣,通过用户间的不同程度信任关系为其提供不同权重的网页排序推荐。
社交搜索也包括问答系统,用优质的设置提高信息的质量。
社交搜索将基本解决2.3节中提到的2,3,5中Pagerank和关键字搜索的局限。
3,跨媒体搜索将打通文字,图像,声音,视频间的界限,使得用图像搜图像,用声音搜声音,用图像搜视频等都成为可能。
本文的以下3,4,5节就将分别从个性化搜索,社交搜索,跨媒体搜索三个主要趋势进行探讨,并且尝试探讨基因搜索,移动搜索,情绪搜索。
3.个性化搜索(Personalized Search)个性化搜索是搜索引擎根据用户搜索的历史记录,包括用户所搜索的关键词,在搜索结果中的点击情况,在各个网站的访问情况,书签情况等,然后对这些信息进行分析,在用户搜索新的关键词时,能返回更有针对性的搜索结果,从而提高用户体验个性化搜索主要存在两个难点:a,搜索引擎怎样才能准确猜测用户在特定时间的搜索目的?人的需求是不断变更的,依据历史记录完全可能得出相差十万八千里的猜测。
b,如何在利用用户信息为其提供个性化服务的同时,保护用户的隐私?对于第二个问题,Yabo Xu[4]等人的文章中进行了有益的探讨。
首先,他们观察到两个有趣的现象:a,如果能够提供个性化的服务,用户愿意牺牲一些隐私。
b,不一定需要用户隐私的细节来猜测用户兴趣,实际用更普遍的信息也可推测用户兴趣。
基于这两个观察,作者首先为用户建立了层次化的个人信息档案:第一分割后的用户兴趣档案:第二次分割后的用户兴趣档案:经过隐私划分的用户档案:通过这样的划分,用户可以通过调整上图中的minDetail参数来控制他可以暴露哪些隐私,从而使个性化搜索引擎可以根据这些隐私优化搜索结果。
上图中的expRation则反映了在minDetail水平下的隐私暴露程度。
4.社交搜索(Social Search)随着Facebook为代表的社交网站兴起,互联网用户通过网络进行社交的时间大大增加,并且在网络上留下了真实社交关系的数字表达,这使得利用社交关系改善搜索质量成为了可能。
如第2节所说,社交关系将从三个方面大大改善搜索质量。
4.1用户对网页评价改善搜索结果排序质量用户对网页的评价包括主动评价和行为暗示。
主动评价包括通过delicious收藏夹的评分,评论等,行为暗示则包括用户对网页的收藏等。
Shenghua Bao[5]通过delicious收藏夹的数据,进行了这方面的研究。
他们引入了两个评价指标及相应算法:SSR(SocialSimRank)评价搜索关键词和用户对收藏夹评价的关联性,SPR(SocialPageRank)揭示了网页在浏览者中的热度。
上面这个图揭示了通过SSR和SPR建立的搜索引擎的基本结构。
SSR算法:SPR算法:他们的结果显示,通过SSR和SPR建立的搜索引擎,更容易发现优质但是外链较少的网页。
比如这个网页/papers/introtopatterns//index虽然内容很少,但是Pagerank为0,而SPR为10,这样有效的发掘出了内容优质但是不善于搜索引擎优化的网页,并且新网站也更容易得到推广。
但是Shenghua Bao等人的这篇论文也存在一定的局限性,首先数据集delicious仅有用户对网页的文字评论而没有评分,因此无法对网页质量进行较大区分。
其次没有考虑不同的社交圈子对于网站的不同评价。
另外可以做的提升就是对用户的评价进行opinion mining。
4.2 根据用户社交圈推测用户兴趣一个社交圈子通常有相似的喜好,在社交关系的基础上,可以通过用户的社交圈子来推测其兴趣,从而有产生更准确的搜索结果。
同时,用户之间可以建立信任关系,也可改善搜索效果。
信任关系的应用比如如下情景:A是搜索引擎专家,B是一个本科生,B通过twitter 与A建立了信任关系,同时A又通过delicious对很多搜索引擎研究网站进行了评价和打分;因此,B可以声称在搜索引擎领域对A十分信任,从而在B搜索此领域关键词时A推荐的网页将有更高的排序权重。
David [6]等人正是在此领域做了有益的探索:4.3 高效的问答系统问答系统是另一个高效的获取信息的渠道,我们熟知的问答系统包括百度知道,AskJeeves等,但是他们主要存在两个关键问题:1,问答者水平参差不齐,十分缺少领域专家的参与;2,通过积分奖励的办法并不能吸引有价值的回答,经常看到的回答都是互联网上的复制粘贴,而缺乏思考。
现在我发现的最好的问答系统是美国:Quora的优势主要体现在:1,新用户需要通过原有用户的邀请才能加入,并且通过Facebook Connect登录,自然地在问答系统内形成了社交关系;同时由于初始用户都是硅谷的IT人士,因此从一开始就聚集了大量领域专家,保持了问答的水平。
2,由于社交关系的引入,即使系统并没有设置积分奖励,用户仍然十分活跃,他们的参与完全是因为对知识的渴望和分享的欲望,进一步保证了信息质量。