google搜索引擎检索性能评价

合集下载

谷歌搜索引擎的特点与优势

谷歌搜索引擎的特点与优势

谷歌搜索引擎的特点与优势谷歌搜索引擎(Google Search)是全球最著名、用户最多、影响最广的搜索引擎之一,其拥有众多专利技术,许多搜索引擎开发公司,如百度、搜狗均采用了它的技术。

那么,作为现今市场上的一款搜索引擎,谷歌的优势体现在哪些方面呢?一、谷歌搜索的特点1.搜索智能化谷歌搜索有着很强的智能化能力。

利用机器学习、深度学习等技术,谷歌搜索能够对用户的搜索行为、意图和个人偏好进行分析,针对性地返回用户感兴趣的信息。

在搜索过程中,谷歌还会收集用户的历史搜索记录、各种数据追踪等信息,来还原用户需求背后的真正需求。

2.搜索时效提升因为谷歌搜索拥有全球最强的服务器支持,所以能够快速提供搜索结果,而且拥有自己独创的爬虫和排名算法,这样有助于提高搜索的时效性。

谷歌的搜索能够实现实时搜索,不仅可以秒级精准显示用户所需的信息,而且能迅速响应客户的需求,在搜索速度上赢得用户的青睐。

3.搜索结果覆盖面广谷歌搜索的最大特点在于搜索结果覆盖面极广。

无论是文本搜索、图片搜索、新闻搜索、地图搜索、购物搜索等各领域,谷歌都有心算法与技术支持,能够准确匹配用户搜索的关键词,返回最为准确、全面的搜索结果。

二、谷歌搜索的优势1.丰富的语义识别和数据处理能力语义识别是谷歌搜索引擎的一大特色。

语义是指语言的意义和规则,传统搜索引擎只是模糊地找出用户搜索词的相关内容。

而谷歌是通过强大的数据处理能力,对用户的意图进行分析,更加细致的研究用户针对性搜索词的相关性,从而提供更合适的结果2.快速反应用户需求谷歌搜索引擎拥有丰富的数据特征,可以及时收集用户的行为、搜索记录、搜索习惯等,进而为用户提供更加个性化的搜索结果。

不但如此,谷歌还可以针对用户历史的搜索行为和偏好进行进行推荐,快速反应用户的真正需求,最大程度的满足用户的需求。

3.更为准确的搜索结果搜索引擎的最基本功能是搜索,其次是返回结果的准确性,谷歌能够在“数以亿计”的数据库中,将最符合用户需求的相关结果在顷刻间呈现在用户眼前;更是可以按关键词、网页质量和用户表示的满意度等多维度量化搜索结果,更匹配用户需求。

百度和Google两个搜索引擎的区别

百度和Google两个搜索引擎的区别

百度和Google两个搜索引擎的区别Google是当今全球排名第一的搜索引擎, 它是目前被公认为全球规模最大的搜索引擎, 提供了多种语言查找信息, 用户可以在瞬间得到相关的搜索结果。

百度是全球最大的中文搜索引擎, 全球搜索引擎排名第五。

百度定位是打造中国人自己的中文搜索引擎, 并以此作为奋斗目标。

这两种搜索引擎都是目前比较出色的搜索引擎, 它们各具特色。

他们的相同之处是:百度和Google两个搜索引擎都不是国货,都是美国的,无论从老板还是资金。

但他们的不同点是:1.、主界面,搜索广度的比较:百度:百度是中文搜索的Local King(本土天王),有最多的中文使用用户。

主要是针对国内需求,在主界面上有新闻,网页,贴吧,知道,MP3,图片,空间为只要选项。

网页为默认选项。

对用中文搜索,百度的效果是最好的。

如果对于企业作关键字竞价排名,适合目标顾客是国内的企业;中文搜索分类比较本土化,比较符合国人的思维模式。

尤其是“贴吧”“MP3”“知道”的这些功能非常实用。

对于国人的阅读和浏览更为熟悉,服务更加本土化。

Google:全球最大的搜索引擎,搜索国外的信息为首要选择。

在主界面上有“所有网页”“中文网页”“简体中文网页”“中国的网页”。

“所有网页”为默认选项。

对于外国资料的搜索最好选择Google。

外国包括英美、阿拉伯、俄罗斯、日本、韩国的网站全部都能搜索到。

但是,Google会有死链接出现,很多网页无法打开。

因为一部分新闻源是国外站点,所以会无法登陆。

2.技术上的比较:百度:百度在中文分词技术上有一定优势,但百度的蜘蛛抓取网页的速度和效率很不理想,经常会占用大量带宽,让很多站长很无奈,想封又不敢封其IP,百度竟然用加快网页的更新速度做为加入百度搜索联盟的奖励。

防Spam上,国人利用pagerank技术做垃圾SEO的不在少数,百度因为人工干预强,垃圾SEO的存活时间不长,但是其竞价排名缺严重干扰了正常搜索结果。

搜索引擎检索功能的性能评价研究

搜索引擎检索功能的性能评价研究

搜索引擎检索功能的性能评价研究搜索引擎作为现代社会获取信息的重要工具,其检索功能的性能直接影响着用户的信息获取体验。

随着互联网信息的爆炸式增长,搜索引擎检索功能的重要性日益凸显。

本文将介绍搜索引擎检索功能的基本概念、作用及其发展现状,并综述当前的性能评价研究现状、常用指标和评价方法,最后对比不同指标或评价方法的优缺点,分析其适用场景和应用前景,并提出未来发展方向。

搜索引擎检索功能是指搜索引擎通过一定的算法和策略,从互联网海量的信息中提取出与用户输入的关键词相关的有用信息。

这些信息可以是网页、图片、视频等多种形式。

搜索引擎检索功能的主要作用是帮助用户快速、准确地找到所需信息,提高信息获取的效率和准确性。

随着互联网信息的不断增加,搜索引擎检索功能的性能也面临着越来越大的挑战。

对于搜索引擎检索功能的性能评价研究,当前常用的指标包括准确率、召回率、F1得分、平均绝对误差等。

其中,准确率是指检索到的结果中与用户输入关键词相关的比例,召回率是指所有与关键词相关的结果中被检索到的比例,F1得分是准确率和召回率的调和平均数,平均绝对误差则反映了检索结果与真实结果之间的差异。

还有一些新的评价指标,如语义匹配度、用户满意度等,但这些指标的客观性较差,主观性较强。

评价方法方面,主要有基于排序的评价方法和基于分类的评价方法。

基于排序的评价方法是根据检索结果与用户输入关键词的相关程度对结果进行排序,将排在前面的结果视为更有用的结果。

常见的基于排序的评价方法有PageRank算法、BM25算法等。

而基于分类的评价方法则是将检索结果分为与关键词相关的类别和无关的类别,通过分类准确率等指标来评价检索结果的性能。

不同指标或评价方法都有其优缺点。

准确率和召回率是经典的指标,简单易懂,但无法全面反映检索结果的性能。

F1得分则在一定程度上解决了这个问题,但仍然存在一定的局限性。

平均绝对误差指标直观易懂,但计算复杂度较高且无法反映检索结果的全局性能。

百度和谷歌的搜索引擎有何异同

百度和谷歌的搜索引擎有何异同

百度和谷歌的搜索引擎有何异同从搜索结果和用户体验角度,百度和谷歌作为全球排名前两位的搜索引擎,各自有着独特的特点。

本文将从几个方面对它们进行比较。

一、搜索结果搜索结果是衡量搜索引擎好坏的主要标准之一。

百度和谷歌在搜索结果上存在明显的差异:1. 搜索语义理解方面。

百度搜索更注重国内内容,能够识别中文语义,查询没有严格匹配关键词的结果,还能根据用户的地理位置推送个性化信息。

而谷歌搜索则强调通过全球网页的链接关系和页面排名来确定搜索结果的权威性,能够识别英文语义,查询想要的答案通常只需在搜索框中输入几个关键词即可。

例如,搜索“红烧肉做法”这个关键词,百度通常会列出一些菜谱网站或者博客的文章,而谷歌则会先显示出“红烧肉”的各种做法,这些做法的来源可能是百度上的菜谱网站或者其他海外网站。

2. 搜索结果排名算法方面。

百度的搜索结果排序是基于自身的PageRank算法,即通过算法评估网页的质量和权威性来决定网站在搜索结果中的排名。

谷歌的搜索结果排序也是基于PageRank算法,但它更强调页面上的关键词密度和链接质量等因素来评估网页的权重。

二、广告投放广告投放是搜索引擎的重要收入来源。

百度和谷歌在广告投放方面也存在明显差异:1. 广告数量和形式。

百度的广告数量比谷歌多,广告投放形式也更多样化,除了搜索结果页面内的广告位,还有贴吧、知道、百科等多个产品线的广告位。

而谷歌则仅在搜索结果页面内投放广告位。

2. 广告标识法律遵从性。

百度的广告标识常常被质疑不够明显,容易误导用户。

而谷歌在广告标识方面相对严格,一旦发现广告违反了规定,立即停止广告投放,确保用户不受误导。

三、用户体验用户体验是判断搜索引擎是否好用的重要标准。

百度和谷歌在用户体验方面有着不同的优点和劣势:1. 响应时间。

百度的搜索速度相比谷歌稍慢一些,查询速度也较慢。

谷歌的搜索速度非常快,查询结果几乎瞬间呈现给用户。

2. 提供的搜索工具和功能。

百度为用户提供了一系列搜索工具和功能,例如语音搜索、图片搜索、音乐搜索、视频搜索等。

谷歌seo绩效考核指标

谷歌seo绩效考核指标

谷歌SEO(搜索引擎优化)的绩效考核指标可以根据不同的目标和策略而有所不同。

以下是一些常见的谷歌SEO绩效考核指标的例子:
1. 有机搜索流量:有机搜索流量是指通过谷歌搜索引擎获得的非付费流量。

这是衡量网站在搜索引擎结果页面上的曝光和点击率的重要指标。

2. 关键词排名:关键词排名指的是网站在特定关键词搜索结果中的位置。

通过提高关键词排名,可以增加网站的曝光度和点击率。

3. 网站流量:网站流量是指访问者在一定时间内访问网站的数量。

增加网站流量可以提高品牌知名度、增加潜在客户和销售机会。

4. 页面加载速度:页面加载速度是指网站页面加载完整内容所需的时间。

谷歌将页面加载速度作为搜索排名的重要因素之一,因此优化网站的加载速度对于提高搜索排名和用户体验至关重要。

5. 跳出率:跳出率是指访问者只访问了一个页面后离开网站的比例。

较高的跳出率可能意味着访客对网站内容或用户体验不满意,因此降低跳出率是提高网站绩效的重要目标之一。

6. 网站转化率:网站转化率是指访问者完成预期行动(例如提交表单、购买产品等)的比例。

通过优化网站设计和用户体验,可以提高转化率,将访问者转化为潜在客户或销售。

7. 反向链接质量:反向链接是指其他网站链接到您的网站。

谷歌将反向链接视为网站权威性和可信度的重要指标,因此评估反向链接的质量和数量对于SEO绩效很关键。

以上仅为一些常见的谷歌SEO绩效考核指标的例子,具体的指标选择和权重分配应根据个体业务需求和目标进行调整。

同时,持续监测和分析这些指标的变化,以便及时调整SEO策略和优化网站。

谷歌和百度的搜索引擎有何异同

谷歌和百度的搜索引擎有何异同

谷歌和百度的搜索引擎有何异同搜索引擎是人们在信息时代获取信息的主要途径之一,而搜索引擎中最具代表性的两个品牌无疑是谷歌和百度,这两个品牌的搜索引擎已成为人们日常生活的一部分,无论是查询工作资料、学术资料还是获取娱乐资讯,都能够在搜索引擎中方便快捷地找到信息。

谷歌和百度都具备搜索引擎的基本功能,但不同的定位和技术等级下,两者在搜索引擎功能和搜索结果方面存在诸多异同。

一、搜索结果质量搜索结果质量展示了搜索引擎的核心竞争力。

谷歌一直走高质量路线,让其搜索结果受到大家的青睐。

而百度的主打是快速准确。

谷歌的搜索结果更加准确,排名较百度更科学,谷歌搜索的结果总是能够够满足用户的需求,并且回答度更高。

相比而言,百度的搜索结果质量并不如谷歌,有时会出现评论、广告干扰,而这一点也成为了百度遭受用户质疑的原因之一。

二、搜索引擎广告搜索引擎广告也被称为竞价排名,是一种以支付方式获得广告展示排名的方法。

这是评估搜索引擎品质的一个重要指标。

在这方面,谷歌的搜索广告仍然保持着绝对的领先地位,它的搜索结果页面上不仅少量的广告,而且做到了用广告替换掉的搜索结果中介绍类似内容,在广告的展示方面或谷歌也会根据用户的搜索关键词进行目标精准化推送。

相比之下,百度的广告放置更加密集,商业化气息浓厚,虽然不能满足用户搜索的需求,但更加容易博得商家的欢心。

三、搜索引擎安全性随着互联网的发展,互联网上的恶意软件和病毒也逐渐增多。

此时,一个良好的搜索引擎不仅需要在搜索结果的质量上做足功夫,同时也需要在安全方面得到保障,以确保用户信息的安全性和隐私。

这方面,谷歌一直表现良好,并力求保持其搜索引擎的可靠性和安全性。

百度则曾因用户信息泄漏问题被责令整改,提醒广大用户在百度上进行搜索时尽可能避免透露个人信息。

四、搜索引擎界面搜索引擎界面是用户感受最直观的地方,而谷歌和百度在这方面也有所不同。

谷歌的搜索界面几乎没有任何广告或干扰信息,简单明了,最突出的就是logo,给人以简洁、舒爽的感觉。

谷歌,雅虎,百度搜索引擎的比较

谷歌,雅虎,百度搜索引擎的比较
·对于服务,要求高度的稳定性,和快速的响应时间。通过提交XML:平便展示.还在测试阶段
谷歌(Google)网站链接(SiteLinks)网站链接,显示在搜索结果中部分网站下面的链接称为网站链接所有网站不用提交自动收录和编制
投放成本低完全按效果付费,获得客户成本更合理
展现免费,只有点击才会计费,价格完全由您自己把控,以更合理的成本获得更好的效果。
投放灵活设置自主,网站、地理)、投放站点、每日消费限额完全由您根据需要灵活掌握。
投推广信系之一,目前拥有超过23万家合作网站,涵盖二十多个垂直行业,这些合作伙伴的影响力几乎覆盖所有中文网民。
谷歌:对内容原创性要求相对较低,只要定时更新即可。对外链和内容通常是具备一样就能获得好的排名。也就是说,对于竞争不是很强的关键词,即便没有什么外链,只要内容足够优秀,一样能获得好的排名。对于内容一般的网站,只要外链足够地多,一样也能获得好的排名。
搜搜:搜搜对于内容与外链的关键处理得更合理些,要求内容与外链并重。二者不可偏废。只要把内容与链都建设好了,才会获得最好的排名。
展现形式多种物料类型(文字/图片/Flash),灵活满足投放需求
多种多样的展现形式供您选择,各类型物料结合投放,最大化满足您的投放需求。
定向方式以网站定向选择为核心,地域定向、内容定向、人群定向相结合。
您可以根据您的投放需求自由选择您偏好的站点进行投放。除此以外,您还可以:选择细致到省、市和直辖市、区的投放地域;通过制定主题使您的投放更加精准;根据人群特征更准确捕捉您的目标受众。
节省了与各行业网站单独洽谈合作的成本。
投放灵活性随时选择参加或终止投放,随时调整投点、投放物料,一切都由您灵活掌握。
您可以随时对推广信息标题和推广信息内容进行优化,根据需求灵活地调整和服务。

朝闻通:盘点谷歌、百度、雅虎这三大搜索引擎的优缺点

朝闻通:盘点谷歌、百度、雅虎这三大搜索引擎的优缺点

朝闻通:盘点谷歌、百度、雅虎这三大搜索引擎的优缺点随着信息技术的进步与互联网络的飞速发展,网络上的信息资源是越来越多,在这个浩瀚的网络资源里,用户要想找到快速找到自己需要的资料,比如在网络上用户想找像朝闻通一样新闻稿发布的网站,但是面对网络上那么多纷繁复杂的网站,怎么检索到,这就必须借助搜索引擎的帮助了。

百度、谷歌、雅虎作为中国最常用的三大搜索引擎,自然成为人们上网检索信息最重要的工具。

但是这三种搜索引擎功能也有其自身的优点和劣势,朝闻通在这里为你盘点了谷歌、百度、雅虎三大搜索引擎的优缺点。

谷歌的优点是可以整合全球范围的信息,使人人皆可访问并从中受益。

目前被公认为全球最大的搜索引擎,它提供了简单易用的免费服务,用户可以在瞬间返回相关的搜索结果。

在访问Google 主页时,您可以使用多种语言查找信息、查看新闻标题、搜索超过10 亿幅的图片。

但谷歌最大的缺点是死链率比较高,中文网站检索的更新频率不够高,不能及时淘汰已经过时的链接。

虽然通过“网页快照”功能,可以减少目标页面不存在的现象,但Google的“网页快照”功能在国内经常出现不可访问的问题,令用户无所适从。

百度搜索引擎是目前世界上最大的中文搜索引擎,总量超过3亿页以上,并且还在保持快速的增长。

百度搜索引擎具有高准确性、高查全率、更新快以及服务稳定的特点,能够帮助广大网民快速的在浩如烟海的互联网信息中找到自己需要的信息,因此深受网民的喜爱。

但是也存在搜索结果中广告、垃圾网站和死链比较多的问题。

雅虎中国是阿里巴巴集团收购的,马云表示: 阿里巴巴在搜索领域既有决心更有信心,在中国,雅虎就是搜索,搜索就是雅虎还推出独立搜索引擎网站。

网页搜索表现不错,但死链率较高而且缺少一些应有的高级搜索功能。

另外,该搜索的易用性有待提高,虽然在5月份升级后改善了网页的界面,严格控制搜索页面中的排名广告,规定每次搜索结果中的广告数量不能超过5个,但用户打开雅虎中国的首页时还是要受到一些影响。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Google搜索引擎检索性能评价2012/12/9Google搜索引擎检索性能评价摘要: 网络信息和信息检索技术的发展推动了搜索引擎实践的发展,使得搜索引擎评价研究成为信息检索领域的研究热点之一。

本文以搜索引擎检索结果的相关性为核心指标,对Google搜索引擎的检索性能进行了评价,旨在帮助用户在利用搜索引擎时选取恰当的检索策略。

关键词:搜索引擎信息检索评价相关性Abstract: The development of Internet information and technologies of information retrieval accelerates the development of search engine. It has made the study of evaluation of search engine to be one of the popular issues in the field of information retrieval. This paper takes relevance of retrieval results as index to evaluate the performance of Google. The finding can be used to assist users in formulating an appropriate search strategy.Keywords:search engine; information retrieval; evaluation; relevance前言研究背景:根据2012年7月由中国互联网络信息中心(CNNIC)公布的中国互联网络发展状况统计报告显示截至2012年6月底,中国网民数量达到5.38亿,互联网普及率为39.9%。

伴随着如此巨大规模的网络用户而来的是海量的互联网信息,面对这些信息,用户们不免迷失于此,网络信息资源的无限增长与用户有限的效用信息需求之间的矛盾便日益凸显[1]。

因此用户利用搜索引擎辅助,以尽可能得到自己所需信息也就是很自然的了。

据上述报告,截至2012年6月底,搜索引擎用户规模达到4.29亿,较2011年底增长2121万人,半年增长率为5.2%;在网民中的渗透率为79.7%,使用比例与2011年6月、12月基本持平,是仅次于即时通信的第二大网络应用。

但是,即使使用搜索引擎,也难免不能获取所需信息,研究表明,公认最好的搜索引擎,其检索结果中的相关信息也不会超过50%。

[2]所以如何使搜索引擎用户能够获取所需信息,在信息研究领域便显得尤为重要。

而这则一定离不开搜索引擎的评价研究,通过调查搜索引擎的检索性能并进行评价研究,对搜索引擎的改进将起到很大帮助。

研究目的从上个世纪90年代初到现在,短短的20余年间搜素引擎的发展发生了巨大的变化,不断地有新的搜素引擎出现,同时也有一些搜素引擎退出了历史舞台。

因此搜索引擎市场千变万化,要对它们全部进行评价研究还不现实。

经过综合考虑搜素引擎的流行度与所占市场份额,笔者选取Google作为典型案例加以分析。

Google当前以83.33%的搜索量占据搜素引擎市场的首位,全球有81%的网络用户利用Google。

笔者认为通过对该搜索引擎的评价能够起到一个相关方面研究的样本作用,给其他研究者以一定启发,同时也指导用户更好地利用Google搜索引擎研究时间:2012.11.28 - 2012.12.09正文:一、研究方法的选取国内外关于搜索引擎评价的方法很多,其大致可以分为以下几种:实验方法、调查方法、数据分析法、观察法等。

它们从方方面面对搜索引擎进行评价,包括搜素引擎功能的全面性、搜索界面的友好程度、检索时间的长短等等。

但是笔者认为对于搜索引擎的评价最核心的还是其检索性能的优越性,一个搜索引擎即使功能再多、检索再快,其目的都是为检索得到所需信息服务的。

衡量搜素引擎的检索性能较好的方法则是实验法,其比起其它方法具有一定的优势。

如要通过分析搜索引擎的检索日志来研究的话,由于搜索引擎的检索日志会涉及到用户的一些隐私,目前搜索引擎在公布检索日志方面还持谨慎态度,研究者不太容易获取相关的信息。

实验法则是通过预先选择若干个关键字,组成检索式提问并在所要测试的搜索引擎上进行检索,最后根据测试的结果进行分析。

这使得实验方法具有较强的针对性、可控性和操作性,于是笔者选用实验法进行研究,不过以上也说明实验方法会具有一定的主观性,因为在实验设计、标准制定、数据采集等步骤中难免融入研究人员的主观因素,这或多或少会对搜索引擎评价的客观性造成影响,因此,采用实验方法进行搜索引擎评价研究时需要注意尽量减少实验过程中的主观性因素。

二、检索功能的选取以往的搜素引擎评价研究片面地从普通检索的性能来判定搜索引擎的检索性能,而忽略了其他高级检索功能。

随着用户检索策略的多元化发展,比较各检索功能检索效率的显著性差异可以帮助用户选择出最恰当的检索策略。

[3]因此笔者选用了Google高级检索功能中的字段限制检索、语言限制检索等检索功能进行了检索。

一方面更全面地考察搜素引擎的检索性能,另一方面也可以利用高级检索功能避免一些检索式中的语义模糊。

当然,搜素引擎还有许多其他的高级检索功能,如图片检索、语音检索等,但本次研究主要集中于网页信息,对更多的检索功能的评价还有待今后的研究。

特别是由于时间、能力的关系,本次研究的语言也仅限于中文和英文两种。

三、检索式的选取广义的检索式包括检索词的主题、检索词的数量、检索策略三方面。

但我们研究中的检索式则定义为狭义的检索式,即只包含检索主题和检索词的数量。

1.确定检索式数量搜索引擎的评价研究只有建立在一定量的数据基础之上才可以较为客观的评价搜索引擎的检索性能。

由于我们采用了实验研究的方法,而基于实验基础的评价研究在选择检索式时数量就不能太少,因为此种方法的评价研究不可避免的带有主观性,大量数据则是减少主观性的途径之一。

如Leighton在评价InfoSeek,Lycos,WebCrawler和World-Wide Web Worm 时就用了8个检索式。

[4]一些大型测试集的检索式更多,如中文Web信息检索评测,其每届提供的检索式有几百个之多,2006年和2007年的合计有740个。

当然,这么大数量的检索式是建立在众多单位和个人参与的基础上的,一般的研究人员恐怕难以对如此多的结果进行精心测评。

但是对于一般的评价研究来说检索式数量还是不宜过少,有研究指出,在搜索引擎评价研究中,采用10个以上的检索式是比较合适的。

至于究竟多少个检索式才能满足评价研究的需求,要根据实验的具体需要而定,在能保证时间、准确性的前提下自然多多益善。

于是笔者在保证研究相对客观的前提下,结合自身适宜条件,确定了20个检索式,其中包括10个中文检索式和10个英文检索式。

2.确定检索词数量检索词(Search Term或Search word)是检索式中能概括要检索内容的相关词汇。

它是表达信息需求和检索课题内容的基本单元,也是与系统中有关数据库进行匹配运算的基本单元,检索词选择的恰当与否,直接影响到检索效果。

根据清华大学智能技术与系统国家重点实验室和搜狐公司研发中心的研究者基于搜狗搜索引擎2006年2月近五千万条检索日志对用户利用该搜索引擎的行为特征进行的研究显示,用户提交的检索式中不超过3个检索词的占到了全部检索式的93.15%,平均用词为1.85个。

另外,国外研究人员通过分析搜索引擎的检索日志对用户检索行为进行的研究,如Amanda Spink等对Excite搜索引擎超过百万数据量的检索日志进行分析的结果也显示,平均每个搜索式有2.4个检索词,大约一半用户只输入1个检索词,三分之一的用户用3个或3个以上的检索词。

不难看出,中英文搜索引擎的用户在检索词数量的选择方面具有较大的相似性,大多数用户都选择3个左右的检索词来构建检索式,因此笔者以上述研究成果为参考,中英文检索式都大部分选择3个左右检索词的进行检索实验。

3.确定检索式主题在搜索引擎的评价研究中,确定检索式的主题是至关重要的。

有研究人员将用户使用的检索式进行了分类,其主要分为三大类:信息查询(information query)、导航查询(navigational query)和交易查询(transactional query)。

导航查询是指用户查询特定的网站或网页,目标性最强;信息查询则具有相对开阔的检索范围,是查找某一主题范围内的相关信息,其结果往往成千上万;而交易查询主要是指用户通过网络中介从事某些活动,如网上购物等。

在三种主要的查询方式中,以信息查询为主,占48%,导航查询占20%,交易查询占30%。

从以上分析可以得知,用户检索以信息类检索为主,因此在搜索引擎的评价研究中,检索式主题的确立应在信息类查询框架下进行。

检索式中检索词的主题类型直接体现了用户信息需求的范畴,但是在很多情况下检索词并不能准确的表达出用户的信息需求。

因为一些检索词往往具有多个含义,譬如“青花瓷”既是中国一种著名的瓷器种类,又是一首脍炙人口的流行歌曲的歌名。

由此为了避免检索式信息需求表达的模糊性,应该首先确定检索式的学科领域,然后从学科领域内选取检索词。

这样既避免了模糊性,又可以考察搜索引擎多学科方面的检索效率,而不是仅仅只注重某一学科。

但是网络信息涉及到的学科领域范围很广,一定数量的检索式的检索主题无法涵盖所有的学科领域,我们必须要有所选择。

笔者在参考了中图法的学科分类后,最终确定了经济、法律、政治、军事、社会、文化等十个学科方面作为检索式的主题。

表一:检索式确立表四、评价方法搜索引擎检索性能评价研究的内容可以涉及到很多方面,自评价研究工作开展以来,由检全率和检准率衍生而来的评价标准多种多样,但是检全率和检准率依然被认为是衡量用户对检索结果满意度和搜索引擎检索质量高低的最主要的两个标准。

[5]检全率(recall ratio)是指搜索引擎返回的相关信息量与搜索引擎数据库中所有相关信息量的比率。

用公式表示为:R= 返回的相关信息量/系统数据库中相关信息量但是据权威机构统计,Internet上约有100多亿个网页,而且每天的信息流量达万亿比特,每天发布14万件新信息。

即使目前搜索量最大的Google也只能搜索到33亿网页。

一方面网络信息数量十分庞大,新的web信息迅猛增长,另一方面新的网站或网页每天都在增加,旧的网站或网页每天都在消亡。

鉴于这些原因,有时是很难评价搜索引擎的检全率的。

另有调查表明:60%-65%的用户只会点击搜索结果的前10个网站,20%-25%的用户会点击搜索结果前第11-20个网站,3%-4%的用户会点击搜索结果的前第21-30个网站,搜索结果前3名的点击量是搜索结果前4-240条点击量的2倍。

相关文档
最新文档