中外主流搜索引擎中文搜索能力对比研究

合集下载

国内外信息检索资源调研报告

国内外信息检索资源调研报告

国内外信息检索资源调研报告一、引言信息检索是指根据用户的需求,在信息资源中寻找与之相关的信息的过程。

随着互联网的快速发展,信息检索变得越来越重要。

为了满足用户的需求,国内外不断涌现出各种信息检索资源。

本文将对国内外的信息检索资源进行调研,以了解其特点和优势。

二、国内信息检索资源1. 中国知网中国知网是国内最大的综合性学术信息数据库,拥有大量的学术文献、期刊论文、学位论文、会议论文等资源。

其检索功能强大,可根据关键词、作者、期刊等进行检索。

此外,中国知网还提供了学术搜索、学术论坛等功能,方便用户交流和学术研究。

2. 万方数据库万方数据库是国内领先的综合性学术资源库,涵盖了学术期刊、学位论文、会议论文、专利等多种资源。

用户可以通过关键词、作者、学科等进行检索,并可获得相关的学术论文、期刊等。

3. 中文科技期刊数据库中文科技期刊数据库是中国科学技术信息研究所开发的学术资源库,提供了大量的科技期刊文章。

用户可以根据关键词、作者、期刊等进行检索,并可以在线阅读和下载相关的期刊文章。

4. 豆瓣图书豆瓣图书是国内最大的图书评论社区,用户可以在此搜索图书信息,并查看其他用户的评论和评分。

该平台还提供了图书推荐、书单分享等功能,方便用户选择合适的图书。

三、国外信息检索资源1. 谷歌学术谷歌学术是全球最大的学术搜索引擎之一,汇集了全球各学科领域的学术论文、期刊、学位论文等资源。

用户可以通过关键词、作者、期刊等进行检索,并可以在线阅读和下载相关的学术文献。

2. IEEE XploreIEEE Xplore是国际电气和电子工程师协会(IEEE)开发的学术资源库,包含了大量的电子和计算机科学相关的学术文献、期刊论文、会议论文等。

用户可以通过关键词、作者、学科等进行检索,并可以获取相关的学术论文和期刊。

3. PubMedPubMed是美国国立卫生研究院(NIH)开发的生命科学领域的学术资源库,包含了生物医学、生命科学等领域的学术文献和期刊。

中文搜索引擎的对比研究

中文搜索引擎的对比研究
C e i h n Hu
(ntu f c nicadTcn a Ifm tno l ,C aghn102 ,C i ) Istto i t ehi lno ao f in h cu 30 1 h a ie Se f n i c r i Ji n n
[ s at h tl e bre h a heg ecnet he aipi ie h m i pi ieadt u co ,ad Abt c]Ti ai e l oa dt s r i cp,t s r c l,t a r c l n h ntn n r s rc a t e e c n n o b c np e n np ef i
sac niei eeo me t e ce c , t sat l mp a cl lbrt esac n ieI w tcn lg hc Il e erhe gn nd vlp n f iny h r c e ht ayea oae t erhe gn e h ooyw hpo di i ie i l d h 1 e i sdi n
l w o hn s s rh e gn e ce c . fe fc i e ac n ie d f in y e e i
[ e od Jsa heg e om aav nl i a u odo K yw rs r ni ;c pr eaa s ;bi ;yua e c n i t ys d 因特 网是 目前 世界上 最大 的信 息资源 网 ,网上 资源异
的问题 ,并 针对 这些 问题 粗浅地 提出 了新形 式 的网络搜 索
接结构进行 分析 和大规模 的数据挖掘 , 而提供 页面等 级 从 的信息 ,帮助用户找 到相关 主题 的权威 网站 ,并且 可 以指
向众多权威 站点先进技术 。

国内外搜索引擎的特征及其比较

国内外搜索引擎的特征及其比较

国内搜索引擎的特征及其比较摘要随着信息的剧增,Internet的进一步普及,在浩如烟海的信息高速公路上,根据自己的需求快速准确地需找所需要的信息越来越依赖于借助多种多样的Internet信息检索工具,而搜索引擎是我们平时使用最多的一种。

下面就国内的四个著名搜索引擎来探究它们的特征和区别。

关键字引擎检索查询一百度(http://WWW.baidu.corn)百度由百度网络技术有限公司于1999年底在美国硅谷创建,是目前全球最大的中文搜索引擎。

数据库中收录约3亿个中文网页,平均2周更新一次,对部分网页每天更新。

搜索方式以关键词检索为主,同时可结合分类目录限定检索范围,分基本检索和高级检索两种,支持布尔算符和字段限制符。

特设百度快照功能,供用户迅速查看每条检索结果的内容。

检索时不区分英文字母的大小写,检索结果依相关度排列。

二中文Goog1.(hap://WWW.google.corn)Gcog1.由两位斯坦福大学的博士I丑rry Page和SergeyBrin在1998年创立,是目前世界上最大的搜索引擎。

数据库中收录约1O亿多个中文网页,采用高级的网页级别技术,用户界而出色,有新闻组、图像、新闻等搜索,以搜索相关性高闻名。

检索方式为关键词检索,分为基本检索和高级检索,基本检索以布尔检索为主,高级检索中包括:(1)排除某些站点;(2)限定检索结果于某一特定网站;(3)限定语言类型;(4)相关网页检索,检索结果依检索式相关性排列。

三新浪(http://WWW.sina.com)新浪搜索引擎是面向华人的网上资源查询系统。

提供网站、网页、新闻、软件、游戏等查询服务。

共有16大类目录,1万多个细目和数十万个网站。

搜索方式包括关键词查询和分类目录检索两种。

除基本检索以外,还具备“重新查询”“在结果中再查”和“在结果中去除”三种高级检索,支持布尔逻辑检索,用逻辑算符“And”、“Not”扩大或缩小检索范围,在同一页面上包含目录、网站、新闻标题、新闻全文、频道内容、网页、商品信息、消费场所、中文网址、沪深行情、软件、游戏等各类信息的综合搜索结果,按检索式相关度排列,以日期排序。

常用中文搜索引擎对比

常用中文搜索引擎对比

几大常用中文搜索引擎的对比随着互联网的不断发展扩大,网络上中文信息资源和上网的中文用户也大量增加,各类中文搜索引擎更是层出不穷。

以下我选取了Google中文,百度,搜狗,必应这几个常用的中文搜索引擎进行较为粗浅的比较。

先比较一下各搜索引擎的特点。

Google中文:包括网页、图片、新闻搜索,支持个性化搜索及本地搜索,提供论坛、邮箱、日历服务和桌面搜索工具,是万维网上最大的搜索引擎,但Google中文在中国却一直受到百度搜索的压制,最终由于黑客攻击和敏感词过滤问题退出中国内地转至香港。

百度:是全球最大的中文搜索引擎,除网页搜索外,还提供MP3、文档、地图、传情、影视等多样化的搜索服务,率先创造了以贴吧、知道为代表的搜索社区,是目前国内最大的商业化全文搜索引擎。

搜狗:搜狗是全球首个百亿规模中文搜索引擎,收录100亿网页,创造了全球中文网页收录量新高,搜狗以网页搜索为核心,在音乐、新闻、图片、地图等方面提供了垂直搜索服务,通过说吧建立用户间的搜索社区,2010年8月搜狐与阿里巴巴宣布将分拆搜狗成立独立公司,引入战略投资,注资后的搜狗有望成为仅次于百度的中文搜索工具。

必应(bing):必应是微软公司09年新推出的中文搜索引擎。

主打快乐搜索体验。

接着从各方面对比:1.外观排版:Google、百度、搜狗的外观都是以简单的白色背景为主,而必应的背景是一副定期更换的图片,乍看比较新鲜,可是用习惯后我发现搜索引擎还是简洁一点好。

不同于其他3家“相关搜索”出现在搜索结果的底部,必应在网页左侧和底部都出现了“相关搜索”,虽然略显重复,但在一定程度上为用户提供了方便。

2.搜索结果:在这4家引擎同时输入“集美大学诚毅学院”,可以看到Google用时0.10 秒获得约62,900 条结果,百度用时0.018秒找到相关网页约55,000篇,必应没有显示用时找到共50,900 条,搜狗用时0.027 秒只有30,636条。

可见在Google的搜索量大,而百度的时间最短,速度和数量比最好,搜狗略逊一筹3.搜索内容:四家网站的内容更新都比较及时,百度的优势在于很中国化很生活化,符合中国人的习惯。

国内外常用搜索引擎

国内外常用搜索引擎

常用中国搜索网站百度百度搜索引擎拥有目前世界上最大的中文搜索引擎,总量超过3亿页以上,并且还在保持快速的增长。

百度搜索引擎具有高准确性、高查全率、更新快以及服务稳定的特点,能够帮助广大网民快速的在浩如烟海的互联网信息中找到自己需要的信息,因此深受网民的喜爱。

一搜/“一搜”是雅虎中国推出的一个中文搜索网站。

目前设立了网页、图片、MP3和网址四个频道。

“一搜”采用雅虎花费数十亿美元打造出的搜索技术(YST),用户可以抓取到全球50亿网页(其中3亿个中文网页)、9000万张图片、100多万个免费音乐的海量资料。

中国搜索/2003年12月23日,刚刚上市的慧聪国际集团重拳出击,原慧聪搜索正式独立运做,成立了中国搜索,全力打造中文搜索第一品牌。

搜狐搜索/2004年8月3日,搜狐正式推出全新独立域名专业搜索网站“搜狗”,成为全球首家第三代中文互动式搜索引擎服务提供商。

提供全球网页,新闻,商品,分类网站等搜索服务。

新浪网搜索引擎/提供网站、网页、新闻、软件、游戏等查询服务。

有16大类目录,一万多个细目和数十万个网站。

其网页搜索结果由中国搜索提供。

网易搜索引擎/网易在国内首创“网易开放式目录管理系统(ODP)”。

提供网页搜索、分类网站、图片搜索、时尚搜索,其网页搜索结果由Google提供。

其它搜索引擎TOM搜索引擎/提供网页、网站、图片、MP3、新闻搜索,其网页搜索结果由百度搜索提供。

21CN搜索引擎/提供网页、网站、图片、MP3、FLASH、电影、软件、影集搜索,其网页搜索结果由百度提供。

QQ搜索引擎/提供网页搜索,其网页搜索结果由百度搜索提供。

国外搜索网站Google日本http://www.google.co.jp/全球著名搜索引擎Google在日本设立的分站。

日文版谷歌首页加上谷歌其他产品和服务的链接,搜索框也提供了关键词提示功能。

谷歌采取了一些专门针对日本市场的举措,例如允许日本最大社交网站Mixi的用户在其博客中使用谷歌地图,与日本最受欢迎的社会化书签服务提供商Hatena合作,以及推出了一个致力于防止全球变暖的“One Green Project”网站等。

搜索引擎对比

搜索引擎对比

百度、谷歌、搜狗、有道四大搜索引擎的比较分析学校:中南财经政法大学学号:2009357770832 姓名:李心彤随着经济与科技的发展,信息对于人们来说越来越重要,而随着计算机的普及,人们利用搜索引擎来获取信息也是越来越频繁。

因此,国内外的几家搜索引擎展开了角逐,在各自领域努力发挥着自己的优势。

本文通过对百度、谷歌、搜狗、有道四大搜索引擎的个人化体验,对其作出比较与分析。

体验主要从以下几个方面进行:一、政治敏感度搜索引擎百度搜狗有道谷歌词条数量323 1433 43 69100可以看出,在搜索较为敏感的政治事件时,各大搜索引擎表现出极大的不同。

作为国内最大用户最多的百度搜索引擎,是唯一一个表现出明确屏蔽态度的搜索引擎,会在搜索框下方显示“根据相关法律法规和政策,部分搜索结果未予显示”,且其搜索数量也是几个搜索引擎中较少的。

同时,在搜索出来的词条中,再未显示关键词中的任何一个字,仅在具体内容中偶有一两个相同字眼。

可见百度对政治敏感内容十分顾忌。

而搜狗则在搜索页的最末用灰色字体显示“根据相关法律法规和政策,部分搜索结果未予显示”,不太能够引起人的注意。

其搜索结果虽然在四个引擎中排名第二,但仍然并不算多。

且其跟百度一样,搜索出来的结果中并未出现过多的关键词。

有道虽然是所有引擎中结果数量最少的,但出人意料的是,有道所搜索出来的前几个词条,是完全符合搜索词的。

虽然其具体内容皆无法打开,但不得不说有道是国内引擎中最大胆的。

而谷歌作为国外开发的搜索引擎,一向对政治事件十分随意,因此,我们不难从图片中看出搜索政治敏感事件时,谷歌就像搜索随意的生活内容一样将各项结果显示,且有些资源是来自于国外的网站。

但是具体点击时,视频、图片以及部分文字类内容明显在检测和过滤后是打不开的,且检测与过滤速度十分缓慢。

但是,部分论坛里的讨论、对事件阐述并不太多也不太高调的文字类内容还是能够得以显现。

笔者随后更换搜索的关键词,使其更多与国家政治领导人相关,其搜索结果为:搜索引擎百度搜狗有道谷歌词条数量80200 3986 99 117000可以看出,这与上一个结果相差不大,同样显示有道搜索数量上的不足,以及百度搜狗的政治敏感度高,同时还有谷歌对政治人物事件的宽容态度。

国内外索引研究的比较与展望

国内外索引研究的比较与展望
第 3卷 0
第 15 3 期
高 校 图 书 馆 工 作
21 第 1 00年 期
【 理论 ・ 索 】 探
国 内外 索 引研 究 的 比较 与展 望
● 王 知 津 刘 念 黄 莹 莹 王 秀香 ( 开 学 天 章 基 于 文献 计 量 和 内容 分析 的 方 法 , 中文期 刊 《 国 索 引》 英 文 期 刊 《1 nee 近 年 来 所 发 文 对 中 和 1eIdxr 1 }
类 的划 分 主要 以( h nee} 刊 载 的文 献 内容 分 ( eIdxr所 T
析为 主 , 表 1 示 。 如 所
文献事 项或单 元知识 的检索工 具…。索 引研 究 的开
展不仅 有助于本 领 域 内研 究工 作 的深 入 发展 , 且 而 还有助 于相关 领域 内的研究 , 知识组 织 、 如 信息 检索
多 媒 体 标 引与 索 引 索 引 行业 与 标 准 索 引款 目 索 引 内容 与表 示
网络 检 索 与 搜 索 引 擎




引》 该 刊 由中国索 引 学会 出版 , 中国第 一本 也 是 , 是 唯一 的一本 索 引专业 刊物。希望本 文 的研究 工作 可 以对我 国的索引研 究起 到一定 的启 发和推 动作用 。
表 的论 文 进 行 统 计 分析 。在 此基 础 上 , 纳 总 结 了 国 内外 索 引研 究 的 重 点领 域 及 异 同 , 括 了 国 内外 索 引研 归 概 究 的 未来 发展 趋 势 。参 考 文 献 6 。 【 关键 词 】 引研 究 文 献 计 量 内容 分 析 索 统计 分析
索 引家 中国 索 类 别
索 引 评 价
索 引员 索 引标 准 、 规 则 与规 范

百度与谷歌的比较研究

百度与谷歌的比较研究

百度与谷歌的比较研究摘要:众所周知,日常生活中很多时候需要用到各种搜索引擎,现今访问量居高不下,傲视群雄的两大搜索引擎分别是谷歌和百度,可以说,它们占据的是绝大多数的用户量。

对于两者之间的争论、比较也从没停止:谷歌以检索功能强大,信息准确而备受赞誉,而百度目前是全球最大的中文搜索引擎。

本文将对二者从检索技术,检索功能和检索方式等方面进行比较分析。

两大巨头,在网络搜索领域各有优势,重要的是用户根据自己实际的搜索需要选择适当的搜索引擎,以获得高效的搜索结果。

关键词:百度,谷歌,网络搜索引擎第一部分什么是网络搜索近几十年来的各项信息技术的快速发展都或多或少地推动了网络百科的壮大,最重要的推动网络百科发展的是网络检索技术。

网络搜索引擎是指根据一定的策略,运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索的信息战展示回去的系统。

通常搜索引擎是由网络蜘蛛(spider)、索引与搜索引擎软件等部分组成。

网络蜘蛛是一个功能很强的程序,它定期根据预定地址查看相对应的网页,如果网页发生变化,则重新获取该网页,否则根据网页中的链接继续访问,直到访问完毕所有的链接,网络蜘蛛性能直接影响到获取网页的数量和网页的更新时间。

索引是对存放在临时数据库中由网络蜘蛛访问链接所得到的网页按一定规则组织起来的页面集合,索引的质量和存放结构会影响到检索的速度。

搜索引擎软件是用来筛选索引中的网页信息,把符合查询要求的网页进行分级排序并显示给用户,引擎的性能影响到检索的精度。

第二部分谷歌作为目前世界上使用率最高和搜索精度最高的全文搜索引擎,谷歌在检索技术、检索功能和检索方式上都很有自己的特点。

技术的先进表现在:首先,为了获取上亿的网页,谷歌为spider设计了一种分布式爬行系统,该系统通常由一个URL服务器将列表提供给爬行器(谷歌同时运行3个爬行器),每个爬行器同时保持与大约300个网络连接,这样就保证了广阔的搜索范围,几乎覆盖了102个国家和地区。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

收稿日期:2005-05-30作者简介:徐雪梅(1967-),副研究馆员,发表论文多篇。

国外著名的搜索引擎纷纷进军中文搜索市场,中文搜索市场的竞争越来越激烈。

通过中外主流搜索引擎中文搜索能力的对比分析,找出国内搜索引擎的优势和存在的不足,为国内搜索引擎的发展和用户的使用提供借鉴。

1研究对象从2005年5月开始,Cwrank根据Alexa排行榜修正的[1]全球排行榜、[2]中国排行榜以及[3]互联网实验室,依据《互联网实验室CISI网站评测体系》中的评测原则将Alexa排行榜进行过滤,从提供的2005年每月的过滤版可知,内地著名的门户网站有:新浪、搜狐、网易、3721、TOM、21CN、中华网、上海热线等,它们历年提供搜索服务所使用的搜索技术如表1。

从表1可以看出,2005年专业搜索引擎中国搜索以及一搜虽为其他著名门户网站提供搜索技术支持,但提供技术支持的门户网站数比百度少,且在2005年Cwrank[1,2]与互联网实验室[3]的排行榜上,都排在百度之后,故选取百度作为国内专业搜索引擎的代表。

2005年3月Nielsen/NetRatings发布的数据显示[4],2000年开始中文搜索服务的Google继续在搜索领域排名首位。

曾经先后为Yahoo、AOL等国际知名网站提供搜索技术服务,目前为网易、AOL、A-mazon、AskJeeves、Earthlink、Cisco(思科)、P&G(宝洁)、T-Online(Europe)、网景Netscape等国内外著名的网站和公司提供搜索技术服务,支持简体中文和繁体中文网页的搜索,故选取Google为国外专业搜索引擎的代表。

2检索功能比较检索功能体现搜索引擎的质量和技术水平,Google、百度的检索功能见表2、表3、表4。

中外主流搜索引擎中文搜索能力对比研究徐雪梅1,刘雁书2,兰小筠2(1.南华大学图书馆,湖南衡阳421001;2.中南大学医学技术和情报学院,长沙410013)摘要:通过中外主流搜索引擎Google、百度中文搜索能力的对比分析,找出国内搜索引擎的优势和存在的不足,为国内搜索引擎的发展和用户的使用提供借鉴。

关键词:中文搜索引擎;搜索能力;搜索效果中图分类号:G254.1文献标识码:B文章编号:1002-1248(2005)09-0084-06StudyontheComparisonofChineseSearchCapacityofMajorSearchEnginesbetweenChinaandtheForeignCountriesXUXue-mei1,LIUYan-shu2,LANXiao-yun2(1.Library,NanhuaUniversity,Hengyang,Hunan421001,China;2.SchoolofMedicalTechnologyandInformation,CentralSouthUniversity,Changsha410013,China)Abstracts:ThroughthecomparisonanalysisoftheChinesesearchcapacityofmajorsearchenginessuchasGoogleandBaidubetweenChinaandabroad,thepaperhasfoundtheadvantagesandexistingdisadvantagesofdomesticsearchengine,whichhasprovidedreferencethedevelopmentofdomesticsearchengineandtheutilizationbydomesticusers.Keywords:Chinesesearchengine;searchcapacity;searcheffect农业图书情报学刊第17卷第9期Vol.17’No.9JournalofLibraryandInformationSciencesinAgriculture2005年9月Sep.2005搜索引擎新浪搜狐3721网易TOM21CN中华网上海热线开始搜索服务时间1999年1998年1998年2001年2001年2000年2002年2001年1999年新浪搜狐37212000年新浪、百度搜狐、百度3721百度2001年新浪、百度搜狐、百度3721Google百度百度百度2002年新浪、百度搜狐、百度、中国搜索3721百度百度百度百度、中国搜索百度2003年新浪、百度、中国搜索搜狐、中国搜索3721、中国搜索百度、Google、中国搜索中国搜索、百度百度中国搜索百度2004年新浪、中国搜索、visionnext、Google搜狐、中国搜索一搜、3721网易、中国搜索GoogleTOM、百度、中国搜索21CN、百度、中国搜索中国搜索、一搜百度、搜狐2005年新浪、中国搜索、visionnext、百度搜狗一搜、3721Google、网易、TOM百度一搜上海热线、搜狐、百度门户网站使用的搜索技术表1各著名门户网站历次使用的搜索技术3检索效果比较3.1检索式的确定对单个关键词进行搜索,结果往往成千上万,而多个关键词联合搜索既能大大减少搜索结果,又能更搜索类型网站搜索网页搜索新闻搜索Mp3搜索地区/地域搜索图像/图片搜索网上论坛搜索Google关键词、分类关键词关键词关键词、分类百度关键词、分类关键词关键词、分类关键词、分类关键词关键词、分类关键词、分类表2Google、百度的主要搜索功能类型高级搜索网页快照二次检索扩检功能关键词推荐搜索布尔逻辑运算字段检索限定检索精确检索Google可设置网页语言、文件格式、网页更新日期、字词位置、网域、类似网页、键链、每页显示结果数,在网站搜索、网上论坛搜索、图像搜索界面中都提供“高级搜索”网页快照支持提供该网站内的更多结果在搜索结果中推出类似网页搜索和网页类别搜索两种类型按类似网页搜索无支持在网页的标题中搜索(intitle:)在网页的内文搜索(intext:)在网页内的任何地方在网页内的网址(inurl:)在网页的链接内搜索(inanchor:)按链接搜索(link:)指定网域(site:)按文件类型搜索(filetype:)按时间搜索支持百度可以设置网页语言、关键词位置、网页更新日期、网页地区(可多选)、网域、每页显示的结果数,在网页搜索界面提供“高级搜索”百度快照支持提供该网站内的更多结果无无支持相关检索词智能推荐搜索支持在标题中搜索(intitle:)无无在url中搜索(inurl:)无按链接搜索(link:)指定网站搜索(site:)无按时间搜索支持表3Google、百度的辅助搜索功能搜索引擎GOOGLE百度实用功能计算器、中英文字典、天气查询、股票查询、邮编区号、手机号码计算器、天气预报、电视节目预报、网上地图、列车时刻表、飞机航班、宾馆查询、外汇牌价、股票查询、彩票查询、邮编查询、IP查询、手机号码查询、星座运程、万年历、词典搜索等表4Google、百度的实用功能第9期徐雪梅等:中外主流搜索引擎中文搜索能力对比研究85好地反映检索者的检索意图,因此多个关键词联合搜索在一定程度上更能反映搜索引擎的检索能力。

为了减少主观因素对测试结果的影响,并保证所选课题的现实性,在南华大学的信息检索登记表中进行筛选,最后选取医学领域的检索课题九个,并根据登记表中各个课题附有的关键词及其组配关系,组成测试二个搜索引擎的检索提问式集合。

九个检索提问式如下:E1:哮喘流行病学E2:卡托普利充血性心力衰竭E3:爱滋病鸡尾酒疗法E4:狂犬病疫苗免疫效果E5:肝癌致病基因E6:白血病造血干细胞移植E7:子宫肌瘤介入治疗E8:系统性红斑狼疮免疫吸附E9:早产儿视网膜病变测试时间:2005.4.10-2005.5.103.2检索环境的确定为了保证检索结果的可比性,所有检索实验都在统一的环境下进行。

由于网页搜索是Google、百度最基本的搜索功能,且繁体中文和简体中文的网页都是它们的收录范围,故对对它们进行中文(包括繁体中文和简体中文)网页的搜索效果进行测试。

为了减少网络的动态性变化所致误差,同时使用二个搜索引擎检索同一表达式,并将每个搜索引擎的检索结果保存下来,用于统计分析。

所有统计结果都是自然搜索结果。

3.3评价指标美国研究人员H.VernonLeighton和JaideepSri-vastava提出“相关性范畴”和“前X命中记录查准率”的概念。

“相关性范畴”给出一种判断检索结果与检索课题相关性的标准,而“前X命中记录查准率”,则在“相关性范畴”标准的判断下,计算“查准率”[6]。

凤元杰等在此基础上给出了“相对查准率”的评价指标,我认为这是判断检索准确度的一种较好评价方法,于是采用了这种方法[7]。

搜索引擎营销公司iPropect的调查研究显示:总计共81.7%的搜索引擎使用者会在看完前三页之前就停止阅读搜索结果,人们对前三屏兴趣较大,并且三个搜索引擎都可以以10为单位输出检索结果,故N取为30是理想的。

具体的计算方法如下:(1)相关性范畴等级和相关系数(见表5)(2)p(Ei)的计算方法将每个关键词的前30条记录分为4组(1-3,4-10,11-20,21-30),分别赋予权值0.45,0.25,0.2,0.1;R每个命中记录的相关系数(当命中记录数≥30时,N取为30,否则N为实际返回记录数)。

为属于范畴1的检索结果赋予相关系数0,为属于范畴2的检索结果赋予相关系数0.5,为属于范畴3的检索结果赋予相关系数1。

为N的函数,作为P(Ei)的分母。

当N=0时,P(Ei)=0。

P(Ei)的计算公式则为:P(Ei)=R(1-3)×0.45+R(4-10)×0.25+R(11-20)×0.2+R(21-30)×0.1M(Ei)(3)计算出P(A)=1nni=1"P(Ei),P(A)的值就称为搜索引擎A的相对查准率。

3.4检索结果Google、百度的搜索结果显示格式、文档类型及网页类型见表6,命中网页情况见表7、表8,处理后命中网页的前30条记录的相关系数见表9,相对查准率见表10。

相关性范畴范畴1范畴2范畴3定义重复或无用的信息检索出的信息对检索者有潜在用处检索出的信息对检索者有明显的用处种类重复链接死链不相关链接有一定的字面联系,但内容信息无用的链接给出了相关但不详尽的信息检索结果中包含了范畴3信息的链接详尽、丰富的相关链接详尽的探讨和论述相关系数00000.50.511表5相关性范畴等级和相关系数0.45N0<N≤30.25N+0.63<N≥100.2N+1.110<N≤200.1N+3.120<N≤30,M(Ei)令M(Ei)=农业图书情报学刊:信息教育第17卷86文档类型网页类型搜索结果显示格式GoogleHTML文档、PDF、PS、DOC、PPT等非HTML文档的收录搜索静态网页和动态网页文件格式、网页标题、网页摘要、网页网址、网页大小、网页生成日期、网页语言,以醒目的颜色显示检索词百度HTML文档、PDF、PS、DOC、PPT等非HTML文档的收录搜索静态网页和动态网页网页标题、网页摘要、网页网址、网页大小、网页生成日期、网页语言,以醒目的颜色显示检索词表6Google、百度的搜索结果的显示格式、文档类型、及网页类型搜索引擎Google百度E139808920E23941070E381602740E411101140E532602680E677409210E747005470E8406445E98431750合计3059333425平均33993714表7Google、百度命中网页数表8Google、百度处理后的命中网页数搜索引擎Google百度E1749760E2155242E3635717E4623406E5721378E6727750E7767760E8225156E9439493合计50414662记录号123456789101112131415161718192021222324252627282930E10.50.5111111000100.510.50.50.5110.5110.5000000.5E20.50.50.50.51100.5000.50.51110.50.50.510.5111000010.51E300.50.50000.5000.500.50.510.50.50000.50.500.50.500000.50E40.50.5110.50.50.5010.5100.50000.50.50.50.50.5000.5000.500.50E50.50.50.50.50.50.50.50.50.50.50.500000.500.500.50.50.50.50.50.500.50.500E60.50.50.50.50.50.50.500.50.50.50.50.50.50.5010.50.50.50.50.500.510.50.50.50.50.5E70.510.50.500.511110.500.50.50.500.50.50.50.510.501000.500.50.5E80000.50100000.50.50.50.500.50.500.50.50.5000.500.50000E900.51010.50.50.5101111011010010.5000.5000.50E1110010100.5011010.5001111000.50.510.50.511E21110.50100.51110.50.50.500.510.510.5000.50.5011111E3110.5000.50.500.50000000.50010010000110.50E410.5110.50.50.500.50.50.500.500.50.50.50.500.50.50.50.510.50.50.50.500.5E50.50.50.50.50.50.50.50.50.50.50.500.50.50.50.50.50.50.50.50.50.50.50.50.500000E6000.50.50.50.500.500.50000000.50.50.50.50.50100.50.50.50.50.50.5E70.5110.5110010.500.500.51000.500.500001000.500E80.50.500.500.50.510.51000.50.500.500.5000.5000000000E90.500.51110.5010000.5000.50.50.510.500.500010100表9Google、百度处理后的命中网页的前30条记录的相关系数Google百度第9期徐雪梅等:中外主流搜索引擎中文搜索能力对比研究874讨论4.1搜索功能表2、表3、表4可以看出,百度提供的主要搜索功能的种类超过Google,如百度的新闻搜索、MP3搜索和地区搜索是Google中文界面所缺少的;在辅助搜索功能方面,特别是限定检索和字段检索,百度比Google逊色得多;百度提供的使用功能更多,更符合国内用户的特殊搜索需求。

相关文档
最新文档