中外搜索引擎研究的现状与发展
国内外信息检索资源调研报告

国内外信息检索资源调研报告一、引言信息检索是指根据用户的需求,在信息资源中寻找与之相关的信息的过程。
随着互联网的快速发展,信息检索变得越来越重要。
为了满足用户的需求,国内外不断涌现出各种信息检索资源。
本文将对国内外的信息检索资源进行调研,以了解其特点和优势。
二、国内信息检索资源1. 中国知网中国知网是国内最大的综合性学术信息数据库,拥有大量的学术文献、期刊论文、学位论文、会议论文等资源。
其检索功能强大,可根据关键词、作者、期刊等进行检索。
此外,中国知网还提供了学术搜索、学术论坛等功能,方便用户交流和学术研究。
2. 万方数据库万方数据库是国内领先的综合性学术资源库,涵盖了学术期刊、学位论文、会议论文、专利等多种资源。
用户可以通过关键词、作者、学科等进行检索,并可获得相关的学术论文、期刊等。
3. 中文科技期刊数据库中文科技期刊数据库是中国科学技术信息研究所开发的学术资源库,提供了大量的科技期刊文章。
用户可以根据关键词、作者、期刊等进行检索,并可以在线阅读和下载相关的期刊文章。
4. 豆瓣图书豆瓣图书是国内最大的图书评论社区,用户可以在此搜索图书信息,并查看其他用户的评论和评分。
该平台还提供了图书推荐、书单分享等功能,方便用户选择合适的图书。
三、国外信息检索资源1. 谷歌学术谷歌学术是全球最大的学术搜索引擎之一,汇集了全球各学科领域的学术论文、期刊、学位论文等资源。
用户可以通过关键词、作者、期刊等进行检索,并可以在线阅读和下载相关的学术文献。
2. IEEE XploreIEEE Xplore是国际电气和电子工程师协会(IEEE)开发的学术资源库,包含了大量的电子和计算机科学相关的学术文献、期刊论文、会议论文等。
用户可以通过关键词、作者、学科等进行检索,并可以获取相关的学术论文和期刊。
3. PubMedPubMed是美国国立卫生研究院(NIH)开发的生命科学领域的学术资源库,包含了生物医学、生命科学等领域的学术文献和期刊。
国内外搜索引擎营销的发展历程

国内外搜索引擎营销的发展历程从国外的发展情况来看,搜索引擎营销的发展与搜索引擎技术的发展⼏乎是同步的。
1994年,Yahoo、Lycos等分类⽬录型搜索引擎的相继诞⽣,搜索引擎表现出⽹络营销价值,⽹站⼴告管理,搜索引擎营销的思想开始出现。
从国外的发展情况来看,搜索引擎营销的发展与搜索引擎技术的发展⼏乎是同步的。
1994年,Yahoo、Lycos等分类⽬录型搜索引擎的相继诞⽣,搜索引擎表现出⽹络营销价值,搜索引擎营销的思想开始出现。
1995年,⾃动提交到搜索引擎的软件诞⽣,搜索引擎营销“智能化”,此后不久,许多搜索引擎开始拒绝⾃动登录软件提交的信息。
1995~1996年,基于⽹页HTML代码中META标签检索的搜索引擎技术诞⽣。
利⽤META标签改善在搜索引擎中排名的技术很快成为搜索引擎营销的重要内容――这就是搜索引擎优化⽅法的萌芽。
1997年,搜索引擎优化与排名⾃动检测软件问世,⽹络营销⼈员可以据此制定针对性的搜索引擎营销策略。
1998年,“搜索引擎算法”开始关注⽹站外部链接,诞⽣了“⽹站链接⼴度”(linkpopularity)概念。
2000年,出现按点击付费(Pay-per-click)的搜索引擎关键词⼴告模式,搜索引擎⼴告诞⽣。
2001年,搜狐等部分中⽂分类⽬录开始收费登录,⽹站登录每年要交纳数百元到数千元不等的费⽤,付费搜索引擎营销开始⾛向主流。
2002年后半年,在⽹络⼴告市场最低潮中,搜索引擎关键词⼴告市场增长强劲,占2002年⽹络⼴告市场的15%,搜索引擎带动整个⽹络经济复苏。
2003年,出现基于内容定位的搜索引擎⼴告。
2004年⾄今,搜索引擎全⾯引领互联⽹经济潮流,搜索引擎营销的价值被企业普遍接受,成为⽹络营销最重要的⼀种⽅法。
中国搜索引擎营销市场伴随着经济的发展和我国⽹络基础设施的不断完善,益发引起企业的重视。
2001年之前,免费搜索引擎营销阶段,以免费分类⽬录登录为主要⽅式。
2001年6⽉份~~2003年6⽉份,因⽹络经济环境、搜索技术,收费等原因带来搜索引擎营销市场进⼊调整期。
大数据的国内外研究现状及发展动态分析

大数据的国内外研究现状及发展动态分析在信息时代的浪潮中,大数据成为了一种重要的资源和技术。
它的涌现不仅改变了人们的生活方式和商业运营方式,也推动了科学研究的发展。
本文将对国内外大数据研究的现状以及未来的发展动态进行分析。
一、国际大数据研究现状大数据研究在国际范围内已经有了长足的发展。
首先,在数据存储方面,云计算技术被广泛应用于海量数据的存储和管理,例如Amazon的S3和Google的Bigtable等技术。
其次,在数据处理方面,分布式计算和并行计算被用于加速大数据的处理速度,例如MapReduce和Spark等技术。
此外,数据挖掘和机器学习也成为了大数据研究的重要方向,通过对大量数据的分析和学习,揭示其中的关联模式和规律。
二、国内大数据研究现状在国内,大数据研究也呈现出蓬勃发展的态势。
首先,在政府的支持下,各大高校和研究机构纷纷开展了大数据相关的研究项目。
其次,在行业应用方面,诸如金融、医疗、物流等各个领域都开始利用大数据来提高效率和服务质量。
此外,一些互联网企业也在大数据分析和算法研发方面进行了深入探索,例如阿里巴巴和百度等。
三、国际大数据研究动态在国际上,大数据研究正朝着更加深入和广泛的方向发展。
首先,随着物联网技术的不断演进,大量传感器数据的产生将推动数据存储和分析的需求。
其次,在人工智能领域,深度学习技术的崛起为大数据研究提供了新的方法和思路。
此外,跨界研究也成为了大数据领域的趋势,例如将大数据与社会科学、医学等学科相结合,探索新的研究方向和方法。
四、国内大数据研究动态在国内,大数据研究也在不断推进和突破。
首先,政府加大了对大数据研究的支持力度,提出了一系列发展政策和资金扶持。
其次,学术界和产业界之间的合作交流也越来越频繁,加快了大数据技术的推广和应用。
此外,一些新兴领域的涌现,如人工智能、区块链等,也将为大数据研究带来新的机遇和挑战。
五、国际大数据研究趋势在国际上,大数据研究的趋势是多样化和复合化发展。
中国搜索引擎市场调查报告

中国搜索引擎市场调查报告中国搜索引擎市场调查报告随着互联网的迅速发展,搜索引擎已经成为人们获取信息的主要途径之一。
在中国这个庞大的市场中,搜索引擎行业也呈现出了蓬勃的发展态势。
本文将对中国搜索引擎市场进行调查分析,探讨其现状和未来发展趋势。
一、市场概况中国搜索引擎市场是一个竞争激烈的市场,主要由百度、搜狗、360搜索和神马搜索等几家主要搜索引擎公司垄断。
根据调查数据显示,截至2021年,百度在中国搜索引擎市场的占有率约为70%,是市场的绝对领导者。
其次是搜狗和360搜索,分别占据约15%和10%的市场份额。
而神马搜索则在市场份额上相对较小,仅占约5%。
二、用户需求搜索引擎市场的竞争主要体现在用户需求的满足上。
用户对搜索引擎的需求主要包括搜索结果的准确性、搜索速度、搜索体验等方面。
百度作为市场占有率最高的搜索引擎,其搜索结果的准确性备受争议。
用户普遍认为百度搜索结果存在商业化倾向,往往将广告内容排在搜索结果的前几位,这一现象引发了用户的不满。
搜狗和360搜索则在搜索结果的准确性上相对较好,尤其是360搜索,其搜索结果更加客观中立,受到了一部分用户的青睐。
三、技术创新在搜索引擎市场中,技术创新是提升用户体验和增加市场份额的关键。
搜索引擎公司通过不断研发新技术,提高搜索结果的准确性和搜索速度,以及改进搜索体验,来吸引更多的用户。
例如,百度推出了人工智能技术,通过深度学习算法提升搜索结果的准确性。
搜狗则推出了语音搜索技术,用户只需语音输入关键词即可获得搜索结果。
360搜索则致力于提供更加个性化的搜索服务,根据用户的兴趣和偏好,推荐相关的搜索内容。
四、移动搜索随着智能手机的普及,移动搜索成为了搜索引擎市场的新趋势。
根据数据显示,截至2021年,中国移动搜索用户规模已超过8亿。
百度、搜狗和360搜索等搜索引擎公司纷纷推出了移动搜索应用,以满足用户随时随地获取信息的需求。
移动搜索的特点是搜索结果的展示方式更加简洁明了,适应了手机屏幕的尺寸。
2023年搜索引擎行业市场研究报告

2023年搜索引擎行业市场研究报告搜索引擎行业市场研究报告一、行业背景随着互联网的快速发展,搜索引擎成为人们获取信息的主要途径之一,具有巨大的市场潜力。
搜索引擎行业的发展与互联网用户的增长密切相关,也受到技术、服务、用户体验等因素的影响。
目前,全球搜索引擎市场主要由谷歌、百度、雅虎、必应等几家大型搜索引擎公司垄断,但也存在着一些小型搜索引擎公司的竞争。
二、市场规模根据相关数据显示,截至2021年,全球搜索引擎行业市场规模达到X亿美元,预计在未来几年内仍将保持稳定增长。
亚太地区是全球最大的搜索引擎市场,2019年的市场规模达到X亿美元,占据全球搜索引擎市场的X%。
三、市场竞争格局目前,全球搜索引擎市场的竞争格局主要由谷歌、百度、雅虎、必应等几家大型搜索引擎公司垄断。
其中,谷歌是全球最大的搜索引擎公司,市场份额达到X%。
百度是中国最大的搜索引擎公司,市场份额达到X%。
雅虎和必应在全球市场也具有一定的份额。
在竞争中,搜索引擎公司主要通过技术创新、服务质量、用户体验等方面来提升竞争力。
谷歌通过不断优化搜索算法,提供更准确的搜索结果,深受用户的青睐。
百度在中国市场拥有强大的用户基础,通过推出智能搜索等创新功能,提升用户体验。
雅虎和必应也在不断提升搜索算法和服务质量,力争在市场中取得更大的份额。
四、发展趋势1. 移动搜索的快速增长:随着智能手机的普及和移动互联网的发展,移动搜索逐渐成为搜索引擎市场的主要增长点。
用户通过手机进行搜索的习惯越来越普遍,搜索引擎公司需要加大在移动搜索方面的投入,提供更精准、快速的搜索结果。
2. 语音搜索的兴起:随着语音识别技术的进步,语音搜索成为一种新的搜索方式,受到用户的喜爱。
搜索引擎公司需要加强在语音搜索领域的研发和创新,提供更人性化的搜索体验。
3. 人工智能的应用:人工智能技术在搜索引擎领域的应用越来越广泛,可以提高搜索结果的精确度和个性化程度。
搜索引擎公司需要加大在人工智能领域的研发力度,将更多的人工智能技术应用到搜索引擎中。
搜索引擎市场调查报告

搜索引擎市场调查报告搜索引擎市场调查报告近年来,随着互联网的快速发展,搜索引擎已经成为人们获取信息的主要途径之一。
搜索引擎市场也因此迅速崛起,竞争激烈。
本文将对搜索引擎市场进行调查分析,探讨其发展趋势和市场份额。
一、市场概况搜索引擎市场是指通过互联网提供搜索服务的市场。
目前,全球搜索引擎市场主要由Google、百度、必应和谷歌等巨头企业垄断。
这些企业凭借其强大的技术实力和品牌影响力,占据了绝大部分市场份额。
二、市场竞争1. GoogleGoogle是全球最大的搜索引擎,其市场份额一直处于领先地位。
Google的搜索算法准确度高,用户体验良好,因此深受用户喜爱。
此外,Google还提供了许多其他服务,如Gmail、Google Map等,进一步巩固了其市场地位。
2. 百度百度是中国最大的搜索引擎,市场份额位居第二。
百度在中国市场具有强大的竞争力,其搜索算法针对中文搜索做了优化,能够更好地满足中国用户的需求。
此外,百度还提供了许多本地化服务,如百度地图、百度知道等,进一步提升了用户体验。
3. 必应必应是微软旗下的搜索引擎,市场份额位居第三。
必应的搜索结果准确度较高,尤其在英文搜索方面表现出色。
此外,必应还与微软的其他产品进行了整合,如Windows系统、Office办公软件等,进一步提升了用户的便利性。
4. 谷歌谷歌是中国第二大搜索引擎,市场份额位居第四。
谷歌在全球市场具有较高的知名度和影响力,其搜索结果质量较高。
然而,由于中国市场的特殊性,谷歌在中国的市场份额相对较低。
三、市场发展趋势1. 移动搜索的崛起随着智能手机的普及,移动搜索成为搜索引擎市场的新趋势。
用户更喜欢通过手机进行搜索,因此搜索引擎企业需要加大对移动搜索的研发和优化,以提升用户体验。
2. 语音搜索的兴起随着语音识别技术的不断进步,语音搜索逐渐成为用户的新选择。
用户可以通过语音输入进行搜索,提高了搜索的便利性。
搜索引擎企业需要加大对语音搜索的研发和推广,以满足用户的需求。
2024年搜索引擎市场分析现状

2024年搜索引擎市场分析现状1. 引言搜索引擎是现代互联网时代的核心工具之一,它为用户提供了方便、快捷的信息检索服务。
随着互联网的普及和用户对信息需求的不断增长,搜索引擎市场也变得日益竞争激烈。
本文将分析当前搜索引擎市场的现状,并探讨其未来发展。
2. 搜索引擎市场概况2.1 主要搜索引擎公司目前,全球搜索引擎市场主要由以下几家公司主导:•谷歌(Google)•百度(Baidu)•必应(Bing)•搜狗(Sogou)•360搜索这些公司不仅在全球范围内竞争激烈,而且在各自本土市场上也有其独特的竞争优势。
2.2 市场份额分析根据最新的数据显示,全球搜索引擎市场份额分布如下:•谷歌:占据约80%的市场份额,是全球最大的搜索引擎公司。
•百度:主要在中国市场竞争,占据约15%的市场份额。
•必应:在全球范围内市场份额较小,约为4%。
•搜狗:在中国市场有一定的竞争力,占据约1%的市场份额。
•360搜索:同样在中国市场有一定的市场份额,约为1%。
从市场份额来看,谷歌一直占据着绝对优势地位,百度在中国市场表现突出,而其他搜索引擎则相对较小。
3. 搜索引擎市场竞争模式在搜索引擎市场中,公司之间的竞争主要集中在以下几个方面:3.1 搜索算法的技术优势搜索算法是搜索引擎的核心竞争力之一。
通过不断改进和优化搜索算法,搜索引擎公司可以提供更精确、更贴近用户需求的搜索结果,从而吸引更多的用户和广告客户。
3.2 用户体验的提升搜索引擎公司通过改善用户界面、加速搜索速度以及提供更全面的搜索结果来提升用户体验。
用户对于搜索结果的满意度将直接影响他们的使用习惯和忠诚度。
3.3 广告收入的竞争搜索引擎公司通过广告业务来获取收入,并在此方面展开竞争。
通过提供更精准的广告投放和更高的点击率,公司可以吸引更多的广告主和广告投资。
3.4 移动搜索的布局移动设备的普及使得移动搜索成为搜索引擎公司争夺的新的战场。
各大搜索引擎公司都在加大对移动搜索的布局力度,通过开发移动应用和优化移动搜索结果,以满足用户在移动设备上的搜索需求。
2023年搜索引擎行业市场前景分析

2023年搜索引擎行业市场前景分析搜索引擎行业是互联网产业的重要组成部分,随着互联网的普及和应用范围的扩大,搜索引擎行业也不断蓬勃发展。
本文主要对搜索引擎行业市场前景进行分析。
一、市场规模据统计,在全球互联网用户中,有80%以上使用搜索引擎,搜索引擎的市场利润也在不断扩大。
根据相关数据分析,全球搜索引擎市场规模正在不断扩大,2022年预计将达到1474亿美元。
二、市场主要龙头企业目前,全球搜索引擎市场主要的竞争者为谷歌、百度、必应等企业,它们占据着市场的大部分份额。
其中,谷歌是全球最大的搜索引擎企业,拥有绝对的市场地位。
三、市场发展趋势1. 移动搜索移动设备越来越普及,用户对移动搜索的需求也越来越强烈。
比如,在谷歌搜索中,移动设备访问比例已经超过了PC端的访问比例。
因此,搜索引擎企业需要加大移动搜索场景的布局和投资,以满足用户需求。
2. 语义搜索传统的关键词搜索已经不能满足用户需求,用户对语义化搜索的需求越来越高。
比如,在语义搜索中,搜索引擎可以根据用户的查询意图,为其提供更加精准的搜索结果。
3. 人工智能搜索引擎企业也正在加快人工智能的研发和应用。
通过人工智能技术,搜索引擎可以智能化识别用户需求和行为,进而提供更加贴合用户需求的搜索结果。
4. 垂直搜索由于搜索引擎的通用性,用户在搜索中往往需要面临不同领域的搜索结果。
因此,垂直搜索正在得到越来越多用户的欢迎,针对不同领域的搜索需求提供专业的搜索服务。
四、市场竞争形势搜索引擎行业竞争激烈,随着移动设备普及和技术发展,市场份额、用户体验,以及数据隐私保护等都将成为竞争的关键元素,只有能够不断提升技术和用户体验,同时严格保护数据隐私,才能在竞争中占据优势地位。
五、总结综合来看,搜索引擎行业市场前景非常广阔,也面临着多重挑战,但随着科技的不断进步和用户需求的不断变化,搜索引擎企业需要不断创新,为用户提供更加精准和智能的搜索服务,才能够在市场中获得竞争优势。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
中外搜索引擎研究的现状与发展夏旭李健康(第一军医大学图书馆广州510515)摘要:以WWW网络搜索引擎的发展历程为基础,综述了WWW网络搜索引擎的定义、检索机制、检索规则、词表应用、分类研究、比较研究等方面取得的新进展,探讨搜索引擎发展走向与思路。
同时就目前中外搜索引擎普遍存在的问题进行分析,希能对国内中文搜索引擎的开发和准确、快速、全面检索WWW网络乃至因特网信息资源有所启示。
关键词:搜索引擎研究进展综述信息资源管理由于因特网上信息资源内容广泛、时效性强、访问快速、网络交互搜寻、动态更新,而且还提供快速访问网上信息资源的各种搜索引擎(Search Engines),用于快速搜索WWW网络乃至因特上的有用信息,使得通过WWW网络获取网络信息资源成为国内外研究的一大热点。
基于网络的搜索引擎的研制与开发应用成为当前网络信息资源开发应用研究领域的热点。
英文搜索引擎“GOOGLE”和中文搜索引擎“百度搜索”的推出,拉开了搜索引擎核心技术争夺战的序幕。
可以预言,在今后一段相当长的时间里,搜索引擎还将有长足的发展和进步,检索功能将更趋向于集成化和更具亲和力、更显人性化。
1 搜索引擎的定义、检索机制、检索规则和词表应用1.1 定义搜索引擎,Search engines,又称搜索机,Web搜索器,是伴随WWW网络出现的检索网上信息资源的新工具。
实质上是一种网页网址检索系统,有的提供分类和关键词检索途径,有的仅提供关键词检索途径。
它根据检索规则和从其他信息服务器上得到数据并对数据进行加工处理,自动建立索引,并通过检索接口为用户提供信息查询服务,能够自动对WWW资源建立索引或进行主题分类,并通过查询语法为用户返回匹配资源的系统。
搜索引擎主要是由Crawler、Spider、Worm、Robot等计算机软件程序自动在因特网上漫游,不断搜集各类新网址及网页,形成数以千万甚至上亿条记录的数据库。
它是通过采集标引众多网络站点来提供全局性网络资源控制与检索机制、将全球WWW网络中所有信息资源作一完整的集合、整理和分类、方便用户查找所需信息的网络检索软件。
具有检索面广、信息量大、信息更新速度快,特定主题的检索专指性强等特点。
1.1.1 常规搜索引擎和元搜索引擎自带索引数据库的搜索引擎通常被称为常规搜索引擎或独立搜索引擎,相应地,集多种常规搜索引擎于一体的搜索引擎则称为(多)元搜索引擎。
元搜索引擎是国外搜索引擎开发者新设计的一种集成型搜索引擎,与独立搜索引擎的区别在于:它是通过一个统一的用户界面帮助用户在多个独立搜索引擎中选择和利用合适的搜索引擎,甚至是同时利用多个搜索引擎来实现检索操作。
元搜索引擎没有自己独立的数据库,却更多地提供统一界面,形成一个由多个搜索引擎构成的具有独立功能的虚拟逻辑体,通过元搜索引擎的功能实现对这个虚拟逻辑体中各搜索引擎数据库的查询等一切操作。
由于元搜索引擎预先配置好多个搜索引擎,每条检索指令都自动通过预先配置的搜索引擎执行,免去了用户逐一记忆和单独使用每个搜索引擎的麻烦。
主要的元搜索引擎有ALL-IN-ONE、CUSI、Fun City Web Search、HyperNews、Linksearch、Savvysearch、Metacrawler、Best Search、W3Search Engines、WebSearch、Profusion、Mamma、Avenuesearch、Dogpile、Kwikseek、Findspot、Bytesearch、Webferret、Bluesquirrel Webseeker等。
Metacrawler (http://www. )能同时调用6个搜索引擎;Savvysearch (http://www. )可有选择地调用21个独立的搜索引擎,检索Web、Usenet 新闻组、软件、参考工具、技术报告等信息,每次最多并行检索5个搜索引擎的数据库。
Profusion (http://www. )最多同时调用9个独立的搜索引擎,调用方式有全部调用、系统自动选择最好的3个、系统自动选择最快的3个、用户从中选取任意个搜索引擎。
最新出现的桌面型离线式搜索引擎如Webcompass、WebSeeker、WebFerret、Echosearch、Copernic98等也是元搜索引擎。
1.1.2 集中式搜索引擎和分布式搜索引擎基于搜索机器人的搜索引擎如AltaVista和目录式搜索引擎Yahoo从体系结构上看都是集中式的,从因特网上取回Web页,经过处理后将所有这些信息集中存到某个站点,用户通过访问该站点实现查询,通常它们之间没有协作,各自独立地搜集和处理信息,造成了大量重复工作,也浪费了网络带宽和CPU资源,给各Web站点带来了严重的负担,这种集中式的体系结构难以适应网络规模的日益扩大。
分布式搜索引擎则可弥补这方面的不足。
其基本思想是根据地域、主题、IP地址或其它的划分标准将全网划分成若干自治域,在每个自治域内分设检索服务器(Index server),每个检索服务器由信息搜集软件(Gather)、索引数据库(Index database)和代理(Broker)三部分组成,信息搜索软件负责本自治域信息的搜集,并建立索引信息存入索引数据库,代理则负责向用户提供查询接口,并与其它代理进行交互,实现检索服务器之间的中间信息交换。
关于分布式搜索引擎,目前主要以理论研究为主,还没有出现实际营运的研究成果。
国内有文献提出建立分布协作式搜索引擎的设想,其主要思想是以CERNET为依托,在其不同域内分别建立搜索引擎,并通过引擎注册机制和引擎间数据交换机制相结合的方法实现网络搜索引擎之间的协作,达到降低资源消耗,提高搜索引擎效率的目的。
1.2 搜索引擎的检索机制搜索引擎定期自动搜寻有关Web站点、采集关于这些站点上的各类信息,自动对这些资源进行标引、编制目录和文摘,自动将这些数据整合到数据库,并能提供以Web为基础的包括布尔检索、短语或词组检索、自然语言检索和各种限制检索在内的数据检索,按相关度输出检索结果。
搜索引擎的主体部分包括了数据采集模块、数据组织模块和数据检索模块。
对应地,其资源组织和检索机制包括了数据采集标引机制、数据组织机制和用户检索机制,见图一。
图一搜索引擎的检索机制示意图1.3 检索规则研究由于Web资源的特殊性,搜索引擎的检索语法和检索规则与传统的光盘检索和联机检索等有所不同。
Medscape、Oncolink等医学搜索引擎通过AltaVista完成搜索任务。
AltaVista的检索语法规则较为复杂,基本上囊括了医学搜索引擎的检索规则。
Medscape和Oncolink为代表的搜索引擎检索规则主要包括:布尔逻辑操作符。
包括:AND(;、&)、OR(,、|)、NOT(—、!),此外逗号“,”类似于OR,空格和分号(;)类似于AND。
短语检索使用双引号,如“radiation enteritis”。
如要查找数字信息,如“180****1212”,可用破折号“—”连接“1—800—555—1212”作为短语进行检索。
大小写有别(case-sensitivity),如输入brca1,可查找brca1,Brca1和BRCA1,如输入Brca1,则只能查找“Brca1”的网页,不能查找brca1、BRCA1的网页。
+/-号,如要查找乳腺癌治疗但非放射疗法的信息,输入breast+treatment-radiation进行精细检索。
同样,如要查找异基因骨髓移植而非自体骨髓移植的信息,输入“bone marrow+allogeneic-autologous”即可。
截词检索,使用通配符“*”,也有使用“$”或“?”;英文句点“.”的作用正好与通配符相反,用于禁止单词扩展,如gene.不能检索genetics、genetic、general等词;<in>,<in>限定范围,如新闻<in >title;<Near>/n,如digital/100 television二者的间隔不超过100个单词的网页。
t、u的使用,t(TITLE)加关键词前,搜索引擎只检索网站名称,u(URL)加于关键词前面,仅查网址。
精细检索:在特定主机或特定域名中查找网页、查找包含指向自己Web链接的全部网页,如查找包含一类特定Java语言的全部网页。
超链和锚关键词在查找有关“jump”信息方面的作用相似。
Link关键词查找URL带有跳跃性的网页如:/help.html,而anchor关键词查找用户能在页面中看见的超链文本,如click here,文本和标题标记用于查找网页内容。
Text关键词查找网页内任何可见的文本词(非标记、链接、URLs),而标题关键词仅限于作者编码为title标记的文本,题目出现在Web浏览器的旗标窗口中。
禁用词的使用。
在MedHunt等搜索引擎中,检索时规定了一些禁用词,如冠词、代词、介词和连词,此外还有一些其它禁用词:如back、top、up、down、net。
医学术词中带有禁用词的术语MedHunt可识别,如“Vitamin A”,不视其为禁用词(http://www.hon.ch/MedHunt)。
此外,还可将检索词的间隔范围限定在句子或段落中(如<sentence>、<paragraph>)、限定检索信息范围(每页显示信息条数,显示的语种、显示模式、匹配模式)等。
相关性排序。
Oncolink主要依据下列规则进行结果排序:检索词或短语是否在网页的前几行(如Web页的标题);在一个三个词的检索提问中,包含三个检索词的网页将比只包含一个词或两个词的网页远远排在前面;不常出现在索引中的检索词较普通词的权重更大,每个网页的权重值是出现在网页中所有检索词的权重和,权重值最高的网页在结果表中排在最前面;一个词在网页中出现次数的多少不影响排序,检索词只出现一次的网页与检索词在其中出现50次的网页权重相等。
WWW网络搜索引擎试图以检索词的词频、在文中的位置、以及检索词的相邻程度等依据判断检索结果的相关性,Magellan使用的“personal library software”除依据这三条标准判断检索结果的相关性外,还考虑检索词在数据库中的独特性及每个检索提问包含独特检索词的数量。
1.4 词表应用据《叙词表指南》的统计,叙词表有500多种。
由于目前标识HTML文件题目的词一般都是使用自由词,随意性大又不受控制,所以搜索引擎无法定位和鉴别,造成网络信息查全率、查准率低。
随着信息资源的迅速增加,信息资源的组织控制发生了一些新的变化,Dublin Core和URC等一系列元数据格式在Web资源组织和控制上得到了应用。