第三代搜索引擎的研究现状及其发展趋向探析_张立彬

第三代搜索引擎的研究现状及其发展趋向探析_张立彬
第三代搜索引擎的研究现状及其发展趋向探析_张立彬

○张立彬1,杨军花1,杨琴茹2

(1.南开大学 图书馆,天津300071;2.南开大学 商学院,天津300071)

第三代搜索引擎的研究现状及其发展趋向探析

摘 要:目前第三代搜索引擎研究多基于“技术驱动型”理念,即从技术角度改进搜索引擎来更好地满足用户需求。同时,以J w m g u a g u a等为主的搜索引擎本着“服务驱动型”理念,提出了第三代搜索引擎直潜全能搜索技术系统,使搜索引擎具有了直潜全能搜索能力。基于以上两种主要的搜索引擎发展理念,第三代搜索引擎呈现出多元化、个性化的发展趋向。

关键词:搜索引擎;技术驱动型理念;服务驱动型理念;发展趋势

A b s t r a c t:A t p r e s e n t,t h e t h i r d g e n e r a t i o n s e a r c h e n g i n e s a r e m o s t l y b a s e d o n t h e t e c h n o l o g y-o r i e n t e d t h e o r y,

t h a t i s,t h e s e a r c he n g i n e s a r e i m p r o v e db yt e c h n o l o g yt ob e t t e r s a t i s f yt h ed e m a n do f t h eu s e r s.M e a n w h i l e,t h e s e a r c h e n g i n e s w i t hJ w m g u a g u a a n di t s l i k e a s t h e r e p r e s e n t a t i v e s b r i n g f o r w a r d t h e t h i r dg e n e r a t i o ns t r a i g h t a n d a l-m i g h t ys e a r c ht e c h n o l o g y s y s t e m u s i n g t h e s e r v i c e-o r i e n t e d t h e o r y,w h i c h m a k e s t h e s e a r c he n g i n e s h a v e t h e s t r a i g h t

a n da l m i g h t ys e a r c h c a p a

b i l i t y.B a s e d o n t h e d e v e l o p m e n t i d e a s o f t h e a b o v e-m e n t i o n e d2m a j o r s e a r

c he n g i n e s,t h e

t h i r dg e n e r a t i o ns e a r c h e n g i n e s a r ed e v e l o p i n g i n a d i v e r s i f i e da n di n d i v i d u a l w a y.

K e y w o r d s:s e a r c he n g i n e;t e c h n o l o g y-o r i e n t e d t h e o r y;s e r v i c e-o r i e n t e d t h e o r y;d e v e l o p m e n t t r e n d

1 第二代搜索引擎的特点及其局限性

1.1第二代搜索引擎的特点

第一代搜索引擎是基于万维网的搜索引擎[1]。1994年4月,第一个搜索引擎W e b C r a w l e r(h t t p://w w w.w e b-c r a w l e r.c o m)在美国诞生。同年5月,L y c o s(h t t p:// w w w.l y c o s.c o m)也在美国出现。1994年底,美国著名门户网站Y a h o o兴起。其他比较重要的搜索引擎还有美国的I n f o s e e k,A l t a V i s t a,E x c i t e,S e a r c h.c o m,H o t B o t,M i-c r o s o f t等。早期搜索引擎主要使用基于文档内容信息的匹配和排序算法,较典型的包括布尔模型、向量空间模型、概率检索模型、模糊集合模型、扩展布尔检索模型等。第一代搜索引擎初期还分为目录式搜索和全文式搜索两类。例如,Y a h o o属于典型的目录式分类结构,而A l t a V i s t a则属于全文搜索引擎。第一代搜索引擎往往以反馈结果的数量来衡量检索结果的好坏,即“求全”。然而研究表明,在全球11个主要的搜索引擎中,仅能搜索到国际互联网上全部页面的16%,甚至更低。这主要是因为这些搜索引擎没有及时更新资料。同时,第一代搜索引擎检索结果的相关性较差,检索结果数量通常超过用户的接受能力,且排序缺乏合理性,用户往往找不到与检索提问最相关的结果。

1998年,随着G o o g l e的出现,第二代搜索引擎诞生。除G o o g l e外,Y a h o o在2004年也推出了自己的第二代搜索引擎———“一搜”(Y i s o)。在国内,百度逐渐取代新浪、搜狐,成为中文第二代搜索引擎的老大。第二代搜索引擎中最具代表性、最成功的是G o o g l e。G o o g l e公司是硅谷新兴的高技术公司,G o o g l e搜索引擎使用了数据挖掘技术和网站评级方法,与其他搜索引擎的主要区别在于:①搜索任务一般在0.5s内完成;②页面简洁,除一个搜索框外没有其他多余的东西;③G o o g l e服务器能自动识别每一台电脑所属的国别,并用该国文字进行显示。总的来说,第二代搜索引擎依靠机器抓取,建立在超链分析基础之上,提高了查准率,检索思想、方法和目标有了根本性的改变。

1.2第二代搜索引擎的软肋

与第一代搜索引擎相比,第二代搜索引擎的检全率、检准率和检索速度都有了很大的提高,但是目前的搜索引擎还是不能满足网民的各种信息需求,用户在信息检索过程中仍存在以下几个主要问题:①查全率低。在现有的搜索引擎当中还没有一种能覆盖整个因特网的信息资源, G o o g l e所收录的网页数急剧下降,这里说的下降不是从90%降到80%之类的,而是几万页、几十万页降到几百页。②查准率低。现有搜索引擎的检索结果相关性不高,对检索到的信息仅采取机械的关键词匹配,不能理解自然语言,缺乏知识处理能力,导致对信息的判断力较差,往

往造成信息丢失,检索结果存在大量垃圾,常出现答非所问的情况。③检索多媒体信息的能力差。随着网络的发展,信息媒体变得越来越多样化,网络信息除文本信息外,还伴有图形、图像、声音、动画,等等。迄今为止,虽然出现了图像、声音、气味等检索技术,但是大多数搜索引擎几乎没有任何应用,还不能满足用户检索多媒体信息,实行文字、图片、声音的统一存储、检索和输出的需求。

2第三代搜索引擎的研究现状

2.1 “技术驱动型”与“服务驱动型”理念的区别

如果从2003年算起,全球第三代搜索引擎的发展方向问题,在经过了5个年头的探索和市场“历练”之后,今天终于露出了一线端倪[2]。但是,这一线端倪却有两个发展趋向:一个是以G o o g l e为主的“技术驱动型”理念,还有雅虎、搜狐等;一个是以J w m g u a g u a(精武门呱呱)为主的“服务驱动型”理念。

技术驱动型对第三代搜索引擎这样描述:第三代搜索,是对整个网页做一种分析和数据挖掘,不仅要找到更多的结果,而且要更加智能化、人性化、更加精确,能够理解用户需要什么结果,然后进行聚合和整理。持有“技术驱动型”理念者认为,传统的搜索技术存在很大的局限性,网民需要搜索提供者研制更完美的搜索技术,以满足更快、更准、更方便的查询需求。为此,需要解决自然语言理解技术问题、可视化输出技术问题、P2P对等网络等很多问题。

服务驱动型对第三代搜索引擎的描述是:“第三代全能搜索”概念认为,随着搜索引擎服务在互联网市场的重要性日益突出,以信息搜索为主体的服务模式,已经显露出单一化的趋势。搜索引擎技术的发展需要在进一步优化搜索技术的前提下,寻找更大的服务市场和更大的经济运行空间。由于搜索业务所关联的领域和界面大幅扩展,互联网大量资源与搜索引擎技术形成了紧密的“资源共生”关系,如果将这一资源优势进行进一步的优化组织,就可以构造一个经济内涵和服务内涵空间极大的搜索引擎系统产业链,并可以实现将全球经济资源聚拢在一个统一交换机制模式体系下的产业聚合体。这就是形成建立“搜索引擎系统产业”的基础条件。

2.2第三代搜索引擎的研发历程

从第一代搜索引擎到第二代搜索引擎是一个质变过程,即由人工转向计算机的过程。而第三代搜索引擎是一个量变与质变的结合,不仅使检索技术提升,还向着人机结合的方向发展[3]。第三代搜索引擎是智能搜索引擎,它具有信息服务的智能化、人性化特征,允许检索人员采用自然语言进行信息检索,提供了更方便、更确切的检索手段。它还具有一定的推理能力,能综合用户在一次次的检索结果中的取舍,自我学习并进行推理,使自己变得更聪明,从而调整其检索策略,完善和提高检索效率。

2003年8月20日,中国搜索C E O陈沛首次提出了第三代搜索引擎的概念。2004年12月,中搜推出的网络猪3.0被陈沛看成是第三代搜索引擎个性化信息门户的开始。陈沛认为以后人们不用打开浏览器,敲入关键词,针对特定内容,搜索的部分是由搜索公司完成,不是由人来完成,“这是我们下一代搜索引擎主要完成的方向,中搜作为一个专著于搜索技术的公司,一直致力于这方面的研究,我今天讲的内容,很多已经展现出来了,我们会向人们证实确实有更好的搜索引擎,我们的网络猪4.0版本,会很快发布,我们会让大家感受到未来的搜索更具魅力”[4]。2006年4月18日,中国搜索发布了客户端搜索软件I G(I n t e r n e t G a t e w a y),而I G是网络猪的升级产品。

另外,2004年8月,搜狐C E O张朝阳也提出了第三代互动搜索概念。在2004年的互联网高层峰会上,搜狐公司副总裁王建军先生也说智能和互动问题:“我觉得智能的概念比较广,应该说互动是智能表现的一个方式、一个具体的体现。互动就是网民在输入一个关键词时,后台会根据这个内容来缩小搜索的范围,互动应该是互联网发展的方向。我可以演示一下搜狐公司在6月份推出的一款刀剑游戏。刀剑有两个理解,一个是舞枪弄棒的刀剑,还有一个是网络游戏的刀剑。在搜索里可以看到有各种各样的刀剑信息,但是上面有一个是收集爱好的刀剑,点下去都是跟体育爱好相关的。这个搜索提示里有一个网络游戏刀剑,你在点击网络游戏时这下面完全是跟网络游戏刀剑相关的信息了。这次搜狐推出的还有一个购物搜索,以数码相机为例,搜索出来的结果有各种品牌的数码相机,以及各种型号的数码相机。还有数码相机的一些附件,前面点了一个柯达数码相机之后,里面都是柯达数码相机”。另外在国外,2005年9月,美国政府提出开始研制第三代搜索。2005年10月,微软公布了该公司做第三代搜索引擎的构想。2007年3月2日,日本经济产业省召开公开征集说明会,公开征集新一代信息搜索技术国家开发项目———“信息大航海计划”的参与企业。预算规模预定为20亿日元。研发时间为委托开始之日到2008年3月31日。2007年4月,中国J w m g u a g u a率先提出了第三代直潜全能搜索引擎技术系统。

可以说,全球第三代搜索引擎技术发展前期的技术主流,是以陈沛为主要领军人物的一个趋势。在这个进程中,G o o g l e,Y a h o o,微软等国际厂家,属于中搜前期“第三代”搜索技术的追随者。

3第三代搜索引擎的发展趋向

目前第三代搜索引擎研究多基于技术驱动型理念,从技术的角度改进搜索引擎来更好地满足用户需求。同时,以J w m g u a g u a等为主的搜索引擎本着“服务驱动型”理念提出了第三代搜索引擎直潜全能搜索技术系统,使搜索引擎具有了直潜全能搜索能力。基于以上两种发展理念,第三代搜索引擎呈现出不同的发展趋向。

3.1具有智能词组效应和编辑功能

美国H a k i a(施乐公司)和旧金山的一家公司P o w e r-s e t,以及总部设于悉尼的L e x x e等一些搜索引擎,正在试图超越精确匹配查寻词的功能,它们正在试图先弄明白你要查找什么,然后根据它们对相关内容的理解找出最佳页面。美国布法罗大学计算机学家罗西尼·斯里哈里说:“在大多数情况下,你要找的文件不一定包含你要查找的所有关键词。而且如果你希望找到突然成为热门话题的人或物,你甚至都不知道要搜什么样的关键词”。智能搜索引擎也许会知道,当你输入“巴黎”、“东京”、“纽约”和“最热门餐馆”时,你要查找的是世界各地最热门的新餐馆。

无论电脑程序多么聪明,它对搜索质量和相关性的判断永远比不上人脑[5]。包括M a h a l o(创始人J.C a l a c a n-i s)和C h a C h a(w w w.c h a c h a.c o m)在内的一些新搜索引擎都依靠部分编辑人员或导航人员,预先对一些搜索的结果进行筛选,选出最相关的页面。你可能获得比G o o g l e 更棒的搜索结果———但前提是你的搜索词是在编辑们曾经研究过的范围之内。新一代搜索引擎应该更加智能化,这种功能需要耗费大量的人力和时间,有待进一步的改进,使得搜索引擎能自己对搜索结果进行筛选工作,无须人员的参与。即使不如人脑的判断那么准确,也可以大大提高检索结果的质量。

3.2具有引导查寻能力

猜测哪些关键词能找出最相关的结果很难,但一些搜索引擎能通过提供提示语来帮忙,就好像雅虎和新生代引擎A c c o o n a所做的那样,或者如同美国的A s k.c o m和C l u s t y一样将搜索结果根据不同的侧重话题分门别类[6]。例如,在A s k.c o m键入“斯皮尔斯”(原文为S p e a r s,是歌星小甜甜布兰妮的姓氏,直译为矛),引擎会提示要查找有关锐利武器还是流行歌曲方面的内容。谷歌只是把它们罗列在一起。许多采用尖端技术的引擎,包括法国的K a r t o o和K o o l t T o r c h,以及成立于莫斯科、现在总部设在弗吉尼亚州的Q u i n t u r a,都通过图形来展示不同的类别,从直观上提示哪些类别可能最有用。

中国搜索的智能导航就可提供关联检索功能,引导用户查寻所需内容[7]。当用户输入一个查寻词时,搜索引擎尝试理解用户可能的查询意图,给予多个主题的搜索提示,引导用户更快速准确地定位自己所关注的内容。这种与用户的“对话交流”,大幅度提高了搜索相关度。例如,用户输入“猎豹”一词,搜索引擎会快速将猎豹可能出现的主题进行关联分类,在智能导航中给出汽车、体育与竞技、生物、极限运动等主题提示,分类明确,用户第一眼就联想到相关的内容,点击自己所需的类别就可以轻松找到答案。

3.3具有公众参与能力

美国的N o s y j o e,S q u i d o o和S p r o o s e等搜索引擎让其他用户来帮助确定哪些网页是最有用的,剔除在谷歌根据链接数量排序的方案中时常无关紧要和充斥着垃圾信息的搜索结果[6]。如同与人人都能参与编写维基百科一样,美国的维基亚公司正在打造一个基于用户贡献的搜索引擎。维基百科,英文名为Wi k i p e d i a,自由的百科全书。它是一种基于Wi k i的百科全书,是一个自由、免费、内容开放的百科全书协作计划,参与者来自世界各地,目前已经成长为全球最大的网络百科全书,百度百科创作模式的原型也是维基。网页书签服务商美国的d e l.i c i o.u s公司能够通过搜索其他人标注的书签来找到相关网页。雅虎于2005年购买了这一搜索引擎。提高公众参与度,一方面可以增强检索结果的准确与全面;另一方面还可以提高用户对该搜索引擎的了解。

3.4具有整合搜索能力

G o o g l e在前一段时间发布了一款叫“U n i v e r s a l S e a r c h”的搜索引擎,或称之为“整合搜索”。李开复对“整合搜索”这样描述:“现在我想谈一下在未来搜索会走向什么样的一条路。未来方面我认为最重要的一点就是整合搜索,我们整合搜索的概念,就是又回到了一个搜索框,我们去处理一个很困难的技术问题,就是当你搜索周杰伦的时候,他跟他的博客,还有粉丝俱乐部,我们要把它做一个排序,怎么去做排序,当然是我们公司的机密,在这里不能够分享……”[8]。

网页搜索根据不同的排名方式把很多的文字做一个排序,每个排名都体现着网页的权威性,另外还对搜索的词和网页的词有没有出现做一个匹配,这些都是传统的网页搜索非常重视的一些特征。但是,后来不少的网站发现用这些特征来排名网页和文字很好,但是不适用于特殊信息。整合搜索就是把多元的信息整合起来,然后做一个动态的排序,这样的情况之下,用户就不需要知道垂直搜索。但这并不表示垂直搜索就要灭亡了,那些知道自己要到哪儿找的用户,可以去垂直搜索,只是那些不确定的用户,或者要开始做一个搜索的用户,整合搜索会指给其不

同的路线,让他发现一个比如我的蔡依琳,看到了蔡依琳的视频,点击看更多蔡依琳视频,这时候用户可以去看更多的内容。这样就降低了用户的负担,他不需要去认识1000个不同的垂直搜索。整合搜索已经开始推出了。

3.5具有“一页到位”搜索能力

2007年6月5日,雅虎中国发布了基于“一页到位”技术的搜索引擎O m n i S e a r c h,这一最新搜索被雅虎中国称为对搜索3.0概念的尝试。O m n i S e a r c h是全球首个实现了“一页到位”的搜索平台。在传统的搜索模式上,用户无论使用网页搜索还是垂直搜索,通常只能得到一个种类的搜索内容,如图片、歌曲。但在O m n i S e a r c h搜索平台上,用户能够在一个页面上得到各类搜索结果。另外,还可以对用户查寻需求进行智能化的分析与预判。即主动根据用户查寻的时间、地点、历史、语境等,去判断一个关键词背后丰富的用户意图,并最终产生一个“复合型”的搜索结果。例如用户试图查寻刘德华,在同一结果页上不仅能够看到普通的页面搜索结果,还能看到刘德华最新的图片、最热音乐视听以及刘德华本人的博客和与其相关的博客搜索结果。

3.6具有垂直搜索能力

垂直搜索是对特定的专业领域或行业信息进行专业化的、深入的分析挖掘和精细分类,信息定位更精准,专于自己的特长与核心技术,保证该领域信息的完整收录、及时更新[3]。垂直搜索引擎与各综合搜索引擎采用的技术基本相同,因此它的建立不存在技术障碍,实现比较容易。综合搜索引擎也有向垂直搜索发展的趋势。从现有搜索引擎的频道访问统计中,已经能够观察到一些现象,比如百度的M p3和图片搜索功能,其访问量总和已经占到该网站总访问量的1/4[9]。同一术语在不同的学科具有不同的意义,设计不同的学科版搜索引擎,细化可能产生误解的术语,能够使搜索到的结果更准确,减少搜索时间,并能推动各学科术语的规范化。再者,不同层次的用户对同一专业的需求也不同,因此可以设计同一专业的不同版本,如普通版、专业版、图像版等。

3.7具有直潜全能搜索能力

第三代搜索引擎J w m g u a g u a在2007年4月率先提出了第三代搜索引擎直潜全能搜索技术系统,并依据该系统的技术特征和设计理念,首次在全球搜索行业提出“搜索引擎系统产业”概念的互联网搜索产业系统(I n t e r n e t S e a r c hI n d u s t r y,I S I),将搜索引擎服务作为一个全球最大的产业标准进行技术架构和功能设置。它是一款社会化架构通用工程软件,适合于个人和一切经济、社会组织用于对信息的搜索、整理、利用,对生产、经营、交易的沟通和完成,以及适合于网络和移动的通信和交流。通过搜索引擎一体化技术的系统架构,搜索引擎成为一个“互流贯通”的中枢导引系统,并提供系列化的信息搜索、交换渠道和建站空间,多项复合结构服务功能的互联网新兴产业模式。用户通过搜索引擎系统产业链,能完成更有效率的网络间和现实间相关联的交互运动。

J w m g u a g u a直潜全能搜索系统,是一款超大规模的互联网界面与现实界面无缝衔接的“多方位数据交换中心”,主要有以下技术特征:(双网双库)索引库自建技术;多角搜索精确定位技术;桌面短信息互换配流技术;个人、企业集约化交互主页技术;无限商定位链接交换系统;桌面创新型视频媒介、新闻资讯营销系统。以此为基础,直潜全能搜索技术体系实际上是一个以搜索引擎技术服务为前提的“神经中枢”系统,并以此为基础,形成了一个多交互功能、多交易功能的、巨大的“搜索引擎系统产业”链模式。这是一款面向国际化的软件工程,用户通过I S I系统能与世界上任何语种、任何文化、任何经济体、任何服务机构、任何个人和家庭、任何媒介形式发生由因特网界面向R e a l i t y界面的转换(双网双库系统),也就是实现虚拟和现实的无缝隙链接。

3.8具有个性化搜索能力

个性化搜索将搜索建立在个性化的搜索环境之下,跟踪用户的搜索行为,通过对用户的不断了解、分析,积累用户的搜索个性化数据,充分考虑用户的特点、动机和需求来提高用户搜索效率,并为用户提供全程帮助和服务,使得个性化搜索更符合每个人的需求[10]。

现在的搜索引擎,用户无从选择其显示什么样的信息内容,排列什么样的搜索结果。一次普通的查寻,搜索引擎返回结果众多,且大多数并非用户关心的。并且,用户的地域、兴趣、知识背景、目的等不同,输入不同的检索词却经常会出现相同的结果[11]。未来的搜索引擎,可以通过两种方法获得用户的信息:一种是把关键词分类并表示其特征,定义标题特征程度并统计,应用兴趣描述文件,动态获取用户的信息;另一种是根据用户的书签文件,检索时输入的关键词、用户反映等,动态更新用户信息。通过提供符合用户个性化需要的信息,增加检索结果的准确性,排除无关信息,并且能够存储、共享。搜索引擎的个性化还体现在提供特色的服务和功能。如G o o g l e 在2004年3月推出了个性化搜索引擎测试版(G o o g l e P e r-s o n a l i z e d),用户可以设定自己感兴趣的领域,让它只返回与该领域有关的链接。中国搜索提供了12个一级类目、102个二级类目,用户可添加其感兴趣的类别。

3.9具有桌面搜索能力

当前,个人需要存储的资料越来越多,很多搜索引擎如微软自带的文件搜索已经不能满足用户需要。未来搜索

引擎将具有桌面搜索功能,即在不打开浏览器的情况下便可浏览网页,在Wo r d文档中发现生僻的词汇时选中它,点击搜索或寻址就能搜索到需要的结果。另外,还可以输入关键词,以桌面为入口进行检索。桌面搜索不仅能搜索用户个人电脑上的信息,也可搜索互联网上的信息。

目前,各搜索引擎相继推出了自己的桌面搜索工具。它属于搜索引擎的附属工具,直接安装在用户桌面,而不是嵌入在浏览器中[12]。用户可直接输入关键词检索,输出结果与微型阅读器一起弹出,可在微型阅读器中进入相关网页。G o o g l e的桌面搜索可为用户计算机上所有的可搜索信息(除压缩文件、P D F文件和除I E外的其他浏览器)创建索引并将它存储起来,这样用户在下载安装该应用程序后,就可以像使用G o o g l e搜索因特网一样搜索自己的个人文档。H o t B o t(h t t p://w w w.h o t b o t.c o m)推出了H o t B o t D e s k t o p S e a r c h,不仅可以搜索因特网文件,还可以对本地计算机上的E m a i l、O f f i c e文档和浏览器历史记录等文件进行索引。百度推出的硬盘搜索与H o t B o t D e s k t o p S e a r c h相似,对P D F文档、z i p与r a r等压缩文件的处理效果也非常好。

3.10商业化、集成化、多媒体化

搜索引擎以竞价排名等形式实现了商业化,实现了收费,但还不是真正意义上的商业化。这里的商业化,是指未来随着我国电子商务的成熟,搜索引擎的全面商业化。目前已有的收费服务项目包括快速检索服务、有偿信息查询服务、竞价排名服务、网际专递服务、收录审查费、访问点击收费等,百度,O v e r t u r e(即以前人们所熟知的“G o T o.c o m”),L o o k S m a r t(美国)等都高举收费大旗,发展搜索引擎营销市场。搜索引擎为网上商家带来的“眼球”将商业化,未来我国企业电子商务收入比重将增加,搜索引擎将以搜索结果和链接形式直接为商家带来顾客。并且随着B2C(B u s i n e s s t o C u s t o m e r)的广泛应用,搜索引擎将能够为目前一些免费的服务寻找到盈利模式,进一步促进搜索引擎商业化的发展。

面对数以亿计的网页,任何一个搜索引擎都不可能百分之百地检索到所需的网上信息,这时就需要将多个独立的搜索引擎集成在一起,提供给用户一个统一的操作界面,用户的检索指令发出后,该系统将其传送给各独立搜索引擎,将独立搜索引擎检索的结果返回并经过综合整理后反馈给用户,这就是集合型搜索引擎。它涉及多个数据库,拓宽了检索范围,取长补短,极大地方便了用户。元搜索引擎就是一种基于搜索引擎的搜索引擎,用户只要提出一次检索请求,就可以获得多个独立搜索引擎的服务。国外已经出现了很多知名的搜索引擎,如M a m m a(h t-t p://w w w.m a m m a.c o m/),P r o f u s i o n(h t t p://w w w.p r o f u s i o n.c o m)等老牌的搜索引擎,Y a h o o,G o o g l e等也开始采用元搜索引擎的检索方法来提高检索效率。

未来的搜索引擎将在搜索内容上向多媒体化发展。视频、音频等多媒体信息的检索数据量高速增长,多媒体搜索引擎的发展迫在眉睫。瑞典一家公司已经研制推出被称为“新一代搜索引擎”的动态的多媒体搜索引擎,它对以文本信息为代表的离散媒体和以图像、声音等为代表的连续媒体的内容进行检索。美国在线的S i n g i n g F i s h搜索引擎专门搜索音频和视频文件。不同的多媒体搜索引擎侧重于不同方面的发展,如D i t t o(h t t p://w w w.d i t t o.

c o m)只能搜索和浏览网上图像资料,I m a g e s G o o g l e只能检索G o o g l e所抓去的图像,M u s i c-f i n

d

e r用于搜索音乐家歌曲等。另外,美国P u r d u e大学正在研发以图像为“关键词”的搜索技术。同时,搜索引擎在向用户提供检索结果时仍可以向多媒体方向发展,使得检索结果形式多样化、生动化,更好地满足用户的需求[13]。◆

参考文献

[1]王林.搜索引擎的原理和发展[J].图书馆理论与实践,

2004(4):37-38

[2]李铃.搜索引擎发展方向[J].科技情报开发与经济,

2005(21)

[3]韩进军,安园园.搜索引擎的未来发展[J].医学信息学

杂志,2007(5):431-434

[4]h t t p://n e t.c h i n a b y t e.c o m/82/2100082.s h t m l

[5]傅欣.第三代搜索引擎的智能化趋势研究[J].现代图书

情报技术,2002(6):28-30

[6]戴维·弗里德曼.寻找最佳搜索引擎[N].参考消息,

2007-11-14

[7]邵宏杰.第三代智能化搜索引擎———中国搜索[J].现代

情报,2005(8):211-212

[8]h t t p://w w w.t e c h w e b.c o m.c n/v i d e o/2007-11-07/270207.s h t m l

[9]包燕晗.搜索引擎存在的问题与发展趋势[J].中国信息

导报,2006(4):60-61

[10]赵静,王玉平.目前我国搜索引擎研究的现状与发展

[J].情报科学,2003(8):879-893

[11]吴祐昕,顺风.网络搜索引擎的发展趋势分析[J].当代

传播,2007(3):73-74

[12]郑淑蓉.搜索引擎10年发展[J].中国信息导报,2006

(11):59-61

[13]李子臣.搜索技术的现状及发展前景[J].情报科学,

2007(7):1114-1120

作者简介:张立彬,1964年生,副教授。

杨军花,女,1971年生,馆员。

杨琴茹,女,1987年生,硕士生。

收稿日期:2007-03-28

当今搜索引擎技术及发展趋势

当今搜索引擎技术及发展趋势 随着互联网的迅猛发展、WEB信息的增加,用户要在信息海洋里查找信息,就象大海捞针一样,搜索引擎技术恰好解决了这一难题(它可以为用户提供信息检索服务)。目前,搜索引擎技术正成为计算机工业界和学术界争相研究、开发的对象。 搜索引擎(Search Engine)是随着WEB信息的迅速增加,从1995年开始逐渐发展起来的技术。据发表在《科学》杂志1999年7月的文章《WEB信息的可访问性》估计,全球目前的网页超过8亿,有效数据超过9T,并且仍以每4个月翻一番的速度增长。用户要在如此浩瀚的信息海洋里寻找信息,必然会“大海捞针”无功而返。搜索引擎正是为了解决这个“迷航”问题而出现的技术。 搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。搜索引擎提供的导航服务已经成为互联网上非常重要的网络服务,搜索引擎站点也被美誉为“网络门户”。搜索引擎技术因而成为计算机工业界和学术界争相研究、开发的对象。 一、分类 按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类: 1.目录式搜索引擎:以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。这类搜索引擎的代表是:Yahoo、LookSmart、Open Directory、Go Guide等。2.机器人搜索引擎:由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。服务方式是面向网页的全文检索服务。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。这类搜索引擎的代表是:AltaVista、Northern Light、Excite、Infoseek、Inktomi、FAST、Lycos、Google;国内代表为:“天网”、悠游、OpenFind等。 3.元搜索引擎:这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量更大、更全,缺点是不能够充分使用所使用搜索引擎的功能,用户需要做更多的筛选。 二、性能指标 我们可以将WEB信息的搜索看作一个信息检索问题,即在由WEB网页组成的文档库中检索出与用户查询相关的文档。所以我们可以用衡量传统信息检索系统的性能参数-召回率(Recall)和精度(Pricision)衡量一个搜索引擎的性能。 召回率是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统(搜索引擎)的查全率;精度是检索出的相关文档数与检索出的文档总数的比率,衡量的是检索系统(搜索引擎)的查准率。对于一个检索系统来讲,召回率和精度不可能两全其美:召回率高时,精度低,精度高时,召回率低。所以常常用11种召回率下11种精度的平均值(即11点平均精度)来衡量一个检索系统的精度。对于搜索引擎系统来讲,因为没有一个搜索引擎系统能够搜集到所有的WEB网页,所以召回率很难计算。目前的搜索引擎系统都非常关心精度。 影响一个搜索引擎系统的性能有很多因素,最主要的是信息检索模型,包括文档和查询的表示方法、评价文档和用户查询相关性的匹配策略、查询结果的排序方法和用户进行相关度反馈的机制

构造地质学研究现状和发展趋势.docx

构造地质学研究现状和发展趋势 构造地质学是地质学分支学科之一,以岩石圈的各种地质体作为研究对象,探究其组合形式及形成、发育、变形、破坏规律。一般根据其研究对象和研究内容的差异,分为狭义构造地质学和广义构造地质学。狭义构造地质学侧重于对中、小型地质体的研究,主要研究这些构造的几何形态、产状、规模、形成演化等。广义构造地质学的研究范围更加广阔,从地壳演变至岩石圈结构,从重要造山带至板块边界,从显微构造到晶格错位,几乎涵盖了10_8?108cm的所有地质体。近代以来,构造地质学研究获得了空前发展。20世纪60年代以来,板块构造理论体系得以建立和完善;20世纪70年代以来,大陆构造研究得到了重视;20世纪80年代以来,重点研究岩石圈的演化和三维岩石圈的建立;20世纪90年代以来,大陆动力学研究兴起。这些研究使得构造地质学在研究深度和研究广度上取得了重要进展。 1.构造解析构造学本质上是对地质体变形和演化的认识,构造地质学强调野外实地观测,其主要研究方法是构造解析法。构造解析是对地质体空间关系和形成规律的分析解释,内容包括对地质体的几何学、运动学和动力学的分析气几何学解析是指对地质体的产状、规模、组合形式进行研究,进而概化为构造模式。运动学解析主要研究地质体在构造作用中发生的变形和位移。动力学解析是在几何学解析和运动学解析的基础上,反推构造应力的性质、大小、方向,分析和解释该研究区域的构造演化史。 2.研究现状步人20世纪后,构造地质学开始从形态描述逐渐进人对地质体的成因和力学分析研究中,由定性观察转入定量研究,由几何学研究转人运动学、动力学的领域。相关学科的新方法、新思路的引人,使得构造地质学获得了极大地进步,促进了构造地质学和其他学科的交流融合。尤其20世纪60年代后,以板块构造为主的各种新理论的提出,促使构造地质学的发展进入全新阶段。 2.1板块构造理论体系相关研究1968年前后,地质学家归纳了大陆漂移和海底扩张的研究成果,并在此基础上从全球统一的角度提出了板块构造理论,该理论将固体地球表层在垂向上划分为刚性岩石圈和塑性软

中外搜索引擎研究的现状与发展

中外搜索引擎研究的现状与发展 夏旭李健康 (第一军医大学图书馆广州510515) 摘要: 以WWW网络搜索引擎的发展历程为基础,综述了WWW网络搜索引擎的定义、检索机制、检索规则、词表应用、分类研究、比较研究等方面取得的新进展,探讨搜索引擎发展走向与思路。同时就目前中外搜索引擎普遍存在的问题进行分析,希能对国内中文搜索引擎的开发和准确、快速、全面检索WWW网络乃至因特网信息资源有所启示。 关键词:搜索引擎研究进展综述信息资源管理 由于因特网上信息资源内容广泛、时效性强、访问快速、网络交互搜寻、动态更新,而且还提供快速访问网上信息资源的各种搜索引擎(Search Engines),用于快速搜索WWW网络乃至因特上的有用信息,使得通过WWW网络获取网络信息资源成为国内外研究的一大热点。基于网络的搜索引擎的研制与开发应用成为当前网络信息资源开发应用研究领域的热点。英文搜索引擎“GOOGLE”和中文搜索引擎“百度搜索”的推出,拉开了搜索引擎核心技术争夺战的序幕。可以预言,在今后一段相当长的时间里,搜索引擎还将有长足的发展和进步,检索功能将更趋向于集成化和更具亲和力、更显人性化。 1 搜索引擎的定义、检索机制、检索规则和词表应用 1.1 定义 搜索引擎,Search engines,又称搜索机,Web搜索器,是伴随WWW网络出现的检索网上信息资源的新工具。实质上是一种网页网址检索系统,有的提供分类和关键词检索途径,有的仅提供关键词检索途径。它根据检索规则和从其他信息服务器上得到数据并对数据进行加工处理,自动建立索引,并通过检索接口为用户提供信息查询服务,能够自动对WWW资源建立索引或进行主题分类,并通过查询语法为用户返回匹配资源的系统。搜索引擎主要是由Crawler、Spider、Worm、Robot等计算机软件程序自动在因特网上漫游,不断搜集各类新网址及网页,形成数以千万甚至上亿条记录的数据库。它是通过采集标引众多网络站点来提供全局性网络资源控制与检索机制、将全球WWW网络中所有信息资源作一完整的集合、整理和分类、方便用户查找所需信息的网络检索软件。具有检索面广、信息量大、信息更新速度快,特定主题的检索专指性强等特点。 1.1.1 常规搜索引擎和元搜索引擎 自带索引数据库的搜索引擎通常被称为常规搜索引擎或独立搜索引擎,相应地,集多种常规搜索引擎于一体的搜索引擎则称为(多)元搜索引擎。元搜索引擎是国外搜索引擎开发者新设计的一种集成型搜索引擎,与独立搜索引擎的区别在于:它是通过一个统一的用户界面帮助用户在多个独立搜索引擎中选择和利用合适的搜索引擎,甚至是同时利用多个搜索引擎来实现检索操作。元搜索引擎没有自己独立的数据库,却更多地提供统一界面,形成一个由多个搜索引擎构成的具有独立功能的虚拟逻辑体,通过元搜索引擎的功能实现对这个虚拟逻辑体中各搜索引擎数据库的查询等一切操作。由于元搜索引擎预先配置好多个搜索引擎,每条检索指令都自动通过预先配置的搜索引擎执行,免去了用户逐一记忆和单独使用每个搜索引擎的麻烦。主要的元搜索引擎有ALL-IN-ONE、CUSI、Fun City Web Search、HyperNews、Linksearch、Savvysearch、Metacrawler、Best Search、W3Search Engines、WebSearch、Profusion、Mamma、Avenuesearch、Dogpile、Kwikseek、Findspot、Bytesearch、Webferret、Bluesquirrel Webseeker等。Metacrawler (http://www. https://www.360docs.net/doc/1d14073300.html,)能同时调用6个搜索引擎;Savvysearch (http://www. https://www.360docs.net/doc/1d14073300.html,)可有选择地调用21个独立的搜索引擎,检索Web、Usenet 新闻组、软件、参考工具、技术报告等信息,每次最多并行检索5个搜索引擎的数据库。Profusion (http://www. https://www.360docs.net/doc/1d14073300.html,)最多同时调用9个独立的搜索引擎,调用方式有全部调用、系统自动选择最好的3个、系统自动选择最快的3个、用户从中选取任意个搜索引擎。最新出现的桌面型离线式搜索引擎如Webcompass、WebSeeker、WebFerret、Echosearch、Copernic98等也是元搜索引擎。 1.1.2 集中式搜索引擎和分布式搜索引擎

搜索引擎原理及发展趋势

1 南昌航空大学 Nanchang Hangkong University 毕 业 论 文 题目 _搜索引擎原理及发展趋势__________________ 学院 _江西工业工程职业学校 _____________________ 专业 __________计算机网络________________________ 姓名 周文飞___________学号 036811100078 指导老师 李国忠______________职称________________ __2012__年_5__月_5_ 日 _

目录 第一章搜索引擎的概述 3 1.1 搜索引擎3 1.2 搜索引擎的发展史3第二章搜索引擎基本常识9 2.1 搜索引擎工作原理9 2.2 搜索引擎分类9 2.3 全文搜索引擎10第三章使用搜索引擎的一些基本规则和技巧12 3.1 搜索引擎的一些基本规则12 3.2 搜索引擎的一些基本技巧12第四章搜索引擎的评测16 4.1搜索引擎缺陷16 4.2搜索速度16第五章搜索引擎的未来发展动向及趋势18 5.1搜索引擎的未来发展动向18 5.2搜索引擎趋势19 结束语23致谢24参考文献25 2

第一章搜索引擎的概述 1.1 搜索引擎 搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。百度和谷歌等是搜索引擎的代表。 搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。百度和谷歌等是搜索引擎的代表。 1.2搜索引擎的发展史 互联网发展早期,以雅虎为代表的网站分类目录查询非常流行。网站分类目录由人工整理维护,精选互联网上的优秀网站,并简要描述,分类放置到不同目录下。用户查询时,通过一层层的点击来查找自己想找的网站。也有人把这种基于目录的检索服务网站称为搜索引擎,但从严格意义上讲,它并不是搜索引擎。 1990年,加拿大麦吉尔大学(University of McGill)计算机学院的师生开发出Archie。当时,万维网(World Wide Web)还没有出现,人们通过FTP来共享交流资源。Archie能定期搜集并分析FTP服务器上的文件名信息,提供查找分别在各个FTP主机中的文件。用户必须输入精确的文件名进行搜索,Archie告诉用户哪个FTP服务器能下载该文件。虽然Archie搜集的信息资源不是网页(HTML文件),但和搜索引擎的基本工作方式是一样的:自动搜集信息资源、建立索引、提供检索服务。所以,Archie被公认为现代搜索引擎的鼻祖。 起源 所有搜索引擎的祖先,是1990年由Montreal的McGill University三名学生(Alan Emtage、Peter Deutsch、Bill Wheelan)发明的Archie(Archie FAQ)。Alan Emtage等想到了开发一个可以用文件名查找文件的系统,于是便有了Archie。Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。由于Archie深受欢迎,受其启发,Nevada System Computing Services大学于1993年开发了一个Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。Jughead是后来另一个Gopher搜索工具。发展(1) Excite 的历史可以上溯到1993年2月,6个Stanford University(斯坦福大学)大学生的想法是分析字词关系,以对互联网上的大量信息作更有效的检索。到1993年中,这已是一个完全投资项目,他们还发布了一个供 3

国内外研究现状及发展趋势

国内外研究现状及发展趋势 世界银行2000年研究报告《中国:服务业发展和中国经济竞争力》的研究结果表明,在中国有4个服务性行业对于提高生产力和推动中国经济增长具有重要意义,它们是物流服务、商业服务、电子商务和电信。其中,物流服务占1997年服务业产出的42.4%,是比重最大的一类。进入21世纪,中国要实现对WTO缔约国全面开放服务业的承诺,物流服务作为在服务业中所占比例较大的服务门类,肯定会首先遭遇国际物流业的竞争。 物流的配送方式从手工下单、手工核查的方式慢慢转变成现今的物流平台电子信息化管理方式,从而节省了大量的人力,使得配送流程管理自动化、一体化。 当今出现一种智能运输系统,即是物流系统的一种,也是我国未来大力研究的方向。它是指采用信息处理、通信、控制、电子等先进技术,使人、车、路更加协调地结合在一起,减少交通事故、阻塞和污染,从而提高交通运输效率及生产率的综合系统。我国是从70年代开始注意电子信息技术在公路交通领域的研究及应用工作的,相应建立了电子信息技术、科技情报信息、交通工程、自动控制等方面的研究机构。迄今为止以取得了以道路桥梁自动化检测、道路桥梁数据库、高速公路通信监控系统、高速公路收费系统、交通与气象数据采

集自动化系统等为代表的一批成果。尽管如此,由于研究的分散以及研究水平所限,形成多数研究项目是针对交通运输的某一局部问题而进得的,缺乏一个综全性的、具有战略意义的研究项目恰恰是覆盖这些领域的一项综合性技术,也就是说可以通过智能运输系统将原来这些互不相干的项目有机的联系在一起,使公路交通系统的规划、建设、管理、运营等各方面工作在更高的层次上协调发展,使公路交通发挥出更大的效益。 1.国内物流产业发展迅速。国内物流产业正处在前所未有的高速增长阶段。2008年,全国社会物流总额达89.9万亿元,比2000年增长4.2倍,年均增长23%;物流业实现增加值2万亿元,比2000年增长1.9倍,年均增长14%。2008年,物流业增加值占全部服务业增加值的比重为16. 5%,占GDP的比重为6. 6%。预计“十一五”期间,我国物流产业年均增速保持在15%以上,远远高于美国的10%和加拿大、西欧的9%。 2.物流专业化水平与服务效率不断提高。社会物流总费用与GDP 的比例体现了一个国家物流产业专业化水平和服务效率。我国社会物流总费用与GDP的比例在近年来呈现不断下降趋势,“十五”期间,社会物流总费用占GDP的比例,由2000年的19.4%下降到2006年的18. 3%;2007年这一比例则下降到18. 0%,标志着我国物流产业的专业化水平和服务效率不断提高。但同发达国家相比较,我国物流

中国搜索引擎服务市场的现状及发展

中国搜索引擎服务市场的现状及发展 ① 黄建莲② (华北科技学院管理系,北京东燕郊 101601) 摘 要:针对当前我国的搜索引擎服务市场分析该市场的规模、商业模式及发展前景,并从加强技术创新,提高服务质量,实现服务的垂直化和个性发展方面进行了探讨。 关键词:搜索引擎;搜索引擎服务;市场规模;服务市场;搜索引擎技术 中图分类号:F76416 文献标识码:A 文章编号:1672-7169(2005)03-0113-03 搜索引擎是一个传递企业网络营销信息的基本工具,它具有用户数量多、营销定位强的特点。对于企业能实现网站推广、产品推广、提升企业品牌等多方面的作用。因此搜索引擎服务商更应抓住机遇,挖掘商机,实现搜索引擎的服务价值。 1 中国搜索引擎服务市场的现状分析 111 中国搜索引擎服务市场的规模 11111 中国使用搜索引擎的用户和企业数量变化 根据CNN IC互联网用户调查数据显示,随着互联网用户的逐年增加,搜索引擎作为用户使用互联网的主要工具使用率呈现逐年上涨趋势。2004年中国互联网用户使用搜索引擎的用户比例占到80%,预计未来两年使用搜索引擎的用户仍呈现稳定增长态势。 从当前企业使用搜索引擎的服务来看,搜索引擎作为连接企业和用户的一座桥梁,也越来越受到企业的重视,越来越多的企业选择使用搜索引擎作为企业的推广方式。在2001年仅有7万家企业使用搜索引擎技术作为企业的推广方式,而2003年企业数量达到26万家,2004年企业数量达到49万家。 11112 中国搜索引擎行业市场规模现状 中国的搜索引擎市场格局基本稳定,目前主要以百度、雅虎、搜狐、G oogle、新浪、网易、中国搜索等几家厂商为主;据IResearch调查,2004年中国搜索引擎市场中,百度、雅虎、G oogle分别以36129%、22172%、21122%的用户占有率占据着国内搜索引擎市场的前三位,形成了国内搜索市场的“第一阵营”。紧随其后,新浪、搜狐、网易、Tom、中国搜索、 中华网等国内厂商形成了“第二阵营”。 IResearch统计数据显示,2003年中国搜索引擎市场规模为619亿元人民币,年增长率为147%。2004年中国搜索引擎市场规模将达到1215亿元人民币,年增长率为81%。如图1所示: 图1 中国搜索引擎行业市场规模 综上,目前中国的搜索引擎网络营销仍处于快速发展阶段,中国的搜索引擎市场无论是企业广告主的数量,还是整个搜索引擎行业市场规模都迅速发展。 112 搜索引擎服务市场的商业模式 搜索引擎是企业实施网络营销的重要工具之 311 ① ②作者简介:黄建莲(1977—),女,福建顺昌人,大学毕业,华北科技学院管理系助教。 收稿日期:2005206221

搜索引擎的现状和发展趋势

期末课程论文 论文标题:搜索引擎的现状与发展趋势 课程名称:信息检索技术 课程编号:1220500 学生姓名:潘飞达 学生学号:1100310120 所在学院:计算机科学与工程学院 学习专业:计算机科学与技术 课程教师:王冲 2013年7月1 日

【摘要】 搜索引擎包括图片搜索引擎、全文索引、目录索引等,其发展历史可分为五个阶段,目前企业搜索引擎和网站运营搜索引擎运用范围较广。在搜索引擎的未来发展中,呈现出个性化,多元化,智能化,移动化,社区化等多个趋势。 【关键词】 发展过程、发展趋势、检索技巧、个性化、智能化 1 搜索引擎简介 搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。百度和谷歌等是搜索引擎的代表。 其工作作原理分为抓取网页,处理网页和提供检索服务。 抓取每个独立的搜索引擎都有自己的网页抓取程序,它顺着网页中的超链接,连续地抓取网页。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。 搜索引擎是根据用户的查询请求,按照一定算法从索引数据中查找信息返回给用户。为了保证用户查找信息的精度和新鲜度,搜索引擎需要建立并维护一个庞大的索引数据库。一般的搜索引擎由网络机器人程序、索引与搜索程序、索引数据库等部分组成。 系统结构图 2搜索引擎的工作原理 第一步:爬行 搜索引擎是通过一种特定规律的软件跟踪网页的链接,从一个链接爬到另外一个链接,像蜘蛛在蜘蛛WWW 文档 网络机器人程序 建立Lucence 索引 从数据库中搜索信息 Tomcat 服务器 Lucence 索引数据库 WWW 浏览器 WWW 浏览器 JSP 网络机器人程序

机器学习研究现状与发展趋势

机器学习研究现状与发展趋势 计算机科学与软件学院 引言: 机器能否象人类一样能具有学习能力呢?1959年美国的塞缪尔(Samuel)设计了一个下棋程序,这个程序具有学习能力,它可以在不断的对奕中改善自己的棋艺。4年后,这个程序战胜了设计者本人。又过了3年,这个程序战胜了美国一个保持8年之久的常胜不败的冠军。这个程序向人们展示了机器学习的能力,提出了许多令人深思的社会问题与哲学问题。 机器学习的研究是根据生理学、认知科学等对人类学习机理的了解,建立人类学习过程的计算模型或认识模型,发展各种学习理论和学习方法,研究通用的学习算法并进行理论上的分析,建立面向任务的具有特定应用的学习系统。这些研究目标相互影响相互促进。 机器学习是关于理解与研究学习的内在机制、建立能够通过学习自动提高自身水平的计算机程序的理论方法的学科。近年来机器学习理论在诸多应用领域得到成功的应用与发展,已成为计算机科学的基础及热点之一。 机器学习是继专家系统之后人工智能应用的又一重要研究领域,也是人工智能和神经计算的核心研究课题之一。现有的计算机系统和人工智能系统没有什么学习能力,至多也只有非常有限的学习能力,因而不能满足科技和生产提出的新要求。对机器学习的讨论和机器学习研究的进展,必将促使人工智能和整个科学技术的进一步发展。 一.机器学习的发展史 机器学习是人工智能研究较为年轻的分支,它的发展过程大体上可分为4个时期。 第一阶段是在50年代中叶到60年代中叶,属于热烈时期。…> 第二阶段是在60年代中叶至70年代中叶,被称为机器学习的冷静时期。 第三阶段是从70年代中叶至80年代中叶,称为复兴时期。 机器学习的最新阶段始于1986年。 机器学习进入新阶段的重要表现在下列诸方面: (1) 机器学习已成为新的边缘学科并在高校形成一门课程。它综合应用心理学、生物学和神经生理学以及数学、自动化和计算机科学形成机器学习理论基础。 (2) 结合各种学习方法,取长补短的多种形式的集成学习系统研究正在兴起。特别是连接学习符号学习的耦合可以更好地解决连续性信号处理中知识与技能的获取与求精问题而受到重视。 (3) 机器学习与人工智能各种基础问题的统一性观点正在形成。例如学习与问题求解结合进行、知识表达便于学习的观点产生了通用智能系统SOAR的组块学习。类比学习与问题求解结合的基于案例方法已成为经验学习的重要方向。 (4) 各种学习方法的应用范围不断扩大,一部分已形成商品。归纳学习的知识获取工具已在诊断分类型专家系统中广泛使用。连接学习在声图文识别中占优势。分析学习已用于设计综合型专家系统。遗传算法与强化学习在工程控制中有较好的应用前景。与符号系统耦合的神经网络连接学习将在企业的智能管理与智能机器人运动规划中发挥作用。 (5) 与机器学习有关的学术活动空前活跃。国际上除每年一次的机器学习研讨会外,还有计算机学习理论会议以及遗传算法会议。 二.机器学习分类 1、基于学习策略的分类 学习策略是指学习过程中系统所采用的推理策略。一个学习系统总是由学习和环境两部分组成。由环境(如书本或教师)提供信息,学习部分则实现信息转换,用能够理解的形

搜索引擎论文

搜索引擎发展状态及未来趋势 【摘要】 搜索引擎包括图片搜索引擎、全文索引、目录索引等,其发展历史可分为五个阶段,目前企业搜索引擎和网站运营搜索引擎运用范围较广。在搜索引擎的未来发展中,呈现出个性化,多元化,智能化,移动化,社区化等多个趋势。 【关键词】 发展起源、索引、数据库、网站运营、未来趋势 【参考文献】 《个性化搜索引擎原理与技术》《搜索引擎的设计与实现》搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。其工作作原理分为抓取网页,处理网页和提供检索服务。抓取每个独立的搜索引擎都有自己的网页抓取程序,它顺着网页中的超链接,连续地抓取网页。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。 搜索引擎的发展起源可以追溯到第一个Gopher搜索工具Veronica。后来的搜索引擎的发展分为五个阶段。第一阶段,出现World wide Web Wanderer,用于追踪互联网发展规模。刚开始它只用来统

计互联网上的服务器数量,后来则发展为也能够捕获网址。第二阶段,出现了以概念搜索闻名的Excite以及元搜索引擎Dogpile。第三阶段,即yahoo的出现。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。Yahoo以后陆续有Google等提供搜索引擎服务,但不可否认的是,Yahoo几乎成为20世纪90年代的因特网的代名词。第四阶段,一种新的搜索引擎形式出现了,即元搜索引擎。用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。第五阶段的代表是智能检索的产生:它利用分词词典、同义词典,同音词典改善检索效果,进一步还可在知识层面或者说概念层面上辅助查询,给予用户智能知识提示,最终帮助用户获得最佳的检索效果。 搜索引擎目前包括图片搜索引擎、全文索引、目录索引、元搜索引擎、垂直搜索引擎等。全文索引引擎是名副其实的搜索引擎,国外代表有Google,国内有百度、搜狐等。它们从互联网提取各个网站的信息,建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。搜索引擎的自动信息搜集功能分为定期搜索和提交网站搜索。它的特点是搜全率比较高。目录索引,就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。与全文搜索引擎相比,目录索引有许多不同之处。首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。其次,搜索引擎收录网站时,只要网站本身

浅谈搜索引擎的研究现状

科 技 天 地 38 INTELLIGENCE ························浅谈搜索引擎的研究现状 西安外事学院计算机中心 李艳红 摘 要:文章分析了搜索引擎的发展历史及国内外搜索引擎的发展现状,采用了 对比的方法对特色搜索引擎的进行了阐述,并详尽的指出了各种搜索引擎的现状、特点及发展趋势。 关键词:搜索引擎 爬虫 网页快照 搜索引擎(Search Engine)正是帮助人们从网上检索信息的重要工具,是为了解决网上信息查询困难的问题应运而生的,它可以有效地帮助用户在网络上查找到自己需要的信息。它是在互联网产生后伴随着网上用户快速查询信息的需求的产物,即提供信息检索服务的计算机系统,检索的对象包括互联网上的站点,新闻组中的文章,软件存放的地址及作者,某个企业和个人的主页等。 当用户通过Archie 检索文件时,所要进行的全部工作就是对该数据库进行检索。尽管Archie 还不是真正的搜索引擎,但工作原理与现在的搜索引擎己经很接近,它依靠脚本程序自动搜索网上的文件,然后对有关信息进行索引,供使用者查询。1994年初,Internet 上出现了包括Lycos 在内的第一批Web 搜索引擎。第二代搜索引擎以1998年出的Google 和Directhit 为代表。它们是“根据以往用户实际访问一个网站并在该网站上所花费的时间来确定一个网站的重要性,或者根据一个网站被其他网站链接的数量来确定网站的重要性” ,“这种根据用户忠诚度的评判方法更具备客观性,因而,用户所获得的信息也就更准确”。如Directhit 以被大多数用户访问的情况认定一个网站的重要性;Google 以被其他网站链接的情况认定一个网站的重要程度。在发展过程中更强调了人的因素,主要表现在以下三个方面: (1)能利用自然语言查找信息。第二代搜索引擎可以将自然语言自动翻译成系统能理解的专业术语,进行精确查找。 (2)有判断地收集信息,根据众多网络用户行为特征来取舍信息。(3)人工分类。引入大量的人工对信息进行分类。强调人工分类的重要性。 此外,第二代的搜索引擎还有一个特点,他们只做后台技术,将技术提供给Yahoo 等门户网站。其中Google(https://www.360docs.net/doc/1d14073300.html,)是表现最为突出的。Google 于1998年9月发布测试版,是目前人们使用最广泛的搜索引擎。 Google 现为全球80多家门户和终级网站提供支持。Google 的优势是易用性和返回结果的高相关性。Google 提供一系列革命性的新技术,包括完善的文本对应技术和先进的PageRank 排序技术,后者可以保证重要的搜索结果排列在结果列表的前面。Google 还提供一项很有用的服务:“网页快照”功能。 目前,新一代的搜索引擎也己经进入了研制阶段,其最大特点就是大量智能化信息处理的引入,网络信息检索将步入知识检索和知识服务的领域。它的一个特征是能够解决文件格式问题,这就要求搜索引擎不仅能识别TXT 文件,也要能够识别PPT, Word, PDF,电子邮件等文件;另一个特征是把P2P 技术应用到网页的检索中,这样通过共享所有硬盘上的文件,目录乃至整个硬盘,用户搜索时无需通过Web 服务器,不受信息文档格式的限制,即可达到把散落在互联网上的不相关的人们关心的知识搜集起来,经过筛选,组织和分析返回给用户所需的信息。 国内目前已有很多关于搜索引擎的研究。百度搜索引擎[6]收录中文网页接近2亿,是全球最大的中文数据库。Baidu 搜索引擎的其它特色包括:网页快照,网页预览/预览全部网页,相关搜索词,错别字纠正提示,新闻搜索,Flash 搜索和信息快递搜索等。北大天 网搜索引擎是国家“九五”重点科技攻关项目“中文编码和分布式中英文信息发现”的研究成果,由北大计算机系网络与分布式系统研究室开发,有强大的搜索功能。除了WWW 主页检索外,天网还提供FTP 站点搜索(“天网文件”),为高级用户查找特定文件提供方便。同时,天网将FTP 文件分为电影和动画片,MP3音乐,程序下载,文档资源共四大类,用户可以像目录导航式搜索引擎那样层层点击,查找自己需要的FTP 文件。天网提供的服务还包括“天网目录”和“天网主题”。搜狐分类目录设有独立的目录索引,并采用百度搜索引擎技术,提供网站,网页,类目,新闻黄页,中文网址,软件等多项搜索选择。搜狐搜索范围以中文网站为主,支持中文域名。慧聪搜索引擎拥有超过2亿网页的中文信息库,提供网页,网站,新闻,地域,行业,MP3, Flash 等多种检索方式,具有互联网实时新闻搜索,高精度检索,分类查询,网站导航,企业与产品查询等功能。 目前的搜索引擎,每天使用爬虫在互联网上获取大量网页,这花去了大量的时间,对于面向大量用户的商业搜索引擎是非常合理的,但是对于只面向某一类型的网络,如校园网的搜索引擎,这无疑需要大量的计算资源和存储空间,这往往是得不偿失的。因此,对于校园网内搜索引擎,需要设计一种对资源要求低,灵活机动的方法。 参考文献: [1] 刘建国:《搜索引擎概述》,北京大学计算机与科学技术,1999年。 [2] 李晓明、刘建国:《搜索引擎技术及趋势》,《大学图书馆学报》,2000年第16期。

机器人研究现状及发展趋势

机器人发展历史、现状、应用、及发展 趋势 院系:信息工程学院 专业:电子信息工程 姓名:王炳乾

机器人发展历史、现状、应用、及发展趋势 摘要:随着计算机技术不断向智能化方向发展,机器人应用领域的不断扩展和深化,机器人已成为一种高新技术产业,为工业自动化发挥了巨大作用,将对未来生产和社会发展起越来越重要的作用。文章介绍了机器人的国内国外的发展历史、状况、应用、并对机器人的发展趋势作了预测。 关键词:机器人;发展;现状;应用;发展趋势。 1.机器人的发展史 1662年,日本的竹田近江利用钟表技术发明了自动机器玩偶并公开表演。 1738年,法国技师杰克·戴·瓦克逊发明了机器鸭,它会嘎嘎叫、进食和游泳。 1773年,瑞士钟表匠杰克·道罗斯发明了能书写、演奏的玩偶,其体内全是齿轮和发条。它们手执画笔、颜料、墨水瓶,在欧洲很受青睐。 保存至今的、最早的机器人是瑞士的努萨蒂尔历史博物馆里少女形象的玩偶,有200年历史。她可以用风琴演奏。 1893年,在机械实物制造方面,发明家摩尔制造了“蒸汽人”,它靠蒸汽驱动行走。 20世纪以后,机器人的研究与开发情况更好,实用机器人问世。 1927年,美国西屋公司工程师温兹利制造了第一个机器人“电报箱”。它是电动机器人,装有无线电发报机。 1959年第一台可以编程、画坐标的工业机器人在美国诞生。 现代机器人 有关现代机器人的研究始于20世纪中期,计算机以及自动化技术的发展、原子能的开发利用是前提条件。1946年,第一台数字电子计算机问世。随后,计算机大批量生产的需要推动了自动化技术的发展。1952年,数控机床诞生,随后相关研究不断深入;同时,各国原子能实验室需要代替人类处理放射性物质的机械。

国内外公路研究现状与发展趋势

第1章绪论 1.1我国公路现状 交通运输业是国民经济中从事运送货物和旅客的社会生产部门,是国民经济和社会发展的动脉,是经济社会发展的基础行业、先行产业。交通运输主要包括铁路、公路、水运、航空、管道五种运输方式,其中,铁路、水运、航空、管道起着“线”的作用,公路则起着“面”的作用,各种运输方式之间通过公路路网联结起来,形成四通八达、遍布城乡的运输网络。改革开放以来,灵活、快捷的公路运输发展迅速,目前,在综合运输体系中,公路运输客运量、货运量所占比重分别达90%以上和近80%。高速公路是经济发展的必然产物,在交通运输业中有着举足轻重的地位。在设计和建设上,高速公路采取限制出入、分向分车道行驶、汽车专用、全封闭、全立交等较高的技术标准和完善的交通基础设施,为汽车快速、安全、经济、舒适运行创造了条件。与普通公路相比,高速公路具有行车速度快、通行能力大、运输成本低、行车安全、舒适等突出优势,其行车速度比普通公路高出50%以上,通行能力提高了2~6倍,并可降低30%以上的燃油消耗、减少1/3的汽车尾气排放、降低1/3的交通事故率。 新中国成立以来,经过60多年的建设,公路建设有了长足发展。2011年初正值“十一五”规划结束,“十二五”规划伊始。“十一五”时期是我国公路交通发展速度最快、发展质量最好、服务水平提升最为显著的时期。经过4年多的发展,公路交通运输紧张状况已实现总体缓解,基础设施规模迅速扩大,运输服务水平稳步提升,安全保障能力明显增强,为应对国际金融危机、保持经济平稳较快发展、加快经济发展方式转变、促进城乡区域协调发展、保障社会和谐稳定、进一步提高我国的综合国力和国际竞争力作出了重要贡献。 “十一五”前4年,全国累计完成公路建设投资2.93万亿元,年均增长近16%,约为“十一五”预计总投资的1.2倍,也超过了“九五”和“十五”的投资总和。公路建设投资的快速增长,极大地拉动和促进了国民经济的迅猛发展。从公路建设投资占同期全社会固定资产总投资的比重来看,“十一五”期间基本保持在4.5%左右。 在投资带动下,公路网规模不断扩大,截至2009年底,全国公路网总里程达到386万公里,其中高速公路6.51万公里,二级及以上公路42.52万公里,分别较"十五"末增加36.4万公里、2.5万公里和9.4万公里;全国公路网密度由“十五”末的每百平方公里34.8公里提升至40.2公里。预计到2010年底,全国公路网总里程将达到395万公里,高速公路超过7万公里,分别较“十五”末增加45.3万公里与3万公里。农村公路投资规模年均增长30%,总里程将达到345万公里,实现全国96%的乡镇通沥青(水泥)路。 “十一五”期间公路的快速发展,为扩大内需、拉动经济增长作出了突出贡献。特别是2008年以来,为应对国际金融危机,以高速公路为重点,建设步伐进一步加快,“十一五”末高速公路里程将达到"十五"末的1.78倍。“十一五”期间全社会高速公路建设累计投资达2万亿元,直接拉动GDP增长约3万亿元,拉动相关行业产出

国内外研究现状和发展趋势

北京市绿化隔离带可持续经营技术及效益评价 二、项目所属领域国内外研究开发现状和发展趋势 1、由城市绿地到城市林业的发展 城市绿地是城市中一种特殊的生态系统,它是城市系统中能够执行“吐故纳新”负反馈调节机制的子系统。这个系统一方面能为城市居民提供良好的生活环境,为城市生物提供适宜的生境;另一方面能增强城市景观的自然性、促进城市居民与自然的和谐共生。它是城市现代化和文明程度的重要标志。 绿地(green space)一词,各国的法律规范和学术研究对它的定义和范围有着不同的解释,西方城市规划概念中一般不提城市绿地,而是开敞空间(Open Space),我国建国以来一直延用原苏联的绿地概念,包括城市区域内的各类公园、居住区绿地、单位绿地、道路绿化、墓地、农地、林地、生产防护绿地、风景名胜区、植物覆盖较好的城市待用地等。 尽管各国关于开敞空间(或绿地)的定义不尽相同,但它们都强调了开敞空间(或绿地)在城市中的自然属性,即都是为了保持、恢复或建立自然景观的地域。绿地作为城市的一种景观,是城市中保持自然景观,或使自然景观得到恢复的地域,是城市自然景观和人文景观的综合体现,是城市中最能体现生态性的生态空间,是构成城市景观的重要组成部分。在结构上为人工设计的植物景观、自然植物景观或半自然植物景观。绿地在城市中的功能和作用主要包括:组织城市空间的功能、生态功能(改善生态环境的功能、生物多样性保护功能)、游憩休闲功能、文化(历史)功能、教育功能、社会功能、城市防护和减灾功能。 城市绿地发展和研究进程包括:城市绿地思想启蒙阶段、城市绿地规划思想形成阶段、城市绿地理论和方法的发展阶段、城市绿地生态规划和建设阶段。 吴人韦[1]、汪永华[2]、胡衡生[3]等从城市公共绿地的起源开始介绍了国外城市绿地的发展历程,认为国外的城市绿地建设经历了从公园运动(1843~1887)、公园体系(1880~1890)、重塑城市(1898~1946)、战后大发展(1945~1970)、生物圈意识(1970年以后)等一系列由简单到复杂的城市绿地发展过程,其中“重塑城市”阶段提出了“田园城市”和城市绿带概念,绿带网络提供城区间的隔离、交通通道,并为城市提供新鲜空气。“有机疏散”理论中的城市与自然的有机结合原则,对以后的城市绿化建设具有深远的影响。1938年,英国议会通过了绿带法案(Green Belt Act)。1944年的大伦敦规划,环绕伦敦形成一道宽达5英里的绿带。1955年,又将该绿带宽度增加到6~10英里。英国“绿带政策”的主要目的是控制大城市无限蔓延、鼓励新城发展、阻止城市连体、改善大城市环境质量。早在1935年,莫斯科进行了第一个市政建设总体规划,规划在城市用地外围建立10公里宽的“森林公园带”;1960年调整城市边界时,“森林公园带”进一步扩大为10~15公里宽,北部最宽处达28公里;1971年,莫斯科采用环状、楔状相结合的绿地布局模式,将城市分隔为多中心结构。目前,德国城市森林建设已取得了让世人瞩目的成绩,其树种主要为乡土树种,基本上是高大的落叶乔木(栎类、栗类、悬铃木、杨树、核桃、欧洲山毛榉等)[4]。在绿化城

专精深搜索引擎的发展趋势完整版

专精深搜索引擎的发展 趋势 Document serial number【NL89WT-NY98YT-NC8CB-NNUUT-NUT108】

专、精、深——搜索引擎的发展趋势中国互联网络信息中心的最新数据显示:截止至2009年6月底,中国的互联网人群规模为亿,其中约%的网民使用搜索引擎,年增长率高达34%。这说明随着计算机、互联网以及其它通讯技术的不断发展,人们对从网上获得信息的依赖程度越来越高。 据iResearch公司的调查报告指出,08年国内搜索引擎用户搜索内容最多是与“学习和工作”有关的资料,占%。如此高的比例,是源于网民的文化程度较高,50%以上的网民具有大专以上文凭,故而对于专业方面的信息需求量非常大。然而现今大多使用的搜索引擎搜索出的不相干结果很多,缺乏对内容的有效评判,并且存在大量的死链接和重复链接,让用户浪费了大量的时间去查找有用的结果。如何在浩瀚的信息海洋中快速地、有效地、准确完整地找到用户所需要信息是目前网民最为关心的。 “深度搜”)的出现修正了传统意义上搜索引擎的杂乱,它更专业、搜索结果更精准、对搜索内容的挖掘更深。 专业 全新打造的高质量专业信息搜索平台“深度搜”,已收集到世界上绝大部分中英文权威性学术期刊,包括自然科学,医药卫生,工程技术,人文及社会科学等领域的数万种期刊,近亿篇文献。除此之外,还有美国专利,欧洲专利,世界专利,中国专利,以及中英文百科全书。 精确 “深度搜”抛弃现今大部分搜索引擎使用的关键词、字符串匹配技术,采用全信息匹配技术,在不同层次,用不同组合,对搜索内容进行匹配,将最相关的搜索结果排在最前, 不会漏掉任何一个相关的搜索结果。“深度搜”可以用几个字,几句话,甚至整篇文章进行搜索,对搜索

中国管理研究的现状及发展前景

徐淑英《光明日报》( 2011年07月29日11 版) 过去20多年来,中国管理学研究关注西方情境的研究课题,验证西方发展出来的理论,并借用西方的研究方法论。而旨在解决中国企业面临的问题和针对中国管理现象提出有意义的理论解释,这方面的研究却迟滞不前。围绕到底是追求“中国管理理论”(即在中国管理情境中检验西方理论)还是“管理的中国理论”(即针对中国现象和问题提出自己的理论)的争论,很多学者作出了积极探索。中国的管理学研究者应遵循科学探究的自主性原则,保持对常规科学局限性的警觉,从事既能贡献普遍管理知识,又能解决中国管理问题的研究。 国际管理学研究中的一个现象 全球化商业活动的增加,不仅使得全球化的跨国公司对管理知识的需求大大增加,而且那些处于新兴经济体(比如俄罗斯、印度和中国)中的公司,由于在国际市场上扮演越来越重要的角色,也非常渴望得到管理实践所需的知识。除了新兴经济体外,许多发达地区的管理研究也十分活跃。有学者观察到了国际学者的一种明显偏好:从主流管理学文献(基本上是基于北美,特别是美国的文献)中套用已有的理论、构念和方法来研究本土的现象。这导致了JamesMarch(詹姆斯·马奇)所认为的组织研究的“趋同化”。这个趋势是值得注意的,因为它有可能放慢有效的全球管理知识的发展速度,也会阻碍科学的进步。这样的趋势在中国也是存在的。

科学研究总是有目的的:执著于寻找真相(reality)和追求真理(truth)。科学的研究方法确保了科学家的发现是接近于真理的,这也是所有科学研究应该达到的严谨性(rigor)标准。然而对于管理学这门应用科学来说,真理本身是不够的。管理研究的第二个目标是获取有益于提高实践水平的知识,这就是管理学者应该达到的切题性(re levance)标准。但现在大部分的中国学者都是严谨有余,切题不足。 目前,套用西方发展起来的理论在中国进行演绎性研究主导了中国管理学研究领域。用这种方法进行的研究倾向于把成果发表在国际性杂志上,尤其是国际顶尖杂志。这类研究成果验证了已有理论或者对其情境性边界进行了延伸研究,说明了如何使用现有研究成果来解释一些新情境下出现的独特现象和问题。但这样的研究倾向对现有的理论发展只能提供有限的贡献,因为它的目的并非寻找对地方性问题的新的解释。这种方法也限制了对中国特有的重要现象以及对中国有重要影响的事件的理解。 笔者并不认为学者的目标就是发展新的理论,而是提请注意这一事实:绝大部分中国的研究都不约而同地采用西方已有理论来解释中国现象。这一趋势形成的原因可以从两个方面进行解释。 首先是因为缺乏先进的科学研究方法的训练和对科学目的的正确理解。一些研究者错误地认为,科学的目的是发表文章,而非寻找对重要现象的恰当理解和解释。中国学者可以很快学会如何正确使用研

相关文档
最新文档