基于本体的文本信息检索研究

基于本体的文本信息检索研究
基于本体的文本信息检索研究

●杨建林(南京大学信息管理系江苏210093)

基于本体的文本信息检索研究

摘 要:本文对如何构建基于本体的文本信息检索系统进行了探讨,并认为,利用反映概念之间关系的领域本体指导主题标引,利用反映实体之间关系的领域本体指导实体关系标引,并以本体的形式表示文档替代物和查询表达式,可以进一步提高文本信息检索系统的性能。

关键词:本体;信息检索;文本检索;标引

Abstract:The paper discusses how t o construct an ont ol ogy2based text infor mati on retrieval syste m,and thinks that if the subject indexing is based on the domain ont ol ogies describing the relati ons bet w een concep ts,the entity relati on indexing is based on the domain ont ol ogies describing the relati ons bet w een entities,and the docu ment sur2 r ogates and query exp ressi ons are described in the f or mat of ont ol ogy,the perf or mance of the text inf or mati on retriev2 al syste m will be i m p r oved.

Keywords:ont ol ogy;inf or mati on retrieval;text retrieval;indexing

1 引言

基于关键词匹配的传统文本信息检索技术对语义匹配的支持能力较差,其性能取决于用户对方法的理解,具有很大的局限性。尽管基于关键词匹配的检索技术已经经过了多次改进,但是由于没有添加语义处理方面的功能,致使检索性能没有得到根本的改善,那些没有被文字直接表述出来但隐含在文本内容中的一些重要的信息也无法被检索。

近几年,本体理论的发展和逐步成熟为信息检索技术的发展带来了新的动力,同时也为提高检索系统的查准率和查全率提供了更好的保证。作为一种有效表现概念层次结构和语义的理论和方法,本体已经被广泛应用于计算机科学和信息管理领域,并且被成功应用于构建新的智能检索系统。

基于本体的智能检索系统是基于知识的、语义上的匹配,在查全率和查准率上有更好的保证。具体表现为:利用本体,在用户提问检索式构造过程中增加语义指导,消除自然语言理解中的歧义,明确概念含义,使得构造出的提问检索式能够更加准确地反映用户的真实信息需求;使得用户能够更加准确、方便地实现扩展检索和缩小检索;加强检索系统的推理功能,在完成对信息源搜索的基础上,根据相关概念以及相关背景知识进行推理,挖掘出文本中的隐含信息,从而实现基于概念的智能检索[1]。因此,基于本体的信息检索成为一个新的发展方向。

现有的大部分关于基于本体的信息检索研究,讨论的检索对象都是W eb资源,很少涉及无结构的文本。但是,现有的信息检索系统,除搜索引擎外,大部分系统的信息源都是无结构的文本。因此,研究基于本体的文本信息检索依然具有重要的现实意义。

2 本体概念

本体是一个源于哲学的概念,原意指关于存在及其本质和规律的学说,后来被计算机科学领域引入,特指对共享概念模型所作的明确化、形式化、规范化说明,它强调领域中的本质概念,也强调这些本质概念之间的关联。某个领域的本体能够将该领域中的各种概念及概念之间的关系显性地、形式化地表达出来,从而将概念中包含的语义表达出来。

在计算机科学领域,术语“本体”是英文“Ont ol o2 gy”的中文译法。Ont ol ogy在人工智能或信息系统中的中文翻译,国内有不同的名称,如“概念集”、“应用知识体系”,“概念分类体系”,“实体论”,“本体论”、“本体模型”,“本体”、“本体簇”等。由于Ont ol ogy在英语中的新的含义也是引申来的,是一个新概念,所以出现了翻译成不同名称的现象[2]。

在具体的应用环境中如何规范化地描述本体?到目前为止,还没有统一的标准。目前有两种本体表示方法应用相对广泛,第一种是传统的四元素表示方法,第二种是较新的六元组表示法。前者源于Gruber博士的观点,后者则是2002年由新加坡南洋理工大学的Myo M yo Naing博士提出。前者在世界范围内得到了比较高的认同,但是形式

过于灵活,不易掌握。后者因为定义规范,可操作性强,受到了国内广大研究者的欢迎[3]。

四元素表示方法的基本思想是:一个本体主要由概念(Concep ts)、关系(Relati ons)、实例(I nstances)和公理(Axi om s)这4个元素组成。概念表示某个领域中一类实体或事物的集合,关系描述概念之间或某个概念的属性之间的关联,实例是概念表示的具体的事物,公理用来限制概念和实例的取值范围,包括许多具体的规则和约束。六元组本体表示方法将本体定义为{C,A C,R,A R,H, X},其中C表示概念的集合;A C表示多个属性集合组成的集合,其中每个属性集合对应于一个概念;R是一个关系集合;A R是由多个属性集合组成的集合,其中每个属性集合对应于R中的一个关系;H表示概念之间的层次结构关系;X表示公理集合,X中的元素实际上是概念、关系属性之间的一些约束条件。

3 本体在信息检索领域的应用现状

本体是一种技术,它可以在许多涉及知识表示与共享的环境下应用。由于本体具有良好的概念层次结构,并且支持逻辑推理,这使得本体在信息检索,特别是知识检索中得到了广泛的应用。

基于本体的信息检索的基本思想是:在领域专家的帮助下,建立相关领域的本体;收集信息源中的数据,并参照已建立的本体把收集来的数据按规定格式存储在元数据库中;对从用户检索界面获取的查询请求,查询转换器按照本体把查询请求转换成规定的格式,在本体的帮助下从元数据库中匹配出符合条件的数据集合;检索的结果经过处理后返回给用户[4]。

目前,国外关于基于本体的信息检索的研究比较多,相关的研究项目包括:

1)(Ont o)2Agent(基于网络代理搜索本体的本体)。它的研究目的是为了帮助用户检索到所需的、互联网上已有的本体,其中采用了一类叫做参照本体的本体。参照本体是以互联网上已有的本体为对象建立起来的本体,它保存有各类本体的元数据[5]。

2)Ont obr oker(基于本体的分布式半结构化信息获取)。它是用来处理HT ML、X ML和RDF格式的信息源和信息源语义描述的系统,提供信息检索、查询和维护支持服务,其核心是用形式化本体描述背景知识,并明确W eb 文档的语义,以便综合利用本体论的表达能力和推理机制[6]。

3)TextToOnt o。“The Se mantic W eb in One Day”[7]中介绍了一个基于本体的信息检索系统,该系统以文本的元数据和摘要为信息源,采用TextToOnt o自动构建本体,再利用得到的本体对查询表达式进行优化,以提高信息检索的效果。该系统中使用的TextToOnt o是一个采用自然语言处理技术和文本挖掘技术的工具软件,它支持本体的半自动化构建。面向不同的本体学习任务,TextToOnt o提供了一个本体工程师(Ont ol ogy Engineer),该本体工程师拥有各种算法以适应不同的本体学习任务。

4)SHOE(Si m p le HT ML Ont ol ogy Extensi ons)[8]。它是一种基于HT ML的知识表示语言,由美国马里兰大学于1996年开发成功。SHOE对HT ML进行扩展,使其能够用HT ML格式对知识进行表示。SHOE试图提供一种对信息进行标注的方法来表示知识。SHOE提供两类标签(Tag),一类用于构建各种知识本体,另一类用于标注W eb文件。SHOE利用这些特殊的标签将专用的语义数据加到W eb资源当中,以对知识进行表示。SHOE允许表示概念、概念分类以及推理规则,其推理引擎可以通过它们推理出新知识。

5)Ont oSeek[9]。Ont oSeek是基于内容从在线黄页和产品目录中进行检索的系统,把本体用作有语义信息的领域词汇表,将本体驱动的内容匹配机制与一个表示形式化系统相结合,试图将本体论和大词典库相互集成,以便提供一个可以用领域内任意词汇进行交互式语义查询的系统。

国内也有一些学者正在研究如何将本体应用于信息检索领域,但是,基于本体的信息检索还处于实验原型阶段,还没有真正进入商业化实施阶段。国内主要的相关研究包括:

1)万捷等人提出基于内容的信息检索系统,利用本体对检索需求进行语义扩充,并用文档分析器对检索文档进行过滤。

2)徐振宁等人则把本体作为信息检索系统的核心,通过构造形式化的领域本体,提出了一种将知识表示和知识处理引入互联网信息处理的方法,为互联网上半结构化数据和关系数据库提供了统一的语义模型。

3)武成岗等人也提出了基于本体和多智能主体的信息检索服务器,该系统可以利用本体协助智能主体对网络上的各类信息进行领域分类,并规范用户信息检索的模式。

4)郭祥文等人讨论了如何采用本体技术对搜索引擎进行改进[10]。改进的搜索引擎采用全文检索技术,保留了从字(或者词)到文档的倒排索引,通过增加由关键词到领域的索引,消除了关键词在语义上的歧义,支持领域分类。在检索过程中,本体用于对查询表达式进行优化,如果查询表达式中的某个词是某个本体中的一个术语,那么,系统返回这个术语在该本体中的信息,例如,

属于某个领域及该领域的定义、用法示例、相关的主题、同义词,甚至其他语种的同义词,等等。然后,用户可以根据他所关心的领域缩小检索范围,也可以重新构造查询表达式。

5)曹锐等人针对目前在网络化制造环境下制造资源检索过程中存在语义信息表达不足的问题,提出了一个基于本体的制造资源获取和智能检索系统结构。在此基础上,建立了一个多层次信息智能检索模型,并论述了语义检索相关算法,最后给出一个运行实例[11]。

总的看来,在目前的信息检索系统中,本体的主要作用包括:借助于本体,判断文档所属的领域,对文档按领域进行分类;对于用户给出的检索词,利用本体的逻辑推理功能可以判断其所属的可能领域,然后分别将该领域及其属下的相关概念与定义以本体化的形式提供给用户,能够帮助用户把未意识到的、未清晰表达的客观信息需求进一步显性化,等等。

4 基于本体的文本信息检索系统的一般模型信息检索过程涉及3个方面:用户任务(用户需求)、文献的逻辑表示(文档替代物)、相关性判断。为了提高系统的响应速度,信息检索系统一般不直接进行用户需求和文档的相关性分析,而是使用表现形式既简单又相似的需求替代物和文档替代物进行相关性匹配,其一般模型如图1所示。

图1文本信息检索系统的一般模型

文档替代物,如关键词向量,可以通过人工标引或者自动标引获得,生成之后一般不再更新;需求替代物,如查询表达式,一般由用户或者检索系统辅助构造而成。文档替代物是文档的元数据,文档类的替代物是文档类的元数据。从检索效率的角度来看,标引能显著提高全文数据库的查全率和查准率,并能缩短检索时间。检索结果可以是题名、知识、概念含义水平上的信息或全文等多种形式。

文本标引工作至少应该包含主题标引和实体关系标引两个方面,因为文本内部既包含主题信息,又包含实体关系信息,这是两类不同类型的信息,文本信息检索系统应该提供这两类信息的检索入口。

到目前为止,主题标引技术已经比较成熟,被广泛用于信息检索系统之中,实体关系标引技术还需进一步完善,笔者还没有发现以实体关系为检索入口的中文文本信息检索系统。

信息检索系统引入本体技术的一个重要目的是变关键词(或者主题词)匹配为基于语义的匹配,使系统在查全率和查准率上有更好的保证。然而,现有的基于本体的信息检索系统在标引过程中对本体的利用过于简单,只是借助于领域本体,判断文档所属的领域,对文档按领域进行分类。领域本体能否在标引过程中发挥更多的作用,有没有必要对标引功能进行相应的改造,例如,使用本体描述文档,用本体作为文档的替代物,这些都有待继续进行研究。

在标引过程中,本体技术可以发挥更多的作用。但是,应该将领域本体分为两类:一类是反映特定领域内概念之间关系的本体,简称概念关系本体;一类是反映特定领域内实体之间关系的本体,简称实体关系本体。这两类领域本体的作用不同,前者相对比较简单,用于表达概念体系,只包含纯粹的抽象概念之间的关系,例如同义关系、包含关系和实例关系等,后者相对比较复杂,用于表达一些实在的关系,例如,企业之间的兼并关系,合作关系,等等。前者用于主题标引,后者则用于实体关系的标引。

实体关系标引属于信息抽取技术,可视为信息检索技术的一个深化。在标引过程中,实体关系本体可以充当信息抽取框架。实体关系标引的过程可以按以下几个步骤进行:

1)标引系统对文本进行主题标引,识别文本中所包含的主题,并根据文本主题将文本按照领域进行归类。

2)利用文本的领域归属信息从文本中识别出命名实体。

3)利用信息抽取模板将特定的描述信息与实体联系起来,例如将与组织、人物或其他实体相关的基本信息抽取出来,并将这些信息作为实体的属性进行聚集,形成实体对象。例如对人物实体的模板元素抽取,需要信息抽取系统能够抽取出预先定义的人物的名称、职务、国籍等属性。

4)在实体识别的基础之上标注出实体之间的关系。例如职员和组织之间的关系,产品和生产企业之间的关系,以及公司和地区之间的关系,等等。

对文本信息检索系统而言,没有必要使用本体形式的文档替代物,因为文档的多个主题词之间的概念关系比较简单。文档主题词只是某些概念关系本体上的几个概念节点,用标引词向量作为文档替代物就可以了,但是,需要

标注出每个标引词所对应的一个或多个概念关系本体

(有些问题是多个领域的研究对象)。同样,相应的查询

表达式也没有必要采用本体形式。对于W eb 信息检索而言,由于信息源以HT ML 或者X ML 语言表达,是半结构化的文本,识别其中包含的各种元数据相对比较容易,元数据之间的关系也比较复杂。

因此,使用本体形式的文档替代物比使用关键词向量形式的文档替代物更加准确,描述元数据之间的各种语义关系也更加容易。同样,相应的查询表达式也应该采用本体形式。也就是说,基于本体的W eb 信息检索系统应该以本体的方式表示文档和查询,应该实现基于本体的查询和文档匹配,才能更好地实现基于语义和知识的W eb 信息检索。

因此,笔者认为,基于本体的文本信息检索系统,其一般模型应该如图2所示,基于本体的W eb 信息检索系统,其一般模型应该如图3所示。多媒体信息检索系统可以进行类似的改造

图2

基于本体的文本信息检索系统的一般模型

图3基于本体的W eb 信息检索系统的一般模型

5 结论

利用反映概念之间关系的领域本体指导主题标引,利

用反映实体之间关系的领域本体指导实体关系标引,并以本体的形式表示文档替代物和查询表达式,可以进一步提高文本信息检索系统的性能。本文提出的这些思想将在成都数图公司的D I PS 系统中实现和验证。

然而,如果采取上述方式构建信息检索系统,那么系统的复杂性、系统实现的难度都将会增加很多,有许多方面的问题需要解决,例如:如何利用领域本体集合对文档进行标引,生成文档的本体形式的替代物(即文档本体);如何利用领域本体集合生成本体形式的用户查询

(即查询本体);如何科学地度量查询本体与文档本体的

相关度;如何对本体进行索引,尽可能地保持信息检索系统的响应速度,等等。我们将在以后的工作中进行进一步的研究。□

参考文献

1 刘肖静,耿骞.Ont ol ogy 与面向概念的网络信息检索.情报

理论与实践,2004(6):638~641,568

2 常春.Ont ol ogy 在信息管理领域的研究背景.现代图书情报

技术,2003(6):4~7

3 余一娇.语义网和语义网格中的本体研究综述.htt p://

97705.x2.myrice .com /cgi 2bin /t op ic .cgi ?f orum =12&t op ic =89,2005207224

4 张红.语义网中的本体推理及其应用研究.htt p://s oftlab .

jlu .edu .cn /te mp /thesis/2004zhang hong .doc,20052062145 A r p irez J,et al .

(Ont o )2Agent :An Ont ol ogy 2based WWW

B r oker t o Select Ont ol ogies .I n :Gomez Perez A ,Benja m ins V R ,eds .Pr oceedings of the Workshop on App licati on of Ont ol ogies and Pr oble m Solving Methods .[s .

l .]:[s .

n .],1998.16~24

6 曹树金,马利霞.论本体与本体语言及其在信息检索领域的

应用.情报理论与实践,2004(6):632~637

7 Sure Y,et al .The Se mantic W eb in One Day .htt p://encarta .

bl ogchina .com /133378.ht m l,2005206214

8 Heflin J,Hendler J,Luke S .SHOE:A B luep rint for the Semantic W eb .

htt p://www .

cse .

lehigh .

edu /~heflin /pubs/s w 2

book03.pdf,2005207221

9 Guarino N,Mas ol o C,Vetere G .Ont oSeek:Content 2based Ac 2

cess t o the W eb .I EEE I ntelligentSyste m s,1999(3):70~8010 郭祥文等.基于本体论的信息检索.云南大学学报(自然科

学版),2003(4):324~327

11 曹锐,陈刚,蔡铭.基于本体的网络化制造资源检索.计算

机工程,2004(3):143~146

作者简介:杨建林,男,博士,副教授。发表论文19篇。

主要研究方向:数据挖掘、信息检索等。

收稿日期:2006-02-23

资源检索技术

资源检索技术 摘要:信息时代信息膨胀,资源的种类和形式多种多样。不同类型的资源,搜索和检索的技术也有不同,本文整合了不同类型的信息资源的搜索和检索技术,其应用领域及特点。一、信息检索技术 (一)、含义:指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。狭义的信息检索就是信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程,也就是我们常说的信息查寻。 (二)、信息检索的对象 1、文献检索:是以文献(包括题录、文摘和全文)为检索对象的检索。可分为全文检索和书目检索两种。 2、数据检索:是以数值或数据(包括数据、图表、公式等)为对象的检索。 3、事实检索:是以某一客观事实为检索对象,查找某一事物发生的时间、地点及过程的检索。 (三)、检索手段 1、手工检索:指利用印刷型检索书刊检索信息的过程,优点是回溯性好,没有时间限制,不收费,缺点是费时,效率低。 2、光盘检索:光盘在文献信息领域的应用对信息的存储介质(纸、磁介质、缩微胶片等、CD-ROM为代表的光盘技术具有易用、存储容量大等独特的特点并很快发展成为一种新的检索系统——光盘检索系统,光盘数据库检索系统以它存储数据量大、操作简单、检索效率高、成本低廉、运行环境要求简单等特性。 3、联机检索:用户借助通讯线路,通过终端设备同检索系统联机所进行的文献与数据检索。这种计算机系统一般设有较多的数据库,而一个数据库可以包括几十万、几百万条文献的书目款目或科技数据。每检索一个课题只需数十秒钟,检索到的题录、文摘或数据还可立即在终端上显示和打印出来。联机检索的实现,对于图书馆传统的收集、查找与提供资料的方式来说,是一次革命。世界上已投入运行的联机情报系统很多。 4、网络信息检索:也即网络信息搜索,是指互联网用户在网络终端,通过特定的网络搜索工具或是通过浏览的方式,查找并获取信息的行为。 计算机检索、网络文献检索将成为信息检索的主流。 (四)应用领域 1、传统的图书情报检索,如图书馆信息系统; 2、互联网信息检索。 (五)、特点 1、与人们的思维习惯一致 2、表达直观清晰、结构化强 3、方便扩检和缩检 4、易于计算机实现 二、图像检索技术 (一)、含义:从20世纪70年代开始,有关图像检索的研究就已开始.CBIR属于基于内容检索(Content-based Retrieval,简称CBR)的一种,CBR中还包括对动态视频、音频等其它形式多媒体信息的检索技术。 在检索原理上,无论是基于文本的图像检索还是基于内容的图像检索,主要包括三方面:一

信息检索报告模板

江苏理工学院 信息检索报告 年级专业 2010级计算机科学与技术 学号 10821219 姓名刘悦 指导老师李卫峰

计算机网络系统攻击及防护方法 一、课题分析: 2003年1月25日对于Intemet来说是灾难的一天,从北京时间当天上午开始,国际互联网在全球范围内遭受不明病毒攻击,网络服务大面积中断,许多商务网站和ISP 损失惨重;预计全球至少有22 000个系统遭到了攻击,具体的损失暂时无法估计??。该病毒的机理已经基本查清,这是一种专门针对微软SQL Server 2000的1434端口缓冲区溢出漏洞对其服务进行攻击的蠕虫病毒。该病毒暂定名为“Win32.SQLExp.Worm”或“蠕虫王”。此次灾难再次向我们敲响警钟,正如赛门铁克的高级经理奥利佛一弗里德里希所说:“互联网仍然不是很稳定”。若疏与管理和防范,网络灾难将给我们造成巨大的损失。并且,随着世界对互联网的依赖程度增加,损失会进一步增大。所以正确了解网络型病毒以及关于计算机网络安全的相关知识是非常重要的。本作业利用自己这学期所学的文献检索课的知识,检索了国内有关网络型病毒的种类、特点以及传播途径,和相关网络安全维护方面的文献,经初步整理给出一篇肤浅的文献综述,有望许老师给予指正。 二、编制检索策略: (一)选用的检索工具(系统): ?中国期刊网全文数据库(CNKI) ?万方学术期刊全文数据库 ?超星电子图书 (二)检索时间范围: 2013年—2008年 拟定检索词(3~5个): 计算机网络安全攻击防护 (三)编制检索式: ?主题=计算机网络 and 攻击 and主题=计算机网络 and 防护 从2008到2013年 来源类别:全部期刊 SCI来源期刊 EI来源期刊核心期刊 CSSCI 说明所选检索工具系统的类型(如:目录、索引、文摘……),写出原文获得的途径:?检索工具系统的类型是:机读型检索工具。

文献检索报告 范例

《教育科学研究方法》文献检索报告 院(系):音乐学院 专业:音乐学 姓名:伊力帕尔.斯干旦 学号:20142301141006 新疆师范大学 2015年05月24日

一、检索课题名称:(中、英文) 中国声乐的历史发展及教育影响 The historical development and educational impact of the Chinese vocal 二、课题分析 1、简述该课题的意义、研究的历史、现状、趋势。 随着我国国力日益增强,中国文化对世界的影响也越来越大。以中国的声乐艺术而言,近些年来,我们的艺术团体和个人,以我们民族精彩的声乐艺术,昂首挺胸地跨入国际最高级别的艺术中心或剧场:维也纳金色大厅宋祖英独唱音乐会、吴碧霞亚洲巡回独唱音乐会、《和谐之声》谭晶维也纳金色大厅独唱音乐会……,向世界各国展示我们古老悠久的文化;大众化的“中华情”栏目、“同一首歌”栏目、“梨园春”栏目(带着我国多种戏曲名角新秀,赴南美洲巡回演出)等纷纷走出国门;在各类国际声乐比赛上,也经常能看到我国的青年声乐才俊摘金夺银的好消息,还有一些歌唱家成为外国专业剧团的主角或职业演员。这些都表明了我国现代声乐艺术取得了长足的发展。但我们不能因此盲目乐观,审视我国的声乐现状,还存在许多问题和一些认识上的误区,因为严格意义上的我国现代声乐艺术教育教学体系的建立还不足百年,只有清醒地认识到我们的问题所在,才能促进我国声乐艺术的发展。 我国现代专业声乐艺术教育教学体系从上世纪20年代创立,历经近百年的发展和几代声乐家、教育家的努力,已基本形成了体系。但是我国声乐艺术教育教学人才培养的标准与方向发展得很不均衡,或者说多数院校的声乐教育者还不明确应当培养什么样的声乐人才,还没有建立一套科学的声乐艺术教育教学体系。如一些专业音乐院校研究学习西方古典音乐的师生,以能否在国际上拿奖为第一目标,以唱外国声乐作品而自傲,而对如何唱好中国声乐作品研究较少;学习民族声乐的师生,民族自信心不够足,视野不够宽,常有低人一等的感觉。非音乐院校中声乐专业学生选习西方声乐艺术的,由于种种原因,只能蜻蜓点水唱些皮毛;选学民族声乐的学生,多以当红歌星为榜样,也只能囫囵吞枣,唱个大概,深度精度都不够。现代流行歌唱艺术,还未形成完整的教育体系,处于说不清和摸索的状态。传统的戏曲、民歌教育教学在现代社会发展条件下,如何继承、发展、创新,特别是如何培养年轻一代热爱民族声乐艺术,学习演唱民族声乐艺术,也存在着不足。虽然这几年相当部分的年轻人对我国传统的民族声乐艺术已开始有了喜爱的苗头,但还有教育体系的问题,也有宣传导向的问题。如果自己民族的下一代都不喜爱自己民族声乐艺术的传统,走向世界肯定是空话。

基于本体的文本信息检索研究

●杨建林(南京大学信息管理系江苏210093) 基于本体的文本信息检索研究 摘 要:本文对如何构建基于本体的文本信息检索系统进行了探讨,并认为,利用反映概念之间关系的领域本体指导主题标引,利用反映实体之间关系的领域本体指导实体关系标引,并以本体的形式表示文档替代物和查询表达式,可以进一步提高文本信息检索系统的性能。 关键词:本体;信息检索;文本检索;标引 Abstract:The paper discusses how t o construct an ont ol ogy2based text infor mati on retrieval syste m,and thinks that if the subject indexing is based on the domain ont ol ogies describing the relati ons bet w een concep ts,the entity relati on indexing is based on the domain ont ol ogies describing the relati ons bet w een entities,and the docu ment sur2 r ogates and query exp ressi ons are described in the f or mat of ont ol ogy,the perf or mance of the text inf or mati on retriev2 al syste m will be i m p r oved. Keywords:ont ol ogy;inf or mati on retrieval;text retrieval;indexing 1 引言 基于关键词匹配的传统文本信息检索技术对语义匹配的支持能力较差,其性能取决于用户对方法的理解,具有很大的局限性。尽管基于关键词匹配的检索技术已经经过了多次改进,但是由于没有添加语义处理方面的功能,致使检索性能没有得到根本的改善,那些没有被文字直接表述出来但隐含在文本内容中的一些重要的信息也无法被检索。 近几年,本体理论的发展和逐步成熟为信息检索技术的发展带来了新的动力,同时也为提高检索系统的查准率和查全率提供了更好的保证。作为一种有效表现概念层次结构和语义的理论和方法,本体已经被广泛应用于计算机科学和信息管理领域,并且被成功应用于构建新的智能检索系统。 基于本体的智能检索系统是基于知识的、语义上的匹配,在查全率和查准率上有更好的保证。具体表现为:利用本体,在用户提问检索式构造过程中增加语义指导,消除自然语言理解中的歧义,明确概念含义,使得构造出的提问检索式能够更加准确地反映用户的真实信息需求;使得用户能够更加准确、方便地实现扩展检索和缩小检索;加强检索系统的推理功能,在完成对信息源搜索的基础上,根据相关概念以及相关背景知识进行推理,挖掘出文本中的隐含信息,从而实现基于概念的智能检索[1]。因此,基于本体的信息检索成为一个新的发展方向。 现有的大部分关于基于本体的信息检索研究,讨论的检索对象都是W eb资源,很少涉及无结构的文本。但是,现有的信息检索系统,除搜索引擎外,大部分系统的信息源都是无结构的文本。因此,研究基于本体的文本信息检索依然具有重要的现实意义。 2 本体概念 本体是一个源于哲学的概念,原意指关于存在及其本质和规律的学说,后来被计算机科学领域引入,特指对共享概念模型所作的明确化、形式化、规范化说明,它强调领域中的本质概念,也强调这些本质概念之间的关联。某个领域的本体能够将该领域中的各种概念及概念之间的关系显性地、形式化地表达出来,从而将概念中包含的语义表达出来。 在计算机科学领域,术语“本体”是英文“Ont ol o2 gy”的中文译法。Ont ol ogy在人工智能或信息系统中的中文翻译,国内有不同的名称,如“概念集”、“应用知识体系”,“概念分类体系”,“实体论”,“本体论”、“本体模型”,“本体”、“本体簇”等。由于Ont ol ogy在英语中的新的含义也是引申来的,是一个新概念,所以出现了翻译成不同名称的现象[2]。 在具体的应用环境中如何规范化地描述本体?到目前为止,还没有统一的标准。目前有两种本体表示方法应用相对广泛,第一种是传统的四元素表示方法,第二种是较新的六元组表示法。前者源于Gruber博士的观点,后者则是2002年由新加坡南洋理工大学的Myo M yo Naing博士提出。前者在世界范围内得到了比较高的认同,但是形式

文献检索作业3

第一部分: 1.截止到2011年,全国研究生培养机构共多少所?1020 其中高等院校(618 )所; 科研机构( 402)所。 2.2010年全年研究生教育招生(5 3.8万)人,在学研究生(153.8万)人,毕业生 (38.4万)人。普通高等教育本专科招生(661.8万)人,在校生(2231.8万)人,毕业生(575.4万)人。 3.“信心比黄金和货币更重要”是谁说的?温家宝 4.胡锦涛出生日,出生地,毕业学校。1942年12月生,安徽绩溪人,清华大学 5.光明网号称什么?(9字)知识分子的网上家园 第二部分 1. 请在五分钟内向我推荐一款5000以内的笔记本电脑,要求:轻薄,重量在2kg以内,酷睿双核CPU,2G内存。 联想V360A-ITH(380) 2. 截止到2010年,我国共有正规出版的图书(301719)种,期刊(9851)种,报纸(1937)种。你是在哪里找到这些数据的?请将检索步骤描述如下: 到国家统计局找数据统计-→在找教育科技和文化→再找全国图书,期刊,报纸出版情况-→下载表格。 3. 2009年,我国国民总收入是(34346 4.7亿元),山东省城镇居民消费水平是(12012.73),位居全国(10)位。 4. 我国情报学硕士培养单位有哪些?山东省有哪些? 北京大学,中国人民大学,北京航空航天大学,北京理工大学,中国农业大学,北京协和医学院,北京师范大学,中国科学院研究生院,中国科学技术信息研究所,中国农业科学院,中国中医科学院,中国人民解放军军事医学科学院,南开大学,天津大学,天津师范大学,河北大学,山西大学,山西财经大学,中国医科大学,吉林大学,东北师范大学,黑龙江大学,同济大学,上海交通大学,华东理工大学,华东师范大学,上海大学,上海社会科学院,第二军医大学,南京大学,苏州大学,南京航空航天大学,南京理工大学,河海大学,江苏大学,南京农业大学,浙江大学,安徽大学,安徽财经大学,福州大学,南昌大学,山东科技大学,青岛科技大学,济南大学,山东理工大学,郑州大学,武汉大学,华中科技大学,华中师范大学,湘潭大学,中南大学,中山大学,汉南师范大学,西南大学,四川大学,西南科技大学,云南大学,西安电子科技大学,第四军医大学,兰州大学 山东: 山东科技大学,青岛科技大学,济南大学,山东理工大学

期刊信息检索作业

期刊信息检索作业 1.使用CNKI或维普的期刊导航,查找你所在专业的2种核心期刊,写出刊名、主办单位、ISSN号和CN号。 1)刊名:财会月刊:会计版;主办单位:武汉出版社;ISSN号:1004-0094;CN号:42-1290/F 2)刊名:财务与会计;主办单位:国家财政部;ISSN号:1003-286X;CN号:11-1177/F 2.查找《计算机集成制造系统》的主办单位、出版地、出版周期、ISSN号。 主办单位:兵器工业集团公司、出版地:北京、出版周期:月刊、ISSN号:1006-5911 3.请判断《外国文学研究》是否为SCI的来源刊?如果是,请查找出该刊的主办单位、刊期及出版地。是;主办单位:华中师范大学;刊期:双月刊;出版地:湖北 4. 请在CNKI中国学术期刊网络出版总库中利用高级检索查找本专业任一篇相关文献,并写出它的参考文献、共引文献、相似文献以及同行关注文献的第一条记录。 《烟台万华全面预算管理信息化的实施与启示》 参考文献:《完善团场全面预算管理体制的探讨》 共引文献:《基于Hyperion系统的企业全面预算管理体系构建》 相似文献:无 同行关注文献:无 5.利用中国期刊全文数据库的期刊导航功能,检索出你所在专业的核心期刊,写出2本期刊的刊名。《会计·信息·文化》、《中国企业环境会计信息披露模式研究》 6.检索作者为“马费成”的文章有多少篇,匹配方式选择“精确”,查询范围选择“图书情报与数字图书馆”,并在此检索结果中检索主题为“信息经济”的文献有多少篇。 有63篇;主题为“信息经济”的文献有9篇

7. 检索主题为“高层建筑”的文献有多少?并在此检索结果中利用二次检索查找作者单位为“中国矿业 大学”的文献有多少? 题为“高层建筑”的文献有50842;作者单位为“中国矿业大学”的文献有44 8.检索作者为“马海群”,并且主题中含有“著作权”的文献有多少篇。 文献有:33篇 9. 如果希望得到的文献是国内较高水平的研究成果,通过《中国期刊全文数据库》的“基金项目字段”进行检索可能是较好的选择。请检索2006年以来国家社会科学基金项目的有关经济与管理类的所有论文,并在结果中以刊名《管理世界》进行检索,写出检索记录数。(可利用分类目录联合检索) 进行检索可能是较好的选择。请检索2006年以来国家社会科学基金项目的有关经济与管理类的所有论文,并在结果中以刊名《管理世界》进行检索,写出检索记录数。(可利用分类目录联合检索)检索记录数:17 10.请利用《中国期刊全文数据库》,检索2000—2009年我校教师发表在核心期刊上的论文数量。 论文数量:33 11.请利用《中国期刊全文数据库》,在“电子技术及信息科学辑”类目中检索2003至2004年间来自核心期刊的“篇名”中含有“Web信息检索技术”、“作者”是“黄崑”的所有文献。抄录论文篇名及论文出处(中文刊名)并下载保存,利用OCR文字识别功能将摘要复制到下面。】 文篇名:《Web信息检索技术及研究进展》; 论文出处:现代图书情报技术 【摘要】介绍了Web信息检索发展的背景,并结合相应的技术,综述了Web信息检索主要技术及研究进展,最后总结了其未来的发展趋势。 12.你所在的院系是_________________________,请通过《中国期刊全文数据库》检索自己学院的教师2008-2012年发表的一篇专业论文,请从细览窗口拷贝出这篇论文的篇名、作者、作者单位、刊名和年份,复制到下面。 篇名:《浅谈开放教育数学教学改革》;作者: 黄志坚;作者单位: 广州市广播电视大学花都分校;刊名: 广州广播电视大学学报;年份: 2010年 05期

文献检索课程论文范文1

“案例教学”在现代文献检索课中的应用 Abstract:a literature search was the students must master a skill,along with the development of communication and computer technology,the teaching of literature retrieval course facing many new challenges.This article mainly discusses"case teaching"in the course of information retrieval in the specific application. 摘要:文献检索是大学生们必须掌握的一项技能,随着通讯和计算机技术的发展,文献检索课的教学面临着许多新的挑战。文章主要探讨了“案例教学”在文献检索课程中的具体运用。 关键词:案例教学文献检索教学改革 文献检索课是一门以介绍各种文献信息资源的查找方法和技巧为主要内容的课程,要求学生掌握获取信息文献、解决问题的能力,为学习、科研、社会生活中的现实问题服务。随着人类社会进入信息时代,新的信息技术、网络信息资源、电子出版物的大量涌现,对读者自如地检索和利用各种(载体)文献信息的能力提出了很高的要求,因此,积极探索文献检索课教学新方法,培养和提高学生的检索信息、获取文献的能力,具有现实意义。 1 教学改革的意义 以往的文献检索教学方式,主要采取逐个讲解文献数据库,向学生灌输具体的检索方法及检索技巧。相对来说这是一种比较枯燥的学习方法,学生的学习热情不高,缺乏信息意识和学习兴趣。随着通讯技术和数据库技术的不断发展,专业文献数据库越来越多,已经无法也没有必要像以前那样对数据库进行逐个逐个地讲解[1];另外,信息爆炸和信息饥饿之间的矛盾要求学生具有更高的信息筛选能力。所以,现代文献检索的教学目的,就是要培养学生综合利用信息的能力以及掌握一定的信息筛选和分析能力,使学生成为一个具有信息素质的人,能有效地查寻、评价和利用信息,并具备终生学习的能力。 据此,现有的教学方式必须进行改革,目的就是为了把枯燥的教学内容用更加生动的形式表现出来,激发学生学习的积极性、主动性、开放性和创造性,从而最终提高学生文献检索和利用的能力。笔者结合对本校商学院学生的文献检索教学工作,不

搜索引擎索引技术

计算机新技术论文 论文题目:搜索引擎索引技术 课程名称:计算机新技术 专业: 班级: 学号: 姓名:

搜索引擎索引技术 摘要:近期两类国内搜索引擎技术的研究状况:爬虫系统性能优化技术研究及高级文件搜索引擎核心技术研究。爬虫系统性能优化侧重于:对爬行方式的优化实现海量信息源的高效索引;对URL 数据库存取算法的优化提高用户检索的响应速度。高级文件搜索引擎研究是通过对字符串匹配的扩展、属性过滤的扩展、查询结果优化排序、输出结果的优化选择等7 种核心技术的有效结合,丰富了文件搜引擎的功能。 关键词:互联网搜索引擎爬虫技术检索技术 搜索引擎作为网络信息搜寻的工具,它以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务。早期的搜索引擎将互联网中的资源服务器做为搜索的目标,并将收集的数据按概念进行分类,用户从分类引导中索取所需的信息资源。随着网络资源成几何量级增长, 这种方式很快就被淘汰。1994年,Spider 程序被应用到索引程序中,Yahoo 、Google等相继出现,搜索引擎技术在应用和性能方面得到长足进步。但至今,功能再强大的搜索引擎都仍然存在信息丢失、招回率不高、精确率不高等问题。用户需要更快、更准、更方便、更有效的查询服务成为搜索引擎技术发展研究追求的目标。2003 年3 月“全国首届搜索引擎和网上信息挖掘学术研讨会”在北京大学举行,该会收录论文30篇,基本反映了当前国内研究状况及进展,本文将其中最具代表性的Igloo1. 2 版网络搜索引擎和天网FTP 搜索引擎关键技术的研究状况做一介绍。 现在的数据库通常只是将信息简单地数字化和有序化,无法根据各类读者的需要组合成特定的知识体系。怎样让读者在众多信息源中迅速、直接选中自己所要检索的相关信息,能不能将信息整理、筛选,划分成许多类别分明、有特色的“知识块”,以利于读者使用呢? 知识仓库的出现,为我们解决相关问题提供了有效的技术手段。20 世纪90 年代,西方管理学家提出了知识管理的概念,认为采用现代信息技术和手段将信息加工整理成为知识,并对这些知识按照某种知识结构进行有效的管理,形成具有规定使用功能的数据仓库,也就是知识仓库。数字图书馆应用系统是进行数字化建设及整合各类数字资源的基础平台,它支持对知识和数字资源的采集、加工、处理、存储、归档、组织、发布和利用等全过程。知识仓库是数字图书馆资源建设的核心内容之一。随着信息数字化进程的加快,图书馆的工作重心开始向数字信息的描述、管理和服务转移。利用现代信息技术将更多的特色资源和常用资源数字化,通过DC 元数据的应用,可以对知识资源实现横向和纵向整合,通过建立DC、MARC 等多种元数据的关联,并以XML 结构的RDF 资源描述体系封装整合多种元数据,实现对数字资源的综合整合,最终实现文本、图像、音频、视频等不同媒体,图书、期刊、会议录、学位论文等不同类型,书目、文摘、索引、引文、综述、评论、全文等不同级次资源的链接,建立起文献、机构、人

§案例1信息检索作业

§案例1-1明确选题来源和方法 §1设定选题情景 恰逢我校一位政治学院的教师请我帮助收集“网络德育”研究发展情况的需求,他希望能通过文献检索帮助找到该方向下可写的研究选题。 §2明确检索选题方法 结合应用浏览发现法和追溯检索法。在实践操作中,根据检索中的情况选择综合应用漏斗式、喇叭式和管道式追溯检索法帮助拓展选题的思路。 本书结合浏览发现法和追溯检索法,帮助找到研究热点、文献空白、学科融合(见本书第2-7章分步讲解);在“7.2检索拓展选题”中讲解检索获取现实实践、规划已有、学术争鸣选题的方法。 §案例2-1九问形成初步检索需求 §研究主题:网络德育 §1九问检索主题 一问概念分类: 1、利用CNKI“学术定义”得到相关“网络德育”的定义,这里选取其中的两条: (1)网络德育就是指利用信息、网络以及信息技术,通过局域网(LAN)和广域网(WAN)开展的一系列德育活动。 (2)网络德育是指发挥网络优势,对学生进行的政治教育、道德教育、法制教育和人文教育。 2、利用《中图法》检索得到德育的中图分类号D648、德育所在的学科知识层级关系为: “政治、法律> 中国政治> 思想政治教育和精神文明建设> 道德教育”。 二问检索目的:了解该领域总体发展研究的现状与趋势,找到此主题下的一个比较热点的研究方向,确定论文的题目。注重资料的全面性、经典型、新颖性,即要求检索全面、经典、新颖的文献。 三问存储形式:主要是网络型,利用数据库。 四问加工深度:全文、文摘、三次的教科书、字词典等。

五问出版类型:期刊、图书、课件、学位论文。 六问检索对象:有关网络德育研究的文献、事实。 七问时间空间:有研究以来的全世界相关研究,要找到研究的主要学科、国家、期刊、作者、论文群,其中以中国的研究状况为主。 八问数量语种:总体的文献数量分布及趋势,需要下载阅读的文献总量控制在20篇以内,大概中文10篇,英文为10篇。语种为中文、英文。 汉英词典将“网络德育”译为network moral education、moral education based on the network、online moral education、moral education;利用CNKI翻译助手找到相关翻译为:network moral education、internet moral education、online moral education、network moral。综合得到网络德育英文表达为:network moral education、internet moral education、online moral education。 九问结果质量。找到高引用率的期刊、高引用率的前5作者;英文期刊最好为SSCI 来源期刊,中文为核心期刊、CSSCI源刊;论文最好为位列被引用率较高的前10的论文。 §2形成初步检索需求 检索需求包括:了解该领域总体发展研究的现状与趋势,找到此主题下的一个比较热点的研究方向,确定论文的题目。注重资料的全面性、经典型、新颖性,即要求检索全面、经典、新颖的文献。利用数据库、全文、文摘、教科书、字词典;期刊、学位论文;统计数据、事实;主要学科、国家、期刊、作者、论文分布,其中以中国的研究状况为主;总体的文献数量分布及趋势,20篇以内(大概中文10篇,英文为10篇)。高引用率的期刊、高引用率的前5作者;论文最好为位列被引用率较高的前10的论文。 §案例3-1 选择工具与功能 §研究主题:网络德育 第2章需求提问分析得到的检索目标是:了解该领域总体发展研究的现状与趋势,找到此主题下的一个比较热点的研究方向,确定论文的题目。注重资料的专业性、全面性、经典型、新颖性,即要求检索全面、经典、新颖的文献。 检索需求包括:利用数据库、全文、文摘、教科书、字词典;期刊、学位论文;统计数据、事实;主要学科、国家、期刊、作者、论文分布,其中以中国的研究状况为主;总体的文献数量分布及趋势,20篇以内(大概中文10篇,英文为10篇)。高引用率的期刊、高引

信息检索论文范本

信息检索结课论文 题目:网络信息资源检索、技巧及问题研究学院:艺术与设计学院 专业:多媒体技术动画 学生姓名:****** 学号:*********** 授课教师:李凤英

收稿日期: 2004-01-12 基金项目:国家自然科学基金项目(2002A1030405) 作者简介: ******(1975-),男,安徽马鞍山人,桂林电子科技大学硕士生,主要研究方向为移动通信理论与技术。 网络信息资源检索、技巧及问题研究 ****** (桂林电子科技大学 艺术与设计学院,广西 桂林 541004) 摘 要 :互联网已经成为全球最大的信息资源库,这对于网络信息资源的检索提出了更高要求从网络信息资源的发展及探讨检索的意义入手,分析网络信息资源检索工具的类型内容和作用,探讨网络信息资源检索的若干技巧,指出网络信息资源在检索过程中存在着诸如信息质量网络检索工具信息用户等方面的问题,并提出了相应的解决对策,重点为网络用户介绍了一些常用的网络信息检索途径方法和技巧。 关键词:网络信息资源;检索途径;检索方法;检索技巧 中图分类号:G354 文献标识码.A Techniques and problems of the network information resources retrieval ****** (College of art and design of Guilin University of Electronic Technology, Guangxi Guilin 541004) Abstract: the Internet has become the world's largest information resource database, theretrievalof network information resources put forward higher requirements from the development of network information resourcesandto explorethe significance ofanalysis of the types of retrieval,content and function of the network information resource retrieval, researches on Techniques of network information resource retrieval, and points out that network information resources in the the retrieval process such as the existence of information quality of network information retrieval tools users and other issues, and the corresponding countermeasures are put forward, mainly introduces the retrieval methods and skills of some commonly used network information for Internet users. Keywords: network information resources; search; retrieval; Search Tips 1.网络信息资源及检索 网络信息资源是指以电子数据形式的文字图像、声音、动画等,以光磁等非纸质为载体存储,通过网络和计算机等方式再现的信息资源。或者说,是网络和计算机交流 利用所有

2016医学文献检索作业完整版

2016年级科学学位硕士研究生班作业 1、对照ACRL2006年《科学、工程和技术领域信息素养标准》写出自己目前具备的信息素养,哪些是本次课程学习需要达到的信息素养。 (对照三级指标每小项分别注明具备、课堂或者长期学习) 标准一:有信息具有信息素养的学生能确定所需信息的性质和范围 1、定义和描述信息需求: a. 识别并/或能对研究课题或其他信息需求(如指定的实验室活动或项目)进行关键词重述或转换。(课堂学习) b. 向教学人员或专家咨询研究主题、研究项目或实验等问题的合理性。(具备) c. 草拟一个论题或假设,并根据信息需求列出相关问题。(具备) d. 通过浏览广泛的信息源来熟悉课题。(具备) e. 限定或修改信息需求以抓住重点。(具备) 2、可找到多种类型和格式的信息来源: a. 确定信息源的目标和受众。(例如:大众信息 vs.学术信息、当前信息 vs.历史信息、外部信息v s.内部信息、一次文献v s.二次文献vs.三次文献)。(课堂学习) b. 将专家和其他研究者作为信息源。(具备) c.识别并区分各种格式(例如多媒体、数据库、网站、数据集、专利、地理信息系统、三维技术,公开文件报告,音视频报告、书籍、图表、地图等)存在的潜在信息源的价值和不同之处。(课堂学习) d.认识到信息可能需要从一次文献或实验的原始数据中析出。(具备) e.认识到各种潜在有用的信息数据可能属于保密的、限制访问的或在线免费使用的。(具备) f. 认识到这些潜在有用的信息可能需要特定的数据管理经验并了解生产信息的组织结构。(课堂学习) 3、具备学科领域文献的应用知识并了解其产生过程: a.了解科技相关信息是如何正式或非正式一产生、组织以及传播的。(课堂学习) b.认识到学科中一次、二次、三次文献源的不同重要性。(课堂学习) c.知晓该领域的行业协会及其产生的文献。(长期学习) d.了解本学科领域的特殊文献源知识,如手册、小册子、专利、标准、材料/设备规格说明,当前的规章制度,工业常用参考资料、工业生产方法及实践手册、产品资料等。(长期学习) e.认识到知识可按学科分类,并考虑到复合学科可能会影响到信息获取方式,同时,其它学科文献也可能与信息需求相关。(具备) f. 认识到档案信息的价值以及在不同学科专业中的用途和重要性,并认识到信息长期保存的重要性。(具备) 4、权衡获取所需信息的成本与收益: a.确定所需信息的可用性,并决定是否扩大检索范围以查寻本地馆藏以外的信息。如咨询同事、独立信息经纪人、行业专家或顾问,以及利用馆际互借服务或附近的图书馆或信息中心等。(课堂学习) b.认识到获取信息需要付出的时间和费用。(具备) c.拟定一份现实可行的信息获取总体规划和时间表。(长期学习)

信息检索作业

信息检索 学院机电工程学院________ 专业机械制造及其自动化 学生姓名___________ 李海龙____________ 学号152080201016 _____________

1.写出目前我国国内的主要文献传递服务机构,阐述其主要特点及功能。 (1)中国高等教育文献保障系统(CALIS),中国高等教育文献保障系统(China Academic Library & Information System,简称CALIS),是经国务院批准的我国高等教育“ 211工程”“九五” “十五”总体规划中三个公共服务体系之一。CALIS的宗旨是,在教育部的领导下,把国家的投资、现代图书馆理念、先进的技术手段、高校丰富的文献资源和人力资源整合起来,建设以中国高等教育数字图书馆为核心的教育文献联合保障体系,实现信息资源共建、共知、共享,以发挥最大的社会效益和经济效益,为中国的高等教育服务。 特点:CALIS采用的分布式文献服务传递,CALIS管理中心设在北京大学,下设了文理、工程、农学、医学四个全国文献信息服务中心,华东北、华东南、华中、华南、西北、西南、东北七个地区文献信息服务中心和一个东北地区国防文献信息服务中心。 (2)国家科技图书文献中心(NSTL,国家科技图书文献中心(NSTL 是根据国务院领导的批示于2000年6月12日组建的一个虚拟的科技文献信息服务机构,成员单位包括中国科学院文献情报中心、工程技术图书馆(中国科学技术信息研究所、机械工业信息研究院、冶金工业信息标准研究院、中国化工信息中心)、中国农业科学院图书馆、中国医学科学院图书馆。网上共建单位包括中国标准化研究院和中国计量科学研究院。中心设办公室,负责科技文献信息资源共建共享工作的组织、协调与管理。

文献检索作业范例

文献检索作业送给需要的人,绝对原创 【特别是化学类专业】 新型纤维素溶剂的设计开发/溶解机制 学生姓名:…….(…………专业) 班级:………..学号:………… 完成时间:2010年11月08日 目录 1.课题分析 (3)

2.检索策略 (3) 2.1 选择检索工具 (3) 2.2 选择检索词 (4) 2.3 拟定检索式 (4) 3.检索步骤及检索结果 (4) 3.1 谷歌搜索引擎 (4) 3.2 超星电子图书 (5) 3.3 中国期刊全文数据库(CNKI) (6) 3.4 中文科技期刊数据库(VIP) (9) 3.5 万方数字化期刊全文数据库 (11) 3.6 国家知识产权局专利数据库 (12) 4.检索效果评价 (13) 5.文献综述 (15) 1.课题分析 我国正处在溶剂法纤维素纤维工程化研究的关键时刻,但尚存在很多问题。例如:国家虽然已经把溶剂法纤维素纤维列入了纺织业的重点发展方向,但其重大意义还

没有得到普遍认同;要完成这样重大的攻关项目需要多个机构和企业的共同努力,但目前国内在这一领域严重缺乏合作机制,虽然涉足此项工作的单位不下20个,但多数属于重复劳动,很少触及到工程化放大的研究,尤其缺乏对大型关键设备的设计和制造技术的研究,尚未形成成套的具有自主知识产权的生产工艺技术。此项工程投资大,风险高,目前真正从事工程化研究的单位得不到有效的政策支持,仅仅依靠企业自身的力量将影响产业化的进程。 一种新工艺的发展总是伴随着落后工艺的淘汰,目前溶剂法纤维素纤维还没有得到业内的广泛认同,有观点认为粘胶纤维路线只要利用最新的技术就能处理好废气和污水,因此还一直会有自己的发展空间,Lyocell纤维不可能替代常规的粘胶纤维。这种观点在粘胶纤维生产厂中仍有很大的影响,但在长远规划上阻碍了新技术的发展。事实上,无论是粘胶纤维生产的整体技术还是废气处理的技术都出白发达国家,且粘胶纤维产量骤降的也恰恰是这些国家,其中的规律和道理一目了然。废气和污水处理技术是无奈之举,它不能从根本上解决环境污染的问题。新技术的开发过程一定会存在这样那样的问题和不足,但我们应该在发展方向上达成共识,绿色环保的加工工艺一定会替代传统的污染工艺。 中国工业快速发展的经验表明,先进的技术用金钱是买不来的,即便买到了也会因为昂贵的代价而无法运作,尤其是当该项技术尚处于个别公司垄断的时候。我国对于溶剂法纤维素纤维生产工艺的研究和开发已有多年历史,无论是在基础研究和工程放大上都取得了一定的进展,为实现产业化奠定了较好的基础。因此,呼吁有关部门从国家层面上,集中资金和人力开展全方位的合作,联合攻关,高度重视工程化的研究,大力建立关键装备的生产基地,以成功开发具有我国特色的溶剂法纤维素纤维的生产技术。 2. 检索策略 2.1 选择检索工具

基于本体的查询

基于本体的查询 一、研究内容 1.我们的实现结果 (1)本体的构建。使用protégé3.4 创建了一个大学领域的本体UO.owl。与该本体相关的概念有:大学、大学基本信息、大学类别、主管部门。大学的属性有: 大学地点、学校网址、类别(大学类别的实例)、校训、排名、主管部门(主管 部门的实例)、学校简介。 (2)本体的分析。大学作为一个本体,与之相关有概念、属性、属性类型。通过分析本体的相关属性,获取本体实例的各个属性值,从而显示出本体实例的详细 信息。 (3)基于本体的查询。当输入查询的关键字时,从大学本体UO.owl中查询出相关的实例信息。 以下是实验结果截图: 本体管理界面图1: 图 1 当点击实例中的某一个实例的时候,弹出该实例的相信信息。例如当点击“大学基本信息类_中国石油大学“的时候,弹出该实例详细信息的窗体,如图2。

当点击“本体查询“时,弹出本体查询界面。输入关键字”北京“。结果如图3。 图 3

输入“北京“可以理解为大学的名称中含有”北京“,也可以理解为地点是”北京”的院校。 选择“名称相近的大学”,单击“点击查看“,如图4所示,显示出了名称中含有”北京“的大学的院校的信息。 图 4 选择“地点相同的大学“,单击”点击查看”,图5 显示出了地点是输入关键字“北京”的大学院校信息。

当输入关键字“80”的时候,显示了排名在80附近的大学院校的信息,如图6。 图 6

2.任务分工 在本设计中,主要完成了三个模块,分工如下: 负责本体创建模块,并且进行界面的设计; 负责本体分析模块,并且进行界面的设计。 负责本体查询模块,并且进行界面的设计。 3.目前的研究状况 Web检索的主要服务对象定位于大众,因此检索结果泛而不精是其特点之一,而 对于特定领域的从业者来说,他们更多时候希望检索的结果全而精且局限于自己感兴趣的领域之内,而普通大众也希望自己能得到自己真正感兴趣的信息,而不是在大量的信息面前无所适从,因此专业的领域检索系统开发成为近年来信息检索领域的研究热点。 近几年,国内外领域本体的构建以及在检索系统中的应用的相关研究主要有: 1)哈尔滨工业大学,杨艳琴,对目前生物学领域最丰富的Tao知识库进行研究和分析,设计并开发了基于Tao的生物领域信息检索系统。 2)中国农业大学,赵庆龄,针对农业知识本体论基础性研究的特点,结合土壤与农业化专业知识,建立了土壤领域知识体系,并在此基础上开发了基于网络的农业科技信息智能检索系统。 3)浙江大学机械电子控制工程研究所,叶冰,陈鹰,设计了一个面向机械行业的信息搜索系统的实现框架,探讨了行业信息的特征表示、特征匹配的实现这一前台信息数据的主动获取过程,同时也讨论了集中式行业信息数据库的信息检索这一后台信息检索问题。 通过该系统,可以方便行业内的企业用户和技术人员快速、高效地获取比较精确和技术性强的信息。 领域查询是一种利用国际信息资源的重要现代化手段,能够迅速高效地提供信息服务。因此长期以来,如何很好地利用领域检索都是讨论的热点。但是随着当今领域查询系统及数据库的数量迅速增长,查询技术也日新月异,挖掘领域检索的潜力这一任务变得越来越困难,用户己被置于一个数据库的“迷宫”之中,即使对于专业查询人员,能否合理地选择查询系统和数据库,也是一个非常棘手的问题。接下来的两方面是对这种状况的典型分析: 1) 从查询方式来看 随着Internet的普及和发展,人们越来越依赖网络从事科研及商务活动,但是利用现有领域查询系统来查询某一信息,得到的结果存在着大量冗余,很少有他们想要的东西,其中的原因在于目前的领域检索系统查询的方式大多是基于关键词或者内容分类目录进行查找的,很少有进一步的智能化处理。 2)从数据源质量来看 人们对查询要求有很好的全面性和时效性,这就对数据库资源的质量提出了严格的要求。无论是什么类型的联机检索系统,数据源都是其核心。即使再先进的领域检索系统,如果没有高质量的数据库资源,那也没有什么价值。 特别是我们国家领域数据库的发展和建设起步比别人晚,目前总体水平还是比较低,这表现在: l) 领域数据库的容量较小,履盖年限短,时效性差: 2) 领域数据库规范性差,数据库服务能力差; 3) 领域数据库的开发缺乏市场意识;

全文检索技术

全文检索技术 1概述 图书情报界对于检索语言的主流观点:自然语言检索是发展方向,信息检索要走自然语言道路;人工语言不适应网络环境;目前自然语言检索技术虽有缺点,但人工智能发展可使其逐步达到完善,满足检索的要求。 自然语言检索技术包括:(1)关键词索引及以关键词为检索标识的文献题录数据库;(2)全文数据库;(3)搜索引擎及由搜索引擎自动建立的网络资源数据库;(4)自动标引;(5)自动分类。在这5个主要方面中,只有关键词索引及数据库、全文检索、搜索引擎已经实现,但这3个方面的实质都是关键词检索,所以可以说自然语言检索目前仅在关键词检索的层次上实现。 目前关键词检索技术的最主要用途就是用来实现全文检索,它是全文检索的核心。并且关键词检索和全文检索是密不可分的。 2基本概念 所谓全文检索,是指直接以全文本信息作为主要处理对象,并根据数据资料的内容而不是外在特征来实现的信息检索手段。它的基本工作方式是能够将所有包含检索词的文献检索出来,不管这个词出现在文献的什么位置,或者说文献中的任意一个词都可以作为检索到该文献的条件。全文检索提供存取全文文本(指原始记录)的空间,文本中任何字符和字符串均可作为检索的入口点,全文检索是以原始记录中的检索词、字间的特定位置为对象的运算,对文献不作标引,故没有标引用词。因此,全文检索是一种可以不依赖叙词表而直接使用自由词的检索方法。 3实现条件 要实现全文检索需要2个必要的条件:一是需要将最终信息本身输入到计算机里,这个问题看似简单,实际上它包含了极大的工作量;二是需要有相应的软件支持,全文信息不仅包括书刊的文字信息,而且包括图片、声音、视频信息等各种信息资料,即使只将书刊及各种资料的文字信息输入计算机,其信息量就非常大了。因此,必须有专门的方法、专门的软件来支持这种“最终信息”的检索,这类软件就是全文检索软件。 3.1 全文检索的实现方式 全文检索目前主要通过以下方式来实现:①采用自由指定的检索项(如关键词、字符串等)直接与全文文本的一次数据高速对照,进行检索;②对文本内容中的每个检索项进行位置扫描,然后排序,建立以每个检索项的离散码为表目的倒排文档;③采用超文本模型建立全文数据库,实现超文本检索。 3.2 全文检索的核心技术 全文检索的核心技术是将源文档中所有的基本元素的出现信息记录到索引库中。中文全文检索技术在原理上同西文全文检索是一致的,但汉字本身的特点使中文系统的实现比西文系统更为复杂。在西文中,文档的基本元素是单词,可以以单词建立索引库,而且单词与单词之间有天然的间隔符空格,所以索引文件的建立相对简单。在中文系统中,基本元素可以是单个汉字字符,也可以是词。因此,存在2种基本的索引方法,即“词索引”和“字索引”。 3.2.1 词索引 “词索引”以能表达一定的意义的词为单位,通过事先内嵌的词典对原始数据作索引,以词为单位进行匹配。词索引适于大规模应用,索引库可以组织得比较小,检索速度也

相关文档
最新文档