计算机检索技术论文

计算机检索技术论文
计算机检索技术论文

河北农业大学

计算机检索技术论文

姓名:张晓腾

专业:计算机科学与技术 1101班学号:2011614530226

指导教师:赵洋

摘要

问答技术是自然语言处理领域中一个非常热门的研究方向,它综合运用了各种自然语言处理技术。本文充分结合了汉语语言的特点以及计算语言学的技术,对问答系统中信息检索模块进行了深入分析,指出了在实际的使用问答系统的时候,用户的回答质量参差不齐。

关键词:问答系统,信息检索,文档质量,语言模型,最大熵

独创性声明

本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果。

1绪论

随着科学技术发展,尤其是信息技术突飞猛进,一方面人们在理论上的信息拥有量不断膨胀不断丰富,一方面人们对信息的需求也与日俱增,对信息的质量和相关度的要求也越来越高,现有的检索系统,无论是受限领域的检索还是互联网搜索引擎,一般都是基于关键字检索。

1.2本文的主要工作及篇章结构

本文首先对问答系统的背景和研究现状做出了阐述,然后介绍了中文问答系

统的体系结构。从功能和技术两个角度对现有问答系统进行划分,并分析各种系统的特及优缺点。然后从系统框架、系统资源以及自然语言本身对基于自然语言的中文问答系统进行了详细的介绍,与传统的搜索引擎做了一个横向的对比。紧接着对问答系统一个核心环节(信息检索环节)的四个模型进行了分析,通过将文档质量融入到检索模型中对现有的检索模型做出了改进,最后通过试验验证了这种改进的有效性。

本文篇章结构如下:

第一章介绍了问答系统的相关背景知识以及研究现状。

第二章分析了中文问答系统的体系结构。

第三章阐述了基于自然语言处理的中文问答系统的系统结构,还介绍了自然语言处理

第四章分析了四种传统的检索模型以及基于语言模型的检索模型的优缺点。

第五章结论

2中文问答系统的概述

2.1中文问答系统体系结构

中文问答系统除了需要具有一般问答系统的功能处理外,还需要考虑中文的特性,在自然语言处理中,中文在语法语义语用等诸方面都存在有别于西文的特性,比如分词处理和词性标注上面。因此,国外的先进技术往往不能直接应用,只有将国外成熟的技术模型与中文信息处理相结合,才能取得较好的结果。

2.2问答系统分类

现有问答系统的分类,大致可以分为:聊天机器人、基于知识库的问答系统、问答式检索系统以及基于自由文本的问答系统。

2.2。1聊天机器人

2.2.2基于知识库的问答系统

2.2.3问答式检索系统

2.2.4基于自由文本的问答系统

2.3问答系统技术分类

目前的问答按技术分为以下几类:基于事实性问题问答技术、基于问答模式匹配的问答技术和基于自然语言处理的问答技术,分别介绍如下。

2.3.1基于事实-性问题的问答技术

2.3.2基于问答模式匹配的问答技术

2.3.3基于自然语言处理的问答技术

3基于自然语言处理的中文问答系统概述

3.1系统框架

系统主要包括五个部分:问题理解、信息检索、信息处理、答案抽取、①问题理解(QuestionAnalysis);②信息检索(Information Retrieval);③信息处理(Inforraation Processing);④答案抽取(Answer Extraction).

3.2系统资源

基于自然语言的问答系统,其实现需要自然语言处理、知识聚类、数据挖掘等技术支撑。

在充分利用这些技术的同时,也必须建立相应的系统资源。

3.3自然语言处理.

自然语言处理的任务是对语言的字、词、句、篇章的语音形式和书面形式进行输入、输出、统计、检索、识别、分析、理解和生成。研究的核心问题是语言的自动理解(Language Understanding)和自动生成(Language Generation)。所以,计算语言学理论的任务是描述和解释自然语言的现象和规律,建立形式化的语言模型,并且提供相应的算法,使其得以在计算机上实现。自然语言处理的应用目标是使人与计算机之间用自然语言进行交流。具体说是建立各种处理自然语言的计算机应用软件系统。一般来说,科学研究转化为产品的过程是从理论研究、应用研究到应用技术。在我国的语言处理领域,人们也一直向往着能从某种语言理论衍生出相应的处理汉语的应用系统。然而,由于学科发展的局限性和汉语本身的复杂性。

4信息检索

4.1传统的检索模型

传统的信息检索,主要是起源于图书的管理学,早期通过人员的手动编制,对每笔资料定义其索引字(index term),用数个最符合文件内容的关键词来代表其整体含义,而用户只能透过关键词的输入来进书名或文件的检索:时至今日,检索模型主要衍生有几大类:布尔模型(Boolean Model)、模糊逻辑模型(Fuzzy LogicModel)、向量模(Vector Model)及概率模型(Probability Model)。

4.2基于语言模型的信息检索

1统计语言模型。

语言建模技术要解决的问题是,对于一个服从某个未知概率分布P的语言L,如何根据给定的样本集估计P因此通过语言模型可以决定哪一个词序列的可能性更大或是已知若干个词,预测下一个词。语言模型首先在语音识别中提出,后来陆续用到光学字符识别、手写字识别、机器翻译、信息检索等领域。语言模型最常用的是N元模型,如果用变量w代表一个文本中顺序排列的11个词,即W--wlW2?Wn,则统计语言模型的任务是给出任意词序列w在文本中出现的概率P(w)。

2语言模型中的平滑技术。

加1平滑(Additive smoothing); Good.Turing估计;退化法(Backing-offsmoothing

model;线性插值法(Linear Interpolated smoothing model)

3基于语言模型的IR模型的概念。

最近几年提出的语言模型检索系统将语音识别领域的语言模型技术引入信息检索领域来改善检索系统的性能。Ponte和CroR在1998年首先提出基于语言模型的信息检索系统,他们根据词汇的分布规律为文档集合中的每篇文档构建一元语言模型,查询条件在概念上被理解为由文档的语言模型通过随机过程生成的语言实例,而文档与查询条件的相关度评价标准就是由文档语言模型生成查询条件概率的大小,生成概率越大也就是说该文档和查询条件越相关。Miller等人将检索过程看作是一个隐马尔可夫随机过程,通过将文档语言模型和一般语言模型平滑处理相结合来计算查询条件和文档的相关度,这个方法在TREC评测中获得很好的性能。语言模型检索方法因为其比较坚实的数学理论基础,简洁的概念模型和实际评测中相对于传统的向量空间模型能够获得更好的检索效果等优势因素逐渐引起相关研究人员的注意。

5.1结论

本文对中文问答系统做出较为全面具体的总结与回顾,特别是在问答系统的关键模块之一信息检索模块中提出了自己的一些想法。

张晓腾

二0一二年十月

参考文献

【1】全球互联网状况统计.http://www.clickz.com/stats

【2】英国莫里(MORD调查公司.htip://www.mori.corn/

【3】D.Moldovan et a1.The structure end performance of an open domain question answeringsystem,in Proceedings ACL 2000,PP.563-570 2000

【4】郭以昆.信息检索和自然语言处理中的几个关键问题的研究.复旦大学博士学位论文,

信息检索复习题1

信息检索复习题 一、判断题 1.在bing的视频搜索结果中,用户无需点击视频,只需要将鼠标放置在视频上,便可播 放视频的精华片段。 2.在搜索引擎中,为了精确搜索,防止自动分词,可采用“+”来实现。 3.在构建关键词时,我们尽量不要用自然语言,而要从自然语言中提炼关键词。 4.在信息检索时查询词表述准确是获得良好搜索结果的必要前提。 5.目前的搜索引擎能很好的处理自然语言。 6.用户可以通过Google图书搜索在线阅读任何一本搜索到的图书。 7.二次检索是指在第一次检索结果不符合要求时,重新选择检索条件再次进行检索。 8.在撰写学位论文的时候,为了照顾到论文的新颖性可以不考虑其观点的实际意义。 9.将撰写论文的作者的署名顺序颠倒对作者的署名著作权没有侵害。 10.搜索引擎与普通网站不同的是提供一个包含搜索框的页面,它不是一个WWW网站。 11.搜索引擎的命中率、准确率、查全率都比较高。 12.由于人工干预过少,而且搜索引擎大多采用自然语言标引和检索,搜索引擎检索结果中 会有很多冗余信息。 13.在搜索引擎中输入“项目管理”和输入““项目管理””检索结果是不一样的。 14.在搜索引擎中常用的截词符是星号“*”,通常使用右截断。如输入comput*,将检索 出computer、computing、computerized等词汇。 15.不同类型的搜索引擎对同一个主题进行搜索会得到不同的结果。 二、选择题 1.下面哪种信息以刊载新闻和评论为主的出版周期较短的定期连续性出版物。 A.图书B.报纸C.期刊D.标准 2.下面哪种信息具有一定的法律约束力,需经权威机构批准,在特定范围内必须执行的规 则、规定、技术要求等规范性信息。 A.专利B.标准C.科技报告D.政府出版物 3.学术论文写作的六个步骤的正确顺序是: ①搜集资料②研究资料③执笔撰写④选择课题⑤明确论点⑥修改定稿 A.①⑤④③②⑥ B.⑤③④②①⑥C.④①②⑤③⑥D.②④③①⑤⑥ 4.搜索引擎存在的问题是() A.无法提供搜索框页面 B.冗余信息较多C.无法采用自然语言检索D.信息采集只能采用人工采集 5.在搜索引擎布尔检索中,要求检索结果中只包含所输入的两个关键词中的一个的关系属 于() A.AND B.OR C.NOT D.异或

计算机技术发展论文

计算机技术发展论文 范文一:计算机技术的发展趋势 1新计算机技术革新 1.1量子计算机量子计算机可简单理解为遵循量子力学能够进行高速运算、存储和处 理信息的计算机,它是在社会对高速度、保密好、容量大的通讯及计算提出较高要求的情 况下产生的。物理主体主要包括:液态核磁共振量子计算机、固态硅晶体核磁共振量子计 算机、离子陷阱、量子光学、腔室量子电动力学、超导体方案等。量子计算机的功能在于 进行大数的因式分解,和Grover搜索破译密码,但是同时也提供了另一种保密通讯的方式,此外还可以用来做量子系统的模拟。但是在昨晚高难度运算后,能耗高、寿命短,散 热量大等缺点则暴露出来,真正有价值的量子计算机还有待继续研究。 1.2光子计算机光子计算机进行数字运算、逻辑操作、信息存贮等内容利用的是光信号,以光运算代替电运算,主要由激光器、光学反射镜、透镜、滤波器等光学元件设备组成。它具有运算、处理能力极强的优点,同时,兼具容错性,能够进行模糊处理,但并不 影响运算结果,智能化更高端。它主要具有以下好处:光子不带电荷,不产生磁场,也不 受磁场作用影响;光子也不具有静止质量,可以在真空和介质两种状态下传播;信息存储容 量大,通道宽,通信能力强;能量耗用低,散热量小,节能环保性较强,也避免了计算机 运行时内部过热的情况。目前虽然光子计算机在功能和运算速度方面和电子计算机有一定 差距,但光子计算机的进一步研制、完善,在对图像处理、目标识别和人工智能等方面发 挥重大作用。 1.3生物计算机生物计算机也叫做放生计算机,是以仿生学研究为基础而形成的新型 计算机技术,它以生物工程技术生产的蛋白分子制成生物芯片作为基础元件。它具有并行 处理的功能,运行速度比普通的电子计算机要快10万倍,存储空间占用更是少之又少。 它具有的优点很多,首先,体积小、功效高,比集成电路小很多,可以隐藏在地板、墙壁 等地方;其次,具有自我修复功能,它的内部芯片出现故障时,不需要人工修理,能自我 修复,永久性、可靠新高;再者,能耗很低,能量消耗仅占普通电子计算机的10亿分之1,散热量很小;第四,不受电路间信号干扰。目前,这种计算机还在研制阶段,存在技术不 成熟、信息提取难等问题,还需要继续优化。 1.4纳米计算机纳米计算机研制是计算机发展过程中的一场革命,它以纳米技术为基 础研制出计算机内存芯片,其体积相当于发丝直径的千分之一,生产成本非常低,不需要 建造超洁净生产车间,也不需要昂贵的实验设备和人数众多的生产团队,同时,纳米计算 机也需要耗费能源可以忽略不计,但是对其强大其性能的发挥丝毫不产生影响。纳米计算 机可以应用到微型机器人,以至于日用电子设备,甚至玩具中,都能获得强大的微处理功能,其应用范围也涉及到现代物理学、化学、电子学、建筑学、材料学等各个学科领域。 这项新的课题技术也在不断的完善和发展,将为计算机发展带来新的内容。

计算机信息检索02139自考资料

第一章信息检索概述 1.信息检索:指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程。 2.根据检索手段的不同,信息检索可以分为手工检索、光盘检索、联机检索和网络检索。 3.信息检索的基本原理 通过对大量的、分散无序的文献信息是进行搜集、加工、组织、存储,建立各种各样的检索系统,并通过一定的方法和手段使存储与检索这两个过程所采用的特征标识达到一致,以便有效地获得和利用信息源。 4.信息检索语言 信息检索语言是人们在加工、存储和检索信息时用来描述信息内容和信息需求的词汇或符号及其使用规则构成的供标引和检索的工具。 5.五个信息检索阶段:手工检索、机械信息检索、脱机批处理检索、联机检索、网络信息检索,后三 者统称为计算机信息检索。 6.与手工检索相比,计算机信息检索的特点表现在: (1)速度快、效率高,仅几分钟就可以从成千上万条记录中找到所需信息; (2)检索范围广,可以迅速而方便地浏览相关学科或主题的所有数据库中的记录,在 网络中,几乎每一台个人计算机都可以成为信息源; (3)检索不受时空的限制,只要拥有相应的软件和硬件设备,就可以在任何地方借助 光盘和通信网络查询所需信息。 7.信息检索的模型:就是运用数学的语言和工具,对信息检索系统中的信息及其处理过程加以翻译和 抽象,表述为某种数学公式,再经过演绎、推断、解释和实际校验,反过来指导信息检索实践。 信息检索的三个经典模型是:布尔模型、向量空间模型和概率模型。 8.信息检索系统是具有信息存储和信息查询功能的一类信息服务设施。 9.信息检索系统是信息检索所用的硬件资源、系统软件以及信息资源集合的总和。 10.数据库由字段、记录和文档构成。 11.根据载体的不同,数据库可分为:联机数据库、光盘数据库和网络数据库三种。 12.信息检索系统评价的核心是检索性能评价。 13.检索性能评价:根据一定的评价指标对实施信息检索活动所取得的成果进行客观科学评价,以进一 步完善检索工作的过程。 评价检索效果的最主要的指标:查全率和查准率。 14.查全率 查全率是指检出文献中合乎需要的文献数量占数据库中存在的合乎该需要的所有文献的比例。 15.查准率 查准率是指检出文献中合乎需要的文献数量占检出文献全部数量的比例。 第二章网络信息检索的方法与技术 1.布尔逻辑检索的主要运算符 布尔逻辑检索的主要运算符有:逻辑与(“AND”)、逻辑或(“OR”)、逻辑非(“NOT”)。 它们分别代表的含义是:(1)逻辑“与”。表示检索结果中必须包含所有的检索词;(2)逻辑“或”。表示检索结果中只要包含任何一个检索词即可;(3)逻辑非。表示检索结果中一定不能出现“NOT”后面的检索词。 2.邻近检索 邻近检索是用一些特定的算符来表达检索词与检索词之间的顺序和词间距的检索。 3.短语检索:短语用“”表示,检索出与“”内形式完全相同的短语,以提高检索的精度和准确度, 因而也有人称之为“精确检索” 4.截词检索 是指在检索标识中保留相同的部分,用相应的截词符代替可变化部分。检索中,计算机会将所有含有相同部分标识的记录全部检索出来。截词符一般用“?”或“*”表示,但不同的数据库中有所差别。 常用的截词检索方法有前截词、中间截词和后截词。 5.在信息检索过程中,为了提高查全率或查准率,需要将检索范围限制在特定的字段中,即字段限制 检索。 6.模糊检索:模糊检索是指使用某一检索词进行检索时,能同时对该词的同义词、近义词、上位词、 下位词进行检索,以达到扩大检索范围、避免漏检的目的。

计算机未来发展方向论文

后计算机技术的发展将表现为高性能化、网络化、大众化、智能化与人性化、功能综合化,计算机网络将呈现出全连接的、开放的、传输多媒体信息的特点。 未来计算机的发展趋势是:微处理器速度将继续提升,英特尔公司计划在未来几年内制造出每个芯片上有10亿个晶体管的中央处理器,个人电脑将具有原来的高性能服务器所具有的处理能力;高性能计算机采用分布式共享存储结构,将拥有1GHz以上的时钟频率;每个芯片有4个8路并行的以及更为复杂的GISC 接点;计算机将采用更先进的数据存储技术(如光学、永久性半导体、磁性存储等);外设将走向高性能、网络化和集成化并且更易于携带;输出输入技术将更加智能化、人性化,随着笔输入、语音识别、生物测定、光学识别等技术的不断发展和完善,人与计算机的交流将更加便捷。 软件技术的发展将呈现平台网络化、技术对象化、系统构件化、产品领域化、开发过程化、生产规模化、竞争国际化的趋势。高端计算机软件、操作系统微内核与源码技术、软件可靠性和安全性、软件开发和集成工具面向人们个性化需求的应用软件,在相当时期内仍将是软件领域的主要研究内容。软件技术正以计算机为中心向以多媒体信息服务为对象的方向发展,软件开发与芯片设计相互融合和渗透,将人机充分自然地结合起来;网络软件正在成为研究投资的热点;软件业的市场发展空间将超过硬件业的市场规模。 到2005年,全球电子计算机产品的市场规模将超过4000亿美元,软件在3500亿美元以上;2010年又将分别达到5100亿美元与6000亿美元左右。2005年,国内市场对电子计算机产品的需求预测:微机1800万台(其中笔记本电脑占10%)、服务器20万套、显示器2000万台、打印机800万台;软件2200亿-2500亿元,其中系统软件为110亿-120亿元、支撑软件300亿-320亿元、应用软件380亿-400亿元。 今后应当鼓励发展高性能服务器、移动式笔记本电脑或掌上电脑(适应2.5G -3G)、多功能激光、喷墨打印机、扫描仪;嵌入式操作系统软件(基于LINUX 及UNIX)、网络控制软件、数据库软件、CAD/CAM软件和其他应用软件等。继续支持发展的产品应有:普通针式打印机、彩色显示器、调制解调器等。对低档次个人电脑应实行限产。 作为计算机业界内的霸主,微软早就已不甘于单在PC领域上发展了.早在5月12日,微软公布了下一代主机-----XBOX360,这部由计算机主机基因突变而成的魔盒,拥有IBM的128位POWERPC为原型的CPU,再次超越了目前刚发展到64位的台式机.并且支持USB接口,读卡器HDTV和无线模式.我们可以进行网上购物视频聊天……. 而这一切,只需你家中有台XB360即可.而早要3年前,微软推出了平板计算机,虽然计划受挫,但平板计算机无疑拥有比手提计算机更有优势.一是轻便,整台机由手写板屏幕和超薄键盘组成,二是拥有更广泛的应用领域.对 于整个计算机业界来说,微软无疑是一个不可或缺少的领头羊.那么,下面就让我 们听听业内人士的意见. 业内人士普遍认为未来计算机的发展趋势是:微处理器速度将继续提升,英特尔公司计划在未来几年内制造出每个芯片上有10亿个晶体管的中央处理器,个人计 算机将具有原来的高性能服务器所具有的处理能力;高性能计算机采用分布式共

计算机检索的步骤和方法

计算机检索的步调和办法 令狐采学 一、明确检索要求和检索目标 计算机检索的第一步准备工作是明确检索要求和检索目标。 明确检索要求就是要搞清楚本课题属于什么学科,所需文献的类型及语种,查找文献的年代,所需文献的最佳篇数,允许支配的检索用度。这些要求对选择数据库、构造检索战略都是十分重要的。确定检索目标也是进行计算机信息检索前应搞清楚的准备工作。例如:如果属于开题调研,则应尽可能地检索出与之相关的全部文献,即要求较高的查全率;以便充分地做好开题的准备工作;如果属于探索性、开创性的课题,则只需要查出一些启发性的文献,对查准率和查全率要求都不一定有很高的要求。 二、课题阐发 1. 课题概念的阐发办法 阐发课题就是阐发出课题所涉及的主要概念,并找出能代表这些概念的若干个词或词组,进而阐发概念之间的上、下、左、右关系。对新学科、交叉学科和边沿学科的课题,则要搞清楚这些概念之间的关系。概念阐发的结果应以概念组为单位的词或词组的形式列出,以便下一步制订检索战略时使用。 2. 隐含概念的阐发办法 有些课题的实质性内容往往很难从课题的名称上反应出来,课题所隐含的概念和相关的内容需要从课题所属的专业角度作深入阐发,

才干提炼出能够确切反应课题内容的检索概念。例如:"社会包管"包含"养老保险"、"失业保险"、"医疗保险"和"社会救济"等概念,如果要检索社会包管方面的文献,应该析出上述概念,才干包管文献的查全率。 3. 核心概念的选取 有些检索词中已经含有的某些概念,在概念阐发中应予以排除。例如:课题"公司劳动奖励、职工培训和养老保险制度管理的理论和实践",如果把"劳动奖励","职工培训","养老保险","公司","制度","管理"六个概念全部组配起来,则会造成年夜量文献漏检。实际上,劳动力资源管理已经包含了劳动奖励、职工培训和养老保险三个方面,并且,劳动力管理必定是针对该三个方面而言的。因此,本课题只须采取"劳动力资源"和"管理"这两个实质概念即可。为了提高文献的查准率,应该从相应的规范词表中选择所需的检索词。并且在确定检索词时,除要考虑反应主题概念的同义词、近义词等相关的检索词外,还要注意选择被选用检索词的缩写词和不合拼法的词,以避免漏检有关的文献。 三、检索词的扩展、选择和处理 目前的计算机信息检索系统,还不具备智能思考的能力,还不会对所输入的检索词以及涉及的所有词进行自动、全面的检索,因此,必须在概念阐发的基础上列出与概念有关的词,从中做出选择,并利用截词等办法对检索词予以归并。 1.相同概念的检索词的扩展 扩展相同概念的检索词的办法一般有同义词办法、主题词表办法和

中国知网等文献检索的一般方法

文献检索一般方法 同学们: 可能你们目前接触到的文献并不多,但以后你的作业和设计很大一部分要求自己查阅文献,期刊,论文来解决(比如说:微生物学,微生物工程工艺原理,酶工程,白酒工艺学,啤酒工艺学,食品安全学,白酒勾兑等)。在四川理工学院我们检索文献的方式不外乎在图书馆找纸质档案和网络检索两种,因为我们通常使用的文献都要求是近三年核心期刊发表的文章,因为只有这些才能反映某个领域目前发展的现状,所以我们一般都偏向于跟新更快的网络搜索,其中又以知网和超星使用最多。下面简单介绍文献检索的一般方法,希望能给大家的学习,包括实验室学习带来一点帮助,有不明白的地方请直接联系我。 1、检索课题名称(中英文) 计算机在中学物理中的应用 The application of computer to physics in middle school 2、分析研究课题 随着计算机技术的不断发展,计算机在教育中的作用愈发突出。在中学物理教育 中,同样可以引入计算的先进技术,改进教育方法,提高教学效率。如今,计算机在 中学物理中的应用主要体现在以下几个方面: 1)计算机技术在课件制作中的应用。 2)计算机在实验仿真中的应用。 3)计算机在教学数据处理中的应用。 根据以上分析,本课题主要是根据计算机在中学物理教学中的几个应用进行相关 材料的查找。 3、检索策略 3.1 检索工具 1)利用“中国知网”查找有关硕士、博士论文。 2)利用“中国期刊全文数据库”查找相关期刊论文。 3)利用“维普科技期刊数据库”查找相关期刊论文。 4)利用“超星数字图书馆”查找相关图书。 5)利用“SpringLink”查找相关论文。

信息检索.pdf

一、确定检索目标 1、检索课题名称:新婚姻法与女性保护 2、课题分析:新婚因法属于民法的范畴,每一次关于新婚姻法的调整都会带来一定的争 议。而争议的内容往往与女性是不可分割的。所以,这一课题主要强调的是新婚姻法中关于女性保护的问题。 中文关键词:1、新婚姻法;2、女性 英文关键词:(1)New marriage law;Female 3、选择检索工具:本课题检索目标为中文各类相关文献。根据本图书馆的资源情况选择 如下数据库: (1)CNKI数字图书馆:中国期刊全文数据库 (2)万方数据库 (3)超星数字图书馆(图书检索) 4、构建检索策略:因“新婚姻法”为主体、应当优先检索,“女性”应在检索结果中同时 存在,因此可以先检索“新婚姻法” 时间范畴:2006~2011 二、选择检索工具 1、中文检索工具 使用万方数据库。这个数据库这方面的论文相对比较齐全,检索过程简单,检索内容也比较准确。 三、检索策略及结果 1、中文检索工具 (1)检索工具名称:万方网 (2)检索式:输入关键字“新婚姻法”“女性” (3)检出结果:检出记录数为52篇 (4)列出至少10篇相关文献题录: ①【篇名】:《妇女婚姻家庭权益保障问题研究——透过新《婚姻法》谈妇女婚姻家庭权 益保障问题》 【作者】:母丽娜 【作者单位】:河北师范大学 【刊名】:马克思主义理论与思想政治教育,2007 【关键字】:婚姻法解释;房产分割;按揭房;孽息归属 【摘要】:《<新婚姻法>解释三》的出台在社会上引起了一阵狂热的争论,很少有一部法律能够成为人们茶余饭后的谈资,《<婚姻法>解释三》却因其涉及夫妻房产、 生育权、第三者等社会热点问题而备受瞩目。更有网友抨击这部“新婚姻法” 旨在保护男性、否定女性的家庭贡献,其中又以涉及夫妻房产的第8条,笫Il 条争议最巨.针对房屋产权这二因《<童昏姻法>解释三》的出台而在婚姻家庭 中倍加敏感的话题,笔者将对夫妻离婚时主要的房产纠纷情形作初步的探索, 并依据《解释三》第6条对房屋于婚姻关系存续期间增值部分的归属作新法下 的诠释。 ②【篇名】:《从保护女性权益角度看新婚姻法的进步和不足》 【作者】:杜蘅 【作者单位】:天津大学

计算机技术应用论文范文

计算机技术应用论文范文 《计算机技术应用》 【摘要】随着信息技术发展速度的不断加快,计算机技术已经成为整个社会发展的不可或缺的内容之一,越来越多的领域开始应用 计算机技术。在如今的社会发展中,计算机技术的应用为人们提供 了非常多的便利条件,对于人类未来的发展起到关键性的作用,保 持良好的发展态势是目前人们对于计算机技术的殷切期望。文章将 会从实际出发,系统的分析计算机技术的应用现状以及未来的发展 趋势。 一、计算机技术的实际发展现状以及具体化应用 现如今,信息技术的发展促进了社会的演变,计算机技术已经成为社会发展的主要助推力之一,在计算机的发展过程中,现代计算 机注重的是信息的处理效率以及系统的运行速度等,较比传统的机型,新型的计算机在成本等方面也得到了有效降低,计算机的研发 人员在研发时,不断强化技能,让研发技术更加具有专业化的特点。从计算机的发展现状看,除了之前的传统型应用之外,计算机技术 在生产自动化以及现代化教学等方面也得到了更为广泛的应用。 计算机教学大概是在上世纪的八十年代才开始应用,近几年计算机的辅助教学技术取得了非常大的突破,各科的教学都希望能够将 计算机技术同现代化教学有机的结合起来,为学生打造一堂气氛更 为活跃,内容更为精彩的综合性课程。现如今,很多教学机构已经 开始重新整合教学内容,利用软件教学实现教学的有效化创新。 除此之外,第三产业在发展的过程中也需要计算机技术的支持,软件行业在近几年发展迅速,并成为新世纪最具规模、最具影响力 的新兴行业之一,这一切正是缘于计算机技术的发展。但是,我国 目前的计算机技术仍然需要发展、需要创新,软件行业的发展仍需 要向其他国家学习,学习对方的先进理念与先进技术。计算机网络 的兴起不断改变着人们的生存环境,计算机网络技术逐渐改变了社

计算机信息检索复习资料

计算机信息检索复习知识点 第一章 1、人类生活的3个基本要素是材料、能源和信息。(单选) 2、信息是指应用文字、数据或信号等形式,通过一定的传输和处理,来表达各种相互联系的客观事务在运动中所具有的特征性内容夫人总称。(名词) 3、信息的特征有:客观性、动态性、相对性、依存性、可传递性。(多选) 4、共享性是指同一内容的信息可以在同一时间里被多个信息用户使用。 5、信息的功能有哪些?(简答) (1)信息是感知世界的中介;(2)信息是管理决策的依据;(3)信息是科学研究的必要条件;(4)信息是社会发展的资源; 6、信息的类型有哪些?(论述) (1)按信息的表达形式划分,可以分为 ①文献信息②声像信息③电子信息 (2)按信息的应用范围划分,可分为 ①白色信息②灰色信息③黑色信息 (3)按信息的加工层次划分 ①一次信息②二次信息③三次信息 7、信息需要:所谓信息需要,就是指人们在从事各项实践活动的过程中,为解决所遇到的各种问题而产生的对信息的需要。(名词) 8、信息需求的特征有哪些?广泛性、社会性、发展性、多样性(多选) 9、现代信息技术的基础是微电子技术(单选) 10、数据库是指为满足多个用户的多种应用需要,按一定的数据模型在计算机中组织、存储和使用的相互联系的数据集合。(名词、单选) 11、通信系统的基本组成包括信源和:信宿、变换器、反应器、信道、噪声源 12、信号的接收者称为信宿 13、信息传输的通道称为信道 14、信号在传输过程中受到的干扰称为噪声 15、数据库简称DB 16、数据库的四种基本操作是:检索、更新、删除、插入 17、数据库的特点有哪些?(简答)(1)数据共享;(2)面向全组织的数据结构化;(3)数据独立性;(4)可控数据冗余度;(5)统一数据控制功能。 18、数据结构化有利于实现数据共享 19、数据库管理系统可以提供哪些方面的数据控制功能:安全性、完整性、并发控制、数据恢复 20、构成数据库的三个主要层次是:文档、字段、记录 21、记录的基本单元是:字段 22、文档的基本单元是记录 23、一个文档中你好,认识一下!包含大量的记录 24、检索系统提供的数据库相关文档组成包括的文件数是3个 25、顺排文档:按记录的存取号的大小顺序存入全部记录,它相当于印刷型检索工具的正文部分。 26、倒排文档:把记录中的可检字段抽出,包括单元词、多元词,按某种顺序重新加以组织后得到的一种文档。 27、倒排文档只包括记录的标识、信息的数量及信息存取号。 28、存储了数据库所有记录的特征标识的是倒排文档 29、数据库文档中便于随机存取,实现非顺序存储结构的文件是索引文档 30、传统的检索对象主要是文献型的信息源 31、传统的检索对象的存储介质是纸张 32、对超文本、超媒体信息资源实施的检索是超维检索 第二章 1、计算机信息检索经历了哪几个主要发展阶段?(简答)(1)脱机批处理检索阶段;(2)脱机检索阶段;(3)光盘检索阶段;(4)网络化检索阶段 2、计算机信息检索必备的条件是物质和人员 3、计算机检索的类型有哪些?(论述) 计算机信息检索的类型可以通过检索的内容、信息出版的时间和检索工作的方式加以划分 1根据计算机信息检索的内容划分,检索可以分为 (1)数据检索;(2)事实检索;(3)文献检索 2根据被检索信息出版的时间划分,可分为:(1)定题信息检索;(2)回溯性信息检索 3根据计算机检索工作的方式划分,可分为:脱机检索系统;(2)联机检索系统 4、事实检索的对象是事实 5、检索结果能够满足用户需要的文献线索或文献全文的是文献检索 6、回溯性信息检索:根据用户提供某一段时间范围内的文献信息的检索方法 7、计算机批处理的信息检索系统称为脱机检索系统 8、用户以联机会话方式直接访问系统及其数据库的信息检索系统称为联机检索系统 9、信息检索系统:是指按照某种方式、方法见利起来的供读者检索信息的一种有层次的体系,是表征有序的信息特征的集合体。 10、信息检索系统的职能有:报道职能、存储职能、检索职能 11、信息数据库可以划分为:参考数据库、源数据库、混合型数据库 12、参考数据库:是指用户从中获取信息线索后,还需要进一步查找原文或其他资料的一类数据库 13、源数据库:能够直接为用户提供原始资料或具体数据的一类数据库。 14、信息系统的构成模式是什么?(简答) (1)信息数据的选择、处理、录入和维护子系统;(2)词表和标引子系统;(3)检索子系统;(4)系统----用户接口子系统统 15、信息检索系统的存储结构有:印刷存储、微缩存储、磁存储、半导体存储、光存储 16、信息存储的逻辑结构有:线性结构、非线性结构、树形结构、网形结构 17、数据元素按一定顺序构成一个有限序列的信息存储结构称为:线性结构 18、非线性结构中最常用的的是树形结构和网形结构 19、将信息用二进制表示称为编码 20、计算机处理信息的最小单位是一位二进制数 21、两级存储器是指主存储器和辅助存储器 22、信息检索的概念起源自文献信息检索 23、对信息进行主题分析,提取代表该信息的特征的过程称为标引 24、自动抽词标引:利用计算机直接从信息正文、标题或文摘中抽出能表达信息主题的关键词作为标引词,并自动生成 关键词索引或倒排文档。 25、对一本书或一篇文章所做的扼要摘述称为文摘 26、利用计算机自动编制文摘称为自动文摘 27、在信息检索自动化处理中,常用的运算是排序 28、常用的自动排序的方法有选择排序和快速排序 29、存储区域网简称为SAN 30、目前大多数中小企业见利网络环境的协议基础是 TCP/IP 31、信息检索系统的组织:为了控制信息的流速和流向、数 量和质量等,把传递中的杂乱无序的信息整理为系统有序状 态的活动。 32、信息检索系统的组织目的是什么?(简答) (1)减少社会信息流的混乱程度; (2)提高信息系统的质量和价值; (3)建立信息检索系统与用户的联系; (4)节省社会信息活动的总成本。 33、信息检索系统的组织的要求有哪些 (1)信息内容有序化; (2)信息流向明确化; (3)信息流速适度化; (4)信息质量最优化。 34、信息检索系统组织方法:是指对每一信息的各种外表特 征和内容特征进行描述并确定其标识,然后按一定方式或规 则将其内容组织起来以供检索的方法 35、信息检索系统的传统组织方法有哪些? (1)分类组织法;(2)主题组织法;(3)字顺组织法;(4) 号码组织法;(5)自然组织法 36、进行网络信息资源组织的方式主要有:文件组织方式、 主题树组织方式、超文本组织方式、超媒体组织方式、元数 据组织法 37、以文件为单位共享和传输信息的组织方式称为文件组织 方式; 38、超文本的信息组织方法是非线性; 39、元数据又称描述数据; 40、对初选信息的鉴别、筛选和删除称为优化; 41、优化选择的方法有:比较法、分析法、核查法、引用摘 录法、专家评估法 42、检索语言:检索信息所使用的人工语言; 43、登录在类表、词表中的所有标识称为词汇 44、检索语言的作用有哪些?(简答) (1)对信息内容进行主题分析;(2)便于将标引、检索用 的标识符进行相符性比较,保证检索和标引的一致性;(3) 保证检索结果和检索要求的一致性;(4)保证信息存储集中 化和系统化 45分类语言的基础是科学分类 46主题语言是使用词语标识的一类信息检索语言,称为主题 法 47、把主题词按照一种便于检索的方式编排起来,称为主题 词 48、关键词:从信息的题名、摘要和内容中抽取出来的,能 够表达信息主题内容的具有检索意义的关键性词汇。 49、叙词:是指从自然语言中优选出来并经过规范化处理的 名词术语,属于后组式语言的一种,是采用表示单元概念的 规范化语词的组合来对信息主题或内容进行描述的标识系 统。 50、叙词的特点:专指性、直观性、多维检索、适应性、网 络结构 51、按照学科体系进行系统排列的语言称为分类语言 52、按照主题词的字顺序列排列的语言称为主题语言 53、计算机信息检索是指利用计算机存储信息和检索信息 54、进入检索的入口称为检索途径 55、按学科分类体系查找信息的途径称为分类检索 56、利用信息主题内容进行检索的途径称为主题检索 57、选择实现检索计划的具体方法和手段是选择检索方法 58、利用检索系统查找信息的方法称为工具法 59、信息检索策略:将课题的提问及其检索词与检索系统的 收录内容、编排特点相匹配而确定的检索方案或程序。 60、检索效果:是指信息系统检索信息的有效程度,反映了 信息系统的检索能力 61、查全率:检索出的相关信息量与信息系统中的相关信息 量之比 62、查准率:检索出的相关信息量和检索出的信息总量之比。 63、衡量检索效果的相对合理指标是差准率和查全率 第三章 1、布尔逻辑检索:是指通过标准的布尔逻辑关系词来表达检 索词与检索词之间逻辑关系的检索方法。 2、布尔逻辑运算符有:逻辑与、逻辑或、逻辑非 3、INTERNET上信息出传输的主要方式是FTP 4、检索者将检索词在他认为合适的地方截断称为截词 5、限制检索:在检索系统中,使用缩小和限定检索范围的方 法称为限制检索 6、邻近检索:通过专门符号来规定检索词在结果中的相对位 置 7、中级检索技术包括哪些内容? (1)加权检索技术;(2)自然语言检索技术;(3)相关信 息反馈检索技术;(4)模糊检索技术;(5)概念检索技术。 8、自然语言处理应用领域之一是信息检索 9、概念层次网络简称HNC 10、自然语言处理技术可以分为机器翻译、语义处理以及人 机会话 11、搜索引擎用到的自然语言处理技术是机器翻译与语义处 理 12、实现只能搜获的过程主要分为:语义处理、知识管理、 知识检索 13、从用户角度看,用户可以分为最终用户和职业用户 14、信息检索发展史上的突破是应用了自然语言检索 15、智能代理资源管理器的基本结构是:适配器、引擎、知 识、库、视图 16、智能代理信息检索系统的特点有哪些?(论述) (1)智能代理侧重于面向用户。 (2)智能代理主要借助知识库、数据库,并参考用户需求习 惯和一段时期内的偏好,推断用户提问的真实意图,提高检 索的专指性。 (3)智能代理采用机器学习、用户框架模型、推理机制主动 协助用户查找信息。 (4)智能代理不仅是关键字的匹配,而且是基于概念和知识 的检索。 (5)智能代理能不断了解用户需求的变化,并根据用户的反 馈信息及时修正检索目标策略。 (6)智能代理能分离发送请求和接收结果,使它们异步进行。 (7)智能代理能使用户按照个人的兴趣爱好进行信息分类。 17人们进行信息检索时总是期望获得较高的查全率和查准率 18对信息进行采集、标引、存储、处理,最后形成信息集合 体 19、通过模拟自然进化过程搜索最优解的方法称为遗传算法 20、搜索引擎和挖掘引擎处理的都是字串和文本 21、数据挖掘也称知识发现 22、聚类:按照事物的某些属性,把事物聚集成类,使类间 的相似性尽量小,类内相似性尽量大 23、一种很有效的预测模型技术是神经元网络 第四章 1.INTERNET起源于ARPANET 2、我国的四大互联网络是:中国科技网、中国教育科研网、 中国公用互联网、中国公用经济信息网 3、INTERNET提供的基本信息服务有:电子邮件、文件传输、 远程登陆、电子公告板、网络新闻组 4、可以在异地主机上登陆注册的服务是TELNET 5、通过专用电缆与INTERNET主干网直接连接在一起的称 为专线连接 6、综合业务数字网简称ISDN 7、非对称数字用户环路简称ADSL 8、网络信息资源主要类型是联机检索系信息资源和网络信 息资源 9、联机检索信息资源的主要表现形式是联机数据库 10、文件传输协议是FTP 11、网络信息资源进行组织的主要方式有:文件方式、主题 树方式、超文本方式、数据库方式、超媒体方式、元数据方 式。 12、元数据:就是关于数据的数据,是对数据内容的描述。 13、元数据的作用有哪些?(论述) (1)描述数据的内容、质量和特征,以及数据所适用的范围。 (2)管理和存储大量科学数据 (3)提供一种对数据进行检索、查询的方法 (4)帮助数据的使用者更好的了解和使用数据。 (5)促进数据共享 (6)为数据交换和数据传输提供辅助信息 (7)元数据是数据发挥其作用的一个必要条件 (8)维护科研成果,维护在数据方面的投资。 14、DC的特点有:简易性、通用性、兼容性、灵活的可扩展 性 15、知识产权:是公民和法人对在科学和文学等领域内创造 的精神财富以及智力成果依法享有权利的总称。 16、INTERNET上每位用户都有的帐号称为域名 17、数据库开发主要是开发书目数据库、文摘数据库和全文 数据库 18、开发网络信息资源的一个重要途径是制作知识导航库 19、数字图书馆开发利用网络信息资源的一种主要形式是馆 际互借 20、网络信息资源开发利用中的知识产权保护策略是什么? (简答) (1)加强开发利用网络信息资源的立法工作 (2)加强国际交流,逐步与国际接轨; (3)建立和完善知识产权集体管理制度 (4)使用技术手段防止侵权 (5)重视解决网络信息知识产权保护的两个基本原则,即网 络发表权问题和复制权问题。 第五章 1、中国期刊网全文数据库检索系统是基于INTERNET 2、专业检索的具体步骤是: (1)通过单击页面右上角的状态栏,即可进入专业检索条件 界面; (2)选择检索范围 (3)填写检索条件 3、二次检索:通过简单检索、高级检索及专业检索,在这些 检索结果上还可以继续进行操作。 4、二次检索的操作方式有:并且、或者、不包含 5、保存题录中最大保存记录数为50 6、向导式检索的检索操作顺序是由上到下 7、中共高等教育文献保障体系简称CALIS 8、中文社科报刊数据库检索方法的具体步骤是什么?(论述) (1)系统进入、检索途径的选择和结果的输出 (2)主题词、题名和著者检索途径 (3)分类号检索途径 (4)人名检索途径 (5)刊名检索途径 (6)检索结果的显示、标记、打印和保存 (7)索引词列表的使用方法 (8)历次检索策略的选用 9、最重要的统计工具和学术分析及评价工具是SCI 10、普通检索中检索来源文献的途径可分为:主题词、著者、 来源出版物、著者地址 11、执行检索后命中的记录在屏幕上显示的格式是简单格 式 12、联机公共检索目录简称OPAC 第六章 1、产权主要有哪几种:动产权、不动产权、知识产权 2、著作权:也叫版权,是指文学、艺术、科学作品的作者, 对其创作的作品,依照法律享有的专有权利。 3、以法律的形式保护发明人在一定期限内享有对其发明的专 利权称为专利权 4、专利的特征有:排他性、地域性、时效性 5、专利的类型有:发明专利、实用新型专利、外观设计专利、 集成电路布图设计 6、国内检索专利信息的网站有哪些? (1)中国知识产权网; (2)中华人民共和国知识产权局 (3)中国专利信息网 (4)中国专利信息检索系统 (5)中国专利文摘数据库 (6)中国香港特别行政区知识产权署 7、美国专利与商标办公室简称USPTO 8、对专业人员根据其专业学术水平而授予的一种称号称为 学位 9、学位论文分为哪几种类型?(简答) 一类是理论研究型的,作者通常在搜集、阅读了大量资料之 后,依据前人提出的论点和结论,再通过自己的深入研究或 大量实验,进一步提出自己的新论点和新假说。另一类是调 研综述型的,作者主要以前人关于某一主题领域的科研课题 做出概括性的总结,提出自己独特的论点和新见解。 10、会议文献:是指在各种学术会议上宣读的论文、产生的 记录及发言、论述、总结等形式的文献。 11、会议文献按照出版时间的先后分为:会前文献、会中文 献、会后文献 12、科技报告:对科学、技术研究结果的报告或研究进展的 记录 13、美国政府的四大科技报告分别是:PB报告、AD报告、 NASA报告、DOE报告 14、标准文献:按照规定程序编制并经过一个工人的权威机 构批准的,供在一定范围内广泛而多次使用,包括一整套在 特定活动领域必须执行的规格、定额、规划、要求的技术文 件。 15、标准文献主要分为:国际标准、区域标准、国家标准、 专业标准、行业标准、基础标准 第七章 1、目前INTERNET网络资源主流是网络信息资源 2、网络信息检索的主要特点是什么?(简答) (1)交互式作业方式 (2)用户透明度 (3)信息检索空间的拓宽 (4)友好的用户界面且操作方便 3、网络检索工具共有的特点是交互式作业 4、网络信息检索工具的类型有哪些? (1)按照检索机制划分可分为: 1、分类目录检索工具; 2、搜索引擎检索工具; 3、混合型检 索工具\(2)按照检索的内容划分可分为1、综合型检索工具; 2、特殊型检索工具; 3、多元检索工具; 4、万维网和非万维 网检索工具 5、能够利用多个检索工具进行网络信息查询的检索工具称 为:多元检索工具 6、网络信息检索工具按照检索机制划分可分为:分类目录检 索工具、搜索引擎检索工具、混合型检索工具 7、搜索引擎按照信息内容组织方式划分为按检索词检索和 按分类检索 8、分类目录型检索工具的典型网站是:YAHOO 9、目前网络上适用最多的引擎的检索形式是按检索词检索 10、搜索引擎使用最多的分类是按照主题 11、搜索引擎主要由三个部分构成,分别是:搜索软件、索 引软件、检索软件 12搜索软件,通常称为机器人 13、检索软件决定搜索引擎的检索功能和返回结果的相关性 14机器人是一种计算机的程序 15、在遍历算法中,一般用到的两种方式是深度优先和广度 优先 16、内容索引项可以分为单索引项和多索引项 17、索引技术可以使用集中式索引算法或分布式索引算法 18、输入接口可以分类两种,分别是简单接口和高级接口 19、ALTA VISTA是常用的单个搜索引擎 20、EXCITE提供基本检索和高级检索 21、检索式中,专有名词的首字母必须大写 22、EXCITE突出特点是采用了概念检索 23、EXCITE特有的功能是范例检索 24、便于用户在各个搜索引擎间进行灵活快捷的切换的引擎 称为多元搜索引擎 25、用户的浏览器和多元搜索引擎系统交互的界面称为用户 接口 26、多元搜索引擎实际上是一种网络查询接口工具 27、功能较强的多元搜索引擎一般采用的处理方式是并行和 串行 28、查询操作大多仅支持简单的布尔逻辑操作 29、多元搜索引擎一般可分为并行处理和串行处理 30、常用多元搜索引擎又:MAMMA、SEARCH、 METACRA WLER、ASK JEEVES、PROFUSION 31、提高搜索结果准确性的方法主要有哪些?(简答) (1)运用引擎的词组检索、字段检索和邻接算符等控制检索 的范围 (2)使用有些搜索引擎的REFINE功能 (3)可以使用概念检索和相似页检索 32、基于链接评价的搜索引擎的优秀代表是GOOGLE 33、搜索引擎的研究发展方向是:智能化搜索、个性化搜索、 结构化搜索、垂直化专业领域搜索、本土化搜索 34、结构化搜索:是指充分利用XML等技术使信息结构化, 同时使查询结构化,从而使搜索的准确度大大提高。 35、搜索引擎的发展新趋势是垂直搜索引擎 第八章 1、联机检索系统包括的三个部分是:检索终端、通信网络、 联机检索中心 2、系统拥有的各种数据库称为联机数据库 3、联机系统中数据库的选择方法有:数据库类型、收录范围、 文档结构、记录内容、更新周期 4、DIALOG的特点有哪些?(简答) (1)拥有最多的数据库;(2)拥有的用户数量最多;(3)服 务项目较多;(4)检索模式较多 5、世界上规模最大的综合性商业联机检索系统是DIALOG 6、DIALOG的检索模式有:菜单式检索、命令式检索、目标 检索、WWW检索 7、DIALOG的八种服务方式都是什么?(论述) (1)回溯性检索。利用回溯性检索,系统能够保证满足用户 查全某一课题或者领域方面的文献需要 (2)定题信息检索。DIALOG系统的数据库根据文献信息内 容更新周期或者根据用户检索要求,定期的向用户提供所需 的信息。 (3)商界链接服务。它是系统为满足用户的商业信息需求而 提供的一种菜单式信息检索服务。 (4)电子邮件服务。它是DIALOG系统提供的电子邮件传 递服务。 (5)原文订购服务。它是DIALOG系统提供的联机文献订 购服务 (6)多文档检索服务。它允许用户使用一个检索策略同时检 索多个数据库,而没有必要每检索一个数据库就重复输入检 索指令。 (7)DIALINDEX。它是DIALOG系统为用户提供的数据 库选择工具。 (8)其他服务。DIALOG还提供图像输出服务、报表生成服 务、光盘检索服务、通信软件和图像处理软件服务以及各种 培训服务。 8、DIALOG系统中,检索字段分为基本检索字段和辅助检 索字段 9、保证获得满意检索结果的前提是正确选择数据库 10、选择数据库应该遵循的原则有:内容原则、范围原则、 时效原则、费用原则 11、获取检索结果通常采用的方式有:联机显示、脱机打印、 订购原始文献

搜索引擎工作的基础流程与原理

参数,然后对相应站点进行抓取。 在这里,我要说明一下,就是针对百度来说,site的数值并非是蜘蛛已抓取你页面的数值。比 如site:https://www.360docs.net/doc/d04107830.html,,所得出的数值并不是大家常说的百度收录数值,想查询具体的百度收录量应该在百度提供的站长工具里查询索引数量。那么site是什么?这个我会在今后的文章中为大家讲解。 那么蜘蛛如何发现新链接呢?其依靠的就是超链接。我们可以把所有的互联网看成一个有向集合的聚集体,蜘蛛由起始的URL集合A沿着网页中超链接开始不停的发现新页面。在这个过程中,每发现新的URL都会与集合A中已存的进行比对,若是新的URL,则加入集合A中,若是已在集合A中存在,则丢弃掉。蜘蛛对一个站点的遍历抓取策略分为两种,一种是深度优先,另一种就是宽度优先。但是如果是百度这类商业搜索引擎,其遍历策略则可能是某种更加复杂的规则,例如涉及到域名本身的权重系数、涉及到百度本身服务器矩阵分布等。 二.预处理。 预处理是搜索引擎最复杂的部分,基本上大部分排名算法都是在预处理这个环节生效。那么搜索引擎在预处理这个环节,针对数据主要进行以下几步处理: 1.提取关键词。 蜘蛛抓取到的页面与我们在浏览器中查看的源码是一样的,通常代码杂乱无章,而且其中还有很多与页面主要内容是无关的。由此,搜索引擎需要做三件事情:代码去噪。去除掉网页中所有的代码,仅剩下文本文字。②去除非正文关键词。例如页面上的导航栏以及其它不同页面共享的公共区域的关键词。③去除停用词。停用词是指没有具体意义的词汇,例如“的”“在”等。 当搜索引擎得到这篇网页的关键词后,会用自身的分词系统,将此文分成一个分词列表,然后储存在数据库中,并与此文的URL进行一一对应。下面我举例说明。 假如蜘蛛爬取的页面的URL是https://www.360docs.net/doc/d04107830.html,/2.html,而搜索引擎在此页面经过上述操作后提取到的关键词集合为p,且p是由关键词p1,p2,……,pn组成,则在百度数据库中,其相互间的关系是一一对应,如下图。

信息检索论述题解答——学位论文开题相关文献资源的收集、整理与提炼

信息检索论述题解答——学位论文开题相关文献资源的收集、整理与提炼 By 爱吃萝卜的猫猫论述题(40 分):试论学位论文开题前相关文献资源的收集、整理与提炼要求:1. 文献资源的检索思路 2. 文献资源的检索方法 3. 最终提炼过程 4.1800 字以上学位论文的撰写,是我们在校大学生、研究生必经的一个过程,它既是对学生研究能力和创新能力的培养,又是对学生知识、能力的全面考查和全面提升。这一过程中非常重要的一步就是确定自己要研究的问题,即选题。它大致要经过初步设想、调查研究和最终立题3 个基本程序。在开题之前,我们一般会对自己所要研究的有一个初步设想,或者在导师的指导下,实验室师兄师姐们的启发下,大致确定自己的研究方向。然后就应该着手开展广泛的调查研究,查阅相关文献,以修正或完善选题。通过本学期的信息检索课程学习,我收获良多,这对日后学位论文开题前相关文献资源的收集、整理与提炼也有很大的帮助。图书馆,对于我们学生而言,是文献检索的首选之处。因为我的专业是管理科学与工程,所以我的研究方向会是与信管或者物流有关。而我对物流中供应链比较感兴趣,因此可以大概确定了论文研究的大方向。在明确研究方向之后,我将按下面思路进行相关文献检索: 1. 分析研究检索课题,明确文献检索要求。分析检索课题,将检索课题分解成各个单元概念,注意分清主次概念,以便检索时有所侧重;确定是否存在与课题要求无关的概念,设法排除它们,从而保证检索提问式的精确表达;一些泛指概念(如研究、方法等)一般不宜使用。例如,供应链是个很宽泛的方向,由于学识、精力和时间都有限,不可能对其各个方面进行深入研究,因此需要对其中感兴趣的某个或几个原理进行分析研究,尽量缩小范围。通过平时相关课程的学习,实验室同门所研究的相关方向,导师的指导意见,决定对供应链中牛鞭效应或曲棍球棒效应进行研究,那么,在检索过程中,侧重点是“牛鞭效应”和“曲棍球棒效应”,将“研究”概念去掉,用逻辑“或”组配“牛鞭效应”、“曲棍球棒”、“曲棍球杆”,然后用逻辑“与”组配“供应链”会较好地得到相关的文献。同时应明确文献检索的范围(管理学(或管理科学)学科)、文种(中文和英文)、国家或地区(国内外)、时间或年代(时间不能太久远,一般是5-10 年之内),以及要求的文献类型(期刊、会议、学位论文、图书等)。 2. 编写检索策略。它包括以下几个内容:检索系统的确定,检索途径的确定,检索方法的选择,检索词的选定,检索过程中的方案调整。① 检索系统的确定。我选择的检索系统是要涵盖管理科学或管理这门学科的,在图书馆的数据库资源中,国内的数据库资源有:CNKI 中国知识资源总库、万方数据资源系统、超星数字图书馆、维普中文科技期刊数据库;国外的数据库资源有:ABI 数据库、EBSCO、 Emerald、SpringerLink、Elsevier 等。② 检索途径的确定。检索途径一般有题名检索、作者检索、序号检索、分类检索、主 By 爱吃萝卜的猫猫题检索、关键词检索等等。选定的检索系统一般都会具有多种检索途径。检索方法一般有快速检索(quick search)、高级检索(advanced search)、专业检索(expert search)等。在这里我选择的检索途径主要是关键词检索,检索方法有快速检索和高级检索,主要应用到两种检索技术,一是布尔逻辑检索技术,二是截词检索技术。布尔逻辑词有逻辑与(“AND” 或“*”)、逻辑或(“OR”或“+”)、逻辑非(“AND NOT”或“-”)。在外文数据库中,还可应用截词符“*”,可用在检索词的前方、后方或中间来替代部分字母,为了查全西文单词中的词的不同形式。③ 检索方法的选择。主要运用到追溯法(获得几篇重要文献后,再利用其后的参考文献继续追溯查找)、浏览法(利用本学科的核心期刊来查找文献)。④ 检索词的选定。为了确定关键词的范围,可以采取以下几种方法:使用同义词、近义词,尽可能全面覆盖检索范围,如,“曲棍球”、“曲棍球棒”和“曲棍球杆”是一组同义词,“曲棍球棒效应”和“曲棍球棒现象”是一组同义词,对应的英文“hockey stick”或“shinny”;使用限定词,通过对关键词的年代、学科、数量

相关文档
最新文档