现代信息检索第8章

合集下载

第八章 联机检索

第八章  联机检索

四、联机检索系统的功能 1.单词检索 1.单词检索 2.词组检索 2.词组检索 3.布尔逻辑检索 3.布尔逻辑检索 4.截词检索 4.截词检索 5.位置检索 5.位置检索 6.限制检索 6.限制检索
五、联机检索系统的选择 1.数据库的信息覆盖和时间范围 1.数据库的信息覆盖和时间范围 2.检索功能和打印格式 2.检索功能和打印格式 3.原文联机订购 3.原文联机订购 4.检索费用 4.检索费用
二、STN系统 二、STN系统 (一)概况 STN系统创建于1983年,由德国卡尔斯 STN系统创建于1983年,由德国卡尔斯 鲁厄专业信息中心、美国化学文摘社和日 本科技信息中心合作开发,是当今世界著 名的国际联机检索系统之一。
(二)联机方式 1.STN Easy 2.STN on the Web 3.STN Express with Discover!
【思考题】 思考题】 1.什么是联机检索系统? 1.什么是联机检索系统? 2.试述联机检索的特点。 2.试述联机检索的特点。 3.联机检索系统主要支持哪些检索功能? 3.联机检索系统主要支持哪些检索功能? 4.联机检索系统的服务方式有哪些? 4.联机检索系统的服务方式有哪些?
5.选择使用联机检索系统时应考虑哪些因素? 5.选择使用联机检索系统时应考虑哪些因素? 6.简述网络环境下传统联机检索的发展。 6.简述网络环境下传统联机检索的发展。 7.试述DIALOG系统及其检索。 7.试述DIALOG系统及其检索。 8.试述STN系统及其检索。 8.试述STN系统及其检索。 9.利用OCLC的FirstSearch系ห้องสมุดไป่ตู้检索关于电子政 9.利用OCLC的FirstSearch系统检索关于电子政 务的信息。
六、网络环境下联机检索系统的发展 1.建立网站,推出网上服务 1.建立网站,推出网上服务 2.调整收费制度,吸引更多用户 2.调整收费制度,吸引更多用户

中国科学院大学现代信息检索课后习题答案

中国科学院大学现代信息检索课后习题答案

《信息检索导论》课后练习答案王斌最后更新日期 2013/9/28第一章布尔检索习题1-1 [*] 画出下列文档集所对应的倒排索引(参考图1-3中的例子)。

文档 1 new home sales top forecasts文档 2 home sales rise in july文档 3 increase in home sales in july文档 4 july new home sales rise习题1-2 [*] 考虑如下几篇文档:文档1 breakthrough drug for schizophrenia文档2 new schizophrenia drug文档3 new approach for treatment of schizophrenia文档4 new hopes for schizophrenia patientsa. 画出文档集对应的词项—文档矩阵;解答:breakthrough 1 0 0 0drug 1 1 0 0for 1 0 1 1hopes 0 0 0 1new 0 1 1 1patients 0 0 0 1schizophrenia 1 1 1 1treatment 0 0 1 0b. 画出该文档集的倒排索引(参考图 1-3中的例子)。

解答:参考a。

习题1-3 [*] 对于习题1-2中的文档集,如果给定如下查询,那么返回的结果是什么?a.schizophrenia AND drug解答:{文档1,文档2}b.for AND NOT (drug OR approach)解答:{文档4}习题1-4 [*] 对于如下查询,能否仍然在O(x+y)次完成?其中x和y分别是Brutus和Caesar所对应的倒排记录表长度。

如果不能的话,那么我们能达到的时间复杂度是多少?a.Brutus AND NOT Caesarb.Brutus OR NOT Caesar解答:a.可以在O(x+y)次完成。

信息检索概论思考题答案

信息检索概论思考题答案

第一章信息检索概论思考题:1.什么是信息?简述信息的特点和分类?我们认为,信息是事物或事物之间不确定性的量度,即负熵。

掌握的信息越多,所需认识的事情的确定性就会越少。

信息由信源,信宿和信道(载体)构成。

信息的特点:(1)客观真实性:客观、真实是信息的最重要的本质特性(2)普遍性:信息是物质的普遍属性,物质是具有普遍性,所以信息也拥有该特性(3)针对性:信息的作用和价值可以随着接受者的不同而不同(4)传递性:过程:信息源(信息的发出者)——>编码—>信道(载体)—>译码—>信宿(信息的接收者)信息源:是信息的发出者信宿:是信息的接收者信息的传播是双向的,多维的。

信息源和信宿是相对的,也是可以相互转换的。

信道:就是在传播过程中,编码经过的物理通道(5)时效性:指信息发出、接收到利用的时间间隔及效率,也包括信息的本身更新速度。

客观物质不断的变化,反映事务的运动状态和运动方式的信息也会发展变化一般而言,随着时间的推移,信息的价值会逐渐减少也有反例:如考古信息(恐龙、古钱币),年代越久,使用价值越大衡量信息的时效性参数不只是时间参数,还有地理环境(6)可转换性:信息可以从一种形态转换成另一种形态(7)可处理性(可识别性):可以通过人们的感觉器官所感知,也可以通过仪表、器械来检测进而予以识别。

(8)可共享性:指同一内容的信息可以在同一时间里被若干个用户使用,此时信息载体本身的信息量不会被磨损、消失信息的类型:(1)按信息表现形式划分,可分为文字信息,图象信息,数值数据信息,语音信息。

▪文字信息:文字是人们为了实现信息交流、通信联系所创造的一种约定的形象符号。

▪图象信息:图象(形)是一种视角信息,它比文本信息直接,易于理解。

如,一幅画、一部电影。

▪数值数据信息:数值数据是“信息的数字形式”或“数字化的信息形式”。

▪语音信息:人讲话实际是大脑的某种编码形式的信息转换成的语言信息的输出,是一种最普遍的信息表现形式。

文献信息检索第8章 习题与答案

文献信息检索第8章 习题与答案

第8章思考与练习1.掌握工具书的定义及其特点,了解工具书的类型及其主要用途。

答:工具书又称资料型检索工具,指能为读者提供各种所需的具体资料的工具。

工具书按特定的方式汇编某学科或某范围的知识及资料,大都以图书的形式出版,具有一般图书所具有的各种属性,属于三次文献,但内容及编排方面,与普通图书有本质的区别。

特点:(1)知识性。

(2)检索性。

(3)概括性。

类型及主要用途:(1)字典、词典。

字典是解释字的形、音、义及其用法,词典则是解释语词的概念、意义与用法。

(2)百科全书。

百科全书是汇集人类一切门类知识或某一学科门类所有知识的概述性工具书。

(3)年鉴。

年鉴是汇集过去一年内的重要时事文献和统计资料,按年度连续出版的工具书。

为我们掌握某学科领域一年内的发展趋势和一年中的新成果提供了一个重要途径。

(4)手册。

手册又称指南、要览、全书等,它是把某一主题或学科常需参考的文献资料、专业知识等汇集在一起以供人们随时查阅的工具书。

(5)名录。

名录是提供人名、地名、机构名等简要资料的工具书。

(6)表谱。

表谱是汇集某一方面、某一专题的有关资料,采用图表、谱系形式简明、扼要地汇载史实的工具书。

(7)图录。

图录是汇集某一方面的事物并用图形、图像加以描绘,再按一定的方式编排而成的工具书。

2.学会快速利用百科全书、年鉴、机构名录、词典等手工检索和网上的各类型参考工具。

略3.某同学在看一本文言文书籍的时候遇到两个生字“刈”和“谥”,请帮他检索这两个字的读音与意义。

要求用记事本写出检索步骤和检索结果。

答:检索步骤:1)打开网上搜索引擎“百度”,输入“在线新华字典”,点击【百度一下】;2)点击首条检索结果的题名链接“在线新华字典”,进入“汉语字典”电子版网页界面;3)选择按照部首查字法,查偏旁部首笔画找“刂”和“讠”;再按字的总笔画“4划”和“12划”找到“刈”和“谥”。

检索结果:“刈”拼音:yì;字义:割(草或谷类):刈除。

信息检索课程教学大纲

信息检索课程教学大纲

《信息检索》课程教学大纲课程类别:专业基础课适用专业:计算机应用技术适用层次:高起专适用教育形式:成人教育考核形式:考试所属学院:计算机科学与技术学院先修课程:无一、课程简介《信息检索》是高等教育自学考试信息管理与服务(专科)专业的统考课程。

通过本课程的学习,要求学生掌握互联网信息检索的基本方法和技巧,较为熟练地掌握使用互联网检索工具对网络信息进行检索的基本方法,掌握信息检索的基本原理,了解重要的多媒体信息、学术信息、参考信息等各类信息的中英文搜索引擎,能将检索的技能用于日常的学习、生活和工作,从而培养学生的信息素养和终身学习的能力。

二、课程学习目标本课程主要进行信息检索理论和实务的教育,帮助学生建立起信息检索与利用的观念,培养学生运用信息检索技能发现问题、分析问题和解决问题的能力。

三、课程主要内容和基本要求第1章绪论1.1 信息及其相关知识【识记】1、信息的概念2、知识的概念3、文献的概念【领会】1、信息的分类标准2、零次信息,一次信息,二次信息,三次信息的差异【应用】1.2 信息素质【识记】【领会】1、信息素质的内涵【应用】1.3 图书馆与Internet【识记】1、OPAC的概念2、CALIS的概念【领会】【应用】第2章信息检索基础2.1 信息检索概述【识记】【领会】【应用】1、信息检索的历史2、信息检索的发展趋势3、信息检索的意义2.2 信息检索语言【识记】1、检索语言的概念2、《中图法》概念【领会】【应用】2.3 信息检索技术【识记】【领会】1、限制检索2、位置检索【应用】1、布尔逻辑检索2、截词检索2.4 信息检索评价【识记】1、查准率概念2、查全率概念【领会】【应用】1、信息检索的评价指标第3章信息检索工具3.1 工具书【识记】1、工具书的概念2、数目的概念【领会】1、工具书的排检方法【应用】3.2 数据库【识记】【领会】【应用】3.3 搜索引擎【识记】1、索引概念2、搜索引擎的概念3、元搜索引擎的概念4、Google是全球第一大搜索引擎5、百度是全球最大的中文搜索引擎【领会】1、搜索引擎的4个功能模块【应用】1、搜索引擎的工作原理第4章中文图书馆信息的检索4.1 图书基本知识【识记】1、图书的概念2、ISBN的概念【领会】【应用】4.2 古籍信息的检索【识记】1、古籍的概念2、善本的概念3、四库全书概念4、二十四史概念【领会】【应用】4.3 近代以来图书信息的检索【识记】1、《全国总书目》概念【领会】1、图书信息的检索【应用】4.4 电子图书及其检索【识记】1、电子图书概念2、超星数字图书馆概念3、书生之家数字图书馆概念【领会】【应用】第5章中文期刊论文信息的检索5.1 期刊基础知识【识记】1、期刊的概念【领会】1、期刊的构成【应用】5.2 中国期刊全文数据库【识记】1、CNKI概念2、维普数据库概念【领会】【应用】1、CNKI的检索技巧5.3 中文科技期刊数据库【识记】【领会】【应用】5.4 中国数字化期刊群【识记】1、万方数据库的概念【领会】【应用】5.5 人大复印报刊资料全文数据库【识记】【领会】【应用】5.6 中文社会科学引文索引【识记】1、引文索引SCI概念2、中文社会科学引文索引CSSCI概念【领会】1、引文索引的作用2、CSSCI检索方法【应用】5.7 其它专业学术期刊论文的检索【识记】1、中国科技论文网概念【领会】【应用】第6章学位论文和会议信息的检索6.1 学位论文信息检索【识记】1、学位论文的概念呢2、PQDD的概念【领会】1、学位论文的特点与类型【应用】6.2 会议信息及其检索【识记】1、会议文献的概念2、ISTP概念【领会】1、会议文献的特点2、会议文献的类型【应用】第7章专利信息、标准信息和科技报告的检索7.1 专利信息的检索【识记】1、专利的概念2、专利文献的概念【领会】1、专利的类型2、专利的特点【应用】1、国际专利分类法IPC7.2 标准信息的检索【识记】1、标准的概念【领会】1、标准文献的特点【应用】7.3 科技报告信息的检索【识记】1、科技报告的概念【领会】1、科技报告的特点【应用】第8章外文信息的检索8.1 外文综合性信息的检索【识记】1、Web of science的概念2、Elsevier电子期刊3、Springer电子期刊4、Wiley-BlackWell电子期刊5、EBSCO全文数据库【领会】【应用】8.2 外文专业性信息的检索【识记】1、EI的概念2、IEEE/IETL 的概念3、ACM全文数据库概念【领会】【应用】第9章数值、事实型信息资源及OA信息资源的检索9.1 数值、事实型信息资源概述【识记】【领会】1、数值和事实数据库的主要类型【应用】9.2 人物信息和企业产品信息的检索【识记】1、Dialog企业信息检索系统【领会】【应用】9.3 年鉴的检索和利用【识记】1、年鉴的概念【领会】1、年鉴的类型2、年鉴的作用【应用】1、网络信息检索系统功能结构9.4 百科全书的检索和利用【识记】1、百科全书概念2、典型的百科全书【领会】1、百科全书的特点2、百科全书的类型【应用】9.5 字、词典的检索和利用【识记】1、词典,辞典,字典概念2、典型字典、辞典、辞典、网上在线辞典【领会】【应用】9.6 经济统计数据的检索和利用【识记】1、典型经济统计数据信息【领会】【应用】9.7 OA信息资源的检索【识记】1、OA概念【领会】1、OA出版模式的优势【应用】第10章网络信息检索10.1 网络基础知识【识记】1、万维网概念2、超文本传输协议(HTTP)概念3、超文本标记语言(HTML)概念4、通用资源定位程序(URL)概念5、主页概念6、链接概念7、浏览器概念8、Telnet资源概念9、FTP信息资源概念【领会】1、通用资源定位程序(URL)的组成部分2、浏览器的类型3、FTP信息资源的功能4、用户组信息资源的种类【应用】1、网络信息资源的种类与特点2、访问Telnet信息资源的过程3、通过FTP获取文件的步骤10.2 网络信息检索【识记】1、P2P概念【领会】1、网络信息检索的构成2、网络信息检索的特点【应用】1、网络信息检索的发展趋势10.3 多媒体信息检索【识记】【领会】1、图像信息检索2、音频信息检索3、视频信息检索【应用】1、多媒体信息检索原理2、多媒体信息检索服务的系统结构第11章学术规范与论文写作11.1 学术规范【识记】1、学术规范的概念【领会】1、学术规范的内容2、学术规范的原则【应用】11.2 论文写作【识记】1、学术论文概念【领会】1、学术论文特点【应用】1、学术论文的结构2、学术论文的写作程序四、课程学习的方法及特点对于信息检索系统原理的学习,应重在理解;对信息检索既能部分的学习,因实务性强,应针对搜索引擎的特点,认真学习,一方面从理论上掌握基本方法,另一方面通过练习和案例分析加深理解和运用,注重实际问题的解决;对文献检索,年鉴,论文撰写的学习,由于此部分问题较复杂,涉及面广,需要综合运用相关理论和方法,因此针对学生特点,主要是熟悉相关基本内容,通过案例阅读加深理解。

《计算机基础》信息检索资料

《计算机基础》信息检索资料


纸质书刊、资料 件、信息存储数据库、 检索软件、联机数据库、 端、通讯网络、网络数

通讯网络
通讯网络
据库
检索方法较简单,检索
设备简单,检索费用 检索范围广泛,检索速度
优 直观,信息存储
较灵活、方便,及时性
低,检索技术容 易掌 快,检索功能强,及时性
点 与检索费用低
好,检索费用和速度均



缺 检索入口少、速 点 度慢、效率较低
天网除提供WWW主页检索外,还提供FTP站点搜索(“天网文件”),为 高级用户查找特定文件提供方便。同时,天网将FTP文件分为电影和动画片、 MP3音乐、程序下载及文档资源共4大类,用户可以像目录导航式搜索引擎那样 层层深入、查找自己需要的FTP文件。
8.5 常用搜索引擎使用介绍
2.使用方法
(1) 启动方法
更新不够及时
检索技术复杂,设备要求 高、检索费用昂贵。
8.3 网络检索系统
1. 用户如何在网络上找到信息?
解决之道:搜索引擎
2. 搜索引擎的分类:
目录(Directory,或 Catalog); 基于Robot的搜索引擎; 元搜索引擎 (用得较少)。
8.3.1 目录
目录:目录方式所使用的数据库是依靠专职编辑或志愿人员建立起来的。 目录的用户界面基本上都是分级结构。有两种使用方式:
当用户只知道需要检索的大致内容,而没有明确的关键词时,可以使用分类检 索。
【例8.1】:查找西 安交通大学的网页。
方法: • 从“网站分类”逐步查找
8.5 常用搜索引擎使用介绍
• 找到目的网页, 双击打开。其中 名称后面的@号 表示还有下一级 目录。
启动IE浏览器,在地址栏输入:

信息检索教程(第三版)PPT9


8.1.2 网络信息资源的特点
网络信息资源与传统信息资源相比,有着明显的优势。但同时也存在一些缺点。 1.网络信息质量参差不齐,良莠不一 由于互联网是一个开放性网络,网络接入者在存储和发布信息时有很大的自由度。在
互联网上,任何人都可以不受限制地自由出版、发布自己的网页,分布式存储成为网 络环 境中信息资源存在的主要形式。这必然导致大量冗余、粗制滥造甚至虚假的信 息在无 “政 府”的网络上迅速传播、膨胀。
8.1.4 网络信息资源的分布
5.电子论坛和电子会议 互联网上设有 USENET及Listserv电子论坛,也称新闻讨论小组。U
SENET及 Listserv都是由成千上万个专题讨论小组构成。每个小组是 由某一主题参与的文章所构成。 USENET与Listserv类似,但是,前者范围更广泛,几乎无所不包,一 般不需订购便可 参与;而后者较为严肃,而且更趋学术性,通常还需订购方可参与。
8.1.4 网络信息资源的分布
6.网上专利信息 网上的专利信息资源主要分布在以下: ①联机检索系统中的专利数据库。一些知名的联 机检索系统中都包含与专利有关的数
据库。 ②专利管理机构网站提供的信息。专利管理 机构网站主要是指各国 (地区)或地方专
利局的主页或者由它们及其下属机构开发的网 站。 ③数据库出版机构提供的信息。
4.按照网络信息的内容和用途划分,可以分为普通型、专门资料型、数据资料型和 即时资料型。
5.按照信息的表现形式划分,可以分为全文型、数值型、书目文献型和实时活动型。 6.按照传输协议的不同,可以分为 WWW 信息资源、Telnet信息资源、F
TP信息资 源、网络论坛和Gopher信息资源。
8.1.4 网络信息资源的分布
计算机磁介质、光介质以及各类通信介质上的,并通过计算机 网络通信方式进行传 递的信息内容的集合”。

信息检索各章节习题及答案

第一讲一、单选题1、ISBN 978-7-302-20062-8是( D )。

A.强制标准文献的编号 B.国际连续出版物标准刊号C.图书分类号 D.国际标准书号2、一篇论文列出的参考文献如下:郑义.房屋建组外墙渗水成因与防治[J].科技资讯,2005(35):184—185.其中的(35):184—185应该是(A)。

A.35期184—185页 B.35卷184—185期C.35卷184—185页 D.35期184页185行3、下列选项中不属于特种文献类型的有( B )。

A.学位论文 B.图书C.科技报告 D.标准文献4、1、文献是记录有知识的( A)。

A. 载体B. 纸张C. 光盘D. 磁盘5、中国国家标准的代码是(A)A. GBB. CBC. ZGD. CG二、填空题1、情报的三个属性(知识性)、(传递性)、(效益性)。

2、填空题:文献按起加工深度不同,可以划分为(零次信息)、(一次信息)、(二次信息)、(三次信息)。

3、(核心期刊)是指少数刊载某一学科大量高质量专业论文的期刊。

三、判断题1、从文献检索的角度来看,一次文献是检索对象,二次文献是检索手段。

( 1)2、在众多的信息源中,期刊是最重要的信息源。

(1)3、连续出版物主要包括期刊、报纸、年度出版物等。

( 1)四、简答题1、常用的特种文献有哪些?答:科技报告、会议文献、政府出版物、专利文献、标准文献、公司产品资料、学位论文、档案资料等2、我国信息系统结构。

答:图书馆系统(高校图书馆、公共图书馆、科学研究系统图书馆)、科技信息服务系统、档案系统、专利系统、标准系统3、信息道德主要内容。

答:信息道德是指在信息领域中用以规范人们相互关系的思想观念与行为准则。

信息道德主要包括:1)遵守信息法律、法规,尊重知识产权,保护个人隐私;2)保守商业秘密,维护信息安全;3)不制作、传播和消费不良信息;4)不制作和传播病毒等有害的东西;5)不窃取和盗用非法的信息;6)不非法进入他人的系统;7)不利用信息能力进行计算机犯罪等。

国科大现代信息检索第二次作业

国科大2013年秋季《现代信息检索》第二次作业(第六章到第十五章)以下1—16每题6分,第17题3分,共计100分。

1. 习题 6—10 考虑图6—9中的3篇文档Doc1、Doc2、Doc3中几个词项的tf 情况,采用图6—8中的idf 值来计算所有词项图6-9 习题 6—10中所使用的tf 值car 在三篇文档中的tf —idf 值分别:Doc1:27*1.65=44.55;Doc2:4*1.65=6.6;Doc3:24*1.65=39。

6 auto 在三篇文档中的tf -idf 值分别为:Doc1:3*2.08=6。

24;33*2。

08=68。

64;0*2。

08=0 insurance 在三篇文档中的tf —idf 值分别为:Doc1:0*1。

62=0;33*1.62=53。

46;29*1.62=46。

98best 在三篇文档中的tf —idf 值分别为:Doc1:14*1。

5=21;0*1。

5=0;17*1.5=25。

52. 习题 6—15 回到习题6—10中的tf—idf 权重计算,试计算采用欧氏归一化方式处理后的文档向量,其中每个向量有4维,每维对应一个词项。

Doc1=(44.55,6.24,0,21), Len(Doc1)=49。

6451对其长度归一化得到Doc1=(0。

897,0。

126,0,0.423) Doc2=(6。

6,68。

64,53.46,0),Len (Doc2)=87。

2524对其长度归一化得到Doc2=(0.076,0.787,0.613,0)Doc3=(39。

6,0,46。

98,25.5),Len (Doc3)=66。

5247对其长度归一化得到Doc3=(0.595,0,0。

706,0。

383) 3.习题 6-19 计算查询digital cameras 及文档digital cameras and video cameras 的向量空间相似度并将结果填入表6-1的空列中。

《信息检索与利用题集及答案》

《信息资源检索与利用100题集及答案》姓名:陈晨学号:110803021101班级:11级材料一班第一章绪论1.简述科技文献检索的意义。

答:人们无论学习、工作,还是进行科学研究,都离不开文献的检与利用。

具体来说,科技文献检索具有以下六个方面的意义:(1)有利于大学生信息素养的培育;(2)有利于复合性、开拓性人才的培养;(3)有利于促进智力资源的开发利用,推动社会进步与发展;(4)有利于帮助研究人员继承和借鉴前人的成果,避免重复研究和走弯路;(5)有利于节省研究人员查找文献的时间,提高科研效率;(6)有利于为决策提供科学依据。

2.信息、知识、情报、文献的概念是什么?答:(1)信息是被反映事物属性的再现。

信息不是事物本身,而是由事物发出的消息、指令、数据等所包含的内容。

(2)知识是人类认识的成果和结晶,是人类在认识和改造世界的社会实践中获得的对事物本质的认识。

(3)情报是人们在一定时间内为一定目的而传递的具有使用价值的知识或信息。

(4)文献是各种知识或信息载体的总称。

其由知识信息内容、载体材料和记录方式三要素组成。

3.试述科技文献检索的定义及作用。

答:所谓科技文献检索,是指文献资料的查找与获得。

其作用是检索者利用检索工具按照文献编排特点,采取一定的途径、方法和步骤迅速、准确地查获自己所需要的文献资料,便于学习、工作和进行科学研究。

4.科技文献有什么特点?答:现代科技文献的发展具有以下明显特点:(1)数量急剧增长;(2)内容交叉重复;(3)文献出版分散;(4)文献失效加快;(5)文献语种增多;(6)文献载体电子化,文献传播网络化。

5.试述一、二、三次文献的概念?它们之间的关系如何?答:(1)一次文献是作者在科学研究、教学和生产实践中以自己的研究成果为依据创作而成的文献,又称一级文献或原始文献;(2)二次文献是文献情报人员将大量分散的、无序的原始文献进行筛选、整理、报道和组织所形成的文献,又称二级文献或检索性文献;(3)三级文献是利用二级文献的线索,系统地检索出一批相关文献,并对其内容进行综合、分析、研究和评述而编写出来的文献,又称三级文献或参考性文献。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

在过滤服务器端过滤
信息提供者将信息发送给过滤服务器 过滤服务器根据用户的Profile将匹配信息发给用户 代表系统SIFT
在用户端过滤
是一个局部过滤系统 如Foxmail或outlook的过滤功能。
中科院研究生院2009年度秋季课程 17
从过滤方法分
基于感知的过滤(Cognitive filtering)
26
Filtering component
IF系统的核心模块 将User Profile和文档的表示进行相似度计算 做出二值判定或者根据概率大小将文档进行排 序 用户可以对过滤结果进行判定 判定信息传给学习模块以便对用户的Profile进 行调整。
中科院研究生院2009年度秋季课程
27
Learning component
介于显式和隐式之间的方法
文档空间方法:将用户标注过的文档作为正例,新来的文档和它们 比较,选择相似度大的文档。 代表系统:SIFTER
显式和隐式相结合的方法
Stereotypic inference:开始定义一些默认的Profile,根据用户的过滤 过程进行修改。 代表系统:UM
中科院研究生院2009年度秋季课程 21
根据用户的反馈信息对用户的Profile进行 调整,以便提高以后的过滤效果 检测用户的兴趣漂移
中科院研究生院2009年度秋季课程
28
IF系统中的两个概念
基于统计的系统(System based on the statistical concept) 基于知识的系统(System based on the knowledge-based concept)
信息过滤系统示意图
数据源
User Profiles
过滤 数据
过滤器
用户
中科院研究生院2009年度秋季课程
6
信息过滤系统的特点
新信息的产生速度很快,人的兴趣变化速度赶 不上信息的变化速度。可以说,人的兴趣变化 比较缓慢,可以看成相对静态的和稳定的。 信息过滤主要借用信息检索和用户建模(User modeling)两个领域的技术。 用户的需求或者兴趣通常采用User Profile建模 来表示。 新信息到来的时候,根据用户的User Profile, 有选择地挑出信息给用户。
显式方法: 填写表格,直接交互 隐式方法:对用户行为的观察 浅层语义:如关键词 增强的用户模型中包含更多关于用户的高级知识 (如背景经历)
模型中的数据:
采用构架(Underlying Architecture)
Semantic networks/Stereotypic inference/Statistical inference on the relationship between words in docs
中科院研究生院2009年度秋季课程
3
提纲
信息过滤的基本概念 信息过滤系统的分类 信息过滤系统的组成 信息过滤系统的评估 信息过滤的现状及发展趋势
中科院研究生院2009年度秋季课程
4
信息过滤的定义
从动态的信息流中将满足用户兴趣的信息挑选 出来,用户的兴趣一般在较长一段时间内比较 稳定不会改变(静态)。 其他名称:
1
课前思考题
信息过滤的概念是什么?它和一般的信 息检索、信息分类、信息抽取有什么区 别? 信息过滤的类型有哪些?基于内容的过 滤和基于协作的过滤有什么不同? 信息过滤的构成和各部分功能如何? 信息过滤系统如何评估?
中科院研究生院2009年度秋季课程 2
提纲
信息过滤的基本概念 信息过滤系统的分类 信息过滤系统的组成 信息过滤系统的评估 信息过滤的现状及发展趋势
中科院研究生院2009年度秋季课程
7
信息过滤系统数据流图
Collection Selection Display
Collection
Selection
Display
看上去很象IR!
中科院研究生院2009年度秋季课程 8
IF vs. IR (1)
IF是可以看成广义IR的一部分,即和Adhoc Retrieval相 对的一种任务模式。IR通常采用Pull模式,而IF通常采 用Push模式。 IF一般都借用狭义IR中的表示和计算方法。 和Adhoc Retrieval相比:
中科院研究生院2009年度秋季课程
9
IF vs. IR (2)
Filtering
Retrieval
中科院研究生院2009年度秋季课程
10
IF vs. IC (Info. Classification)
IF可以采用IC中的分类算法。 某些场合下人们所称的“信息过滤”实际 就是一个IC问题。如不经过用户Profile调 整的垃圾邮件过滤。 IC中的Category通常不会变化,相对而 言,IF的User Profile会动态调整。
中科院研究生院2009年度秋季课程
24
User-model component
显式或隐式地获得用户的一些相关信息 构建用户Profile模型(规则表示模型、向 量模型、文档中心模型等等) 将用户模型传给过滤模块 用户模型必须要和文档表示模型具有可 比性
中科院研究生院2009年度秋季课程
25
用户建模不仅仅用于过滤 (Beyond Filtering) Search for people based on their behavior
Discovery of potential collaborators
Collaborative data mining in large collections
Discoveries migrate to people with similar interests
中科院研究生院2009年度秋季课程
中科院研究生院2009年度秋季课程
11
IF vs. IE
Information Extraction是从无格式数据源 中抽取相关字段的过程。比如抽取恐怖 事件的时间、地点、人物等字段。 IE中不太关注相关性,而只关注相关的 字段。IF中要关注相关性。
中科院研究生院2009年度秋季课程
12
IF 的一些应用
中科院研究生院2009年度秋季课程
29
基于统计的IF系统
用户建模模块:
Profile采用Term的权重向量来表示(如VSM, LSI)
过滤模块:
相关系数计算,Cosine距离 概率检索模型(PRM) 采用Bayes分类器进行计算
学习模块
进行相关反馈和查询重构(如采用Rocchio公式)
中科院研究生院2009年度秋季课程
也称为基于内容的过滤(Content-based filtering) 将文档内容和用户的Profile进行相似度计算 代表系统CiteSeer
基于社会的过滤(Sociological filtering)
也称为协同过滤(Collaborative filtering 对某个用户的Profile进行匹配时,通过用户之间的相似度来计 算Profile和文档的匹配程度 基于社会过滤的系统常常称为推荐系统(Recommendation systems) 社会过滤常常使用用户建模(User modeling)及用户聚类(User clustering)等技术。 社会过滤一般不单独使用,常常和基于内容的过滤配合使 用。 代表系统:RINGO、GroupLens
Selective Dissemination of Information(SDI),来自图 书馆领域。 Routing,来自Message Understanding。本质上, Routing和IF还有所区别,它注重结果的排序 Current Awareness, 来自Data Mining。
中科院研究生院2009年度秋季课程 5
30
基于知识的IF系统
采用规则(Rule-based)或者语义网 (Semantic-nets)的过滤系统
规则:如果…那么… User profile采用语义网(如利用wordnet)
基于神经网络的过滤系统 基于遗传算法的过滤系统
中科院研究生院2009年度秋季课程
31
IF系统中的用户建模
建模数据的获取办法:
搜索引擎检索结果的过滤:Google 个人的邮件过滤 新闻订阅和过滤 浏览器过滤 面向儿童的过滤系统 面向客户的过滤系统和推荐系统
中科院研究生院2009年度秋季课程
13
提纲
信息过滤的基本概念 信息过滤系统的分类 信息过滤系统的组成 信息过滤系统的评估 信息过滤的现状及发展趋势
中科院研究生院2009年度秋季课程
A B C : Z
9 3 : 5
A B C 9 : : Z 10
A B C : Z
5 3 : 7
A B C 8 : : Z
A 6 B 4 C : : Z
A 10 B 4 C 8 . . Z 1
Correlation Match
A B C : Z
9 3 : 5
A 10 B 4 C 8 . . Z 1
Active User
data items (a) Data Analyzer Component
(c) User-Model Component
(b) Filtering Component
中科院研究生院2009年度秋季课程
23
Data-analyzer component
靠近信息提供方 从信息提供方获得或搜集数据 分析文档并将文档转化成相应表示 (如 布尔模型表示、向量空间模型表示等等) 将上述表示传给过滤模块
现代信息检索 Modern Information Retrieval
第八章 信息过滤(Information Filtering) 授课人:王斌 wangbin@ /~wangbin/ 2009年12月
相关文档
最新文档