lecture6-tfidf 信息检索导论 王斌 PPT 课件 第6章

合集下载

信息检索概论PPT课件

信息检索概论PPT课件

期刊
Chun,Lu,and n, “Dynamic Analysis of Clamped Laminated Curved Panels” Composite Structures 30.4. (1995):389-396
ISSN 的含义(International Standard Serial Number)
第一章 信息检索概论
内容简介
1.1 信息素养教育 1.2 文献信息的基本概念 1.3 文献信息的类型与特点 1.4文献信息的分布规律
1.1信息素养
Information Literacy
也称信息素质或信息文化,是全球一体化、 全球信息化大环境下需要人们具备的一种基本能 力。
信息素养这一概念是美国信息产业协会主席保 罗·泽考斯基(Paul Zurkowski)于1974年在提 出的。
【实例】在《EBSCO》数据库的期刊论文著录格式如下: China Investment:Which Way To Profit? By: Wang Yong ; Chen Wen.Beijing Review,11/6/2003,Vol.46 Issue 45,p10,4p, 1c;(AN 11588866)
3.图书类型 阅读用书:包括教科书、专著、文集等。 参考工具书:是供人们释疑解难、翻检查考的出
版物。
【实例】《中国大百科全书》、《四库全书》、 《古今图书集成》、《大英百科全书》
检索用书: 是以图书形式刊行的书目、题录、文 摘等,是供人们查找一定范围内信息线索的出版 物。
【实例】《四库全书总目提要》、《中国国家书 目》、《全国总书目》、《全国新书目》
report,
Sci-Tech
proceedings (Pro.) specification

最新课件信息资源检索教程

最新课件信息资源检索教程

方 法
借鉴选题法
就是利用一种方法、制度等在某国某地某企业获 得成功的经验或导致失败的教训,探讨如何解决 自己关心的问题,或如何进一步完善现行的方法、
措施、对策等。
事件选题法
这里的“事件”是指国家的一些重大活动、重大 政策出台、重大的方针政策调整等。这些重要事 件,为论文选题提供了明确的领域或方向。
实验条件应确实可靠,实验重现性要好。
2.列写作提纲要注意的问题
对实验结果应进行客观严密的验证。 由数据推导出的结果或结论必须正确。 结论、成果的应用范围与前提和方法之间关系要正确。 文章的内容、格式及表现手法要能充分地表达写作目的。 要注意发表文章的礼节,对他人在写作论文过程中给予的 协助要表示谢意。 用词要恰当,要谦虚,不要对自己所取得的成果言过其实。
课件信息资源检索教程
第六章 科技写作
1
科学论文的含义与种类
2
科学论文的特点与作用
3
科学论文的选题和准备
4
科学论文的写作
5
毕业设计说明书和毕业论文的写作
3.学术论文选题要点
突出反映作者在研究课题中,有创见性的成果,但选题范围 不宜过宽。 对理论研究课题,要以理论分析为主,突出学术价值。
对应用研究、实验研究的课题,要从理论与实践结合上突出 研究的成果。
从实践出发,从有实用价值的课题中选题。
4.科学论文的准备
4.1 制定研究计划 4.2 查阅资料或现场调查 4.3 制定实验方案 4.4 开展实验研究 4.5 实验结果的整理和提炼
1
2
制定研究计划,包括研3究 的进查度阅,资实料验和的现安场排调,查实,4其 验 费所 、目 工需 设的 作的 备制 研是 ,原 、定 究了 掌料 仪实 课解 握、 器验 题他 所材 等人 要方,料 的已研案设、筹做究计,经集过问证就的题实是5本根课据 ,以的及全最题部后结发完论展成的过的程实时,验间以,,及以了便得到 均 可 人 人应 共 的行解 有 是 横有 同 职,关 纵 向已留所 研 责可 实 而 实研 向 调经有考 究 。验定 验靠在 验 作 。进究 调 研虑 ,余工、 。 ,行研 。实 操。 观, 还地归 选作完 有 有, 这或验 作察这都 应。取纳。 现 样正要的 的整过中里、应 明若能、查场调要根需 则的程的最观属切确突整阅调研进据要要实中偶重察多实各出理行资查的具进求验然要,、论实的料是结体行进结发的要记点验情模行果现是进录记,况拟硬。观行等,录反察实工一映,事要

信息检索课件

信息检索课件

综合性图书 水利工程
自然科学
N O
P
TP TQ TS TU TV
哲学 马列
历史、地理 文学 艺术 语言 文教、科学、体育 经济 军事 政治、法律 社会科学总论 哲学 马列主义、毛泽东思想 社会科学 A B C D E F G H J I K
标准二
高效获取所需信息
信息源分布(图书馆、网络资源、专业协会、 研究机构等) 选用恰当的调查研究方法 信息检索系统中利用有效方法和检索策略 (如关键词、相关术语、规范化语言、逻辑算 符、命令语言)

标准三
能客观、审慎地评估信息与信息源


概括信息源的适用性 评价和比较信息的可靠性、权威性、时 效性 综合主要观点的逻辑统一、可查实性
标准的种类

标准按内容可分为:
(1)基础标准 (2)产品标准 (3)方法标准

按范围分:
(1)国际标准 (2)地区标准 (3)国家标准 (4)专业标准 (5)企业标准

按成熟程度分:
(1)正式标准(2)试行标准(3)推荐标准(4)标准草案 我国国家标准代号为GB(汉语拼音GUO BIAO缩写),中间是 标准顺序号;最后是此项标准颁布的年代。如: GB—8— 1989,即为1989年颁布的第8号国家标准。 ISO是由国际标准化组织制定的国际标准。
标准四
个人或作为群体的一员能有效地利用信息 以完成特定的任务
应用信息创造成果、完成项目(如完成课题报 告、学位论文等) 为实现成果和目标修正学习过程 选用最有力的交流媒体和形式

标准五
获取与使用信息要符合道德与法律规范
识别并研究印刷型、电子型信息环境的隐私和安 全 免费和收费信息 知识产权、版权 合适的文献格式,引用格式等

信息检索课件汇总全书电子教案完整版课件(最新)

信息检索课件汇总全书电子教案完整版课件(最新)
1.1.4 文献的分类
1.文献按其出版形式分类 (1)图书(Book) (2)期刊(Periodical) (3)会议论文(Conference Paper) (4)专利文献(Patent Document) (5)科技报告(Sci-Tech Report) (6)标准(Standard) (7)学位论文(Dissertation) (8)技术档案(Technical Records)
1.2 计算机信息检索基础
1.2.4 计算机信息检索的原理
1.计算机信息存储过程 2.计算机信息检索过程
1.2 计算机信息检索基础
1.2.5 计算机信息检索系统的构成
1.计算机硬件 2.软件 3.数据库 (1)参考数据库。 (2)源数据库。 4.通信网络
1.2 计算机信息检索基础
1.2.6 计算机信息检索的基本技术
二次检索
3.2 万方数据知识服务平台
3.2.1 快速检索
二次检索结果
3.2 万方数据知识服务平台
3.2.2 Leabharlann 级检索高级检索页面3.2 万方数据知识服务平台
2.1.2 Internet信息资源的特点
1.信息源丰富 2.信息内容多样性 3.信息表现形式多样化 4.信息时效性 5.信息交互性 6.信息关联性 7.信息的开放性 8.免费信息资源丰富 9.信息组织的局部有序性与整体无序性
2.1 Internet信息资源及其组织方式
2.1.3 Internet信息资源及检索方法
2.2 Internet信息资源检索工具
2.2.3 阅读软件的安装和使用
1.Acrobat Reader的安装与启动 2.Acrobat Reader的基本操作 (1)打开文件。 (2)阅读文件。 (3)选择和复制文件。 3.CAJViewer的安装与启动 4.CAJViewer的基本操作

最新信息检索课件教学讲义ppt课件

最新信息检索课件教学讲义ppt课件
• 第一章 绪论 • 第二章 信息的相关知识 • 第三章 信息检索的基本知识 • 第四章 计算机信息资源检索 • 第五章 特种文献检索 • 实习
信息素养 • 信息素养:利用大量的信息工具及主要信息
源使问题得到解答的技术和技能。
本课程 的教学 目标
了解自己的信息需求 承认准确和完整的信息是制定明智决策的基础 能在信息需求的基础上系统阐述问题 能识别潜在的信息源、检索信息源,制定成功的检索策略 能利用以计算机为基础的信息技术和其它技术 具有评价信息的能力 能为实际应用而对信息进行组织 具有将新信息结合到现存的知识体现中的能力 能采用批判性思关的其它概念
§ 1.知识:人类对于客观世界的认识。 § 2.情报:人们搜集到的能为我们所用的新知
识或新信息。 § 3.文献:记录有知识的一切载体。
(人们在认识世界和改造世界的过程中,获得大量客观事物传递的信息,即感性 认识或经验,然后对这些感性认识通过大脑进行加工处理,形成理性认识。)
现实信息源
口头信息源 体语信息源 实物信息源 文献信息源等
非文献信息源
第二节 文献的基本知识
一、文献(信息源)类型
§ 文献(信息源)类型: 1.按文献载体形式分:印刷型
微缩型:存储量高达22.5万页/平片 声像型 电子型 2.按文献加工深度分: 零次, 一次, 二次, 三次文献。
§ 一次文献:
§ 二次文献: 20061128:太湖西区公路两侧植物物种多样 性的研究/[刊]/朱晓勇,胡海波,鲁小珍/南 京林业大学学报.2006.30(3):-85~88
u 一、概念 信息检索:信息存储&信息查找
信息标引和存储过程:对大量无
信息的需求分析和检索过程。分
序的信息资源进行标引处理,使

《信息检索导论》PPT课件

《信息检索导论》PPT课件

出正确的决策。
编辑课件ppt
22
1.1 信息素养与信息检索
一、信息、信息社会与信息素养 二、信息检索教学的主要意义 三、信息检索教学的基本内容
编辑课件ppt
23
三、信息检索课程的基本内容
1、信息检索的基本知识:文献、情报、知识、信息的概念;不同文献 类型的特点;专业文献概况及主要收藏单位;情报与 Information Literacy对科学活动及个人知识增殖的作用;文献检索的意义和作用。
⑴ 信息共享实现的条件在于信息对于物质依附性的相对性,即同一信息 可以采用多种相同的或不同的物质载体及其运动形式构成。
⑵ 信息共享的基础在于信息存在的普遍性和信息价值的非对称性。信息 产品的使用价值是一个点集或面,其价值和使用价值具有非对称性; 而物质产品的使用价值在同一时刻仅为一个点,且遵循等值交换原则。
有害信息:指对社会发展和信息用户有消极和阻碍作 用的不真实或庸俗、媚俗的信息,主要有虚假信息和 色情信息等。
编辑课件ppt
21
二、信息检索教学的主要意义
1、一个平台:培养信息意识, 提高自学能力和独立研究能力。
1992年国家教委高教司在《文献检索课教学基本要求》 的通知中指出:“文献检索课是培养学生掌握利用图书 文献/情报检索,不断提高自学能力和科研能力的一门 科学方法课。”
17
1 以认识主体为依据对信息进行的划分
客观信息,是指对事物不加判断的如实 和公正的报道,即关于认识对象的信息。
主观信息,一般是依据事实和分析,阐 明个人对论题的观点和见解,是经过思 维主体加工的信息。
编辑课件ppt
18
2 以信息的生成领域对信息进行的划分
自然信息,非生命物质的自然信息,是无机界事物 属性及事物之间内在联系的表征。自然信息是融合 式的、特殊的、弥漫的。

信息检索教程(第三版)PPT6

信息检索教程(第三版)PPT6

3.2.1 概念逻辑
2.概念逻辑方法 检索语言在表达各种概念及其相互关系时,普遍地应用了概念逻辑的原理,有效地利 用了
“概念的划分与概括”和 “概念的分析与综合”这两种逻辑方法来建立自己的结构 体系。 (1)概念的划分与概括 (分类) 即利用概念内涵由反映事物本质属性的概念因素构成,概念因素的增加或减少可以形 成新的
之间相互交叉渗透和综合而形成的新知识领域很困难,也难以反映客观实际中多维的知 识 空间结构。
3.3.2 体系分类法
(三)主要体系分类法介绍 目前,国内常见的体系分类法有 《中国人民大学图书馆图书分类法》,简称 《人大
法》,初版于1953年; 《中国图书馆分类法》,简称 《中图法》,初版于1975年,名为 《中 国图书馆图
1.标引信息内容特征及某些外表特征,保证不同标引人员表达信息的一致性 2.对内容相同及相关的文献信息加以集中或揭示其相关性 3.使信息的存储集中化、系统化、组织化,便于检索人员按照一定的排列次序进行 有
序化检索 检索语言将表达成千上万个信息主题概念的全部信息标识排列成一个有序的系统。排 列
信息标识的方法主要有三种: ①分类排列法,用于号码标识系统; ②字顺排列法,用于 语词标识系统和代码标识系统; ③分类和字顺结合的排列法,即先按照分类排,再按字顺 排,用于语词标识系统 (如分
3.1.3 检索语言的分类
2.描述文献内容特征的检索语言 描述文献内容特征的语言指主要依据文献内容特 征而形成的检索语言,这是检索语言 研究的核心部分,具体有分类语言、主题语言 和代码语言。
3.1.3 检索语言的分类
(二)按结构或原理,可分为分类语言、主题语言、代码语言和引文语言 分类语言用分类号来表达各种概念,将各种概念按学科性质进行分类和系统编排。分

信息检索教程第六章

信息检索教程第六章
第六章 网络信息检索
本章的主要内容为:网络信 息系统及网络信息资源的特征 、 网络信息检索的原理与方法 、常 用的网络信息检索工具、网络信 息检索技巧和专业性信息的网络 检索 。
1
第一节 网络信息系统及网络信息资源的特征
一、Internet网络信息系统

TCP/IP协议


DN域名和IP地址
全球资源定位器URL
17
(一)Google()
Google的核心技术称为PageRank(TM),它 是Larry Page和Sergey Brin在斯坦福大学开发的 一套用于网页评级的系统。该系统以PageRank 技术为基础,这项技术可以确保将搜索结果首先 呈现给用户。Google使用一组独特的硬件和软件, 制造出了一部超网页的 数量每天正以相关搜索 拼音提示


12
(三)自动索引程序
自动索引程序robot广泛搜集网络信 息资源数据,经过一系列判断、选择、 标引、分类等处理后形成供检索用的数 据库,并以Web页面的形式向用户提供 有关的资源导航、目录索引以及检索界 面。
13
二、搜索引擎的运作和检索
(一)搜索引擎技术的运作

发现并搜集网页信息


对信息进行提取并建立索引库


15
(二)搜索引擎的检索方法

简单搜索(Simple Search) 词组搜索(Phrase Search)

高级搜索(Advanced Search)
16
三、万维网搜索引擎
万维网搜索引擎(Web Search Engines)的 主体是全文搜索引擎(Full text Search Engine), 具 有 代 表 性 的 全 文 搜 索 引 擎 是 Google、 AlltheWeb、AltaVista、Ink站的信息,建立索引数据库,并 在用户检索时予以匹配响应,然后按一定的排 列顺序将结果返回给用户。这里重点介绍四大擎
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
排序式检索

❹ ❺
词项频率
tf-idf权重计算 向量空间模型
23
现代信息检索
二值关联矩阵
Anthony Julius and Caesar Cleopatra
ANTHONY BRUTUS CAESAR CALPURNIA CLEOPATRA MERCY WORSER ... 1 1 1 0 1 1 1 1 1 1 1 0 0 0
28
现代信息检索
课堂练习
计算下列查询-文档之间的Jaccard系数 q: [information on cars] d: “all you’ve ever wanted to know about cars” q: [information on cars] d: “information on trucks, information on planes, information on trains” q: [red cars and red trucks] d: “cops stop red cars more often”
授课人:王斌
/~wangbin
*改编自”An introduction to Information retrieval”网上公开的课件,地址 /IR-book/ 1
提纲
❶ ❷
上一讲回顾
排序式检索

❹ ❺
词项频率词项频率
→ 0 个结果 – 太少
在布尔检索中,需要大量技巧来生成一个可以获得合适规 模结Βιβλιοθήκη 的查询15现代信息检索
排序式检索

排序式检索可以避免产生过多或者过少的结果 大规模的返回结果可以通过排序技术来避免 只需要显示前10条结果 不会让用户感觉到信息太多
前提:排序算法真的有效,即相关度大的文档结果会排在 相关度小的文档结果之前
21
现代信息检索
Paul Jaccard(1868-1944)
瑞士植物学家,ETH教授
1894年毕业于苏黎世联邦理工 学院ETH(出过包括爱因斯坦在 内的21位诺贝尔奖得主)
1901年提出Jaccard Index即 Jaccard Coefficient概念
22
提纲
❶ ❷
上一讲回顾
ANTHONY BRUTUS CAESAR CALPURNIA CLEOPATRA MERCY WORSER ... 157 4 232 0 57 2 2 73 157 227 10 0 0 0
The Hamlet Tempest
0 0 0 0 0 3 1 0 2 2 0 0 8 1
Othello
Macbeth ...
19
现代信息检索
Jaccard系数的计算样例
查询 “ides of March”
文档 “Caesar died in March”
JACCARD(q, d) = 1/6
20
现代信息检索
Jaccard系数的不足
不考虑词项频率 ,即词项在文档中的出现次数 罕见词比高频词的信息量更大,Jaccard系数没有考虑这个 信息 没有仔细考虑文档的长度因素 本讲义后面,我们将使用 (即余弦计 算) 来代替 |A ∩ B|/|A ∪ B| ,前者进行的长度归一化
9
现代信息检索
ϒ编码
将G 表示成长度(length)和偏移(offset)两部分 偏移对应G的二进制编码,只不过将首部的1去掉 例如 13 → 1101 → 101 = 偏移 长度部分给出的是偏移的位数 比如G=13 (偏移为 101), 长度部分为 3 长度部分采用一元编码: 1110. 于是G的ϒ编码就是将长度部分和偏移部分两者联接起来 得到的结果。
The Hamlet Tempest
0 0 0 0 0 1 1 0 1 1 0 0 1 1
Othello
Macbeth ...
0 0 1 0 0 1 1 1 0 1 0 0 1 0
每篇文档可以看成是一个二值的向量 ∈ {0, 1}|V|
24
现代信息检索
非二值关联矩阵(词频)
Anthony Julius and Caesar Cleopatra
tf-idf权重计算 向量空间模型
2
提纲
❶ ❷
上一讲回顾
排序式检索

❹ ❺
词项频率词项频率
tf-idf权重计算 向量空间模型
3
现代信息检索
Heaps定律
词汇表大小M 是文档集规 模T的一个函数 图中通过最小二乘法拟合 出的直线方程为: log10M = 0.49 ∗ log10T + 1.64 于是有: M = 101.64T0.49 k = 101.64 ≈ 44
可变字节(VB)码
被很多商用/研究系统所采用 变长编码及对齐敏感性(指匹配时按字节对齐还是按照 位对齐)的简单且不错的混合产物 设定一个专用位 (高位) c作为延续位(continuation bit) 如果间隔表示少于7比特,那么c 置 1,将间隔编入一个 字节的后7位中 否则:将低7位放入当前字节中,并将c 置 0,剩下的 位数采用同样的方法进行处理,最后一个字节的c置1 (表示结束)
18
现代信息检索
第一种方法: Jaccard系数
计算两个集合重合度的常用方法 令 A 和 B 为两个集合 Jaccard系数的计算方法:
JACCARD (A, A) = 1
JACCARD (A, B) = 0 如果 A ∩ B = 0
A 和 B 不一定要同样大小 Jaccard 系数会给出一个0到1之间的值
10
现代信息检索
Reuters RCV1索引压缩总表
11
现代信息检索
本讲内容
对搜索结果排序(Ranking) : 为什么排序相当重要? 词项频率(Term Frequency, TF): 排序中的重要因子 Tf-idf 权重计算方法: 最出名的经典排序方法 向量空间模型(Vector space model): 信息检索中最重要的形 式化模型之一 (其他模型还包括布尔模型和概率模型)
29
提纲
❶ ❷
上一讲回顾
排序式检索

❹ ❺
词项频率
tf-idf权重计算 向量空间模型
30
现代信息检索
文档中的词频 vs. 文档集中的词频
除词项频率tf之外,我们还想利用词项在整个文档集中 的频率进行权重和评分计算
31
现代信息检索
罕见词项所期望的权重
罕见词项比常见词所蕴含的信息更多 考虑查询中某个词项,它在整个文档集中非常罕见 (例 如 ARACHNOCENTRIC). 某篇包含该词项的文档很可能相关 于是,我们希望像ARACHNOCENTRIC一样的罕见词项将有 较高权重
33
现代信息检索
文档频率(Document frequency, df)
对于罕见词项我们希望赋予高权重 对于常见词我们希望赋予正的低权重 接下来我们使用文档频率df这个因子来计算查询-文档的 匹配得分 文档频率指但是出现词项的文档数目
34
现代信息检索
idf 权重
dft 是出现词项t的文档数目 dft 是和词项t的信息量成反比的一个值 于是可以定义词项t的idf权重:
12
提纲
❶ ❷
上一讲回顾
排序式检索

❹ ❺
词项频率
tf-idf权重计算 向量空间模型
13
现代信息检索
排序式检索(Ranked retrieval)
迄今为止,我们主要关注的是布尔查询
文档要么匹配要么不匹配
对自身需求和文档集性质非常了解的专家而言,布尔查询 是不错的选择 对应用开发来说也非常简单,很容易就可以返回1000多条 结果 然而对大多数用户来说不方便 大部分用户不能撰写布尔查询或者他们认为需要大量训练 才能撰写合适的布尔查询 大部分用户不愿意逐条浏览1000多条结果,特别是对Web 搜索更是如此
词项 calpurnia animal sunday fly under the dft idft
1 100 1000 10,000 100,000 1,000,000
6 4 3 2 1 0
36
现代信息检索
32
现代信息检索
常见词项所期望的权重
常见词项的信息量不如罕见词 考虑一个查询词项,它频繁出现在文档集中 (如 GOOD, INCREASE, LINE等等) 一篇包含该词项的文档当然比不包含该词项的文档的相 关度要高 但是,这些词对于相关度而言并不是非常强的指示词 于是,对于诸如GOOD、INCREASE和LINE的频繁词,会给 一个正的权重,但是这个权重小于罕见词权重

b = 0.49
4
现代信息检索
Zipf定律
反映词项的分布 拟合度不是太高,但是今 本反映词项的分布规律: 高频词少,低频词多。
5
现代信息检索
将整部词典看成单一字符串 (Dictionary as a string)
6
现代信息检索
单一字符串方式下按块存储
7
现代信息检索
对间隔编码
8
现代信息检索
14
现代信息检索
布尔搜索的不足: 结果过少或者过多
布尔查询常常会倒是过少(=0)或者过多(>1000)的结果 查询 1 (布尔与操作): [standard user dlink 650]
→ 200,000 个结果 – 太多
查询2 (布尔与操作): [standard user dlink 650 no card found]
(其中N 是文档集中文档的数目) idft 是反映词项t的信息量的一个指标 实际中往往计算[log N/dft ]而不是 [N/dft ] ,这可以对idf 的影响有所抑制 值得注意的是,对于tf 和idf我们都采用了对数计算方式
相关文档
最新文档