lecture1-booleanretrieval信息检索导论王斌课件第1章

合集下载

信息检索概论PPT课件

期刊
Chun,Lu,and n, “Dynamic Analysis of Clamped Laminated Curved Panels” Composite Structures 30.4. (1995):389-396
ISSN 的含义（International Standard Serial Number）
第一章信息检索概论
内容简介
1.1 信息素养教育 1.2 文献信息的基本概念 1.3 文献信息的类型与特点 1.4文献信息的分布规律
1.1信息素养
Information Literacy
也称信息素质或信息文化，是全球一体化、全球信息化大环境下需要人们具备的一种基本能力。
信息素养这一概念是美国信息产业协会主席保罗·泽考斯基（Paul Zurkowski）于1974年在提出的。
【实例】在《EBSCO》数据库的期刊论文著录格式如下： China Investment：Which Way To Profit? By： Wang Yong ； Chen Wen．Beijing Review，11/6/2003，Vol．46 Issue 45，p10，4p， 1c；(AN 11588866)
3.图书类型阅读用书：包括教科书、专著、文集等。参考工具书：是供人们释疑解难、翻检查考的出
版物。
【实例】《中国大百科全书》、《四库全书》、《古今图书集成》、《大英百科全书》
检索用书：是以图书形式刊行的书目、题录、文摘等，是供人们查找一定范围内信息线索的出版物。
【实例】《四库全书总目提要》、《中国国家书目》、《全国总书目》、《全国新书目》
report,
Sci-Tech
proceedings (Pro.) specification

第一章信息检索基础知识PPT课件

信息、知识、文献的关系
信息知识文献
文献的类型
• 按载体的形态分 • 按内容、性质和加工深度来分 • 按文献的出版类型分
按载体的形态分
• 手写型 writer by hand form • 印刷型 printed form • 缩微型 Microform • 声像型 (视听文献）Audio-Visual form • 机读型(电子型）Machine Readable
。美国国会图书馆总面积为34.2万平方米,世界上最大的图书馆
•
缩微型
• 以感光材料为载体，以照相为记录手段而形成的文献形式
• 优：
–体积小。 –成本低，仅及印刷品1/10∽1/15 –长期保存 –忠实于原件
• 缺：
–不能直接阅读
缩微型
声像型
• 是以磁性和感光材料为介质记录声音、图像等信息的一种文献形式。
• 知识（Knowledge) ：是人类通过对自然界、人类社会以及思维方式与运动规律的认识与掌握，是人脑通过思维重新组合的、精简化的信息集合。
• 知识包括个人知识和社会知识。
个人知识：存在于大脑、笔记或书信中，只能为个人所用。
社会知识：存在于文献中或人类的传说中
• 文献（Document / Literature)：记录有知识的一切载体。
form、Electronic Publication
手写型
• 以实物为载体的，以手工为记录手段的文献
手写型
印刷型
• 以纸质材料为载体，以印刷为记录手段而形成的文献形式。
•优
–便于阅读、传递
•缺
–十分笨重，保存起来费事费力 –难于实现信息自动化提取和高速度传递
• 国家图书馆总建筑面积25万平方米（含总馆一期、二期，古籍馆），居世界国家图书馆第三位。

信息检索课件汇总全书电子教案完整版课件(最新)

1.1.4 文献的分类
1．文献按其出版形式分类（1）图书（Book）（2）期刊（Periodical）（3）会议论文（Conference Paper）（4）专利文献（Patent Document）（5）科技报告（Sci-Tech Report）（6）标准（Standard）（7）学位论文（Dissertation）（8）技术档案（Technical Records）
1.2 计算机信息检索基础
1.2.4 计算机信息检索的原理
1．计算机信息存储过程 2．计算机信息检索过程
1.2 计算机信息检索基础
1.2.5 计算机信息检索系统的构成
1．计算机硬件 2．软件 3．数据库（1）参考数据库。（2）源数据库。 4．通信网络
1.2 计算机信息检索基础
1.2.6 计算机信息检索的基本技术
二次检索
3.2 万方数据知识服务平台
3.2.1 快速检索
二次检索结果
3.2 万方数据知识服务平台
3.2.2 Leabharlann 级检索高级检索页面3.2 万方数据知识服务平台
2.1.2 Internet信息资源的特点
1．信息源丰富 2．信息内容多样性 3．信息表现形式多样化 4．信息时效性 5．信息交互性 6．信息关联性 7．信息的开放性 8．免费信息资源丰富 9．信息组织的局部有序性与整体无序性
2.1 Internet信息资源及其组织方式
2.1.3 Internet信息资源及检索方法
2.2 Internet信息资源检索工具
2.2.3 阅读软件的安装和使用
1．Acrobat Reader的安装与启动 2．Acrobat Reader的基本操作（1）打开文件。（2）阅读文件。（3）选择和复制文件。 3．CAJViewer的安装与启动 4．CAJViewer的基本操作

《信息检索导论》PPT课件

出正确的决策。
编辑课件ppt
22
1.1 信息素养与信息检索
一、信息、信息社会与信息素养二、信息检索教学的主要意义三、信息检索教学的基本内容
编辑课件ppt
23
三、信息检索课程的基本内容
1、信息检索的基本知识：文献、情报、知识、信息的概念；不同文献类型的特点；专业文献概况及主要收藏单位；情报与 Information Literacy对科学活动及个人知识增殖的作用；文献检索的意义和作用。
⑴ 信息共享实现的条件在于信息对于物质依附性的相对性，即同一信息可以采用多种相同的或不同的物质载体及其运动形式构成。
⑵ 信息共享的基础在于信息存在的普遍性和信息价值的非对称性。信息产品的使用价值是一个点集或面，其价值和使用价值具有非对称性；而物质产品的使用价值在同一时刻仅为一个点，且遵循等值交换原则。
有害信息：指对社会发展和信息用户有消极和阻碍作用的不真实或庸俗、媚俗的信息，主要有虚假信息和色情信息等。
编辑课件ppt
21
二、信息检索教学的主要意义
1、一个平台：培养信息意识，提高自学能力和独立研究能力。
1992年国家教委高教司在《文献检索课教学基本要求》的通知中指出：“文献检索课是培养学生掌握利用图书文献/情报检索，不断提高自学能力和科研能力的一门科学方法课。”
17
1 以认识主体为依据对信息进行的划分
客观信息，是指对事物不加判断的如实和公正的报道，即关于认识对象的信息。
主观信息，一般是依据事实和分析，阐明个人对论题的观点和见解，是经过思维主体加工的信息。
编辑课件ppt
18
2 以信息的生成领域对信息进行的划分
自然信息，非生命物质的自然信息，是无机界事物属性及事物之间内在联系的表征。自然信息是融合式的、特殊的、弥漫的。

[信息检索]第一讲布尔检索BooleanRetrieval

[信息检索]第⼀讲布尔检索BooleanRetrieval第⼀讲布尔检索Boolean Retrieval主要内容：1. 信息检索概述2. 倒排记录表3. 布尔查询处理⼀、信息检索概述什么是信息检索？Information Retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies an information need from within large collections (usually stored on computers).信息检索是从⼤规模⾮结构化数据（通常是⽂本）的集合（通常保存在计算机上）中找出满⾜⽤户信息需求的资料（通常是⽂档）的过程。

Document –⽂档Unstructured – ⾮结构化Information need –信息需求Collection—⽂档集、语料库⼆、倒排记录表1、什么是布尔查询？布尔查询是指利⽤ AND, OR 或者 NOT操作符将词项连接起来的查询如：信息 AND 检索2、⼀个信息检索的例⼦（莎⼠⽐亚全集）不到100万单词，假设每个英⽂单词平均长度为8字节，则整个全集不到10MB查询需求：莎⼠⽐亚的哪部剧本包含Brutus及Caesar但是不包含Calpurnia？查询的布尔表⽰：Brutus AND Caesar AND NOT Calpurnia解决⽅案：⽅法⼀：暴⼒⽅法从头到尾扫描所有剧本，对每部剧本判断它是否包含Brutus AND Caesar ，同时⼜不包含Calpurnia不⾜之处：速度超慢 (特别是⼤型⽂档集)处理NOT Calpurnia 并不容易（不到末尾不能停⽌判断）不太容易⽀持其他操作 (e.g., 寻找靠近countrymen的单词Romans)不⽀持检索结果的(灵活)排序 (排序时只返回较好的结果)优点：实现简单很容易⽀持⽂档动态变化⽅法⼆：倒排记录表词项-⽂档（term-doc）关联矩阵若某剧本包含某单词，则该位置为1，否则为0.关联矩阵的每⼀列(对应⼀篇⽂档)都是 0/1向量，每个0/1都对应⼀个词项关联矩阵的每⼀⾏(对应⼀个词项)也可以看成⼀个0/1向量，每个0/1代表该词项在相应⽂档中的出现与否给定查询Brutus AND Caesar AND NOT Calpurnia取出三个词项对应的⾏向量，并对Calpurnia 的⾏向量求反，最后按位进⾏与操作110100 AND 110111 AND 101111 = 100100.问题：当出现更⼤的⽂档集假定N = 1 百万篇⽂档(1M), 每篇有1000个词(1K)假定每个词平均有6个字节(包括空格和标点符号)，那么所有⽂档将约占6GB 空间.假定词汇表的⼤⼩(即词项个数) M = 500K此时，词项-⽂档矩阵将⾮常⼤矩阵⼤⼩为 500K x 1M=500G但是该矩阵中最多有10亿(1G)个1：词项-⽂档矩阵⾼度稀疏(sparse)更好的办法：仅仅记录1的位置，即倒排索引对每个词项t, 记录所有包含t的⽂档列表.每篇⽂档⽤⼀个唯⼀的 docID来表⽰，通常是正整数，如1,2,3…磁盘上，顺序存储⽅式⽐较好，便于快速读取内存中，采⽤链表或者可变长数组⽅式倒排记录表按docID排序索引构建过程：1、词条序列：<词条，docID>⼆元组2、排序按词项排序，然后每个词项按docID排序1. 词典&倒排记录表某个词项在单篇⽂档中的多次出现会被合并拆分成词典和倒排记录表两部分每个词项出现的⽂档数⽬(doc frequency, DF)会被加⼊3、布尔查询的处理假定索引已经构建好了，如何利⽤索引来处理查询？AND查询的处理：考虑如下查询（从简单的布尔表达式⼊⼿）:Brutus AND Caesar在词典中定位 Brutus返回对应倒排记录表(对应的docID)在词典中定位Caesar再返回对应倒排记录表合并(Merge)两个倒排记录表，即求交集合并过程：每个倒排记录表都有⼀个定位指针，两个指针同时从前往后扫描, 每次⽐较当前指针对应倒排记录，然后移动某个或两个指针。

lecture10xmlretrieval信息检索导论王斌

▪ 专利: give me patens whose claims mention RSA public key encryption and that cite US patent 4,405,829
▪ 实体标记文本: give me articles about sightseeing tours of the Vatican and the Coliseum
12
现代信息检索
结构化检索(Structured retrieval)
基本配置：结构化或非结构化查询+结构化文档
结构化检索的应用场景
数字图书馆、专利数据库、博客、包含已标注命名实体（如人名、地名）的文本
例子
▪ 数字图书馆: give me a full-length article on fast fourier transforms
13
R列三个主要问题 ❶ 无序的DB系统可能返回大量文章，这些文章提到 Vatican、the
Coliseum和sightseeing tours，但是并没有按照它们和查询的相关度排序 ❷ 大部分用户都很难精确描述结构化的限制条件。比如，用户可能并不知道搜索系统支持对哪些结构化元素的查询 tours AND (COUNTRY: Vatican OR LANDMARK: Coliseum)? tours AND (STATE: Vatican OR BUILDING: Coliseum)? ❸ 用户可能对结构化搜索和高级搜索很不熟悉，或者他们压根就不想用这些搜索功能。
不相关的 ▪ 搜索引擎根据标记结果计算得到信息需求的一个新查询
表示。当然我们希望该表示好于初始的查询表示 ▪ 搜索引擎对新查询进行处理，返回新结果 ▪ 新结果可望（理想上说）有更高的召回率

《信息检索导论》课件

未来发展方向
人工智能技术在信息检索中的应用
自然语言处理、图像识别和深度学习等技术将被应用于信息检索领域。
信息检索领域的研究热点
如可解释性、个性化推荐和区块链技术等将成为未来信息检索研究的热点。
总结
信息检索的意义
改善人们获取信息的方式，为人们提供更快速的信息服务。
目前的研究状况
信息检索领域的研究涵盖了多个方向，包括模型、算法和应用等。
3
用户界面
提供搜索框和界面展示，最直接的与用户交互的方式。
检索性能评价
1 评价指标
如准确率、召回率、F值和MAP等，用于评估检索系统的效果。
2 评价方法
如离线评估、在线评估和交互式评估，来评价检索系统的性能。
检索应用
检索引擎• 谷歌搜索 • 搜索 • 必应搜索应用案例
• 企业文献管理系统 • 网络社交媒体搜索 • 学术期刊检索服务
向量空间模型
一种基本的信息检索模型，使用向量表示文档和查询，适合大规模文本数据。
BM25模型
一种基于统计的信息检索模型，以链接分析算法为基础，比传统检索模型更有效。
检索系统组成与工作流程
1
检索系统组成
包括爬虫、索引器、查询处理器和用户界面。 → 建立索引 → 处理查询 → 返回结果。
《信息检索导论》课件
本课件将介绍信息检索的基础概念和应用，了解信息检索的意义和未来趋势。
什么是信息检索
定义
信息检索是从大量非结构化和半结构化的数据中获取相关信息的过程。
应用领域
信息检索被广泛应用于各种领域，如Web搜索、数字图书馆、数字档案等。
检索模型
传统检索模型
如布尔模型、向量空间模型和概率模型，检索效果受到诸多限制。

lecture2-dictionary 信息检索导论王斌 PPT 课件第2章

现代信息检索
词条归一化(Normalization)成词项
将文档和查询中的词归一化成同一形式：
U.S.A. 和 USA
归一化的结果就是词项，而词项就是我们最终要索引的对象可以采用隐式规则的方法来表示多个词条可以归一成同一词项，比如
剔除句点
U.S.A., USA USA
字：李明天天都准时上班
索引量太大，查全率百分百，但是查准率低，比如查“明天” 这句话也会出来
词：李明天天都准时上班
索引量大大降低，查准率较高，查全率不是百分百，而且还会受分词错误的影响，比如上面可能会切分成：李明天天都准时上班，还有：他和服务人员照相
提纲
❶ ❷ ❸
上一讲回顾文档词项

通常做法+非英语处理
英语
❹
❺
跳表指针
短语查询
17
现代信息检索
词条和词项
TOKENS AND TERMS
现代信息检索
词条化(Tokenization)
输入: ―Friends, Romans and Countrymen‖ 输出: 词条(Token)
state-of-the-art: co-education lowercase, lower-case, lower case ?
San Francisco: 到底是一个还是两个词条？
如何判断是一个词条？
现代信息检索
词条化中数字的处理
3/20/91 Mar. 12, 1991 55 B.C. B-52 PGP 密钥：324a3df234cb23e (800) 234-2333

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

▪ 半结构化查询
▪ Title contains data AND Bullets contain search
▪ … 这里还没有提文本的语言结构
非结构化 vs. 结构化 vs. 半结构化
▪ 半结构化(Semi-structured)： ▪ <title>李甲主页</title> ▪ <body>…</body> …
市场规模
Unstructured Structured
非结构化数据(文本) vs. 结构化数据 (数据库) @ 2009年
数据量
市场规模
布尔检索
▪ 针对布尔查询的检索，布尔查询是指利用 AND, OR 或者 NOT操作符将词项连接起来的查询
▪ 信息 AND 检索
▪ 信息 OR 检索
▪ 信息 AND 检索 AND NOT 教材
▪ 笨方法为什么不好?
▪ 速度超慢 (特别是大型文档集) ▪ 处理NOT Calpurnia 并不容易（一旦包含即可停止判断） ▪ 不太容易支持其他操作 (e.g., find the word Romans near
countrymen)
词项-文档(term-doc)的关联矩阵
Antony Brutus Caesar Calpurnia Cleopatra mercy worser
▪ 文档集Collection: 由固定数目的文档组成 ▪ 目标: 返回与用户需求相关的文档并辅助用户来完
成某项任务 ▪ 相关性Relevance
▪ 主观的概念 ▪ 反映对象的匹配程度 ▪ 不同应用相关性不同
典型的搜索过程
任务
信息需求
自然语言描述
查询
是否转义? 是否转义? 是否转义?
搜索引擎
查询重构
结果
Get rid of mice in a politically correct way Info about removing mice without killing them How do I trap mice alive?
▪ 信息检索是从大规模非结构化数据（通常是文本）的集合（通常保存在计算机上）中找出满足用户信息需求的资料（通常是文档）的过程。
▪ Document –文档 ▪ Unstructured – 非结构化 ▪ Information need –信息需求 ▪ Collection—文档集、语料库
IR vs数据库: 结构化 vs 非结构化数据
传统信息检索 vs. 现代信息检索
▪ 传统信息检索主要关注非结构化、半结构化数据
▪ 现代信息检索中也处理结构化数据
非结构化数据(文本) vs. 结构化数据 (数据库) @ 1996年
200 180 160 140 120 100
80 60 40 20
0 Data volume
数据量
Market Cap
最后按位进行与操作
▪ 110100 AND 110111 AND 101111 = 100100.
上述查询的结果文档
▪ Antony and Cleopatra, Act III, Scene ii
▪ Agrippa [Aside to DOMITIUS ENOBARBUS]: Why,
Enobarbus,
▪ 通常指自由文本 ▪ 允许
▪ 关键词加上操作符号的查询 ▪ 更复杂的概念性查询,
▪ 找出所有的有关药物滥用(drug abuse)的网页
▪ 经典的检索模型一般都针对自由文本进行处理
半结构化数据
▪ 没有数据是完全无结构的 ▪ <title>李甲主页</title> ▪ <body>…</body> …
提纲
① 信息检索概述 ② 倒排索引 ③ 布尔查询的处理
提纲
① 信息检索概述 ② 倒排索引 ③ 布尔查询的处理
信息检索Information Retrieval
▪ Information Retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies an information need from within large collections (usually stored on computers).
▪
When Antony found Julius Caesar
dead,
▪
He cried almost to roaring; and he
wept
▪
When at Philippi he found Brutus
slain.
▪ Hamlet, Act III, Scene ii
IR中的基本假设
▪ Google的高级搜索？
提纲
① 信息检索概述 ② 倒排索引 ③ 布尔查询的处理
一个简单的例子(《莎士比亚全集》)
▪ 莎士比亚的哪部剧本包含Brutus及Caesar但是不包含Calpurnia？布尔表达式为 Brutus AND Caesar AND NOT Calpurnia。
▪ 笨方法：从头到尾扫描所有剧本，对每部剧本判断它是否包含Brutus AND Caesar ，同时又不包含 Calpurnia
若某剧本包含某单词，则该位置上为1，否则为0
关联向量(incidence vectors)
▪ 关联矩阵的每一列都是 0/1向量，每个0/1都对应一个词项
▪ 给定查询Brutus AND Caesar AND NOT Calpurnia ▪ 取出三个列向量，并对Calpurnia 的列向量求补，
▪ 结构化数据即指“表”中的数据
Employee Smith Chang Ivy
Manager Jones Smith Smith
Salary 50000 60000 50000
数据库常常支持范围或者精确匹配查询。e.g., Salary < 60000 AND Manager = opatra 1 1 1 0 1 1 1
Julius Caesar The Tempest
1
0
1
0
1
0
1
0
0
0
0
1
0
1
Hamlet 0 1 1 0 0 1 1
Othello 0 0 1 0 0 1 1
Macbeth 1 0 1 0 0 1 0
Brutus AND Caesar BUT NOT Calpurnia