多媒体搜索引擎DriveHQPPT课件
合集下载
使用搜索引擎课件.ppt

▪例如:雅虎,国内的搜狐、新浪、网易等。
用英文双引号(“”)或书名号《》将关键词括起来 技巧4:不要拘限于同一个搜索引擎 每一个搜索引擎都有自己的特长 技巧5:细化搜索条件 搜索条件越具体,返回的结果就越精确
目录索引类搜索引擎
目录索 引类搜
索引擎
目录检索服务适用于按指定主题查找信息。它将各种各 样的信息按主题分成一些大类,再按其细目一级级分成 小类,直到相关信息所在的网址。类似于在图书馆按分 类目录查找所需要的书目一样。只是按目录分类的网站 链接列
❖不用口语作为关键词 ❖使用两个或两个以上的关键词
例如:多少级以上的地震会造 成破坏? a)4.5级 b)5级 c)6级
❖注意关键词表述的准确性
关键词:震级 造成破坏
全文搜索引擎使用技巧
技巧1:提炼关键词 提炼具有代表性和指示性的词作为搜索关键词 技巧2:用好逻辑符号 用“and”、“or”、“not”等逻辑符号提高搜索效率 技巧3:索工具软件
1.进入搜索引擎站点的主页
2.在搜索结果的页面中 查找需要的信息或网站
3.单击搜索
关键词的使用
我们在搜索栏内输入的名字,在搜索引擎中称为关键词
关键词是获取良好搜索结果的前提,正确使用关键词, 可以缩小我们的搜索范围。
关键字越少,搜索出的结果越多,因此可以使用多个关 键字来缩小查询范围小。多个关键字之间可以用空格分 隔。
导入:
现在有两位校外来访者甲和乙要找我们学 校的学生A和B,其中甲只知道学生A的姓 名;而乙知道学生B在一号楼第二层第三间 教室里的第四排最左边的座位上。
问题:假如让同学们去找这两 位同学,你能不能找的到,怎 样找到?
找A可利用学校的校园广播帮助找到;
找B可直接到一号楼第二层第三间教室 的第四排最左边的那个位子找到。
用英文双引号(“”)或书名号《》将关键词括起来 技巧4:不要拘限于同一个搜索引擎 每一个搜索引擎都有自己的特长 技巧5:细化搜索条件 搜索条件越具体,返回的结果就越精确
目录索引类搜索引擎
目录索 引类搜
索引擎
目录检索服务适用于按指定主题查找信息。它将各种各 样的信息按主题分成一些大类,再按其细目一级级分成 小类,直到相关信息所在的网址。类似于在图书馆按分 类目录查找所需要的书目一样。只是按目录分类的网站 链接列
❖不用口语作为关键词 ❖使用两个或两个以上的关键词
例如:多少级以上的地震会造 成破坏? a)4.5级 b)5级 c)6级
❖注意关键词表述的准确性
关键词:震级 造成破坏
全文搜索引擎使用技巧
技巧1:提炼关键词 提炼具有代表性和指示性的词作为搜索关键词 技巧2:用好逻辑符号 用“and”、“or”、“not”等逻辑符号提高搜索效率 技巧3:索工具软件
1.进入搜索引擎站点的主页
2.在搜索结果的页面中 查找需要的信息或网站
3.单击搜索
关键词的使用
我们在搜索栏内输入的名字,在搜索引擎中称为关键词
关键词是获取良好搜索结果的前提,正确使用关键词, 可以缩小我们的搜索范围。
关键字越少,搜索出的结果越多,因此可以使用多个关 键字来缩小查询范围小。多个关键字之间可以用空格分 隔。
导入:
现在有两位校外来访者甲和乙要找我们学 校的学生A和B,其中甲只知道学生A的姓 名;而乙知道学生B在一号楼第二层第三间 教室里的第四排最左边的座位上。
问题:假如让同学们去找这两 位同学,你能不能找的到,怎 样找到?
找A可利用学校的校园广播帮助找到;
找B可直接到一号楼第二层第三间教室 的第四排最左边的那个位子找到。
多媒体搜索引擎DriveHQ课件

17
查询结果处理
• 结果排序
• 用户评价
• 根据用户在查询结果中的点击来度量网站与关键字的相关 性
• 需要巨量的用户记录 • 跟踪较困难
• 同行评议
• 根据同行对文档质量的评价来度量网站与关键字的相关性
• 谁是同行? • Internet
2020/11/13
多媒体搜索引擎DriveHQ
18
查询结果处理
多媒体搜索引擎
查询结果处理
多媒体搜索引擎DriveHQ
查询结果处理
• 查询的特征
•短
• 英语:平均2.5词,80% < 3词
• 不精确
• “华师大” 你想要什么?
• 只使用简单语法
• 有几个用户懂布尔代数?
• 大多数查询将返回大量的结果
• “华师大”:174万
2020/11/13
多媒体搜索引擎DriveHQ
在1%文档中出现的词:D/Dt = 100 idft = log(100) > 0
2020/11/13
多媒体搜索引擎DriveHQ
9
查询结果处理
• 结果排序
• 2.tf-idf
• 用idf为权重的加权词频和
sq,d tft,didtf tq
文档中一个词的重要性
tt 1 fit 1 d ,tt 2 fi ft 2 d ,. tt n f . fi.t n d , f文档矢量
2020/11/13
多媒体搜索引擎DriveHQ
16
查询结果处理
• 结果排序
• 2.tf-idf
• “王婆卖瓜自卖自夸”
• 文档的优劣程度不可能通过文档本身来评价 • 通过文档本身的内容对文档排序的方法不可靠 • 谁可以评价文档的优劣?
多媒体搜索引擎-DriveHQ

2019年4月7日
Multimedia Search Engine
14
搜索引擎技术
索引
找到与某个语义相关的文档
倒排文件 B树,Hash表
快速找到
更快
并行查找,限时合并
2019年4月7日
Multimedia Search Engine
15
搜索引擎技术
输入
获取用户的需求
关键字检索 分类浏览
显示
组织相关信息输出给用户
相关项列表
重要性排序:PageRank 摘要
2019年4月7日
Multimedia Search Engine
16
搜索引擎技术
尚存在的问题
输入:关键字检索并不方便
假设1:用户很清楚自己需要什么
可能例外:新闻检索,多媒体检索
Yahoo: Wal-mart
新浪:$2.35B 联想:$6.11B
来源:,
2019年4月7日 Multimedia Search Engine
2008.2.21
8
为什么关注搜索引擎
搜索引擎现状
尚存在的问题
理解:计算机并不真正理解文档的内容
多媒体文档
只能理解很小一部分语义
去除垃圾内容(广告、目录等) 提取结构化信息 信息之间的关联
文本文档
2019年4月7日
Multimedia Search Engine
18
搜索引擎技术
尚存在的问题
显示
综合信息提取与表示 海量信息表示 直观方便浏览
第7章搜索引擎使用技巧精品PPT课件

27
BUA Librar
具体内容请实际体体验。
为方便学习与使用课件内容, 课件可以在下载后自由调整
Learning Is To Achieve A Certain Goal And Work Hard, Is A Process To Overcome Various Difficultie引擎,每天 响应来自138个果。“一下”已经成 为人们进行搜索的新名词。
地图搜索技巧• 地图• 搜狗地图• 谷歌地 • 图片搜索
BUA Library
计算机网络如互联网上的信息的软 件程序。用户 输入搜索项目,通常是通过录入一个关键词或短 语,搜索引擎通过扫描被搜索的计算机和计算机 网络,或者分解(分析)它们数据的索引,返回 万维网 站点、个人电脑文件或文档的列表。搜索 引擎完成搜索任务大致经历以下三个环节: 1.抓取; 2.索引; 3.排序。
7.1.2 搜索引擎分类 按照搜索引擎工作原理的不同,可以把它 们分为三个基本类别:全文搜索引、目录 索引和元搜索引擎。 1.全文索引; 2.目录索引; 3.元搜索引擎; 4.其他非主流搜索引擎形式:
第7章 搜索引擎使用技巧
搜索引擎是指以人工或网络机器人软件 的方法采集、标引Web资源和其他类型的 网络资源,并将索引信息内容存储于大型 数据库中,以Web网站的方式提供给其他 网络用户查询的信息服务系统,是目前人 们利用网络信息最有效的工具。
7.1 搜索引擎简介
7.1.1 搜索引擎工作原理 搜索引擎是帮助用户查找存储在个人电脑、
BUA Librar
具体内容请实际体体验。
为方便学习与使用课件内容, 课件可以在下载后自由调整
Learning Is To Achieve A Certain Goal And Work Hard, Is A Process To Overcome Various Difficultie引擎,每天 响应来自138个果。“一下”已经成 为人们进行搜索的新名词。
地图搜索技巧• 地图• 搜狗地图• 谷歌地 • 图片搜索
BUA Library
计算机网络如互联网上的信息的软 件程序。用户 输入搜索项目,通常是通过录入一个关键词或短 语,搜索引擎通过扫描被搜索的计算机和计算机 网络,或者分解(分析)它们数据的索引,返回 万维网 站点、个人电脑文件或文档的列表。搜索 引擎完成搜索任务大致经历以下三个环节: 1.抓取; 2.索引; 3.排序。
7.1.2 搜索引擎分类 按照搜索引擎工作原理的不同,可以把它 们分为三个基本类别:全文搜索引、目录 索引和元搜索引擎。 1.全文索引; 2.目录索引; 3.元搜索引擎; 4.其他非主流搜索引擎形式:
第7章 搜索引擎使用技巧
搜索引擎是指以人工或网络机器人软件 的方法采集、标引Web资源和其他类型的 网络资源,并将索引信息内容存储于大型 数据库中,以Web网站的方式提供给其他 网络用户查询的信息服务系统,是目前人 们利用网络信息最有效的工具。
7.1 搜索引擎简介
7.1.1 搜索引擎工作原理 搜索引擎是帮助用户查找存储在个人电脑、
多媒体搜索引擎-DriveHQ

高斯贝叶斯分类器
j
E X arg max PX | E c j PE c j
X ~ N , PX | E c j 1 e
1 X j 2
T j X j
2 n / 2 j
1 2
2019年1月5日
Machine Learning
13
概率分类器
贝叶斯定理在分类问题中的应用
Naï ve Bayes问题
高斯贝叶斯分类器
参数多:协方差矩阵参数个数是维数的平方 可采用naï ve假设 分布不一定是高斯的 /tutorials/dtree.html
后验概率:果因
贝叶斯定理通过可观察量求解不可观察量
P X i | E PE P E | X i P X i
2019年1月5日
Machine Learning
6
概率分类器
P X i | E PE P E | X i P X i
贝叶斯定理在分类问题中的应用
机器学习与数据挖掘
数学方法与理论(2)
分类算法
不可分问题(2)
解决方法2:概率分类器
2019年1月5日
Machine Learning
2
分类算法
概率分类器
P(c1|X)
P(c2|X)
(P(c1|Xk)>P(c2|Xk))? c1| c2
如何获得?
2019年1月5日 Machine Learning 3
j
2019年1月5日 Machine Learning 7
最大后验概率准则
多媒体搜索引擎DriveHQ课件

Multimedia Search Engine
31
特征降维
多模特征的降维
同质特征可以方便地使用PCA
同质特征内部是已经归一化的 例:直方图,像素值,等等
异质特征不能简单地进行PCA
不同的归一化导致不同的主分量 异质特征之间没有归一化
例:颜色直方图和“粗糙度”如何归一化?
2018年11月17日 Multimedia Search Engine 22
特征提取
形状特征
轮廓的高维特征
把轮廓坐标转换成一维复数序列一维复函数 可以进行傅立叶变换,提取频率特征 傅立叶描述子
2018年11月17日
Multimedia Search Engine
23
特征提取
T z k ak H
27
特征降维
主分量分析
var z1 z z1
2 1 i, j 2
ai1a j1 H i H j ai1a j1 H i H j ai1a j1 H i H j H i H j
i, j
i, j
ai1a j1Sij
i, j T a1 Sa1
2018年11月17日
Multimedia Search Engine
30
特征降维
主分量分析
如果H是线性相关的:S是降秩的
特征矢量个数小于维数降维
无信息损失
如果H各维相关性大,但没有达到完全相关
有很小的特征值对应的特征矢量可以去除 降维,有信息损失
2018年11月17日
Sa1 a1 0
S I a1 0
多媒体搜索引擎-DriveHQ

机器学习与数据挖掘
复习
机器学习基本过程
机器学习是一个复杂的过程
离线过程(训练过程) 在线过程(应用过程)
数学方法
原始数据
人工分析
训练样本
机器学习
模型 离线过程 在线过程
决定性步骤 尚无有效的理论指导
2019年4月6日 Machine Learning
新数据 结果
2
样本准备
对象分割
2019年4月6日
Machine Learning
10
试题形式
题量
三道大题 不要长篇大论,切中要害即可 不需数学公式,论述物理含义
回答技巧
2019年4月6日
Machine Learning
11
样本准备
特征选择
降维的目的与意义 特征选择指数 特征选择算法
增量法、减量法、模拟退火/遗传算法
主分量分析
2019年4月6日
Machine Learning
5
样本准备
样本选择
训练样本失衡问题 失衡训练样本上的机器学习
Cost-sensitive learning 样本采样 规则过滤
2019年4月6日
Machine Learning
6
分类
线性分类器 分类器训练的几何方法
方程组求解 SVM
贝叶斯分类器 GMM-EM
Machine Learning 7
概率分类器
2019年4月6日
回归
回归问题 参数式方法 非参数式方法
复习
机器学习基本过程
机器学习是一个复杂的过程
离线过程(训练过程) 在线过程(应用过程)
数学方法
原始数据
人工分析
训练样本
机器学习
模型 离线过程 在线过程
决定性步骤 尚无有效的理论指导
2019年4月6日 Machine Learning
新数据 结果
2
样本准备
对象分割
2019年4月6日
Machine Learning
10
试题形式
题量
三道大题 不要长篇大论,切中要害即可 不需数学公式,论述物理含义
回答技巧
2019年4月6日
Machine Learning
11
样本准备
特征选择
降维的目的与意义 特征选择指数 特征选择算法
增量法、减量法、模拟退火/遗传算法
主分量分析
2019年4月6日
Machine Learning
5
样本准备
样本选择
训练样本失衡问题 失衡训练样本上的机器学习
Cost-sensitive learning 样本采样 规则过滤
2019年4月6日
Machine Learning
6
分类
线性分类器 分类器训练的几何方法
方程组求解 SVM
贝叶斯分类器 GMM-EM
Machine Learning 7
概率分类器
2019年4月6日
回归
回归问题 参数式方法 非参数式方法
多媒体搜索引擎-DriveHQ

半监督学习(Semi-supervised learning)
部分训练样本有人工标注
利用廉价的未标注样本提高学习性能 特殊的半监督学习:待分类样本可批处理,则把待分类样 本作为未标注样本加入学习过程
Machine Learning 4
传导学习(Transduction)
2019年1月6日
特征矢量
分类模型 如何获得W?
2019年1月6日 Machine Learning
W
13
分类算法
线性分类器
获得权矢量W的方法
先验知识
例:苹果圆度接近1,香蕉圆度接近0 用T=0.7可作为合适的分类权重
如何改进? 通过事先标注好的样本计算优化的W
难以普遍采用
训练的方法
2019年1月6日
Machine Learning 3
回归
聚类
2019年1月6日
机器学习的数学方法与理论
机器学习方法的主要类型
有监督学习(Supervised learning)
所有训练样本都有人工标注 所有训练样本没有标注(大多数聚类算法)
无监督学习(Unsupervised learning)
Machine Learning
14
分类算法
分类算法的训练
几何方法
利用样本的分布求分类(超)平面
方程组求解法
/data/upfile/2006126104839216.PPT
神经网络(感知器算法) /tutorials/neural.html SVM /tutorials/svm.html
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
tf-idf相关性计算准则下如何优化?
华师大 华师大 华师大 华师大 华师大 华师大 华师大 华师大 华师大 华师大 华师大 华师大
这个页面没人看?
2020/12/25
Multimedia Search Engine
15
查询结果处理
结果排序
2.tf-idf
SEO SPAM
隐藏文字 Meta Tag:<meta content=…> Image Tag: <img alt=…> HTML注释 超长标题 同色文字:文字与背景色相同
用户需要什么?
把结果按与查询相关的程度排序
如何度量文档和查询的相关度?
“华师大”
2020/12/25
Multimedia Search Engine
4
查询结果处理
结果排序
1.按词频
查询关键字在文档中出现的次数越多则越相关
查询关键字有多个? 相应词频相加
sq, d tft,d tq
11
查询结果处理
结果排序
2.tf-idf
文档矢量不一定是归一化的
2020/12/25
doc X 3
doc X 2 doc
simq, d Vq •Vd
Vq Vd
cosq,d
归一化因子
Multimedia Search Engine12源自查询结果处理结果排序
2.tf-idf
长文档的问题:如果把文档切割成几部分
Multimedia Search Engine
2
查询结果处理
查询的特征
缺乏耐心
85%的用户只看第一页结果 78%的查询不会被用户改进
要把用户需要的结果放在第一页
结果排序
2020/12/25
Multimedia Search Engine
3
查询结果处理
结果排序
理想情况:把结果按与用户的需求相关的程 度排序
结果排序
2.tf-idf
idf: inverse document frequency
逆文档频率?
idft
log
D Dt
词的权重
总文档数 包含词t的文档数
所有文档都出现的词(如“的”):D=Dt idft = log(1) = 0 在1%文档中出现的词:D/Dt = 100 idft = log(100) > 0
1 tft,d
max tft,d
td
2020/12/25
Multimedia Search Engine
6
查询结果处理
结果排序
1.按词频
非线性词频
布尔词频
1 bft,d 0
tft,d 0 tft,d 0
对数平均词频
Lft,d
1 log tft,d
1
log
avg
td
tf t ,d
tf: term frequency (词频)
重要性与词频一定是线性关系?
2020/12/25
Multimedia Search Engine
5
查询结果处理
结果排序
1.按词频
非线性词频
对数词频
wf t ,d
1 log tft,d
0
tft,d 0 tft,d 0
归一化词频
ntft,d
自动跳转页 包含大量关键字的页面自动跳转到真实页面
2020/12/25
Multimedia Search Engine
16
查询结果处理
结果排序
2.tf-idf
“王婆卖瓜自卖自夸”
文档的优劣程度不可能通过文档本身来评价 通过文档本身的内容对文档排序的方法不可靠 谁可以评价文档的优劣?
多媒体搜索引擎
查询结果处理
2020/12/25
Multimedia Search Engine
1
查询结果处理
查询的特征
短
英语:平均2.5词,80% < 3词
不精确
“华师大” 你想要什么?
只使用简单语法
有几个用户懂布尔代数?
大多数查询将返回大量的结果
“华师大”:174万
2020/12/25
用户评价 同行评议
2020/12/25
Multimedia Search Engine
17
查询结果处理
结果排序
用户评价
根据用户在查询结果中的点击来度量网站与关键 字的相关性
需要巨量的用户记录 跟踪较困难
同行评议
根据同行对文档质量的评价来度量网站与关键字 的相关性
谁是同行? Internet
单一主题 词频比例相对固定 词条相对固定
多主题 词频比例变化较大 词条变化大
2020/12/25
Multimedia Search Engine
13
查询结果处理
结果排序
2.tf-idf
长文档的问题
d1 d1+d2
文档集与集中单个文档 的相似度如何衡量?
FAQ文档及其查询
d2
2020/12/25
2020/12/25
Multimedia Search Engine
7
查询结果处理
结果排序
1.按词频
每个词重要性一样?
“北朝鲜的核试验” 北朝鲜 / 的 / 核试验
689万网页 ? 125万网页 词的重要性是不同的!
2020/12/25
Multimedia Search Engine
8
查询结果处理
Multimedia Search Engine
14
查询结果处理
结果排序
2.tf-idf
SEO SPAM (Search Engine Optimization SPAM)
出现在搜索引擎上对网站的访问量影响巨大 希望自己的网站总是出现在搜索结果的最前面
SEO: Search Engine Optimization 根据索引算法优化页面设计
2020/12/25
Multimedia Search Engine
9
查询结果处理
结果排序
2.tf-idf
用idf为权重的加权词频和
sq, d tft,d idft tq
文档中一个词的重要性
tft1 idft1 , tft2 idft2 ,..., tftn idftn
2020/12/25
2020/12/25
Multimedia Search Engine
18
查询结果处理
结果排序
同行评议
Multimedia Search Engine
文档矢量
10
查询结果处理
结果排序
2.tf-idf
? 查询
矢量空间模型 (vector space model)
2020/12/25
Multimedia Search Engine