Web 搜索概述.ppt
合集下载
Web概述本章主要内容精品PPT课件

1.2 Web工作原理
静态网页与动态网页: 1. 静态网页仅仅使用HTML语言编写; 2. 动态网页需要使用脚本语言编写,根据网页内容依赖于数据库的内容。
1.3 Web服务
Web服务定义: • W3C(国际标准化组织)定义 • Microsoft定义 • IBM定义 • UDDI规范中定义
定义内容详见PP7-12。
1.3 Web服务
Web服务
UDDI Web服务&WSDL
SOAP、XML HTTP、HTTPS、SMTP、FTP
图1-2 Web服务的多层构成
服务发现层 服务描述层 基于XML的消息层 网络层
1.3 Web服务
UUID等于的四种基本结构: • 商业实体(Business entiy):描述商业信息,如名称和类
器; 4. 如果URL指向脚本语言文本*(或HTML文档中嵌入有脚本语言文本),
则Web服务器运行脚本语言的程序(一般是解释执行脚本程序),将 其输出结果送浏览器; 5. URL也可以执行其他的脚本语言程序,例如:VRML和Ruby等等。
* 常用的脚本语言有PHP、ASP、和每一个人,既是信息 的接收者,也是信息的传播者,大家通过相互协作 来完成各自的任务和实现各自的目的。
分享精神指接入互联网的每一个人,将各自拥 有的信息分享在互联网上,使得任何人都可以使用。
1.1 Web概念
Web的五要素: •URL •HTTP •HTML •Web浏览器 •Web服务器
第1 章Web概述
Web应用举例(续): •Social networking service(SNS,社会化网络服务) •Online shopping(在线购物) •Web search engine(搜索引擎) •Internet governance(网络政务) •Browse game(页游,网页游戏) •Webcam(网络摄像) •Electronic business(e-business,电子商务)
搜索引擎概述 PPT课件

页面相关性
关键字匹配度:是指网页中的内容与用户所查询关键字之间的 匹配程度,主要是2个因素:
• 页面中是否包含关键字 • 关键字在页面中出现的次数
关键字密度:
• 关键字出现的次数与该网页总词汇量的比例
页面相关性
关键字分布: • 关键字在网页中出现的位置 • 关键字在网页中出现的位置会影响到关键字的分布 值
网页分析
网页分析主要包括:
正文信息提取:主要是对标签和注释等信息的过滤 切词/分词:对页面内容进行切分,形成与用户查询条件相匹配的关键字为单位的 信息列表
• 匹配分词:和预设的海量词汇的“辞典”中的词比较,如果有匹配的 词,则为命中
• 统计分词:根据相邻的2个或者多个字(词)出现的概率判断这2个字 (词)是否会形成一个词。
为保证采集的资料最新,它还会回访已抓 取过的网页。
这个工作是搜索引擎所有工作的基础
页面收录原理
URL列表 抓取页面 提取URL 存储原始页面
进入搜索引擎URL列表的方法
搜索引擎还允许用户自己提交网站(一般只需要提交首页或者网站域 名即可) 通过与别的网站建立链接关系即“外链”
页面存储
搜索引擎在存储原始页面时,不单只存储原始页面,还会存储其他的 附加信息,例如:文件类型、文件大小、最后修改时间、URL、IP地 址、抓取时间等
关键字的权重标签 • 关键字是否使用了HTML标签实现了不同的视觉效 果(如加粗、颜色变换等)
页面相关性计算公式: • R(relevance)=M(match)+D(density)+P(position)+T( html Tag) • R(相关性)= M(相同性)+ D(密度)+ P(位置 )+ T(HTML标签)
《万维网概述》课件

大数据是指规模庞大、复 杂多样的数据集合,需要 新技术来处理、存储和分 析。
大数据的应用
大数据技术在金融、医疗、 营销等领域有着广泛的应 用,帮助人们从海量数据 中提取有价值的信息。
万维网在大数据 时代的应用
万维网在大数据时代的应 用包括数据挖掘、个性化 推荐和智能搜索等。
未来的趋势
1
万维网的未来
万维网将继续发展,越来越多的设
新兴技术对万维网的影响
2
备和物体将连接到互联网,形成更 智能、更便利的生活。
人工智能、大数据、物联网等新兴
技术将对万维网产生深远的影响和
变革。
3
人工智能技术在万维网中的
应用
人工智能技术将使万维网更加智能 和个性化,提供更精准的搜索结果 和推荐服务。
结语
万维网的发展从未止步,随着技术的进步和用户需求的变化,它将不断演化和创新。希望本课程 能够为您提供全面的了解和启发,谢谢!
搜索引擎
1
搜索引擎的定义
搜史
搜索引擎的发展经历了多个阶段,从最初的Yahoo到后来的Google,技术和算法 一直在不断创新。
3
搜索引擎的分类
搜索引擎可以根据运作方式分为蜘蛛型、目录型和社交媒体型等不同类型。
Web 2.0
Web 2.0的定义
网是指通过移 动设备(如手机、平板 电脑)访问互联网的方 式。
移动互联网的发展 历程
从2G到5G,移动互联网 的技术不断升级,数据 传输速度和可靠性有了 显著提升。
移动应用
移动应用是为移动设备 开发的软件,如社交媒 体应用、游戏等。
大数据时代下的万维网
大数据的定义
万维网的历史
万维网的起源可以追溯到20世纪60年代,但真正的爆发是在1990年代,由英国科学家蒂姆·伯纳斯 -李发明。从那以后,万维网经历了快速发展,成为了人类社会不可或缺的一部分。
大数据的应用
大数据技术在金融、医疗、 营销等领域有着广泛的应 用,帮助人们从海量数据 中提取有价值的信息。
万维网在大数据 时代的应用
万维网在大数据时代的应 用包括数据挖掘、个性化 推荐和智能搜索等。
未来的趋势
1
万维网的未来
万维网将继续发展,越来越多的设
新兴技术对万维网的影响
2
备和物体将连接到互联网,形成更 智能、更便利的生活。
人工智能、大数据、物联网等新兴
技术将对万维网产生深远的影响和
变革。
3
人工智能技术在万维网中的
应用
人工智能技术将使万维网更加智能 和个性化,提供更精准的搜索结果 和推荐服务。
结语
万维网的发展从未止步,随着技术的进步和用户需求的变化,它将不断演化和创新。希望本课程 能够为您提供全面的了解和启发,谢谢!
搜索引擎
1
搜索引擎的定义
搜史
搜索引擎的发展经历了多个阶段,从最初的Yahoo到后来的Google,技术和算法 一直在不断创新。
3
搜索引擎的分类
搜索引擎可以根据运作方式分为蜘蛛型、目录型和社交媒体型等不同类型。
Web 2.0
Web 2.0的定义
网是指通过移 动设备(如手机、平板 电脑)访问互联网的方 式。
移动互联网的发展 历程
从2G到5G,移动互联网 的技术不断升级,数据 传输速度和可靠性有了 显著提升。
移动应用
移动应用是为移动设备 开发的软件,如社交媒 体应用、游戏等。
大数据时代下的万维网
大数据的定义
万维网的历史
万维网的起源可以追溯到20世纪60年代,但真正的爆发是在1990年代,由英国科学家蒂姆·伯纳斯 -李发明。从那以后,万维网经历了快速发展,成为了人类社会不可或缺的一部分。
第一章web技术的简介精品PPT课件

第一章 Web网站概述
Web应用 目前WEB技术在实现电子商务方面方兴未
艾,如雨后春笋般发展迅速,尤其是国内某几 大网站利好消息公布后。
WEB技术在国外和国内大公司都推出了自 己的基于WEB的电子商务平台,力图在中国的 蛋糕上分得一块份额。
其基本还是基于Internet技术上的企业、集 团、单位及至个人在资源共享、信息交互、电 子商务等上的应用。
第一章 Web网站概述
1.3 Web
Web是一个什么样的概念呢? Web是World Wide Web的简称,现已规范翻译成“万维 网”,在1995年国内出版的一本关于Internet 的书籍中, 曾被译为“全球性蛛网状系统”,从字面上,就可以知 道Web是将全球计算机网络上数量巨大的信息像“蜘蛛网” 一样连到一起,以方便人们对信息的查找。 Web可以这么定义,是以超文本(超媒体)链接技术为基 础的全球性计算机网络,其核心协议是HTTP。实际上, 在Web技术出现以前,Internet远没有这么大名气,Web 技术的出现,使Internet从科教界,迅速普及到整个社 会,即现代Internet=Web。
第一章 Web网站概述
1.3 Web
Web应用的主流技术 基本应用技术在如下几个方面:
属于静态页面技术类:
基于Web中 浏览器/服务器 结构的技术,浏览者 需要下载页面内容,之后不受服务器影响。可以离
线浏览。
1. 基于web应用的HTML标记语言 由于应用广泛,与其说是语言不如说已成为事实上
的Web技术规范。HTML的语法标准和规范由W3C 维护,目前推出的最新标准为html 4.1,他是浏览 器浏览的基础。由于下载后再浏览,因此下载者可
②TCP连接建立之后,将选中的HTML文档 通过该连接传输到客户端,并将之显示出来。
《认识搜索引擎》课件

语义搜索
语义搜索是指搜索引擎能够理解自然语言,对用户输入的语义进行深入分析和理 解,从而提供更加准确和相关的搜索结果。例如,当用户输入一个较为复杂的查 询语句时,语义搜索能够理解用户的意图,并返回与该意图相关的搜索结果。
语义搜索的发展将进一步推动搜索引擎的自然语言处理技术,使用户能够更加自 然地表达自己的需求,提高搜索结果的准确性和相关性。
多模态搜索
多模态搜索是指搜索引擎能够接受多种媒体数据(如文本、图像、音频、视频等)作为输入,并返回与该输入相关的多种媒 体数据作为结果。例如,用户可以上传一张图片或一段视频进行搜索,搜索引擎将返回与该图片或视频相关的文本、图片、 视频等结果。
多模态搜索的发展将进一步拓宽搜索引擎的应用场景,使用户能够更加方便地获取多种媒体数据的信息,提高信息获取的多 样性和丰富性。
结果筛选
查看搜索结果的相关性
01
根据搜索结果与查询主题的相关程度,筛选出最符合需求的网
页或信息。
查看搜索结果的权威性
02
选择来自权威网站或知名媒体的结果,以获取更可靠的信息。
使用搜索结果的高级筛选功能
03
利用搜索引擎提供的高级筛选功能,如过滤不相关的结果、按
时间排序等,提高筛选效率。
04
搜索引擎的未来展望
反垃圾信息法
垃圾信息泛滥
搜索引擎作为信息传播的重要平 台,容易受到垃圾信息的侵扰, 影响用户体验和搜索引擎的正常
运营。
反垃圾信息法规
各国政府纷纷出台反垃圾信息法 规,要求搜索引擎采取有效措施
防止垃圾信息的传播。
反垃圾技术发展
随着技术的发展,搜索引擎应不 断加强反垃圾技术的研究和应用 ,提高垃圾信息的识别和过滤能 力,为用户提供更加纯净的搜索
Web信息搜索概述

13
课程主要内容
第7章 发展前沿
–
– – – – –
基于文档的专家检索 对象检索及信息抽取 基于Web的对象检索 博客检索 TREC中的博客观点检索 文本情感分析
14
教材与参考资料
教材:
–
郭军,Web搜索,高等教育出版社,2009年8月
参考资料
–
国内外经典或最新相关文献
15
课程要求及考核
–
–
利用hyperlink自动获取网页的URL(Uniform Resource Locator) 利用HTTP协议(Hypertext Transfer Protocol)进行网络编 程并自动下载网页
网页采集过程是一个从WWW 的某网页(种子网页)出发 不断向前漫游的过程 种子的选取、漫游的方向和路线是随机的 为了将随机漫游变成有序的向外扩展,必须对其进行 有效地控制rawler
课程学时:28+8学时 课程成绩
– – –
平时1/3(随机课堂点名) 研究报告1/3(每人两篇,独立完成) 大作业1/3(3~5人团队合作完成一算法/改进算法/创新算法的设 计与实现,编程语言不限)
16
让我们共同努力!
17
第2章 文本检索
议题
–
– – – – – – –
–
Web信息采集 文本的保存与索引 检索模型 网页排序 查询重构 文本聚类 文本分类 特征选择 特征变换
检索、过滤与推荐三者的联系与区别
你中有我,我中有你 – 但有区别
–
4
定义与术语
Web信息搜索与传统信息检索的区别
– –
Web信息搜索所针对的是Web开放、海量及数据特征高度动态 变化与演进的信息源的搜索 而信息检索针对的是封闭的数据集,另外其数据规模亦远小于 Web规模、数据是相对静态的。
06Web搜索

Web Search 近期历史
1995年博士生Larry Page开始学习搜索引擎设计,于 1997年9月15日注册了的域名,1997年底, 开始提供Demo。1999年2月,Google完成了从Alpha 版到Beta版的蜕变。Google公司则把1998年9月27日 认作自己的生日 Google在Pagerank、动态摘要、网页快照、多文档格 式支持、地图股票词典寻人等集成搜索、多语言支持、 用户界面等功能上的革新,象Altavista一样,再一次永 远改变了搜索引擎的定义 主要的进步在于应用链接分析根据权威性对部分结果 排序
智能Agent系统是指一种处于一定环境下包装的计 算机系统
它除了具有自治性、社会能力、反应能力和自发行为 还具有一般人类所有的知识、信念、意图和承诺等心智 状态,这使得智能Agent系统具有人类的社会智能
将Agent技术用于采集,像人一样感知用户的兴趣 变化,使得采集有更强的灵活性、适应性和自主 性 典型代表:InfoSpiders ,Letizia
Web搜索引擎系统组成
Web搜索引擎系统可以被分成以下四个 大的子系统:
Web数据采集系统 网页预处理系统 索引检索系统 检索结果排序系统
Web搜索引擎体系结构
小型的搜索引擎系统一般是集中式的结构
系统实现简单,花费的资源比较少 自身处理能力比较弱,能支持同时访问用户数量也比较小
Web Challenges for IR
数据的分布性:文档散落在数以百万计的不同服务 器上,没有预先定义的拓扑结构相连。 不稳定的数据高比例:许多文档迅速地添加或删除 (e.g. dead links). 大规模:网络数据量的指数增长,由此引发了一系 列难以处理的规模问题。 无结构和冗余信息:每个HTML页面没有统一的结 构, 许多网络数据是重复的,将近 30% 的重复网页. 数据的质量: 许多内容没有经过编辑处理,数据可 能是错误的,无效的。错误来源有录入错误,语法 错误,OCR错误等。 异构数据:多媒体数据(images, video, VRML), 语 言,字符集等.
第八讲 Web信息搜索

– /书/[./名称 about “信息检索”]
• XQuery+关键词检索(XQuery+Complex full-text search)
– For $b in /书 Let score $s:= $b ftcontains “信息” && “检索” distance 3
XRANK-检索语义
• Q={k1,…, kn}表示查询 • R0 = {v v NE k Q(contains*(v,k))}表示 直接包含或间接包含所有查询关键词的元素的 集合 • xrank(Q)={v k Q, c N ((v,c) CE c R0 contains*(c,k))}
万人 4000 3000
不同省份网民人数
2000 1000 0 广 江 浙 山 河 福 上 四 辽 河 北 湖 湖 安 广 山 陕 江 黑 吉 新 重 内 云 天 贵 甘 海 宁 青 西 东 苏 江 东 南 建 海 川 宁 北 京 北 南 徽 西 西 西 西 龙 林 疆 庆 蒙 南 津 州 肃 南 夏 海 藏 江 古
搜索引擎
• 搜索引擎是一种最为常见的Web信息检索 系统, • 其基本过程是:
1. 使用网络爬虫遍历Web; 2. 将有关Web 文档下载到本地文档库; 3. 对文档内容分析处理,建立索引(如采用倒 排文件等技术) 4. 对用户的查询请求,采用相关技术(如布尔 模型或向量模型)找出匹配的文档,并把文 档(或链接)返回给用户。
• 著名的搜索引擎有Google,元搜索引擎• 元搜索引擎建立在搜索引擎之上的。元搜 索引擎相当于在各类搜索引擎上做了一个 虚拟的集成系统,对用户提供统一的界面。 • 基本的过程可归结如下:
1. 对用户提供的查询进行预处理,将其转换成底 层搜索引擎可处理的格式; 2. 然后向各个搜索引擎发出查询请求,并等待检 索结果; 3. 对返回的检索结果进行处理后,提交给用户。
• XQuery+关键词检索(XQuery+Complex full-text search)
– For $b in /书 Let score $s:= $b ftcontains “信息” && “检索” distance 3
XRANK-检索语义
• Q={k1,…, kn}表示查询 • R0 = {v v NE k Q(contains*(v,k))}表示 直接包含或间接包含所有查询关键词的元素的 集合 • xrank(Q)={v k Q, c N ((v,c) CE c R0 contains*(c,k))}
万人 4000 3000
不同省份网民人数
2000 1000 0 广 江 浙 山 河 福 上 四 辽 河 北 湖 湖 安 广 山 陕 江 黑 吉 新 重 内 云 天 贵 甘 海 宁 青 西 东 苏 江 东 南 建 海 川 宁 北 京 北 南 徽 西 西 西 西 龙 林 疆 庆 蒙 南 津 州 肃 南 夏 海 藏 江 古
搜索引擎
• 搜索引擎是一种最为常见的Web信息检索 系统, • 其基本过程是:
1. 使用网络爬虫遍历Web; 2. 将有关Web 文档下载到本地文档库; 3. 对文档内容分析处理,建立索引(如采用倒 排文件等技术) 4. 对用户的查询请求,采用相关技术(如布尔 模型或向量模型)找出匹配的文档,并把文 档(或链接)返回给用户。
• 著名的搜索引擎有Google,元搜索引擎• 元搜索引擎建立在搜索引擎之上的。元搜 索引擎相当于在各类搜索引擎上做了一个 虚拟的集成系统,对用户提供统一的界面。 • 基本的过程可归结如下:
1. 对用户提供的查询进行预处理,将其转换成底 层搜索引擎可处理的格式; 2. 然后向各个搜索引擎发出查询请求,并等待检 索结果; 3. 对返回的检索结果进行处理后,提交给用户。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
专业搜索引擎为满足特定需求而开发的,它是一种基于特定条件的 信息搜索引擎,可以针对某一主題(如纳米技术)、某一地区(如 台湾)、某一类型的信息(如个人简历、主页、电影、音乐、FAQ 等)或某一特定群体(如小学生)等。
CiteSeer
➢ 它是一个专门收集有关计算机科学方面的PDF、PS格式的学术期 刊和会议论文资料的搜索引擎。
数据库
Church in Bellevue Open hours: 9-5pm Built: 1950 …….
自然语言搜索引擎
自然语言搜索引擎
用户以自然语言方式提问,系统返回以自然 语言方式组织的检索结果 主要技术:机器翻译、语义理解及人机会话 等 相关搜索引擎
➢Ask Jeeves() ➢AnswerBus () ➢……
DQM数据库自动查询过程
深层Web爬行器
HiWE (Hidden Web Exposer)
斯坦福大学提出一面向特定主题的深层Web爬行器HiWE。 HiWE通过模仿人的操作实现查询表单自动填写、提交以及 结果页面URL的解析。
深层Web爬行器
BASE (Bielefeld Academic Search Engine )
问题
➢ 如何有效定义、描述主题? ➢ 如何判定主题相关性? ➢ 如何控制查全率、查准率等?
IBM Focused crawler
IBM Focused crawler
核心部件
分类器(Classifier)
➢ 采集系统首先保存一个经典的主题分类体系,并且为每一 个主题类目都保存若干个内容样本,用于评价采集文本是 否与主题相关
实例三:Sindice /
1.2 搜索引擎评价标准
➢ ixQuick、SurfWax、Dogpile、Vivisimo等。
1.1.2 Web搜索分类
依据搜索范围不同,Web搜索分两类:
普通搜索引擎(general-purpose search engines)
普通搜索引擎的目标是覆盖所有领域的信息资源 最負盛名的是Google等。
专业搜索引擎(domain-specific search engines)
Web 搜索
1. Web搜索概述 2. Web搜索系统结构 3. Web搜索相关技术 4. 基于主题的Web搜索 5. 搜索引擎实例分析
互连网的发展
据2011年1 月公布的第 27次中国互 连网络发展 状况调查报 告统计,中 国大陆网民 数和IPv4数 已分别达到 4.57亿和
2.78亿。
网络资源的发展
➢ 信息覆盖范围广、自动化程度高、维护费用少; ➢ 返回信息过多,包括大量无关信息。
具有代表性的爬行器式搜索引擎
➢ 国外目录式搜索引擎
特点
➢采用人工或半自动方式搜索、采集以及编辑、组 织信息,支持分类浏览、关键词检索;
➢因为加入了人的智力劳动,所以信息准确、导航 质量高;
基于字典的机器翻译
多媒体搜索引擎
两种类型
基于文本属性描述的多媒体搜索引擎 基于内容的多媒体搜索引擎
关键技术
自动排除:过滤指定多媒体特征的信息 自动标引:包括属性标引与内容标引
应用实例:Photo2Search
这是个什么 建筑物?
应用实例:Photo2Search
应用实例:Photo2Search
主题爬行器
主题爬行器(Focused Crawler)
主题爬行器爬行有限的网络空间,有选择性地搜寻与指定主 题相关的页面。 基本原则
➢ 尽可能多地下载与指定主题相关的网页 ➢ 尽可能少地下载与指定主题无关的网页
主题描述方式
➢ 关键词 ➢ 样本文档 ➢ Ontology
特点
➢ 因为不采集与主题无关的页面,所以极大地节省了硬件和网络资 源,保存的页面也少,更新快。
➢缺点是需要人工介入、维护量大、信息更新不及 时。
代表性引擎
➢Yahoo、Opendirectory、Looksmart等。 ➢爬行器式搜索也提供目录式服务,如Google的网
页目录
元搜索引擎
元搜索引擎(Meta Search Engine)
自己没有网页数据库,当用户提交一个查询请求时, 它把用户查询转发给多个其他搜索引擎,返回多个 结果,进行归并后返回给用户。 多数元搜索引擎只提取出每个搜索引擎的结果中前 面10~50条信息。 优点同时覆盖多个搜索引擎,缺点是无法使用特定 搜索引擎的特殊功能,用户需要做更多的筛选。 主要代表
➢ 用户兴趣通过机器学习和相关反馈的方法进行调整。
基于Agent的爬行器
应用实例二: Amalthaea
MIT设计的基于用户个性化需求的元信息采集器。
Information Filtering Agent Information Discovery Agent
系统分为五层
➢ 用户及其反馈 ➢ 个性化Web浏览界面 ➢ 信息过滤 ➢ 信息搜索 ➢ 分布式信息源
依据搜索范围分 依据爬行器特征分 根据功能特点分
1.1.1 Web搜索分类
根据技术原理不同,搜索引擎可以分为:
爬行器式搜索引擎 目录式搜索引擎 元搜索引擎
爬行器式搜索引擎
爬行器(Crawler)
爬行器是一种可以在Web上漫游并发现、下载页面的计 算机程序,也称为蜘蛛(Spider)、机器人(Robot)。 爬行器自动在网上爬行,将搜索到的页面自动下载加 入到本地数据库中,经索引后提供用户检索服务。 特点
Agent特点
自治性:Agent运行时不直接由人或其它东西控制, 它对自己的行为和内部状态有一定的控制权 社会能力:多个Agent体之间信息交换和协作 反应能力:对环境的感知和影响 知识学习能力
➢ 例如:在基于用户个性化的采集中,它能像人一样感知用 户的兴趣变化,并根据实际情况自主地迅速地灵活地智能 地调整采集策略。
多语种与跨语种搜索引擎
多语种搜索引擎
采用语种辨别技术识别用户提问语种,检索对应语 种数据库,返回相应语种结果。 Google等支持多语种检索。 关键技术是语言识别。
跨语种搜索引擎
用一种语言提交查询,搜索引擎将其转换成多种语 言查询式,实现对多种语言数据库的检索,返回与 用户问题相关的多语言相关文献。 核心技术机器翻译。
搜索引擎被广泛利用
OCLC 2005年调研大学 生信息获取方式:
72%用户选择搜索引擎 24%用户选择图书馆 4%用户选择书店
Hitwise 3月19日统计
Top 10 Websites
Hitwise 3月19日统计
Top 10 Search Engines
1.1 Web搜索分类
根据技术原理分
Powerset
语义搜索引擎
语义搜索引擎(Semantic Search Engine) 面向语义网络空间,发现用户指定主题及其 语义相关信息。
W3C Linked Data Cloud
实例一:Marbles (/ )
实例二:Swoogle /
可迁移爬行器
可迁移爬行器
可迁移爬行器(Relocatable Web Crawler)
将爬行器上载到它所要采集的服务器中,在当地进 行采集,并将采集结果压缩后,回传到本地。
特点
爬行及分析操作在远程主机上,节省了网络资源。 爬行器可能不被采集对象所信任,解决办法:
➢ 建立一种信任机制,采集器由权威的信任机构评估并授权 ➢ 将采集器迁移到离被采集站点比较近的地方实施采集。
网络资源的发展
数据库资源(深层网络资源)
数 量 大 , 根 据 BrightPlanet 的 研究报告,网络数据库资源 约是静态网页资源的500倍。 增长速度快,同期增长速度 是浅层资源9倍。 资源稳定,质量高,不但包 括大量经对等评审的学术论 文,而且一般资源也都经过 专业人士的筛选、著录、标 引,内容可参考性更强,格 式更规范
/
德国比勒费尔德大学图书馆开发的深层数据库资源的全 文搜索引擎,目前覆盖1555个数据库近2300多万篇文献, 提供集成检索、原文链接服务。
1.1.4 搜索引擎分类
根据功能特点分类 : 多语种与跨语种搜索引擎 多媒体搜索引擎 自然语言搜索引擎 语义搜索引擎
精化器(Distiller)
➢ 用于从网页中抽取、识别主题相关链接,并将其增加到待 爬行队列中。
IBM Focused crawler
应用实例 InfoMine
一个网络学术资源服务 引擎,它利用IBM主题爬 行器采集相关主题的信息。 构建了一个的Web信息 采集器。
个性化爬行器
个性化爬行器(Customized web Crawler)
静态网页(浅层网络资源) Google
2005年底80亿张 2008年4月5日用”the” 搜 索 Google , 相 关 记 录录:112亿。 2009年4月8日用“the” 搜 Google 有 124.5 亿 页 。 2010年4月8日用”the” 搜索有190亿网页。 2011年3月26日用”the” 搜索有252亿网页。
将深层网络资源开放给搜索引擎
DP9
弗吉尼亚大学DP9项目为每个OAI数据库定义一个爬 行器入口网页(entry page),爬行器通过该网页中 的链接就可以爬行到OAI数据库中的所有数据。 厦门大学有相似作法。
深层Web爬行器
DQM (Deep Query Manager)
BrightPlanet公司开发的“深层网络资源查询 管理器”,实现对7万多个数据库的搜索、 全文索引。 支持深层网络资源的自动发现、自动配置查 询表单、制动抽取查询结果,自动配置查询 表单的成功率达85%以上 。
基于Agent的爬行器
应用实例一: InfoSpiders
美国爱荷华大学设计的一个模拟生态系统发展和演 变的Web信息采集器。 它以一个能表明用户兴趣的文件作为采集起点,通 过分析这些起点周围区域和链接关系来发现新的相 关页面。
CiteSeer
➢ 它是一个专门收集有关计算机科学方面的PDF、PS格式的学术期 刊和会议论文资料的搜索引擎。
数据库
Church in Bellevue Open hours: 9-5pm Built: 1950 …….
自然语言搜索引擎
自然语言搜索引擎
用户以自然语言方式提问,系统返回以自然 语言方式组织的检索结果 主要技术:机器翻译、语义理解及人机会话 等 相关搜索引擎
➢Ask Jeeves() ➢AnswerBus () ➢……
DQM数据库自动查询过程
深层Web爬行器
HiWE (Hidden Web Exposer)
斯坦福大学提出一面向特定主题的深层Web爬行器HiWE。 HiWE通过模仿人的操作实现查询表单自动填写、提交以及 结果页面URL的解析。
深层Web爬行器
BASE (Bielefeld Academic Search Engine )
问题
➢ 如何有效定义、描述主题? ➢ 如何判定主题相关性? ➢ 如何控制查全率、查准率等?
IBM Focused crawler
IBM Focused crawler
核心部件
分类器(Classifier)
➢ 采集系统首先保存一个经典的主题分类体系,并且为每一 个主题类目都保存若干个内容样本,用于评价采集文本是 否与主题相关
实例三:Sindice /
1.2 搜索引擎评价标准
➢ ixQuick、SurfWax、Dogpile、Vivisimo等。
1.1.2 Web搜索分类
依据搜索范围不同,Web搜索分两类:
普通搜索引擎(general-purpose search engines)
普通搜索引擎的目标是覆盖所有领域的信息资源 最負盛名的是Google等。
专业搜索引擎(domain-specific search engines)
Web 搜索
1. Web搜索概述 2. Web搜索系统结构 3. Web搜索相关技术 4. 基于主题的Web搜索 5. 搜索引擎实例分析
互连网的发展
据2011年1 月公布的第 27次中国互 连网络发展 状况调查报 告统计,中 国大陆网民 数和IPv4数 已分别达到 4.57亿和
2.78亿。
网络资源的发展
➢ 信息覆盖范围广、自动化程度高、维护费用少; ➢ 返回信息过多,包括大量无关信息。
具有代表性的爬行器式搜索引擎
➢ 国外目录式搜索引擎
特点
➢采用人工或半自动方式搜索、采集以及编辑、组 织信息,支持分类浏览、关键词检索;
➢因为加入了人的智力劳动,所以信息准确、导航 质量高;
基于字典的机器翻译
多媒体搜索引擎
两种类型
基于文本属性描述的多媒体搜索引擎 基于内容的多媒体搜索引擎
关键技术
自动排除:过滤指定多媒体特征的信息 自动标引:包括属性标引与内容标引
应用实例:Photo2Search
这是个什么 建筑物?
应用实例:Photo2Search
应用实例:Photo2Search
主题爬行器
主题爬行器(Focused Crawler)
主题爬行器爬行有限的网络空间,有选择性地搜寻与指定主 题相关的页面。 基本原则
➢ 尽可能多地下载与指定主题相关的网页 ➢ 尽可能少地下载与指定主题无关的网页
主题描述方式
➢ 关键词 ➢ 样本文档 ➢ Ontology
特点
➢ 因为不采集与主题无关的页面,所以极大地节省了硬件和网络资 源,保存的页面也少,更新快。
➢缺点是需要人工介入、维护量大、信息更新不及 时。
代表性引擎
➢Yahoo、Opendirectory、Looksmart等。 ➢爬行器式搜索也提供目录式服务,如Google的网
页目录
元搜索引擎
元搜索引擎(Meta Search Engine)
自己没有网页数据库,当用户提交一个查询请求时, 它把用户查询转发给多个其他搜索引擎,返回多个 结果,进行归并后返回给用户。 多数元搜索引擎只提取出每个搜索引擎的结果中前 面10~50条信息。 优点同时覆盖多个搜索引擎,缺点是无法使用特定 搜索引擎的特殊功能,用户需要做更多的筛选。 主要代表
➢ 用户兴趣通过机器学习和相关反馈的方法进行调整。
基于Agent的爬行器
应用实例二: Amalthaea
MIT设计的基于用户个性化需求的元信息采集器。
Information Filtering Agent Information Discovery Agent
系统分为五层
➢ 用户及其反馈 ➢ 个性化Web浏览界面 ➢ 信息过滤 ➢ 信息搜索 ➢ 分布式信息源
依据搜索范围分 依据爬行器特征分 根据功能特点分
1.1.1 Web搜索分类
根据技术原理不同,搜索引擎可以分为:
爬行器式搜索引擎 目录式搜索引擎 元搜索引擎
爬行器式搜索引擎
爬行器(Crawler)
爬行器是一种可以在Web上漫游并发现、下载页面的计 算机程序,也称为蜘蛛(Spider)、机器人(Robot)。 爬行器自动在网上爬行,将搜索到的页面自动下载加 入到本地数据库中,经索引后提供用户检索服务。 特点
Agent特点
自治性:Agent运行时不直接由人或其它东西控制, 它对自己的行为和内部状态有一定的控制权 社会能力:多个Agent体之间信息交换和协作 反应能力:对环境的感知和影响 知识学习能力
➢ 例如:在基于用户个性化的采集中,它能像人一样感知用 户的兴趣变化,并根据实际情况自主地迅速地灵活地智能 地调整采集策略。
多语种与跨语种搜索引擎
多语种搜索引擎
采用语种辨别技术识别用户提问语种,检索对应语 种数据库,返回相应语种结果。 Google等支持多语种检索。 关键技术是语言识别。
跨语种搜索引擎
用一种语言提交查询,搜索引擎将其转换成多种语 言查询式,实现对多种语言数据库的检索,返回与 用户问题相关的多语言相关文献。 核心技术机器翻译。
搜索引擎被广泛利用
OCLC 2005年调研大学 生信息获取方式:
72%用户选择搜索引擎 24%用户选择图书馆 4%用户选择书店
Hitwise 3月19日统计
Top 10 Websites
Hitwise 3月19日统计
Top 10 Search Engines
1.1 Web搜索分类
根据技术原理分
Powerset
语义搜索引擎
语义搜索引擎(Semantic Search Engine) 面向语义网络空间,发现用户指定主题及其 语义相关信息。
W3C Linked Data Cloud
实例一:Marbles (/ )
实例二:Swoogle /
可迁移爬行器
可迁移爬行器
可迁移爬行器(Relocatable Web Crawler)
将爬行器上载到它所要采集的服务器中,在当地进 行采集,并将采集结果压缩后,回传到本地。
特点
爬行及分析操作在远程主机上,节省了网络资源。 爬行器可能不被采集对象所信任,解决办法:
➢ 建立一种信任机制,采集器由权威的信任机构评估并授权 ➢ 将采集器迁移到离被采集站点比较近的地方实施采集。
网络资源的发展
数据库资源(深层网络资源)
数 量 大 , 根 据 BrightPlanet 的 研究报告,网络数据库资源 约是静态网页资源的500倍。 增长速度快,同期增长速度 是浅层资源9倍。 资源稳定,质量高,不但包 括大量经对等评审的学术论 文,而且一般资源也都经过 专业人士的筛选、著录、标 引,内容可参考性更强,格 式更规范
/
德国比勒费尔德大学图书馆开发的深层数据库资源的全 文搜索引擎,目前覆盖1555个数据库近2300多万篇文献, 提供集成检索、原文链接服务。
1.1.4 搜索引擎分类
根据功能特点分类 : 多语种与跨语种搜索引擎 多媒体搜索引擎 自然语言搜索引擎 语义搜索引擎
精化器(Distiller)
➢ 用于从网页中抽取、识别主题相关链接,并将其增加到待 爬行队列中。
IBM Focused crawler
应用实例 InfoMine
一个网络学术资源服务 引擎,它利用IBM主题爬 行器采集相关主题的信息。 构建了一个的Web信息 采集器。
个性化爬行器
个性化爬行器(Customized web Crawler)
静态网页(浅层网络资源) Google
2005年底80亿张 2008年4月5日用”the” 搜 索 Google , 相 关 记 录录:112亿。 2009年4月8日用“the” 搜 Google 有 124.5 亿 页 。 2010年4月8日用”the” 搜索有190亿网页。 2011年3月26日用”the” 搜索有252亿网页。
将深层网络资源开放给搜索引擎
DP9
弗吉尼亚大学DP9项目为每个OAI数据库定义一个爬 行器入口网页(entry page),爬行器通过该网页中 的链接就可以爬行到OAI数据库中的所有数据。 厦门大学有相似作法。
深层Web爬行器
DQM (Deep Query Manager)
BrightPlanet公司开发的“深层网络资源查询 管理器”,实现对7万多个数据库的搜索、 全文索引。 支持深层网络资源的自动发现、自动配置查 询表单、制动抽取查询结果,自动配置查询 表单的成功率达85%以上 。
基于Agent的爬行器
应用实例一: InfoSpiders
美国爱荷华大学设计的一个模拟生态系统发展和演 变的Web信息采集器。 它以一个能表明用户兴趣的文件作为采集起点,通 过分析这些起点周围区域和链接关系来发现新的相 关页面。