北京大学硕士研究生论文开题报告

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2020/10/10
XML 是 什 么
异构系统的集成
云计算
XML Data
数据交换标准 数据描述、存储
语义网基础`
AJAX技术基础
2020/10/10
什 么 是 XML 关 键 词 检 索
关键词检索:用户以关键词作为检索输入的信息检索方法。 特点: ① 简单实用 ② 良好的用户友好性 ③表意不强
待解决关键技术
➢ 增量索引问题 ➢ 基于LAF编码和二级索引检索算法的设计 ➢ 基于LAF编码和二级索引的排序方法
参考文献
2020/10/10
XML 是 什 么
XML定义
➢ 元标记语言 ➢ 关注数据描述,包括结构和语义 ➢ 半结构化数据
XML特点
➢ 简明性,易学、易用、易实现 ➢ 可扩展,可定义自已的元素和属性 ➢ 灵活性,数据显示和数据描述分离 ➢ 跨平台,方便于数据交换和集成 ➢ 跨语言,使用UNICODE字符集 ➢ 智能化,能够描述数据,让计算机理解文档
示例
1
2
3
SLCA:独立包含所有关键词 的节点
XTree:去掉包括所有关键词 的子节点后,还至少包括一 个关键词的节点
XTree>XRANK> SLCA
2020/10/10
4
5
6
7
8
A
B
A
9
10
11
12
13
A
B
A
B
SLCA:8,9 XRANK:2,8,9 XTree:2,3,8,9
研究现状
节点编码方法
➢ 充分考虑XML文档的二重属性,降低索引中的冗余 信息
➢ 使得对索引的更新效率更高,更加方便
2020/10/10
目录
背景介绍
➢ XML是什么 ➢ 什么是XML关键词检索 ➢ 研究现状
问题的提出
➢ 如何对XML文档编码 ➢ 如何设计XML的索引结构
研究方案
➢ LAF编码 ➢ 二级索引 ➢ 检索算法
➢ 节点杜威编码的长度与树的深度成正比 ➢ 有可能导致索引量非常巨大 ➢ 对杜威编码的操作复杂度高
是否存在一种新的编码方式?
➢ 节点编码的长度与树的深度无关 ➢ 索引量较杜威编码大大减少 ➢ 节点间常用操作的复杂度为O(1)
2020/10/10
如 何 设 计 XML 文 档 索 引 结 构
杜威倒排表的不足
XML关键来自百度文库检索:以XML数据为检索对象的关键词检索技术。
以平面文本为检索对象 返回整篇文档作为结果
不考虑文档内部结构 相关应用已经非常成熟
传统 VS XML
以半结构数据为检索对象 返回内部元素作为结果 重点考虑文档内部结构 目前还没有成熟的应用
2020/10/10
研究现状
检索模型
XRANK:除去子节点外独立 包含所有关键词的节点
LAF编码是稳定的
➢ 对于任意XML文档中的任意元素,其对应节点的LAF编码是唯 一的
➢ 对于任意一个能正确形成XML树的LAF编码集合,其对应的 XML树是唯一的
2020/10/10
研究现状
检索算法
➢ 求解XRANK的栈算法
核心思想:利用栈按杜威编码大小从小到大依次处理所有节点
➢ 求解SLCA的Scan Eager算法
核心思想:求解不同杜威编码集合之间的最邻近点对
➢ 求解SLCA的Nearest Pair算法
核心思想:采用二分查找方法确定两个集合间的最邻近点对
检索算法小结
研究现状
XML索引
➢ 索引分类
基于结构的索引 示例:路径索引,节点编码索引 内容索引 示例:倒排表,签名文档
➢ 现有XML索引技术
杜威倒排索引 T-index,DataGuide,Fabric
杜威倒排索引的问题
➢ 可能导致索引量非常巨大 ➢ 索引更新不方便 ➢ 处理多文档查询时效率不高
2020/10/10
待解决关键技术
➢ 增量索引问题 ➢ 基于LAF编码和二级索引检索算法的设计 ➢ 基于LAF编码和二级索引的排序方法
参考文献
2020/10/10
LAF 编 码
定义
➢ LAF编码是Layer Order and Father encoding的简写,对于 XML树中任一节点N,它的LAF编码由三部分组成:N的层次遍 历序号,N父节点的层次遍历序号以及N在树中的深度。因此, 对任一个节点的LAF编码,它是一个三元组,可以表示为: [层次遍历序号,父节点层次遍历序号,深度] 对于根节点,由于根节点不存在父节点,可以默认将其父节点 层次遍历序号设为-1。
问题的提出
➢ 如何对XML文档编码 ➢ 如何设计XML的索引结构
研究方案
➢ LAF编码 ➢ 二级索引 ➢ 检索算法
待解决关键技术
➢ 增量索引问题 ➢ 基于LAF编码和二级索引检索算法的设计 ➢ 基于LAF编码和二级索引的排序方法
参考文献
2020/10/10
如 何 对 XML 文 档 编 码
杜威编码的问题
➢ 局部编码
杜威编码 ORDPATH编码
➢ 全局编码
前序编码 后续编码
杜威编码
优点
2020/10/10
➢ 直观简单
➢ 容易判断任意两个节点之间 关系
➢ 容易求得任意两个节点的祖 先节点
➢ 扩展性好
杜威编码示例
缺点
➢ 节点编码大小与XML树深度 成正比,有可能导致索引空 间巨大
➢ 基于杜威编码的XML关键词 检索算法效率不高,主要原 因是对杜威编码的操作复杂 度一般为O(N)
➢ 没有考虑XML文档的二重属性,导致杜威倒排表存 在大量冗余信息
二重属性指:XML本身可以作为一个普通的平面文档,也可以作为一个具 有层次结构的半结构化文档
➢ 索引更新不方便,当XML文档信息发生改变时,比 如XML的URL地址变动,需要对倒排表中有关这个 文档的所有倒排索引记录进行更新
是否存在一种新的索引结构?
➢ 栈算法,Scan Eager算法和Nearest Pair算法本身都 基于杜威编码,而杜威编码处理(如比较大小,求公 共祖先等)的复杂度是O(N)的,从而导致这三个算 法的效率不会很高
➢ 这三个算法都在杜威倒排索引的基础上实现
2020/10/10
目录
背景介绍
➢ XML是什么 ➢ 什么是XML关键词检索 ➢ 研究现状
基于XML关键词检索的 索引技术以及相关算法研究
导 师:唐世渭 邓志鸿 学 生:向永清 日 期:2020/10/10
2020/10/10
目录
背景介绍
➢ XML是什么 ➢ 什么是XML关键词检索 ➢ 研究现状
问题的提出
➢ 如何对XML文档编码 ➢ 如何设计XML的索引结构
研究方案
➢ LAF编码 ➢ 二级索引 ➢ 检索算法
相关文档
最新文档