一种概率XML数据树的化简算法

合集下载

一种改进XML模式树查询最小化算法

一种改进XML模式树查询最小化算法

一种改进XML模式树查询最小化算法魏东平;吴玉雁;朱新向【期刊名称】《计算机系统应用》【年(卷),期】2012(021)004【摘要】At present, Minimization of Pattern Tree Queries, becomes the key factor that affects query processing performance of XML data. An improved algorithm is proposed with structural index of XML, based on analyzing the existing methods of Minimization of Pattern Tree Queries. It's effective to solve that grammar level optimization can't effectively remove redundant nodes of the defect in the common sense, so as to improve the efficiency of the inquiry. Experimental results show the effectiveness and accuracy of the proposed minimization algorithm.%对XML模式树查询进行最小化查询优化,是左右XML数据查询处理性能的关键因素.对模式树查询最小化技术进行了研究,结合XML结构索引提出了一种改进的XML 模式树查询最小化算法.该算法有效地解决了普遍意义上的语法层次优化中不能有效删除冗余节点的缺陷,从而提高了查询效率.实验结果表明该算法是正确的和有效的.【总页数】4页(P234-237)【作者】魏东平;吴玉雁;朱新向【作者单位】中国石油大学(华东)计算机与通信工程学院,青岛266555;中国石油大学(华东)计算机与通信工程学院,青岛266555;中国石油大学(华东)计算机与通信工程学院,青岛266555【正文语种】中文【相关文献】1.一种改进的XML关键字查询算法 [J], 吴海涛2.存在完整性约束时最小化树模式查询的算法 [J], 张凡;熊志平;胡运发3.DTD约束下的XML树模式查询最小化 [J], 王梅娟;庞引明;谈子敬4.一种改进的基于小枝模式的XML数据库查询算法 [J], 李素清;陶世群5.一种改进的XML数据流小枝模式查询算法 [J], 白山;陶世群因版权原因,仅展示原文概要,查看原文内容请购买。

生成具有层次特征XML模式的简化算法

生成具有层次特征XML模式的简化算法

&引言’()已经成为*+,信息交换和信息再现中广泛应用的技术,随着’()作为网络的数据格式出现,以’()编码的数据稳定地增长,然而日常数据的大部分依旧存放在关系型数据库里,因此可以预见转换关系数据到’()文档的需求也将日益增长。

目前已经存在一些工具具有从关系数据库构造’()文档的能力,如-.(的’()/01+23+4、56789:;1+、’</9=>?@等A%,BC。

这些工具转换的成功与否与给定的输入关系模式到目标’()模式的映射密切相关,而这些从关系模式到’()模式的映射是专家做出的,因此当一个巨大的关系模式和数据需要转换为’()文档时,设计’()模式就需要耗费大量的人工投资,更糟糕的是在合并遗留的关系数据到已存在的’()文档时设计一个不与现有的结构和约束冲突的好的模式更不是一件容易的事。

在这些情况下自动推导一个准确的’()模式将变得十分有用。

而且,拥有可准确地描述原始关系数据库语义和结构的’()模式在维护转换后的’()文档方面具有重要意义,所以也有不少学者在进行这方面的研究。

总的来说,现有的转换方法可以分为三大类。

第一种是上面提到的,利用专家或者用户输入关系模式到’()模式的映射规则的方式实现转换;第二种是使用简单的类似平面的转换方式,可自动生成平面形状的’()模式,因此文献A&C称之为D?算法;最后一类是利用算法自动生成具有层次关系的’()模式,如>+?EF:?两个算法。

!D?、>+?、F:?算法及分析在关系数据库中,模式一般采用5G)HH)生成,如F4+I1+语句,因此通过检查HH)语句可以发现原始的模式信息,即使HH)语句不可获取,也可通过@H.F J KH.F接口查询数据库或者直接查看数据库获得表名、列名、关键字等信息,所以无需关心用户是如何获得关系模式的信息的。

设!!为关系中已经存在的表名的集合,!"为列名的集合,!#为标准5G)数据标准原子类型,如果名字冲突,列名$!!"使用记号“AC”引用,如%A$C表示表%的属性$。

一种挖掘XML文档频繁子树的方法

一种挖掘XML文档频繁子树的方法

一种挖掘XML文档频繁子树的方法
傅珊珊;吴扬扬
【期刊名称】《计算机工程与科学》
【年(卷),期】2007(29)10
【摘要】本文主要研究从由带标签有序树构成的森林中挖掘嵌入式频繁子树,具体做法是:首先对XML文档进行预处理,生成最简结构树SST,然后从SST中挖掘出频繁子树.本文提出了SSTMiner算法,该算法针对TreeMiner算法存在的瓶颈问题,结合当前所处理的SST的结构特点进行改进,进一步提高了算法执行的效率.实验证明,本文提出的方法能够准确高效地挖掘出XML文档中的频繁子树.
【总页数】4页(P65-67,104)
【作者】傅珊珊;吴扬扬
【作者单位】华侨大学计算机科学系,福建,泉州,362021;华侨大学计算机科学系,福建,泉州,362021
【正文语种】中文
【中图分类】TP311
【相关文献】
1.一种高效的最大频繁Embedded子树挖掘算法 [J], 朱颖雯;吉根林
2.PFTM:一种基于投影的频繁子树挖掘算法 [J], 杨沛;郑启伦;彭宏;李颖基
3.基于覆盖模式的频繁子树挖掘方法 [J], 夏英;李洪旭
4.一种新的频繁子树挖掘算法研究与实现 [J], 唐德权;谢文君
5.基于频繁子树挖掘的DNA重复序列识别方法 [J], 周溜溜;业宁;徐昇;严敏利
因版权原因,仅展示原文概要,查看原文内容请购买。

一种XML文档树节点编码的动态调整算法的研究

一种XML文档树节点编码的动态调整算法的研究

( ) aet节点 的父 节 点 的标 识 符 , 值 为父 3 Prn: 其
节点的 X o其中根节点的 Pr t n, a n 值为 0 e ; ()a : 4 Pr 节点的局部编码 , t 一个包括 n 个逻辑
块 的 段 式 结 构 的 向 量 结 构 , 表 示 为 {。s, , 可 s, s :
0 引 言
近些年 来 以“ 计 算 ” 代 表 的 基 于 It t 云 为 ne me 的网络应用越 来 越普 遍 , ML已经成 为 We 据 X b数 表示 和交换事 实 上 的标 准 … . 据 X 根 ML文 档树 节 点记 录信息 的不 同 ,ML节点 编 码 主要 分 为 3类 : X
Ma v 2 1 00
文 章编 号 :0 8—10 (0 0 o 10 4 2 2 1 )3—06 0 30— 3

种X ML文档 树 节点 编 码 的动 态调 整 算 法 的研 究①
闫文 刚 , 李 晶
( 木 斯 大学 . 龙 江 佳 木 斯 14 0 ) 佳 黑 5 0 7

要 : 结合局部 编码 思想和 全局 编码 思想提 出了一种 支持动 态调整 的 X ML文档树 节点编码
定 义 1在 S C 中 , 档 树 中 的一 个 内部 节 点 U 文 的编 码是一 个 四元 组 , 示 为 <X oLvlPrn, 表 n ,ee,aet Pr>. 中各 部分 含义 如下 : at 其 ( ) n : 点 的 唯 一 标 识 , 初 值 是 对 X l 1 X o节 其 b L
反映整个文档树的结构信息必须在此基础上附加 其他的信息 , 因此编码结构 的复杂度增加 , 检索效
率相应 降低 , 其优 点是所 需调整 的节 点编码 相对较

一种改进XML模式树查询最小化算法

一种改进XML模式树查询最小化算法

自顶 向下 和 自底 向上相 结合 的方法对 P Q进行 最小化 T 优 化,不仅有效 的删除 了分支 冗余,而且对冗 余节点 也进 行了很好 的判 断和删 除。同时,对于存在 完整性 约束条件下 的模式树冗 余问题 ,可 以对该方法进 行扩 展 ,将完整性约束条件应 用于冗余分支 的判 断中,与
( s tt o o ue d o mu ia o n ie r g C ia n v ri f e o u Q n d o2 6 5 , hn ) I tu e f mp tr n m nc t n g ei , hn ies yo t l m, ig a 6 5 5 C ia n i C a C i E n n U t P re
p ro ma c fXM L aa efr n eo d t .An mp o e lo i m sp o o e t tu t r li d x o L, a e nay ig t e i r v d ag rt h i r p s d wi sr cu a n e fXM h b s d on a l zn h
Ke r s p a r e u r s P ywo d : a ent eq e e; TQ; ni iain s u tr ln e r i mim zt ; t c a d x o r u i
目前 许 多 X ML 查询 语 言如 X a 、XQ ey Pt h ur 、
重点主要集中在如何抽取更多的完整性约束条件 。然而 现有的方法不能从 X ML 文档中获取其隐含 的全部结构
e e t e y r mo e rd d n o e ft e d f c n t o f c i l e v e un a tn d so ee ti hec mmo e s , O a o i p o e t e e ce c ft e i q iy v h n s n e S st m r v f in y o n u r . h i h Ex e i n a e ul h w h fe tv ne sa c u a yo h r po e n i iain ag rt . p rme tl s t s o t ee ci e s nda c r c ft ep o s dmi m z t l o i r s o m h

一种概率XML数据模型和查询代数

一种概率XML数据模型和查询代数

搜 索 引擎 和 智 能 体 等 领 域 得 到 了广 泛 的应 T 中的 随 机 路 径 。 用p a r e n t ( p ) =wI / w2 / … 节点 集 , 若P 为T 中的随机 路径 , 则称n 为
xM L数 据 库 的 管 理 技 术 也 不 断 得 到 成 熟 率 分 布条 件 路 径 , 称 以p a r e n t ( P ) 的 最 后 节 p a r e n t ( p ) 为T 中的概 率 条 件 路径 。 和 完 善 。由于 不 确 定 数 据 的 普 遍 存 在 性 , 用 概 率 信 息 描 述 xM L 数 据 的 不 确 定 性 成 表 示 T 中所 有 概率 路 径 集合 } 用P a t h— 2 概 率XML 查 询 代 数 为 一 个 新 的 研 究领 域 。 文献” 。 提 出 了各种 s ( ) 中所有 随机 路 径 集 合。 为 了有 效 进行 概 率 XM L 数 据 的查 询 ,
务 等 领 域 都 涉及 不 确 定 数 据 。 不 确 定 数 据 任 意 V∈ V且 是 元 素 节 点 , 则N( v ) ∈ ENl 若
间存 在 一 个 同态 映 射 由, 则称T 与 T 。 存 在

普遍存 在, 针 对 不 确 定 数 据 的研 究 工 作 已 任 意V∈ V 且 是 属 性 节点 , 则 N( v ) = @P l
大连
1 1 6 0 2 8 )
摘 要 : 传统数据库只管理确定性信息 。 但在许 多应用中涉及大量不确定数据 。 该文把概率 信息引A . X ML gt t库中, 给 出概率X ML 模式树 , 概率
x M L 数据树等相关定义, 以此 为 基 础, 提 出了 概率X M L ] f t .  ̄树 的查询代数 , 如选择操作 , 投影操 作。 研究成果为概率X M L 数据库的查询奠定了

一种XML数据流小枝模式查询算法


[ src ]Ai n th ytm vredpo lm frdt nlwi atr u r loi m rXMLd c me tti p prpo oe wi Ab ta t miga ess o eh a rbe o a io a t gp t n qey a r t e t i e g t f h o o u n, s a e rp ssat g h
DOI l .9 9 , s.0 03 2 .0 20 .2 : 03 60i n1 0 —4 82 1.60 2 s
1 概 述
XML 是 网络上 数据 表 示和 数 据 交换 的主 要标 准 ,对 X ML 文档 的小枝 模式查询和 处理成为 当前数据 库领域 的研 究热点 。对此 ,文献[】 出多谓词 归并连接 算法 。对于 归并 1 提
第3 8卷 第 6期
vo . 8 13






21 0 2年 3月
M ac r h 201 2
N o. 6
Co utrEn i e i mp e g ne rng
软 件 技术 与数 据 库 ・
一Байду номын сангаас
文章缩号: 0m 32( l) _ 09 文 1o_48 o2 岳_ 6— 3 2 0 0 献标识 码:A

() aXML文档 树
() b 小枝 查询

图1 X ML文档树及 共小 枝查询示倒
引文件 的数量却 很多时 ,需要重新 对这些节点进行编码 ,造
成很大 的系统开 销。因此 ,如 果能够避免建立这些文档 的编 码索 引文件 ,X ML文档 的查询效率将有很大提高 。为此 ,本

xml转换为树

xml转换为树xml转换为树xml转换为树using System.Xml;public partial class _Default : System.Web.UI.Page{protected void Page_Load(object sender, EventArgs e){XmlDocument xmlDoc = new XmlDocument();xmlDoc.Load("F://WebSite3//bizOfObject.xml");TreeNode root = new TreeNode("BizObjects");this.TreeView1.Nodes.Add(root);fetchNext(xmlDoc.SelectSingleNode("BizObjects"),root);}protected void fetchNext(XmlNode xEle,TreeNode treeNode) {foreach (XmlNode xnode in xEle.ChildNodes){TreeNode child = new TreeNode(xnode.SelectSingleNode("@DisplayName").Value); treeNode.ChildNodes.Add(child);fetchNext(xnode,child);}}}xml如下:<?xml version="1.0" encoding="utf-8" ?><BizObjects><BizDomain Name="TestCenterManagement"DisplayName="测试中⼼管理" Url=""><BizObject Name="ProvinceTestCenter" DisplayName="省测试中⼼" Url="xxx.aspx"/></BizDomain><BizDomain Name="DataAnalyzer" DisplayName="数据分析" Url=""><BizObject Name="ExamineeInfo" DisplayName="考⼼信息" Url="xxx.aspx"/><BizObject Name="GeneralReport" DisplayName="常规报表" Url="xxx.aspx"/><BizObject Name="GeneralChart" DisplayName="常规图表" Url="xxx.aspx"/></BizDomain><BizDomain Name="GraderManagement" DisplayName="测试员管理" Url=""><BizObject Name="GraderInfo" DisplayName="测试员信息" Url="xxx.aspx"/></BizDomain><BizDomain Name="ExamineeAAManagement" DisplayName="⼼甲复审管理" Url=""><BizObject Name="ExamineeAAInfo" DisplayName="⼼甲考⼼信息" Url="xxx.aspx"/></BizDomain><BizDomain Name="SystemManagement" DisplayName="系统管理" Url=""><BizObject Name="SystemConfig" DisplayName="系统配置信息" Url="xxx.aspx"/><BizObject Name="PersonalConfig" DisplayName="个⼼配置信息" Url="xxx.aspx"/></BizDomain></BizObjects>。

-种概率XML数据模型和查询代数

-种概率XML数据模型和查询代数摘要:传统数据库只管理确定性信息,但在许多应用中涉及大量不确定数据。

该文把概率信息引入XML数据库中,给出概率XML 模式树,概率XML数据树等相关定义,以此为基础,提出了概率XML数据树的查询代数,如选择操作,投影操作。

研究成果为概率XML数据库的查询奠定了基础。

关键词:可扩展标识语言概率数据库概率XML 数据模型查询代数在许多应用中,如金融、图像处理、制造业、生物信息、数据集成、基于位置的服务等领域都涉及不确定数据。

不确定数据普遍存在,针对不确定数据的研究工作已有几十年的历史,研究者把概率信息引入关系数据模型中(称为概率关系数据库),对其概率关系数据模型、概率关系代数、查询技术、查询优化等领域进行了研究[1-3],如今该类数据库的管理技术取得了很大进展。

XML具有跨平台、简单易用等特性,已成为Internet上数据表示和数据交换的标准。

在网络服务、电子商务、电子数据交换、数据建模与分析、科学数据表示、搜索引擎和智能体等领域得到了广泛的应用,XML技术也日益受到更广泛的关注,XML数据库的管理技术也不断得到成熟和完善。

由于不确定数据的普遍存在性,用概率信息描述XML数据的不确定性成为一个新的研究领域。

文献[4-7]提出了各种概率XML数据模型,文献[8-9]提出了概率XML数据的各种查询算法,但是目前概率XML数据的查询代数研究得还很少,本文针对此问题提出概率XML模式树,概率XML数据树等相关定义,研究了概率XML数据树选择、投影等操作。

此研究成果为概率XML数据库的查询奠定了基础。

1 基本概念该文把概率信息引入XML数据树中,对XML模式树和XML 数据树进行扩展,下面给出一些相关定义。

定义1.概率XML模式树是一个八元组Ts=(V,A,Lab,ele,N,,r),其中:(1)V表示树的节点的集合;(2)A表示树的有向弧的集合;(3)Lab表示元素名字(EN)和概率属性标识(@Pr)的集合;(4)ele表示从节点V到V中一系列节点的部分映射,满足对v ∈V,ele(v)=[v1,…,vn]且有向弧(v,vi)∈A,其中i∈[1,n];(5)N是从树节点V到Lab的映射,若任意v∈V且是元素节点,则N(v)∈EN;若任意v∈V且是属性节点,则N(v)=@Pr;(6)若任意v∈V且是叶子节点,(v)表示v的数据类型,对应域的取值范围为dom(v);(8)r为树的根节点。

XML数据的数值对象化及其转化算法

fe r m r e fo XM L aa p r i g a d sr n t e s t e p o r m i ti a ii .En i e rn p lc t n a d e p rme tlr s l e d t a s n n te g h n h r g a ma n a n b lt y g n e i g a p i a i n x e i n a e u t d mo sr t ha h s o s n ta e t tt i mo e se fc e t d l f in . i i
中 图分类号: P 11 T 31 2 .
XML 数据 的数值 对 象化 及 其转化 算 法
曹小冲 ,胡运发 ,陶晓鹏 ,葛家翔
( 复旦大学计算机科学技术学院 ,上海 2 0 3 ) 0 4 3 摘 要 :XML数据 的结构复杂且具有异构性 ,数据使 用难 度大 ,其文本 内容特点使 XML数据访 问程序难 以被有效维护 。针对 该问题提 出
第3 6卷 第 6期
V1 o. 36






21 0 0年 3月
Mac 2 0 r h 01
No. 6
Co put rEng n e i m e i e rng
软件 技术 与数 据库 ・
文章编号:lo_ 48 o0 o5 _ 文献标识码: 0 _ 2( 1) 3 2 0 4—0 4 A
在 巨大 差 异 , 因此 对 X ML 数据 的解 析 和 访 问难 度 很 大 ,对
<k > k k > n v <, n <f> /n <b > /n
<c n> vc
<g e i =“ d ”, n r fd i d >
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
摘 要 :针 对概 率 X ML数据 树 分布 节点 冗 余 的 问题 , 出一 种 化 简概 率 X 提 ML数 据树 的算 法 。通 过 分析 概 率
X L数据树 中的路 径 类型 , M 把概 率 X L 据树 划分 为稀疏 和 紧凑 两种 形 式结 构 , 过 消除 概 率级联 、 算绝 对 M 数 通 计 路 径 的相容 类 集合 和 等价 类集合 等过程把 前 者 变换 为后 者 。理 论研 究和 实例 分 析表 明 , 该化 简算 法是 有效 的 ,
Ab t a t sr c :B c u e t e p o a i s c XML d t e s a e s me r d n a tn d s h sp p rp e e td t e ag r h fr e a s h r b b l t ii aa t e mu th v o e u d n o e ,t i a e r sn e h lo t m o r i
第2 卷第 1 7 2期
21 0 0年 பைடு நூலகம் 2月
计 算 机 应 用 研 究
Ap l a i n Re e r h o mp tr p i t s a c fCo u e s c o
Vo . 7 No 1 12 . 2 De . 2 1 c 00

种 概 率 X 据树 的化 简 算 法 术 ML数
d i1 .9 9 ji n 10 —6 5 2 1 . 2 0 2 o:0 3 6 /.s .0 13 9 . 0 0 1 . s 4
Alo i m o r b blsi g rt h frp o a i tc XM L d t r e smpiyn i aa te i l i g f
tc XML a a te o d b r nso me ot ec mpa to lmi ai g te p o a lt h i i d t r ec ul e ta fr d t h o c nebyei n tn h r b bii c an,c mp i gt e c nsse tsto y o utn h o itn e f t bs l e p t n t e e u v l n e s to bsl t t he a out ah a d h q i ae c e ft a ou epah.Thet o yr s a c d e p rm e e u t ho t tt e sm pi he he r e e r h a x e n i ntr s lss w ha h i l—
p o a i si XML d t r e o te t r a e et e s a s aate sa d t ec mp c aa t e .T es a s r b b l — rb bl t i c a ate s h t wof mst t r h p re d t r e n o a td t e s h p re p o a i s o h w h r i
能够 解决概 率 x ML数 据树 的化 简 问题 。 关键词 :概 率 X ML数据 树 ; 疏形 式 ;紧凑 形式 ; 简 稀 化 中图分 类号 :T 3 1 1 P 1 .3 文献 标志码 :A 文章 编号 :10 - 6 5 2 1 )2 4 4 — 3 0 13 9 (0 0 1— 5 10
f i g ag r h i f cie yn lo t m sef t .A d i c n s le t e p o a i si i e v n t a ov h r b b l t XML d t re s l yn r b e i c aa te i i i g p o l m. mp f Ke r s y wo d :p o a i s cXML d t r e p re fr ;c mp c fr ;s l y n rb b l t ii a a t ;s a s o e m o a to m i i ig mp f
W ANG Ja — e in w ir.HAO Z o g xa h n — io ,
( .colfC m u r c ne& Tcnl y HabnU i rt c ne& Tcnl y Habn10 8 C i 2 C lg I om tn& 1 Sho o o p t i eSe c ehoo , ri nv syo i c g e i fS e ehoo , ri 50 0, hn g a; . oeeo n rai l f f o C m ue E gnen N r es F r t nvrt, abn10 4 C ia 3 Sho o C m ue Sho Si e Tcnl y H ri nt o p t n ier g, ot at oer U i sy H ri 50 0, hn ; . col o p t col c n & eh o , ab s— r i h sy e i f r e c o g nl i tt f Tcnlg H ri 5 0 1 hn ) ueo eh oy, ab 10 0 ,C ia o n
王建卫 , 郝忠孝 。
(. 尔滨理 工大 学 计算机 科 学与技 术 学院 , 尔滨 108 ; . 1哈 哈 50 0 2 东北林 业 大 学 信 息 与计算 机 工程 学院 , 尔滨 哈 104 ; . 尔滨 工业 大学 计 算机科 学与技 术 学 院, 尔滨 100 ) 500 3 哈 哈 50 1
poa iscX Ld t t es pi ig ae na a z gsm a ps ntepoaiscX Ldt e , eat e rbblt M a e i ly .B sdo nl i ept t e rbblt M a t e dp r dt ii a r m fn yn o hy i h ii ar e h
相关文档
最新文档