QDMTree支持数据流频繁更新的Cache敏感索引

合集下载

全国软考真题(中级)-数据库工程师-2019年上半年上午-考试真题及答案解析(选择题)【可修改文字】

可编辑修改精选全文完整版全国软考真题（中级）数据库工程师2019年上半年上午考试真题及答案解析（选择题）一、单项选择题（共75分，每题1分。

每题备选项中，只有1个最符合题意）●1.计算机执行程序时，CPU中()的内容是一条指令的地址。

A.运算器B.控制器C.程序计数器D.通用寄存器【参考答案】C●2.DMA控制方式是在()之间直接建立数据通路进行数据的交换处理。

A.CPU与主存B.CPU与外设C.主存与外设D.外设与外设【参考答案】C●3.在计算机的存储系统中，()属于外存储器。

A.硬盘B.寄存器C.高速缓存D.内存【参考答案】A●4.某系统由3个部件构成，每个部件的千小时可靠度都为R,该系统的千小时可靠度为(1-(1-R)})R,则该系统的构成方式是()。

A.3个部件串联B.3个部件并联C.前两个部件并联后与第三个部件串联D.第一个部件与后两个部件并联构成的子系统串联【参考答案】C●5.令序列X、Y、Z的每个元素都按顺序进栈，且每个元素进栈和出栈仅一次。

则不可能得到的出栈序列是()。

A.XYZB.XZYC.ZXYD.YZX【参考答案】C●6.以下关于单链表存储结构特征的叙述中，不正确的是()。

A.表中结点所占用存储空间的地址不必是连续的B.在表中任意位置进行插入和删除操作都不用移动元素C.所需空间与结点个数成正比D.可随机访问表中的任一结点【参考答案】D●7.B-树是一种平衡的多路查找树。

以下关于B-树的叙述中，正确的是()。

A.根结点保存树中所有关键字且有序排列B.从根结点到每个叶结点的路径长度相同C.所有结点中的子树指针个数都相同D.所有结点中的关键字个数都相同、K【参考答案】B●8.对于给定的关键字序列X47,34,13,12,52,38,33,27,5},若用链地址法(拉链法)解决冲突来构造哈希表，且哈希函数为H(key)=key%11,则()。

A.哈希地址为1的链表最长B.哈希地址为6的链表最长C.34和12在同一个链表中D.13和33在同一个链表中【参考答案】C●9.某有向图G的邻接表如下图所示，可看出该图中存在弧<v2,v3>,而不存在从顶点V1出发的弧。

ict大数据复习题(含参考答案)

ict大数据复习题（含参考答案）一、单选题（共62题，每题1分，共62分）1.用户将证书上传到弹性负载均衡中，在创建()协议监听的时候绑定证书，提供HTTPS或TCP服务。

A、HTTPSB、HTTPC、TCPD、UDP正确答案：A2.LVS、Nginx节点服务正常时，每隔()秒会对ETCD节点连接，如果连续三次所有的ETCD节点都连接失败，产生集群健康检查告警。

A、1B、2C、3D、5正确答案：D3.ELB七层基于()实现。

A、LVSB、NginxC、HaproxyD、Apache正确答案：B4.常用的数据收集工具不包括?A、LoaderB、SparkC、KettleD、Sqoop正确答案：B5.为了提高Kafka的容错性，Kafka支持Partition的复制策略，以下关于Leader Partition和Follower Partition的描述错误的是：（）。

A、Kafka针对Partition的复制需要选出一个Leader。

由该Leader负责Partition的读写操作。

其他的副本节点只是负责数据同步B、由于Leader Server承载了全部的请求压力。

因此从集群的整体考虑，Kafka会将Leader均衡的分散在每个实例上，来确保数据均衡C、一个Kafka集群各个节点间不可能互为Leader和FlowerD、如果Leader失效。

那么将会有其他follower来接管(成为新的Leader)正确答案：C6.Numpy包中创建数组的函数为(____)。

A、arrayB、ndimC、reshapeD、shape正确答案：A7.以下不属于CN自动剔除约束的是：（）。

A、设置CN心跳超时时间的值大于0B、集群中的CN 总数必须大于等于3C、多CN故障时只能剔除一个CND、CN剔除以后，逻辑集群的创建、删除、扩容、缩容、回滚、显示操作可以执行正确答案：D8.以下不属于数据科学家主要职责的是(____) 。

测试1高斯DB数据库题库V1.0版本20201105题库(329道)

测试1高斯DB数据库题库V1.0版本202011051、数据库管理系统和操作系统之间的关系是?——[单选题]A 操作系统调用数据库管理系统B 并发运行C 相互调用D 数据库管理系统调用操作系统正确答案：D2、在数据库集群里面,采用同步机制能够保证所有的节点数据都更新成功,所以在集群里面优先采用同步复制方式而不是异步复制方式。

——[单选题]A TRUEB FALSE正确答案：B3、把表进行分区带来很多好处,所以在建表的时候,分区应大量创建而且粒度要最细化。

——[单选题]A TRUEB FALSE正确答案：B4、数据库迁移工作要考虑下列哪些因素?——[单选题]A 迁移操作可以使用的时间窗B 数据源和目标系统之间的硬件资源差异C 需要迁移的数据量D 以上全都正确正确答案：D5、数据库的实例是操作系统中一系列的进程以及为这些进程所分配的内存块。

——[单选题]A TRUEB FALSE正确答案：A6、数据库扩容是一个复杂而繁琐的系统工作,所以为了减少对系统的影响,应在设计阶段尽可能留出充足的资源富余量,硬件资源配置的越多越好。

——[单选题]A TRUEB FALSE7、在 OLAP 应用中,CPU 利用率达到 100%的 SQL 都是有问题的, 需要进行优化,把 CPU 利用率给降下来。

——[单选题]A TRUEB FALSE正确答案：B8、GaussDB 100 数据库不支持二进制数据类型。

——[单选题]A TRUEB FALSE正确答案：B9、%通配符表示确切的一个末知字符。

用于 like 和 not like 语句中。

——[单选题]A TRUEB FALSE正确答案：B10、下列语句中,与”A BETWEEN 5 AND 10”等价的是?——[单选题]A A>= 5 AND A<=10B A>=5 OR A <=10C A>5 OR A<10D A>5 AND A<10正确答案：A11、以下不属于 DDL 命令的是?——[单选题]A ALTERB DROPC COMMITD CREATE正确答案：C12、如果在 SELECT 语句中使用聚集函数。

2023上半年大数据分析师(中级)考前冲刺题A1卷

2023上半年大数据分析师（中级）考前冲刺题A1卷1.【单选题】HBase的三层结构不包括（）。

A:Zookeeper文件B:ROOT表C:.META.表D:Region正确答案：D答案解析：HBase的三层结构分别是Zookeeper文件，ROOT表，.META.表2.【单选题】HBase与Hadoop生态系统其他组件的关系描述不正确的是（）。

A:利用HDFS进行数据存储B:利用Zookeeper进行协同服务管理C:利用Spark进行并行计算D:利用Sqoop进行数据导入与导出正确答案：C答案解析：HBase的并行计算不使用Spark3.【单选题】Hive中having子句通常会和（）子句一起出现。

A:selectB:fromC:whereD:group by正确答案：D答案解析：having是分组后进行筛选，需要和group by一起使用4.【单选题】Hive中把弧度转换为角度的函数是（）。

A:degreesB:radiansC:todegreesD:toradians正确答案：A5.【单选题】Hive中的函数last_day的作用是（）。

A:得到参数所指定时间的后一天B:得到参数所指定时间所在月份的最后一天C:得到参数所指定时间所在年份的最后一天D:得到参数所指定时间的前一天正确答案：B6.【单选题】Hive中加载数据到表中，指定文件路径的关键字是（）。

A:pathB:inpathC:directoryD:local正确答案：B答案解析：inpath指定要导入的文件7.【单选题】MySQL中，（）不是查询语句中的关键字。

A:group byB:havingC:limitD:update正确答案：D8.【单选题】MySQL中，select ascii('A');的查询结果是（）。

A:'A'C:65D:64正确答案：C答案解析：A的编码是659.【单选题】MySQL中，查询所有学生的sno和name的SQL语句是（）。

韩家炜数据挖掘概念和技术

数据清洗作为一种过程旳第一步是不一致性检测。不一致性可能由多种原因造成：
– 设计很差旳数据表 – 人为旳输入错误 – 有意旳错误（不希望泄露个人信息旳回答者）， – 以及数据延迟（如过期旳地址） – 还可能因为不一致旳数据体现和编码旳不一致使用 – 其他旳起源例如测量设备旳错误造成旳统计数据和系统错误 – 错误也可能发生在被用于和预期不同旳目旳时 – 还有某些不一致性是因为数据聚合造成旳（一种给定旳属性
• 2 手工填写缺失值。一般，这种措施耗时，而且对一种有诸多缺失值旳大型数据集来说并非可行。
• 3 使用一种全局常数来填写缺失值。能够将全部缺失旳属性值用同一种常数，例如标签“Unknown” 或者”-∞”来表达。假如缺失值被“Unknown”替代，挖掘算法可能错误旳以为形成了一种有趣旳概念，因为他们都有一种共同旳值”Unknown”.所以，虽然这种措施很简朴，却也并非不会犯错。
数据删减
“我被选做分析旳数据集非常大，这确信无疑旳会减慢挖掘过程。是否有一种措施能够在不影响数据挖掘旳效果旳情况下减小数据集呢？”这就是数据删减。数据删减能得到一种数据集旳删减集，比原来旳数据小诸多，但是能产生相同旳（或几乎相同旳）分析成果。
数据删减涉及维度删减和数据块删减。
– 维度删减：
数据旳低质量会造成低质量旳数据挖掘成果。 “怎样处理数据，以有利于提到数据旳质量和数据挖掘旳效果呢？数据被怎样处理能够提升挖掘过程旳高效性和简易型呢？”
这里有几种数据预处理旳技术，涉及：数据清洗，数据聚合，数据删减，数据转换。这些技术能提升挖掘算法旳精确性和效率。它们并非相对独立，是共同工作旳。例如，数据清洗也涉及数据转化以清除错误数据。
4. 不正确旳数据也可能因为命名习惯或者数据编码旳不一致性，或者输入域旳格式不一致。

大数据采集与存储智慧树知到答案章节测试2023年山东交通学院

第一章测试1.关系模式学生信息（学号，姓名，年龄，性别，籍贯），其中的主键是（）A:性别B:年龄C:学号D:姓名答案:C2.Oracle是一个开源、免费的中小型关系型数据库管理系统。

（）A:对B:错答案:B3.NoSQL的全称是（）A:其余选项都不是B:Not Only SqlC:No SqlD:Not Sql答案:B4.键值数据库，是基于key-value模式，它使用简单的键值方法来存储数据。

（）A:对B:错答案:A5.（）是最原始的SQL On Hadoop的解决方案，它是基于Hadoop实现的分布式数据仓库。

A:ZooKeeperB:HbaseC:HadoopD:Hive答案:D6.图数据库，以“图”数据结构存储和查询数据，使用节点表示数据模型中的实体，节点之间的边表示实体之间的关系。

（）A:对B:错答案:A第二章测试1.关于数据模型，下列说法正确的是（）。

A:数据操作是对数据库静态特性的描述。

B:3种基本数据模型有图形模型、层次模型和关系模型C:数据模型是对数据库动态特性的描述。

D:数据模型的三要素是数据结构、数据操作和数据完整性约束答案:D2.关于学生关系，下列哪一个属性适合作为候选码（）。

A:班级B:学号。

C:性别D:年龄。

答案:B3.有学生表Student(S# char(8), Sname char(10), Ssex char(2), Sage integer, D#char(2), Sclass char(6))。

要检索学生表中“所有年龄小于等于19岁的学生的年龄及姓名”，SQL语句正确的是（）A:Select * From Student Where Sage ＜= 19B:Select Sname From Student Where Sage ＜= 19C:Select Sage, Sname From Student Where Sage ＜= 19D:Select Sage, Sname From Student答案:C4.有学生表Student(S# char(8), Sname char(10), Ssex char(2),Sage integer, D#char(2), Sclass char(6))。

大数据技术原理与应用-林子雨版-课后习题答案

第一章1.试述信息技术发展史上的3次信息化浪潮及具体内容。

2.试述数据产生方式经历的几个阶段答：运营式系统阶段，用户原创内容阶段，感知式系统阶段。

3.试述大数据的4个基本特征答：数据量大、数据类型繁多、处理速度快和价值密度低。

4.试述大数据时代的“数据爆炸”的特性答：大数据时代的“数据爆炸”的特性是，人类社会产生的数据一致都以每年50%的速度增长，也就是说，每两年增加一倍。

5.数据研究经历了哪4个阶段？答：人类自古以来在科学研究上先后历经了实验、理论、计算、和数据四种范式。

6.试述大数据对思维方式的重要影响答：大数据时代对思维方式的重要影响是三种思维的转变：全样而非抽样，效率而非精确，相关而非因果。

7.大数据决策与传统的基于数据仓库的决策有什么区别答：数据仓库具备批量和周期性的数据加载以及数据变化的实时探测、传播和加载能力，能结合历史数据和实时数据实现查询分析和自动规则触发，从而提供对战略决策和战术决策。

大数据决策可以面向类型繁多的、非结构化的海量数据进行决策分析。

8.举例说明大数据的基本应用答：9.举例说明大数据的关键技术答：批处理计算，流计算，图计算，查询分析计算10.大数据产业包含哪些关键技术。

答：IT基础设施层、数据源层、数据管理层、数据分析层、数据平台层、数据应用层。

11.定义并解释以下术语：云计算、物联网答：云计算：云计算就是实现了通过网络提供可伸缩的、廉价的分布式计算机能力，用户只需要在具备网络接入条件的地方，就可以随时随地获得所需的各种IT资源。

物联网是物物相连的互联网，是互联网的延伸，它利用局部网络或互联网等通信技术把传感器、控制器、机器、人类和物等通过新的方式连在一起，形成人与物、物与物相连，实现信息化和远程管理控制。

12.详细阐述大数据、云计算和物联网三者之间的区别与联系。

第二章1.试述hadoop和谷歌的mapreduce、gfs等技术之间的关系答：Hadoop的核心是分布式文件系统HDFS和MapReduce，HDFS是谷歌文件系统GFS的开源实现，MapReduces是针对谷歌MapReduce的开源实现。

大数据建模练习(习题卷4)

大数据建模练习(习题卷4)第1部分：单项选择题，共39题，每题只有一个正确答案,多选或少选均不得分。

1.[单选题]视图是一种常用的数据对象，它是提供( )和( )数据的另一种途径，可以简化数据库操作A)插入，更新B)查看，检索C)查看，存放D)检索，插入答案:C解析:2.[单选题]以下关于异常处理的描述，正确的是：A)Python 中允许利用 raise 语句由程序主动引发异常B)try 语句中有 except 子句就不能有 finally 子句C)Python 中，可以用异常处理捕获程序中的所有错误D)引发一个不存在索引的列表元素会引发 NameError 错误答案:A解析:3.[单选题]拼接字段的函数是( )A)SUBSTRING()B)TRIM()C)SUM（）D)CONCAT()答案:D解析:4.[单选题]以下关于 python 内置函数的描述，错误的是：A)id() 返回一个变量的一个编号，是其在内存中的地址B)all(ls) 返回 True，如果 ls 的每个元素都是 TrueC)type() 返回一个对象的类型D)sorted() 对一个序列类型数据进行排序，将排序后的结果写回到该变量中答案:D解析:5.[单选题]某二叉树共有12个结点，其中叶子结点只有1个。

则该二叉树的深度为（根结点在第1层）___________。

A)8B)12C)6D)3答案:B解析:6.[单选题]数据挖掘标准是指挖掘从大量数据中发现隐藏的、先前未知且可用的相互关系的数据过程规范。

数据挖掘标解析:7.[单选题]UNIQUE惟一索引的作用是( )A)保证各行在该索引上的值都不得重复B)保证各行在该索引上的值不得为NULLC)保证参加惟一索引的各列，不得再参加其他的索引D)保证惟一索引不能被删除答案:A解析:8.[单选题]删除数据表中的一条记录用以下哪一项( )A)DELETEDB)DELETEC)DROPD)UPDATE答案:B解析:9.[单选题]在天算建模平台中，用“出入境人员信息”和“前科人员信息”两个数据表的身份证号关联配置，进行（）运算，可以得到“前科人员的出入境信息”A)交集B)并集C)差集D)自连接答案:A解析:10.[单选题]SQL语言是( )的语言，轻易学习。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

２５卷第９期２００８年９月

微电子学与计算机

ＭＩＣＲｏＥＬＥ明ＲＯＮＩＣＳ＆ＣＯⅧｍＲＶｄ．２５Ｎｏ．９

Ｓｅｐｔｅｍｂｅｒ２００８

ＱＤＭ—Ｔｒｅｅ：支持数据流频繁更新的Ｃａｃｈｅ敏感索引苏亮，王博，邹鹏，贾焰，杨树强（国防科技大学计算机学院，湖南长沙４１００７３）

摘要：随着硬件和通信技术的飞速发展，数据流技术已广泛应用于金融分析、网络监控及传感器网络等诸多领域，这类应用通常具有高速、海量、连续和实时等特性．因此，在数据流上渐进、实时地更新索引成为一个极具价值和挑战性的问题．为了克服现有支持频繁更新的索引树性能大都深受处理器缓存失效率的影响，提出了一种新颖的基于双Ｍｅｍｏ的量化Ｒ＊索引树一０ＤＭ－Ｔｒｅｅ（ＱｕａｎｔｉｚｅｄＲ＊一ｔｒｅｅｗｉｔｈＤｏｕｂｌｅ

Ｍ嘲），并给出了相应的插入、删

除、更新和范围查询算法，理论分析表明：与已有Ｒ＊树及其变种相比，该索引树能成倍地压缩树结点，具有更强支持频繁更新的静力．关键词：频繁更新；Ｃａｃｈｅ敏感；索引树；数据流中图分类号：什３９３文献标识码：Ａ文章编号：１０００—７１８０（２００８）０９—０１９３—０３

ＱＤＭ－Ｔｒｅｅ：ＣａｃｈｅＣｏｎｓｃｉｏｕｓＩｎｄｅｘｉｎｇ

ｆｏｒＦｒｅｑｕｅｎｔＵｐｄａｔｅｓｏｖｅｒ

Ｄａｔａ

Ｓｔｒｅａｍｓ

ＳＵＬｉａｎｇ，ＷＡＮＧ１３０，ＺＯＵＰｅｎｇ，ＪＩＡＹａｈ，ＹＡＮＧＳｈｕ—ｑｉａｎｇ

（ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ，ＮａｔｉｏｎａｌＵｎｉｖｅｒｓｉｔｙｏｆＤｅｆｅｎｓｅＴｅｃｈｎｏｌｏｇｙ，Ｃｈａｎｇｓｈａ４１００７３，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：Ｅｍｅｒｇｉｎｇｈａｒｄｗａｒｅａｎｄｃｏｍｍｕｎｉｃａｔｉｏｎｔｅｃｈｎｏｌｏｇｉｅｓｅｎａｂｌｅｄａｔａｓｔｒｅａｍｔｅｃｈｎｉｑｕｅｓｗｈｉｃｈｈａｖｅｂｅｅｎａｐｐｌｉｅｄｉｎ

ｗｉｄｅｓｐｒｅａｄｆｉｅｌｄｓｓｕｃｈａｓｆｉｎａｎｃｉａｌａｎａｌｙｓｉｓ，ｎｅｔｗｏｒｋｍｏｎｉｔｏｒｉｎｇ，ａｎｄｓｅｎｓｏｒｎｅｔｗｏｒｋ，ｅｔｃ．Ｔｈｅｓｅａｐｐｌｉｃａｔｉｏｎｓｇｅｎｅｒａｌｌｙｈａｖｅｔｈｅｃｈａｒａｃｔｅｒｉｓｔｉｃｓ：ｈｉｇｈｓｐｅｅｄ，ｍａｓｓｉｖｅｑｕａｎｔｉｔｙ，ｃｏｎｔｉｎｕｏｕｓａｎｄｒｅａｌｔｉｍｅ．Ｓｏ，ｕｐｄａｔｉｎｇｉｎｄｅｘｉｎａｐｒｏｇｒｅｓｓｉｖｅａｎｄｒｅａｌ—ｔｉｍｅｆａｓｈｉｏｎｂｅｃｏｍｅｓａｍｅａｎｉｎｇｆｕｌａｎｄｃｈａｌｌｅｎｇｉｎｇｐｒｏｂｌｅｍｏｎｄａｔａｓｔｒｅａｍｓ．Ｔｏｃｏｎｑｕｅｒｔｈｅｈｉｇｈｃａｃｈｅｍｉｓｓｒａｔｉｏｏｆｅｘｉｓｔｅｄｉｎｄｅｘｔｒｅｅｆｏｒｆｒｅｑｕｅｎｔｕｐｄａｔｅｓ，ｔｈｉｓｐａｐｅｒｐｒｏｖｉｄｅｓｆｌｎｏｖｅｌＱＤＭ－ｔｒｅｅ（ＱｕａｎｔｉｚｅｄＲ＊一ｔｒｅｅｗｉｔｈＤｏｕｂｌｅＭｅｍｏｓ），

ａｎｄｃｏｒｒｅｓｐｏｎｄｉｎｇｉｎｓｅｒｔ，ｄｅｌｅｔｅ，ｕｐｄａｔｅａｎｄｒａｎｇｅｑｕｅｒｙａｌｇｏｒｉｔｈｍｓ．ＴｈｅｏｒｅｔｉｃａｌａｎａｌｙｓｉｓｄｅｎｘｍｓｔｒａｔｅｓｔｈａｔｔｈｅＯＤＭ－

ｔｒｅｅｓｉｇｎｉｆｉｃａｎｔｌｙｏｕｔｐｅｒｆｏｒｍｓｏｔｈｅｒｓｔａｔｅｏｆｔｈｅａｒｔＲ－ｔｒｅｅｖａｒｉａｎｔｓ，ｉｔｃａｎ００ｍｐｒｅｓｓｔｈｅｔｒｅｅｎｏｄｅｓｔｏｓｅｖｅｒａｌｔｉｍｅｓａｎｄ

ｉ／ｌｏｒｅｓｕｉｔａｂｌｅｆｏｒｍａｓｓｉｖｅｆｒｅｑｕｅｎｔ

ｕｐｄａｔｅｓ．

Ｋｅｙｗｏｒｄｓ：ｆｒｅｑｕｅｎｔｕｐｄａｔｅ；ｃａｃｈｅｃｏｎｓｃｉｏｕｓ；ｉｎｄｅｘｔｒｅｅ；ｄａｔａｓｔｒｅａｍ

１引言近年来，随着网络通信和硬件技术的飞速发展，数据流技术在金融、网络、电信和军事等众多领域有着广泛的应用前景，同时给连续实时的数据流监控带来了新的契机，它已成为数据管理与数据挖掘领域的研究热点．例如：网络应用（入侵检测、网络监控）、金融服务（金融监控、点击流分析）、传感器网络（环境监测、交通拥塞控制），以及军事应用（士兵位置监控、车辆运动跟踪）等等．此类应用不问断地产生海量的流数据，通常具有以下特点：（１）数据总量的无限性；（２）数据产生的快速性；（３）数据值的不可预测性；（４）数据分布且具有不断演化性；（５）除非特意保存，数据均只能被处理一次．通常，数据流Ｓ为无界序列ｓ１，ｓ２，…，％，…，其中每个元素可形式化表示为一个三元组：（ｏｉｄ，Ｔ，Ｐ），ｏｉｄ为该数据ＩＤ，Ｔ为该数据产生的时问，Ｐ为多维空间数据值，比如ＧＰＳ监控中，车辆的坐标位置．

收稿日期：２００８—０６—１５基金项目：国家“八六三”计划项目（２００６ＡＡ０１２４５１，２００６ＡＡｌ０２２３７）１９４微电子学与计算机２００８芷

现有的空间索引主要是Ｒ—ｔｒｅｅ及其变种，该类索引树原本是为静态数据设计的，很难适用于频繁更新的数据流应用中．一次更新操作可当作一次删除和一次插入操作的组合．因此，大量的研究主要集中在如何提高索引的删除和插入性能上．随着硬件技术的发展，特别是大容量内存的广泛使用，内存成本持续下降，其价格已低于１５０元／ＧＢ，２ＧＢ甚至更大内存的硬件系统已得到广泛应用，文中针对数据流的频繁更新问题，充分发挥大容量内存的速度优势，提出了一种新颖的索引结构：ＱＤＭ－ｔｒｅｅ．（１）针对现有索引树的Ｃａｃｈｅ失效率高，设计了一种将量化最小边界矩形（ＱｕａｎｔｉｚｅｄＭｉｎｉｍｕｍＢｏｕｎｄｉｎｇＲｅｃｔａｎｇｌｅ，ＱＭＢＲ）和量化最小边界圆（ＱｕａｎｔｉｚｅｄＭｉｎｉｍｕｍＢｏｕｎｄＳｐｈｅｒｅ，Ｑ№Ｓ）相结合的Ｒ＊一ｔｒｅｅ变种：ＱＲ＊一ｔｒｅｅ，它能更好地发挥Ｃａｃｈｅ的性能．（２）为提高索引的更新性能，提出了双Ｍｅｍｏ数据结构（ｉｎｓｅｒｔ／ｄｅｌｅｔｅｍｅｎｌｏｓ），Ｍｅｍｏ为存放于内存中的摘要结构，通常为哈希表，能快速定位数据结点，减少索引遍历的开销，同时，惰性的组删除（１ａｚｙｇｒｏｕｐｄｅｌｅｔｉｏｎ）算法增强了索引删除的性能．（３）为了充分发挥大内存的优势，使用ＲａｍＤｉｓｋ技术，它将一部分内存转换成独立的磁盘分区，从而将访问外存的开销转化为访问内存的开销．（４）理论分析表明，ＱＤＭ—ｔｒｅｅ远高于其他支持频繁更新的Ｒ—ｔｒｅｅ变种．２相关工作根据对索引的操作方向来划分，总体上可分为两类：ｔｏｐ－ｄｏｗｎ和ｂｏｔｔｏｍ—ｕｐ方法．许多Ｒ—ｔｒｅｅ…变种（比如，Ｒ＊一ｔｒｅｅ［２｜，ＣＲ．ｔ－ｅｅ【３Ｊ等等）都是采用ｔｏｐ—ｄｏｗｎ方法，插入和删除操作都是从索引树的根部开始，根据搜索策略找到相应的数据结点，再对其进行插入和删除，该类方法在遍历索引上存在比较高的开销，很难应对频繁的数据更新．因此，研究人员提出了ｂｏｔｔｏｍ－ｕｐ方法，主要包括ＬＵＲ—ｔｒｅｅ【４Ｊ和ＦＵＲ－ｔｒｅｅ【５Ｊ５．该类索引采用一个二级索引结构，比如直接访问表或哈希表，其中保存ｏｉｄ到索引树数据结点的映射，从而数据的访问先查找该表，如果该数据标示ｏｉｄ存在于该表中，则能直接找到该数据保存在索引树中的位置，从而提高了索引的更新性能．另一方面，ｃａｃｈｅ敏感的索引树主要包括ＣＳＢ＋一ｔｒｅｅ和ＣＲ－ｔｒｅｅｔ５Ｊ，前者是对Ｂ－ｔｒｅｅ的改进，后者是对Ｒ．ｔｒｅｅ【１Ｊ的改进．这两类算法通过树结点压缩技术（指针删除、去掉标准Ｒ．ｔｒｅｅ的冗余项或结点数据量化技术等）增加树结点存储数据项的容量，降低树的高度，并将结点大小控制到与ＣＰＵ的Ｌ２ｃａｃｈｅｌｉｎｅ基本一致，从而极大地降低了ｃａｃｈｅ的失

效率，但这两种索引树仍然是ｔｏｐ－ｄｏｗｎ的更新方式，难以适应数据流频繁更新的场景．近年，ＲＵＭ．ｔｒｅｅ【６Ｊ采用基于Ｍｅｍｏ的机制，将对索引的所有操作都记录在该Ｍｅｍｏ中，并对该Ｍｅｍｏ进行定期的垃圾回收，删除过时的操作记录，然而，该索引树仍然是ｔｏｐ－ｄｏｗｎ的更新方式，存在插入／胛Ｊ除时对树的遍历开销．Ｂｉｖｅｉｎｉｓ【７ｊ等人设计了一种ＲＲ．ｔｒｅｅ，该树包括一棵主存Ｒ—ｔｒｅｅ和一棵传统的基于磁盘的Ｒ．ｔｒｅｅ，虽有效地发挥了大内存的优势，但同时对两棵树的维护势必增加算法的复杂性，不利于大规模数据的并发控制．

３ＱＤＭ—ｔｒｅｅ的设计动机为了支持数据流的频繁更新，降低索引树的搜索和遍历的时间开销就成为首要任务，同时，需更多的考虑大容量内存在提高索引性能中的重要地位．通常，一次索引树搜索的时间开销Ｔ—ｈ可近似地

表述为如下公式：Ｔ。ｈ兰Ｔ∞＋Ｔ幽＋丁，ｒＬＢ

Ｗｗ兰咒×赤×￡唧＋，ｚ×，×￡ｃ∞ｈｅ＋

，ｚ×ｔＴＬＢ（１）式中，Ｔ一为索引树的比较时间，Ｔ。。ｃｈｅ为ＣＰＵＬ２ｃａｃｈｅ失效时间，ＴＴＬＳ为快表（ＴｒａｎｓｌａｔｉｏｎＬｏｏｋａｓｉｄｅＢｕｆｆｅｒ）失效的时问．更细化分析可得，，ｚ为一次搜索访问的索引结点数，ｗ为树结点字节数，ｄ为索引数据维度，Ｅ为每维数据所占的存储字节数，￡一为一次数据比较的时间，ｃ为Ｌ２ｃａｃｈｅｌｉｎｅ的字节数，现在流行的ＣＰＵｃａｃｈｅｌｉｎｅ通常为３２～１２８字节．因此，文中的目标就是尽量地减少索引的搜索时间，上述公式包括四个重要的参数：咒，Ｅ，ｔｅｏｍｐ和ｔＴＬＢ．因此，文中有针对性地给出四项技术：（１）量化索引树结点（包括非叶结点和叶结点）和双Ｍｅｍｏ结构降低参数咒；（２）ＱＭＢＳ和ＱＭＢＲ技术相结合

减少Ｅ；（３）无需解压的距离计算方法降低￡一；（４）ＲａｍＤｉｓｋ技术将ｔＴＨ３失效时间转换为内存访问开销．后续章节将逐一阐述四项技术．

４ＱＤＭ—ｔｒｅｅ索引结构及相关算法本节将详细介绍ＱＤＭ—ｔｒｅｅ的索引结构及相应