列存储数据库关键技术综述
第37卷 第12期2010年12月计算机科学Computer Science V ol.37No.12Dec 2010
到稿日期:2010 01 08 返修日期:2010 03 22 本文受国家863计划(编号2009AA01Z143),铁道部 清华大学科技研究基金(编号:J2008X 009)资助。
李 超(1978-),女,博士,讲师,主要研究方向为存储技术、数据库技术等,E mail:li chao@https://www.360docs.net/doc/8d16864463.html,;张明博(1982-),男,工程师,主要研究方向为W eb 信息管理、数据库技术等;邢春晓(1967-),男,博士,教授,主要研究方向为数据库技术、数字图书馆等。
列存储数据库关键技术综述
李 超 张明博 邢春晓 胡劲松(清华大学信息技术研究院 北京100084)
摘 要 随着互联网技术的发展、硬件的不断更新、企业及政府信息化的不断深入,应用的复杂性要求越来越高,推动着数据存储技术向着海量数据、分析数据、智能数据的方向发展,以便为数据仓库、在线分析提供高效实时的技术支持。基于行存储的数据库技术面临新的问题,已经出现了技术瓶颈。近些年来,一种新的数据存储理念,即基于列存储的关系型数据库(简称列数据库,下同)应运而生。列数据库能够快速发展,主要原因是其复杂查询效率高,读磁盘少,存储空间少,以及由此带来的技术、管理和应用优势。对列数据库技术的基本现状、关键支撑技术以及应用优势进行了介绍和分析。
关键词 列数据库,列存储,数据压缩,延时物化,成组迭代,不可见连接,数据仓库,商业智能,T PCH 中图法分类号 T P391 文献标识码 A
Survey and Review on Key Technologies of C olumn Oriented Database Systems
L I Chao ZH A N G M ing bo XIN G Chun x iao H U Jin song
(Research In stitute of Inform ation Techn ology,Tsin ghua U nivers ity,Beijing 100084,China)
Abstract Co lumn o riented database is a kind of new database sto rag e technolog y that sto res dat a acco rding t o column (not tr aditio nally ro w).T he database pioneers such as Dr.M ichael Stonebr aker ar e advocating and ex plor ing the new theo ry and techno log y fo r co lumn o riented database.T he main featur es o f it are g oo d query efficiency,less disk access,less st orag e,and significant impro vement o f database perfo rmance.Column or iented dat abase is an ideal ar chit ecture fo r data w arehouse nat ively,and thus sho ws a goo d potential in suppo rting hig hly eff icient business intellig ence applica t ions.T his new technolo gy is promising in both academic and business,ther efo re attracting lots of high tech co rpora t ions and research institutes to devote in it.T his paper intr oduced and analysed the main featur es,key techno log ies and cur rent R&D situat ions of column or iented database.
Keywords Column or iented database,Compressio n,Block it er atio n,L at e mater ialization,Invisible join,D ata w arehouse,Business intellig ence,T PCH
1 引言
列数据库是基于列存储的、主要面向企业决策分析领域的关系型数据库。在SIGM O D85,论文 A Deco mpo sitio n St orag e M odel [1]提出了一种新的存储概念,简称DSM ,这就是列数据库的雏形,但是这种技术在当时并没有得到足够的重视。近些年来在以M ichael Stonebr aker ,Daniel J.Abadi,Peter Boncz 为首的一批专家的大力提倡下,列数据库相关技术及应用快速发展,在企业决策领域已经开辟了一条新道路(参考网址w w w.databasecolumn.co m)。这种技术的特点是复杂数据查询效率高,读磁盘少,存储空间少。这些特点使其成为构建数据仓库的理想架构,因而引起数据库学术前沿和相关高新科技企业投入大量的人力和物力研发。
1.1 列数据库基本概念
列数据库是对应并区别于行数据库的概念。行数据库就
是我们所熟知的传统关系型数据库,即数据按记录存储,每一条记录的所有属性都存储在一起,如果要查询一条记录的一个属性值,需要先读取整条记录的数据。而列数据库是按数据库记录的列来组织和存储数据的,数据库中每个表由一组页链的集合组成,每条页链对应表中的一个存储列,而该页链中每一页存储的是该列的一个或多个值。
1.2 列数据库的学术价值与应用价值
列数据库技术有它独有的学术价值,近些年来在国际一流的数据库会议上频频有关于这个领域的优秀论文出现[1 3,5 17],他们主要围绕其商业价值以及主要关键技术,包括基于其主要存储原理的存储压缩、延时物化、成组叠代、查询优化、索引、及加密等进行研发。
列数据库的应用价值来自它对复杂查询的灵活快速以及压缩所带来的存储优势,这使其在数据仓库和商务智能方面具有良好的发展前景。已经有许多列数据库在企业决策分析
领域的成功案例。V ERT ICA已经在美国拥有了许多客户, SY BASE IQ更是已经进入了中国市场。
1.3 主要的开源列数据库和商业列数据库
1.3.1 C Store
C Sto re是一款开源的、运行于L inux系统的列数据库,是耶鲁大学、麻省理工大学、布朗大学等联合协作开发的软件,于2006年10月发布。它是一种适合做学术研究的列数据库,目前主要的学术研究都是利用它来做的,在学术界比较流行。它同时是商业列数据库产品V ER T ICA的原型(ht t p://https://www.360docs.net/doc/8d16864463.html,/pr ojects/csto re/#people)。
1.3.2 M onetDB
M onetDB是一款运行于L inux和Window s系统上的高性能开源列数据库(http://mo netdb.cwi.nl/),同时是一款内存数据库。它可应用于数据挖掘、O L AP、G IS、XM L查询、文本和多媒体检索。它支持SQ L?99,SQ L?03核心标准,支持持久存储、触发器。用户可用C编写所需功能。它还支持OP EN G IS标准和SQ L/XM L的大部分标准。它基于内存文件存储,可对数据库进行升级,支持32位和64位平台,能对查询进行有效的优化[14]。
1.3.3 M onetDB/X100
M onetDB/X100同M onetDB都是一个组织开发的,主要区别是X100不是内存数据库,而其技术也更加成熟一些,查询效率也更加优秀。M o netDB/X100同样运行于L inux和Window s系统上,同样由C编写。
1.3.4 Rasdaman
Rasdaman是一款运行在L inux系统上的商业列数据库,由不莱梅大学和Rasdaman公司合作开发(ww w.rasdaman. co m),2008年9月宣布开源版本(ww w.r asdaman.o rg),全名为 raster data manag er。它是一款快速、灵活、价廉的列数据库,其开发语言是C/C++以及JA V A,支持大部分SQ L 标准。
1.3.5 Sybase IQ
SY BASE IQ是Sy base公司专为分析型应用与数据仓库而设计的,是唯一一个由传统基于行存储的关系型数据库厂商开发的列数据库产品。Sybase IQ是拥有列式存储、专利索引、查询优化等技术的数据仓库引擎,带来的查询速度将比传统数据库提升10~100倍。
1.3.6 Par A ccel
Par Accel分析数据库PA DB是一个专门开发的数据仓库和分析型数据库管理系统,P arA ccel具有可扩展性、简单的数据仓库的安装和操作、成本可接受性、高效解析查询处理等特点。
除此之外,还有Ver tica,X100/Vecto rW ise,K ickFire, SAP Business A ccelerato r,Info brig ht,Ex aso l等开源列数据库以及商业列数据库。
可以看到,列数据库已经从SIG M O D85上不为大众所关注的DSM雏形发展到了今天初具规模的局面。无论是在学术前沿研究、系统技术研发,还是在数据仓库、数据分析及决策支持等应用领域,列数据库都是一个蓬勃发展的热点和新的增长点。
本文从3个方面分析列数据库相对于行数据库的优势;然后介绍列数据库的几大关键技术,包括压缩、延时物化、成组迭代、不可见连接,这既是当前的一些研究前沿和热点,又是不同列数据库系统之间的主要技术区别所在;接下来,介绍用于评价数据库系统性能的T P CH测试,以为相关研究提供参考,并引用T PCH官方测试结果进一步说明列数据库的优势;最后总结全文。
2 列数据库的优势
列数据库在数据仓库、商务智能领域应用中有着先天的优势:独特的存储方式,能够迅速地执行复杂查询;列数据库的压缩技术,更是能为数据仓库、商务智能应用中巨大的数据量节约存储成本;列数据库先进的索引技术也大大提高了数据库的管理。
2.1 列数据库存储方式带来的技术优势
因为列数据库和行数据库都是关系型数据库,因此列数据库在逻辑上与行数据库没有区别,用户处理和操作的都是一行一行的记录、一个一个的表。两者的本质区别在于其物理存储是基于列存储还是基于行存储。列数据库按列存储的结构,便于在列上对数据进行轻量级的压缩,列上多个相同的值只需要存储一份。压缩能够大量地降低存储成本。
按列存储和压缩的特点,也为列数据库在查询方面带来先天优势,因为若能将更多的数据压缩在一起,则在每次读取时就可以获得更多的数据。很显然,每次读取操作获取更多的数据就意味着更快的处理速度。同时,列数据库的存储特点有利于迅速查询所需要的列。行存储虽然可以比较轻松地添加修改记录,但是会增加许多不必要的读取;而列存储只需要读取相关数据,并且可以从多个入口写入数据。
2.2 列数据库在数据管理方面的便捷优势
在数据管理方面,行数据库采用的是稠密索引,即当数据库文件中的记录不按照关键码的顺序排列时(比如按照加入的顺序排列),需要对每一个记录建立一个索引项。这有两方面的缺点:一是增加所用的存储空间,二是增加数据更新时的代价。正是由于这两方面的问题,在基于行存储的关系型数据库中,为表的所有列都建立索引就不太现实。这样就出现了下面的问题:如果一个查询语句是基于一个未加索引的列查询,系统就不得不做全表扫描,导致数据库的查询效率不高。因此,考虑在哪些列加索引并根据应用的需求适时调整,就成为数据库管理员的一项繁重工作。而列数据库因为各条记录在磁盘中是按照关键码值压缩顺序存放的,所以采用的是稀疏索引,即把连续的若干记录分成组(块),对一组(块)记录建立一个索引项。列数据库可以为所有列建立稀疏索引,事实上也都是这么做的。这是因为每个列的值都已被压缩顺序存储,索引只需建立到数据块级,因此索引的存储空间很小,维护费用很低,使得可以以很小的代价给所有的列建立索引。当查询通过索引定位到某一数据块后,就可以使用二分法查找。这样,数据查询在任何情况下都不会导致全表扫描,从而提高了数据库的查询性能。在列数据库中,后台程序默认地自动为所有的列维护稀疏索引,因此为数据库管理员卸下了建立、管理和维护索引的繁重工作。
此外,无论是在行数据库还是列数据库中,在删除一条记录时,都会出现一个物理存储空间上不连续的空洞。在行数据库中,随着一段时间的增删操作,这些空洞会越来越多,越来越大。这一方面会导致物理存储空间的闲置和浪费,另一
方面会使得访问数据库的效率下降。因此,行数据库管理员为了填补这些空洞、消除空洞带来的负面影响,经常在维护时要做的事情是把数据全部导出来,再重新导回去。而列数据库因为在每一列上都采用了轻量的稀疏索引,在插入删除数据时,利用这些索引可以把空洞尽量减小,免除了数据库管理员的大量导入、导出工作。
2.3 列数据库在数据挖掘领域的应用优势
数据挖掘应用有着数据量大、主要针对少数列进行复杂查询操作的特点。在列存储模式下,对于列的DM L (Data M anipulation L ang uage,数据操纵语言命令)操作,仅仅是对列所对应的数据库页链进行数据扫描,不会导致对全表的数据访问,可以有效降低DM L 操作的I/O 数量。由于数据按列存储,为调整数据模型所做的新增列、删除列操作不再会遇到数据碎片问题。这是因为在列存储中,由于数据存储以列为单元,列删除或者新增操作是将列所对应的数据库页链从表的页链集合中去除或者新增,不涉及其他列对应的数据库页链。此外,列数据库中数据按列压缩的特点也同样能够减少挖掘时的I/O 量[2]。
3 列数据库的关键技术
3.1 压缩
随着信息化的不断发展,在数据仓库与商业智能领域中,数据量已经越来越大,企业不可能不间断地增加存储成本,所以数据压缩已经是目前IT 领域一个一定要面对的问题。列数据库的存储特点,决定了其在压缩方面的优势。
在SIGM O D06会议上,D aniel J.Abadi [3]通过在开源的列数据库C Store 上进行实验比较和理论分析指出,主要的压缩方法有以下几类:
1)行程编码算法(Run length Enco ding );2)词典编码算法(Dict ionary Encoding);3)位向量算法(Bit V ect or Encoding)。3.1.1 行程编码算法(Run leng th Encoding)
行程编码算法(见图1)是比较适合列数据库的压缩算法之一,即用一个三元组记录数据值、数据出现的起始位置和持续长度(即行程),以代替具有相同值的若干连续原始数据,使三元组的存储长度少于原始数据的长度。
三元组描述为(X,Y ,Z):
X:数据的值,Y:起始位置,Z :
长度。
图1 行程编码算法
3.1.2 词典编码算法(Dictio nar y Enco ding )
词典编码就是生成一个 原始值 替代值 的对照词典。为了起到压缩的作用,替代值的长度小于原始值的长度。存储的时候,只存储替代值而不是原始值,从而压缩了存储空间。
算法描述如下:
T1:原始表(其中,T1有n 行)
DIC:词典表(关于表T 1的第k 列的词典) T2:压缩存储表
N:原始值 M :替代压缩值For(1#i #n)Begin
扫描T 1中第k 列的第i 个值得到原始值N ; 查找DIC 中N 对应的压缩值M ;
将压缩值M 作为T 2中第k 列的第i 个值存储;En d.
如图2所示的例子中,简单的两位数字代替了原始的字符串,
缩短了所需的存储空间长度。
图2 词典编码算法
3.1.3 位向量编码算法(Bit V ector Encoding)
位向量编码是为每一个不同的取值生成一个位向量,根据位向量(串)中不同的位置取值0或1来对应并确定不同的原始值。
算法描述如下:
T 1:原始表中的某一列(其中,T 1有n 行) V :T1的取值空间(无重复元素) M :原始值
m:V 的模数(V 中的值的个数)
BV i(1#i #m):V 中不同取值对应的位向量For(1#i #n)Begin
扫描T 1中的第i 个值M ; 将M 加入取值空间V;En d;
计算V 的模m;For(1#i #m) 初始化位向量BV i;
//m 个位向量分别对应m 个不同的取值For(1#i #n)Begin
扫描T 1中的第i 个值M ; 确定M 对应的位向量BV x ; 将位向量BV x 的第i 位值置为1; For(1#j #m)
if (j <>x )th en 将位向量BV j 的第i 位值置为0;
En d.
图3中 产品ID 列的原始数据经过位向量算法压缩后,形成如图2所示的位向
量。
图3 位向量算法
3.1.4 3种压缩方法比较
Daniel J.A badi在文献[5]中介绍的3种压缩方法都是轻量级压缩算法。轻量级压缩最大的优点是能够在不解压的情况下直接对压缩状态的数据进行操作[19]。就目前的列数据库而言,行程编码是一种最容易实现的压缩方法,但是有一定的局限性。表1是3种压缩方法的优缺点比较。
表1 压缩方法比较
算法名称行程编码算法词典编码算法位向量算法
数据列的共同特征a)适用于重复数据较多
b)不适用于重复数据较少
适用数据列的不同特征重复数据的排序
比较规则
取值空间较小取值空间较小
不适用的数
据列不同特
征排序不规则
a)取间空间较大
b)数据类型长度比词
典符号长度更小
取值空间较大
优点对于适用的数据
特征,有比较好
的压缩效果
a)对于数据类型要求
较低
b)对于数据排序要求
较低
a)对于数据类型要求
较低
b)对于数据排序要求
较低
c)在有些情况,查询
效率要比词典编码高
缺点对列值的重复性
以及排序要求较
高
需要创建一张词典
表,增加维护代价,如
果数据重复性不高,
词典表会过于巨大
用位置代表数据,如
取值空间较大,或重
复性较低,占用空间
会比较大
注:表中所谓 适用即采用了某一压缩算法可以起到减少存储空间的效果。
3.1.5 压缩优势的实例
对于列数据库主要应用的数据仓库领域,海量数据的有效压缩是一个十分重要的优势。几种开源和商业的列数据库系统都将良好的压缩率作为自己突出的优势。列数据库的领军厂家SYBA SE IQ就声称其压缩率可达到70%。
表2是2005年W inter Co rpor ation做的10大数据库评比。表中的数据仓库大小是建立两年后数据仓库的大小,而原始数据大小是指数据仓库建立时的大小。N ielsen M edia Resear ch是美国一家从事媒体收视率分析研究的公司,基于Sybase IQ系统建立了数据仓库,原始大小是17.969T B。数据仓库建立两年后,大小是17.685T B。Y aho o点击流分析数据仓库(基于O racle系统)建立的时候数据量是17.014T B,而建立两年后,数据量大小为100.386T B。基于行数据库Or acle的Y aho o点击流分析数据仓库从约17T B扩张到了约100T B,大约扩张了6倍。而基于列数据库Sybase IQ的Nielsen M edia Research数据仓库却随着数据的积累被压缩得比原来还小。所以,从这个例子可以看出列数据库Sybase IQ的压缩比是非常高的。
表2 对比表
公司、组织数据仓
库大小
(T B)
原始数
据大小
(TB)
数据
行数
数据
库
操作
系统
体系
结构
数据库
厂商
系统
厂商
存储
厂商
Y ahoo100.38617.0143853Oracle unix Centralized
/SMP
Oracle
Fujitsu
Siemens
EM C
N ielsen
Med ia Resear ch 17.68517.9695024
S ybase
IQ
unix
Centralized
/SMP
Sybase
Fujitsu
Siemens
EM C
3.1.6 总结
在国内,已经有同行对压缩算法的性能分析做了很多工作[18],但列数据库领域的压缩算法研究仍是我们未来工作的重点之一。压缩技术不仅可以节约存储空间,而且是提高查询效率的关键因素。但是上述列数据库压缩方法都有其局限性,所以研发一个适用范围更加广泛、压缩以及解压的时间更加快速的压缩方法,必然是列数据库领域学术研究的一个热点。
3.2 延时物化
为了说明延时物化,先介绍元组物化的概念。元组物化,即将常用元组或可能会用到的逻辑元组从实际物理存储的状态生成为实体化的元组,也称为物化,存储在内存中。在随后查询时,直接读取已经物化的元组,以提高查询的效率。而元组物化有两种方案,分别是提前物化:在提交查询之前物化元组;延时物化:尽量推迟物化元组的时间,在查询中间的某个时刻物化元组。
对于列数据库来说,提前物化需要解压所有已经压缩的数据,其时间和空间的开销是很大的。同时,提前物化会涉及到很多不必要的列,有悖列数据库按列存储、按需取用的初衷。因此,在列数据库领域,提出了延时物化的思想。
3.2.1 延时物化形式化描述
假设有如下查询:
s elect value1,value2,?,value N,AGG1,AGG2,?,AGG Q
from table1,table2,?,table M
w herecondition1OP1conditon2OP2,?,OP T condition P
LIST1,LIS T2,?,LIST L
Value i(1#i#N):查询直接要得到的值
AGG i(1#i#Q):对于查询的值进行聚集计算的结果
table i(1#i#M):查询所涉及到的表
con dition i(1#i#P):查询的选择条件
OP i(1#i#T):逻辑运算(与或非)
LIST i(1#i#L):对结果进行排序处理指令
算法描述如下:
For(1#i#P)
Begin
对于condition i,生成标定符合条件的位向量h i;
En d;
初始化目标位向量H;
H:=h1;
For(1
H=H OP i-1h i;
初始化目标物化结果空间为O;//O有(N+Q)个存储空间
For(1#i#(N+Q))
Begin
if(i#N)then O i=(Value i对应的列)AND H
else O i=(AGG i-N对应的列)AND H;
En d;
初始化最终查询结果空间为S;//S有(N+Q)个存储空间
For(1=
Begin
if(i<=N)then S i=O i
else S i=AGG i-N(O i);
En d;
输出结果时按照LI ST1,L IST2,?,LI ST L的要求依次排序。
3.2.2 延时物化测试实例
以下面的查询为例:
S elect custID,SU M(price)From table w here
prodID =4an d s toreID=1gr ou p by prodID
如图4所示,如果采用提前物化,列数据库在执行查询时,会首先将列中数据解压,之后构建(物化)元组。这样的操作有3个缺点:一是需要解压所有数据;二是需要物化所有元组;
三是增加内存负担。
图4 提前物化
如果采用延时物化,列数据库则按过程执行查询。如图5所示,根据判定条件pro dID =4,stor eI D =1,将pr odID,sto reID
两列分别用位向量进行选择标定。
图5 延时物化第一步
之后将两个列对应的向量进行逻辑与运算,得到一个列向量,如图6
所示。
图6 延时物化第二步
通过上面得到的位向量,与相关两列进行逻辑与运算。在此刻将查询得到的元组进行物化,如图7
所示。
图7 延时物化第三步
最后通过物化的元组,得到所要查询的结果custID,SU M (price),如图8
所示。
图8 延时物化第四步
ICD E2007会议上,Daniel J.A badi [7]在对延时物化和提前物化进行测试后得出了令人信服的定量化结论:在低选择性、中选择性和高选择性3类具有代表性的查询中,延时物化的表现始终要好于提前物化,如图9所示。
在对比测试中,即使在没有压缩的情况下,延时物化的表现仍然要比提前物化的好,如图10
所示。
图9
对比图
图10 对比图
3.2.3 总结
延时物化最主要的优点在于其高效的压缩传输数据开销:在执行计划中用位图(位向量)来标识行的位置,直到最后必须取属性值时再实际取相应列的值,尽可能地避免了不必要的实际数据传输开销。延时物化是一个比较实用的技术,
非常适合在列数据库中使用。单纯的列数据库是一列一列地把数据存储在磁盘上,如果离开列数据库,延时物化许多性能上的潜力得不到实现[7]。D aniel J.Abadi 在文献[7]中,利用开源列数据库平台C Sto re,详细介绍了两种物化方式的实验过程。另外,M onetDB/X100这个比较有影响力的开源列数据库也运用了延时物化技术。
3.3 成组迭代
要处理一系列记录,行数据库要对每个记录依次进行迭代,对于每一个记录通过单个记录的操作接口,从这些记录中
选取需要的属性或者执行函数的调用。这是一个成本很高的操作。所以IBM 的专家S.Padmanabhan 提出,可以成组地调用函数,这样就可以节约很多资源。
对于现代CPU 而言,CP U 在缓存中找到有用的数据被称为命中;当缓存中没有CPU 所需的数据时(未命中),CPU 才访问内存。所以,CPU 访问内存的频率越低(也称未命中频率),查询的效率也就越高。列式存储具有高度的可压缩性。假设对一列使用行程编码压缩,就像本文3.1节中提到的一样(值、起始位置、长度),占10个字节。利用64字节的高速缓存行,可以将6个压缩的列值载入一个高速缓存行。这样,每次访问内存,读取的压缩列值是6个,而这些压缩的列值对应的实际数据就远远不止6个。
此外,如果列被设定为固定宽度,这些值可以直接对应为一个数组。把数据当作一个数组来操作,可以使单个记录处理代价最小化。所以,列数据库的存储方式可以大大提高CP U 吞吐量。随着CP U 性能的不断提高,运用成组迭代的列数据库在未来的表现将更加优秀[6]。
成组迭代的思想是针对行数据库提出的,所以成组迭代同样也适用行数据库。在这里也可以感觉到,列数据库作为关系型数据库,在许多方面是不得不借鉴行数据库已经成熟的技术。
3.4 不可见连接
这是Daniel J.A badi [3]提出的一种专门针对列数据库进行查询效率优化的技术。该方法将查询所涉及的各个表的属
性对于查询条件的符合情况采用位向量的方式来标定,之后对这些位向量进行逻辑与或运算,得到最终可用于标定结果的位向量。整个过程没有属性或列之间直接的值连接操作,这些直接的操作被位向量直接的逻辑与或运算替代,因此被称为 不可见连接 。不可见连接的目的是尽量避免原始数据
传输、处理和缓存的开销,而充分利用按列存储的便利,采用位向量的方式来标定和连接符合条件的中间结果。该方法适用于星状结构的数据库。
3.4.1 不可见连接形式化描述
假设有如下查询:
select valu e1,valu e2,?,value N,AGG1,AGG2,?,AGG Q
from tab le1,table2,?,table M
w h ere
condition1OP1conditon2OP2?OP T condition P
L IS T1,LIST2,?,LIST L
Valu e i(1#i#N):查询直接要得到的值
AGG i(1#i#Q):对于查询的值进行聚集计算的结果
table i(1#i#M):查询所涉及到的表
condition i(1#i#P):查询的选择条件
OP i(1#i#T):逻辑运算(与或非)
L IS T i(1#i#L):对结果进行排序处理指令
算法描述如下:
count=0;//count用于记录选择性查询条件的个数
For(1#i#P)
Begin
if(condition i是选择性条件而非连接条件)
th en
Begin
对于condition i,生成标定符合条件的位向量h i;
cou nt=count+1;
end;
E nd;
初始化目标位向量H;
H:=h1;
For(1
if(condition i是选择性条件而非连接条件)
th en H=H OP i-1h i;
初始化中间物化结果空间O;
//O有(P count)个存储空间将被物化中间结果填充
For(1#i#P)
Begin
if(condition i是连接条件而非选择性条件)
th en O i=(condition i对应的事实表的列)AND H
E nd;
初始化最终连接结果空间为R
//R有(P coun t)个存储空间将被最终连接结果空间填充
For(1#i#P)
Begin
if(O i存储的是中间物化结果而非初始化值)
th en
Begin
condition i对应的维表与O i在对应列作连接;
R i=选取连接结果中与Value i(1#i#N)或者AGG i(1# i#Q)关联的列;
En d;
E nd;
初始化最终查询结果空间为S//S有(N+Q)个存储空间
For(1#i#(N+Q))
Begin
if(i#N)then S i=R i
els e S i=AGG i-N(R i);
E nd;
输出结果时按照LI ST1,L IST2,?,LI ST L的要求依次排序。
3.4.2 不可见连接测试实例
以下面的查询为例:
s elect c_nation,s_nation,d_year,sum(lo.revenu e)as revenu e
from customer AS c,lineorder AS lo,sup plier AS s,dw date AS d
w here lo_cu stkey=c_custk ey
and lo_suppk ey=s_s uppkey
and lo_orderdate=d_datekey
and c_region=%ASIA?
and s_region=%ASIA?
and d_year&1992and d_year#1997
grou p by c_nation,s_nation,d_year
order b y d_year asc,revenu e desc;
首先我们按照这个顺序来执行w her e子句,lineor der, customer(reg ion=Asia),supplier(reg ion=Asia),date(y ear betw een1992and1997)。
从表3中,根据判定条件r egio n=Asia,得到custkey为1和3的记录符合条件。
表3 客户表
cust key reg ion nat ion
1A SIA CH INA
2EUROPE FRA NCE
3A SIA INDIA
在表4中,根据判定条件reg ion=A sia,得到suppkey为1的记录符合条件。
表4 供应商表
suppkey reg ion nat ion
1A SIA RUSSIA
2EUROPE SPAIN
在表5中,根据判定条件(d_y ear&1992and d_y ear# 1997),3条记录都符合条件。
表5 日期表
dat ei d yea r
010*********
010*********
010*********
之后在lineo rder表(fact table)(见表6)中根据上述判定条件进行符合条件的连接。
表6 事实表
o rderkey custkey suppkey o rderdat e revenue 1310101199743256
2320101199733333
3210102199712121
4110102199723233
5220102199745456
6120103199743251
7320103199734235
如图11所示,根据对表3-表5的选择判定,将表6中custkey,suppkey,orderdate这3个用于连接的列分别用位向量进行选择标定,之后将这3个列对应的向量进行逻辑与运算,得到一个用于传递实际选择条件和连接结果的列向量,如图12所示。
图11
不可见连接第一步
图12 不可见连接第二步
通过不可见连接,就可以得到所要查询的数据,revenue (43256+23233),c_nation 为(china,india),s_nation 为(Rus sia,Russia),d_year 为(1997,1997),如图13
所示。
图13 不可见连接第三步
3.4.3 小结
不可见连接是列数据库专家Daniel J.A badi 在2008年提出的技术。该技术还非常年轻,还没有运用到真正的列数据库系统上,所以需要通过实践来验证它存在的价值。数据库连接无疑是数据库技术中非常重要的组成部分,所以针对列数据库连接方面的研究将成为列数据库领域工作者未来工作的重点之一。
3.5 总结
综上所述,支持列数据库的4大关键技术分别是压缩、延时物化、成组迭代和不可见连接。现如今,已经有很多列数据库成功地实施并运用了这些技术,将来围绕着这4个方面,会有许多新技术不断出现,以促进列数据库技术的发展。
4 列数据库性能测试
列数据库的发展势头非常迅猛,大有在数据仓库领域取代传统行数据库的趋势。其两大主要技术优势???有效的压缩和高效的查询性能,使其成为支撑大规模数据仓库和提供高性能数据分析的良好平台。作为衡量两大技术优势之一???高效查询的性能测试标准,T PCH 官方测试目前被广泛认可,其测试结果无论是在产品选型还是实验研究方面都极具参考价值。
4.1 TPCH 官方数据库测试
4.1.1 T PC 测试简介
T PC(T ransaction Pr ocessing Perfo rmance Council,事务处理性能委员会)是由数10家会员公司创建的非盈利组织,总部设在美国。该组织对全世界开放,但迄今为止绝大多数会员都是美、日、西欧的大公司。T PC 的成员主要是计算机
软硬件厂家,而非计算机用户。T PC 的功能是制定商务应用基准程序(Benchma rk)的标准规范、性能和价格度量,并管理测试结果的发布。4.1.2 T PCH 测试简介
T PC H(商业智能计算测试)是T PC 的重要测试标准之一,主要用来模拟真实商业的应用环境。与科学计算测试不同,商务智能计算测试是对现实中商用计算需求的全面模拟,包括模拟真实商业交易数据库的动态查询,作为决策支持与数据库应用系统的参考。
这种商业测试可以全方位评测系统的整体商业计算综合能力,对厂商的要求更高,同时具有普遍的商业实用意义,目前在银行信贷分析和信用卡分析、电信运营分析、税收分析、烟草行业决策分析中都有广泛的应用。4.1.3 T PCH 测试分析
图14是根据T PC 官方网站上的T PC H 测试数据分析完成的柱状图[4]。QphH 为纵坐标,它的含义是每小时完成的查询数,这个值越高,说明查询执行的性能越高。图14亦是T PCH 官方测试100G 数据级的前10
名对比柱状图。
图14 TPCH 对比图
从图14中可以看出,在这一数据级中,表现最好的两个数据库是EX ASQ L EXA Solution2.0和ParA ccelA naly tic D a tabase,它们都是列数据库。上述结果说明,列数据库在100G 这个数据级里表现出色(注:图14中,相同的数据库若采用的操作系统不同,其测试结果也就不一样,详细的操作系统及硬件配置参考文献[4])。
4.2 总结
在T PCH 官方测试中,列数据库已经在查询性能上展示了突出的表现,这进一步印证了列数据库是支撑数据仓库、数据分析以及商务智能的优良平台。列数据库的基于列存储的方式和在此基础上的几大关键技术决定了其适用领域和应用的优势。
结束语 在经过一系列调研与学习之后,我们实验室小组开发了一个列数据库H U ABA SE,它虽然只是个内核,但是已经在内部测试中表现出了良好的性能,其效率已经大大超过了进行对比的几个行数据库。
本文介绍了列数据库概念、几个商业列数据库和开源列数据库以及列数据库的优势,着重介绍了列数据库的几大关键技术特点;引用了T PCH 官方测试结果,最后进行了总结。
(下转第17页)
Dynamic Grid Environment[C](Proceedings of DE XA W ork s hop.2005:356 360
[29]Cai M,Frank M,Ch en J,et al.M AAN:A M ulti Attrib ute Ad
dressable Netw ork for Grid Inform ation S ervices[C](Pr ocee din gs of4th International Works hop on Grid Compu tin g.Phoe nix,USA,2003:184 191
[30]An drzejak A,Xu Z.Scalable Efficient Range Qu eries for Grid
Information S ervices[C](Proceedings of th e2nd International
C onference on Peer to Peer C om puting.Linkoping,Sw eden,
2002:33 40
[31]Oppenheimer D,Alb rech t J,Patterson D.et al.Distribu ted Re
sou rce Discovery on Planetlab w ith SW ORD[C](Proceedings of W ORLDS2004.S an Francis co,USA,2004:9 15
[32]S pence D,H arris T.XenoSear ch:Distri buted Resource Discovery
in the XenoServer Open Platform[C](Proceedings of12th IEEE International Symposiu m on H igh Performance Distribu ted Computin g.S eattle,US A,2003:216 225
[33]Balazins ka M,Balak rishnan H,Karger D.INS/T w ine:A S cala
ble Peer to Peer Ar chitecture for Intenti onal Resource Discovery
[C](Proceedings of th e Pervas ive2002.Zurich.S witz erland,
2002:149 153
[34]Bharambe A R,Agraw al M,Seshan S.M ercury:S upporting
S calable M ulti Attribute Ran ge Queries[C](Proceedings of ACM SIGCOM M2004.Portland,US A,2004:353 366
[35]Schmidt C,Paras har M.Flex ible Inform ation Discovery in De
centralized Dis tributed Systems[C](Proceeding s of12th Inter nation al Sym pos ium on H igh performance Distribu ted Com pu ting.Seattle,USA,2003:226 235
[36]Ratnasamy S,H ellerstein J M,Sh enk er S.Range Queries over
DHT s[R].IRB TR 03 009.Intel Corporation,2003
[37]Basu S,Banerjee S,S harma P,et al.Nodew iz:Peer to peer Re
s ou rce Discovery for Grids[R].H PL 2005 36.H P Labs,2005 [38]张忠平,雷炳银,刘欣媛.基于多层覆盖网络结构的资源发现机
制[J].计算机科学,2008,35(3):103 105
[39]朱凌,黄德才,郑月锋.一种基于索引P2P分层的网格资源发现
模型[J].计算机工程与应用,2010,46(2):96 100
(上接第7页)
列数据库在整个数据管理技术领域中的地位如图15
所示。
图15 列数据库在整个数据管理技术领域中的位置如果10年前列数据库只是学术中的一个理论研究的话,如今它已经是一个实实在在的产品,已经在企业决策支持领域使用。不能否认的是,它已经在很多地方展示了自己的特点和优势,已经在竞争激烈的商务智能市场占有一席之地。
列数据库技术还远没有行数据库那么成熟,至今有关它的研究也是数据库领域在学术上一个引人注目的分支,国际上有关的论文频频出现在SIGM O D,ICDE,V LD B等重要学术会议上。国内对于列数据库的研究非常欠缺,我们的研究是希望把列存储理念及相关技术引入国内,为我国的数据库领域以及企业决策领域尽一份力量。
列数据库在数据仓库方面有着先天的优势。它即使不会带来数据库领域的革命,也会为商业智能开辟一条新的道路。
参考文献
[1]Copeland G P.A decomposition storag e model[C](S IGM OD?
85:Proceeding s of the1985ACM SIGM OD International Con
ference on M anagement of Data.1985:268 279
[2]田立中.列存储在数据挖掘中的应用[J].金融电子化,2008(9)
[3]Ab adi D J.Colum nStores vs.Row Stores:H ow Different Are
T hey Really?[C](Proceedin gs of the2008AC M SIGM OD In
ternational Conference on M anagemen t of Data.2008:967 980 [4]T op T en TPC H by Price/Performance[EB/OL].http://tpc.
org/tpch/res ults/tpch_price_perf_results.asp
[5]Ab adi D J.Integrating Compression and Execution in Column
Oriented Datab as e Sy stems[C](SIGM OD.Chicago,IL,USA,
2006:671 682
[6]Padmanab han S,M alkemus T,Agarw al R,et al.Block oriented
process ing of relational database operations in modern compu ter architectures[C](Proceedings of the17th International Confe rence on Data Engin eering.2001:567 574
[7]Abadi D J.M aterialization Strategies in a Colum n oriented DB
M S[C](ICDE.Istan bul,T urkey,2007:466 475
[8]Abadi D J.Qu ery Ex ecu tion in Column oriented Database S ys
tem s[C](SIGM OD.S IGM OD Jim Gray Doctoral Dissertation Aw ard,2008:145 148
[9]Abadi D J.Column stores for w ide an d s pars e data[C](CIDR.
Asilomar,C A,U SA,292 297
[10]Stoneb rak er M.C S tore:A Colu mn oriented DBM S[C](VL
DB.T rondheim Norw ay,2005:553 564
[11]Ge T ingjian.Fast,Secure En cryption for Ind exing in a Column
oriented DBM S[C](ICDE.2007:676 685
[12]Ivanova M.Self organizing Strategies for a C olumn store Data
base[C](Proceedings of the11th Intern ational Conference on
E xtending Datab as e Techn ology.2008:157 168
[13]Pranav V.Characterization of TPC H Qu eries for a Column ori
ented Database on a Dual core AM D Athlon Processor[C]( Proceeding of the17th ACM conference on In formation and Know ledge M anagement.2008:1411 1412
[14]Boncz P A,Kersten M L,M anegold S.Breakin g th e M emory
W all in M onetDB[J].Commu nication s of the ACM,2008,51
(12):77 85
[15]Cornacchia R,Heman S,Zukow ski M,et al.Flexible and effi
cient IR usin g array databases[J].VLDB Journal,special issu e on IR\&DB integration,2008,17(1):151 168
[16]Boncz P A,Gru st T,van Keulen M,et al.M onetDB/XQuery:A
Fast XQuery Processor Pow ered by a Relational Engin e[C]( Proceedings of the ACM SIGM OD Intern ational Conference on M anagement of Data.Chicago,IL,US A,June2006
[17]Zukow sk i M,Boncz P A,Nes N,et al.M onetDB/X100 A DBM S
in the CPU Cache[J].IEEE Data Engineerin g Bulletin,2005,28
(2):17 22
[18]黄鹏,李占山,张永刚,等.基于列存储数据库的压缩态数据访问
算法[J].吉林大学学报:理学版,2009(5)
[19]O?Connell S J,Winterbottom N.Performing Joins Without De
compr ess ion in a Compressed Database System[J].AC M SIG M OD Record,2003,32(1):6 11
数据库新技术及其发展趋势
数据库新技术及其发展趋势 内容摘要:由于数据库技术在特殊领域的应用和其他相关学科技术的发展,促使数据库技术不断创新、发展。本文阐述了一些新的数据库技术及新一代数据库技术的发展方向。 关键词:数据库信息集成网格数据管理移动数据库数据加密技术发展趋势 一、引言[1] 数据库技术是计算机科学的重要分支,主要研究如何安全高效地管理大量、持久、共享的数据。数据库的研究始于20世纪60年代中期,从诞生到现在,在不到半个世纪的时间里,形成了坚实的理论基础、成熟的商业产品和广泛的应用领域,目前数据库成为一个研究者众多且被广泛关注的研究领域。随着信息管理内容的不断扩展和新技术的层出不穷,数据库技术面临着前所未有的挑战。面对新的数据形式,人们提出了丰富多样的数据模型(层次模型、网状模型、关系模型、面向对象模型、半结构化模型等),同时也提出了众多新的数据库技术(XML 数据管理、数据流管理、Web 数据集成、数据挖掘等)。在Web 大背景下的各种数据管理问题成为人们关注的热点。本文讨论目前数据库研究领域中最热门的几个研究方向的发展现状、面临的问题和未来趋势。 二、数据库发展动力[2] 目前Internet 是主要的驱动力。现在,大部分企业感兴趣的是如何与供应商和客户进行更密切的交流,以便提供更好的客户支持。在这方面的应用从根本上说是跨企业的,需要安全和信息集成的有力工具。 另一个重要应的用领域是自然科学,特别是物理科学、生物科学、保健科学和工程领域,这些领域产生了大量复杂的数据集,需要信息集成机制的支持。除此之外,它们也需要对数据分析器产生的数据管道进行管理,需要对有序数据进行存储和查询(如时间序列、图像分析、网格计算和地理信息),需要世界范围内数据网格的集成。 此外,还有一个推动数据库研究发展的动力是相关技术的成熟。
数据库技术发展趋势
数据库技术领域的发展趋势 1 泛数据研究 2 国际数据库研究界动态 3 主流技术发展趋势 3.1 信息集成 3.2 数据流管理 3.3 传感器数据库技术 3.4 XML 数据管理 3.5网格数据管理 3.6 DBMS的自适应管理 3.7移动数据管理 3.8 微小型数据库技术 3.9 数据库用户界面 1 泛数据研究的时代 数据库技术从诞生到现在,在不到半个世纪的时间里,形成了坚实的理论基础、成熟的商业产品和广泛的应用领域,吸引了越来越多的研究者加入,使得数据库成为一个研究者众多且被广泛关注的研究领域.随着信息管理内容的不断扩展和新技术的层出不穷,数据库技术面临着前所未有的挑战.面对新的数据形式,人们提出了丰富多样的数据模型(层次模型、网状模型、关系模型、面向对象模型、半结构化模型等),同时也提出了众多新的数据库技术(XML 数据管理、数据流管理、Web数据集成、数据挖掘等). 回顾数据库发展之初,数据模型是制约数据库系统的关键因素.E.F Codd 博士(1923-2003)提出的关系模型充分考虑了企业业务数据的特点,从现实问题出发,为数据库建立了一个坚实的数学基础.在整个计算机软件领域,恐怕难以找到第2 个像关系模型这样,概念如此简单,但却能带来如此巨大市场价值的技术. 关系模型在关系数据库理论基本成熟后,各大学、研究机构和各大公司在关系数据库管理系统(RDBMS)的实现和产品开发中,都遇到了一系列技术问题.主要是在数据库的规模愈来愈大,数据库的结构愈来愈复杂,又有愈来愈多的用户共享数据库的情况下,如何保障数据的完整性、安全性、并发性以及故障恢复的能力,它成为数据库产品是否能够进入实用并最终
数据库技术的发展史
数据库技术的发展史 数据库技术的发展,已经成为先进信息技术的重要组成部分,是现代计算机信息系统和计算机应用系统的基础和核心。数据库技术最初产生于20世纪60年代中期,到今天近几十年的历史,其发展速度之快,使用X围之广是其它技术所远不及的。 先介绍一下数据模型的概念:数据模型是数据库系统的核心和基础。数据模型的发展经历了格式化数据模型(包括层状数据模型和网状数据模型)、关系数据模型两个阶段,正在走向面向对象的数据模型等非传统数据模型的阶段。 层状数据模型每个节点间是一对多的父子之间的联系,比如一个父亲三个儿子;中心下的几个部门,部门里的人。网状数据模型中允许任意两个节点间有多种联系,层次模型实际上是网状模型的一个特例;如同学生选课,一个学生可以选修多门课程,某一课程也可被多名学生选修。关系数据模型,职工,比如我(编号,XX,性别,所属部门,籍贯),我和马薇,X晖,陈曙光等就组成了一X关系模型的数据表。 根据数据模型的发展,数据库技术可以相应地划分为三个阶段:第一代的网状、层次数据库系统;第二代的关系数据库系统;第三代的以面向对象模型为主要特征的数据库系统。
第一代数据库的代表是1969年IBM公司研制的层次模型的数据库管理系统IMS和70年代美国数据库系统语言协商CODASYL下属数据库任务组DBTG提议的网状模型。层次数据库的数据模型是有根的定向有序树,网状模型对应的是有向图。这两种数据库奠定了现代数据库发展的基础。这两种数据库具有如下共同点: 1.支持三级模式(外模式、模式、内模式),模式之间具有转换(或成为映射)功能,保证了数据库系统具有数据与程序的物理独立性和一定的逻辑独立性; 2.用存取路径来表示数据之间的联系; 3.有独立的数据定义语言; 4.导航式的数据操纵语言。 网状数据库 最早出现的是网状DBMS。网状模型中以记录为数据的存储单位。记录包含若干数据项。网状数据库的数据项可以是多值的和复合的数据。每个记录有一个惟一地标识它的内部标识符,称为码(DatabaseKey,DBK),它在一个记录存入数据库时由DBMS自动赋予。DBK可以看作记录的逻辑地址,可作记录的替身,或用于寻找记录。网状数据库是导航式(Navigation)数据库,用户在操作数据库时不但说明要做什么,还要说明怎么做。例如在查找语句中不但要说明查找的对象,而且要规定存取路径。
数据库仓库综述
数据库仓库综述 摘要:自从计算机出现后,计算机对数据的管理经历了程序管理、文件管理和数据库管理三个阶段。数据库是数据管理的高级阶段,是数据管理最有效的手段,是现代计算机信息系统和计算机应用系统的基础和核心。本文介绍了数据库的定义、发展历史及各代数据库所采用的数据模型、各代数据库的优缺点。结合当今应用需求和新技术对数据库发展趋势、应用前景作了展望。关键词:数据模型;关系数据库;面向对象数据库 1 引言 数据库技术是20世纪60年代初开始发展起来的一门数据管理自动化的综合性新技术,它是应数据管理任务的需要而产生的,是数据管理最有效的手段。数据库就是为了一定的目的,在计算机系统中与特定的结构组织、存储和应用相关联的数据集合。在数据库出现之前,计算机管理数据经过了程序管理和文件管理两个阶段。数据库是数据管理的高级阶段,它与传统的数据管理相比有许多明显的差别,其中主要的有两点:一是使数据独立于应用程序而集中管理,实现了数据共享,减少了数据冗余,提高了数据的效益;二是在数据间建立了联系,从而能反映出现实世界中信息的联系。 数据库的应用领域相当广泛,从一般事务处理到各种专门化数据的存
储与管理。它的出现极大地促进了计算机应用的发展,数据库技术已经成为先进信息技术的重要组成部分,是现代计算机信息系统和计算机应用系统的基础和核心[1]。目前基于数据库技术的计算机应用已成为计算机应用的主流。 2 数据库发展的历史 数据模型是数据库系统的核心和基础。数据模型是数据库系统中关于数据和联系的逻辑组织的形式表示,通常由数据结构、数据操作和完整性约束三部分组成。数据结构是所研究的对象类型的集合,在数据库系统中通常按照数据结构的类型来命名数据模型。传统的数据模型有层次模型、网状模型和关系模型,现在随着面向对象技术的发展,数据库模型也有基于面向对象的数据模型。数据操作是指对数据库中各种对象的实例允许执行的操作的集合。数据库主要有检索和更新两大类操作。数据的约束条件是完整性规则的集合。保证数据的完整性是对数据库的一个很重要的要求。所谓完整性就是数据的正确性、有效性和相容性。每一个具体的数据库都是由一个相应的数据模型来定义的。按照数据模型的进展,数据库技术可以相应地分为三个发展阶段:第一代的网状、层次数据库系统;第二代的关系数据库系统;第三代的以面向对象模型为主要特征的数据库系统。目前关系数据库系统已经逐渐淘汰了网状数据库和层次数据库,成为当今最为流行的商用数据库系统。211 第一代数据库系统———层次和网状数据库系统第一代数据库系统的数据模型为层次模型和网状模型。层次模型是将数据组织成有向有序的树结构。层次模型由处于不同层次的各个结点组成。
桩基础施工技术现状及发展趋向浅谈
桩基础施工技术现状及发展趋向浅谈 1 桩基础施工技术现状 按施工方法,桩可分为非挤土桩、部分挤土桩和挤土桩三大类。再细分,桩的施工方法超过300种。施工方法的变化、完善、更新可以说是日新月异。图1中列出桩的部分施工类型。 以埋入式桩为例,图中仅列出三大类,实际上细分可有80种以上类型。所谓中掘施工法桩是把小于桩径30~40mm的长螺旋钻、或钻杆端部装有搅拌翼片的螺旋钻及钻斗钻等插入桩的中空部,在钻头附近的地层连续钻进,使土沿中空部上升,从桩顶排土的同时将桩沉设。在施工中通常将桩端注入压缩空气和水,促进钻进的同时也使桩沉顺利。为使桩获得更大的承载力,桩埋入孔中后可分别采用量终打击方式、桩端加固方式或扩大头加固方式。按中掘埋入工艺、钻机、承载力发挥方法及采用的预制桩种类等,中掘施工法桩又可细分为40余种桩型。而预钻孔埋入式桩亦可细分为40余种。 以泥浆护壁法钻孔扩底灌注桩的成孔方法为例,亦有40种以上,扩底方式可分为反循环扩底、钻斗钻扩底、正循环扩底及潜水钻扩底等。其中反循环扩底方式又分为扩刀上开、扩刀下开、扩刀滑降及扩刀推出等方式;钻斗钻扩底方式又分为水平推出、滑降及下开和水平推出的并用等方式。 以桩端压力注浆为例,注浆工艺可分为闭式注浆和开式注浆两大类,桩端压力注浆施工工艺的核心部件——桩端压力注浆装置又可分为预留压力注浆室、预留承压包、预留注浆空腔、预留注浆通道及预留特殊注浆装置五大类,两者组合,目前已有20余种桩端压力注浆桩工法,其中国内有18种。 2 常用桩设桩工艺选择 桩型的选择应考虑以下原则: (1)“因荷载制宜”即上部结构传递给基础的荷载大小是控制单桩承载力要求的主要因素。 (2)“因土层制宜”,即根据建筑物场地的工程地质条件、地下水位状况和桩端持力层深度等,通过比较各种不同方案桩结构的承载力和技术经济指标,选择桩的类型。
数据库技术的发展(一)
数据库技术的发展(一) (总分:15.00,做题时间:90分钟) 一、{{B}}选择题{{/B}}(总题数:5,分数:5.00) 1.采用扩展关系数据模型的方法建立的数据库系统,称做 ______。 (分数:1.00) A.对象-关系数据库系统√ B.扩展关系数据库系统 C.拓展关系数据库系统 D.以上都不正确 解析: 2.下列哪一种结构是支持并行数据库系统最好的结构? ______。 (分数:1.00) A.共享内存 B.共享磁盘 C.无共享√ D.层次模式 解析: 3.下面属于并行数据库系统目标的是 ______。Ⅰ.高性能Ⅱ.高可用性Ⅲ.高扩充性 (分数:1.00) A.Ⅰ和Ⅱ B.Ⅱ和Ⅲ C.Ⅰ和Ⅲ D.Ⅰ、Ⅱ和Ⅲ√ 解析: 4.下列属于粗粒度并行机特点的是 ______。 (分数:1.00) A.拥有大量的处理器 B.共享一个主存√ C.单个事务运行得更快 D.数据库一般将一个查询分配到多个处理器上 解析: 5.操作型数据和分析型数据具有不同的特征,下列哪一个是操作型数据的特征? ______。 (分数:1.00) A.可更新的√ B.历史的(包括过去数据) C.支持管理决策的 D.面向主题的 解析: 二、{{B}}填空题{{/B}}(总题数:5,分数:10.00) 6.在客户机/服务器工作模式中,客户机可以使用{{U}} 【1】 {{/U}}向数据库服务器发送查询命令。(分数:2.00) 填空项1:__________________ (正确答案:结构化查询语言/SQL) 解析: 7.分布式数据库系统与集中式数据库系统最大的区别是分布式数据库中的数据{{U}} 【2】 {{/U}} 存储在多个场地。 (分数:2.00)
数据库技术的发展现状及趋势
第24卷第1期长春师范学院学报(自然科学版)2005年3月V o l.24 N o.1Journal of Chang Chun T eachers Co llege(N atural Science)M ar 2005 数据库技术的发展现状及趋势 赵玉萍,廖运文 (西华师范大学计算机学院,四川南充 637002) [摘 要]数据库技术已发展成为信息科学里一项十分重要的技术,其应用领域之宽引人瞩目。本文介 绍了数据库技术发展的现状及最新研究动态。 [关键词]数据库技术;数据仓库;实时数据库;W eb数据库 [中图分类号]T P311.13 [文献标识码]A [文章编号]1008-178X(2005)01-0107-03 1.引言 数据库技术从20世纪70年代流行的层次、网状数据库系统到80年代的关系数据库,在很多领域都取得了巨大的成功;随着应用领域的不断扩展,关系数据库的限制和不足日益显现出来,随着面向对象技术的出现,面向对象数据库系统成为数据库系统领域研究和发展的新方向。数据库技术与网络技术、人工智能技术、面向对象技术、并行计算技术、多媒体技术等的相互融合,为数据库技术的应用开拓了更广阔的空间。 2.数据库技术发展现状 数据库技术与多学科技术的有机结合是当前数据库技术发展的重要特征。计算机领域中,其它新兴技术的发展对数据库技术产生了重大的影响。传统的数据库技术和其他计算机技术的相互结合、相互渗透,使数据库中新的技术内容层出不穷。数据库的许多概念、技术内容、应用领域,甚至某些原理都有了重大的发展和变化。建立和实现了一系列新型数据库系统,如分布式数据库系统、面向对象数据库系统、演绎数据库系统、知识库系统、多媒体数据库系统等,它们共同构成了数据库系统的大家族。传统的数据库系统仅是数据库大家族的一员,当然,它也是最成熟的和应用最广泛的一员。它的核心理论、应用经验、设计方法等仍然是整个数据库技术发展和应用开发的先导和基础。 2.1 面向对象方法和技术正逐步融入数据库 传统数据库主要适于商务或事务型这类传统应用,而对于CAD、CAM、C I M S、CA SE、过程控制与实时应用、地理信息管理及各种工程应用等,传统数据库系统已不能适应其要求。在这些领域,不仅数据本身的结构和存储形式各异,而且不同领域对数据的处理技术的要求也比一般事务管理环境复杂得多,而这些并不是传统数据库技术所能解决的,因而人们将面向对象的方法引入数据库领域,形成了面向对象数据库管理系统(OODBM S)。它实际上是数据库技术(DB)和面向对象技术(OO)结合的产物。OODBM S首先是一个数据库系统,即系统具备数据库系统的处理能力,其次又是一个面向对象的系统,即包含对象的概念、方法和技术。与传统的数据库相比,OODBM S在复杂系统的模拟、表达和处理能力等方面具有优势,不足之处是理论技术还相当不成熟、不够完善。但随着数据库技术和面向对象技术的不断发展和完善,OODBM S必将得到广泛应用。 2.2 网络技术与数据库技术的融合 分布式数据库系统是数据库技术与计算机网络技术相结合的产物。传统的集中式数据库将数据存储于单个计算机上,但随着数据库应用的不断发展,规模的不断扩大,逐渐感觉到集中式数据库系统 [收稿日期]2004—10—23 [作者简介]赵玉萍(1975- ),女,湖北荆门人,西华师范大学计算机学院讲师,从事数据库理论与应用的研究。 ? ? 1 7
数据库现状发展
计算机信息与技术学院软件工程一班吴迪 数据库技术国内外发展现状 <国外现状> 自从1969年美国的IBM公司开发出第一个DBMS系统IMS以来,数据库的研究和开发已经走过了三十多年的历程,经历了三代的演变(从层次型数据库系统到网络型数据库系统,再到现在成为数据库主流的关系型数据库系统),取得了辉煌的成就,形成了数百亿美元的产业,数据库技术和系统已经成为世界各国信息基础设施的核心技术和重要基础。 据欧共体委员会1991年底调查统计,当时西欧公司提供的联网数据库为1616个,而美国公司提供的联网数据库为3057个,加上其他形式的电子信息服务,欧洲计算机网络服务业的年收入为39亿美元,远远低于美国的97亿美元。在欧洲,该行业业务的96%是金融和商业信息。据估计,欧共体国家在数据库、网络以及其他计算机联网服务方面,比美国落后3至5年。欧共体的联网业务规模大约是美国的一半。 美国是世界上数据库业起步最早的国家。目前,在世界范围内,无论是数据库的数量、质量、品种、类型,还是数据库生产者、数据库提供商的数量,抑或是联机数据库的使用频率和产值方面,别的国家还都无法与之抗衡。据Gale公司统计,至1995年止,全世界拥有数据库8525种,其中美国产品占69%,为世界其它国家数据库拥有总量的将近2倍。 80年代初,英、法、德等国意识到数据库产业的重要性,开始自主建立数据库产业和联机产业,以期打破美国的垄断,到90年代中期,欧洲约有2000个数据库提供利用,占世界全部的27%,其涉及语言丰富,联机服务产值在1991-1996年的年均增长率为15.9%,远高于美国同期的增长率8.5%。体现出强劲的势头。西欧数据库产业后劲十足的原因有:信息自立的战略,主要向内的经营策略,不断完善的经济技术环境,特别是欧洲一体化的进程。 <国内现状> 二十世纪九十年代以来,我国电子信息产业发展迅速,年增长率达到27%左右。 我国的数据库(主要是中文数据库)建设起步于70年代中后期,当时主要引进 学习国外理论和成果。随后,全国许多单位纷纷开始建设数据库。“七五”期间,我国在数据库建设方面的投入达10亿元人民币。截止到1995年10月31日我国自建且有一定规模的数据库已达1038个。这些成就,为经济建设和社会文明进步起到了积极的推动作用。 目前,我国的数据库已由1992年806个增加到1000个以上,数据库的容量有很
密文数据库检索技术综述
密文数据库检索技术综述 摘要 关键词 1 引言 2 相关技术 3 研究分类 3.1 数值型数据 2002年,Hakan等人首次提出了在数据库即服务(Database as a service, DaaS)1模型下,针对加密数据执行SQL查询的方法2。其核心思想是:提出了一种过滤技术(桶划分技术)缩小解密范围,从而快速查询加密数据。并基于桶划分技术提出了一种对关系数据库进行加密和存储的模型,在此模型上存储数据时,除了对关系表中的记录采用常规加密外,还给每个属性值增加一个桶号,桶号表示明文数据值位于某段区间内。在该模型中,数据拥有者(即用户)对数据库进行加密后将数据库密文保存在服务提供商处,只有数据拥有者能够解密。用户提交查询指令后,服务器端无需对密文解密即可进行粗粒度的查询,得到包含查询结果的一个候选结果集合,然后将该候选结果集合返回给用户,用户解密该候选结果集合并对明文进行计算即可得到最终的查询结果。 该方法返回一个比正确结果集合更大一些的集合,其中可能包含一些并不匹配查询条件的密文元组,因此需要再对这个结果集合进行解密和过滤处理,才能得到最终的查询结果。此外,该方法仅通过值域分区的方式建立数据库值索引,容易造成数据库信息泄漏。数据库通常采用哈希技术分区的方式,这种方式的分区数量越多,检索性能越好,但同时会造成更多的数据冗余。当每个分区中的数据记录较多时,检索效率会受到较大影响。 2003年,Damiani等人提出基于索引的密文检索方法3。与桶划分方法不同,该方法将数据进行元组级的加密,因此能够进行元组级的检索。该方法不按数值的顺序分类,增加了安全性。其缺点是不能实现范围搜索。Damiani又使用B-tree 编码方式,这种方法可以实现范围检索,但是每次进行检索时需要检索的次数等
数据库新技术的发展综述
数据库新技术的发展综述
数据库技术的现状 及发展趋势 院系:数学科学学院 学号:20121014401 姓名:徐高扬 班级:统计122
数据库技术的现状与发展趋势 关键词:数据库;面向对象数据库;演绎面向对象数据库;数据仓库; 数据挖掘;发展;主流数据库新技术 1、引言 自从计算机问世以后,就有了处理数据、管理数据的需求,由此,计算机技术新的研究分支数据库技术应运而生。随着计算机应用领域的不断拓展和多媒体技术的发展,数据库已是计算机科学技术中发展最快、应用最广泛的重要分支之一。从20世纪60年代末开始,数据库系统已从第一代层次数据库、网状数据库,第二代的关系数据库系统,发展到第三代以面向对象模型为主要特征的数据库系统。关系数据库理论和技术在70~80年代得到长足的发展和广泛而有效地应用,80年代,关系数据库成为应用的主流,几乎所有新推出的数据库管理系统(DataBaseManagementSystem,DBMS)产品都是关系型的,他在计算机数据管理的发展史上是一个重要的里程碑,这种数据库具有数据结构化、最低冗余度、较高的程序与数据独立性、易于扩充、
易于编制应用程序等优点,目前较大的信息系统都是建立在关系数据库系统理论设计之上的。但是,这些数据库系统包括层次数据库、网状数据库和关系数据库,不论其模型和技术上有何差别,却主要是面向和支持商业和事务处理应用领域 的数据管理。然而,随着用户应用需求的提高、硬件技术的发展和InternetIntranet提供的丰 富多彩的多媒体交流方式,促进了数据库技术与网络通信技术、人工智能技术、面向对象程序设计技术、并行计算技术等相互渗透,互相结合, 成为当前数据库技术发展的主要特征,形成了数据库新技术。目前,数据库技术已相当成熟,被广泛应用于各行各业中,成为现代信息技术的重要组成部分,是现代计算机信息系统和计算机应用系统的基础和核心。 2、数据库技术的现状及发展趋势 1980年以前,数据库技术的发展,主要体现在数据库的模型设计上。进入90年代后,计算机领域中其它新兴技术的发展对数据库技术产生 了重大影响。数据库技术与网络通信技术、人工智能技术、多媒体技术等相互渗透,相互结合,使数据库技术的新内容层出不穷。数据库的许多
面向对象数据库技术的研究综述
面向对象数据库技术的研究综述 摘要:本文在提出传统数据库技术的不足及新应用领域需求的同时,介绍了面向对象数据库的特征与功能,并探讨了该技术面l临的一些问题;最后还对这一新技术的前景进行了展望。 关键词:面向对象;数据库技术;面向对象数据库 面向对象的思想首先出现在程序设计方法中。这一思想指导下产生的面向对象技术是一种按照人们对现实世界习惯的认识论思维方式来研究和模拟客观世界的方法学。它将现实世界中的任何事物均视为“对象”.将客观世界看成是由许多不同种类的对象构成。不同对象之间的相互联系和相互作用就构成了完整的客观世界。面向对象方法学所引入的对象、方法、消息、类、实例、继承性、封装性等一系列重要概念和良好机制为人们认识和模拟客观世界分析、设计和实现大型复杂系统奠定了良好的科学技术基础。 随着研究的不断深入和发展。面向对象技术已大大地超出了程序设计语言的范围。并渗透和应用到了诸多复杂的工程领域。并给软件工程、信息系统、工业设计与制造等带来了深远的影响。如面向对象的软件工程、面向对象的信息管理系统、面向对象的操作系统、面向对象的数据库系统、面
向对象的专家系统、面向对象的开发工具和面向对象的用户界面等的出现。其中,面向对象的数据库系统已成为当今数据库领域研究和发展的主要方向之一。 数据库技术与面向对象技术相结合已成为当前数据库技术研究、应用和发展的一个重要方向。将面向对象技术应用到数据库系统中。使数据库管理系统能够支持面向对象数据模型和数据库模式。这对于提高数据库系统模拟和操纵客观世界的能力,扩大数据库应用领域具有重要的意义:将面向对象技术应用到数据库的集成开发环境中。使数据库应用开发工具能够支持面向对象的开发方法井提供相应的开发手段,这对于提高应用软件的开发质量和扩大软件的应用推广是十分重要的。纵观数据库系统的发展,面向对象(00)技术的诞生为数据库的发展带来了希望。尽管目前面向对象数据库技术的实际发展与关系数据库系统相比,它的理论研究和形式化、标准化等方面还不完备和成熟。但是。从面向对象技术的前景和应用来看,面向对象数据库系统将代表着新一代数据库系统的发展方向。 一、新应用领域的需求及面向对象数据库的发展 从80年代以来,数据库技术在商业领域的巨大成功激发了其它领域对数据库技术需求的迅速增长。这些新的领域包括:CAD/CAM、CIM、CASE、OIS(办公信息系统)、GlS (地理信息系统)、知识库系统和实时系统等。新的应用领
键值对数据库综述
键值对数据库综述与典型KV数据库介绍 一、键值数据库概述 键值数据库是一种非关系数据库,它使用简单的键值方法来存储数据。键值数据库将数据存储为键值对集合,其中键作为唯一标识符。键和值都可以是从简单对象到复杂复合对象的任何内容。键值数据库是高度可分区的,并且允许以其他类型的数据库无法实现的规模进行水平扩展。 Key-Value 键值对数据模型实际上是一个映射,即key是查找每条数据地址的唯一关键字,value是该数据实际存储的内容。例如键值对:(“”,“张三”),其key:“”是该数据的唯一入口,而value:“张三”是该数据实际存储的内容.Key-Value 数据模型典型的是采用哈希函数实现关键字到值的映射,查询时,基于key 的hash值直接定位到数据所在的点,实现快速查询,并支持大数据量和高并发查询。 二、基本原理 从API的角度来看,键值数据库是最简单的NoSQL数据库。客户端可以根据键查询值,设置键所对应的值,或从数据库中删除键。“值”只是数据库存储的一块数据而已,它并不关心也无需知道其中的内容;应用程序负责理解所存数据的含义。由于键值数据库总是通过主键访问,所以它们一般性能较高,且易于扩展。基本上所有的编程语言都带有应用在内存中的键值对存储。C++STL的映射容器(map container)和Java的HashMap以及Python的字典类型都是键值对存储。键值对存储通常都有如下接口: -Get( key ): 获取之前存储于某标示符“key”之下的一些数据,或者“key”下没有数据时报错。 -Set( key, value ): 将“value”存储到存储空间中某标示符“key”下,使得我们可以通过调用相同的“key”来访问它。如果“key”下已经有了一些数据,旧的数据将被替换。 -Delete( key ): 删除存储在“key”下的数据。 三、基本特性 键值数据库具有以下几个特性:
数据库新技术
数据库新技术综述 摘要:综述数据库新技术,指出数据库技术目前的研究状态和发展趋势,介绍一些数据库新技术的最新动态,并指出数据库应用所面临的挑战,指出数据库技术当今的研究热点和未来的发展趋势。 关键词:数据库;面向对象数据库;分布式数据库;数据仓库;数据挖掘;联机分析处理;发展 一、引言: 自从计算机问世以来,就有了处理数据、管理数据的需求,由此,计算机技术新的研究分支——数据库技术应运而生。随着计算机应用领域的不断扩展和多媒体技术的发展,数据库已经是计算机科学技术中发展最快、应用最广泛的重要分支之一。目前,数据库技术已经相当成熟,被广泛应用于各行各业中,成为现代信息技术的主要组成部分,是现代计算机信息系统和计算机应用的基础和核心。 另外,各种学科与数据库技术的有机结合,从而使数据库领域中新内容、新应用、新技术层出不穷,形成了各种各样的数据库系统:面向对象数据库系统、分布式数据库系统、知识数据库系统、模糊数据库系统、并行数据库系统、多媒体数据库系统等;数据库系统被应用到特定的领域后,又出现了工程数据库、演绎数据库、时态数据库、统计数据库、空间数据库、科学数据库、文献数据库等;他们继承了传统数据库的成果和技术,加以发展优化,从而形成的新的数据库,视为“进化”的数据库。可以说新一代数据库技术的研究与发展呈现了百花齐放的局面。 首先我们来了解一下数据库新技术有哪些:面向对象数据库;分布式数据库;数据仓库;数据挖掘;联机分析处理等。 二、概述新技术 (一).面向对象数据库技术 面向对象是一种认识方法学,也是一种新的程序设计方法学。把面向对象的方法和数据库技术结合起来可以使数据库系统的分析、设计最大程度地与人们对客观世界的认识相一致。面向对象数据库系统是为了满足新的数据库应用需要而产生的新一代数据库系统。 其优点为: (1).易维护:可读性高且方便低成本; (2).质量高:在设计时,可重用现有的,在以前的项目的领域中已被测试过的类使系统满足业务需求并具有较高的质量; (3).效率高:在软件开发时,根据设计的需要对现实世界的事物进行抽象,产生类。使用这样的方法解决问题,接近于日常生活和自然的思考方式,势必提高软件开发的效率和质量。
数据库新技术及其发展趋势
数据库新技术及其发展 趋势 公司内部编号:(GOOD-TMMT-MMUT-UUPTY-UUYY-DTTI-
数据库新技术及其发展趋势 数据库技术是计算机科学的重要分支,主要研究如何安全高效地管理大量、 持久、共享的数据。数据库的研究始于20世纪60年代中期,它的发展有着三大 标志性事件。第一件大事, 1969年IBM公司研制开发了基于层次模型的数据库管理系统的商品化软件InformationManagement System,即IMS系统,是首例成功的数据库管理系统软件。第二件大事,美国数据系统语言协会CODASYL (Conference On DataSystem Language)下属的数据库任务组DBTG(Data Base TaskGroup)对数据库方法进行系统的研究和讨论后,于20世纪60年代末到70年代初提出了若干报告。DBTG报告确定并建立了数据库系统的许多概念、方法和技术。DBTG所提议的方法是基于网状结构的,它是数据库网状模型的基础和典型代表。第三件大事, 1970年IBM公司San Jose研究实验室的研究员E. F. Codd博士发表了题为“大型共享数据库数据的关系模型”的论文,提出数据库的关系模型,从而开创了数据库关系方法和关系数据理论的研究领域,为关系数据库技术奠定了理论基础, E. F. Codd因此在1981年获得ACM图录奖。20世纪80年代几乎所有新开发的 系统都是关系系统。随着计算机系统硬件、Internet和Web技术的发展,数据库系统所管理的数据格式、数据处理方法以及应用环境不断变化,同时人工智能、 多媒体技术和其他学科技术的发展,数据库技术面临着前所未有的挑战。 当前数据库技术发展的现状,关系数据库技术仍然是主流 国内数据库的发展趋势也是飞速的,在数据库技术的当前及未来发展里程中, 数据仓库以及基于此技术的商业智能无疑将是大势所趋。IBM的实验室在这方面进行了10 多年的研究, 并将研究成果发展成为商用产品。除了用于
数据库技术的现状及其发展趋势
数据库技术的现状及其发展趋势 (班级:041011 姓名:罗英学号:04101001) 一数据库技术的基本概述 数据库技术是信息系统的一个核心技术。是一种计算机辅助管理数据的方法,它研究如何组织和存储数据,如何高效地获取和处理数据。是通过研究数据库的结构、存储、设计、管理以及应用的基本理论和实现方法,并利用这些理论来实现对数据库中的数据进行处理、分析和理解的技术。即:数据库技术是研究、管理和应用数据库的一门软件科学。 数据库技术是现代信息科学与技术的重要组成部分,是计算机数据处理与信息管理系统的核心。数据库技术研究和解决了计算机信息处理过程中大量数据有效地组织和存储的问题,在数据库系统中减少数据存储冗余、实现数据共享、保障数据安全以及高效地检索数据和处理数据。 数据库技术研究和管理的对象是数据,所以数据库技术所涉及的具体内容主要包括:通过对数据的统一组织和管理,按照指定的结构建立相应的数据库和数据仓库;利用数据库管理系统和数据挖掘系统设计出能够实现对数据库中的数据进行添加、修改、删除、处理、分析、理解、报表和打印等多种功能的数据管理和数据挖掘应用系统;并利用应用管理系统最终实现对数据的处理、分析和理解。 数据库技术涉及到许多基本概念,主要包括:信息,数据,数据处理,数据库,数据库管理系统以及数据库系统等。 数据库技术是现代信息科学与技术的重要组成部分,是计算机数据处理与信息管理系统的核心。数据库技术研究和解决了计算机信息处理过程中大量数据有效地组织和存储的问题,在数据库系统中减少数据存储冗余、实现数据共享、保障数据安全以及高效地检索数据和处理数据。数据库技术的根本目标是要解决数据的共享问题。 二数据库技术发展历史 数据模型是数据库技术的核心和基础,因此,对数据库系统发展阶段的划分应该以数据模型的发展演变作为主要依据和标志。按照数据模型的发展演变过程,数据库技术从开始到现在短短的30年中,主要经历了三个发展阶段:第一代是网状和层次数据库系统,第二代是关系数据库系统,第三代是以面向对象数据模型为主要特征的数据库系统。数据库技术与网络通信技术、人工技能技术面向对象程序设计技术、并行计算技术等相互渗透、有机结合,成为当代数据库技术发展的重要特征。 第一代数据库系统 第一代数据库系统是20世纪70年代研制的层次和网状数据库系统。层次数据库系统的典型代表是1969年IBM公司研制出的层次模型的数据库管理技术IMS。20世纪60年代末70年代初,美国数据库系统语言协会
文档:数据库的发展现状与前景
数据库的现状及发展趋势 数据库是数据管理的最新技术,是计算机科学的重要分支。今天信息资源已成为各个部门的重要财富建立一个满足各级部门信息处理要求的行之有效的信息系统也成为一个企业或组织生存和发展的重要条件。因此作为信息系统核心和基础的数据库技术得到越来越广泛的应用,从小型单项事务处理系统到大型信息系统,从联机事务处理到联机分析处理,从一般企业管理到计算机辅助设计与制造,计算机集成制造系统,电子政务,电子商务地理信息系统等,越来越新的应用领域采用数据库技术来存储和处理信息资源。对于一个国家来说,数据库的建设规模,数据库信息量的大小和使用频度已成为衡量这个国家信息化程度的重要标志。数据库是长期存储在计算机内有组织的大量的共享的数据的集合。数据库系统的出现使信息系统从加工数据的程序为中心转向围绕共享的数据库为中心的新阶段。这样既便于数据的集中管理,又有利于应用程序的研制和维护,提高了数据的利用率和相容性,提高了决策的可靠性。数据库已成为现代信息系统的重要组成成分。具有数百G,数百T,甚至数百P字节的数据库已普遍存在于科学技术,工业,农业,商业,服务业和政府部门的信息系统中。数据库技术是计算机领域中发展最快的技术之一。 数据库系统一般由数据库,数据库管理系统,应用系统和数据库管理员构成。数据库系统有以下的特点:数据结构化;数据的共享性高,冗余度低,易于扩充;数据独立性高;数据由DBMS统一管理和控制。数据库系统数据量都很大,加之DBMS丰富的功能使得自身的规模也很大,因此整个数据库系统对硬件资源提出了较高的要求:(1)要有足够大的内存,存放操作系统,DBMS的模块,数据缓冲区和应用程序;(2)有足够大的磁盘或磁盘阵列等设备存储数据库,有足够大的磁带或光盘作数据备份;(3)要求系统有较高的通道能力,以提高数据传送率。数据库系统的软件主要包括:(1)DBMS。DBMS为数据库的建立,使用和配置的系统软件。(2)支持DBMS运行的操作系统。(3)具有与数据库接口的高级语言及其编译系统,便于开发应用程序。(4)以DBMS为核心的应用开发工具。(5)为特定应用环境开发的数据库应用系统。数据库的人员包括:(1)数据库管理人员。具体职责是决定数据库中的信息内容和结构;决定数据库的存储结构和存取策
建筑工程技术基本现状及发展前景
建筑工程技术基本现状及发展前景 建筑工程技术在社会发展中占有重要地位,正是依靠专业的建筑工程技术和不断发展进步的专业技术手段,才能为这一行业在快节奏的社会发展中提供必要的技术支持。。 一、国际基本情况 目前国际工程承包市场潜力巨大,仍然有很大的发展空间。根据世界银行的预测,未来10年世界经济增长率将达到3%。根据美国标准普尔公司的预测,全球建筑市场未来几年仍将保持5.1%年均增长率。亚洲地区一直是全球最大的国际建筑工程承包市场。据统计,2013年亚洲地区国际工程在全球所占份额达到33.1%,此后一直保持在30%以上;欧洲紧随其后,所占份额保持在20%以上;从增长情况看,亚洲和欧洲市场上工程合同额(营业额)基本持续正增长。与此相对应,中东、非洲和拉美市场所占份额不断下降。 未来15年,亚洲仍将是世界上经济发展最活跃的地区,并将保持5%~6%的增长速度,亚洲的国际建筑承包市场大致保持在600亿美元左右。 国际建筑市场的行业结构及其发展趋势。从国际工程市场的行业结构看,的变动趋势看,过去10年形成的结构变动趋势还将持续下去,
总体的行业结构特征不会发生大的变化。. 近年来,国际建筑市场的竞争结构正在发生重要变化。为了提高竞争能力,特别是扩展在世界各地承揽工程的地缘优势,越来越多的国家建筑承包商开始走向合作的道路,跨国兼并活动不断增多,国际建筑市场的集中程度随之不断提高,金字塔的顶端更加尖锐。这种发展趋势对后来居上的发展中国家的建筑企业,正在提出新的挑战。 从独立的技术创新到全球技术资源的共享。为了降低风险,减小研发成本,同时保持在技术方面的领先地位,越来越多的建筑企业在技术研发领域开始走向合作,并逐步形成了全球技术资源共事的新局面。一方面,一些建筑企业为了降低研发成本,让其他企业共同分担研发成本,正逐步将自身的技术研发机构从母体脱离出来,同时引进新的投资者;另一方面,这些机构为了提高研发成果的效益,也开始向更多的企业提供服务。一定程度上,这种现象是国际建筑业内部分工进一步深化的必然结果。 信息技术与现代管理的融合。近十年来,信息技术与现代管理手段的快速发展以及两方面力量的互相促进和融合,促使国际建筑业的管理方式发生了重要变化。现代信息技术的广泛应用,使企业管理过程中的信息流能够以更快捷和更低成本的方式进行传递,极大地减小了管理成本,同时提高了管理的效率,在此推动下,企业的组织结构开始出现扁平化的趋势,管理跨度不断增加。这一方面缩短了企业的管理流程,以及企业与市场之间的距离;另一方面也为企业在全球范围快速扩展创造了良好的条件。
数据库技术发展简史
数据库技术发展简史 数据库技术从诞生到现在,在不到半个世纪的时间里,形成了坚实的理论基础、成熟的商业产品和广泛的应用领域,吸引越来越多的研究者加入。数据库的诞生和发展给计算机信息管理带来了一场巨大的革命。三十多年来,国内外已经开发建设了成千上万个数据库,它已成为企业、部门乃至个人日常工作、生产和生活的基础设施。同时,随着应用的扩展与深入,数据库的数量和规模越来越大,数据库的研究领域也已经大大地拓广和深化了。 30年间数据库领域获得了三次计算机图灵奖(C.W. Bachman,E.F.Codd, J.Gray),更加充分地说明了数据库是一个充满活力和创新精神的领域。就让我们沿着历史的轨迹,追溯一下数据库的发展历程。 数据库发展简史 1. 数据管理的诞生 数据库的历史可以追溯到五十年前,那时的数据管理非常简单。通过大量的分类、比较和表格绘制的机器运行数百万穿孔卡片来进行数据的处理,其运行结果在纸上打印出来或者制成新的穿孔卡片。而数据管理就是对所有这些穿孔卡片进行物理的储存和处理。然而,1 9 5 1 年雷明顿兰德公司(Remington Rand Inc.)的一种叫做Univac I 的计算机推出了一种一秒钟可以输入数百条记录的磁带驱动器,从而引发了数据管理的革命。1956 年IBM生产出第一个磁盘驱动器——the Model305 RAMAC。此驱动器有50 个盘片,每个盘片直径是2 英尺,可以储存5MB的数据。使用磁盘最大的好处是可以随机地存取数据,而穿孔卡片和磁带只能顺序存取数据。数据库系统的萌芽出现于60 年代。当时计算机开始广泛地应用于数据管理,对数据的共享提出了越来越高的要求。传统的文件系统已经不能满足人们的需要。能够统一管理和共享数据的数据库管理
数据库加密综述
数据库加密综述 石磊 摘要数据库加密是利用现有的数据库和加密技术,来研究如何对数据库中的数据加、解密,从而提高数据库系统的安全。数据库加密可以在OS、DBMS内层、DBMS外层上实现。OS层上的数据库加密由于存在太多的问题和缺陷,已经不被人们考虑。已有的数据库加密产品都是在DBMS外层实现的,这种实现方式虽说做到了数据和密钥的分离,可以有效地抵御外部的非法入侵,但对企业内部的攻击却没有很好的防范措施;另外,这种方式还存在着:使数据和应用程序紧密结合起来、在DBMS之外又增加了其他的数据管理工具、硬盘存储空间浪费大等缺陷。其实,数据的加密与否只是数据的一个属性,数据的加密存储是数据的一种保存方式,关乎数据的物理存储,这些都是DBMS现有功能的一部分。另外从数据和应用程序的分离、数据的维护和安全来看,数据库加密都应当在DBMS内实现。本文就是基于关系DBMS,介绍一种数据库加密的实现方法。 1 引言 随着网络应用的不断发展,信息成为社会发展需要的重要战略资源。围绕信息的获取、使用和控制的竞争愈演愈烈,信息安全成为在激烈竞争中立于不败之地的重要保障。调查显示,我国互联网安全状况有所好转,但互联网用户的网络安全意识仍比较薄弱,对发生网络安全事件未给予足够重视,联网单位对外部网络攻击防范的意识有所增强,但单位内部的网络安全管理工作还不到位。 数据库作为信息存储中心,其安全问题尤为突出。一方面,企业为了本身的利益,需要对其敏感信息进行保护而不让外界获取;另一方面,在数据库作为服务DAS(Database As Service)的数据管理模型下,企业需要从数据库服务提供商DSP(Database Service Provider)处获得专业的数据库服务。这种情况之下,企业的数据存放在数据库服务提供商处,其完全性无法得到有效的保障。因为如果数据库只使用访问控制来限制数据访问的话,数据库提供商处的数据库管理员(DBA)就可能会有意或无意访问到企业的所有数据,从而给企业造成巨大损失。 对于这种“监守自盗”的行为,只有从DBMS内完成对数据的加密,这样不仅可以有效减少来自于外界的危害,也可以有效防止DBA对数据安全造成的威胁。我的综述通过叙述数据库的安全现状说明数据库加密技术的重要性,根据数据库数据存储的特点提出数据库加密的要求,详细阐述数据库加密技术的一般原理,并重点介绍基于关系DBMS的一种数据库加密实现方法,最后提出对数据库安全管理前景的展望。
数据库技术发展概述
数据库技术发展概述 摘要:20世纪50年代,随着计算机技术的发展,其应用领域不再局限于科学计算,人们开始使用计算机来管理数据。由此,计算机技术新的研究分支——数据库技术应运而生。所谓数据库就是将许多具有相关性的数据以一定的组织方式存储在一起形成的数据集合。而数据库管理系统(Database Management System,简称为DBMs ) 是支持人们建立、使用、组织、存储、检索和维护数据库的软件系统。它包括数据库模型、数据模型、数据库与应用的接口语言等。经过多年的探索,目前,数据库技术已相当成熟,被广泛应用于各行各业中,成为现代信息技术的重要组成部分,是现代计算机信息系统和计算机应用系统的基础和核心。 关键字:数据库技术、管理系统、信息技术、基础和核心 1、数据库技术的发展历程 在数据库出现前,计算机用户是使用数据文件来存放数据的。常用的高级语言从早期的FORTRAN到今天的c语言,都支持使用数据文件。有一种常见的数据文件的格式是,一个文件包含若干个“记录”,一个记录又包含若干个“数据项”,用户通过对文件的访问实现对记录的存取。通常称支持这种数据管理方式的软件为“文件管理系统”。在这种管理方式下,这些数据与其他文件中数据有大量的重复,造成了资源与人力的浪费。随着计算机所处理的数据的日益增多,数据重复的问题越来越突出。于是人们就想到将数据集中存储、统一管理,这样就演变成数据库管理系统从而形成数据库技术。数据库的诞生以20世纪60年代IBM公司推出的数据库管理产品IMs ( Info咖ationMana髀ment System) 为标志。数据库的出现,实现了数据资源的整体和结构化管理,使数据具有了共享性和一定的独立性,并能够对冗余度进行控制。数据库管理系统的推出,使得数据库概念得到了普及,也使得人们认识到数据的价值和统一管理的必要。但是由于IMs是以层次模型来组织和管理数据的,对非层次数据使用虚拟记录,大量指针的使用降低了数据使用的效率,同时,数据库管理系统提供的数据模型机及数据库语言比较低级,数据的独立性也比较差,给使用带来了很大的局限性。为了克服这些缺点,美国数据库系统语言协会(CODASYL,即Conference On Data Svstem Language)下属的数据库任务组( DBTG,即Dat aBaseTask Group) 对数据库的方法和技术进行了系统研究,并提出了着名的DBTG报告。该报告确定并建立了数据库系统的许多基本概念、方法和技术,报告成为网状数据模型的典型技术代表,它奠定了数据库发展的基础,并影响着以后的研究。网状模型是基于图来组织数据的,对数据的访问和操纵需要遍历数据链来完成。因这种有效的实现方式对系统使用者提出了很高的要求,所以阻碍了系统的推广应用。1970年IBM公司的E.F.codd发表了着名的基于关系模型的数据库技术的论文《大型共享数据库数据的关系模型》,并获得198 1年ACM图灵奖,标志着关系模型数据库模型的诞生。