大规模并行处理数据库等-中国索引学会

合集下载

时空相点移动对象数据索引PM-Tree

时空相点移动对象数据索引PM-Tree

第44卷 第3期2021年3月计 算 机 学 报CHINESEJOURNALOFCOMPUTERSVol.44No.3Mar.2021收稿日期:2019 11 16;在线发布日期:2020 11 06.本课题得到国家自然科学基金(61772211,U1811263)、国家重点研发计划(2018AAA0101300)、广东省教育厅创新团队(粤教科函2018 64/8S0177)、广州市科技计划项目(国际合作)(201807010043)资助.汤 娜,博士,副教授,中国计算机学会(CCF)会员,主要研究方向为时态数据库、大数据管理、移动对象数据库和知识发现.E mail:sinceretn@qq.com.朱展豪,硕士研究生,主要研究方向为数据处理与挖掘.李晶晶,博士,副教授,主要研究方向为计算智能与优化.汤 庸(通信作者),博士,教授,博士生导师,主要研究领域为时态数据管理、社交网络与协同计算.E mail:ytang@scnu.edu.cn.叶小平,博士,教授,主要研究领域为时态数据库、移动对象数据库和知识发现.时空相点移动对象数据索引犘犕 犜狉犲犲汤 娜 朱展豪 李晶晶 汤 庸 叶小平(华南师范大学计算机学院 广州 510613)摘 要 随着移动定位技术和无线通讯技术发展,移动对象的应用领域越来越广阔.位置随时间而变化的移动对象产生的时空数据具有规模大、多维性、结构复杂和关系复杂等特点.由于移动对象的运动轨迹大多被限定在特定的交通网络中,因此基于路网的移动对象索引成为时空数据索引研究的一个重要应用分支.目前,针对移动对象历史数据的区域查询优化的研究重点是如何提高窗口查询的效率.这类索引通常以同一线路为单位来组织轨迹数据的存储.索引通常采用两层的R tree索引结构,上层的2DR tree用于索引在某个区域内的线路,下层的2DR tree用于索引某个时间段内在这些区域的移动对象.这类索引在处理轨迹信息的时间维度的时候,仅仅是把时间维度等同于空间的维度来进行R树维度的扩展.由于R树算法不能有效地降低最小限定矩形的空间堆叠问题,尤其是在数据量较大、数据维数增加时表现得更为明显.所以,为了提高路网中移动对象时空信息的存储以及查询的效率,本文则将轨迹信息中的时间数据和空间数据整合起来,提出了一种移动对象数据索引PM tree(Phase pointMov ingObjectTree).首先运用映射函数把路网中移动对象运动轨迹的二维时空矩形投影成带参数的一维“时空相点”,并讨论了时空相点之间的偏序关系,建立了基于相点偏序划分的相点序分枝结构,为索引的建立提供了理论支撑.接着论文以MON tree索引为基础,以相点序分枝结构来改进其下层索引结构,提出了时空相点移动对象数据索引,该索引能完成运动轨迹时空的一体化查询,能避免类R tree索引中最小限定矩形堆叠导致的效率低下的问题,有效地缩小搜索空间.最后论文实现了索引的增量式动态更新管理.通过实验的对比分析,表明PM tree索引不但能有效提高储存空间的利用率,“一次一集合”的查询模式还提高了查询性能.关键词 时空矩形;路网;移动对象索引;时空映射;相点偏序中图法分类号TP311 犇犗犐号10.11897/SP.J.1016.2021.00579犜犲犿狆狅狉犪犾 犛狆犪狋犻犪犾犘犺犪狊犲犘狅犻狀狋犕狅狏犻狀犵犗犫犼犲犮狋犇犪狋犪犐狀犱犲狓犻狀犵:犘犕 犜狉犲犲TANGNa ZHUZhan Hao LIJing Jing TANGYong YEXiao Ping(犛犮犺狅狅犾狅犳犆狅犿狆狌狋犲狉犛犮犻犲狀犮犲,犛狅狌狋犺犆犺犻狀犪犖狅狉犿犪犾犝狀犻狏犲狉狊犻狋狔,犌狌犪狀犵狕犺狅狌 510631)犃犫狊狋狉犪犮狋 Withthedevelopmentofmobilelocationtechnologyandwirelesscommunicationtechnology,theapplicationofmovingobjectshasexhibitedabroadapplicationprospect.Asmovingobjects’positionvariesastimegoeson,thespatialdataandtemporaldatageneratedcontinuouslybymovingobjectshasthecharacteristicsofmulti dimension,complexdatastructure,massivedatascaleandcomplexdatarelationship.Usuallythetrajectoryofmovingobjectswasconfinedtoaspecificroadnetwork,sotheindexofmovingobjectsbasedontheroadnetworkhasbecomeanimportantbranchoftheresearchoftemporalspatialdataindex.Atpresent,forthequeryoptimizationofthehistoricaldataofmovingobjects,theresearchfocusonhowtoimprovetheefficiencyofthewindowquery.Usuallysuchkindofindexespartitionedthetrajectorydataofmovingobjectsbyroute,sothetrajectorydataofmovingobjectsonaspecificroutewasstoredtogether.Sothiskindofindexeswasatwo layerR treeindexstructure,theupperlayerwasa2DR treeforindexingtheroutesinaregion,andtheloweronewasalsoa2DR treeforindexingthemovingobjectsintherangesofroutesinacertainperiodoftime.Intheviewofthesepapers,thedimensionoftimeintrajectoryinformationwasthesameasthedimensionofspace.Sodealingwiththedimensionoftime,thiskindoftemporalspatialmovingobjectindexjustextendedthetemporaldimensiontoRtree.However,becausethealgorithmofRtreecannoteffectivelyreducespaceoverlappingofMinimalBoundingRectangle(MBR),anditismoreseriouswhenthedatavolumeislargeandthedimensionincreases.Inordertoimprovetheefficiencyofspatial temporaltrajectoryinformationstorageandqueryofmovingobjectsinroadnetworkatsomeinterval,thispaperintegratedtemporaldataandspatialdata,andproposedatemporal spatialphasepointmovingobjectdataindex(PM Treeindex).Firstly,thispapermodeledthespatialtrajectoryofthemovingobjectatsomeintervalasasetoftwo dimensionalrectangles,andmappeditintoasetofsingle dimensionaltemporalandspatialphasepointswithparameters.Secondly,thepaperdiscussedthepartialorderrelationshipamongthetemporalandspatialphasepointsonthephaseplane.Bypartitioningthephasepointswiththepartialorder,aPhase PointOrderBranchingwasconstructed.Then,basedonMon treeindex,thepaperimproveditslowerlayerofindexstructurebyusingthePhase PointOrderBranchingstructure,andproposedthespatial temporalphasepointmovingobjectdataindex.ThisIndexcanrealizethequeryoptimizationbytheintegrationofspatialinformationandtemporalinformationasspatialphasepoints,alsoitcanavoidthelowefficiencycausedbyMBRoverlapinRtreeandeffectivelyreducethesearchspace.Finally,thepaperrealizedtheincrementaldynamicupdatemanagementofindex.BycomparingtheperformanceofPM treeindexwiththatofMon treeindex,theexperimentalresultsshowthatthePM treeindexcannotonlyeffectivelyimprovetheutilizationofstoragespace,butalsoimprovethequeryperformance.犓犲狔狑狅狉犱狊 temporalandspatialrectangle;roadnetwork;moving objectindexing;temporalandspatialmapping;phasepointspartial order1 引 言交通管理、目标跟踪等大量应用中都存在着基于位置的应用,需要处理大量随着时间而演变的空间数据,即移动对象或移动数据[1].移动对象数据库(MovingObjectDatabases,MOD)技术成为一个热门的研究领域之一.MOD技术对移动对象的位置及其他相关信息进行表示、存储和管理,提供了对移动对象进行过去、现在查询和对未来预测等操作[2 3].MOD实现的基本功能包括对移动对象数据的存储、查询和更新[4].移动对象数据具有时间与空间双重特性[5],并具有多维性、结构复杂性、规模海量性和关系复杂性等特点.因而研究移动对象数据索引对提高查询的效率尤为重要.在移动对象存取这个研究领域涌现了一大批工作[6].根据索引时态信息的不同,移动对象索引可分为移动历史索引和当前及未来位置索引.当前及未来位置索引研究是针对移动对象位置的不确定范围所做的研究,大多采用函数估值计算,采用的方法有原时空存取方法PMR quadtree[7]、空间转换方法[8]、参数化时空存取方法等.例如,TPR tree[9]通过在R tree上定义时参范围框形以覆盖移动对象集合,但随时间的推移,边界矩形不断扩大导致了矩形间重叠增加,致使查询性能下降,文献[10]改进了TPR tree这个问题.由于基于当前和未来位置的应用往往具有实时性,而且移动对象的位置不断发生变化,所以这一类数据管理研究的其中一个重点在于如何有效地实现数据的更新与存储[11 12].范围查询也逐渐演变为概率范围查询[13 14]、连续范围查询[15]和预测范围查询[16]这三种[17].而对于移动对象历史数据的查询,经典的查询085计 算 机 学 报2021年包括轨迹查询(某段时间,移动对象的移动轨迹变化)和区域查询两类,区域查询又包括时刻查询(找到时刻狋时在线路狉上的移动对象)和窗口查询(找到时刻狋1至狋2时在线路狉上的移动对象).针对区域查询优化所建立的索引的研究重点是如何提高时刻查询和窗口查询的效率,优先考虑以同一空间为单位来组织数据和建立索引.有两类建立索引的方法,一类基于一般R tree[18]上进行时空扩展,把二维空间和一维时间的时空数据转化成“纯”三维空间数据处理,此时时间维度转化为空间的维度.如3DR tree[19]、RT tree[20]、STR tree[21].另一类的索引在每个更新时刻上建立一棵版本树.如MR tree[22]是在R tree上利用重叠B tree的思想.MV3R tree[23]是基于多版本B tree的思想,用一棵MVR tree来处理时间戳查询和3DR tree来处理长时间间隔.由于移动对象位置不断变化,引起了数据的大量更新,在面向轨迹的查询应用中,这类索引在创建时往往优先考虑以同一个移动对象为单位来聚集数据,即同一移动对象的运动轨迹尽量存储在一起[24].如经典轨迹索引TB tree[25],它采用了类R tree结构,并在STR tree上进行扩展,把同一轨迹的线段储存在每个叶节点中以保存移动对象的运动轨迹.SETI索引[26]将静态的空间区域进行非重叠分区,利用分区函数把数据同一轨迹的线段储存在同一分区中[27].以上的基于移动历史的索引研究主要是针对移动轨迹没有任何限定的情况下所做的研究.在许多现实场景中,移动对象的运动轨迹并不是杂乱无章的,而是被限制在特定的或者具有一定规律的网络上,例如高速路上的汽车.因而它们的位置信息可以借助网络上固定线路的相对位置来表示.因而相比轨迹无限定的移动对象查询,基于路网的历史查询的复杂度相对降低[23].这一类索引通常是一个两层的索引结构.均采用R tree索引结构或是其变种结构进行存储.如Frentzos提出的路网移动对象经典索引FNR tree[28],它是一个两层混合索引结构:上层是一棵2DR tree,用于索引道路网络的路段;下层是1DR tree森林,用于索引路段中运动的移动对象.FNR tree具有良好的窗口查询性能,但对于时间片查询和历史轨迹查询,则需要遍历整个1DR tree森林.FNR tree还假定移动对象在路网中速度不变.但在现实的应用场景中往往对象的移动不是以同一个速度进行.郭景峰等人提出了FNR+ tree索引结构[29],它在FNR tree的基础上增添了一个哈希结构来储存对象的历史轨迹,从而改善了FNR tree在轨迹查询上的效率.Pfoser等人提出用Hilbert曲线把复杂的三维空间转化成用R tree表示的低维子空间[30],虽然查询处理较FNR tree要复杂,但可以把移动对象的运动方式表示得更具体.DeAlmeida等人提出了具有两层结构的MON tree[31],上层是一棵用于索引线路/线段的2DR tree,下层是一个用于索引指定线路中移动对象位置和时间信息的2DR tree森林.在道路表达上MON tree提供了两种表达方式,一种是以道路作为基本元素,另一种是将道路表示为折线段,以折线段作为基本元素.当道路长度较大时,MON tree会产生大量的死空间,查询效率相对降低.实验表明,相比较于FNR tree,MON tree具有更好的性能,且MON tree的两种不同表达方式索引中,基于道路的MON tree的查询效率更高.一些研究人员还针对一些混合模式进行研究:(1)同时处理移动对象过去、当前以及未来位置信息的索引模型AMH[32]、RPPF tree[33]、PCI[34].这类索引往往是移动历史索引与当前未来位置两类索引技术的整合.但由于两种索引结构的更新效率是不同的,所以针对两种不同的查询,需要有两种数据结构来分别存储数据,并建立两种数据结构的联系,将现在的数据不断转化成过去的数据;(2)为了利用多核处理器的并行性以满足大数据处理的需求,提出了基于内存和磁盘的轨迹索引[35 36],这类工作的挑战是如何处理查询和更新上锁之间的争用.本文针对在限定路网上的历史区域查询,提出一种基于时空相点的路网移动对象数据索引技术PM tree,目的在于提高路网中移动对象时空信息的存储以及历史区域查询的效率.本文首先将路网中的移动对象轨迹信息建模为时空数据矩形集合,通过映射函数将其投影成带参数的一维“时空相点”数据.其次,讨论了时空相点集合上基于相点序分支结构的数据结构.最后,构建了基于时空相点序分枝结构的路网移动对象索引,该索引改进了MON tree的下层用于索引指定线路中移动对象位置和时间信息的2DR tree森林,采用相点序分枝结构实现了指定线路中移动对象位置和时间信息的一体化存储和查询,同时可以避免最小限定矩形大量重叠导致的查询效率低下问题;最后讨论了该索引的查询和增量式更新算法.本文主要贡献是:把二维的时空数据矩形通过映射函数投影成带参数的一维“时空相点”数据,实现了时空数据的降维以及时空数据的一体化查询;通过研究时空相点之间的关系提出相点序分支结1853期汤 娜等:时空相点移动对象数据索引PM Tree构,该结构可以有效缩减区域查询的搜索范围;构建了基于相点序分支结构的路网移动对象数据索引PM tree,提出了“一次一集合”的查询模式和动态更新算法.本文第2节基于路网的移动对象数据模型和时空相点集合的数据关系,提出相点序分支数据结构;第3节讨论以相点序分支数据结构为基础建立的路网移动对象索引模式PM tree,并研究PM tree的数据查询和更新算法;第4节是相应的实验仿真;第5节是对本文的总结与展望.2 时空数据结构线路犚由一组固定的有序线段{〈犪0,犪犾〉,〈犪1,犪2〉,…,〈犪狀-2,犪狀-1〉,〈犪狀-1,犪狀〉}组成,其中犪犻(0 犻 狀)为二维平面线段的点,犪0和犪狀分别为线路始点和终点.犚上点犪犻的位置用犪犻关于犪0的距离参数犇犻=犇(犚,犪犻)表示,当犪犻=犪0时,犇(犚,犪犻)=0;当犪犻≠犪0时,犇(犚,犪犻)=犇(犚,犪犻-1)+犱(犪犻-1,犪犻),其中犱(犪犻-1,犪犻)是犪犻-1到犪犻之间的欧式距离(1 犻狀).一条线路对应了地图中的一条道路.路网是由一组有序线路集合{狉1,狉2,…,狉犻,…,狉犿}连接组成的图.移动对象犿在线路狉犻上运动所产生的运动轨迹可以一系列点〈犕0,犕1,…,犕狀〉来表示,犕犻-1=(犱犻-1,狋犻-1)表示在时刻狋犻-1位于点犕犻-1,距离线路狉犻的始点的距离为犱犻-1,其中犱犻-1=犇(犚,犪犼)+犱(犪犼,犕犻-1),其中犪犼是从道路的初始点犪0到犕犻-1之间最靠近犕犻-1的点,犱(犪犻-1,犪犻)是犪犼到犕犻-1之间的欧式距离.下一个时间点狋犻的轨迹则为犕犻=(犱犻,狋犻),即点犕犻距离线路狉犻的始点的距离为犱犻,相邻两个结点犕犻-1和犕犻组成一个折线段狊犲犵(犕犻-1,犕犻).定义1. 时空数据矩形TSDR(Temporal SpatialDataRectangle).移动对象犿运动轨迹上的折线段狊犲犵(犕犻-1,犕犻)可用一个平行于坐标轴的时空数据矩形犛犻=(犱犻-1,犱犻;狋犻-1,狋犻)来表示,其中犱犻-1 犱犻∧狋犻-1 狋犻,即(犱犻-1,狋犻-1)和(犱犻,狋犻)分别表示犛犻左下和右上顶点坐标,如图1所示.1 TSDR由上述定义可得,移动对象犿在线路狉上的运动轨迹〈犕0,犕1,…,犕狀〉可以建模为时空数据矩形TSDR序列〈犛1,犛2,…,犛狀〉,其中犛犻=(犱犻-1,犱犻;狋犻-1,狋犻).2 1 时空相点映射TSDR作为一个二维时空矩形,若直接对其进行数据操作,处理效率较低.本小节基于TSDR数据的固有特性运用数学映射方法把TSDR矩形映射成时空相点,从而实现提高移动对象运动信息的处理效率.首先将时空矩形TSDR的左下和右上端点垂直投影到相点轴(Phase axis)上,得到投影线段[犪,犫].参见图2所示.犪和犫的值分别为从原点出发沿相点轴到点犪及点犫的距离.距离值的计算参见图3.[犪,犫]可以记作相平面中的时空相点坐标(犪,犫)在相点轴上的线段或是相点坐标(犪,犫)对应的区间.定义2. 时空相点映射PhasePointsMapping.相点映射定义如下:犛=(犱1,犱2;狋1,狋2)→犘=((犪,犫),犱1,犱2,狋1,狋2,犗犽)犪=犱1槡×2+狋1-犱1槡2=狋1+犱1槡2,犫=犱2槡×2+狋2-犱2槡2=狋2+犱2槡2,285计 算 机 学 报2021年其中,犘称为时空数据矩形TSDR对应的时空相点(Temporal SpatialPhasePoint,TSPP),(犪,犫)称为犘的时空相点坐标,犱1,狋1,犱2,狋2称为犘的时空判定参数,犗犽为相点所属的移动对象.TSDR与相点犘的映射关系如图4所示.为了简化计算和方便显示,把犪、犫均放大槡2倍,则有犪=狋1+犱1,犫=狋2+犱2.定理1. TSDR相交关系与相点相交等价性.设犜犛犇犚犻和犜犛犇犚犼所对应的时空相点分别为犘犻((犪犻,犫犻),犱犻1,犱犻2,狋犻1,狋犻2,犗犽)和犘犼((犪犼,犫犼),犱犼1,犱犼2,狋犼1,狋犼2,犗犿),由时空相点和其对应的区间的概念可以得到:犜犛犇犚犻∩犜犛犇犚犼≠ [犪犻,犫犻]∩[犪犼,犫犼]≠ .证明. 犜犛犇犚犻∩犜犛犇犚犼≠ 意味着两个矩形一定存在着相交的面积犛,此面积可以是点、线、面,则一定此面积投影在相点轴上至少有一个点.即[犪犻,犫犻]∩[犪犼,犫犼]≠ .证毕.定理2. TSDR不相交关系的相点坐标判定.设犜犛犇犚犻和犜犛犇犚犼所对应的时空相点分别为犘犻((犪犻,犫犻),犱犻1,犱犻2,狋犻1,狋犻2,犗犽)和犘犼((犪犼,犫犼),犱犼1,犱犼2,狋犼1,狋犼2,犗犿),则有:[犪犻,犫犻]∩[犪犼,犫犼]= 犜犛犇犚犻∩犜犛犇犚犼= .证明. 假设[犪犻,犫犻]∩[犪犼,犫犼]= 时犜犛犇犚犻∩犜犛犇犚犼≠ .由于犜犛犇犚犻∩犜犛犇犚犼≠ 意味着两个矩形一定存在着相交的面积犛,此面积可以是点、线、面,则此面积投影在相点轴至少有一个点.即[犪犻,犫犻]∩[犪犼,犫犼]≠ ,则与假设矛盾.所以可以推出[犪犻,犫犻]∩[犪犼,犫犼]= 犜犛犇犚犻∩犜犛犇犚犼= .证毕.为叙述方便,下文把相点犘犻((犪犻,犫犻),犱犻1,犱犻2,狋犻1,狋犻2,犗犽)与犘犼((犪犼,犫犼),犱犼1,犱犼2,狋犼1,狋犼2,犗犿)对应的区间[犪犻,犫犻]∩[犪犼,犫犼]记为犘犻∩犘犼.定义3.移动对象时空相点模型(MovingObjectPhasePointModel).移动对象在线路狉犻上的运动轨迹数据TSDR序列可建模为相平面上的一个时空相点TSPP序列〈犘1,犘2,…,犘狀〉.例1. 对于移动对象犗1,犗2,…,犗13在线路狉犻上运动产生的数据可以建模如表1所示.表1 移动对象相点数据模型Temporal SpatialDataRectangleTemporal SpatialPhasePoint犗1(0,2;0,2)(2,7;2,6)((0,4),0,2,0,2,犗1),((4,13),2,7,2,6,犗1)犗2(0,2;3,5)(2,7;5,8)((3,7),0,2,3,5,犗2),((7,15),2,7,5,8,犗2)犗3(0,5;5,9)((5,14),0,5,5,9,犗3)犗4(2,5;5,9)((7,14),2,5,5,9,犗4)犗5(2,7;3,8)((5,15),2,7,3,8,犗5)犗6(2,5;3,6)(5,7;6,7)((5,11),2,5,3,6,犗6),((11,14),5,7,6,7,犗6)犗7(0,5;2,5)(5,7;5,7)((2,10),0,5,2,5,犗7),((10,14),5,7,5,7,犗7)犗8(5,7;0,4)((5,11),5,7,0,4,犗8)犗9(0,2;7,9)((7,11),0,2,7,9,犗9)犗10(0,2;2,3)(2,5;3,7)((2,5),0,2,2,3,犗10),((5,12),2,5,3,7,犗10)犗11(2,5;2,4)(0,2;4,7)((4,9),2,5,2,4,犗11),((4,9),0,2,4,7,犗11) 犗12(0,2;2,4)(2,7;4,8)((2,6),0,2,2,4,犗12),((6,15),2,7,4,8,犗12)犗13(2,5;6,8)((8,13),2,5,6,8,犗13)2 2 时空相点序分枝结构定义4(相点偏序关系).设Σ为相点集合,对于犘犻,犘犼∈Σ,若犘犻 犘犼,即(犪犼 犪犻)∧(犫犻 犫犼),则称犘犻与犘犼具有关系“槇 ”,记为犘犻 槇 犘犼,“槇 ”是Σ集合上满足自反性、反对称和传递性的偏序关系.定义5.相点序分枝(Phase PointOrderBranch,PPOB).对于移动对象的相点数据集合Σ,其对应的偏序划分记为犘(Σ)=〈犔1,犔2,…,犔犿〉,称犔犻为犘(Σ)中相点序分支(PhasePointOrderBranch,PPOB).每一个犔犻是满足“槇 ”的相点的偏序集合,是Σ偏序划分中的一个全序分枝,即犔犻中的每一个相点之间都满足“槇 ”的全序关系,且每一个相点属于且仅属于一个犔犻.例2.例1中移动对象的相点集合Σ,由算法1中的相点偏序划分算法1中的函数犌犈犖犈犚犃犜犈_犘犕犜狉犲犲犛狋狉可得:犔1=〈(0,4)〉,犔2=〈(2,10)(2,6)(2,5)〉,犔3=〈(3,7)〉,犔4=〈(4,13)(4,9)〉,犔5=〈(5,15)(5,14)(5,12)(5,11)(7,11)〉,犔6=〈(6,15)(7,15)(7,14)(8,13)〉,犔7=〈(10,14)(11,14)〉.最终可得相点偏序划分犘(Σ)=〈犔1,犔2,犔3,3853期汤 娜等:时空相点移动对象数据索引PM Tree犔4,犔5,犔6,犔7〉.从本例起,为了更清晰地描述相点,采用相点坐标代表相点,省略了相点的时空判定参数和相点对应的移动对象犻犱.定理3. 相点序分枝相交定理.设有相点序分枝犔犻=〈狆1,狆2,…,狆犼,…,狆狀-1,狆狀〉,对于任意相点犘,若有狆犼∩犘≠ ,则犔犻中所有位于狆犼前的相点均与犘相交,即(狆1∩犘≠ ∧狆2∩犘≠ ∧…∧狆犼-1∩犘≠ ).若有狆犼∩犘= ,则犔犻中所有位于犘犼后的相点与犘均不相交,即(狆犼+1∩犘= ∧…∧狆狀-1∩犘= ∧狆狀∩犘= ).证明. 由定义4和定义5可得,对于犔犻中的元素狆犽和狆犼,若犽<犼,则必有犪犽 犪犼∧犫犼犫犽.现假设狆犼与相点犘相交,即[犪,犫]∩[犪犼,犫犼]≠ .由[犪,犫]∩[犪犼,犫犼]≠ 犪犼 犫∧犪 犫犼,又犪犽 犪犼∧犫犼犫犽,则有犪犽 犫∧犪 犫犽,因此狆犽∩犘≠ .同理可得当犽>犼时,若狆犼∩犘= ,则狆犽∩犘= .证毕.例3. 对于例2中的犔6=〈(5,15)(5,14)(5,12)(5,11)(7,11)〉,设相点犘的坐标为(12,15).由[5,12]∩[12,15]≠ ,可得[5,15]∩[12,15]≠ 且[5,14]∩[12,15]≠ ;由[5,11]∩[12,15]= ,可得[7,11]∩[12,15]=.3 移动对象数据索引3 1 时空相点移动对象数据犘犕 狋狉犲犲索引图5 由线路的最小限定框构建的R TreePM tree索引(Phase pointMovingObjectTreeIndex)包括两层结构的建立,上层结构是一棵R tree.使用地图数据的线路单元的最小限定框MBR(MinimalBoundingRectangle)作为上层索引结构的构建单元,将地图的所有线路的最小限定的框建立的R tree作为上层结构用于索引线路.如图5所示.下层是移动对象轨迹的索引结构,是由一个包含线路Id和该线路对应的PM tree结构的哈希映射结构组成,这个哈希映射包含了每一条线路对应的PM tree结构,哈希表中的每一个PM tree结构负责索引其对应线路下的所有移动对象的轨迹数据.下面着重讨论PM tree结构.定义6. PM Tree结构犘犕犜狉犲犲犛狋狉.PM tree结构犘犕犜狉犲犲犛狋狉是由Root level、Max level、PPOB level和O level构成的四层树形结构.如图6所示.(1)Root level.逻辑层,表示数据操作的入口.(2)Max level.由PPOB level中各个PPOB中的最大、最小元max(犔犻)和min(犔犻)组成,且max(犔犻)在该层的排列顺序与犔犻在算法1中的获取顺序相对应.(3)PPOB level.由各个max(犔犻)相对应的PPOB构成,且PPOB中的每个相点均带有一个指向O level对象的指针.(4)O level.由每个相点对应的移动对象构成,用于存储移动对象的具体信息.图6 PM tree结构例4. 例1的移动对象运动轨迹数据所构成的PM tree结构如图7所示.算法1. 索引建立算法犫狌犻犾犱_狋狉犲犲.输入:犈犇(犈犱犵犲犇犪狋犪)地图数据,犜犇狊(犜犛犇犚犇犪狋犪狊)各线路上移动对象的轨迹数据输出:PM tree索引,其中犎犕(犎犪狊犺犕犪狆)为将上层索引结构中的线路映射到到下层PM tree结构的哈希结构1.FUNCTION犫狌犻犾犱_狋狉犲犲(犈犇,犜犇狊)2./ 建上层索引结构/3.FOR每一条线路对应的犕犅犚∈犈犇DO4.犚犜狉犲犲.犐狀狊犲狉狋(犕犅犚)5.ENDFOR6./ 建下层结构 /7.FOR每一条线路下的TSDR集合犜犇犔∈犜犇狊DO8.犌犈犖犈犚犃犜犈_犘犕犜狉犲犲犛狋狉(犜犇犔)9.犎犕add犘犕犜狉犲犲犛狋狉10.ENDFOR11.ENDFUNCTION12./ 相点偏序划分及犘犕犜狉犲犲犛狋狉结构的构建算法/485计 算 机 学 报2021年图7 PM tree结构犘犕犜狉犲犲犛狋狉实例13.FUNCTION犌犈犖犈犚犃犜犈_犘犕犜狉犲犲犛狋狉(犜犇犔)14./ 生成犜犇犔对应的相点集合Σ的偏序划分,记为犘(Σ)=〈犔1,犔2,…,犔犿〉(1 犻 犿),并构建对应的犘犕犜狉犲犲犛狋狉 /15.生成犘犕犜狉犲犲犛狋狉的Root level16.FORALL犜犇in犜犇犔Do计算其对应的相点,并按照犪值的升序分成若干列,犪值相同的为同一列,同一列的点按照犫按降序排列,形成相点平面上的相点集合Σ;17.从Σ“最左上方”点(即犪最小,犫最大)开始,犘=(犪犻,犫犼),点犘(犪犻,犫犼)所在的列记为犮狅犾(犪犻).列犮狅犾(犪犻)右边最近的邻列记为犚犻犵犺狋犆(犪犻).在列犮狅犾(犪犻)中,点犘=(犪犻,犫犼)的列直接后继节点记为犚狅狑犛狌犮犘(犘).若列犮狅犾(犪犘),其列值大于犮狅犾(犪犻),则该列中第一个满足犫狇 犫犼的节点犓(犪狆,犫狇)称为犘的在列犮狅犾(犪犘)中的后继节点,记为犆狅犾犛狌犮犘(犮狅犾(犪犘),犘);狀=0.18.狀=狀+1,建立列表犔狀,且max(犔狀)=[犘.犪,犘.犫],19.//max(犔狀)为犔狀中的“最大元”,即“首”元素,min(犔狀)为犔狀“最小元”,即“尾”元素.20.将犘加入犔狀,Σ=Σ-{犘};犮狅犾=犮狅犾(犘.犪);min(犔狀)=[犘.犪,犘.犫]21.若犘存在着列直接后继节点犚狅狑犛狌犮犘(犘),则令犘=犚狅狑犛狌犮犘(犘),返回步骤20;22.若犚犻犵犺狋犆(犮狅犾)存在,则犮狅犾=犚犻犵犺狋犆(犮狅犾),查找犆狅犾犛狌犮犘(犮狅犾,犘),如果存在该节点,则令犘=犆狅犾犛狌犮犘(犮狅犾,犘),返回步骤20;否则返回步骤22;23.在犘犕犜狉犲犲犛狋狉的Max level增加一个新节点(min(犔狀),max(犔狀)),并对该节点构建子树,PPOB level层为犔狀,O level层为犔狀中每个相点所属的对象犻犱.24.若Σ= ,退出算法;否则,查找Σ“最左上方”点犓,并令犘=犓,返回步骤18.相点偏序划分算法的平均时间复杂度为犗(狀log(狀)).3 2 数据操作基于PM tree索引的数据操作主要分为数据查询和更新两种操作.路网移动对象的查询类型一般分为窗口查询、时间片查询和点查询.窗口查询是指给定一个时间间隔和一个空间矩形区域,查找在该时间间隔中位于给定空间矩形区域上的移动对象.而时间片查询和点查询均为窗口查询的特殊情况,因此小节仅讨论PM tree索引的窗口查询操作.PM tree索引的查询算法,需要下述定理支持.定理4. TSDR相交关系的相点参数判定.设犛犻=(犱犻1,狋犻1;犱犻2,狋犻2)→犘犻=((犪犻,犫犻),犱犻1,犱犻2,狋犻1,狋犻2,犗犽),犛犼=(犱犼1,狋犼1;犱犼2,狋犼2)→犘犼=((犪犼,犫犼),犱犼1,犱犼2,狋犼1,狋犼2),假设犱犻1 犱犼1,则犛犻∩犛犼≠ (犱犼1 犱犻2∧狋犼1 狋犻2)∧(犱犻1 犱犼2∧狋犻1 狋犼2).证明. 必要性.首先将两矩形投影在犡轴,由于犛犻∩犛犼≠ ,意味着两个矩形有交集,即线段[犱犻1,犱犻2]与线段[犱犼1,犱犼2]必须有交集.两线段有交集要满足的条件为犱犼1 犱犻2∧犱犻1 犱犼2.再将两矩形投影在犢轴,由于犛犻∩犛犼≠ ,意味着两个矩形有交集,即线段[狋犻1,狋犻2]与线段[狋犼1,狋犼2]必须有交集.两线段有交集要满足的条件为狋犼1 狋犻2∧狋犻1 狋犼2.即由犛犻∩犛犼≠ (犱犼1 犱犻2∧狋犼1 狋犻2)∧(犱犻1 犱犼2∧狋犻1 狋犼2).充分性.已知(犱犼1 犱犻2∧狋犼1 狋犻2)∧(犱犻1 犱犼2∧狋犻1 狋犼2),假设犛犻∩犛犼= ,及两个矩形没有交集,如果犱犻1<犱犼1,则必有犱犻1<犱犻2<犱犼1<犱犼2;与前提中的犱犼1 犱犻2矛盾.如果犱犻1>犱犼1,则必有犱犼1<犱犼2<犱犻1<犱犻2与前提中的犱犻1 犱犼2矛盾矛盾.即命题(犱犼1 犱犻2∧狋犼1 狋犻2)∧(犱犻1 犱犼2∧狋犻1 狋犼2) 犛犻∩犛犼≠ 得证.证毕.当(犱犻1=犱犼2)∨(犱犼1=犱犻2)∨(狋犼1=狋犻2)∨(狋犻1=狋犼2)时,犛犻与犛犼只有边相交,不满足窗口查询的定义,所以窗口查询的相交判断定理可以简化为5853期汤 娜等:时空相点移动对象数据索引PM Tree。

中国科学引文数据库(CSCD)简介

中国科学引文数据库(CSCD)简介

附件2:中国科学引文数据库(CSCD)简介中国科学引文数据库创建于1989年,通过清华大学和中国科学院资源与技术的优势结合和多年的数据积累,目前已发展成为我国规模最大、最具权威性的科学引文索引数据库——中国的《科学引文索引》(SCI),为中国科学文献计量和引文分析研究提供了强大工具。

中国科学引文数据库(CSCD)为年刊,收录我国数学、物理、化学、天文学、地学、生物学、农林科学、医药卫生、工程技术、环境科学和管理科学等领域出版的中英文科技核心期刊和优秀期刊近千种。

数据库的来源期刊每两年进行一次评选,分为核心库和扩展库两部分内容。

其中,核心库的来源期刊经过严格的评选,是各学科领域中具有权威性和代表性的核心期刊;扩展库的来源期刊也经过大范围的遴选,是我国各学科领域较优秀的期刊。

2011-2012版本的中国科学引文数据库共遴选了1124 种期刊,其中英文刊110 种,中文刊1014 种;核心库期刊 751 种(以C为标记)扩展库期刊 373 种(以E为标记)。

中国科学引文数据库是我国第一个引文数据库。

曾获中国科学院科技进步二等奖。

1995年CSCD出版了我国的第一本印刷本《中国科学引文索引》,1998年出版了我国第一张中国科学引文数据库检索光盘,1999年出版了基于CSCD和SCI数据,利用文献计量学原理制作的《中国科学计量指标:论文与引文统计》,2003年CSCD上网服务,推出了网络版,2005年CSCD 出版了《中国科学计量指标:期刊引证报告》。

2007年中国科学引文数据库与美国Thomson-Reuters Scientific合作,中国科学引文数据库将以ISI Web of Knowledge为平台,实现与Web of Science的跨库检索,中国科学引文数据库是ISI Web of Knowledge平台上第一个非英文语种的数据库。

中国科学引文数据库目前已在我国各大科研院所、高等学校的课题查新、基金资助、项目评估、成果申报、人才选拔以及文献计量与评价研究等多方面作为权威文献检索工具获得广泛应用。

内存对象数据库在输配电网平台并发拓扑分析中的应用

内存对象数据库在输配电网平台并发拓扑分析中的应用

内存对象数据库在输配电网平台并发拓扑分析中的应用李飞;黄琦;纪元;贺彦【摘要】首先设计并开发了面向对象的内存数据库,采用了分区、分页存储技术,可用于大规模电网模型的高效缓存和检索[4-5].该内存对象数据库集成进一个实时GIS平台,为实现了大规模并发的拓扑追踪服务提供模型数据.其次本文介绍了基于任务调度队列的拓扑追踪和开关操作系列的并行处理技术,解决了多客户请求的并行执行及其冲突问题.接着本文针对跨分区的操作请求,采用父子任务的形式加入任务队列.最后本文在某省上线系统中进行了压力测试,本文开发的系统在千万级的电网设备模型规模下,每台服务器1 000并发请求的处理时间小于0.1秒.【期刊名称】《贵州电力技术》【年(卷),期】2016(019)011【总页数】6页(P29-34)【关键词】电网GIS平台;并行电网拓扑分析;内存对象数据库;任务调度队列【作者】李飞;黄琦;纪元;贺彦【作者单位】电子科技大学能源科学与工程学院,四川成都610054;贵州电网有限责任公司信息中心,贵州贵阳510623;电子科技大学能源科学与工程学院,四川成都610054;贵州电网有限责任公司信息中心,贵州贵阳510623;深圳航天科工(集团)公司,广东深圳518048【正文语种】中文【中图分类】TM71地理信息系统(Geographical Information System,GIS)是输配电网规划、运行调度与抢修决策支持系统的基础数据管理和可视化平台[1-3]。

拓扑分析是实现检修调度、停电管理及输配电高级决策的基础功能[6-8]。

而并行的拓扑分析服务是GIS平台应用服务器的主要设计难点之一[9-10]。

一方面,电网模型包括了全省输电网和配电网,设备规模达到千万级,遍布全省的各区县局的不同用户,经常出现大规模的并发访问用户请求[11-13];而且开关分合操作会产生大量设备动态拓扑关系的变动,同时进行的开关分合操作和拓扑追踪操作相互之间可能产生冲突。

中国科学引文索引数据库的简单和高级检索功能

中国科学引文索引数据库的简单和高级检索功能

中国科学引文索引数据库的简单和高级检索功能中国科学引文索引数据库(Chinese Science Citation Database,CSCD)是中国科学院研究中心与上海科学技术情报研究所合作开发的一种科学文献检索工具。

它汇集了国内外高水平科技期刊的论文信息,为科研人员提供了方便快捷的文献检索和引文分析功能。

本文将介绍CSCD的简单和高级检索功能。

一、简单检索功能CSCD的简单检索功能提供了快速查找和获取文献信息的便捷途径。

用户可以在主页上的搜索框中输入关键词,系统会根据关键词匹配相应的论文、文献等信息。

此外,CSCD还提供了多种检索方式,如按作者、机构、刊名等进行检索。

用户可以根据自己的需求选择最适合的检索方式,以获得准确且全面的文献搜索结果。

二、高级检索功能CSCD的高级检索功能更为灵活和精确。

用户可以通过高级检索页面进入高级检索界面,进行更加细致和精确的检索。

以下是几种常用的高级检索功能:1. 布尔检索:CSCD支持AND、OR、NOT等布尔逻辑运算符的使用,用户可以通过组合关键词和运算符,构建复杂的检索式来达到更精确的检索结果。

2. 范围检索:用户可以设定文章的检索范围,如时间范围、作者姓名、期刊名称等。

这将减少冗余信息,提高检索准确性。

3. 条件检索:CSCD还提供了针对特定条件的检索功能,如文章类型、语言类型、被引频次等。

这些条件检索的选项能够帮助用户快速定位到自己需要的文献信息。

4. 相关性排序:CSCD的高级检索功能还支持根据相关性进行排序。

用户可以根据自己的需求,将搜索结果按照相关性高低进行排序,以找到与自己研究方向最相关的文献。

总结起来,中国科学引文索引数据库(CSCD)提供了简单和高级两种检索功能。

简单检索功能可以帮助用户快速获取相关文献信息,而高级检索功能则更为灵活和精确,能够满足用户对特定条件的检索需求。

科研人员可以根据自己的需要,选择合适的检索方式,以提高检索效率和准确性。

文献信息检索课的意义和作用1

文献信息检索课的意义和作用1

人类社会的四次信息技术革命 ①第一次革命—语言和文字的创造(公元前3000年左 右) ②第二次革命—造纸和印刷术的出现(公元7世纪初唐 时期) ③第三次革命—电报、电话、电视等现代通讯技术的运用 ④第四次革命—计算机技术的发明(1946年)
信息时代具有以下一些特征: ①信息成为重要的战略资源。 在信息时代,信息和材料、能源一起构成了当代社会的 三大支柱。随着科学技术的发展,信息对政治、经济、生活 等各个领域的影响日益增大。企业如果不实现信息化,就很 难提高自身的竞争能力,以参与日益全球化的竞争市场;国 家如果缺乏信息资源,不重视提高信息的利用能力,就会落 后、挨打。
电子商务(Electronic Commerce,EC)是20世 纪90年代,在信息经济、知识经济和网络经济的 发展过程中,兴起于美国、欧洲等发达国家和地 区的一个新概念。电子商务从广义上来讲,是利 用电子和信息技术而进行。 经济贸易活动,狭义的电子商务是利用电子 信息网络设施来实现的商品和服务交易的总称, 是一种以现代信息网络为载体的新的商务活动形 式。
第二节信息时代与信息素养教育一信息与信息时代二信息素养与信息意识三信息环境四培养大学生信息获取和利用能力的重要性五大学学习与信息获取利用能力六信息检索课与信息能力培养一信息与信息时代二信息素养与信息意识三信息环境四培养大学生信息获取和利用能力的重要性五大学学习与信息获取利用能力六信息检索课与信息能力培养一信息与信息时代1信息及信息时代定义2信息时代的社会3信息时代的教育1信息及信息时代定义1信息的定义2信息化的定义3信息时代1信息的定义所谓信息一词有很悠久的历史
2002年《普通高等学校图书馆规程》(修改)文件 中又提出开展信息素质教育,培养读者信息意识和获取利 用文献信息的能力。 30年来,数以百计的大学生修完或正在读这门课程, 发展十分迅速。文献信息检索课的发展主要归之于这门课 的生命力。

天津南大通用数据技术股份有限公司简介-V1

天津南大通用数据技术股份有限公司简介-V1
计算存储分离,弹性扩展
分钟级弹性扩展 支持读写分离和业务架构 混合业务性能线性扩展能力 0.7
应用系统
接口层/中间件
JDBC、ODBC、、OCI 等 / 东方通、中创、Druid、MyBatis
连接管理器(Connection Manager)
SSC
PRIMARY
SSC
Server
SSC
广州、上海、南京、沈阳、 西安等,服务辐射全国
03 成功案例
用户覆盖34个国家,国内32个 省级行政区 节点数>30000个 总数据量>200PB 金融、电信、能源、交通、政企、 安全等关键领域广泛应用
公司成立
项目背景及需求:
随着业务分析需求的增加和对业务数据范围、周期需 求的扩大,客户原有的统计分析等系统处理性能已经 达到极限,其扩展性限制了对不断增强、增加的需求 的支持。系统的处理性能也限制了对来自多个业务系 统的数据整合的能力,进一步影响对跨业务数据分析 需求的满足。客户作为国内储户最多的银行,需要建 设从架构上能支撑未来业务数据极速增长的、性价比 高的、运行可靠稳定的数据仓库平台。
客户价值
项目打破了国外软硬一体数据仓库产品垄断; 该项目超千节点集群,20P数据量规模满足了客户业务
高性能需求,双活集群技术保障了金融级高可用; 项目的成功是通过国产化保证国家金融信息安全方面的
有力证明; 基于全国产化,客户建设成本由亿元级别降低到千万元。
项目背景及需求:
中国银行总行大数据平台要全面整合内外部数据, 向全行提供便捷多样的数据服务,支持海量数据 分析和价值挖掘,把数据转化为生产力。 MPP架构分析型数据库作为中行大数据建设的重 要组成部分,需要通过构建整合内外部多样化数 据能力、海量数据存储以及基于分布式分析计算 能力,为中国银行提升数字化服务水平赋能。 通过优化系统架构,将中国银行数据分析类应用 从集中式部署向分布式部署转变,构建基于X86平 台的分布式计算平台,优化客户体验。

达梦数据库公司与产品介绍

达梦数据库公司与产品介绍
达梦数据库公司与数据库 产品介绍
2013年4月

大纲
1
公司介绍
2
达梦数据库产品介绍
3
达梦ETL产品介绍
4
典型案例
5
与国内外产品的对比
6
致谢
公司简介
达梦是国内最早从事数据库管理系统研发、生产、销售和服 务的专业公司。
公司连续五个“五年”计划得到了国家发改委、科技部、工 信部、总装备部等中央部委的支持与扶植,是中国电子信息产业 集团(CEC)的下属企业 。公司是国家规划布局内重点软件企业 和双软企业,中国数据库标准委员会组长单位,核高基重大专项 课题牵头承担单位。
Oracle 12
达梦7 研发成果
申请国内发 明专利18项
申请软件著 申请国家重 申请软件产 作权23项 点新产品3项 品登记10项
内核技术
cpu
➢ 虚拟机
• 提高空间利用率,充分利用CPU的2 级缓存
• 采用面向栈的表达式计算模式,减 少虚拟机代码体积、数据的移动
➢ 并行处理
• 多个处理器并行查询,多个线程来 处理查询作业
课题组
企业资质
公司取得各项资质 24 项,各种奖项 16项
涉密集成软件 开发资质
国家规划布局内 国家发改委高技术 中国数据库软件
重点软件企业
产业பைடு நூலகம்示范工程 采购推荐产品
ISO9001:2000证书
CMMI3级证书
武器装备质量体系认 证证书
高新企业证书
产品资质
产品取得资质 8 项,奖项24项,著作权 35 项
、LibSQLora8
工具
➢ 可视化管理工具、迁移工具、监控工具 ➢ ETL 工具
OPEN3000

SCI、SSCI、CSSCI(南核)、CSCD、中文期刊(北核)的区别

SCI、SSCI、CSSCI(南核)、CSCD、中文期刊(北核)的区别

SCI、SSCI、CSSCI、CSCD1、SCI美国《科学引文索引》(Science Citation Index, 简称 SCI )于1957 年由美国科学信息研究所(Institute for Scientific Information, 简称 ISI)在美国费城创办,是由美国科学信息研究所(ISI)1961年创办出版的引文数据库。

SCI(科学引文索引 )、EI(工程索引 )、ISTP(科技会议录索引 ) 是世界著名的三大科技文献检索系统,是国际公认的进行科学统计与科学评价的主要检索工具,其中以SCI最为重要,创办人为尤金·加菲尔德(Eugene Garfield, September 16,1925~)。

2、CSSCICSSCI为《中文社会科学引文索引》(Chinese Social Science Citation Information)英文名称首字母缩写,是由南京大学中国社会科学研究评价中心研制成功的、我国人文社会科学评价领域的标志性工程。

其用来检索中文社会科学领域的论文收录和文献被引用情况。

CSSCI遵循文献计量学规律,采取定量与定性评价相结合的方法从全国2700余种中文人文社会科学学术性期刊中精选出学术性强、编辑规范的期刊作为来源期刊。

收录包括法学、管理学、经济学、历史学、政治学等在内的25大类的500多种学术期刊,现已开发的CSSCI (1998—2009年)12年度数据,来源文献近100余万篇,引文文献600余万篇。

目前南大核心来源期刊,受到了学术界的广泛认同。

CSSCI期刊目录是中国人文社会科学学术界学术评价体系的重要组成部分,绝大多数高校和科研机构都以此作为研究成果评价标准。

目前,国家教育部已将CSSCI数据作为全国高校机构与基地评估、成果评奖、高校职称评选、项目立项、名优期刊的评估、硕博士人才培养等方面的重要指标甚至是主要标准。

CSSCI数据库已被北京大学、清华大学、中国人民大学、复旦大学、国家图书馆、中国科学院等100多个单位包库使用,并作为地区、机构、学术、学科、项目及成果评价与评审的重要依据。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
RCCSE 中国科学评价研究中心
14
2 大数据时代
(2)大数据时代到来的原因
• 首先,信息技术和计算机网络技术的发展,为 大数据时代的到来奠定了坚实的技术基础。
• 各种技术的发展,使得数据的来源、类型、数 量变得越来越多,由此产生出了的数目庞大且 不断急剧增长的非结构化数据、半结构化数据, 整个社会发展进入到了大数据时代。
RCCSE 中国科学评价研究中心
8
2 大数据时代
综合以上几种不同的见解,我们认为,具备以 下特征的就是大数据。
• (1)数量大(Volume)。大数据所包含的数据 量很大,而且在急剧增长之中。但是,在可供 使用的数据数量不断增长的同时,可处理、理 解和分析的数据比例却在不断下降。
RCCSE 中国科学评价研究中心
数据都是半结构化或非结构化的。
RCCSE 中国科学评价研究中心
12
2 大数据时代
• 半结构化的数据是指具有一定的结构性并可被 解析或者通过使用工具可以使之格式化的数据, 如包含不一致的数据和格式的员工薪酬数据。 • 非结构化的数据是指没有固定结构,通常无法 直接知道其内容,保存为不同类型文件的数据, 如各种图像、视频文件。
大数据时代索引与数据库 事业的发展与创新
大纲
引言
大数据时代
索引与数据库的发展现状
大数据时代索引与数据库事业面临的挑战及创新
结语
RCCSE 中国科学评价研究中心
2
1 引言
“大数据”(Big Data)已经在全球引起了广 泛关注,正在引领了又一轮数据技术的革命。
• 美国EMC公司于2011年5月在美国拉斯维加斯举 办第11届EMC World大会,大会的核心是帮助企 业利用IT变革的重要趋势。此次大会以“云计 算相遇大数据(Cloud Meets Big Data)”为 主题,着重展现当今两个最重要的技术趋势, 正式提出了“大数据”概念。
• 麦肯锡认为,“大数据所涉及的数据集规模已 经超过了传统数据库软件获取、存储、管理和 分析的能力。”
7
RCCSE 中国科学评价研究中心
2 大数据时代
• IBM公司认为,可以用3个特征相结合来定义大 数据:数量(Volume)、种类(Variety)和速 度(Velocity),即庞大容量、极快速度和种 类丰富的数据。 • IDC公司认为,“大数据不是一个事物,而是一 个跨多个信息技术领域的现象。大数据技术描 述了新一代的技术和架构,通过使用高速( Velocity)的采集、发现或分析方法,从超大 容量(Volume)的多样(Variety)数据中经济 地提取价值(Value)。”
根据目前大数据的发展状况,未来数据增长的
绝大部分将是半结构化或非结构化的数据。
RCCSE 中国科学评价研究中心
13
2 大数据时代
2.2 大数据时代已经到来
(1)大数据时代已经到来
• 理论的提出:2008年,《Nature》杂志出版一 期专刊,专门讨论未来的大数据(Big Data) 处理相关的一系列技术问题和挑战。 • 现实的节点:2007年是人类创造的信息量有史 以来第一次在理论上超过可用存储空间总量的 一年。
RCCSE 中国科学评价研究中心
3
1 引言
• 根据IDC《数字世界》研究项目在 2012年的统计,2010年全球数字资 源的规模首次突破了ZB(1ZB=1万 亿GB)级别,达到了1.227ZB;而 2005年只有130Eb,五年增长了10 倍。如果保持这种爆炸式的增长速 度,到了2020年,我们的数字资源 规模将超过40ZB,相当于世界上每 个人拥有超过5200GB的数据。无疑, 我们已进入了大数据时代。
RCCSE 中国科学评价研究中心
15
2 大数据时代
• 其次,大量智能终端的广泛应用与网络应用的 不断增长,为大数据时代的到来奠定了坚实的 物质基础。 • 通过互联网和社交网络、数码相机等工具,每 个人的日常生活正在被数字化,人们可以随时 方便的根据自己的需要,产生大量的非结构化 数据、半结构化数据。特别是智能手机和笔记 本电脑的普及,是当前数据量爆炸增长的一个 重要原因。
RCCSE 中国科学评价研究中心
10
2 大数据时代
• (4)价值量(Value)。在信息时代,信息具 有很重要的商业价值。但是,信息具有生命周 期,数据的价值会随时间快速减少。另外,大 数据的数量庞大,种类繁多,变化也快,数据 的价值密度很低。如何从大量多样的数据中尽 快的分析出有价值的信息非常重要。对海量的 数据进行挖掘和分析,这也是大数据技术的难 点。
9
2 大数据时代
• (2)种类多(Variety)。随着技术的发展, 数据源不断增多,数据的类型也不断增加。不 仅包含传统的关系型数据,还包含来自网页、 互联网、搜索引擎、论坛、电子邮件、传感器 数据等原始的、半结构化和非结构化数据。 • (3)速度快(Velocity)。除了收集数据的数 量和种类发生变化,需要处理和生成数据的速 度也在变化。数据流动的速度在加快,要有效 的处理大数据,需要在数据变化的过程中实时 的对其进行分析,而不是滞后的进行处理。
5
RCCSE 中国科学评价研究中心
1 引言
基于以上概述,我们认为,大数据时代已经到 来,已经对我们的社会产生了重大影响。本文
将尝试对大数据时代我国的索引和数据库事业
的发展与创新进行研究和展望。
RCCSE 中国科学评价研究中心62 大数据时代
2.1 大数据的定义和特征
许多权威机构和企业对大数据给予了不同的定 义。
4
单位:ZB
RCCSE 中国科学评价研究中心
1 引言
• 在 2011年12月,我国工信部发布了物联网 “十二五”规划,提出了4项关键技术创新工程。 信息处理技术的内容包括海量数据存储、数据 挖掘、图像视频智能分析等,都是大数据技术 的重要组成部分;另外3项关键技术创新工程, 包括信息感知技术、信息传输技术、信息安全 技术,这些也都与“大数据”密切相关。我国 也对大数据技术给予了足够的重视。
11
RCCSE 中国科学评价研究中心
2 大数据时代
• (5)真实性(Veracity)。这是一个衍生特征。 真实有效的数据才具有意义。随着新数据源的 增加,信息量的爆炸式增长,我们很难对数据 的真实性和安全性进行控制,因此需要对大数 据进行有效的信息治理。
大数据在结构类型上也有其特点:大多数的大
相关文档
最新文档