基于面向对象的大数据存储模型研究_廖海生

合集下载

支持 XML 查询代数和树模式查询的 XQuery 系统框架_

*The Natural Science Foundation of Beijing of China under Grant No. 4082003 (北京市自然科学基金). Received 2010-05, Accepted 2010-07.ISSN 1673-9418 CODEN JKYTA8 E-mail: fcst@ Journal of Frontiers of Computer Science and Technology 1673-9418/2010/04(11)-0996-09 Tel: +86-10-51616056DOI: 10.3778/j.issn.1673-9418.2010.11.004支持XML 查询代数和树模式查询的XQuery 系统框架*张晓博+, 廖湖声北京工业大学计算机学院, 北京100124A Framework for XQuery System with XML Algebra and Tree Pattern Query *ZHANG Xiaobo +, LIAO HushengCollege of Computer Science, Beijing University of Technology, Beijing 100124, China + Corresponding author: E-mail: jwilljacob@ZHANG Xiaobo, LIAO Husheng. A framework for XQuery system with XML algebra and tree pattern query. Journal of Frontiers of Computer Science and Technology, 2010, 4(11): 996-1004.Abstract: High-performance implementation of XQuery needs to use query optimization methods provided by XML query algebra, also needs to use efficient holistic twig matching algorithm. In order to combine these two XML query processing techniques in XQuery processing system, this paper proposes a general framework to sup-port XQuery high-performance implementation. In this framework, it provides an open date source connection, and supports to represent a variety of query algebra operators and twig algorithms by using a functional query plan de-scription language FXQL(functional XML query language) as an intermediate language; and can implement query rewritings based on each query algebra by using this intermediate program transformation and separate independent tree pattern calculation from query plan. Thus, it allows that two query processing techniques to smoothly integrate into the same system framework, and effectively supports XQuery language implementation in a variety of envi-ronments.Key words: XML query; XQuery language; framework; tree pattern摘要: XQuery 语言的高性能实现需要利用XML 查询代数提供的查询优化方法, 也需要采取高效的树模式整体匹配算法。

分布式XML Twig查询处理方法

分布式XML Twig查询处理方法何志学;廖湖声;王静【摘要】在单机环境下,难以处理半结构化XML大数据查询,为此分析Twig查询的结构匹配特征,基于MapReduce编程模型,提出TwigMRR算法对XMLTwig查询进行分布式处理.对XML数据进行Dewey编码,水平切分后存储于分布式文件系统,通过执行Map-Reduce-Reduce任务对Twig分解后的线性路径查询进行分布式并行计算以取得结果.实验结果验证了该算法的有效性和完整性,与类似算法的比较结果表明了其在处理效率方面的优势.【期刊名称】《计算机工程与设计》【年(卷),期】2016(037)001【总页数】5页(P123-126,210)【关键词】分布式计算;Twig查询;MapReduce模型;XML数据;Hadoop平台【作者】何志学;廖湖声;王静【作者单位】北京工业大学计算机学院,北京100124;北华航天工业学院计算机与遥感信息技术学院,河北廊坊065000;北京工业大学计算机学院,北京100124;北华航天工业学院计算机与遥感信息技术学院,河北廊坊065000【正文语种】中文【中图分类】TP311XML(eXtensible markup language)被广泛应用于分布式系统计算、互联网多系统之间的数据表示、共享、交换等领域。

XML数据的查询语言XPath、XQuery一般抽象表示为Twig形式，从XML数据源中抽取感兴趣的查询片段，如何高效处理Twig查询是XML查询实现的关键问题所在。

本文依据大数据批处理机制，提出了基于MapReduce[1]编程框架的XML格式的半结构化大数据分布式查询处理方法。

在单机集中式环境下，XML Twig查询处理已经有了较多的研究，可分为基本的二元结构连接处理方法和整体匹配处理方法。

在分布式环境下，针对XML大数据的Twig分布式查询处理相关工作较少，其中典型工作有：文献[2]针对XML数据垂直切分情况，提出了多种执行计划及其优化方法，但没有给出具体的查询处理算法；采用部分求值技术，文献[3]提出了任意切分情况下XPath Boolean查询和数据选择分布式处理方法，并给出了MRParBoX算法计算Boolean查询，但该算法局限在于仅能够执行一个Reduce任务处理所有Map生成的中间结果；HadoopXML[4]系统基于Hadoop平台实现了海量XML数据上多个Twig查询的同时处理，通过中间结果共享节省了系统I/O，提高了查询效率；文献[5]针对迭代XQuery语句提出了查询和更新解决方案，该方案利用输入查询的路径信息对XML文档进行分解；文献[6]扩展XQuery语言为ChuQL方便开发者在Hadoop平台上基于MapReduce处理XML数据；文献[7]提出类SQL查询MRQL在MapReduce框架上处理XML数据，该语言扩展了Hadoop中的XML 输入格式，根据查询调整MapReduce任务数量；与本文直接相关的是HoX-MaRe[8]算法，该算法基于查询分解和文档水平切分，通过MapReduce框架计算查询结果，但Reduce任务过重，本文结合结点编码，并扩展了MapReduce模型。

0123828卢润秀论文四

面向对象技术课程论文学院软件与通信工程学院学生姓名卢润秀学号 0123828 专业软件工程届别 12 届指导教师廖汗成职称教授2014年一、摘要面向对象数据库（OODB）技术是将面向对象方法和数据库技术相结合，是的人们在分析和设计系统时能够以对象的观点来定义，操作数据，以达到在最大的程度上与人们客观世界的认识相一致的目的。

关系数据库（RDB）技术则是以数学中的集合代数为基础，将实体与实体之间的关系集合通过二维表的形式存储在数据库中，并以这些基本表为基础构建出查询、视图、报表等一些复杂的对象，以达到特定的需求的目的【关键词】面向对象数据库关系数据库二、正文1、db4o开源面向对象数据库(1)安装只要将jar文件加到classpath中即可。

(2)环境db4o支持多版本的JDK，除了for JDK5.0 的db4o-5.5-java5.jar外，还有for JDK1.1、1.2-1.4 的JAR包，以适应多种环境。

(3)特点无需DBA的管理，占用资源很小，很实用嵌入式应用以及Cache应用。

开源模式：与其他ODBMS不同，db4o为开源软件，通过开源社区的力量驱动开发db4o产品;原生数据库：db4o是100%原声的面向对象数据库，直接使用编程语言来操作数据库;高性能2、versant面向对象数据库(1)安装安装目录不能包含空格；安装组件必须包含Java 包，Runtime Server ，Monitoring Client组件；安装过程中要求输入license.xml的路径；可在cmd下运行oscp-i命令查看安装信息。

(2)环境支持Windows2000 sp4、XPsp2、2003及以上版本的OS。

(3)特点开发周期快：由于节约了OR映射和数据库设计，可以从开发时间和程序代码量两个方面节约了项目开发周期，从而可以为用户降低三分之一的开发周期，为用户快速推出产品，抢占市场先机奠定了良好的基础；数据库运行效率高：由于Versant对象数据库主要采用Object Navigation方式来实现数据访问，Versant不仅仅可以保存对象本身，而且还可以保存对象之间的引用关系。

基于Ontology的面向对象数据库模型研究

Research of Ontology Based Object- oriented
Database Model
作者：毛雪岷张兄利
作者机构：合肥工业大学管理学院,合肥230009
出版物刊名：情报杂志
页码： 18-21页
主题词： Ontology 面向对象数据库数据集成语义
摘要：复杂数据结构处理和异构数据集成是当前信息管理领域的关键问题,这要求信息系统必须具有语义处理能力。

面向对象数据库系统能够管理海量复杂结构的数据,但语义处理能力的不足使其难以解决异构数据的集成问题。

提出了一种基于Ontology的面向对象数据库模型,可以使对象数据库具有较强的语义处理能力,同时针对异构数据的集成,提出了一种基于相似度计算的概念关系确定算法。

面向对象的数据建模方法介绍

面向对象的数据建模方法介绍面向对象的数据建模是一种在软件开发过程中广泛应用的方法，旨在通过将现实世界的事物抽象成对象，对事物之间的关系进行建模和描述。

本文将介绍面向对象的数据建模方法，包括实体关系模型(ERM)、统一建模语言(UML)和面向对象数据库。

一、实体关系模型(ERM)实体关系模型是一种常用的数据建模方法，用于表示现实世界中各个实体之间的关系。

在ERM中，实体用矩形框表示，属性用椭圆表示，关系用菱形表示。

通过定义实体、属性和关系之间的约束和限制，可以精确描述现实世界的结构和行为。

举例来说，假设我们要建立一个图书馆管理系统，可以使用ERM来描述图书、读者和借阅等实体之间的关系。

图书可以有属性如书名、作者和出版日期，读者可以有属性如姓名、年龄和性别，而借阅则将图书和读者关联起来，表示读者借阅了某本图书。

二、统一建模语言(UML)统一建模语言是一种广泛使用的面向对象建模语言，用于描述软件系统的结构和行为。

UML提供了一系列图表，包括类图、对象图、用例图和活动图等，可以方便地对系统进行建模和分析。

在UML中，类图是最常用的图表之一，用于表示系统中的类和类之间的关系。

每个类都有属性和方法，与ERM中的实体和属性类似。

通过类图可以清晰地展示系统的结构，帮助开发人员理解和设计软件系统。

三、面向对象数据库面向对象数据库是一种将面向对象思想应用于数据库管理系统的方法。

传统的关系型数据库以表格形式存储数据，而面向对象数据库则将数据存储为对象，更贴近面向对象的思维方式。

面向对象数据库支持复杂的数据结构和对象之间的继承关系，可以更方便地进行数据操作和查询。

使用面向对象数据库可以有效地解决关系型数据库中数据表之间的复杂关系和数据冗余的问题。

总结：面向对象的数据建模方法是一种有效的软件开发方法，可以帮助开发人员更好地理解和描述现实世界中的事物和关系。

通过实体关系模型、统一建模语言和面向对象数据库等方法，可以将复杂的现实世界映射为清晰的数据结构，并支持系统的设计和开发。

面向对象空间数据模型的概念

面向对象空间数据模型的概念面向对象空间数据模型是一种用于描述和处理空间数据的概念模型。

它结合了面向对象编程的思想和空间数据的特点，使得我们可以更方便地表示、存储和操作空间数据。

在面向对象编程中，我们通过定义类和对象来描述和操作现实世界中的事物。

每个对象都有自己的属性和行为。

而在空间数据方面，我们需要考虑的是地理位置、形状和空间关系等因素。

面向对象空间数据模型通过引入几何对象和空间索引的概念来处理空间数据。

几何对象可以表示点、线、面等空间要素，而空间索引可以加速空间查询和空间关系的判断。

在面向对象空间数据模型中，我们可以定义一个地图类，每个地图对象都代表一个具体的地理地图。

地图对象可以有属性如名称、规模等，也可以有行为如显示地图、查询地图上的要素等。

我们还可以定义一个地理要素类，如点、线、面等，每个要素对象都包含自己的几何信息和属性信息。

举个例子，假设我们有一个地图对象，名为"世界地图"，它有一个方法叫做"显示地图"，当调用这个方法时，它会在屏幕上显示一个包含了各个国家边界的地图。

另外，我们还有一个地理要素类，叫做"城市"，每个城市对象都有自己的几何信息（表示城市的位置）和属性信息（表示城市的名称、人口等）。

我们可以创建一个属于"世界地图"的城市对象，比如"北京"，它的位置信息可以用经纬度表示，属性信息可以包括中文名称和人口数量。

通过面向对象空间数据模型，我们可以方便地组织和管理空间数据，进行空间查询和分析。

比如，我们可以通过调用"世界地图"对象的方法来显示地图，也可以通过查询城市对象的属性来获取城市信息。

同时，我们还可以利用空间索引来加速空间查询，比如根据城市的位置信息来快速找到某个范围内的城市。

总而言之，面向对象空间数据模型是一种用于处理空间数据的概念模型，它结合了面向对象编程的思想和空间数据的特点，使得我们可以更方便地表示、存储和操作空间数据。

科学知识图谱

科学知识图谱应用研究概述廖胜姣肖仙桃知识图谱是可视化显示知识资源及其关联的一种图形，可以绘制、挖掘、分析和显示知识间的相互关系，在组织内创造知识共享的环境，从而最终达到促进知识交流和研究深入的目的。

从20世纪50年代至今，科学知识图谱的研究已经有几十年的历史。

科学知识图谱出现之前，科学计量学家们一直努力在寻找一种同传统方法相比，具有更大的客观性、科学性、数据的有效性和高效率的新方法来研究科学学科的结构与进展。

科学知识图谱出现之后，其相关的理论与应用研究不断涌现。

本文试图从应用的角度对科学知识图谱的研究与发展状况进行一个系统的梳理，具体从应用领域、研究机构与网站以及绘图软件方面着手。

1应用研究现状从20世纪50年代开始兴起的各种文献计量方法为科学知识图谱的出现奠定了坚实的理论基础，是科学知识图谱理论与方法的“根”。

如今，知识图谱已经成为计量学领域的一个新兴分支，活跃在各个领域的研究中。

笔者将从应用领域、研究机构和软件方面阐述科学知识图谱的应用研究状况。

1.1应用领域方面科学知识图谱的应用领域很广，从科研到教学到社会问题的解决等，无不渗透。

1.1.1应用于科研领域笔者认为，知识图谱最早是在科研领域活跃起来的。

在知识图谱中，学科前沿之间的交互关系是以空间的形式展现出来的。

研究发现，科学引文与被引文之间往往有着学科内容上的联系。

通过引文聚类分析，特别是从引文间的网状关系进行研究，能够探明有关学科之间的亲缘关系和结构，划定某学科的作者集体，分析推测学科间的交叉、渗透和衍生趋势，还能对某一学科的产生背景、发展概貌、突破性成就、相互渗透和今后发展方向进行分析，从而揭示科学的动态结构和某些发展规律。

这里仅列举近些年知识图谱的一些应用研究情况。

White，McCain，Garfield，Boyack，Huang等对知识图谱的用途进行了不断的扩充，得出知识图谱的主要应用有：文献、专利的结构分析；学科动态、社会网络、领域发展分析等；Shiffrin等认为，涉及到展开的学科间科学区域的知识图谱旨在绘制图形、挖掘、分析、分类、导航以及显现知识等等。

2014年度广东省自然科学基金第二轮杰出青年项目清单

第 3 页，共 6 页
20 21 22 23
新型高级氧化体系的构建及对水中毒性污染物的控制原位研究SOFC纳米钴铁合金-陶瓷复合阳极的耐硫抗积碳机理高效超分子水凝胶基因载体的研究高容量锂离子电池用硅/碳复合负极材料的研发
方晶云杨成浩马栋唐永炳
中山大学华南理工大学暨南大学中国科学院深圳先进技术研究院
第 4 页，共 6 页
17 18 19
基于对象典型性的评论推荐技术研究对最优中短长度信道编码的研究新一代广播电视传输技术研究
蔡毅陈立杨昉
华南理工大学中山大学深圳清华大学研究院
杰出青年杰出青年杰出青年
七.管理组
1 2 3 4 面向新服务经济的服务能力与策略设计研究多尺度碳市场周期辨识与风险管理方法及应用研究基础设施投资质量：决定机制、企业影响及最优配置知识溢出与创新地理：基于新新经济地理学视角冯博朱帮助张光南陶锋华南理工大学五邑大学中山大学暨南大学杰出青年杰出青年杰出青年杰出青年
杰出青年杰出青年杰出青年杰出青年杰出青年杰出青年杰出青年杰出青年杰出青年杰出青年杰出青年杰出青年杰出青年杰出青年杰出青年杰出青年杰出青年杰出青年
第 6 页，共 6 页
第 1 页，共 6 页
8 9
孕妇对邻苯二甲酸酯类增塑剂的暴露及室内空气对其暴露的影响呼气直接质谱分析新技术在石化苯系物暴露的应用研究
郭英李雪
暨南大学暨南大学
杰出青年杰Leabharlann 青年三.农学组1 2 3 4 5 6 7 8 9 10 华南地区主要野生动物携带病毒谱调查研究一种新型微生物群体感应通讯机制与病原防控基础研究整合多维高通量测序网络数据挖掘端粒维持机制的相关基因间歇性低压低氧的长效抗抑郁作用和机制研究植物逆境胁迫的代谢应答机制及其在经济作物高质化的应用研究脊椎动物抗病毒机制的起源与演化研究基于zein胶体颗粒稳定Pickering乳液结构单元的有序组装构建功能性膜材料及构效关系研究离子通道对神经元兴奋-转录偶联的调控机制及其在自闭症中的作用水稻高产优质新基因的挖掘与应用探讨信号转导及疾病相关重要蛋白复合体的结构与功能研究沈永义邓音乐熊远妍曹雄杨子银元少春尹寿伟李勃兴王少奎刘伟汕头大学华南农业大学中山大学南方医科大学中国科学院华南植物园中山大学华南理工大学南方医科大学华南农业大学深圳北京大学香港科技大学医学中心杰出青年杰出青年杰出青年杰出青年杰出青年杰出青年杰出青年杰出青年杰出青年杰出青年

信息资源管理(马费成-赖茂生)考试重点教学提纲

信息资源管理马费成赖茂生信息：事物存在的方式和运动状态的表现形式。

信息：语法信息：仅考虑形式因素的信息。

语义信息：考虑其中内在含义因素的信息。

语用信息：考虑其中效用因素的信息。

信息资源：人类社会信息活动中积累起来的以信息为核心的各类信息活动要素（设备、人员等）的集合。

经过加工处理有序化并大量积累起来的可利用的信息的集合。

信息源：信息的来源。

文献信息源，非文献信息源。

1一次信息源，本体论信息源。

2二次信息源，感知信息源，人大脑储藏。

3 三次信息源，再生信息源。

口头、体语、文献、实物。

4四次信息源。

集约信息源，文献信息源或实物信息源的集约化。

信息势：信息源可以累积信息，在它与吸收之间形成了信息位差。

信息势的存在是信息流和信息交流活动产生的前提。

信息资源特征：一般特征：1、所为生产要素的人类需求性。

2、稀缺性。

3、使用方向的可选择性。

特殊性：1、共享性。

2、时效性。

3、生产和使用中不可分性。

4不同一性（独特性）。

5、驾驭性。

6累积性和再生性。

信息资源管理（IRM）:管理者为达到预订的目标，运用现代化的管理手段和管理方法来研究信息资源在经济活动和其他活动中利用的规律，并依据这些规律对信息资源进行组织、规划、协调、配置和控制的活动。

2章信息资源管理中的内容管理信息按加工深度分：零次信息（未成为文献前的信息存在状态）、一次信息（作者根据本人研究工作和成果撰写、发布的信息）、二次信息（对一次信息进行整理、加工、提炼和压缩得到的信息。

）、三次信息（对一次、二次和其他三次信息的基础上，加工而成的信息）。

一次、二次、三次，可以类同对文献进行划分信息采集原则：1、系统性原则（系统、全面、完整）2针对性（依任务和服务对象，有针对、有重点、有选择地采集）3及时性原则（及时、迅速地提供给它的使用者）4、可靠性（真实、准确、可靠）5方便、经济性原则6计划性原则（当前以及未来）7预见性（着眼现实，又要有超前性）信息米集策略：定向采集：在采集计划范围内，对某一科学、某一国别、某一特定信息尽可能全面系统地采集。

大数据存储教案

项目1 了解大数据教案课程名称：大数据存储课程类别：必修适用专业：大数据技术类相关专业总学时：64学时（其中理论28学时，实验36学时）总学分：4.0学分本章学时：3学时一、材料清单（1）《大数据存储》教材。

（2）配套PPT。

（3）引导性提问。

（4）探究性问题。

（5）拓展性问题。

二、教学目标与基本要求1.教学目标根据大数据发展现状，介绍大数据的概念，特征以及应用领域。

然后分析大数据的技术体系。

分别阐述了文件系统、数据库和数据仓库3种数据存储工具。

紧接着介绍了分布式数据库及其管理系统。

最后，对NoSQL数据库的优势与类型进行了说明。

2.基本要求（1）了解大数据的概念。

（2）了解大数据的特征。

（3）了解大数据的应用领域。

（4）熟悉大数据的技术体系。

（5）理解大数据的数据存储工具。

（6）理解分布式数据库及管理系统的概念。

（7）掌握NoSQL数据库的优势与类型。

三、问题1.引导性提问引导性提问需要教师根据教材内容和学生实际水平，提出问题，启发引导学生去解决问题，提问，从而达到理解、掌握知识，发展各种能力和提高思想觉悟的目的。

（1）什么是大数据？和我们平时说的数据有什么区别？（2）数据的量级有哪些？大数据的量级是怎样的？（3）与传统的数据相比，大数据有哪些特点？（4）大数据技术可以用到哪些领域？（5）数据的处理流程是怎样的？每个流程可能会用到哪些技术？2.探究性问题探究性问题需要教师深入钻研教材的基础上精心设计，提问的角度或者在引导性提问的基础上，从重点、难点问题切入，进行插入式提问。

或者是对引导式提问中尚未涉及但在课文中又是重要的问题加以设问。

（1）数据如何存储？（2）数据库中都能存储哪类数据？（3）当一台服务器的存储空间不够时，如何进行处理？（4）与传统数据库相比，NoSQL数据库的特点是怎样的？3.拓展性问题拓展性问题需要教师深刻理解教材的意义，学生的学习动态后，根据学生学习层次，提出切实可行的关乎实际的可操作问题。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1）根据数据源的环境属性、基本属性、行为属性、内容属性等抽取数据源的数据特征，并与特征库进行匹配，如特征库中没有该数据特征，那么就加入该新数据特征；
2）根据特征库中相近的特征进行聚集虚拟出相对应的类，对各虚拟出来的类进行相似度比较，把相似度大的部分又虚拟出父类；
3）由虚拟类生成若干个虚拟对象，然后把数据源按着一定的规则进行切分成数据元，然后把与虚拟对象的关联性大的数据元作为该对象的成员，依附到该虚拟对象 .
化为结构化数据存储 . 具体模型框架如图 2 所示 .
分类规则库
应用数据
分类器
结构化数据
存储
数据库群
非结构化数据
半结构化数据
模式抽取映射
特征抽取
虚拟对象
虚拟
创建
特征库
虚拟类
虚拟对象
虚拟对象
元数据服务器
图 2 面向对象的大数据存储模型 Fig.2 Big data storage model based on object-oriented
1 大数据存储现状分析
大数据具有 4V 特征，即数据容量大、数据结构复杂、数据实时性要求高、数据价值密度相对较低，目前存
收稿日期：2014-07-20 基金项目：广东省教育研究院课题资助（GDJY-2014-Bb231）作者简介：廖海生（1978-），男，江西樟树人，讲师，硕士，主要研究方向为软件技术、计算机网络技术和网络存储技术等 .
2 面向对象存储模型思想
日益增长的海量数据对存储技术的要求越来越高，传统的存储系统已力不从心，因此提出一种新的存储模型——面向对象的存储思想 . 面向对象存储思想是对传统对象关系数据库的扩展，是由新加坡学者 Ling Tok Wang 等人提出，最初用于解决图书管理、工程项目管理等半结构化数据管理 .
第 32 卷第 12 期 2014 年 12 月
文章编号：1004-3918（2014）12-2505-06
河南科学 HENAN SCIENCE
DOI：10.13537/j.issn.1004-3918.2014.12.020
Vol.32 No.12 Dec. 2014
基于面向对象的大数据存储模型研究
最近几年由于物联网，互联网的应用，通过电脑、传感器等生成数据量呈几何级数增长，大数据逐渐形成，大数据在电信、金融、安全、医疗、政务以及个人应用等领域都将带来可观的价值，已经成为一种新的经济资产，当前美国、英国、加拿大、新西兰、德国、法国、日本等都在积极推动和布局大数据战略，大数据将成为国家、企业的制高点 . 但随着大数据的出现，如何高效地存储大数据成面临的首要问题 . 现有数据存储模式和存储能力已远远无法适应大数据的应用需求 . 因此研究大数据存储方法，构建高效的大数据存储模型是分析大数据、应用大数据的前提 .
结构化数据存储主要采用关系数据库，关系数据库是严格的一致模型，按照关系规则对数据进行分析、查询等处理 . 关系数据库具有查询语言操作简单、强大数据分析能力和较高的程序与数据独立性等特点被广泛使用 . 但是面向结构化数据存储的关系型数据库已经不能满足当今大数据的需求了，大数据的“大”不仅仅体现在数据的海量性，还在于其数据类型的复杂性 . 视频、游戏、文档、报表、物联网数据等，既有结构化的数据又有半结构化和非结构化的数据，而且随着网络应用的不断发展，半结构化和非结构化数据将越来越多，渐渐超出了传统关系型数据库的处理能力，传统的数据库不能有效存储视频、音频等非结构化和半结构化的数据 . 1.2 非结构化数据存储
面向对象存储概念一经提出，便得到了存储界的广泛关注，各大研究机构和存储系统供应商纷纷研究和实现了各自的对象存储系统 . 为了应用大数据，目前有些设计人员将大数据以文件存储在文件系统中，但这种方式数据管理不方便，并存在数据不一致性和安全性问题 . 另有些设计人员将这些数据存储在传统的数据库表的大对象字段中，这种方式存在数据查询和读写性能问题 . 不管是哪种存储方法其存储系统中的对象是数据加上一组描述此对象各方面属性的一个组合，是先有对象后有属性，对象是一个真实实体，因此与其相关的属性也只能是局限该实体的属性，反映该对象特征的数据 . 而现实中各对象可能有很多相同的属性，采用传统的对象存储思想必将存在巨大数据重复存储，即在一对象中存储了，在另一对象中也存储了，存在极大的冗余性 .
Liao Haisheng
（Guangdong Institute of Science and Technology，Zhuhai 519090，Guangdong China）
Abstract： Along with the continuous development of the internet of things and cloud computing application，the storage and management of massive data become more and more important. Traditional data storage methods can’t meet the needs of the big data storage，and the industry provides various kinds of big data storage models. The paper compares and analyzes various storage models of big data，and provides an object oriented storage idea based on data character virtual types and object. Then a big data storage model is designed，and testing and analysis is made to the model classification key model and non-structured data storage performance. The testing result disclosed that the model classification method has less mistakes，and the non-structured data storage performance is higher. The model has good validation and availability and provides direction for big data high efficient storage and intelligent management research. Key words：big data；object-oriented；non-structured data；semi-structured data
- 2506 -
河南科学
第 32 卷第 12 期
储系统无法满足大数据 4V 特征的存储需求 . 大数据其实包括结构化、半结构化、非结构化数据，因此要实现大数据的存储就必须能高效的存储这 3 种类型的数据，目前国内外对结构化、半结构数据存储模型研究比较成熟，非结构化数据存储模型也有一定的研究 . 1.1 结构化数据存储模型
1）分类：根据规则库对结构化、半结构化、非机构化数据进行分类，规则库规则通过自动学习来获取，一般检测数据的相关属性，如果规则库中没有该数据属性对应的规则，则添加该规则 . 检测的顺序一般是先检
- 2508 -
河南科学
第 32 卷第 12 期
测数据文件的后缀名，再检测数据内容结构，如表、图、树，最后才检测数据特征 .
该模型的分类关键模块与非结构化数据存储性能进行了测试与分析，实验结果表明该模型分类模块误差较小，读
写效率较高，而且随着数据的增大，非结构化存储性能保持稳定 .
关键词：大数据；面向对象存储；非结构化数据；半结构化数据
中图分类号：TP 302.2
文献标识码：A
Research of Big Data Storage Model Based on Object-oriented
本文提出的面向对象存储思想是先有数据后有对象，即先抽取数据的相关特征，构建虚拟类，随着特征的增加，虚拟类属性增加到一定阀值，就自动抽取虚拟类中紧密度高的特征构建父类，所有类存入虚拟类库
2014 年 12 月
廖海生：基于面向对象的大数据存储模型研究
- 2507 -
中，之后数据与虚拟类库匹配选举相应的类创建数据对象，然后把每一个对象看作一张表实现行存储 . 如图 1 所示 .
1998 年 Carlo Strozzi 首次提出 NoSQL 概念，随着大数据的兴起，2009 年 Eric Evans 对 NoSQL 进行重新认识，提出 NoSQL 是一种较好的非关系数据库存储模型，NoSQL 才被业界知晓，在 Web 领域广泛使用 .
NoSQL 具有以下特点：①数据存储模式灵活，可存储海量的复杂数据；②NoSQL 是一种分布式存储方案，适合大数据处理的实时性需求；③NoSQL 具有高效的海量数据处理方式 . NoSQL 的特点正好满足大数据 4V 特征，因此各类 NoSQL 数据库如雨后春笋般涌现，目前 NoSQL 数据库有基于文档式存储的有 MongoDB 和 CouchDB，基于 Key-Value 存储的有 BerkerlyDB 和 Redis，基于图像存储的有 Infinite Graph 和 Neo4j，基于对象存储的有 db4o 等 .
廖海生
（广东科学技术职业学院，广东珠海 519090）
摘要：随着大数据存储需求的不断扩大，网络存储技术面临如何存储并管理海量数据的问题 . 通过对现有各种
大数据存储模型进行了对比分析，针对现有存储模型存储的局限性和大数据存储的特点，提出了一种基于数据特
征的面向对象存储思想 . 采用虚拟类技术设计并实现了一种基于面向对象的大数据存储模型 . 在仿真环境中，对