非结构化数据

非结构化数据来源极为广泛，在省惩防体系综合信息平台数据环境中，包括文档、电子表格、演示文稿、电子邮件、音频和视频文件、即时消息、扫描的文档等。

由于文件系统操作简便性能较高，因此多采用文件系统来存储非结构化数据，而将关系型数据存储在数据库中。然而在实际业务需求中，两种数据类型往往相伴而生，例如档案管理系统。两种数据类型的分开管理损害了安全性、健壮性以及可管理性，具体存在以下弊端：互相孤立的安全审计模型；数据的更改无法保持原子性、备份和恢复需要分别进行；很难实现涉及到关系型数据和文件数据的综合查询；空间管理复杂；需要不同的接口和协议。

为了消除文件系统的弊端，在关系数据库中多采用二进制大对象（LOB）实现存储非结构化数据，然而LOB一直存在着性能瓶颈。将非结构化数据存储在数据库中后，管理和检索非结构化数据（例如多媒体应用程序）需要额外的处理能力和内存才能获得与文件系统等同的性能。

综合以上原因，推荐使用Oracle Database中的SecureFile Lobs来存储非结构化数据。自Oracle Database 11g开始，增加了SecureFile Lobs方式来解决非结构化数据存储，SecureFile支持检索非结构化数据，使得访问数据库内的文件与本地文件系统中的文件一样快，甚至超过了后者，同时还保持了与数据库中数据的事务一致性。SecureFiles 是一个重要的新体系结构，它既具备所有最先进文件系统功能，又具备高级数据库功能。其特性包括全新的磁盘格式、空间和内存管理技术，它可显著提升 LOB 性能并优化存储。

（1）提高了读写性能：SecureFiles 在数据库处理文件数据的方式上采用了全新的范例，对于基本查询和插入操作可提供类似文件系统的性能。经过 SecureFiles 优化的算法速度最快可达LOB的10倍。

（2）统一的事务管理：非结构化数据可以是数据库事务的一部分，因此，免去了应用程序在保证原子性、读取一致性以及其他备份和恢复过程的复杂性。

（3）LOB迁移功能：通过“联机表重新定义（OnlineTableRedefinition）”可以轻松将LOB转换为SecureFile。

（4）透明数据加密（TDE）：支持表内所有非结构化数据列的自动密钥管理，并可以对数据、备份和重做/撤消日志文件进行透明加密/解密。应用程序无需更改即可通过SecureFilesLOB透明地利用TDE功能。

（5）优化的文件存储空间管理：提供去重和压缩功能，并且对于应用程序完全透明。去重：多份相同的SecureFile拷贝只存储一次，从而节省了存储空间，复制操作性能提升明显，尤其适用于档案管理；压缩：可自动判断数据是否可以压缩，或压缩是否有益。对于一般性文件能实现2到3倍的压缩率，通过减少IO、BufferCache的需求及加密带来的开销来改善性能。

（6）可以通过数据库客户端或文件系统客户端来访问：数据库客户端（如PL/SQL）可以使用扩展后的LOB接口来访问；文件系统客户端（如FTP、WebDav）可以使用由Content DB实现的文件系统协议来访问。

（7）可以将非结构化数据和关系型数据整合起来，使用统一的安全模型、数据视图和数据管理。使用SSL加密，通过DMZ/防火墙访问文件，不需要开新端口；为基于内容的访问审查提供细粒度的审计；标签安全有不同的访问限制策略：包括级别（如绝密）、部门（如秘书处）；统一的数据存储。

论非结构化数据库的应用

论非结构化数据库的应用谭鑫（1101400114）随着网络技术和网络应用技术的飞快发展，完全基于Internet应用的非结构化数据库将成为继层次数据库、关系数据库之后的又一重点、热点技术。关系型数据库由于其严格的表格结构使其对图像、音频、视频等数据的处理存在着缺陷。这种无法用数字或统一的结构表示的信息，即通常意义上的多媒体信息统称为非结构化数据。随着网络技术的不断发展，在数据库应用领域中，非结构化数据的数据量日趋增大，非结构化数据库管理系统便应运而生。非结构化数据库，即其字段长度可变，并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库。在其底层存储机制的变革基础上，采用先进的倒排档索引技术，从而实现了对于海量文献信息的快速全文检索的功能，并同时支持多种字段限定检索。对于多媒体信息的存储和管理，非结构化数据库系统采用外部文件方式，摈弃了传统关系型数据库采用二进制字段存储的方式，实现了对于图形、声音等多媒体信息的高效管理。其高效性在图书馆信息资源中具体表现在：（1）非结构化数据库系统实现了对于变长字段、重复字段和子字段的定义、存储和管理，并且记录的数目、长度，字段数目与长度以及字段可重复次数均可不受限制，允许数据项具有多值性和可包含子字段，充分满足了图书馆建立文献数据库的特殊管理要求。（2）图书馆资源载体类型较多，有纸制的载体，也有磁、光、电介质的载体。馆藏电子信息资源不仅包括TxT、DOC、EXCEL、PPT、PDF等流行的数据文件类型，而且还存有大量的图像、音频、视频等数据信息。图书馆资源既包括本地资源，又存在异地资源，既有国内资源，又存在国外资源，不同国别，不同地域的文献资料在数据著录格式上存在着差别。非结构化数据库采用面向对象技术不仅支持国际标准和国内标准格式，而且支持最新的SGML和XML格式，覆盖了多类型文档应用领域内几乎所有的文献数据类型。具有可扩展性，可以与其他元数据单元连接使用，不仅适合中文全文检索系统平台的应用，同时也符合国际数字图书馆标准化的发展趋势，便于与国际交流与接轨，这对于图书馆数据库标准化和数据交换与共享，起着极其重要的作用。（3）在网络应用中，如何从浩瀚的信息海洋中查找到所需的信息，如何保证所查询信息的全面性和准确性，也是一个我们面临的问题。非结构化网络数据库系统通过其独特的索引技术和基于布尔检索表达式的查询检索算法，解决了基于字段级和数据库级的全文检索问题，用户可以针对数据库中特定的字段也可针对整个数据库进行全文检索，从而从数据库中检索出感兴趣的内容。非结构化数据库内嵌全文检索引擎，采用倒排档索引技术，不仅能够对整个字段进行查询，而且可以提供子字段、关键词、自由词、标引词、位置词和全文任意词的单项及组配检索。而且速度也非常快，一般不受文献量的影响，满足海量数据检索的需要。同时，非结构化数据库支持外挂文件的全文检索，其独特的外部文件支持能力使图书馆能轻松实现二次文献挂接全文的功能。（4）非结构化数据库采用自然语言处理和人工智能技术，提供基于内容的检索和ANY词检索方式，并在检索中实现对于特定类目相关词的利用，大大提高了系统的查全率。同时非结构化数据库支持的禁用词，可以过滤掉一些没有检索意义的英文虚词，以提高查准率。作为网络应用，由于需要面对大量的用户群和

Egg非结构化数据库软件-设计说明书

产品概述产品介绍 Egg是一个高性能、可扩展、并支持分布式存贮的非结构化数据库，同时也具备了部分非关系型数据库具备的结构化查询功能。该类型的数据库被广泛应用于搜索引擎、海量信息检索系统、音频视频管理系统等领域，成为这些领域中必不可少的一个组成部分。Egg是一个完全由C编写的，成熟的软件，并且是埃帕Cooling搜索引擎软件、Cooling云桌面平台软件、Cooling云输入法的重要组成部分，已经运用到了互联网、信息检索、数据挖掘、虚拟化等多个领域中。行业背景随着互联网的不断发展，搜索、云计算、WEB 2.0等全新的应用模式不断涌现出来。这些新应用都有着一些非常显著的特点，如：信息量巨大、信息结构化程度低、信息更新频度高、信息增长幅度大，并发访问频繁等。传统的关系型数据库，虽然能够胜任企业级别的信息管理，但在处理互联网级别的应用时，往往无法满足于以上的特点，暴露出了很多问题。海量数据的高效存贮与访问要求海量数据应用中最早，最典型的应用是搜索引擎；最有发展的是云计算；最流行的是WEB2.0中的SNS社区。据CNNIC统计，截止2009年底，仅中国的网页数量就达到了336亿，较之2008年底，增长幅度接近100%。搜索引擎不光要存贮这些网页的基本信息，同时又要解决平均每天几千万网页的增长量。云计算、需要将原先用户端的应用、服务、数据移到服务端，利用服务端的计算、存贮、带宽、管理优势，提供相比传统桌面应用更有竞争力的服务方式。WEB 2.0中最主流的SNS社区，每天都要产生大量的用户动态信息，以Facebook为例，每月用户动态记录就达到2.5亿条；另如一些Web 门户，都已经达到上亿帐户数量。所有的此类应用中的存贮要求，都已经超过了关系型数据库可以容纳的范围。Google是最早采用了廉价硬件

非结构化数据管理系统

非结构化数据管理系统 1 范围本标准规定了非结构化数据管理系统的功能性要求和质量要求。本标准适用于非结构化数据管理系统产品的研制、开发和测试。 2 符合性对于非结构化数据管理系统是否符合本标准的规定如下： a)非结构化数据管理系统若满足本标准基本要求中的所有要求，则称其满足本标准的基本要求； b)非结构化数据管理系统在满足所有基本要求的前提下，若满足某部分扩展要求，则称其满足本标准的基本要求和该部分扩展要求； c)非结构化数据管理系统若满足本标准基本要求和扩展要求中的所有要求，则称其满足本标准的所有要求。 3 规范性引用文件下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件，仅注日期的版本适用于本文件。凡是不注日期的引用文件，其最新版本（包括所有的修改单）适用于本文件。 GB 18030—2005 信息技术中文编码字符集 GB/T AAAAA-AAAA 非结构化数据访问接口规范 4 术语和定义下列术语和定义适用于本文件。 4.1 非结构化数据unstructured data 没有明确结构约束的数据，如文本、图像、音频、视频等。 4.2 非结构化数据管理系统unstructured data management system 对非结构化数据进行管理、操作的大型基础软件，提供非结构化数据存储、特征抽取、索引、查询等管理功能。 5 缩略语下列缩略语适用于本文件。 IDF：逆向文件频率 (Inverse Document Frequency) MFCC：梅尔频率倒谱系数（Mel Frequency Cepstrum Coefficient）

PB：千万亿字节（Peta Byte） SIFT：尺度不变特征转换（Scale-invariant Feature Transform） TF：词频 (Term Frequency) 6 功能性要求 6.1 总体要求非结构化数据管理系统的总体要求如下： a)应包括存储与计算设施、存储管理、特征抽取、索引管理、查询处理、访问接口、管理工具七个基本组成部分； b)宜包括转换加载、分析挖掘、可视展现三个扩展组成部分。 6.2 存储与计算设施 6.2.1 基本要求存储与计算设施基本要求如下： a)应支持磁盘、磁盘阵列、内存存储、键值存储、关系型存储、分布式文件系统等一种或多种存储设施； b)应支持单机、并行计算集群、分布式计算集群等一种或多种计算设施。 6.2.2 扩展要求无。 6.3 存储管理 6.3.1 基本要求存储管理基本要求如下： a)应提供涵盖原始数据、基本属性、底层特征、语义特征的概念层存储建模功能； b)应提供逻辑层的存储建模功能； c)支持整型、浮点型、布尔型、字符串、日期、日期时间、二进制块等基本数据类型； d)支持向量、矩阵、关联等数据类型； e)应支持根据建好的逻辑层存储模型创建存储实例； f)应支持在创建好的存储实例上插入、修改、删除非结构化数据； g)应支持删除存储实例； h)应支持非结构化数据操作的原子性。 6.3.2 扩展要求存储管理扩展要求如下： a)应支持全局事务的定义并保证事务的原子性、一致性、隔离性和持久性； b)应支持数据类型的多值结构和层次结构； c)应支持在不同的存储设施上创建存储实例并实现自动映射； d)应支持PB级数据存储。 6.4 特征抽取

Oracle非结构化数据解决方案

Oracle数据库11g管理非结构化数据 (2) 一、引言 (2) 二、在ORACLE 中管理非结构化数据的优势 (3) 三、打破了原来处理非结构化数据的“性能障碍” (4) 3.1 Oracle SecureFiles (4) 3.2 SecureFiles 中的存储优化 (5) 四、专用数据类型和数据结构 (6) 4.1 Oracle XML DB (6) 4.2 Oracle Text (7) 4.3 Oracle Spatial (8) 4.4 RDF、OWL 和语义数据库管理 (9) 4.5 Oracle Multimedia (9) 4.6 Oracle DICOM 医学内容管理 (9) 五结论 (10)

Oracle数据库11g管理非结构化数据一、引言公司、企业以及其他机构使用的绝大部分信息都可归类为非结构化数据。非结构化数据是计算机或人生成的信息，其中的数据并不一定遵循标准的数据结构（如模式定义规范的行和列），若没有人或计算机的翻译，则很难理解这些数据。常见的非结构化数据有文档、多媒体内容、地图和地理信息、人造卫星和医学影像，还有Web 内容，如HTML。根据数据的创建方式和使用方式的不同，非结构化数据的管理方法大不相同。 1.大量数据分布于桌面办公系统（如文档、电子表格和演示文稿）、专门的工作站和设备（如地理空间分析系统和医学捕获和分析系统）上。 2.政府、学术界和企业中数TB 的文档存档和数字库。 3.生命科学和制药研究中使用的影像数据银行和库。 4.公共部门、国防、电信、公用事业和能源地理空间数据仓库应用程序。 5.集成的运营系统，包括零售、保险、卫生保健、政府和公共安全系统中的业务或健康记录、位置和项目数据以及相关音频、视频和图像信息。 6.学术、制药以及智能研究和发现等应用领域中使用的语义数据（三元组）。自数据库管理系统引入后，数据库技术就一直用于解决管理大量非结构化数据时所遇到的特有问题。通常通过“基于指针的”方法使用数据库对存储在文件中的文档、影像和媒体内容进行编目和引用。为了在数据库表内存储非结构化数据，二进制大对象（或简称为BLOB）作为容器使用已经数十年了。除了简单的BLOB 外，多年以来，Oracle 数据库一直通过运算符合并智能数据类型和优化数据结构，以分析和操作XML 文档、多媒体内容、文本和地理空间信息。由于有了Oracle 数据库11g，Oracle 再次在非结构化数据管理领域开辟出一片新天地：大幅提升了通过数据库管理系统原生支持的非结构化数据的性能、安全性以及类型。

非结构化存储方案

非结构化数据存储方案一、存储类型体系： 1.1 存储类型体系结构图 1.2 存储类型体系描述（1）块存储：将存储区域划分为固定大小的小块，是传统裸存设备的存储空间对外暴露方式。块存储系统将大量磁盘设备通过SCSI/SAS或FC SAN与存储服务器连接，服务器直接通过SCSI/SAS或FC协议控制和访问数据。主要包括DAS和SAN两种存储方式。对比如下图：

（2）分布式文件存储：文件存储以标准文件系统接口形式向应用系统提供海量非结构化数据存储空间。分布式文件系统把分布在局域网内各个计算机上的共享文件夹集合成一个虚拟共享文件夹，将整个分布式文件资源以统一的视图呈现给用户。它对用户和应用程序屏蔽各个节点计算机底层文件系统的差异，提供用户方便的管理资源的手段和统一的访问接口。主要包括NAS 和HDFS 两种存储方式。 a) 网络附加存储NAS 结构如图：

b)HDFS分布式文件系统存储结构如图：（3）对象存储：对象存储为海量非结构化数据提供Key-Value这种通过键-值查找数据文件的存储模式，提供了基于对象的访问接口，有效地合并了NAS和SAN的存储结构优势，通过高层次的抽象具有NAS的跨平台共享数据优点，支持直接访问具有SAN的高性能和交换网络结构的可伸缩性。主要包括swift和ceph两种实现形式。 a)Swift，OpenStack Object Storage（Swift）是OpenStack项目的子项目之一，被称为对象存储。它构建在比较便宜的标准硬件存储基础设施之上，无需采用RAID（磁盘冗余阵列），通过在软件层面引入一致性散列技术和数据冗余性，牺牲一定程度的数据一致性来达到高可用性和可伸缩性，支持多租户模式、容器和对象读写操作，适合解决非结构化数据存储问题。 b)ceph，Linux下PB级分布式文件系统，可轻松扩展PB容量，提供了对多种工作负载的高性能和高可靠性。它大致分为四部分：客户端（数据用户），元数据服务器（缓存和同步分布式元数据），一个对象存储集群（包括数据和元数据），以及最后的集群监视器（执行监视功能）。

数据库技术发展的新方向-非结构化数据

数据库技术发展的新方向——非机构化数据 1 什么是非结构化数据库在信息社会，所有信息大体上可以分为两类:一类信息能够用数据或统一的结构加以表示，我们称之为结构化数据，如数字、符号;另一类信息根本无法用数字或者统一的结构表示，如文本、图像、声音乃至网页等，我们称之为非结构化数据。非结构化数据包括结构化数据，但又不止是结构化数据;结构化数据属于非结向化数据，是非结构化数据的特例。所谓非结构化数据库，是指数据库的变长记录由若干不可重复和可重复的字段组成，而每个字段又可由若干不可重复和可重复的子字段组成。简单的说，非结构化数据库就是字段数和字段长度可变的数据库。 2 为什么需要非结构化数据库传统关系数据库，通过引入数学领域的关系模型及关系代数和关系演算，经过几十年的应用和发展，奠定了自己的优势。但随着网络的发展，关系数据库越来越显示出不足的一面。到了20世纪90年代，当关系数据库还满足于用户连接到大型主机上的数据库进行联机检索时，因特网的出现已经可以把超文本文件传送到用户的浏览器里了。起初，WWW只支持较简单的文挡，随着应用需求的不断提高和技术的发展，它不仅可以支持文字、图形、图像、声音等多媒体信息，还可以支持一些较为复杂的对象，比如电子表棉对象。但随着数据量的增大，显然只靠静态页面就捉襟见肘了。让页面动起来的想法由此应运而生，这时迫切需要数据库在动态页面中扮演主角。而此前，关系数据库要么限于桌面，用文件方式的共享来实现局域网内的使用;要么是使用各种关系数据库厂商开发的专用客户端软件和工具。尽管ODBC，JDBC，OLE DB等解决了不同数据库之间的接口，但是我们可以说关系数据库从设计之初并没有也不可能考虑到以HTTP为基础、HTML为文件格式的因特网的需求.只是在因特网出现后才作出相应的调整，因此关系数据库在基于因特网应用时由于结构模型等原因的限制，不能与因特网完全融合，需在因特网与数据库之间加人大量的中间件，从而在无形中加大了数据库基于网络应用的难度。同时，由于关系数据库从一开始就没有考虑网络时代的应用需求，因而对于网络环境下WWW 应用，如各种非结构化文挡信息、多媒体信息以及全文检索需求显得有些力不从心。虽然后来关系数据库对于这些需求作出了一些适应性调整，如增加数据库的面向对象成分以增加处理多种复杂数据类型的能力，增加各种中间件以扩展基于WWW应用能力,但对于网络环境下WWW应用不可或缺的检索效率、全文检索能力等却无法解决。关系数据库的基于中间件的解决方案又给WWW应用带来了新的网络瓶颈，应用服务器端由于与数据库频繁交互，因其本身的效率和数据库检索的效率造成WWW应用在服务器端的阻塞。非结构化数据库就是针对关系数据库模型过于简单，不便表达复杂的嵌套需要以及支持数据类型有限等局限，从数据模型入手而提出的全面基于因特网应用的新型数据库理论。非结构化数据库主要是针对非结构化数据应运而生的，与目前流行的关系数据库相比，其最大区别在于它突破了关系数据库结构定义不易改变和数据定长的限制，支持重复字段、子字段以及变长字段并实现了对变长数据和重复字段进行处理和数据项的变长存储管理，在处理连续信息(包括全文信息)

非结构化数据管理：ERP力不从心 ECM接力

对于国内相当多的企业来说，ECM这个概念还比较陌生，但提起ERP，很多人都耳熟能详。事实上，ERP是以数据库管理为核心的，而ECM是以非结构化数据管理为核心。凯德云M-Files是由美国M-Files公司开发的软件产品，主要用于企业内容管理(ECM)、文档管理(EDM)、质量管理、知识管理、项目协同。调查显示，企业中80%的数据是以非结构化的形式存在的，例如电子邮件、报表、办公文档、扫描文件、网页等，而这些非结构化数据往往散落在企业的各种应用系统中，无法得到统一的管理，更惶谈从中挖掘出价值。 ERP与ECM的关联在廖强(EMC中国区副总裁、内容管理及归档事业部大中华区总经理)看来，现在非结构化数据的管理需求产生了，实际上就是一个很自然的过程，跟以前ERP比较的话，内容管理与ERP同等重要，内容管理是管着80%的非结构化信息，ERP管理着20%的结构化信息。其次从复杂性来讲，因为ERP牵涉了管理的方方面面，内容管理却没有那么复杂。从投资来讲，大家都在讲收益率，企业现在实际上逐渐地认识到内容管理的重要性。这几年内容管理逐渐地跟ERP、CRM，包括银行的核心系统，包括电信的计费系统等成为企业信息化的新重点。也就是说，随着内容管理逐渐地深入客户的核心业务，对企业的工作效率、收益、信息安全等都将得到提高。 ECM已进入第三代 IDC在2008年上半年针对中国企业所做的一项调查显示，在受调查的434个最终用户中，接近60%的用户表示有计划投资内容管理软件。而在2007年的类似调查中，这一比例还只有30%多。这一结果表示，内容管理在组织中的优先级大大提高。IDC分析认为，用户渴望投资内容管理解决方案，主要有两方面的原因：一是日益增长的法规要求;二是通过内容管理功能更好地优化、自动化纸质业务流程。廖强分析说，综合当今内容管理市场，内容管理解决方案可以分为三代。第一代是小型供应商提供单点解决方案，主要用于解决零碎的业务问题，例如光盘系统管理、记录管理、Web内容管理、数字资产管理、工作流/BPM管理等。第一代内容管理的特点是有众多小型技术公司，每个公司都使用专门构建的应用程序解决一些零碎的业务问题。第二代是中型供应商在单点解决方案的基础上，提供较为全面的内容管理功能套件。第二代内容管理是由整合驱动的，在这一阶段，中型公司纷纷展开收购，并开始构建成套的内容管理应用程序。这是一个从单点产品到内容管理套件的变化过程，许多公司都是从点入手，而逐渐架构起较为完善的内容管理解决方案。但在这个过程中，内容管理底层平台的健壮性和面向应用的灵活性及可扩展性往往被忽视。前两代内容管理带来的问题是：各个系统之间往往会形成信息孤岛的现象。而且，当应用出现变化时，需要对各个单点产品逐一修改，不能快速满足应用变化速度。在第三代内容管理中，内容管理正逐渐成为企业信息基础架构的一部分;企业对内容管理的需求，已并不满足于应用某些点的产品去实现特定业务的管理，而是需要一个高性能、高可扩展性、能支持企业业务快速发展并能满足企业业务变化需求的内容管理平台。开放性成长任何一个软件公司的理想是要做到能够尽量满足客户的最终需要，但这很难实现，主要原因是需求的复杂度，很难有一个企业所提供的软件产品能够适应各式各样的不同需求。廖强介绍说，Documentum平台一直以来就不是自行运转，Documentum平台一定跟结构化结合在一起。比如在国内某银行的应用，像有一套贷款审批，因为它要审核你的原始的资质，你的房产证等，这些都需要EPR系统与Documentum。从我们整个的发展方向来看，ECM是关注着技术性、扩展性、高性能，可对接性，希望把自己的开发能力提供给整个社

MongoDB非结构化数据解决方案

随着WEB2.0 的应用和发展，一些新型互联网应用，如社交网络、博客(Blog)、个人视频分享、个性化信息租用服务等应用不断涌入人们眼帘，并逐渐成为人们生活的一部分。云计算为这些新型应用提供了计算手段，云存储为这些应用提供了存储方案。目前，数以亿计的网络用户通过个人电脑、智能手机等终端访问Internet，据中国互联网络信息中心(CNNIC) 在2012 年1 月16 日发布的中国互联网发展状况统计报告中显示，截止2011 年12月底，中国网民突破5 亿，其中手机网民达3.56亿，且同前期相比呈不断增长趋势。网络用户在浏览信息的同时，产生了海量的格式多样的新数据，在这些数据中，诸如文档、音乐、图片、视频一类的非结构化信息占比相当大。面临用户端的日益膨胀和海量数据的持续产生，尽管高性能处理器已基本满足了运算需求，却对无限大的存储空间和无限大的网络带宽需求力不从心。因此，在信息系统设计中，计算设计已经不再是应用的中心，而数据的妥善存储和管理成为系统设计的焦点。 1 非结构化数据存储发展进程当前，互联网中的数据包括非结构化数据和半结构化的数据，非结构化信息又以二进制文件为主。制约海量非结构化数据存储的关键问题是，数据中心与异构终端间的数据共享程度不够强，存储系统的高并发读写能力欠缺，存储系统的自由扩展比较困难。针对移动计算的海量存储需求，深入研究非结构化数据的存储发展过程，这有助于开发出具有高共享、高吞吐和高并发能力的网络存储系统。传统存储技术中，文件系统是可持久存储和管理数据的普遍手段。文件的管理方式主要有单机文件系统、网络文件系统、分布式文件系统和高通量文件系统等。在单机文件系统中，十亿兆位字节文件系统(ZFS, Zettabyte File System) 是应用较成功的典范，该系统由Sun 公司于2005 年11 月正式发布，是针对ZB 级数据存储需求而设计的128 位UNIX 文件系统，ZFS 引入“存储池”的概念管理物理存储空间，采用写时复制事务模型来维护数据一致性。由于该系统不能跨越数据的物理位置，同时没有妥善地解决数据传输通道的瓶颈问题，且系统复杂度较高，最终没有得到推广。网络文件系统(NFS, Network File System) 的出现，使得跨平台的非结构化数据共享成为可

数据库技术发展的新方向_非结构化数据库

●李　慧(武汉大学信息管理学院　湖北　430072) 颜显森(北京国信贝斯软件有限公司　北京　100053) 数据库技术发展的新方向———非结构化数据库 Abstract:With the development of Internet,many disadvantages of the traditional relational database have been dis2 covered.Under such circumstances,the non2structure database comes into being.This paper mainly discusses the defini2 tion,background,characteristics and advantages of the non2structure database. K eyw ords:database technology;data structure/Internet;full text searching 1　什么是非结构化数据库在信息社会,所有信息大体上可以分为两类:一类信息能够用数据或统一的结构加以表示,我们称之为结构化数据,如数字、符号;另一类信息根本无法用数字或者统一的结构表示,如文本、图像、声音乃至网页等,我们称之为非结构化数据。非结构化数据包括结构化数据,但又不止是结构化数据;结构化数据属于非结构化数据,是非结构化数据的特例。所谓非结构化数据库,是指数据库的变长记录由若干不可重复和可重复的字段组成,而每个字段又可由若干不可重复和可重复的子字段组成。简单的说,非结构化数据库就是字段数和字段长度可变的数据库。 2　为什么需要非结构化数据库传统关系数据库,通过引入数学领域的关系模型及关系代数和关系演算,经过几十年的应用和发展,奠定了自己的优势。但随着网络的发展,关系数据库越来越显示出不足的一面。到了20世纪90年代,当关系数据库还满足于用户连接到大型主机上的数据库进行联机检索时,因特网的出现已经可以把超文本文件传送到用户的浏览器里了。起初,WWW只支持较简单的文档,随着应用需求的不断提高和技术的发展,它不仅可以支持文字、图形、图像、声音等多媒体信息,还可以支持一些较为复杂的对象,比如电子表格对象。但随着数据量的增大,显然只靠静态页面就捉襟见肘了。让页面动起来的想法由此应运而生,这时迫切需要数据库在动态页面中扮演主角。而此前,关系数据库要么限于桌面,用文件方式的共享来实现局域网内的使用;要么是使用各种关系数据库厂商开发的专用客户端软件和工具。尽管ODBC,JDBC, O LE DB等解决了不同数据库之间的接口,但是我们可以说关系数据库从设计之初并没有也不可能考虑到以HTTP 为基础、HT M L为文件格式的因特网的需求,只是在因特网出现后才作出相应的调整,因此关系数据库在基于因特网应用时由于结构模型等原因的限制,不能与因特网完全融合,需在因特网与数据库之间加入大量的中间件,从而在无形中加大了数据库基于网络应用的难度。同时,由于关系数据库从一开始就没有考虑网络时代的应用需求,因而对于网络环境下WWW应用,如各种非结构化文档信息、多媒体信息以及全文检索需求显得有些力不从心。虽然后来关系数据库对于这些需求作出了一些适应性调整,如增加数据库的面向对象成分以增加处理多种复杂数据类型的能力,增加各种中间件以扩展基于WWW应用能力,但对于网络环境下WWW应用不可或缺的检索效率、全文检索能力等却无法解决。关系数据库的基于中间件的解决方案又给WWW应用带来了新的网络瓶颈,应用服务器端由于与数据库频繁交互,因其本身的效率和数据库检索的效率造成WWW应用在服务器端的阻塞。非结构化数据库就是针对关系数据库模型过于简单,不便表达复杂的嵌套需要以及支持数据类型有限等局限,从数据模型入手而提出的全面基于因特网应用的新型数据库理论。非结构化数据库主要是针对非结构化数据应运而生的,与目前流行的关系数据库相比,其最大区别在于它突破了关系数据库结构定义不易改变和数据定长的限制,支持重复字段、子字段以及变长字段并实现了对变长数据和重复字段进行处理和数据项的变长存储管理,在处理连续信息(包括全文信息)和非结构信息(重复数据和变长数据)中有着传统关系型数据库所无法比拟的优势。 3　非结构化数据库的特点与优势 311　灵活的非结构化数据结构非结构化数据库也是建立在二维表的基础之上的,因此非结构化数据库不能称为非关系型数据库,但在数据结构上,它又与关系型数据库有着很大的不同。 — 7 8 2 — ?情报理论与实践? ITA!信息系统#

结构化和非结构化数据定义

结构化、非结构化数据相对于结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。非结构化数据库是指其字段长度可变，并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库，用它不仅可以处理结构化数据（如数字、符号等信息）而且更适合处理非结构化数据（全文文本、图象、声音、影视、超媒体等信息）。非结构化WEB数据库主要是针对非结构化数据而产生的，与以往流行的关系数据库相比，其最大区别在于它突破了关系数据库结构定义不易改变和数据定长的限制，支持重复字段、子字段以及变长字段并实现了对变长数据和重复字段进行处理和数据项的变长存储管理，在处理连续信息（包括全文信息）和非结构化信息（包括各种多媒体信息）中有着传统关系型数据库所无法比拟的优势。结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据) 非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等所谓半结构化数据，就是介于完全结构化数据（如关系型数据库、面向对象数据库中的数据）和完全无结构的数据（如声音、图像文件等）之间的数据，HTML文档就属于半结构化数据。它一般是自描述的，数据的结构和内容混在一起，没有明显的区分。数据模型：结构化数据：二维表（关系型）半结构化数据：树、图非结构化数据：无 RMDBS的数据模型有：如网状数据模型、层次数据模型、关系型其他：结构化数据：先有结构、再有数据半结构化数据：先有数据，再有结构随着网络技术的发展，特别是Internet和Intranet技术的飞快发展，使得非结构化数据的数量日趋增大。这时，主要用于管理结构化数据的关系数据库的局限性暴露地越来越明显。因而，数据库技术相应地进入了“后关系数据库时代”，发展进入基于网络应用的非结构化数据库时代。我国非结构化数据库以北京国信贝斯(iBase)软件有限公司的iBase数据库为代表。IBase 数据库是一种面向最终用户的非结构化数据库，在处理非结构化信息、全文信息、多媒体信息和海量信息等领域以及Internet/Intranet应用上处于国际先进水平，在非结构化数据的管理和全文检索方面获得突破。它主要有以下几个优点： (1)Internet应用中，存在大量的复杂数据类型，iBase通过其外部文件数据类型，可以管理各种文档信息、多媒体信息,并且对于各种具有检索意义的文档信息资源，如HTML、DOC、RTF、TXT等还提供了强大的全文检索能力。 (2)它采用子字段、多值字段以及变长字段的机制，允许创建许多不同类型的非结构化的或任意格式的字段，从而突破了关系数据库非常严格的表结构，使得非结构化数据得以存储和管理。 (3)iBase将非结构化和结构化数据都定义为资源，使得非结构数据库的基本元素就是资源本身，而数据库中的资源可以同时包含结构化和非结构化的信息。所以，非结构化数据库

(完整版)结构化和非结构化定义和特征

结构化、非结构化数据相对于结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。非结构化数据库是指其字段长度可变，并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库，用它不仅可以处理结构化数据（如数字、符号等信息）而且更适合处理非结构化数据（全文文本、图象、声音、影视、超媒体等信息）。非结构化WEB数据库主要是针对非结构化数据而产生的，与以往流行的关系数据库相比，其最大区别在于它突破了关系数据库结构定义不易改变和数据定长的限制，支持重复字段、子字段以及变长字段并实现了对变长数据和重复字段进行处理和数据项的变长存储管理，在处理连续信息（包括全文信息）和非结构化信息（包括各种多媒体信息）中有着传统关系型数据库所无法比拟的优势。结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据) 非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等所谓半结构化数据，就是介于完全结构化数据（如关系型数据库、面向对象数据库中的数据）和完全无结构的数据（如声音、图像文件等）之间的数据，HTML 文档就属于半结构化数据。它一般是自描述的，数据的结构和内容混在一起，没有明显的区分。数据模型：结构化数据：二维表（关系型）半结构化数据：树、图非结构化数据：无RMDBS的数据模型有：如网状数据模型、层次数据模型、关系型其他：结构化数据：先有结构、再有数据半结构化数据：先有数据，再有结构随着网络技术的发展，特别是Internet和Intranet技术的飞快发展，使得非结构化数据的数量日趋增大。这时，主要用于管理结构化数据的关系数据库的局限性暴露地越来越明显。因而，数据库技术相应地进入了“后关系数据库时代”，发展进入基于网络应用的非结构化数据库时代。我国非结构化数据库以北京国信贝斯(iBase)软件有限公司的iBase数据库为代表。IBase数据库是一种面向最终用户的非结构化数据库，在处理非结构化信息、全文信息、多媒体信息和海量信息等领域以及Internet/Intranet应用上处于国际先进水平，在非结构化数据的管理和全文检索方面获得突破。它主要有以下几个优点：(1)Internet应用中，存在大量的复杂数据类型，iBase通过其外部文件数据类型，可以管理各种文档信息、多媒体信息,并且对于各种具有检索意义的文档信息资源，如HTML、DOC、RTF、TXT等还提供了强大的全文检索能力。(2)它采用子字段、多值字段以及变长字段的机制，允许创建许多不同类型的非结构化的或任意格式的字段，从而突破了关系数据库非常严格的表结构，使得非结构化数据得以存储和管理。(3)iBase将非结构化和结构化数据都定义为资源，使得非结构数据库的基本元素就是资源本身，而数据库中的资源可以同时包含结构化和非结构化的信息。所以，非结构化数据库能够存储和管理各种各样的非结构化数据，实现了数据库系统数据管理到内容管理的转化。(4)iBase采用了面向对象的基石，将企业业务数据和商业逻辑紧密结合在一起，特别适合于表达复杂的数据对象和多媒体对象。(5)iBase是适应Internet发展的需要而产生的数据库，它基于Web是一个广域网的海量数据库的思想，提供一个网上资源管理系统iBase Web，将网络服务器(WebServer)和数据库服务器(Database Server)直接集成为一个整体，使数据库系统和数据库技术成为Web的一个重要有机组成部分，突破了数据库仅充当Web体系后台角色的局限，实现数据库和Web的有机无缝组合，从而为在Internet/Intranet上进行信息管理乃至开展电子商务应用开辟了更为广阔的领域。 (6)iBase全面兼容各种大中小型的数据库，对传统关系数据库，如Oracle、Sybase、SQLServer、

非结构化数据

非结构化数据来源极为广泛，在省惩防体系综合信息平台数据环境中，包括文档、电子表格、演示文稿、电子邮件、音频和视频文件、即时消息、扫描的文档等。由于文件系统操作简便性能较高，因此多采用文件系统来存储非结构化数据，而将关系型数据存储在数据库中。然而在实际业务需求中，两种数据类型往往相伴而生，例如档案管理系统。两种数据类型的分开管理损害了安全性、健壮性以及可管理性，具体存在以下弊端：互相孤立的安全审计模型；数据的更改无法保持原子性、备份和恢复需要分别进行；很难实现涉及到关系型数据和文件数据的综合查询；空间管理复杂；需要不同的接口和协议。为了消除文件系统的弊端，在关系数据库中多采用二进制大对象（LOB）实现存储非结构化数据，然而LOB一直存在着性能瓶颈。将非结构化数据存储在数据库中后，管理和检索非结构化数据（例如多媒体应用程序）需要额外的处理能力和内存才能获得与文件系统等同的性能。综合以上原因，推荐使用Oracle Database中的SecureFile Lobs来存储非结构化数据。自Oracle Database 11g开始，增加了SecureFile Lobs方式来解决非结构化数据存储，SecureFile支持检索非结构化数据，使得访问数据库内的文件与本地文件系统中的文件一样快，甚至超过了后者，同时还保持了与数据库中数据的事务一致性。SecureFiles 是一个重要的新体系结构，它既具备所有最先进文件系统功能，又具备高级数据库功能。其特性包括全新的磁盘格式、空间和内存管理技术，它可显著提升 LOB 性能并优化存储。（1）提高了读写性能：SecureFiles 在数据库处理文件数据的方式上采用了全新的范例，对于基本查询和插入操作可提供类似文件系统的性能。经过 SecureFiles 优化的算法速度最快可达LOB的10倍。