基于NoSQL数据库的大数据查询技术的研究与应用_朱建生

合集下载

NoSQL数据库技术与应用

NoSQL数据库技术与应用随着大数据时代的到来，传统的关系型数据库面临着一些挑战：数据量庞大、高并发读写、数据结构多样性等。

为了应对这些挑战，NoSQL（Not only SQL）数据库应运而生，并且在互联网、移动互联网、物联网等领域得到广泛应用。

本文将介绍NoSQL数据库技术的概念、分类，以及其在实际应用中的使用场景和优势。

一、NoSQL数据库技术概览NoSQL数据库是指非关系型数据库，它不基于传统的关系型数据库模型（如表格），而是采用了其他数据存储结构，如文档、键值对、列族、图等方式。

NoSQL数据库以其高扩展性、高性能和灵活性而闻名。

NoSQL数据库技术的主要特点包括：1. 没有固定的模式：NoSQL数据库不要求先定义或建立数据库模式，在数据存储时不存在固定的模式要求，可以灵活地存储各种数据类型及其关系。

2. 高可扩展性：NoSQL数据库可以方便地进行分布式部署和横向扩展，支持在海量数据环境中进行高效的读写操作。

3. 高性能：NoSQL数据库的底层存储结构对于快速访问和查询数据进行了优化，能够提供出色的读取和写入性能。

4. 大数据处理能力：NoSQL数据库在处理大数据量和高并发读写方面有着良好的表现，适合应对各种大数据场景。

二、NoSQL数据库的分类NoSQL数据库根据其数据存储模型和用途可以划分为多个子类。

以下是常见的NoSQL数据库分类：1. 键值存储（Key-Value stores）：使用键值对来存储和访问数据，适合存储简单的无结构化数据。

常见的键值存储数据库有Redis、Riak等。

2. 文档数据库（Document databases）：将数据以文档形式存储，文档之间可以嵌套，是一种无模式化的存储方式。

常见的文档数据库有MongoDB、Couchbase等。

3. 列族数据库（Column-Family stores）：将数据存储为列族的方式，适合存储具有规则的数据集合，常用于大规模数据的存储和分析。

基于NoSQL的文件型大数据存储技术研究

１．１传统存储技术及其系统结构
在正始研究文件数据存储之前，仍需了解一下
传统的存储技术的发展情况，这主要是方便对比基于ＮｏＳＱＬ的文件存储技术与传统技术的优越性。传统上的主流网络存储技术在服务于结构化数据时，多采用大中型数据库实现记录级的数据
Ｄｏｉ：１０．３９６９／；．ｉｓｓｎ．１００９－０１３４．２０１４．０３（下）．０７
０引言
时至今Ｅｌ，无论专业人士还是普通信息技术用户都高频接触到这样几个专业术语，他们分别
第３６卷
第３期
２０１４ — ０３（下）［２７１
ｌ訇化
Ｓｔｏｒａｇｅ，ＮＡＳ）和存储区域网技术（ＳｔｏｒａｇｅＡｒｅａＮｅｔｗｏｒｋ，ＳＡＮ）。其主要存储结构如图１所示。图１所示的存储结构中，（１）为ＤＡＳ存储、（２）为ＮＡＳ存储、（３）为ＳＡＮ存储。其中，直接附加存ＮｏＳＱＬ数据库，相对于传统数据库的关系、层次、网状模式，Ｍｏｎｇｏ数据库是无模式的，由于
（防灾科技学院灾害信息工程系，北京１０１６０１）
摘要：针对云计算中不断增长的文件数据存储需求，提出非关系数据库（ＮｏｔＯｎｌｙＳＱＬ）中文件型大

NoSQL数据库的应用及其适用场景

NoSQL数据库的应用及其适用场景NoSQL（Not only SQL）数据库是一种非关系型数据库，与传统的关系型数据库相比，具有更灵活的数据模型和更强大的扩展性。

在大数据时代的到来以及云计算、物联网等新兴技术的发展中，NoSQL数据库逐渐被广泛应用，并在一些特定场景下展现出独特的优势。

一、NoSQL数据库的应用1. 大数据存储与处理NoSQL数据库具有良好的横向扩展性和高可用性，可以轻松应对海量数据的存储和处理需求。

Hadoop生态系统中的HBase、Cassandra等就是以NoSQL数据库为基础构建起来的大数据存储和处理解决方案。

2. 实时数据处理NoSQL数据库适合存储与实时性要求较高的数据，例如实时分析、实时推荐等场景。

MongoDB是一种文档型NoSQL数据库，其支持快速的写入和读取操作，并提供了强大的查询和索引功能，非常适合实时数据处理。

3. 云计算平台NoSQL数据库的分布式架构使其成为构建云计算平台的理想选择。

云计算平台需要支持横向扩展、高并发访问等特性，而NoSQL数据库正好满足这些需求。

Google的Bigtable和Amazon的DynamoDB就是以NoSQL数据库为核心的云计算平台。

4. 物联网应用物联网设备产生的数据量巨大且具有高并发特性，要求数据库能够快速读写和处理海量数据。

NoSQL数据库的分布式架构和强大的可扩展性非常适合物联网应用，能够满足设备连接和数据处理的需求。

二、NoSQL数据库的适用场景1. 高并发读写NoSQL数据库在高并发读写场景下表现优异，能够有效地处理大量并发访问请求。

例如电商平台的订单系统、社交媒体的消息系统等。

2. 海量数据存储NoSQL数据库可以轻松应对海量数据的存储需求，适合存储大规模的结构化或非结构化数据。

例如日志系统、数据仓库等。

3. 长尾查询NoSQL数据库在针对非主键的查询性能上较好，特别适合于长尾查询场景。

例如电商平台的商品搜索、新闻网站的文章检索等。

大数据下的NoSQL数据库技术分析

数据库的系统架构、数据存储和关键技术。
关键词：大数据；ＮｏＳＱＬ数据库；数据存储；一致性哈希中图分类号：ＴＰ３１１文献标识码：Ａ文章编号：１６７３．１１３１（２０１４）０７ — ００７２ — ０２
节点负责管理系统，监控所有ｓｌａｖｅ节点的状态，给每个ｓｌａｖｅ
节点分配要存储的数据，是数据存取的入口。ｍａｓｔｅｒ节点通常只有一个，它的运行状态将影响整个数据存储系统的性能，因此要设置多个ｍａｓｔｅｒ副本节点，防止ｍａｓｔｅｒ节点不能正常工
的需求（Ｈｉｇｈｐｅｒｆｏｒｍａｎｃｅ）让服务器读写压力巨大，关系数据库存储的硬盘无法承受输入输出要求；关系数据库存储记录
数量有限和ＳＱＬ查询效率低，已无法满足海量数据的高效率存储和访问的需求（ＨｕｇｅＳｔｏｒａｇｅ）；关系数据库扩展艰难，无法通过快速增加服务器节点来满足高扩展性和高可用性（ＨｉｇｈＳｃａｌａｂｉｌｉｔｙ＆＆ＨｉｇｈＡｖａｉｌａｂｉｌｉｔｙ）的需求。为了改变这种状况，ＮｏＳＱＬ数据库应运而生。
摘要：随着大数据的不断发展和ｗｅｂ２．０的快速应用，非关系型、分布式数据存储技术迅速发展，而ＮｏＳＱＬ数据库的出现
就是为了解决当前计算机体系结构在存储大数据时要求快速、可扩展的问题。文章总结了ＮｏＳＱＬ的优势，分析了ＮｏＳＱＬ

基于NoSQL数据库的大数据存储安全技术的研究及应用

ＮｏＳＱＬ实际上是从一个国外开源数据库产品演化而来
的．这一数据库产品中．主要是由ＨＡＳＨＴＡＢＬＥ进行数据存储的，与其他的存储数据相比，这种数据库存储结构十分简
【文章编号】１００６ — ４２２２（２０１５）２０ — ０２５５ — ０１输入机器运行正常，都是采用多节点数据以及单节点数据．原因在于对单节点数据的处理主要是通过磁盘的冗余性．保证
２０１５年１０月下
基于ＮｏＳＱＬ数据库的大数据存储安全
技术的研究及应用
钟华（四川职业技术学院，６２９０００）
【摘要】信息时代的到来，使得信息采集量以及处理量不断增多，．Ｚ．４ｆ３对网络的依赖性越来越严重。在这一背景下，传统的数据存储技术已经
忍性、可用性、一致性。这就需要在设计分布式环境以及系统些特性，非关系数据库在数据模型的灵活性等都具有独特的不仅弥补了关系数据库的缺陷，也在很大程度上省去了部署中，必须考虑到ＢＡＳＥ理论的软状态、可用性以及一致优势，数据库的维护成本。计算机体系结构在数据存储方面要求具性。对数据库最终的一致性进行强调。一致性分为强弱一致性而ＮｏＳＱＬ致力于改变这一现状Ｇｏｏｇｌｅ两种．强一致性指的是保证数据在更新过后能够通过访问看备庞大的水平扩展性，

探索基于NoSQL数据库的空间大数据分布式存储策略

大数据云计算数码世界 P.76探索基于NoSQL数据库的空间大数据分布式存储策略王艳喜潍坊学院计算机工程学院摘要：社会的进一步发展，促使现阶段我国地理信息系统革新速度不断加快，此种背景下如何保证空间数存储质量以及处理效率，成为地理信息系统正常发挥作用的关键所在。

基于此，本文立足于NoSQL数据库角度，分析了NoSQL数据库空间数据存储基本内容，研究了空间大数据分布式存储策略，希望以下内容的论述可以推动我国科技水平稳步提升。

关键词：NoSQL数据库 MongoDB 分布式存储引言近几年，随着经济水平以及科技水平的不断提升，云技术、互联网技术以及物联网技术应用进一步广泛，各类数据信息数量逐渐增大，这为空间数据存储以及分析带来了巨大挑战，传统关系型的数据存储净模式已经无法在日常工作中发挥更大的作用。

因此，对基于NoSQL 数据库的空间大数据分布式存储策略研究有着鲜明现实意义。

1 空间数据存储技术现状就目前我国空间存储技术发展情况而言，成熟关系型数据库是空间数据存储的主流模式，除此之外，集中存储以及管理空间也是常见模式之一。

1.1集中存储模式及其局限性立足于空间数据与应用程序之间的关系而言，可以将空间引擎体系总结为以下几种模式：内置、三层结构以及两层机构。

以上结构应用具有不同效果，但总得来说可以很好的存储以及处理海量空间数据。

就目前地理信息空间数据发展情况而言，数据量大、种类多已经成为基本特点，传统空间数据存储处理系统的单一性、集中性存储方法已经无法满足数据处理需求。

具体而言，空间数据的大数据转变，存储技术也会发展改变：①存储对象的变化。

传统存储处理系统，需要面对各类视频以及音频文件，但是系统并不擅长对上述信息进行处理。

②存储能力扩展。

从存容量角度而言，传统数据库无法实现对海量数据的精准维护，并且其本身也不具备良好的扩展性以及横向延展性。

1.2基于NoSQL的空间数据单一存储模式不足NoSQL数据库在近几年的发展过程中已经得到了较为广泛的应用，并且应用效果良好，但是仍然具有一定局限性。

基于NoSQL数据库的大数据查询技术的研究与应用

基于NoSQL数据库的大数据查询技术的研究与应用作者：侯丽利董书宝来源：《无线互联科技》2015年第01期摘要：本文通过NoSQL的由来、NoSQL数据库的分类和NoSQL数据库的大数据查询技术的应用，结合了铁路客票实名制售票信息综合分析系统中的大数据操作，对基于NoSQL数据库的大数据查询技术的应用进行了研究。

关键词：NoSQL数据库；大数据；查询技术；研究；应用采用NoSQL数据库的大数据查询技术可以使数据搜索的时间在极大的程度上缩短，并且可以使数据的读写效率和横向的扩展能力大大提高，为各个领域的查询工作提供了技术基础，以下结合铁路客票实名制售票信息综合分析系统中的大数据操作进行探讨。

1 NoSQL的由来NoSQL定理来源于CAP定理，CAP定理有三点要求：可用性、分区容错性和一致性，但是这三点不能够被同时满足，只能够满足其中的任意两点。

关系型的数据库管理系统可以满足CAP定理中的可用性和一致性，没有办法满足分布式的应用，所以，在小规模的数据量时效应比较好，但是当数据量和应用的范围增长时，其性能就会大幅度地下降。

大多数的数据都是侧重于系统的可用性，相对来说对于一致性的要求就不是很高，这样，“弱一致性”理论就由此产生。

而NoSQL是利用一致性来满足可用性和分区容错性的，在近些年受到了普遍的关注，所以，NoSQL定理是由CAP理论得来的。

2 NoSQL数据库的分类2.1 高性能读写的NoSQL数据库顾名思义，这种数据库就意味着有着较强的读写性能，这种数据库经常用在一些大型的网站建设中。

2.2 文档的NoSQL数据库文档的NoSQL数据库就是在保证大数据存储的基础上，有着比较好的查询性能。

这种数据一般情况下都是用json的格式进行文档储存。

如果json的格式比较灵活，就可以实现一些字段的索引功能，这大大有利于实践关系型数据。

2.3 分布式计算的NoSQL数据库这种数据库的横向扩展能力比较好，需要在不停止服务的前提下增加更多的节点，对一个节点进行操作的时候就会同步到其他的节点上。

NoSQL数据库在大数据查询技术中的应用探析

网络天地
NoБайду номын сангаасQL 数据库在大数据查询技术中的应用探析
◆梁凡
一、NoSQL 数据库理论基础 NoSQL 数据库理论建立的前提，有着许多理论作为支撑，这其
中包括 CAP 理论、一致性哈希算法等。 1.CAP 理论所谓的 CAP 定力，就是对于分布式的系统有着可用性、容错性
的要求，此外还要求系统能够保持一致性。但是不管是什么分布式系统，CAP 系统都只能满足上述三种要求中的两种，没有办法同时满足上述的三种要求。
根据实名制信息系统的数据规格，本文提出了实名制数据分析系统的构架，并利用反响索引的技术对数据进行查询以及处理。
1.技术架构在本文提到的系统当中，采用了分层 JAVA 的设计模式，对实名制信息综合分析系统的架构进行了设计，本文设计的系统每层的主要功能分别为： 1.1 数据层数据层能够通过系统的调度，对数据进行抽取，加载到数据库当中，供服务层进行调用。 1.2 服务层基于数据层的数据，结合工作流机制，提供查询、比对、信息分析等服务，能够实现业务应用。 1.3 应用层基于接口功能，提供信息管理等应用。 1.4 展现层在浏览器上建立出人性化的用户界面，为相关网站等提供查询服务，并设定结果分析等栏目。 2.业务场景设计的信息在本文设计的系统当中，典型的业务场景是根据旅客身份信息对旅客的乘车轨迹等数据进行查询，或者根据旅客的席位、车次等乘车信息来对旅客的身份进行验证或者查询，也可以对上述的各种条件进行整合并查询，在场景中涉及的信息分别如下。 2.1 售票信息
参考文献： [1] 刘文韬,张志强,周强,张霞,刘国峰. 铁路客运黑名单管理体
系研究[J]. 铁路计算机应用. 2016（08） [2] 王芳,李刚,林湛,吕晓艳. 基于售票量预测的客票系统数据负

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

，２Ｊａｎｕａｒ０１４ｙ
ｏｌ．３５Ｎｏ．１Ｖ
基于ＮｏＳＬ数据库的大数据查询技术的研究与应用Ｑ
朱建生，汪健雄，张军锋
）（中国铁道科学研究院电子计算技术研究所，北京１０００８１ｏＳＱＬ数据库理论，根据应用场景的不同，将ＮｏＳＱＬ数据库分为面向高性能读写、面向文摘要：基于Ｎ档和面向分布式计算的３种类型。对比分析这３种类型数据库的６种代表产品的优缺点，结合铁路客票实名制售票信息综合分析系统中的大数据操作的需求，选用ＮｏＳＱＬ数据库中的面向分布式计算的Ｃａｓｓａｎｄｒａ数据库。基于Ｃａｓｓａｎｄｒａ数据库，提出铁路客票实名制信息综合分析系统的技术架构，并设计反向索引以构建客票实名制乘车信息的查询策略和查询流程。通过性能测试，验证了ＮｏＳＱＬ数据库技术在处理大数据查询和分析中的高可用性，可突破传统关系型数据库和数据仓库在应用中所遇到的查询性能、扩展性以及投资成本的瓶颈。ｏＳＱＬ数据库；Ｃａｓｓａｎｄｒａ数据库；大数据处理；反向索引；数据查询关键词：Ｎ２９３．２２１：ＴＰ３９１文献标识码：Ａ中图分类号：Ｕ：１／ｏｉ０．３９６９ｉｓｓｎ．１００１６３２．２０１４．０１．２１ｄ．４－ｊ
需要满足最终一致性（ｖｅｎｔｕａｌＣｏｎｓｉｓｔｅｎｃＥｙ）即可，而且可以是异步的，即柔性状态（Ｓｏｆｔ－
［］）。而足了ｓｔａｔｅ可用性和分区容错性，近年来得到了广泛的关注，
；修订日期：２０１０００１２７００１３８６收稿日期：２－－－－
（ｅｌａｔｉｏｎａｌＤａｔａｂａｓｅＭａｎａｅｍｅｎｔＳｓｔｅｍ，ＲＤＲ－ｇｙ），ＢＭＳ可满足一致性和可用性但无法很好地支持分布式应用，因此在小规模数据量时可达到很好的效应，但随着数据量和应用范围的增长，性能大幅度下降。对于许多大数据应用而言，侧重于系统的可用性，而对于一致性的要求可以降低，从而产生，Ａ，了弱一致性理论ＢＡＳＥ（Ｂａｓｉｃａｌｌｖａｉｌａｂｌｅｙ，Ｅ，即反ＡｓＳｏｆｔｔａｔｅｖｅｎｔｕａｌｏｎｓｉｓｔｅｎｃＣＩＤ－ｃｙ），Ｉ，Ｄ（，ＣＡｔｏｍｉｃｉｔｏｎｓｉｓｔｅｎｃｓｏｌａｔｉｏｎｕｒａｂｉｌｉｔｙ）ｙｙ模型。ＢＡＳＥ理论的思想是，对于分布式系统，只
节点，并将数据保存到找到的第１个服务节点上。
３２个节点仍然没有找到服务节点，则如果查找了２
将该数据保存到第１个服务节点上。（）假设在原有集群的基础上新增加１个服务３，且访问策略不变，则将该服务节）见图１节点６（点逆时针方向相邻节点的ｋｅｙ对应的数据迁移到新增服务节点上，使得仅在新增服务节点６与服务节点２之间的区间上存在数据找不到服务节点的可能，从而提高了缓存的命中率。
０１１年底，中国铁路客票预订与发售系截至２统（ｈｉｎａＲａｉｌｗａＴｉｃｋｅｔｉｎａｎｄＲｅｓｅｒｖａｔｉｏｎＳｓＣ－ｙｇｙ
［１］）除少量普通列车的中间站外，对于ｔｅｍ，ＴＲＳ全路旅客列车均实现了实名制售票。ＴＲＳ在售票
］７８－，为大数据查库管理系统的进一步发展和补充［
询、分析和挖掘提供了有效的途径。
ｏＳＱＬ数据库分类及选型２Ｎ
ｏＳＱＬ是多种非关系型数据库的集合，根据Ｎ应用场景的不同可将这些非关系数据库概括为以下３种类型。）面向高性能读写的ＮｏＳＱＬ数据库１面向高性能读写的ＮｏＳＱＬ数据库具有较为出色的读写性能。在一般大型网站平台的构建中，通常使用面向高性能读写的ＮｏＳＱＬ数据库，代表产品主要有Ｍｅｍｃａｃｈｅｄ和Ｒｅｄｉｓ数据库。）面向文档的ＮｏＳＱＬ数据库２面向文档的ＮｏＳＱＬ数据库，在保证大数据存储的基础上具有良好的查询性能。其数据一般采用ｏｎ格式的文档存储。灵活的ｊｏｎ格式使得可以ｓｓｊ对特定字段建立索引，为实现关系型数据库的部分功能提供了可能。代表产品主要有ＭｏｎｏＤＢ和ｇＣｏｕｃｈＤＢ数据库。
…，（）Ｃｍ｜ｍ＝１，Ｍ｝２，３Ｓ → ｛其中符号 → 表示映射关系，式（２）表示Ｓ和Ｃ可属于同一层次，Ｆ也可以映射至Ｃ。主流的ＮｏＳＱＬ数据库如ＨＢａｓｅ和Ｃａｓｓａｎｄｒａ数据库等都是采用了扩展的Ｂｉｔａｂｌｅ存储模型。ｇ．３一致性哈希算法１为实现在集群中对服务器节点的数据访问，ｏＳＱＬ数据库通常使用哈希取模的方式将数据存Ｎ储在服务节点中。如集群中可用服务节点数为Ｎ，那么ｋｅｙ值为Ｋ的数据请求可以使用简单的哈希函数ｈＫ）ｍＮ找到对应的服务节点，该ａｓｈ（ｏｄ方法具有简单易用的特点。但随着服务节点的扩充，可能会使得缓存无法命中，导致服务节点需要重新建立缓存并出现大量的缓存数据迁移，从而引起系统负荷剧增而宕机的可能。为了解决该问题，９９７年Ｄａｖｉｄ等学者提出了一致性哈希算法（ｏｎ１ｃ－［６］）。ＮｓｉｓｔｅｎｔｈａｓｈｉｎｏＳＱＬ数据库中的一致性哈ｇ希算法步骤如下。（）将多个服务节点看作圆环上的多个节点１２３，（个服务节点，顺时针分布）理论上最多支持２计算出集群中每个服务节点的哈希值，并将其分配到圆环中的节点上，如图１所示（以５个服务节点；然后使用同样的方法求出所需存储的ｋ为例）ｅｙ的哈希值，也将其分配到该环形区间的服务节点上。（）从数据映射到的位置开始顺时针查找服务２
图１一致性哈希算法示意图
对于分布式大数据系统而言，多数情况下只需要基于ＢＡＳＥ理论寻求ＣＡＰ平衡中的可用性和分区容错性，并达到满足高并发的需求，对一致性的要求只需要满足ＢＡＳＥ最终一致性即可。ＮｏＳＱＬ由于具有最终一致性特性，其作为传统关系型数据
足系统的功能和性能需求。
１ＮｏＳＱＬ数据库理论基础
ｏＳＱＬ数据库是由许多理论支撑作为前提的，Ｎ其中与建立铁路客票实名制查询分析系统相关的理论包括ＣＡＰ理论、扩展Ｂｉｔａｂｌｅ存储模型和一致ｇ性哈希算法。．１ＣＡＰ理论１ＡＰ定理：对于分布式系统的要求体现在一Ｃ致性、可用性和分区容错性；对于任一事实存在的分布式系统，只可同时满足上述３个方面中的任意
［］２点，而无法三者兼顾２。根据ＣＡＰ理论，关系型数据库管理系统
时记录每个乘车人的乘车信息和实名身份信息，随着实名制售票数据的长期积累和不断完善，急需研究铁路客票实名制信息查询技术，并建立铁路客票实名制信息查询分析系统，用于统计、分析和查询售检票过程中产生的实名制售票信息，以丰富铁路客运业务分析数据类型，全面挖掘旅客购票和乘车的规律，为铁路客运客户关系管理奠定基础。由此对铁路客票实名制查询分析系统提出如下需求：具有较高横向扩展能力的数据存储机制；针对大数据进行查询策略专项优化；具有较高级的数据挖掘分析和研判应用。而建立该系统仅依靠关系型数据库已经无法满足需求，必须借助数据仓库存储策略和数据挖掘技术。近年来，随着高性能计算技术的高速发展，带动了分布式计算、并行计算和虚拟化技术的不断进步，为寻求低成本、高性能的数据挖掘计算带来了机遇。因此，本文基于Ｎｏ－，不ＳＱＬ（ＮｏｔＯｎｌＳｔｒｕｃｔｕｒｅｄＱｕｅｒＬａｎｕａｅｙｙｇｇ仅限于结构化查询语言）数据库技术，提出铁路客票实名制信息综合分析系统技术架构，设计反向索引以构建高性能的数据查询策略及处理流程，以满