大数据技术与应用 - 大数据存储和管理 - 分布式数据库(NoSQL) - 第三课
NoSQL数据库技术与应用

NoSQL数据库技术与应用随着大数据时代的到来,传统的关系型数据库面临着一些挑战:数据量庞大、高并发读写、数据结构多样性等。
为了应对这些挑战,NoSQL(Not only SQL)数据库应运而生,并且在互联网、移动互联网、物联网等领域得到广泛应用。
本文将介绍NoSQL数据库技术的概念、分类,以及其在实际应用中的使用场景和优势。
一、NoSQL数据库技术概览NoSQL数据库是指非关系型数据库,它不基于传统的关系型数据库模型(如表格),而是采用了其他数据存储结构,如文档、键值对、列族、图等方式。
NoSQL数据库以其高扩展性、高性能和灵活性而闻名。
NoSQL数据库技术的主要特点包括:1. 没有固定的模式:NoSQL数据库不要求先定义或建立数据库模式,在数据存储时不存在固定的模式要求,可以灵活地存储各种数据类型及其关系。
2. 高可扩展性:NoSQL数据库可以方便地进行分布式部署和横向扩展,支持在海量数据环境中进行高效的读写操作。
3. 高性能:NoSQL数据库的底层存储结构对于快速访问和查询数据进行了优化,能够提供出色的读取和写入性能。
4. 大数据处理能力:NoSQL数据库在处理大数据量和高并发读写方面有着良好的表现,适合应对各种大数据场景。
二、NoSQL数据库的分类NoSQL数据库根据其数据存储模型和用途可以划分为多个子类。
以下是常见的NoSQL数据库分类:1. 键值存储(Key-Value stores):使用键值对来存储和访问数据,适合存储简单的无结构化数据。
常见的键值存储数据库有Redis、Riak等。
2. 文档数据库(Document databases):将数据以文档形式存储,文档之间可以嵌套,是一种无模式化的存储方式。
常见的文档数据库有MongoDB、Couchbase等。
3. 列族数据库(Column-Family stores):将数据存储为列族的方式,适合存储具有规则的数据集合,常用于大规模数据的存储和分析。
大数据技术与应用 - 大数据存储和管理 - 分布式数据库(NoSQL) - 第三课

大数据技术与应用网络与交换技术国家重点实验室交换与智能控制研究中心程祥2016年9月提纲-大数据存储和管理1. 分布式文件系统1.1 概述1.2 典型分布式文件系统1.3 HDFS2. 分布式数据库2.1 概述2.2 NoSQL2.3 HBase2.4 MongoDB(略)2.5 云数据库(略)2.1 分布式数据库概述四类典型的用于大数据存储和管理的分布式数据库系统有:1.并行数据库2.NoSQL数据管理系统3.NewSQL数据管理系统4.云数据管理系统2.1 概述-并行数据库•定义通过并行使用多个CPU和磁盘来将诸如装载数据、建立索引、执行查询等操作并行化以提升性能的数据库系统。
往往运行在通用计算机组成的集群环境中。
•优点通过多个节点并行执行数据库任务、提高整个数据库系统的性能和可用性。
•不足并行数据库设计和优化时认为集群中节点数量是固定的,若果对集群进行扩展或收缩,数据转移成本高,还会导致系统一段时间不可用。
认为节点故障是特例,因此只提供事务级别的容错,如果查询过程中节点出错,整个查询需要重运行。
2.1 概述-NoSQL数据管理系统•定义没有固定数据模式并且可以水平扩展的系统被称为NoSQL。
NoSQL不支持关系数据模型。
•优点数据模型简单,每条记录拥有唯一的键,一次操作获取单个记录增强了系统可扩展性。
与并行数据库不同,NoSQL数据系统能够基于低端硬件(通用PC机)进行水平扩展,灵活性高,成本低。
NoSQL数据系统吞吐量比传统关系数据管理系统要高很多,例如,Google的Bigtable每天可处理20PB的数据。
•不足不支持ACID特性,然而,ACID特性能够使系统在中断的情况下保证在线事务能够准确执行。
NoSQL系统提供不同的查询模型,增加了开发者负担。
2.1 概述-NewSQL数据管理系统•定义既能够支持传统关系型数据库的ACID事务特性和SQL查询,又能够提供NoSQL数据管理系统的可扩展性的数据管理系统。
大数据存储中的NoSQL数据库技术应用

大数据存储中的NoSQL数据库技术应用一、NoSQL数据库技术概述NoSQL数据库技术(Not Only SQL)是指一种非关系型数据库管理系统。
与传统数据库(例如MySQL、Oracle等)不同,NoSQL数据库不使用表格来存储数据,而是采用其他不同的数据组织方式,例如文档、键值、列族等。
NoSQL数据库因其高效、高可用性、可伸缩性等特点被越来越多地应用于大数据存储领域。
目前,较为流行的NoSQL数据库产品有MongoDB、Cassandra、Redis等。
二、大数据存储中的NoSQL数据库技术特点1.高可拓展性:NoSQL数据库技术采用分布式结构和多节点部署方式,具有高可扩展性,在数据存储方面可以通过添加新节点办到横向拓展。
2.高可用性:NoSQL数据库技术采用多副本架构,可以在数据出现单点故障时迅速切换至备份节点,确保数据的高可靠性,有效保障了大数据存储的稳定性。
3.数据模型灵活:NoSQL数据库技术可以使用多种数据模型,例如键值、文档、列族等,可以根据不同场景或数据特性选择合适的数据模型,提高数据的处理效率。
4.性能优越:NoSQL数据库技术对于高并发、读写频繁的场景有较好的性能表现。
三、NoSQL数据库技术在大数据存储中的应用1.分布式Web应用:在分布式Web应用中,用户和请求量都比较大,这时候采用传统的关系型数据库可能会遇到容量和性能的问题。
使用NoSQL数据库技术可以解决这些问题,使得数据访问效率更高,系统的吞吐量也得到提高。
2.物联网数据采集:物联网设备产生的数据量大、变化频繁、种类繁多,传统数据库存储方式难以满足其需求。
采用NoSQL数据库技术,可以快速地存储这些数据,支持海量数据的实时存储、查询和分析。
3.大数据分析:在大数据场景中,使用传统数据库技术进行数据分析往往效率低下。
NoSQL数据库技术支持分布式计算,具有更好的并行处理能力,适合大数据分析领域的场景。
四、NoSQL数据库技术的发展趋势当前,随着云计算和大数据的快速发展,NoSQL技术的应用市场迅速扩大。
分布式数据库与NoSQL数据库的比较(系列一)

分布式数据库与NoSQL数据库的比较一、引言现如今,数据处理和存储已成为许多企业和组织的重要挑战。
为了应对海量数据的处理需求,分布式系统和数据库技术应运而生。
在这个领域中,分布式数据库和NoSQL数据库是两种流行的解决方案。
本文将对这两种数据库进行比较,探讨它们的优势和劣势。
二、分布式数据库1. 定义与特点分布式数据库是指将数据库系统分布在多个物理或虚拟节点上,以实现数据的存储和处理。
其特点包括:- 高可用性:分布式数据库可以通过增加节点来提高系统的可用性,即使其中一部分节点出现故障也不会影响系统的正常运行。
- 高性能:通过将数据分散存储在多个节点上,分布式数据库可以并行处理多个查询,从而提高数据处理的速度。
- 灵活性:分布式数据库可以根据需求进行扩展并适应不同的工作负载。
2. 分布式数据库的应用场景- 互联网公司:分布式数据库可以满足互联网公司大数据量、高并发的存储和查询需求,例如电子商务平台的订单处理和用户管理。
- 金融机构:分布式数据库可以提供高可用性和安全性,适用于金融交易和客户账户管理。
- 物联网设备:分布式数据库可以处理来自各个物联网设备产生的海量数据,并支持实时分析和决策。
三、NoSQL数据库1. 定义与特点NoSQL(Not Only SQL)数据库是一类非关系型数据库,其特点包括:- 高性能:NoSQL数据库以键值对、文档、图形等非关系型的数据模型来存储数据,适合于大量数据的读写操作,具有较高的性能。
- 可伸缩性:NoSQL数据库可以根据需求进行水平扩展,即增加新的节点,以满足不断增长的数据存储需求。
- 灵活性:NoSQL数据库不需要预定义数据结构,可以根据数据的特点动态调整和修改模式,使得数据的处理更加灵活。
2. NoSQL数据库的应用场景- 社交媒体平台:NoSQL数据库可以存储用户生成的大量图像、视频和文字信息,以及快速查询和分析这些数据。
- 物联网设备:NoSQL数据库可以存储和处理物联网设备生成的实时数据,例如传感器数据、设备状态等。
Chapter5-大数据技术原理与应用-第五章-NoSQL数据库-pdf

《大数据技术原理厦与门应大用学》计算机科学系 厦门大学计算机科学系
林子雨 2015年ziy版ulin@
提纲
• 5.1 NoSQL简介 • 5.2 NoSQL兴起的原因 • 5.3 NoSQL与关系数据库的比较 • 5.4 NoSQL的四大类型 • 5.5 NoSQL的三大基石 • 5.6 从NoSQL到NewSQL数据库 • 本章小结
键/值对
典型应用
内容缓存,比如会话、配置文件、参数、购物车等
优点
扩展性好,灵活性好,大量写操作时性能高
缺点 使用者
无法iak)、BestBuy(Riak)、 Twitter(Redis和Memcached)、StackOverFlow(Redis)、 Instagram (Redis)、Youtube(Memcached)、Wikipedia (Memcache育计算机规划教材 《大数据技术原理与应用 ——概念、存储、处理、分析与应用》 (2015年6月第1版) 厦门大学 林子雨 编著,人民邮电出版社 ISBN:978-7-115-39287-9
欢迎访问《大数据技术原理与应用》教材官方网站: /post/bigdata
Dataset
Document_id-1
Document-1
Document_id-2
Document-2
Document_id-3
Document-3
Document_id-4
Document-4
文档数据库
KeyValue Node1
Key-Value2 Key-Value1
KeyValue Node3
数据完整性
容易实现
很难实现
任何一个RDBMS都可以很容易实现数据完整性,比如通过主键或 者非空约束来实现实体完整性,通过主键、外键来实现参照完整 性,通过约束或者触发器来实现用户自定义完整性 但是,在NoSQL数据库却无法实现
大数据技术原理与应用第三版核心知识点

大数据技术原理与应用第三版核心知识点一、大数据概述1. 大数据定义大数据是指规模巨大、种类繁多的数据集合,这些数据量大到传统数据处理工具无法处理。
2. 大数据特点- 五V特点:大数据具有Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)、Veracity(真实性)五个特点。
- 非结构化数据:大部分大数据都是非结构化数据,需要通过特定的技术进行处理和分析。
二、大数据技术基础1. 分布式存储- Hadoop分布式文件系统HDFS:将大数据存储在多个节点上,提高了数据的可靠性和并行处理能力。
2. 分布式计算- MapReduce计算模型:将数据分片并行处理,提高了数据处理的速度和效率。
3. 数据清洗和预处理- 数据清洗:去除噪音数据、填补缺失值、处理异常值等。
- 数据预处理:将数据转换成可供分析的格式,如规范化、归一化等。
三、大数据存储技术1. NoSQL数据库- HBase:面向列的分布式数据库,适用于大规模结构化数据存储。
- MongoDB:面向文档的数据库,适用于存储半结构化数据。
2. 大数据文件格式- Parquet、ORC等列式存储格式:适用于大规模数据存储和分析,能够减少I/O操作。
四、大数据处理技术1. 数据挖掘- 聚类分析、分类分析、关联规则挖掘、异常检测等。
2. 机器学习- 逻辑回归、决策树、支持向量机、神经网络等机器学习算法在大数据中的应用。
3. 实时流式处理- Storm、Flink等实时流式处理框架,在大数据实时处理中的应用。
4. 图计算- 图数据库、图计算框架如Neo4j、GraphX等在大数据图计算中的应用。
五、大数据分析与应用1. 数据可视化- Tableau、Power BI等工具的应用,将大数据分析结果直观展现。
2. 业务智能- 利用大数据分析结果进行商业决策和趋势预测。
3. 个性化推荐系统- 利用用户行为数据进行个性化推荐,提升用户体验。
大数据技术与应用 - 大数据存储和管理 - 分布式文件系统 - 第二课

大数据技术与应用网络与交换技术国家重点实验室交换与智能控制研究中心程祥2016年9月提纲-大数据存储和管理1. 分布式文件系统1.1 概述1.2 典型分布式文件系统1.3 HDFS2. 分布式数据库2.1 概述2.2 NoSQL2.3 HBase2.4 MongoDB(略)2.5 云数据库(略)1.1 概述•定义:相对于本地文件系统,分布式文件系统是一种通过网络实现文件在多台主机上进行分布式存储的文件系统。
•分布式文件系统一般采用C/S模式,客户端以特定的通信协议通过网络与服务器建立连接,提出文件访问请求。
•客户端和服务器可以通过设置访问权限来限制请求方对底层数据存储块的访问。
1.2 典型的分布式文件系统•NFS (Network File System)由Sun微系统公司作为TCP/IP网上的文件共享系统开发,后移植到Linux等其他平台。
其接口都已经标准化。
•AFS (Andrew File System)由卡耐基梅隆大学信息技术中心(ITC)开发,主要用于管理分部在不同网络节点上的文件。
AFS与NFS不同,AFS提供给用户的是一个完全透明,永远唯一的逻辑路径(NFS需要物理路径访问)。
1.2 典型的分布式文件系统(续)•GFS(Google File System)由Google开发,是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。
它运行于廉价的普通硬件上,并提供容错功能。
•HDFS(Hadoop Distributed File System)HDFS是Apache Hadoop项目的一个子项目,是一个高度容错的分布式文件系统,设计用于在低成本硬件上运行,适合存储大数据,GFS的开源版本。
1.3 计算机集群结构•分布式文件系统把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集群。
•与之前使用多个处理器和专用高级硬件的并行化处理装置不同的是,目前的分布式文件系统所采用的计算机集群都是由普通硬件构成的,因此大大降低了硬件上的开销。
请阐述大数据时代的存储和管理技术

请阐述大数据时代的存储和管理技术随着大数据时代的到来,数据的存储和管理成为了一个日益重要的问题。
传统的数据存储和管理技术已经无法满足海量数据的处理需求,因此需要新的技术来满足这一挑战。
在大数据时代,数据的存储和管理技术主要包括以下几个方面。
一、分布式文件系统分布式文件系统是大数据时代最重要的存储技术之一。
它允许将大量数据存储在多台机器上,并提供一种简单的方式来管理这些数据。
这些文件系统通常被称为“分布式文件系统”,如Hadoop Distributed File System(HDFS)、Amazon S3和Google Cloud Storage 等。
这些分布式文件系统通过将数据分散到多个硬件节点上,消除了单点故障,并提供了故障恢复和数据冗余功能。
二、NoSQL 数据库系统除了传统的关系型数据库系统外,NoSQL 数据库系统也成为一种关键的存储技术。
NoSQL 数据库系统通常使用非关系型数据模型来存储和检索数据。
例如,最常见的 NoSQL 数据库之一时MongoDB。
这种技术的优势在于它们能够处理离线和实时数据,并能够为大量用户提供高频操作响应。
三、In-Memory 数据库系统In-Memory 数据库系统是另一种存储技术,它将数据存储在RAM中,而非传统的硬盘或闪存存储设备中。
这种技术的优势在于它能够更快地访问数据,并提供更高的吞吐量。
最常见的 In-Memory 数据库之一时SAP HANA。
四、数据仓库技术数据仓库技术可以帮助企业将各个部门的数据整合成一个单一的数据存储,使企业更容易理解和分析数据。
这个过程中,数据通常被转换成一种更易于分析的特定格式,以提供更多的信息。
Oracle、IBM、Microsoft等公司提供了数据仓库技术的解决方案。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据技术与应用网络与交换技术国家重点实验室交换与智能控制研究中心程祥2016年9月提纲-大数据存储和管理1. 分布式文件系统1.1 概述1.2 典型分布式文件系统1.3 HDFS2. 分布式数据库2.1 概述2.2 NoSQL2.3 HBase2.4 MongoDB(略)2.5 云数据库(略)2.1 分布式数据库概述四类典型的用于大数据存储和管理的分布式数据库系统有:1.并行数据库2.NoSQL数据管理系统3.NewSQL数据管理系统4.云数据管理系统2.1 概述-并行数据库•定义通过并行使用多个CPU和磁盘来将诸如装载数据、建立索引、执行查询等操作并行化以提升性能的数据库系统。
往往运行在通用计算机组成的集群环境中。
•优点通过多个节点并行执行数据库任务、提高整个数据库系统的性能和可用性。
•不足并行数据库设计和优化时认为集群中节点数量是固定的,若果对集群进行扩展或收缩,数据转移成本高,还会导致系统一段时间不可用。
认为节点故障是特例,因此只提供事务级别的容错,如果查询过程中节点出错,整个查询需要重运行。
2.1 概述-NoSQL数据管理系统•定义没有固定数据模式并且可以水平扩展的系统被称为NoSQL。
NoSQL不支持关系数据模型。
•优点数据模型简单,每条记录拥有唯一的键,一次操作获取单个记录增强了系统可扩展性。
与并行数据库不同,NoSQL数据系统能够基于低端硬件(通用PC机)进行水平扩展,灵活性高,成本低。
NoSQL数据系统吞吐量比传统关系数据管理系统要高很多,例如,Google的Bigtable每天可处理20PB的数据。
•不足不支持ACID特性,然而,ACID特性能够使系统在中断的情况下保证在线事务能够准确执行。
NoSQL系统提供不同的查询模型,增加了开发者负担。
2.1 概述-NewSQL数据管理系统•定义既能够支持传统关系型数据库的ACID事务特性和SQL查询,又能够提供NoSQL数据管理系统的可扩展性的数据管理系统。
NewSQL是对传统基于SQL的关系型数据库的创新。
•特性支持关系数据模型使用SQL作为主要接口具有高吞吐量和高可扩展性2.1 概述-云数据管理系统•定义基于云计算技术的数据管理系统,用户无需在本地安装数据库软件,只需使用“云数据库服务提供商”提供的数据库服务即可。
•优点用户无需购买基础设施和软件,性价比高。
用户可以根据自己的需求申请存储资源即可,并且可以根据应用需求动态变化,可伸缩性好。
用户无需考虑云数据库底层的硬件和软件实现,只需要通过其提供的接口使用其服务。
•不足存储在云数据库中的数据可能会造成隐私泄露2.2 NoSQL2.2.1 NoSQL简介2.2.2 NoSQL的兴起原因2.2.3 NoSQL与关系数据库的比较2.2.4 NoSQL的四大类型2.2.5 NoSQL理论基础2.2.6 从NoSQL到NewSQL2.2.1 NoSQL简介最初表示“反SQL”运动用新型的非关系数据库取代关系数据库现在表示关系和非关系型数据库各有优缺点彼此都无法互相取代概念演变通常,NoSQL数据库具有以下几个特点:(1)数据模型灵活、简洁(2)水平可扩展性强(3)系统吞吐量高目前NoSQL数据库已经广泛应用于谷歌、亚马逊、Facebook、百度、阿里、腾讯等大型互联网公司。
2.2.2 NoSQL的兴起原因关系数据库已经无法满足大数据时代的需求。
主要表现在以下几个方面:(1)无法满足海量数据的管理需求(2)无法满足数据高并发的需求(3)无法满足高可扩展性和高可用性的需求2.2.2 NoSQL的兴起原因(续)关系数据库的关键特性包括完善的事务机制和高效的查询机制。
但是,关系数据库引以为傲的两个关键特性,到了大数据时代却不一定是必须,主要表现在以下几个方面:(1)网络大数据系统通常不要求严格的数据库事务(2)网络大数据系统往往并不要求严格的读写实时性(3)网络大数据系统通常不包含大量复杂的SQL查询在这样的背景下,NoSQL数据库应运而生。
2.2.3 NoSQL与关系数据库的比较关系数据库•优势:以完善的关系代数理论作为基础,有严格的标准,支持事务ACID四性,借助索引机制可以实现高效的查询,技术成熟,有专业公司的技术支持•劣势:可扩展性较差,无法较好支持海量数据存储,数据模型过于死板、无法较好支持大数据应用,事务机制影响了系统的整体性能等NoSQL数据库•优势:可以支持超大规模数据存储,灵活的数据模型可以很好地支持大数据应用,具有强大的横向扩展能力等•劣势:缺乏数学理论基础,复杂查询性能不高,大都不能实现事务强一致性,很难实现数据完整性,技术尚不成熟,缺乏专业团队的技术支持,维护较困难等2.2.3 NoSQL与关系数据库的比较(续)关系数据库和NoSQL数据库各有优缺点,彼此无法取代•关系数据库应用场景:传统企业(银行、电信)的关键业务系统,需要保证强事务一致性•NoSQL数据库应用场景:互联网企业、传统企业的非关键业务(比如数据分析和挖掘)关系数据库和NoSQL数据库混合架构已经成为趋势•案例:亚马逊公司就使用不同类型的数据库来支撑它的电子商务应用1)对于“购物篮”这种临时性数据,采用键值存储会更加高效2)产品和订单信息则适合存放在关系数据库中3)大量的历史订单信息则适合保存在类似MongoDB的文档数据库中2.2.4 NoSQL的四大类型NoSQL数据库虽然数量众多,但是,归结起来,典型的NoSQL数据库通常包括键值数据库、列族数据库、文档数据库和图形数据库2.2.4 NoSQL的四大类型(续)2.2.4 键值数据库相关产品Redis、Riak、SimpleDB、Memcached、Scalaris等等数据模型键/值对键是一个字符串对象值可以是任意类型的数据,比如整型、字符型、数组、列表、集合等典型应用涉及频繁读写、拥有简单数据模型的应用内容缓存(例如,会话、配置文件、参数、购物车等)优点扩展性好,灵活性好,大量写操作时性能高缺点难以存储结构化信息,条件查询效率较低不适用场景不是通过键而是通过值来查:键值数据库根本没有通过值查询的途径需要存储数据之间的关系:在键值数据库中,不能通过两个或两个以上的键来关联数据需要事务的支持:在一些键值数据库中,产生故障时,不可以回滚使用者百度(Redis)、GitHub(Riak)、BestBuy(Riak)、Twitter(Redis 和Memcached)、StackOverFlow(Redis)、Instagram(Redis)、Youtube(Memcached)、Wikipedia(Memcached)2.2.4 键值数据库(续)键值数据库已成为理想的缓冲层解决方案2.2.4 列存储数据库相关产品BigTable、HBase、Cassandra、HadoopDB、GreenPlum等等数据模型列存储典型应用数据在地理上分布于多个数据中心的应用程序可以容忍副本中存在短期不一致情况的应用程序拥有动态字段的应用程序拥有潜在大量数据的应用程序(TB级以上)优点查找速度快,可扩展性强,容易进行扩展,复杂性低缺点功能较少,大都不支持强事务一致性不适用场景需要ACID事务支持的场景使用者eBay(Cassandra)、Instagram(Cassandra)、NASA (Cassandra)、Twitter(Cassandra and HBase)、Facebook (HBase)、Yahoo!(HBase)2.2.4 文档数据库相关产品MongoDB、CouchDB、RavenDB、Terrastore、ThruDB等等数据模型键/值值(value)是版本化的(有结构)文档典型应用存储、索引并管理面向文档的数据或者类似的半结构化数据例如,用于后台具有大量读写操作的网站、使用JSON数据结构的应用、使用嵌套结构等非规范化数据的应用程序优点数据结构灵活,复杂性低,性能好(高并发)提供嵌入式文档功能,将经常查询的数据存储在同一个文档中既可以根据键来构建索引,也可以根据内容构建索引缺点缺乏统一的查询语法不适用场景在不同文档上添加事务的场景、需要支持文档间的事务的场景使用者百度云数据库(MongoDB)、SAP (MongoDB)、Foursquare (MongoDB)、NBC News (RavenDB)2.2.4 图数据库相关产品Neo4J、OrientDB、InfoGrid、Infinite Graph、Trinity等等数据模型图结构典型应用专门用于处理具有高度相互关联关系的数据,比较适合于社交网络分析、路径规划、依赖分析等问题优点可用于构建复杂的关系图谱,并支持复杂的图算法缺点复杂性高,只能支持一定的数据规模使用者Adobe(Neo4J)、Cisco(Neo4J)、T-Mobile(Neo4J)2.2.5 NoSQL理论基础•CAP•ACID与BASE2.2.5 CAP所谓的CAP指的是:•C(Consistency):一致性,是指任何一个读操作总是能够读到之前完成的写操作的结果,也就是在分布式环境中,多点的数据是一致的,或者说,所有节点在同一时间具有相同的数据•A:(Availability):可用性,是指快速获取数据,可以在确定的时间内返回操作结果,保证每个请求不管成功或者失败都有响应;•P(Tolerance of Network Partition):分区容忍性,是指当出现网络分区的情况时(即系统中的一部分节点无法和其他节点进行通信),分离的系统也能够正常运行,也就是说,系统中任意信息的丢失或失败不会影响系统的继续运作。
2.2.5 CAP(续)CAP理论告诉我们,一个分布式系统不可能同时满足一致性、可用性和分区容忍性这三个需求,最多只能同时满足其中两个,正所谓“鱼和熊掌不可兼得”。
一个牺牲一致性来换取可用性的实例(a)初始状态一个牺牲一致性来换取可用性的实例 P 1M 1V 1=val 0val 1P 2M 2123P 1M 1传播新值val 1P 2M 2P 1M 1P 2M 2val 1V 2=val 0V 1=val 1V 2=val 0V 1=val 1V 2=val 1进程P 1把副本V 1的值从val 0更新为val 1副本V 1的新值val 1被传播给副本V 2进程P 2从副本V 2中读取到更新后的值val 1(b )正常执行过程一个牺牲一致性来换取可用性的实例(c) 更新传播失败时的执行过程当处理CAP的问题时,可以有几个明显的选择:•CA:也就是强调一致性(C)和可用性(A),放弃分区容忍性(P),最简单的做法是把所有与事务相关的内容都放到同一台机器上。
很显然,这种做法会严重影响系统的可扩展性。