基于NoSQL数据库的大数据查询技术的研究与应用_朱建生
NoSQL数据库技术与应用

NoSQL数据库技术与应用随着大数据时代的到来,传统的关系型数据库面临着一些挑战:数据量庞大、高并发读写、数据结构多样性等。
为了应对这些挑战,NoSQL(Not only SQL)数据库应运而生,并且在互联网、移动互联网、物联网等领域得到广泛应用。
本文将介绍NoSQL数据库技术的概念、分类,以及其在实际应用中的使用场景和优势。
一、NoSQL数据库技术概览NoSQL数据库是指非关系型数据库,它不基于传统的关系型数据库模型(如表格),而是采用了其他数据存储结构,如文档、键值对、列族、图等方式。
NoSQL数据库以其高扩展性、高性能和灵活性而闻名。
NoSQL数据库技术的主要特点包括:1. 没有固定的模式:NoSQL数据库不要求先定义或建立数据库模式,在数据存储时不存在固定的模式要求,可以灵活地存储各种数据类型及其关系。
2. 高可扩展性:NoSQL数据库可以方便地进行分布式部署和横向扩展,支持在海量数据环境中进行高效的读写操作。
3. 高性能:NoSQL数据库的底层存储结构对于快速访问和查询数据进行了优化,能够提供出色的读取和写入性能。
4. 大数据处理能力:NoSQL数据库在处理大数据量和高并发读写方面有着良好的表现,适合应对各种大数据场景。
二、NoSQL数据库的分类NoSQL数据库根据其数据存储模型和用途可以划分为多个子类。
以下是常见的NoSQL数据库分类:1. 键值存储(Key-Value stores):使用键值对来存储和访问数据,适合存储简单的无结构化数据。
常见的键值存储数据库有Redis、Riak等。
2. 文档数据库(Document databases):将数据以文档形式存储,文档之间可以嵌套,是一种无模式化的存储方式。
常见的文档数据库有MongoDB、Couchbase等。
3. 列族数据库(Column-Family stores):将数据存储为列族的方式,适合存储具有规则的数据集合,常用于大规模数据的存储和分析。
基于NoSQL的文件型大数据存储技术研究

1 . 1 传统存储技术及其系统结构
在 正始 研究 文件 数据 存储 之 前 ,仍需 了解 一下
传统 的存 储 技 术的发 展情 况 ,这 主要 是方 便对 比基 于No S Q L的文件存 储技 术 与传统技 术 的优越 性 。 传 统 上 的 主 流 网络 存 储 技 术 在 服 务 于 结 构 化 数 据 时 , 多采 用 大 中型 数 据 库 实现 记录 级 的数 据
D o i :1 0 . 3 9 6 9 / ; . i s s n . 1 0 0 9 - 0 1 3 4 . 2 0 1 4 . 0 3 ( 下) . 0 7
0 引言
时至今 E l ,无 论 专 业人 士 还 是 普 通 信 息 技 术 用 户 都 高 频 接 触 到 这 样 几 个 专 业 术 语 ,他 们 分 别
第3 6 卷
第3 期
2 0 1 4 — 0 3 ( 下) [ 2 7 1
l 訇 化
S t o r a g e , NAS ) 和 存 储 区 域 网技 术 ( S t o r a g e Ar e a Ne t wo r k , S A N) 。其 主要存 储结构 如 图1 所 示 。 图1 所 示 的存 储 结 构 中,( 1 ) 为 DAS 存 储 、( 2 ) 为NAS 存 储 、( 3 ) 为S AN存 储 。其 中 ,直 接附 加 存 No S QL 数 据 库 , 相 对 于 传 统 数 据 库 的 关 系 、层 次 、 网状 模 式 ,Mo n g o 数 据库 是 无 模 式 的 , 由于
( 防灾科技学 院 灾害信息工程 系,北京 1 0 1 6 0 1 )
摘 要:针对云计算中不断增长的文件数据存储需求,提出非关系数据库( N o t O n l y S Q L ) 中文件型大
NoSQL数据库的应用及其适用场景

NoSQL数据库的应用及其适用场景NoSQL(Not only SQL)数据库是一种非关系型数据库,与传统的关系型数据库相比,具有更灵活的数据模型和更强大的扩展性。
在大数据时代的到来以及云计算、物联网等新兴技术的发展中,NoSQL数据库逐渐被广泛应用,并在一些特定场景下展现出独特的优势。
一、NoSQL数据库的应用1. 大数据存储与处理NoSQL数据库具有良好的横向扩展性和高可用性,可以轻松应对海量数据的存储和处理需求。
Hadoop生态系统中的HBase、Cassandra等就是以NoSQL数据库为基础构建起来的大数据存储和处理解决方案。
2. 实时数据处理NoSQL数据库适合存储与实时性要求较高的数据,例如实时分析、实时推荐等场景。
MongoDB是一种文档型NoSQL数据库,其支持快速的写入和读取操作,并提供了强大的查询和索引功能,非常适合实时数据处理。
3. 云计算平台NoSQL数据库的分布式架构使其成为构建云计算平台的理想选择。
云计算平台需要支持横向扩展、高并发访问等特性,而NoSQL数据库正好满足这些需求。
Google的Bigtable和Amazon的DynamoDB就是以NoSQL数据库为核心的云计算平台。
4. 物联网应用物联网设备产生的数据量巨大且具有高并发特性,要求数据库能够快速读写和处理海量数据。
NoSQL数据库的分布式架构和强大的可扩展性非常适合物联网应用,能够满足设备连接和数据处理的需求。
二、NoSQL数据库的适用场景1. 高并发读写NoSQL数据库在高并发读写场景下表现优异,能够有效地处理大量并发访问请求。
例如电商平台的订单系统、社交媒体的消息系统等。
2. 海量数据存储NoSQL数据库可以轻松应对海量数据的存储需求,适合存储大规模的结构化或非结构化数据。
例如日志系统、数据仓库等。
3. 长尾查询NoSQL数据库在针对非主键的查询性能上较好,特别适合于长尾查询场景。
例如电商平台的商品搜索、新闻网站的文章检索等。
大数据下的NoSQL数据库技术分析

关键词 : 大数 据 ; N o S Q L数据库 ; 数据存储 ; 一致性哈 希 中图分类号 : T P 3 1 1 文献标识码 : A 文章编号 : 1 6 7 3 . 1 1 3 1 ( 2 0 1 4 ) 0 7 — 0 0 7 2 — 0 2
节点负责 管理系统 , 监控所有 s l a v e 节 点的状态 , 给每个 s l a v e
节 点 分 配 要存 储 的数 据 , 是 数 据 存 取 的 入 口。 ma s t e r 节 点 通 常 只有 一 个 , 它 的 运 行 状 态 将 影 响 整 个 数 据存 储 系统 的 性 能 , 因 此 要 设 置 多个 ma s t e r 副本节点 , 防止 m a s t e r 节 点 不 能 正 常 工
的需求 ( Hi g h p e r f o r ma nc e ) 让服务器读写压力巨大 , 关系数据 库存储的硬盘无法承受输入输 出要求;关系数据库存储记录
数量有限和 S Q L查询效率低 , 已无法满足海量数据 的高效率 存储和访 问的需求( H u g e S t o r a g e ) ; 关系数据库扩展艰难 , 无法 通过快速增加服务器节点来满足 高扩展性和高可用性 ( H i g h S c a l a b i l i t y &&Hi g h A v a i l a b i l i t y ) 的需求 。为 了改变这种状况, No S Q L数据库应运而生 。
摘要 : 随着大数据 的不断发展和 we b 2 . 0的快速应用 , 非 关系型 、 分布式数据存储技术迅速发展 , 而No S Q L数据库的 出现
就是 为了解决 当前计 算机体 系结构在存储 大数据 时要求快速 、 可扩展 的问题 。 文章总结 了No S Q L的优势 , 分析 了N o S Q L
基于NoSQL数据库的大数据存储安全技术的研究及应用

的. 这 一数 据 库 产 品 中 . 主 要 是 由 HAS H T AB L E 进 行 数 据 存 储 的 ,与 其 他 的 存 储 数 据 相 比 , 这 种 数 据 库 存 储 结 构 十 分 简
【 文章编号 】 1 0 0 6 — 4 2 2 2 ( 2 0 1 5 ) 2 0 — 0 2 5 5 — 0 1 输 入机 器运 行 正 常 , 都 是 采 用 多节 点 数 据 以及 单 节 点 数 据 . 原 因在 于 对单 节 点数 据 的 处 理 主要 是 通过 磁 盘 的 冗 余性 .保 证
2 0 1 5年 1 0 月 下
基于N o S Q L数 据 库 的大数 据存 储 安全
技 术 的研 究及 应 用
钟 华( 四 川职业技术学院, 6 2 9 0 0 0 )
【 摘 要 】 信息时代 的到来 , 使得信息采集量 以及 处理量不 断增 多, . Z . 4 f 3 对 网络 的依赖性越来越严重。在这一背景下 , 传统的数据 存储技术 已经
忍性 、 可用性、 一 致 性 。这 就 需要 在 设 计 分 布 式 环 境 以及 系统 些 特性 ,非 关 系数 据 库 在 数 据 模 型 的灵 活性 等都 具有 独特 的 不 仅 弥 补 了关 系数 据 库 的 缺 陷 , 也 在 很 大程 度 上 省 去 了 部署 中,必须考虑到 B A S E理 论 的软 状 态 、 可 用 性 以及 一 致 优 势 , 数 据库 的 维护 成 本 。计 算机 体 系 结 构在 数 据 存 储 方 面要 求 具 性。 对 数 据 库 最 终 的 一致 性 进 行 强调 。一 致性 分 为 强 弱 一致 性 而N o S Q L致 力 于 改 变这 一 现 状 G o o g l e 两 种 .强 一 致 性 指 的 是 保 证 数 据 在 更 新 过 后 能 够 通 过 访 问 看 备 庞 大 的水 平 扩 展 性 ,
探索基于NoSQL数据库的空间大数据分布式存储策略

大数据 云计算数码世界 P.76探索基于NoSQL数据库的空间大数据分布式存储策略王艳喜 潍坊学院计算机工程学院摘要:社会的进一步发展,促使现阶段我国地理信息系统革新速度不断加快,此种背景下如何保证空间数存储质量以及处理效率,成为地理信息系统正常发挥作用的关键所在。
基于此,本文立足于NoSQL数据库角度,分析了NoSQL数据库空间数据存储基本内容,研究了空间大数据分布式存储策略,希望以下内容的论述可以推动我国科技水平稳步提升。
关键词:NoSQL数据库 MongoDB 分布式存储引言近几年,随着经济水平以及科技水平的不断提升,云技术、互联网技术以及物联网技术应用进一步广泛,各类数据信息数量逐渐增大,这为空间数据存储以及分析带来了巨大挑战,传统关系型的数据存储净模式已经无法在日常工作中发挥更大的作用。
因此,对基于NoSQL 数据库的空间大数据分布式存储策略研究有着鲜明现实意义。
1 空间数据存储技术现状就目前我国空间存储技术发展情况而言,成熟关系型数据库是空间数据存储的主流模式,除此之外,集中存储以及管理空间也是常见模式之一。
1.1集中存储模式及其局限性立足于空间数据与应用程序之间的关系而言,可以将空间引擎体系总结为以下几种模式:内置、三层结构以及两层机构。
以上结构应用具有不同效果,但总得来说可以很好的存储以及处理海量空间数据。
就目前地理信息空间数据发展情况而言,数据量大、种类多已经成为基本特点,传统空间数据存储处理系统的单一性、集中性存储方法已经无法满足数据处理需求。
具体而言,空间数据的大数据转变,存储技术也会发展改变:①存储对象的变化。
传统存储处理系统,需要面对各类视频以及音频文件,但是系统并不擅长对上述信息进行处理。
②存储能力扩展。
从存容量角度而言,传统数据库无法实现对海量数据的精准维护,并且其本身也不具备良好的扩展性以及横向延展性。
1.2基于NoSQL的空间数据单一存储模式不足NoSQL数据库在近几年的发展过程中已经得到了较为广泛的应用,并且应用效果良好,但是仍然具有一定局限性。
基于NoSQL数据库的大数据查询技术的研究与应用

基于NoSQL数据库的大数据查询技术的研究与应用作者:侯丽利董书宝来源:《无线互联科技》2015年第01期摘要:本文通过NoSQL的由来、NoSQL数据库的分类和NoSQL数据库的大数据查询技术的应用,结合了铁路客票实名制售票信息综合分析系统中的大数据操作,对基于NoSQL数据库的大数据查询技术的应用进行了研究。
关键词:NoSQL数据库;大数据;查询技术;研究;应用采用NoSQL数据库的大数据查询技术可以使数据搜索的时间在极大的程度上缩短,并且可以使数据的读写效率和横向的扩展能力大大提高,为各个领域的查询工作提供了技术基础,以下结合铁路客票实名制售票信息综合分析系统中的大数据操作进行探讨。
1 NoSQL的由来NoSQL定理来源于CAP定理,CAP定理有三点要求:可用性、分区容错性和一致性,但是这三点不能够被同时满足,只能够满足其中的任意两点。
关系型的数据库管理系统可以满足CAP定理中的可用性和一致性,没有办法满足分布式的应用,所以,在小规模的数据量时效应比较好,但是当数据量和应用的范围增长时,其性能就会大幅度地下降。
大多数的数据都是侧重于系统的可用性,相对来说对于一致性的要求就不是很高,这样,“弱一致性”理论就由此产生。
而NoSQL是利用一致性来满足可用性和分区容错性的,在近些年受到了普遍的关注,所以,NoSQL定理是由CAP理论得来的。
2 NoSQL数据库的分类2.1 高性能读写的NoSQL数据库顾名思义,这种数据库就意味着有着较强的读写性能,这种数据库经常用在一些大型的网站建设中。
2.2 文档的NoSQL数据库文档的NoSQL数据库就是在保证大数据存储的基础上,有着比较好的查询性能。
这种数据一般情况下都是用json的格式进行文档储存。
如果json的格式比较灵活,就可以实现一些字段的索引功能,这大大有利于实践关系型数据。
2.3 分布式计算的NoSQL数据库这种数据库的横向扩展能力比较好,需要在不停止服务的前提下增加更多的节点,对一个节点进行操作的时候就会同步到其他的节点上。
NoSQL数据库在大数据查询技术中的应用探析

NoБайду номын сангаасQL 数据库在大数据查询技术中的应用探析
◆梁 凡
一、NoSQL 数据库理论基础 NoSQL 数据库理论建立的前提,有着许多理论作为支撑,这其
中包括 CAP 理论、一致性哈希算法等。 1.CAP 理论 所谓的 CAP 定力,就是对于分布式的系统有着可用性、容错性
的要求,此外还要求系统能够保持一致性。但是不管是什么分布式系 统,CAP 系统都只能满足上述三种要求中的两种,没有办法同时满 足上述的三种要求。
根据实名制信息系统的数据规格,本文提出了实名制数据分析系 统的构架,并利用反响索引的技术对数据进行查询以及处理。
1.技术架构 在本文提到的系统当中,采用了分层 JAVA 的设计模式,对实名 制信息综合分析系统的架构进行了设计,本文设计的系统每层的主要 功能分别为: 1.1 数据层 数据层能够通过系统的调度,对数据进行抽取,加载到数据库当 中,供服务层进行调用。 1.2 服务层 基于数据层的数据,结合工作流机制,提供查询、比对、信息分 析等服务,能够实现业务应用。 1.3 应用层 基于接口功能,提供信息管理等应用。 1.4 展现层 在浏览器上建立出人性化的用户界面,为相关网站等提供查询服 务,并设定结果分析等栏目。 2.业务场景设计的信息 在本文设计的系统当中,典型的业务场景是根据旅客身份信息对 旅客的乘车轨迹等数据进行查询,或者根据旅客的席位、车次等乘车 信息来对旅客的身份进行验证或者查询,也可以对上述的各种条件进 行整合并查询,在场景中涉及的信息分别如下。 2.1 售票信息
参考文献: [1] 刘文韬,张志强,周强,张霞,刘国峰. 铁路客运黑名单管理体
系研究[J]. 铁路计算机应用. 2016(08) [2] 王芳,李刚,林湛,吕晓艳. 基于售票量预测的客票系统数据负
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
,2 J a n u a r 0 1 4 y
o l . 3 5 N o . 1 V
基于 N o S L 数据库的大数据查询技术的研究与应用 Q
朱 建 生 , 汪健雄 , 张 军锋
) ( 中国铁道科学研究院 电子计算技术研究所 , 北京 1 0 0 0 8 1 o S Q L 数据库理论 , 根据应用场景 的 不 同 , 将 N o S Q L 数据库分为面向高性能读写、面向文 摘 要 : 基于 N 档和面向分布式计算的 3 种类型 。 对比分析这 3 种 类 型 数 据 库 的 6 种 代 表 产 品 的 优 缺 点 , 结 合 铁 路 客 票 实 名 制 售票信息综合分析系统中的大 数 据 操 作 的 需 求 , 选 用 N o S Q L数据库中的面向分布式计算的 C a s s a n d r a数 据 库 。 基于 C a s s a n d r a数据库 , 提出铁路客票实名制信息综合分析系统的技术架构 , 并设计反向索引以构建 客 票 实 名 制 乘车信息的查询策略和查询流程 。 通过性能测试 , 验证了 N o S Q L 数据库技术在处理大数据查询 和 分 析 中 的 高 可 用性 , 可突破传统关系型数据库和数据仓库在应用中所遇到的查询性能 、 扩展性以及投资成本的瓶颈 。 o S Q L 数据库 ;C a s s a n d r a数据库 ; 大数据处理 ; 反向索引 ; 数据查询 关键词 :N 2 9 3 . 2 2 1:T P 3 9 1 文献标识码 :A 中图分类号 :U :1 / o i 0 . 3 9 6 9 i s s n . 1 0 0 1 6 3 2 . 2 0 1 4 . 0 1 . 2 1 d . 4 - j
需要满 足 最 终 一 致 性 ( v e n t u a l C o n s i s t e n c E y) 即 可 , 而且 可 以 是 异 步 的 , 即 柔 性 状 态 (S o f t-
[] ) 。而 足了 s t a t e 可用性和分区 容 错 性 , 近 年 来 得 到 了 广 泛 的 关 注 ,
; 修订日期 :2 0 1 0 0 0 1 2 7 0 0 1 3 8 6 收稿日期 :2 - - - -
( e l a t i o n a l D a t a b a s e M a n a e m e n t S s t e m, R D R - g y ) , BMS 可满足一致性和可用性 但无法很好地 支 持 分布式应用 , 因此在小规模数据量时可达到很好的 效应 ,但随着数据量和应用范围的增长 , 性能大 幅 度下降 。 对于许多大数据应用而言 , 侧重于系统的 可用性 , 而对于一致性的要求可以降低 , 从而产生 ,A , 了弱 一 致 性 理 论 B A S E ( B a s i c a l l v a i l a b l e y ,E ,即 反 A s S o f t t a t e v e n t u a l o n s i s t e n c C I D - c y) ,I ,D ( ,C A t o m i c i t o n s i s t e n c s o l a t i o n u r a b i l i t y) y y 模型 。B A S E 理论的思想是 , 对于分布式系统 , 只
节点 , 并将数据保 存 到 找 到 的 第 1 个 服 务 节 点 上 。
3 2 个 节 点 仍 然 没 有 找 到 服 务 节 点,则 如果查找了 2
将该数据保存到第 1 个服务节点上 。 ( ) 假设在原有集群的基础上新增加 1 个服务 3 , 且访问策略不变 , 则将该服务节 ) 见图 1 节点 6 ( 点逆时针方向相邻节点的 k e y 对应的数据迁移到新 增服务节点上 , 使得仅在新增服务节点 6 与服务节 点 2 之间 的 区 间 上 存 在 数 据 找 不 到 服 务 节 点 的 可 能 , 从而提高了缓存的命中率 。
0 1 1 年 底,中 国 铁 路 客 票 预 订 与 发 售 系 截 至 2 统 ( h i n a R a i l w a T i c k e t i n a n d R e s e r v a t i o n S s C - y g y
[ 1] ) 除 少 量 普 通 列 车 的 中 间 站 外, 对 于 t e m,T R S 全路旅客列 车 均 实 现 了 实 名 制 售 票 。T R S在售票
] 7 8 - ,为大数据查 库管理系统 的 进 一 步 发 展 和 补 充 [
询 、 分析和挖掘提供了有效的途径 。
o S Q L 数据库分类及选型 2 N
o S Q L 是多 种 非 关 系 型 数 据 库 的 集 合 , 根 据 N 应用场景的不同可将这些非关系数据库概括为以下 3 种类型 。 ) 面向高性能读写的 N o S Q L 数据库 1 面向高性能读写的 N o S Q L 数据库具有较为出 色的读写性能 。 在一般大型网站平台的构建中 , 通 常使用面向高性能读 写 的 N o S Q L 数 据 库,代 表 产 品主要有 M e m c a c h e d和 R e d i s数据库 。 ) 面向文档的 N o S Q L 数据库 2 面向文档的 N o S Q L 数 据 库, 在 保 证 大 数 据 存 储的基础上具有良好的查询性能 。 其数据一般采用 o n 格式的文 档 存 储 。 灵 活 的 j o n 格式使得可以 s s j 对特定字段建立索引 , 为实现关系型数据库的部分 功能提 供 了 可 能 。 代 表 产 品 主 要 有 M o n o D B和 g C o u c h D B 数据库 。
…, ( ) Cm |m = 1, M} 2, 3 S → { 其中符号 → 表示映射关系 , 式 ( 2) 表 示 S 和 C 可 属于同一层次 ,F 也可以映射至C。 主流 的 N o S Q L 数 据 库 如 HB a s e和 C a s s a n d r a 数据库等都是采用了扩展的 B i t a b l e存储模型 。 g . 3 一致性哈希算法 1 为实 现 在 集 群 中 对 服 务 器 节 点 的 数 据 访 问 , o S Q L 数据库通常 使 用 哈 希 取 模 的 方 式 将 数 据 存 N 储在服务节点中 。 如 集 群 中 可 用 服 务 节 点 数 为 N , 那么 k e y 值为 K 的 数 据 请 求 可 以 使 用 简 单 的 哈 希 函数 h K)m N 找 到 对 应 的 服 务 节 点, 该 a s h( o d 方法具有 简 单 易 用 的 特 点 。 但 随 着 服 务 节 点 的 扩 充 , 可能会使得缓存无法命中 , 导致服务节点需要 重新建立缓存并出现大量的缓存数据迁移 , 从而引 起系统负荷剧 增 而 宕 机 的 可 能 。 为 了 解 决 该 问 题 , 9 9 7年 D a v i d 等学者提出了一致性哈希算法 ( o n 1 c - [ 6] ) 。N s i s t e n t h a s h i n o S Q L 数据库中的一致性哈 g 希算法步骤如下 。 ( ) 将多个 服 务 节 点 看 作 圆 环 上 的 多 个 节 点 1 2 3 , ( 个 服 务 节 点, 顺 时 针 分 布 ) 理论 上 最 多 支 持 2 计算出集群中每个服务节点的哈希值 , 并将其分配 到圆环中的节点上 , 如图 1 所示 ( 以 5 个服务节点 ; 然后 使 用 同 样 的 方 法 求 出 所 需 存 储 的 k 为例 ) e y 的哈 希 值 , 也 将 其 分 配 到 该 环 形 区 间 的 服 务 节 点上 。 ( ) 从数据映射到的位置开始顺时针查找服务 2
图 1 一致性哈希算法示意图
对于分布式大数据系统而言 , 多数情况下只需 要基于 B A S E 理论寻 求 C A P平衡中的可用性和分 区容错性 , 并达到满足高并发的需求 , 对一致性的 要求只需 要 满 足 B A S E 最 终 一 致 性 即 可 。N o S Q L 由于具有最终一致性特性 , 其作为传统关系型数据
足系统的功能和性能需求 。
1 N o S Q L 数据库理论基础
o S Q L 数据库是由许多理论支撑作为前提 的 , N 其中与建立铁路客票实名制查询分析系统相关的理 论包括 C A P 理 论、扩 展 B i t a b l e存 储 模 型 和 一 致 g 性哈希算法 。 . 1 C A P 理论 1 A P 定理 : 对 于 分 布 式 系 统 的 要 求 体 现 在 一 C 致性 、 可用性和分区容错性 ; 对于任一事实存在的 分布式系统 , 只可同时满足上述 3 个方面中的任意
[] 2 点 , 而无法三者兼顾 2 。 根据 C A P 理 论, 关 系 型 数 据 库 管 理 系 统
时记录每个乘车人的乘车信息和实名身份信息 , 随 着实名制售票数据的长期积累和不断完善 , 急需研 究铁路客票实名制信息查询技术 , 并建立铁路客票 实名制信息查询分析系统 , 用于统计 、 分析和查询 售检票过程中产生的实名制售票信息 , 以丰富铁路 客运业务分析数据类型 , 全面挖掘旅客购票和乘车 的规律 , 为铁路客运客户关系管理奠定基础 。 由此对铁路客票实名制查询分析系统提出如下 需求 : 具有较高横向扩展能力的数据存储机制 ; 针 对大数据进行查询策略专项优化 ; 具有较高级的数 据挖掘分析和研判应用 。 而建立该系统仅依靠关系 型数据库已经无法满足需求 , 必须借助数据仓库存 储策略和数据挖掘技术 。 近年来 , 随着高性能计算 技术的高速发展 ,带动了分布式计算 、 并行计算和 虚拟化技术的不断进步 ,为寻求低成本 、 高性能的 数据挖掘 计 算 带 来 了 机 遇 。 因 此 , 本 文 基 于 N o - , 不 S Q L( N o t O n l S t r u c t u r e d Q u e r L a n u a e y y g g 仅限于结构化查询语言 ) 数据库技术 , 提出铁路客 票实名制信息综合分析系统技术架构 , 设计反向索 引以构建高性能的数据查询策略及处理流程 , 以满