hbase集群性能测试

合集下载

熟悉常用的hbase操作实验报告

实验名称：熟悉常用的HBase操作实验目的：通过实际操作，掌握HBase的常用操作，包括创建表、插入数据、查询数据、删除数据等基本操作，以及通过Java API进行HBase数据的CRUD操作。

实验环境：HBase 2.2.3版本，JDK 1.8，Eclipse IDE实验内容：1. 准备工作在实验开始之前，需确保已经安装好了HBase和JDK，并且环境变量已经配置正确。

需要在Eclipse中创建一个Java项目，并将HBase 相关的jar包引入项目中。

2. 创建HBase表第一步是创建一个HBase表，首先需要连接HBase，并创建一个HBaseAdmin对象，然后调用createTable方法创建一个表。

表的结构包括表名、列簇名等信息。

3. 插入数据通过Java API向HBase表中插入一些测试数据，需要首先创建一个Put对象，然后为Put对象指定rowkey、列族、列名和值等信息，最后调用Table的put方法将数据插入到HBase表中。

4. 查询数据使用Scan对象进行数据查询操作，Scan对象可以设置起始行键和结束行键，还可以设置过滤器进行精准查询。

查询结果以Result对象的形式返回，可以通过Result对象获取指定的列簇、列名和值。

5. 更新数据使用Put对象向HBase表中插入数据时，如果指定的行键已经存在，则会执行更新操作。

6. 删除数据可以通过Delete对象删除HBase表中的数据，Delete对象可以指定待删除数据的rowkey、列族和列名。

实验步骤：1. 连接HBase步骤如下：1) 配置HBase的连接信息，包括zk集裙位置区域、端口号等；2) 创建HBase配置对象Configuration；3) 创建HBase连接对象Connection。

2. 创建HBase表步骤如下：1) 创建HBaseAdmin对象；2) 创建表描述对象TableDescriptor；3) 创建列族描述对象ColumnFamilyDescriptor；4) 调用createTable方法创建表。

结合场景的HBase性能分析

不去或者不能满足需求。造成这一现象的原因就是实际应用中需要针对应用来设计
不同的参数，不同的参数对性能的影响大不相而
同。另外，不同的数据对性能的影响也需要考虑。
一
般来说，际应用场景通常是在项目开发时由吞吐量和响应时间实对在线产品来说，衡量性能通常体现在两方面：
Ｈａｅ一个分布式、可扩展的基于ＨＤＳ大数＿写比例如何。Ｂｓ是Ｆ的读
据存储产品，可用于拥有海量数据的在线服务。
－条数据大小大约是多少，多少列。单有
目前，ａｅｏｋＡｏｅｅａ、ａｏ！Ｗｉｅ＿据需要保存多久，体数据有多大。Ｆｃｂｏ、ｄｂ、ＢｙＹｈｏ和３ｔｒｔ数总等国外大公司都在使用它。国内起步相对较晚，
ｃｅｔｌｎ线程数ｉ
１ｆｑｃｌ
２０
ｌｆｑｃｌ
５０
ｌｆｑｃｌ
１Ｏ０
ｌｆｑｃｌ
２００
Ｑｓｐ
３６６４０
４４６２４
５３２０７
６７３４Ｏ
Ｒｅｐｎｅｉ（）ｓｏｓｍｅｍｓｔ
Ｏ７．５
１７＿２
１８．９
ＰＭ或Ｐ评估出来的，Ｄ包括以下这些情况。
・有多少热点数据？缓存命中率大约是多少。
１０Ｏ
足够高的吞吐量和足够短的响应延时。足够高的

Phoenix_on_HBase性能测试报告

Phoenix on HBase性能测试报告•目的•软件版本•硬件环境•测试工具•测试说明o素材•场景o数据写入o K-V(RowKey)查询o即席查询o并发查询•结果与分析o数据写入o K-V(RowKey)查询o即席查询o并发查询•结论•测试中发现的“特点”目的测试phoenix引擎在hbase上的数据查询与数据写入的性能，探索phoenix的特性和限制软件版本phoenix-4.8.0-HBase-1.1HBase-1.1.6硬件环境四台配置相同的PC机搭建HBase集群环境，其中一台做HMaster，另外三台做Region部件规格CPU Intel(R)Core(TM)**********************4CoreMEM 64G测试工具squirrel-sql-3.5.3 apache-jmeter-3.0测试说明使用基于jdbc 连接的squirrel-sql-3.5.3进行单用户下的sql 性能测试使用基于jdbc 连接的apache-jmeter-3.0进行多线程并发测试素材Reinfo 表（测点基础信息表）列名类型注释是否主键 Data_idbigint测点IDPK DataName varchar(300) 测点名DataType varchar(100) 测点的数据类型（电压、电流、有功、无功等）byzid varchar(300) 变电站编号 orgidvarchar(300) 组织机构编号应用场景：仅用于存放测点的档案信息，用于查询范围的条件检索过滤时使用测试数据规模：5千 CurrData 表（当日数据表）列名类型注释是否主键 Data_id bigint测点ID PKdate_time DATE 时点（2016-09-19 00:00，2016-09-19 00:01 ... 2016-09-19 23:59） PK data float测试值 namevarchar(300) 测点名（根据reinfo 冗余字段）DataType varchar(100)测点的数据类型（电压、电流、有功、无功等）（根据reinfo 冗余字段） byzidvarchar(300) 变电站编号（根据reinfo 冗余字段）orgid varchar(300) 组织机构编号（根据reinfo 冗余字段）应用场景：按测点编号进行查询，每次通常查询1个测点的数据，但有时也会查询几个测点的数据测试数据规模：7百万 HisData （历史数据表）列名类型注释是否主键 Data_id bigint测点ID PKdate_time DATE 时点（2016-09-19 00:00，2016-09-19 00:01 ... 2016-09-19 23:59） PK data float测试值 namevarchar(300) 测点名（根据reinfo 冗余字段）DataType varchar(100)测点的数据类型（电压、电流、有功、无功等）（根据reinfo 冗余字段） byzid varchar(300) 变电站编号（根据reinfo 冗余字段） orgidvarchar(300) 组织机构编号（根据reinfo 冗余字段）应用场景：按测点编号进行查询，每次通常查询1个测点的数据，但有时也会查询几个测点的数据测试数据规模：5千万场景数据写入评估数据写入的性能，分别对数据导入和数据插入两种方式评测。

网易视频云技术分享：HBase BlockCache系列-性能对比测试报告

网易视频云技术分享：HBaseBlockCache系列－性能对比测试报告网易视频云是网易倾力打造的一款基于云计算的分布式多媒体处理集群和专业音视频技术，提供稳定流畅、低时延、高并发的视频直播、录制、存储、转码及点播等音视频的PAAS 服务，在线教育、远程医疗、娱乐秀场、在线金融等各行业及企业用户只需经过简单的开发即可打造在线音视频平台。

HBaseBlockCache系列文章到了终结篇，几个主角的是是非非也该有个了断了，在SlabCache被早早地淘汰之后，站在华山之巅的也就仅剩LRU君（LRUBlockCache）和CBC君（binedBlockCache）。

谁赢谁输，我说了不算，你说了也不算，那就来让数据说话。

这篇文章主要对比LRU君和CBC君（offheap模式）分别在四种场景下几种指标（GC、Throughput、Latency、CPU、IO等）的表现情况。

四种场景分别是缓存全部命中、少大部分缓存命中、少量缓存命中、缓存基本未命中。

需要注意的是，本文的所有数据都来自社区文档，在这里分享也只是给大家一个参考，更加详细的测试数据可以阅读文章《paring BlockCache Deploys》和HBASE-11323附件报告。

说明：本文所有图都以时间为横坐标，纵坐标为对应指标。

每X图都会分别显示LRU 君和CBC君的四种场景数据，总计八种场景，下面数据表示LRU君的四种场景分布在时间段21:36:39～22:36:40，CBC君的四种场景分布在时间段23:02:16～00:02:17，看图的时候需要特别注意。

LRU君：Tue Jul 22 21:36:39 PDT 2014 run size=32, clients=25 ; lrubc time=1200 缓存全部命中Tue Jul 22 21:56:39 PDT 2014 run size=72, clients=25 ; lrubctime=1200 大量缓存命中Tue Jul 22 22:16:40 PDT 2014 run size=144, clients=25 ;lrubc time=1200 少量缓存命中Tue Jul 22 22:36:40 PDT 2014 run size=1000, clients=25 ; lrubc time=1200 缓存基本未命中CBC君：Tue Jul 22 23:02:16 PDT 2014 run size=32, clients=25 ; buckettime=1200 缓存全部命中Tue Jul 22 23:22:16 PDT 2014 run size=72, clients=25 ; bucket time=1200 大量缓存命中Tue Jul 22 23:42:17 PDT 2014 run size=144, clients=25 ; bucket time=1200 少量缓存命中Wed Jul 23 00:02:17 PDT 2014 run size=1000, clients=25 ; bucket time=1200 缓存基本未命中GCGC指标是HBase运维最关心的指标，出现一次长时间的GC就会导致这段时间内业务方的所有读写请求失败，如果业务方没有很好的容错，就会出现丢数据的情况出现。

hbase jmx指标

hbase jmx指标HBase JMX指标是一种用于监控和管理HBase集群的工具。

在大规模的数据存储和处理中，了解系统的运行状况对于保证数据的可靠性和性能至关重要。

通过使用HBase JMX指标，管理员可以获取关于HBase集群的各种性能指标，从而实时监控和管理系统。

在本文中，我们将一步一步地回答有关HBase JMX指标的问题，并探讨这些指标如何帮助我们了解和优化HBase集群的性能。

第一步：什么是JMX？JMX是Java管理扩展的缩写，是一种用于监控和管理Java应用程序的标准API。

它提供了一种统一的方式来监控应用程序的运行状况和性能，并且可以与各种监控工具和管理工具集成。

JMX通过使用MBean（管理对象）来公开应用程序的内部状态和操作，并通过使用远程JMX协议进行通信。

第二步：什么是HBase？HBase是一个构建在Hadoop文件系统（HDFS）上的分布式、可扩展的面向列的NoSQL数据库。

它提供了实时读写访问大规模数据集的功能，并具有高可靠性和可伸缩性。

HBase的设计目标是能够处理大量的数据，并提供快速的读写操作。

第三步：为什么需要监控HBase集群？在一个大规模的HBase集群中，有许多复杂的组件和进程在工作，包括主节点、区域服务器和协处理器。

为了确保系统的稳定性和性能，我们需要实时监控集群中各个组件的运行状况。

监控HBase集群可以帮助我们及时发现和解决潜在的故障和性能瓶颈，从而确保系统的可靠性和高效性。

第四步：什么是HBase JMX指标？HBase JMX指标是一系列用于监控和管理HBase集群的指标。

这些指标反映了HBase集群的各个组件的状态和性能，如主节点、区域服务器、协处理器等。

通过使用HBase JMX指标，管理员可以实时获取关于集群的各种信息，如读写请求的数量、处理时间、错误日志等。

第五步：如何使用HBase JMX指标？要使用HBase JMX指标，我们首先需要启动HBase集群，并确保JMX 监控已启用。

网易视频云技术分享：HBase优化实战

网易视频云技术分享：HBase优化实战网易视频云是网易倾力打造的一款基于云计算的分布式多媒体处理集群和专业音视频技术，提供稳定流畅、低时延、高并发的视频直播、录制、存储、转码及点播等音视频的PAAS 服务，在线教育、远程医疗、娱乐秀场、在线金融等各行业及企业用户只需经过简单的开发即可打造在线音视频平台。

现在，网易视频云的技术专家给大家分享一则技术文：HBase 优化实战。

背景Datastream一直以来在使用HBase分流日志，每天的数据量很大，日均大概在80亿条，10TB的数据。

对于像Datastream这种数据量巨大、对写入要求非常高，并且没有复杂查询需求的日志系统来说，选用HBase作为其数据存储平台，无疑是一个非常不错的选择。

HBase是一个相对较复杂的分布式系统，并发写入的性能非常高。

然而，分布式系统从结构上来讲，也相对较复杂，模块繁多，各个模块之间也很容易出现一些问题，所以对像HBase这样的大型分布式系统来说，优化系统运行，及时解决系统运行过程中出现的问题也变得至关重要。

正所谓：“你”若安好，便是晴天；“你”若有恙，我便没有星期天。

历史现状HBase交接到我们团队手上时，已经在线上运行有一大段时间了，期间也偶尔听到过系统不稳定的、时常会出现一些问题的言论，但我们认为：一个能被大型互联网公司广泛采用的系统(包括Facebook，twitter，淘宝，小米等)，其在性能和可用性上是毋庸置疑的，何况像Facebook这种公司，是在经过严格选型后，放弃了自己开发的Cassandra系统，用HBase取而代之。

既然这样，那么，HBase的不稳定、经常出问题一定有些其他的原因，应用反应经常会过段时间出现数据写入缓慢，导致应用端数据堆积现象，是否可以通过增加机器数量来解决？其实，那个时候，我们本身对HBase也不是很熟悉，对HBase的了解，也仅仅在做过一些测试，了解一些性能，对内部结构，实现原理之类的基本上都不怎么清楚。

测试一下：HBase 40道测试题,你能答对几道

测试一下：HBase 40道测试题，你能答对几道2016-08-02 10:43 来源：未知编辑：admin 点击： 145 次分享到第一部分：基础能力1. HBase来源于哪篇博文？CA The Google File SystemB MapReduceC BigTableD Chubby2. 下面对HBase的描述哪些是正确的？B、C、DA 不是开源的B 是面向列的C 是分布式的D 是一种NoSQL数据库3. HBase依靠（）存储底层数据AA HDFSB HadoopC MemoryD MapReduce4. HBase依赖（）提供消息通信机制AA ZookeeperB ChubbyC RPCD Socket5. HBase依赖（）提供强大的计算能力DA ZookeeperB ChubbyC RPCD MapReduce6. MapReduce与HBase的关系，哪些描述是正确的？B、CA 两者不可或缺，MapReduce是HBase可以正常运行的保证B 两者不是强关联关系，没有MapReduce，HBase可以正常运行C MapReduce可以直接访问HBaseD 它们之间没有任何关系7. 下面哪些选项正确描述了HBase的特性？A、B、C、DA 高可靠性B 高性能C 面向列D可伸缩8. 下面与Zookeeper类似的框架是？DA ProtobufB JavaC KafkaD Chubby9. 下面与HDFS类似的框架是？CA NTFSB FAT32C GFSD EXT310. 下面哪些概念是HBase框架中使用的？A、CA HDFSB GridFSC ZookeeperD EXT3第二部分：HBase核心知识点11. LSM含义是？AA 日志结构合并树B 二叉树C 平衡二叉树D 长平衡二叉树12. 下面对LSM结构描述正确的是？A、CA 顺序存储B 直接写硬盘C 需要将数据Flush到磁盘D 是一种搜索平衡树13. LSM更能保证哪种操作的性能？BA 读B 写C 随机读D 合并14. LSM的读操作和写操作是独立的？AA 是。

熟悉常用的hbase操作实验报告 -回复

熟悉常用的hbase操作实验报告-回复熟悉常用的HBase操作实验报告一、引言HBase是一个面向大数据存储和处理的分布式数据库，其具有高可靠性、高性能、高可扩展性等特点。

本实验报告旨在通过实践来熟悉常用的HBase操作，掌握其基本使用方法和操作流程。

二、实验环境搭建1. 安装HBase首先，我们需要在一台服务器上安装HBase，可以通过从官网下载二进制文件并解压缩来完成安装。

2. 配置HBase在安装完成后，我们需要进行一些配置。

首先，打开`hbase-site.xml`文件进行配置，包括指定Zookeeper的地址，配置HBase的根目录等。

3. 启动HBase在安装和配置完成后，使用`start-hbase.sh`命令启动HBase。

三、HBase基本操作1. 创建表使用HBase shell工具，可以通过`create`命令来创建表。

例如：create 'student', 'info', 'scores'以上命令创建了一个名为`student`的表，该表包括两个列族`info`和`scores`。

2. 插入数据使用`put`命令可以向表中插入数据。

例如：put 'student', '001', 'info:name', 'Tom'put 'student', '001', 'info:age', '18'put 'student', '001', 'scores:math', '95'以上命令向`student`表中插入了一条记录，该记录的行键为`001`，包括列`info:name`、`info:age`和`scores:math`，其对应的值分别为`Tom`、`18`和`95`。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数据导入测试：
机器配置：Hadoop、hbase、zookeeper、hive。

主节点16G，其他8G，硬盘各80G。

共4个节点。

管理地址http://10.105.11.220:7180 （四台都为一个物理服务器上的虚拟机）
集群状态
导入方式：
通过sqoop框架将247中的MySQL表basic导入到hbase当中，basic表中共有数据5807447条，数据迁移共花费时间1小时。

期间hbase，hdfs等组件不断出现问题，最后导致进程终止，之后我将hbase各个服务器的默认配置调低，才使得数据迁移顺利完成，但是调低配置的结果就是降低速度。

总结：集群为一台服务器中的四台虚拟机，意味着共享CPU、磁盘、内存，在测试中由于内存空间不足，调低了hbase的一些配置，除此之外硬盘和网络成为主要瓶颈，导致写效率低下。

查询环境，580万条记录，查询条件：行键，查询内容为一个cell，消耗时间为328ms
查询一个列族中的多个列所消耗的时间与查询一列消耗的时间基本一样264 相差100毫秒左右。