提升HBase实时读数据效率

操作场景

在大数据处理场景中，当业务系统需要从HBase读取海量数据时，可能因网络延迟或数据分布不均导致性能瓶颈。可通过优化服务端参数配置、调整Scan操作参数等方案实现性能提升。

前提条件

调用HBase的get或scan接口，从HBase中实时读取数据。

操作步骤

读数据服务端调优

登录FusionInsight Manager，选择“集群 > 服务 > 配置 > 全部配置”，进入HBase服务参数“全部配置”界面，配置以下相关参数以提升HBase读数据性能。登录集群Manager具体操作，请参考访问MRS集群Manager。

如果同时存在读和写的操作，这两种操作的性能会互相影响。如果写入导致的flush和compaction操作频繁发生，会占用大量的磁盘IO操作，从而影响读取的性能。如果写入导致阻塞较多的compaction操作，就会出现Region中存在多个HFile的情况，从而影响读取的性能。所以如果读取的性能不理想时，也要考虑写入的配置是否合理。

表1 影响实时读数据配置项
配置参数	描述	默认值
GC_OPTS	HBase利用内存完成读写操作。提高HBase内存可以有效提高HBase性能。 “GC_OPTS”主要需要调整HeapSize的大小和NewSize的大小。调整HeapSize大小的时候，建议将“Xms”和“Xmx”设置成相同的值，这样可以避免JVM动态调整HeapSize大小的时候影响性能。调整NewSize大小的时候，建议把其设置为HeapSize大小的1/8。 HMaster：当HBase集群规模越大、Region数量越多时，可以适当调大HMaster的“GC_OPTS”参数。 RegionServer：RegionServer需要的内存一般比HMaster要大。在内存充足的情况下，HeapSize可以相对设置大一些。主HMaster的HeapSize为4GB的时候，HBase集群可以支持100000 Region数的规模。根据经验值，集群每增加35000个Region，HeapSize增加2GB，主HMaster的HeapSize不建议超过32GB。	HMaster -server -Xms4G -Xmx4G -XX:NewSize=512M -XX:MaxNewSize=512M -XX:MetaspaceSize=128M -XX:MaxMetaspaceSize=512M -XX:+UseConcMarkSweepGC -XX:+CMSParallelRemarkEnabled -XX:CMSInitiatingOccupancyFraction=65 -XX:+PrintGCDetails -Dsun.rmi.dgc.client.gcInterval=0x7FFFFFFFFFFFFFE -Dsun.rmi.dgc.server.gcInterval=0x7FFFFFFFFFFFFFE -XX:-OmitStackTraceInFastThrow -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -XX:+UseGCLogFileRotation -XX:NumberOfGCLogFiles=10 -XX:GCLogFileSize=1M Region Server -server -Xms6G -Xmx6G -XX:NewSize=1024M -XX:MaxNewSize=1024M -XX:MetaspaceSize=128M -XX:MaxMetaspaceSize=512M -XX:+UseConcMarkSweepGC -XX:+CMSParallelRemarkEnabled -XX:CMSInitiatingOccupancyFraction=65 -XX:+PrintGCDetails -Dsun.rmi.dgc.client.gcInterval=0x7FFFFFFFFFFFFFE -Dsun.rmi.dgc.server.gcInterval=0x7FFFFFFFFFFFFFE -XX:-OmitStackTraceInFastThrow -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -XX:+UseGCLogFileRotation -XX:NumberOfGCLogFiles=10 -XX:GCLogFileSize=1M
hbase.regionserver.handler.count	表示RegionServer在同一时刻能够并发处理多少请求。如果设置过高会导致激烈线程竞争，如果设置过小，请求将会在RegionServer长时间等待，降低处理能力。根据资源情况，适当增加处理线程数。建议根据CPU的使用情况，可以选择设置为100至300之间的值。	200
hfile.block.cache.size	HBase缓存区大小，主要影响查询性能。根据查询模式以及查询记录分布情况来决定缓存区的大小。如果采用随机查询使得缓存区的命中率较低，可以适当降低缓存区大小。	当offheap关闭时，默认值为“0.25”。当offheap开启时，默认值是“0.1”。

读数据客户端调优
Scan数据时需要设置caching（一次从服务端读取的记录条数，默认是1），如果使用默认值读性能会降到极低。

当不需要读一条数据所有的列时，需要指定读取的列，以减少网络IO。

只读取RowKey时，可以为Scan添加一个只读取RowKey的filter（FirstKeyOnlyFilter或KeyOnlyFilter）。

读数据表设计调优

在hbase shell中设置以下表相关参数，以提升实时读HBase数据性能。

表2 影响实时读数据相关参数
配置参数	描述	默认值
COMPRESSION	配置数据的压缩算法，该压缩指的是HFile中block级别的压缩。对于可以压缩的数据，配置压缩算法可以有效减少磁盘的IO，从而达到提高性能的目的。并非所有数据都可以进行有效压缩。例如一张图片的数据，因为图片一般已经是压缩后的数据，所以压缩效果有限。常用的压缩算法是SNAPPY，因为它有较好的Encoding/Decoding速度和可以接受的压缩率。	NONE
BLOCKSIZE	配置HFile中block块的大小，不同的block块大小，可以影响HBase读写数据的效率。越大的block块，配合压缩算法，压缩的效率就越好；但是由于HBase的读取数据是以block块为单位的，所以越大的block块，对于随机读的情况，性能可能会比较差。如果要提升写入的性能，一般扩大到128KB或者256KB，可以提升写数据的效率，也不会影响太大的随机读性能。单位为字节。	65536
DATA_BLOCK_ENCODING	配置HFile中block块的编码方法。当一行数据中存在多列时，一般可以配置为“FAST_DIFF”，可以有效地节省数据存储的空间，从而提升性能。	NONE