建议
不要调用HBaseAdmin的closeRegion方法关闭一个Region
HBaseAdmin中,提供了关闭一个Region的接口:
//hostAndPort可以指定,也可以不指定。
public void closeRegion(final String regionname, final String hostAndPort)
通过该方法关闭一个Region,HBase Client端会直接发RPC请求到Region所在的RegionServer上,整个流程对Master而言,是不感知的。也就是说,尽管RegionServer关闭了这个Region,但是,在Master侧,还以为该Region是在该RegionServer上面打开的。假如,在执行Balance的时候,Master计算出恰好要转移这个Region,那么,这个Region将无法被关闭,本次转移操作将无法完成(关于这个问题,在当前的HBase版本中的处理的确还欠缺妥当)。
因此,暂时不建议使用该方法关闭一个Region。
采用PutList模式写数据
HTable类中提供了两种写数据的接口:
- public void put(final Put put) throws IOException
- public void put(final List<Put> puts) throws IOException
第1种方法较之第2种方法,在性能上有明显的弱势。因此,写数据时应该采用第2种方法。
Scan时指定StartKey和EndKey
一个有确切范围的Scan,在性能上会带来较大的好处。
代码示例:
Scan scan = new Scan(); scan.addColumn(Bytes.toBytes("familyname"),Bytes.toBytes("columnname")); scan.setStartRow( Bytes.toBytes("rowA")); // 假设起始Key为rowA scan.setStopRow( Bytes.toBytes("rowB")); // 假设EndKey为rowB for(Result result : demoTable.getScanner(scan)) { // process Result instance }
不要关闭WAL
WAL是Write-Ahead-Log的简称,是指数据在入库之前,首先会写入到日志文件中,借此来确保数据的安全性。
WAL功能默认是开启的,但是,在Put类中提供了关闭WAL功能的接口:
public void setWriteToWAL(boolean write)
因此,不建议调用该方法将WAL关闭(即将writeToWAL设置为False),因为可能会造成最近1S(该值由RegionServer端的配置参数hbase.regionserver.optionallogflushinterval决定,默认为1S)内的数据丢失。但如果在实际应用中,对写入的速率要求很高,并且可以容忍丢失最近1S内的数据的话,可以将该功能关闭。
创建一张表或Scan时设定blockcache为true
HBase客户端建表和scan时,设置blockcache=true。需要根据具体的应用需求来设定它的值,这取决于有些数据是否会被反复的查询到,如果存在较多的重复记录,将这个值设置为true可以提升效率,否则,建议关闭。
建议按默认配置,默认就是true,只要不强制设置成false就可以,例如:
HColumnDescriptor fieldADesc = new HColumnDescriptor("value".getBytes());
fieldADesc.setBlockCacheEnabled(false);