HBase本地二级索引介绍
场景介绍
HBase是基于Key-Value的分布式存储数据库,基于rowkeys对表中的数据按照字典进行排序。如果您根据指定的rowkey查询数据,或者扫描指定rowkey范围内的数据,HBase可以快速查找到需要读取的数据,从而提高效率。在大多数实际情况下,会需要查询列值为XXX的数据。HBase提供了Filter功能来查询具有特定列值的数据:所有数据按RowKey的顺序进行扫描,然后将数据与特定的列值进行匹配,直到找到所需的数据。过滤器功能会scan一些不必要的数据以获取所需的数据。因此,Filter功能不能满足高性能标准频繁查询的要求。
这就是HBase HIndex产生的背景。如图1所示,HBase HIndex为HBase提供了能够根据特定的列值进行索引的能力,使得查询会变得更快。
- 索引数据不支持滚动升级。
- 复合索引:用户必须将所有参与复合索引的列全部放入/删除,否则会导致数据不一致。
- 用户不应将任何split policy显式地配置到已建立索引的数据表中。
- 不支持mutation操作,如increment、append。
- 不支持列索引的版本maxVersions > 1。
- 添加索引的列值不应超过32KB。
- 当用户数据由于列族级TTL失效而被删除时,相应的索引数据不会立即删除。索引数据将在major compaction期间被删除。
- 创建索引后,不应更改用户列族的TTL。
- 如果在创建索引后将列族TTL更改为更高值,则应删除并重新创建索引,否则某些已生成的索引数据可能比用户数据先删除。
- 如果在创建索引后将列族TTL更改为较低值,则索引可能会晚于用户数据被删除。
- HBase表启动容灾之后,主集群新建二级索引,索引表变更不会自动同步到备集群。要实现该容灾场景,必须执行以下操作:
- 在主表创建二级索引之后,需要在备集群使用相同方法创建结构、名称完全相同的二级索引。
- 在主集群手动将索引列族(默认是d)的REPLICATION_SCOPE设置为1。
配置HBase本地二级索引
- 登录MRS控制台,单击集群名称,选择“组件管理”。
- 在组件列表中选择“HBase > 服务配置”,在下拉列表中将“基础配置”切换为“全部配置”,进入HBase服务参数“全部配置”界面。
- 在HBase全部配置界面查看参数。
配置入口
配置项
默认值
描述
“HMaster > 系统”
hbase.coprocessor.master.classes
org.apache.hadoop.hbase.hindex.server.master.HIndexMasterCoprocessor,com.xxx.hadoop.hbase.backup.services.RecoveryCoprocessor,org.apache.ranger.authorization.hbase.RangerAuthorizationCoprocessor,org.apache.hadoop.hbase.security.access.ReadOnlyClusterEnabler,org.apache.hadoop.hbase.rsgroup.RSGroupAdminEndpoint
该协处理器用于在启用Hindex功能后处理Master级的操作,比如创建索引meta表,添加索引,删除索引,删除表删除索引元数据。
“RegionServer > RegionServer”
hbase.coprocessor.regionserver.classes
org.apache.hadoop.hbase.hindex.server.regionserver.HIndexRegionServerCoprocessor,org.apache.hadoop.hbase.JMXListener,org.apache.ranger.authorization.hbase.RangerAuthorizationCoprocessor
该协处理器用于在启用Hindex功能后实际上处理Master下发到RegionServer上的操作。
hbase.coprocessor.region.classes
org.apache.hadoop.hbase.hindex.server.regionserver.HIndexRegionCoprocessor,org.apache.hadoop.hbase.security.token.TokenProvider,com.xxx.hadoop.hbase.backup.services.RecoveryCoprocessor,org.apache.ranger.authorization.hbase.RangerAuthorizationCoprocessor,org.apache.hadoop.hbase.security.access.SecureBulkLoadEndpoint,org.apache.hadoop.hbase.security.access.ReadOnlyClusterEnabler,org.apache.hadoop.hbase.coprocessor.MetaTableMetrics
该协处理器用于在启用Hindex功能后实际上操作Region上的数据。
hbase.coprocessor.wal.classes
org.apache.hadoop.hbase.hindex.server.regionserver.HIndexRegionServerCoprocessor,org.apache.hadoop.hbase.JMXListener,org.apache.ranger.authorization.hbase.RangerAuthorizationCoprocessor
该协处理器用于Replication,其会过滤掉索引数据以避免索引数据发送到对等集群中,对等集群中的数据索引数据将会自己生成。
该参数仅MRS 3.x之前版本支持。
- 上述默认值为启用HBase HIndex功能后需额外配置的值,当前支持HBase HIndex功能的MRS集群默认已配置。
- 必须确保Master参数配置在HMster上,region/regionserver参数配置在RegonServer上。
相关接口
使用HIndex的API都在类org.apache.hadoop.hbase.hindex.client.HIndexAdmin中,相关接口介绍如下:
基于HBase本地二级索引查询数据
在具有索引的用户表中,可以使用Filter来查询数据。对于创建单索引和组合索引的用户表,使用过滤器查询的结果与没有使用索引的表相同,但数据查询性能高于没有使用索引的表。
索引的使用规则如下:
- 对于为一个或多个列创建单个索引的情况:
- 当将此列用于AND或OR查询筛选时,使用索引可以提高查询性能。
例如,Filter_Condition(IndexCol1)AND / OR Filter_Condition(IndexCol2)。
- 当在查询中使用“索引列和非索引列”进行过滤时,此索引可以提高查询性能。
例如,Filter_Condition(IndexCol1)AND Filter_Condition(IndexCol2)AND Filter_Condition(NonIndexCol1)。
- 当在查询中使用“索引列或非索引列”进行筛选时,但不使用索引,查询性能不会提高。
例如,Filter_Condition(IndexCol1)AND / OR Filter_Condition(IndexCol2) OR Filter_Condition(NonIndexCol1)。
- 当将此列用于AND或OR查询筛选时,使用索引可以提高查询性能。
- 对于为多个列创建组合索引的情况:
- 当用于查询的列是组合索引的全部或部分列并且与组合索引具有相同的顺序时,使用索引会提高查询性能。
- 该索引在以下情况下生效:
Filter_Condition(IndexCol1)AND Filter_Condition(IndexCol2)AND Filter_Condition(IndexCol3)
Filter_Condition(IndexCol1)AND Filter_Condition(IndexCol2)
FILTER_CONDITION(IndexCol1)
- 该索引在下列情况下不生效:
Filter_Condition(IndexCol2)AND Filter_Condition(IndexCol3)
Filter_Condition(IndexCol1)AND Filter_Condition(IndexCol3)
FILTER_CONDITION(IndexCol2)
FILTER_CONDITION(IndexCol3)
- 该索引在以下情况下生效:
- 当在查询中使用“索引列和非索引列”进行过滤时,使用索引可提高查询性能。
Filter_Condition(IndexCol1)AND Filter_Condition(NonIndexCol1)
Filter_Condition(IndexCol1)AND Filter_Condition(IndexCol2)AND Filter_Condition(NonIndexCol1)
- 当在查询中使用“索引列或非索引列”进行筛选时,但不使用索引,查询性能不会提高。
Filter_Condition(IndexCol1)OR Filter_Condition(NonIndexCol1)
(Filter_Condition(IndexCol1)AND Filter_Condition(IndexCol2))OR(Filter_Condition(NonIndexCol1))
- 当多个列用于查询时,只能为组合索引中的最后一列指定值范围,而其他列只能设置为指定值。
例如,为C1,C2和C3创建组合索引。在范围查询中,只能为C3设置数值范围,过滤条件为“C1 = XXX,C2 = XXX,C3 = 数值范围”。
- 当用于查询的列是组合索引的全部或部分列并且与组合索引具有相同的顺序时,使用索引会提高查询性能。
HBase本地二级索引查询策略选择
使用SingleColumnValueFilter或SingleColumnRangeFilter,它会在一个在过滤条件中提供确定值column_family:qualifierpair(称该列为col1)。
若col1作为表上的第一个索引列,那么该表上的任何索引都可以成为查询期间使用的候选索引。例如:
如果有col1上的索引,可以将此索引作为候选索引,因为col1是此索引的第一列也是唯一的列;如果在col1和col2上有另一个索引,可以将此索引视为候选索引,因为col1是索引列列表中的第一列。另一方面,如果在col2和col1上有一个索引,则不能将此索引作为候选索引,因为索引列列表中的第一列不是col1。
现在最适合使用索引的方法是,当有多个候选索引时,需要从可能的候选索引中选择最适合scan数据的索引。
可借助以下方案来了解如何选择索引策略:
- 可以完全匹配。
场景:有两个索引可用,一个用于col1&col2,另一个单独用于col1。
在上面的场景中,第二个索引会比第一个索引更好,因为它会使scan的较少索引数据。
- 如果有多个候选多列索引,则选择具有较少索引列的索引。
场景:有两个索引可用,一个用于col1&col2,另一个用于col1&col2&col3。
在这种情况下,使用col1和col2上的索引,因为它会使scan的较少索引数据。
- 基于索引查询时索引的状态必须为ACTIVE(可通过调用listIndices() API查看索引的状态)。
- 为了保证基于索引查询数据的正确性,用户应该确保索引数据与用户数据的一致性。
- 使用以下命令可通过HBase shell客户端执行复杂查询(假定此时 已为指定列建立索引)。
scan 'tablename', {FILTER => "SingleColumnValueFilter(family, qualifier, compareOp, comparator, filterIfMissing, latestVersionOnly)"}
例如:scan 'test', {FILTER => "SingleColumnValueFilter('info', 'age', =, 'binary:26', true, true)"}
(在以上场景中,用户希望在结果中保存没有查询到的列所在行时,不应该在任何这样的列上创建任何索引,因为如果查询的列不存在于其中时,使用SCVF扫描索引列会过滤出一行。而使用filterIfMissingset为false(这是默认值)的SCVF扫描非索引列时,也将会在结果中返回没有查询列的行。因此,为避免查询结果不一致,建议在为索引列创建SCVF后将filterIfMissing设置为true。)
- 在hbase shell中可以通过以下命令查看为用户数据建立的索引数据。
scan 'tablename', {ATTRIBUTES => {'FETCH_INDEX_DATA' => 'true'}}