更新时间:2025-04-22 GMT+08:00
ALM-19006 HBase容灾同步失败(2.x及以前版本)
告警解释
当同步容灾数据到备集群失败时,发送该告警。
当容灾数据同步成功后,告警清除。
告警属性
告警ID | 告警级别 | 可自动清除 |
|---|---|---|
19006 | 严重 | 是 |
告警参数
参数名称 | 参数含义 |
|---|---|
ServiceName | 产生告警的服务名称。 |
RoleName | 产生告警的角色名称。 |
HostName | 产生告警的主机名。 |
对系统的影响
无法同步集群中HBase的数据到备集群,导致主备集群数据不一致。
可能原因
- 备集群HBase服务异常。
- 网络异常。
处理步骤
- 观察告警是否自动修复。
- 检查备集群HBase服务状态。
- 登录MRS集群详情页面,选择“告警管理”。
- 在告警列表中单击该告警,从“告警详情”的“定位信息”处获得“HostName”。
- 登录主集群HBase客户端所在节点。执行以下命令切换用户:
su - omm
- 执行status 'replication', 'source'命令查看故障节点的容灾同步状态。
节点的容灾同步状态如下:
10-10-10-153: SOURCE: PeerID=abc, SizeOfLogQueue=0, ShippedBatches=2, ShippedOps=2, ShippedBytes=320, LogReadInBytes=1636, LogEditsRead=5, LogEditsFiltered=3, SizeOfLogToReplicate=0, TimeForLogToReplicate=0, ShippedHFiles=0, SizeOfHFileRefsQueue=0, AgeOfLastShippedOp=0, TimeStampsOfLastShippedOp=Mon Jul 18 09:53:28 CST 2016, Replication Lag=0, FailedReplicationAttempts=0 SOURCE: PeerID=abc1, SizeOfLogQueue=0, ShippedBatches=1, ShippedOps=1, ShippedBytes=160, LogReadInBytes=1636, LogEditsRead=5, LogEditsFiltered=3, SizeOfLogToReplicate=0, TimeForLogToReplicate=0, ShippedHFiles=0, SizeOfHFileRefsQueue=0, AgeOfLastShippedOp=16788, TimeStampsOfLastShippedOp=Sat Jul 16 13:19:00 CST 2016, Replication Lag=16788, FailedReplicationAttempts=5
- 找到“FailedReplicationAttempts”的值大于0的记录所对应的“PeerID”值。
- 继续执行list_peers命令,查找该“PeerID”对应的集群和HBase实例。
PEER_ID CLUSTER_KEY STATE TABLE_CFS abc1 10.10.10.110,10.10.10.119,10.10.10.133:24002:/hbase2 ENABLED abc 10.10.10.110,10.10.10.119,10.10.10.133:24002:/hbase ENABLED
如上所示,/hbase2表示数据是同步到备集群的HBase2实例。
- 在备集群的服务列表中,查看通过2.f获取的HBase实例健康状态是否为“良好”。
- 在告警列表中,查看是否有“ALM-19000 HBase服务不可用”告警产生。
- 参考ALM-19000 HBase服务不可用(2.x及以前版本)的处理步骤处理该故障。
- 等待几分钟后检查本告警是否恢复。
- 是,处理完毕。
- 否,执行3.a。
- 检查主备集群RegionServer之间的网络连接。
- 收集故障信息。
- 在MRS Manager界面,单击“系统设置 > 日志导出”。
- 请联系运维人员,并发送已收集的故障日志信息。
参考信息
无。

