更新时间:2024-11-29 GMT+08:00

ALM-19006 HBase容灾同步失败

告警解释

告警模块每30s检查一次HBase容灾数据的同步状态,当同步容灾数据到备集群失败时,发送该告警。

当容灾数据同步成功后,告警清除。

告警属性

告警ID

告警级别

告警类型

业务类型

是否可自动清除

19006

紧急

处理错误告警

HBase

告警参数

类别

参数名称

参数含义

定位信息

来源

产生告警的集群名称。

服务名

产生告警的服务名称。

角色名

产生告警的角色名称。

主机名

产生告警的主机名。

附加信息

Trigger Condition

系统当前指标取值满足自定义的告警设置条件。

对系统的影响

无法同步集群中HBase的数据到备集群,同步数据积压,导致大量主备数据不一致,使得容灾主备倒换或者双读从备集群读取不到最新的数据。如果持续不处理,还会导致主集群的存储空间以及ZooKeeper节点被大量积压,最终导致主集群服务故障。

可能原因

  • 备集群HBase服务异常。
  • 网络异常。

处理步骤

观察告警是否自动修复。

  1. 在主集群的FusionInsight Manager界面,选择运维 > 告警 > 告警
  2. 在告警列表中单击该告警,从完整的告警信息中的“产生时间”处获得告警的产生时间,查看告警是否持续超过5分钟。

    • 是,执行4
    • 否,执行3

  3. 等待5分钟后检查本告警是否自动恢复。

    • 是,处理完毕。
    • 否,执行4

检查备集群HBase服务状态。

  1. 登录主集群FusionInsight Manager界面,选择运维 > 告警 > 告警
  2. 在告警列表中单击该告警,从完整的告警信息中的“定位信息”处获得“主机名”。
  3. omm用户进入主集群HBase客户端所在节点。

    如果集群采用了安全版本,要进行安全认证,然后使用hbase用户进入hbase shell界面。

    cd /opt/client

    source ./bigdata_env

    kinit hbaseuser

  4. 执行status 'replication', 'source'命令查看故障节点的容灾同步状态。

    节点的容灾同步状态如下:

    10-10-10-153: 
    SOURCE: PeerID=abc, SizeOfLogQueue=0, ShippedBatches=2, ShippedOps=2, ShippedBytes=320, LogReadInBytes=1636, LogEditsRead=5, LogEditsFiltered=3, SizeOfLogToReplicate=0, TimeForLogToReplicate=0, ShippedHFiles=0, SizeOfHFileRefsQueue=0, AgeOfLastShippedOp=0, TimeStampsOfLastShippedOp=Mon Jul 18 09:53:28 CST 2016, Replication Lag=0, FailedReplicationAttempts=0 
    SOURCE: PeerID=abc1, SizeOfLogQueue=0, ShippedBatches=1, ShippedOps=1, ShippedBytes=160, LogReadInBytes=1636, LogEditsRead=5, LogEditsFiltered=3, SizeOfLogToReplicate=0, TimeForLogToReplicate=0, ShippedHFiles=0, SizeOfHFileRefsQueue=0, AgeOfLastShippedOp=16788, TimeStampsOfLastShippedOp=Sat Jul 16 13:19:00 CST 2016, Replication Lag=16788, FailedReplicationAttempts=5

  5. 找到“FailedReplicationAttempts”的值大于0的记录所对应的“PeerID”值。

    如上步骤中,故障节点“10-10-10-153”同步数据到“PeerID”为“abc1”的备集群失败。

  6. 继续执行list_peers命令,查找该“PeerID”对应的集群和HBase实例。

    PEER_ID CLUSTER_KEY STATE TABLE_CFS 
    abc1 10.10.10.110,10.10.10.119,10.10.10.133:2181:/hbase2 ENABLED  
    abc 10.10.10.110,10.10.10.119,10.10.10.133:2181:/hbase ENABLED 

    如上所示,/hbase2表示数据是同步到备集群的HBase2实例。

  7. 在备集群FusionInsight Manager的服务列表中,查看通过9获取的HBase实例运行状态是否为“良好”。

    • 是,执行14
    • 否,执行11

  8. 在告警列表中,查看是否有“ALM-19000 HBase服务不可用”告警产生。

    • 是,执行12
    • 否,执行14

  9. 参考“ALM-19000 HBase服务不可用”的处理步骤处理该故障。
  10. 等待几分钟后检查本告警是否恢复。

    • 是,处理完毕。
    • 否,执行14

检查主备集群RegionServer之间的网络连接。

  1. 登录主集群FusionInsight Manager界面,选择运维 > 告警 > 告警
  2. 在告警列表中单击该告警,从完整的告警信息中“定位信息”处获得“主机名”。
  3. omm用户通过15获取的IP地址登录故障RegionServer节点。
  4. 执行ping命令,查看故障RegionServer节点和备集群RegionServer所在主机的网络连接是否正常。

    • 是,执行20
    • 否,执行18

  5. 联系网络管理员恢复网络。
  6. 网络恢复后,在告警列表中,查看本告警是否清除。

    • 是,处理完毕。
    • 否,执行20

收集故障信息。

  1. 在主备集群的FusionInsight Manager界面,选择“运维 > 日志 > 下载”。
  2. 在“服务”中勾选待操作集群的“HBase”。
  3. 单击右上角的时间编辑按钮,设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。
  4. 请联系运维人员,并发送已收集的故障日志信息。

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

不涉及。