查看告警信息
BCS服务自身提供运维监控能力,技术支持工程师可以通过BCS查看告警信息。告警源包括BCS和CCE,常见告警参见表1。
建议根据下表做初步筛查,如仍无法消除告警,请联系技术支持人员。
对于告警源为CCE的告警,若BCS服务相关实例状态正常,且业务正常,则请参考CCE 常见问题进行排查。
告警名称 |
告警源 |
处理建议 |
---|---|---|
节点连接排序节点失败 |
BCS |
节点连接排序节点失败,可能原因有:
如果是由于短暂的网络波动,那么该告警会在几分钟内自动停止并自动清除。 如果该告警持续存在,未能在若干分钟后清除,那么可能节点与排序节点的连接已经断开,此时请根据以下步骤进行排查:
|
节点访问数据库失败 |
BCS |
节点在访问状态数据库文件时产生异常,可能原因有:
处理方法如下:
|
Peer节点磁盘空间不足 |
BCS |
Peer节点磁盘空间不足,需扩容。扩容方法如下:
|
Orderer节点磁盘空间不足 |
BCS |
Orderer节点磁盘空间不足,需扩容。扩容方法如下:
|
拉取镜像失败 |
CCE |
镜像地址有误,如某些局点插件中配置的镜像地址错误、镜像仓库配置的权限有误。 大并发拉取镜像的时候,有概率失败,重试后如能拉取成功,则告警会清除。 |
拉取镜像重试失败 |
CCE |
镜像地址有误,如某些局点插件中配置的镜像地址错误、镜像仓库配置的权限有误。修改地址重试后如能拉取成功,则告警会清除。 |
创建失败 |
CCE |
请关注baas-agent、peer、orderer的Pod状态。 排查点: |
启动重试失败 |
CCE |
请关注baas-agent、peer、orderer的Pod状态。 排查点: |
状态异常 |
CCE |
请关注baas-agent、peer、orderer的Pod状态。 排查点: 查看健康检查是否失败:登录CCE控制台,进入“集群管理”页面,单击BCS实例所在集群的名称进入集群信息页面。单击左侧导航栏“工作负载”,在“无状态负载”或“有状态负载”页签,单击负载名称进入负载详情页,在“容器管理”页签查看健康检查的信息。 |
调度失败 |
CCE |
请关注baas-agent、peer、orderer的Pod状态。 排查点:
说明:
CoreDNS插件是一款通过链式插件的方式为Kubernetes提供域名解析服务的DNS服务器。CoreDNS正常运行需要集群中至少有两个节点。因此当BCS实例所在集群中节点数量小于2个时,会频繁出现“调度失败”告警,不影响BCS功能使用。 判断方法:
|
节点重启 |
CCE |
节点发生过重启。如果该节点上部署了baas-agent、peer、orderer服务,则排查对应Pod状态是否异常。如果该节点上未部署上述服务则对BCS实例无影响。 排查点:
|
节点状态异常 |
CCE |
如果该节点上部署了baas-agent、peer、orderer服务,则需恢复节点状态或迁移服务到其它节点。 排查点:
|
节点内存资源告警 |
BCS |
节点虚机内存使用率超过80%,可能原因有:
排查点:
|
节点内存使用率过高 |
BCS |
节点虚机内存使用率超过90%,可能原因有:
排查点:
|
查看告警
- 登录区块链服务管理控制台。
- 在左侧导航栏,单击“实例管理”,可查看已创建实例的基本信息,包括区块链的类型、共识策略、状态、创建时间等信息。
- 在实例卡片上单击区块链名称,可查看区块链实例的详细信息。
- 单击“监控”页签,可查看告警信息。这里展示的是与该区块链实例相关的告警,告警源包括BCS和CCE。在右上角可以选择查看“近30分钟”、“近1小时”或“近1天”的告警,也可以输入告警名称搜索告警。
- 单击告警名称,例如“节点连接排序节点告警”,查看告警详情。告警源包括BCS和CCE,告警处理建议参见表1。