添加组织或节点后,新添加的POD实例状态异常
问题现象
添加组织或添加节点后,长时间(超过10min)未见有新节点状态转为正常,最终导致实例变更超时,实例状态异常。操作记录报错如下:添加组织报错“BCS(XXX) wait for updating agent 400 times, stop updating”;添加节点报错“wait the expand peer running exceed 100 times, stop waiting”。
解决方案
- 进入CCE控制台,进入“集群管理”页面,单击BCS实例所在集群的名称进入集群信息页面。
- 单击“工作负载”,找到对应新加组织或新建节点的工作负载,单击负载名称进入负载详情页,查看实例列表,找到异常实例。查看相关事件,分析实例拉起失败原因。
实例拉起失败原因可能有三种:
- 实例挂卷失败。
- 镜像拉取失败。
- 健康检查未通过。
- 若实例拉起失败原因为“实例挂卷失败”或“健康检查未通过”,单击“插件管理”,查看对应集群的插件状态是否正常。若插件状态正常,则执行下一步;若插件状态异常,则卸载重装插件后执行下一步。
若实例拉起失败原因为“镜像拉取失败”,确认提示镜像是否存在(可登录集群节点手动拉取或联系技术支持工程师确认)。若镜像存在,则执行下一步;若镜像不存在,请联系技术支持工程师处理。
- 在“实例列表”中选择异常实例,单击“删除”按钮,删除实例,等待实例重启。
如果实例重启后状态正常,则切换到“容器”页签,若容器状态正常,则执行下一步。若实例重启后,容器或实例状态依然不正常,则根据事件查看失败原因。
实例拉起失败原因为“实例挂卷失败”、“健康检查未通过”或“镜像拉取失败”时,请联系技术支持工程师处理。
- 等待有状态负载实例运行正常后,在“无状态负载”页签,找到“baas-agent”工作负载。进入负载详情页面,单击“实例列表”,在列表中单击“删除”,删除实例,等待实例重启。待“baas-agent”实例正常拉起后,返回BCS实例列表页面,查看实例已恢复正常,则该问题处理完毕;若BCS实例没有恢复正常,请联系技术支持工程师处理。