云服务器事件处理建议
云服务器事件概述
在云容器引擎CCE中,您可以采用弹性云服务器ECS实例作为Node节点来构建高可用的Kubernetes集群。在日常运维中,华为云会对ECS实例所在底层宿主机的软硬件故障进行预测和主动规避。
当宿主机上的故障风险无法规避时,为避免因ECS实例的资源可用性或性能受损对您的业务造成更大的影响,系统会对受影响的ECS实例生成云服务器事件并进行上报,例如实例重部署、系统维护等。
您可以在弹性云服务器ECS控制台管理云服务器事件,详情请参考弹性云服务器事件概述。
使用场景
云服务器事件处理过程中可能出现云服务器不可用等现象,影响对应Node节点和Pod的正常运行。因此,当系统为您的节点生成云服务器事件时,建议您提前将节点上运行的业务迁移到其它可用节点,然后再响应云服务器事件,避免云服务器事件处理过程对业务造成影响。
操作步骤
- 前置处理
在响应云服务器事件前,您需要将业务迁移至其它可用节点,然后隔离待处理的节点。
您可以使用节点排水迁移节点上运行的Pod并隔离节点;您也可以手动迁移节点上运行的Pod后再通过管理节点污点为节点添加NoSchedule污点从而隔离节点。
您也可以选择将业务迁移至其它可用节点,然后创建新的节点,删除待处理的节点,以跳过后续步骤。
- 响应事件
请前往ECS控制台查询事件,然后根据事件类型响应云服务器事件。
- 后置处理
云服务器事件处理完成后,解除对应Node节点隔离。
您可以在“节点管理”页面,单击节点的“更多 > 开启调度”,将该节点恢复为可调度状态,或通过管理节点污点移除节点的NoSchedule污点,将该节点恢复为可调度状态。