文档首页/ 云容器引擎 CCE/ 用户指南/ 节点/ 节点运维/ 云服务器事件处理建议
更新时间:2024-12-12 GMT+08:00
分享

云服务器事件处理建议

云服务器事件概述

在云容器引擎CCE中,您可以采用弹性云服务器ECS实例作为Node节点来构建高可用的Kubernetes集群。在日常运维中,华为云会对ECS实例所在底层宿主机的软硬件故障进行预测和主动规避。

当宿主机上的故障风险无法规避时,为避免因ECS实例的资源可用性或性能受损对您的业务造成更大的影响,系统会对受影响的ECS实例生成云服务器事件并进行上报,例如实例重部署、系统维护等。

您可以在弹性云服务器ECS控制台管理云服务器事件,详情请参考弹性云服务器事件概述

使用场景

云服务器事件处理过程中可能出现云服务器不可用等现象,影响对应Node节点和Pod的正常运行。因此,当系统为您的节点生成云服务器事件时,建议您提前将节点上运行的业务迁移到其它可用节点,然后再响应云服务器事件,避免云服务器事件处理过程对业务造成影响。

操作步骤

  1. 前置处理

    在响应云服务器事件前,您需要将业务迁移至其它可用节点,然后隔离待处理的节点。

    您可以使用节点排水迁移节点上运行的Pod并隔离节点;您也可以手动迁移节点上运行的Pod后再通过管理节点污点为节点添加NoSchedule污点从而隔离节点。

    您也可以选择将业务迁移至其它可用节点,然后创建新的节点,删除待处理的节点,以跳过后续步骤。

  2. 响应事件

    请前往ECS控制台查询事件,然后根据事件类型响应云服务器事件。

  3. 后置处理

    云服务器事件处理完成后,解除对应Node节点隔离。

    您可以在“节点管理”页面,单击节点的“更多 > 开启调度”,将该节点恢复为可调度状态,或通过管理节点污点移除节点的NoSchedule污点,将该节点恢复为可调度状态。

相关文档