重置节点后无法正常使用?
问题现象
当ModelArts Lite的CCE集群在资源池上只有一个节点,且用户设置了volcano为默认调度器时,在ModelArts侧进行重置节点的操作后,节点无法正常使用,节点上的POD会调度失败。
原因分析
在ModelArts侧进行节点重置后,modelarts-os会向节点添加准入污点,进行节点准入,而因为集群volcano没有污点容忍,且集群内只有一个节点,导致volcano无法启动,进而导致modelarts-os节点上管理污点的maos-node-agent容器无法启动,使得污点无法被自动清理。
处理方法
- (推荐)解决方案一(按需使用volcano调度器):
- CCE页面上修改默认调度器为kube-scheduler。
- 删除maos-node-agent的pod(重启pod)。
- CCE页面上删除节点上的污点A200008。
- ModelArts页面上重置节点。
该方案的缺点:用户新建负载时需要手动指定调度器为volcano,参考指导。
- 解决方案二(默认全部使用volcano调度器):
- CCE页面上配置中心修改默认调度器为kube-scheduler。
- 删除maos-node-agent的pod(重启pod)。
- CCE页面上删除节点上的污点A200008。
- ModelArts上重置节点。
- CCE页面上配置中心修改默认调度器为volcano。
该方案的缺点:后续对ModelArts的节点做相关操作如重置、升级驱动等可能会出现节点异常无法启动的情况。