文档首页/ AI开发平台ModelArts/ 故障排除/ Lite Cluster/ 重置节点后无法正常使用?
更新时间:2024-11-22 GMT+08:00
分享

重置节点后无法正常使用?

问题现象

当ModelArts Lite的CCE集群在资源池上只有一个节点,且用户设置了volcano为默认调度器时,在ModelArts侧进行重置节点的操作后,节点无法正常使用,节点上的POD会调度失败。

原因分析

在ModelArts侧进行节点重置后,modelarts-os会向节点添加准入污点,进行节点准入,而因为集群volcano没有污点容忍,且集群内只有一个节点,导致volcano无法启动,进而导致modelarts-os节点上管理污点的maos-node-agent容器无法启动,使得污点无法被自动清理。

处理方法

  • (推荐)解决方案一(按需使用volcano调度器):
    1. CCE页面上修改默认调度器为kube-scheduler。
    2. 删除maos-node-agent的pod(重启pod)。
    3. CCE页面上删除节点上的污点A200008。
    4. ModelArts页面上重置节点。

    该方案的缺点:用户新建负载时需要手动指定调度器为volcano,参考指导

  • 解决方案二(默认全部使用volcano调度器):
    1. CCE页面上配置中心修改默认调度器为kube-scheduler。
    2. 删除maos-node-agent的pod(重启pod)。
    3. CCE页面上删除节点上的污点A200008。
    4. ModelArts上重置节点。
    5. CCE页面上配置中心修改默认调度器为volcano。

    该方案的缺点:后续对ModelArts的节点做相关操作如重置、升级驱动等可能会出现节点异常无法启动的情况。

相关文档