文档首页/ AI开发平台ModelArts/ 常见问题/ Standard专属资源池/ ModelArts中的作业为什么一直处于等待中?
更新时间:2025-05-29 GMT+08:00

ModelArts中的作业为什么一直处于等待中?

当前训练任务排队的逻辑是先进先出,前面的任务没运行完后面的任务不会运行,有可能会造成小任务被“饿死”,需要用户注意。

饿死指的是前面的任务被一个大的任务堵着(例如是64卡),需要等空闲64卡这个任务才能运行,64卡的任务后面跟着1卡的。即使现在空出来30卡,这个1卡的任务也排不上。

  • 如果是公共资源池,一般是由于其他用户占用资源导致。有以下方法可以尝试:
    • 如果使用的是免费规格,可以换成收费规格,免费规格资源较少,排队概率高。
    • 规格选择卡数尽量少,如可以选择1卡,相比于选择8卡排队几率大大降低。
    • 可以尝试使用其他Region。
    • 如果有长期的资源使用诉求,可以购买独占使用的专属资源池。
  • 如果是专属资源池,建议您进行以下排查:
    1. 排查专属资源池中是否存在其他作业(包括推理作业、训练作业、开发环境作业等)。

      可通过总览页面,快速判断是否有其他模块的作业或实例在运行中,并进入到相关作业或实例上,判断是否使用了专属资源池。如判断相关作业或实例可停止,则可以停止,释放出更多的资源。

    2. 单击进入专属资源池详情页面,查看作业列表。

      观察队头是否有其他作业在排队,如果已有作业在排队,则新建的作业需要继续等待。

    3. 如果通过排查计算,发现资源确实足够,则考虑可能由于资源碎片化导致的。

      例如,集群共2个节点,每个节点都空闲了4张卡,总剩余卡数为8张卡,但用户的作业要求为1节点8张卡,因此无法调度上。