文档首页/
AI开发平台ModelArts/
常见问题/
Standard训练作业/
功能咨询/
多节点训练TensorFlow框架ps节点作为server会一直挂着,ModelArts是怎么判定训练任务结束?如何知道是哪个节点是worker呢?
更新时间:2024-10-28 GMT+08:00
多节点训练TensorFlow框架ps节点作为server会一直挂着,ModelArts是怎么判定训练任务结束?如何知道是哪个节点是worker呢?
TensorFlow框架分布式训练的情况下,会启动ps与worker任务组,worker任务组为关键任务组,会以worker任务组的进程退出码,判断训练作业是否结束。
通过task name判断的哪个节点是worker。下发的训练作业是一个volcano job,里边会有两个task:一个是ps、一个是worker。两个task的启动命令不同,会自动生成超参--task_name,ps的--task_name=ps,worker的 --task_name=worker。
父主题: 功能咨询