Estos contenidos se han traducido de forma automática para su comodidad, pero Huawei Cloud no garantiza la exactitud de estos. Para consultar los contenidos originales, acceda a la versión en inglés.
Centro de ayuda> ModelArts> Preguntas frecuentes> Trabajos de entrenamiento> Consultoría funcional> En un entrenamiento con multinodo, el nodo de PS TensorFlow que funciona como un servidor se suspenderá continuamente. ¿Cómo determina ModelArts si el entrenamiento está completo? ¿Qué nodo es un trabajador?
Actualización más reciente 2023-10-09 GMT+08:00

En un entrenamiento con multinodo, el nodo de PS TensorFlow que funciona como un servidor se suspenderá continuamente. ¿Cómo determina ModelArts si el entrenamiento está completo? ¿Qué nodo es un trabajador?

En un entrenamiento distribuido impulsado por TensorFlow, la tarea PS y la tarea de trabajo se inician. La tarea del trabajador es una tarea clave. ModelArts utilizará un código de salida de proceso de la tarea de trabajador para determinar si el trabajo de entrenamiento está completo.

Se usará un nombre de tarea para determinar qué nodo es un trabajador. Un trabajo de Volcano se emite para el entrenamiento, que contiene una tarea de PS y una tarea de trabajador. Los comandos de inicio de las dos tareas son diferentes. El hiperparámetro task_name se generará automáticamente, que es ps para la tarea PS y worker para la tarea de trabajo.

Consultoría funcional Preguntas frecuentes

more