更新时间:2023-08-16 GMT+08:00

查询训练作业的运行指标

示例代码

在ModelArts notebook平台,Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权

  • 方式一:根据指定的job_id查询。
from modelarts.session import Session
from modelarts.estimatorV2 import Estimator
session = Session()
estimator = Estimator(session=session, job_id="your job id")
info = estimator.get_job_metrics()
print(info)
info = job_instance.get_job_metrics(task_id="worker-0")
print(info)

参数说明

表1 Estimator初始化参数说明

参数

是否必选

参数类型

描述

session

Object

会话对象,初始化方法请参考Session鉴权

job_id

String

训练作业的id,可通过创建训练作业生成的训练作业对象查询,如"job_instance.job_id",或从查询训练作业列表的响应中获得。

表2 get_job_log请求参数说明

参数

是否必选

参数类型

描述

task_id

String

要查看哪个工作节点的日志,默认值为"worker-0";如果在创建训练作业时参数train_instance_count选择了2,则可选值为"worker-0","worker-1",依次类推。

表3 返回参数说明

参数

参数类型

描述

metrics

Array of objects

运行指标。

表4 metrics

参数

参数类型

描述

metric

String

运行指标,可选值如下: cpuUsage(CPU使用率)、memUsage(物理内存使用率)、gpuUtil(GPU使用率)、gpuMemUsage(显存使用率)、npuUtil(NPU使用率)、npuMemUsage(NPU显存使用率)。

value

Array of numbers

运行指标对应数值,1min统计一个平均值。

表5 调用训练接口失败响应参数

参数

类型

描述

error_msg

String

调用失败时的错误信息,调用成功时无此字段。

error_code

String

调用失败时的错误码,具体请参见错误码,调用成功时无此字段。

error_solution

String

调用失败时的提示解决信息,调用成功时无此字段。