查询训练作业用户侧诊断结果 - ShowTrainingJobUserDiagnosis
功能介绍
查询训练作业用户侧诊断结果用于在ModelArts平台上快速查询指定训练作业的用户侧报错诊断详细信息,这些信息基于日志生成。
调试
您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。
授权信息
账号具备所有API的调用权限,如果使用账号下的IAM用户调用当前API,该IAM用户需具备调用API所需的权限。
- 如果使用角色与策略授权,具体权限要求请参见权限和授权项。
- 如果使用身份策略授权,需具备如下身份策略权限。
URI
GET /v2/{project_id}/training-jobs/{job_id}/diagnosis
参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
project_id | 是 | String | 参数解释:用户项目ID。获取方法请参见获取项目ID和名称。 约束限制:1 - 64字符,字母、数字和中划线。 取值范围:不涉及。 默认取值:不涉及。 |
job_id | 是 | String | 参数解释:作业ID。 约束限制:不涉及。 取值范围:长度为32的英文字符、数字的组合。 默认取值:不涉及。 |
请求参数
无
响应参数
状态码:200
参数 | 参数类型 | 描述 |
|---|---|---|
status | String | 参数解释:诊断状态。 取值范围: |
level | String | 参数解释:诊断结果等级。 取值范围: |
conclusions | Array of TrainJobUserDiagnosisJobConclusion objects | 参数解释:诊断结果详情列表。 |
参数 | 参数类型 | 描述 |
|---|---|---|
conclusion | 参数解释:故障详情。 | |
sources | Array of TrainJobUserDiagnosisSource objects | 参数解释:故障来源详情列表。 |
参数 | 参数类型 | 描述 |
|---|---|---|
code | String | 参数解释:故障编码。 取值范围:不涉及。 |
class | String | 参数解释:故障分类。 取值范围:不涉及。 |
component | String | 参数解释:故障组件。 取值范围:不涉及。 |
module | String | 参数解释:故障模块。 取值范围:不涉及。 |
owner | String | 参数解释:故障责任主体。 取值范围: |
description_zh_cn | String | 参数解释:故障中文描述。 取值范围:不涉及。 |
description_en_us | String | 参数解释:故障英文描述。 取值范围:不涉及。 |
level | String | 参数解释:故障风险等级。 取值范围: |
solution_zh_cn | String | 参数解释:故障中文建议。 取值范围:不涉及。 |
solution_en_us | String | 参数解释:故障英文建议。 取值范围:不涉及。 |
请求示例
GET https://endpoint/v2/{project_id}/training-jobs/{job_id}/diagnosis 响应示例
状态码:200
OK
{
"status" : "Completed",
"level" : "Fatal",
"conclusions" : [ {
"conclusion" : {
"code" : "MDC.300770",
"class" : "Software",
"component" : "AI Framework",
"module" : "Engine",
"owner" : "User",
"description_zh_cn" : "分布式reduce数据冗余",
"description_en_us" : "No evaluation data",
"level" : "Fatal",
"solution_zh_cn" : "检查所有前向计算的结果是否都参与了loss运算",
"solution_en_us" : " Check whether all forward calculation results are involved in the loss calculation"
},
"sources" : [ {
"type" : "log",
"task_id" : "worker-1",
"error_line" : 56917,
"content" : "RuntimeError: Expected to have finished reduction in the prior iteration before starting a new one"
} ]
} ]
} 状态码
状态码 | 描述 |
|---|---|
200 | OK |
错误码
请参见错误码。

