文档首页/ AI开发平台ModelArts/ API参考/ 训练管理/ 查询训练作业用户侧诊断结果 - ShowTrainingJobUserDiagnosis
更新时间:2026-02-25 GMT+08:00
分享

查询训练作业用户侧诊断结果 - ShowTrainingJobUserDiagnosis

功能介绍

查询训练作业用户侧诊断结果用于在ModelArts平台上快速查询指定训练作业的用户侧报错诊断详细信息,这些信息基于日志生成。

调试

您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。

授权信息

账号具备所有API的调用权限,如果使用账号下的IAM用户调用当前API,该IAM用户需具备调用API所需的权限。

  • 如果使用角色与策略授权,具体权限要求请参见权限和授权项
  • 如果使用身份策略授权,需具备如下身份策略权限。

    授权项

    访问级别

    资源类型(*为必须)

    条件键

    别名

    依赖的授权项

    modelarts:trainJob:get

    Read

    trainJob *

    g:ResourceTag/<tag-key>

    -

    -

    -

    • modelarts:poolType

    • modelarts:poolId

URI

GET /v2/{project_id}/training-jobs/{job_id}/diagnosis

表1 路径参数

参数

是否必选

参数类型

描述

project_id

String

参数解释:用户项目ID。获取方法请参见获取项目ID和名称

约束限制:1 - 64字符,字母、数字和中划线。

取值范围:不涉及。

默认取值:不涉及。

job_id

String

参数解释:作业ID。

约束限制:不涉及。

取值范围:长度为32的英文字符、数字的组合。

默认取值:不涉及。

请求参数

响应参数

状态码:200

表2 响应Body参数

参数

参数类型

描述

status

String

参数解释:诊断状态。

取值范围

  • Runing:监测中

  • Completed:诊断完成

level

String

参数解释:诊断结果等级。

取值范围

  • Fatal:高风险

  • Error:中风险

  • Warning:低风险

conclusions

Array of TrainJobUserDiagnosisJobConclusion objects

参数解释:诊断结果详情列表。

表3 TrainJobUserDiagnosisJobConclusion

参数

参数类型

描述

conclusion

TrainJobUserDiagnosisConclusion object

参数解释:故障详情。

sources

Array of TrainJobUserDiagnosisSource objects

参数解释:故障来源详情列表。

表4 TrainJobUserDiagnosisConclusion

参数

参数类型

描述

code

String

参数解释:故障编码。

取值范围:不涉及。

class

String

参数解释:故障分类。

取值范围:不涉及。

component

String

参数解释:故障组件。

取值范围:不涉及。

module

String

参数解释:故障模块。

取值范围:不涉及。

owner

String

参数解释:故障责任主体。

取值范围

  • System:系统侧

  • User:用户侧

  • User/System:用户/系统侧

description_zh_cn

String

参数解释:故障中文描述。

取值范围:不涉及。

description_en_us

String

参数解释:故障英文描述。

取值范围:不涉及。

level

String

参数解释:故障风险等级。

取值范围

  • Fatal:高风险

  • Error:中风险

  • Warning:低风险

solution_zh_cn

String

参数解释:故障中文建议。

取值范围:不涉及。

solution_en_us

String

参数解释:故障英文建议。

取值范围:不涉及。

表5 TrainJobUserDiagnosisSource

参数

参数类型

描述

type

String

参数解释:诊断依据类型。

取值范围

  • log:用户日志

  • hostLog:主机日志

  • events:作业事件

task_id

String

参数解释:故障所属的训练子任务。

取值范围:不涉及。

level

String

参数解释:依据事件等级。

约束限制:type值为“events”

取值范围:不涉及。

error_line

String

参数解释:依据来源行数。

约束限制:type值为“log”

取值范围:不涉及。

content

String

参数解释:依据详情。

取值范围:不涉及。

请求示例

GET https://endpoint/v2/{project_id}/training-jobs/{job_id}/diagnosis

响应示例

状态码:200

OK

{
  "status" : "Completed",
  "level" : "Fatal",
  "conclusions" : [ {
    "conclusion" : {
      "code" : "MDC.300770",
      "class" : "Software",
      "component" : "AI Framework",
      "module" : "Engine",
      "owner" : "User",
      "description_zh_cn" : "分布式reduce数据冗余",
      "description_en_us" : "No evaluation data",
      "level" : "Fatal",
      "solution_zh_cn" : "检查所有前向计算的结果是否都参与了loss运算",
      "solution_en_us" : " Check whether all forward calculation results are involved in the loss calculation"
    },
    "sources" : [ {
      "type" : "log",
      "task_id" : "worker-1",
      "error_line" : 56917,
      "content" : "RuntimeError: Expected to have finished reduction in the prior iteration before starting a new one"
    } ]
  } ]
}

状态码

状态码

描述

200

OK

错误码

请参见错误码

相关文档