查询训练作业用户侧诊断结果 - ShowTrainingJobUserDiagnosis
功能介绍
查询训练作业用户侧诊断结果用于在ModelArts平台上快速查询指定训练作业的用户侧报错诊断详细信息,这些信息基于日志生成。
调试
您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。
授权信息
账号具备所有API的调用权限,如果使用账号下的IAM用户调用当前API,该IAM用户需具备调用API所需的权限。
- 如果使用角色与策略授权,具体权限要求请参见权限和授权项。
- 如果使用身份策略授权,需具备如下身份策略权限。
URI
GET /v2/{project_id}/training-jobs/{job_id}/diagnosis
|
参数 |
是否必选 |
参数类型 |
描述 |
|---|---|---|---|
|
project_id |
是 |
String |
参数解释:用户项目ID。获取方法请参见获取项目ID和名称。 约束限制:1 - 64字符,字母、数字和中划线。 取值范围:不涉及。 默认取值:不涉及。 |
|
job_id |
是 |
String |
参数解释:作业ID。 约束限制:不涉及。 取值范围:长度为32的英文字符、数字的组合。 默认取值:不涉及。 |
请求参数
无
响应参数
状态码:200
|
参数 |
参数类型 |
描述 |
|---|---|---|
|
status |
String |
参数解释:诊断状态。 取值范围: |
|
level |
String |
参数解释:诊断结果等级。 取值范围: |
|
conclusions |
Array of TrainJobUserDiagnosisJobConclusion objects |
参数解释:诊断结果详情列表。 |
|
参数 |
参数类型 |
描述 |
|---|---|---|
|
conclusion |
参数解释:故障详情。 |
|
|
sources |
Array of TrainJobUserDiagnosisSource objects |
参数解释:故障来源详情列表。 |
|
参数 |
参数类型 |
描述 |
|---|---|---|
|
code |
String |
参数解释:故障编码。 取值范围:不涉及。 |
|
class |
String |
参数解释:故障分类。 取值范围:不涉及。 |
|
component |
String |
参数解释:故障组件。 取值范围:不涉及。 |
|
module |
String |
参数解释:故障模块。 取值范围:不涉及。 |
|
owner |
String |
参数解释:故障责任主体。 取值范围: |
|
description_zh_cn |
String |
参数解释:故障中文描述。 取值范围:不涉及。 |
|
description_en_us |
String |
参数解释:故障英文描述。 取值范围:不涉及。 |
|
level |
String |
参数解释:故障风险等级。 取值范围: |
|
solution_zh_cn |
String |
参数解释:故障中文建议。 取值范围:不涉及。 |
|
solution_en_us |
String |
参数解释:故障英文建议。 取值范围:不涉及。 |
请求示例
GET https://endpoint/v2/{project_id}/training-jobs/{job_id}/diagnosis
响应示例
状态码:200
OK
{
"status" : "Completed",
"level" : "Fatal",
"conclusions" : [ {
"conclusion" : {
"code" : "MDC.300770",
"class" : "Software",
"component" : "AI Framework",
"module" : "Engine",
"owner" : "User",
"description_zh_cn" : "分布式reduce数据冗余",
"description_en_us" : "No evaluation data",
"level" : "Fatal",
"solution_zh_cn" : "检查所有前向计算的结果是否都参与了loss运算",
"solution_en_us" : " Check whether all forward calculation results are involved in the loss calculation"
},
"sources" : [ {
"type" : "log",
"task_id" : "worker-1",
"error_line" : 56917,
"content" : "RuntimeError: Expected to have finished reduction in the prior iteration before starting a new one"
} ]
} ]
}
状态码
|
状态码 |
描述 |
|---|---|
|
200 |
OK |
错误码
请参见错误码。