更新时间:2024-04-11 GMT+08:00

修订记录

发布日期

修订记录

2024-01-18

新增NCCL日志报错说明:训练作业运行失败,出现NCCL报错

2023-11-23

新增案例:训练作业运行失败,出现NCCL报错

2023-11-08

新增案例:

2023-09-07

新增导入AI应用提示模型或镜像大小超过限制

新增导入AI应用提示单个模型文件超过5G限制

新增服务部署、启动、升级和修改时,拉取镜像失败如何处理?

新增服务部署、启动、升级和修改时,镜像不断重启如何处理?

新增服务部署、启动、升级和修改时,容器健康检查失败如何处理?

新增服务部署、启动、升级和修改时,资源不足如何处理?

2023-08-31

下线“开发环境(旧版Notebook)”。

2023-08-30

下线“开发环境(新版Notebook) > OBS操作相关故障”、“通用问题 > 进行OBS操作时,出现Error: 403 Forbidden错误?”章节,OBS的资料合并至通用问题 > ModelArts中提示OBS路径错误章节。

2022-11-01

推理部署大纲整改。

增加AI应用管理相关案例。

增加服务预测失败案例。

2022-08-31

增加在线服务预测报错MR.0105案例

2022-08-26

增加OBS通用案例。

ModelArts中提示OBS路径错误

2022-08-15

增加训练作业卡死相关案例

2022-01-04

增加OBS下载权限案例

2021-12-15

增加ModelArts.2763案例

2021-09-15

训练作业模块新增若干故障排查案例。

2021-07-16

训练模块大纲整改。

删除一条训练模块故障排查,内容已过时。

增加训练模块故障排查。

训练作业进程异常退出

训练作业进程被kill

2020-12-10

增加自动学习故障排除指导。

数据集版本发布失败

数据集版本不合格

自动学习训练作业创建失败

自动学习训练作业失败

模型发布任务提交失败

模型发布失败

部署上线任务提交失败

部署上线失败

2019-11-25

第一次正式发布。