Standard模型训练

ModelArts Standard模型训练提供容器化服务和计算资源管理能力，负责建立和管理机器学习训练工作负载所需的基础设施，减轻用户的负担，为用户提供灵活、稳定、易用和极致性能的深度学习训练环境。通过ModelArts Standard模型训练，用户可以专注于开发、训练和微调模型。

ModelArts Standard模型训练支持大规模训练作业，提供高可用的训练环境

支持单机多卡、多机多卡的分布式训练，有效加速训练过程
支持训练作业的故障感知、故障诊断与故障恢复，包含硬件故障与作业卡死故障，并支持进程级恢复、容器级恢复与作业级恢复，提供容错与恢复能力，保障用户训练作业的长稳运行
提供训练作业断点续训与增量训练能力，即使训练因某些原因中断，也可以基于checkpoint接续训练，保障需要长时间训练的模型的稳定性和可靠性，避免重新开始训练耗费的时间与计算成本
支持训练数据使用SFS Turbo文件系统进行数据挂载，训练作业产生的中间和结果等数据可以直接高速写入到SFS Turbo缓存中，并可被下游业务环节继续读取并处理，结果数据可以异步方式导出到关联的OBS对象存储中进行长期低成本存储，从而加速训练场景下加速OBS对象存储中的数据访问

ModelArts Standard模型训练提供便捷的作业管理能力，提升用户模型训练的开发效率

提供算法资产的管理能力，支持通过算法资产、自定义算法、AI Gallery订阅算法创建训练作业，使训练作业的创建更灵活、易用
提供实验管理能力，用户通常需要调整数据集、调整超参等进行多轮作业从而选择最理想的作业，模型训练支持统一管理多个训练作业，方便用户选择最优的模型
提供训练作业的事件信息（训练作业生命周期中的关键事件点）、训练日志（训练作业运行过程和异常信息）、资源监控（资源使用率数据）、Cloud Shell（登录训练容器的工具）等能力，方便用户更清楚地了解训练作业运行过程，并在遇到任务异常时更加准确地排查定位问题。

父主题： Standard功能介绍

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消