更新时间:2025-12-15 GMT+08:00
分享

方案概述

场景描述

本方案介绍了在ModelArts Standard上使用PyTorch框架开展UniAD模型的训练过程,涵盖了数据加载、训练作业创建、训练作业快恢、日志转储以及监控等各类常规操作。

方案架构

图1 方案架构图

本架构描述了ModelArts Standard进行模型训练的整体方案:

  • 此解决方案重点关注训练任务如何创建以及训练任务可靠性、运维等方面。
  • 在存储上使用OBS存储原始数据,使用SFS Turbo进行数据缓存,主要包括模型训练数据以及模型Checkpoint文件。
  • 在训练作业方面,Standard提供简单易上手的方式让用户创建训练任务,此方式能够高效地创建训练作业。
  • 在运维方面使用云监控服务AOM查看监控指标、配置告警能力。
  • 在日志管理中使用云日志服务LTS进行日志查看、使用OBS对运维日志进行转储,同时介绍与三方日志系统进行对接。

使用流程

基于ModelArts Standard的自动驾驶训练模型流程如下。

图2 训练模型流程图

约束限制

  • 本文档中的模型运行环境是ModelArts Standard。
  • 确保机器可以访问公网。
  • 本文档中的资源池是专属资源池。
  • 本方案目前仅适用于企业客户,完成本方案的部署,需要先联系您所在企业的华为方技术支持。

UniAD模型介绍

UniAD模型主要是旨在通过端到端深度学习整合感知、预测、规划等核心任务,解决传统自动驾驶系统中“模块孤立、误差累积”的痛点,实现更安全、高效的自动驾驶决策。UniAD包含五大模块TrackFormer(负责目标检测与跟踪)、MapFormer(负责在线地图分割)MotionFormer(负责多智能体轨迹预测)OccFormer(负责占用栅格预测)Planner(负责自车路径规划)。

UniAD的训练策略是两阶段训练策略:

stage1是UniAD训练的基础阶段,聚焦于训练感知和预测的训练,目标是构建稳定的感知能力,为后续预测和规划任务提供可靠的输入;

stage2是UniAD训练的进阶阶段,在stage1的基础上,将感知、预测、规划模块联合起来进行端到端训练,目标是优化全栈任务的协同性能,实现“感知-预测-规划”的闭环优化。

相关文档