方案概述
场景描述
本文档介绍客户使用ModelArts Cluster进行数据标注的详细过程,包含日志、监控等功能介绍,推荐使用的算力资源是Snt9B 313T。
自动驾驶领域的数据标注,是指对采集自真实世界的原始数据(如图像、激光雷达点云、雷达信号等)进行加工处理,通过人工或辅助工具识别出数据中特定目标(如车辆、行人、交通标志灯)并为其添加标签的过程。数据标注后的结果可用于自动驾驶训练,以期望AI做出正确的驾驶决策。由于人工标注效率太低、成本太高,因此业界普遍采用训练好的标注模型进行AI标注(可看做推理),再辅以人工抽检确认的形式。针对数据标注,可主要流程可以参考如下,本解决方案重点关注黄色框中数据标注部分。

方案架构

本方案包含了以下方面介绍:
- 架构整体主要针对在自动驾驶场景基于Lite Cluster进行数据标注给出建议方案,重点关注数据标注流程以及运维快恢等方面。
- 调度层,主要包含云容器引擎CCE、容器镜像服务SWR以及编排服务Argo,和客户标注平台的标注编排模块对接,用于接收客户标注平台的标注任务下发,并根据环境实际情况编排出可行的调度计划。
- 运行层,ModelArts Lite Cluster具体负责数据标注推理计算,这个过程中会产生对应的监控指标和日志,传递到运维层,其中监控和告警是上报运维模块的云监控服务CES和应用运维管理AOM,日志上报到运维模块的日志服务LTS,可使用OBS对LTS日志进行转储,运维模块可按需和客户标注平台的运维模块进行对接。
- 存储层,包括对象存储服务OBS和高性能弹性文件服务SFS Turbo,其中OBS用于存储标注前的预处理数据和标注结果数据(对接客户标注平台的数据预处理模块和可视化模块),可能也会包含LTS转储过来的日志,SFS Turbo则是用于GPU+NPU联合标注时的中间数据存储。
一个典型的数据标注工作流介绍如下:
- 标注镜像构建和上传,根据标注各步骤使用的模型和对应适配代码,结合基础容器镜像构建标注镜像,并上传到容器镜像服务SWR中。
- 预处理数据,根据标注中模型输入数据要求,将数据预处理后,上传到对象存储服务OBS中。
- 根据数据标注流程涉及的步骤,编写Argo上可运行的yaml标注任务文件,并提交到Argo上。
- Argo根据标注流程根据CCE集群纳管的节点编排出标注执行计划,CCE负责将标注中每个流程调度到各个节点上,并启动对应的容器进行具体的任务作业。
- 各容器执行完任务后,将标注的结果数据上传到OBS中,客户的数据可视化模块从OBS中取出标注结果以进行下一步分析。
使用流程

推荐您根据以下流程使用本解决方案进行数据标注。
- 资源规划:参考“整体架构”选择部署方案后,结合项目需求评估所需的算力资源、存储资源、CCE资源。
- 环境准备:在华为云购买算力资源和存储资源后,需要下载基础镜像,将标注所用模型及相关代码打包成新镜像并上传SWR,部署Argo服务,准备预处理数据。
- 执行数据标注:需要根据标注业务场景编写Argo的yaml文件,上传到Argo服务并执行数据标注,查看标注结果。
- 日志采集(可选):基于可维护性考虑,您可能需要查看标注过程中产生的关键日志,辅助关键问题定位,推荐将日志对接至LTS服务。
- 监控告警配置(可选):系统已预置部分监控能力,该部分将推荐您查看常用监控指标,并结合已有能力完成监控告警配置。
约束限制
- 本文档中的模型运行环境是ModelArts Lite Cluster。
- 本文档中的CCE集群版本选择v1.31,版本使用的容器引擎为Containerd。
- 确保集群可以访问公网。
- 本方案目前仅适用于企业客户,完成本方案的部署需要先联系您所在企业的华为方技术支持。