更新时间:2025-12-15 GMT+08:00
分享

方案概述

场景描述

本文档介绍客户使用ModelArts Cluster进行数据标注的详细过程,包含日志、监控等功能介绍,推荐使用的算力资源是Snt9B 313T。

自动驾驶领域的数据标注,是指对采集自真实世界的原始数据(如图像、激光雷达点云、雷达信号等)进行加工处理,通过人工或辅助工具识别出数据中特定目标(如车辆、行人、交通标志灯)并为其添加标签的过程。数据标注后的结果可用于自动驾驶训练,以期望AI做出正确的驾驶决策。由于人工标注效率太低、成本太高,因此业界普遍采用训练好的标注模型进行AI标注(可看做推理),再辅以人工抽检确认的形式。针对数据标注,可主要流程可以参考如下,本解决方案重点关注黄色框中数据标注部分。

方案架构

本方案包含了以下方面介绍:

  • 架构整体主要针对在自动驾驶场景基于Lite Cluster进行数据标注给出建议方案,重点关注数据标注流程以及运维快恢等方面。
  • 调度层,主要包含云容器引擎CCE、容器镜像服务SWR以及编排服务Argo,和客户标注平台的标注编排模块对接,用于接收客户标注平台的标注任务下发,并根据环境实际情况编排出可行的调度计划。
  • 运行层,ModelArts Lite Cluster具体负责数据标注推理计算,这个过程中会产生对应的监控指标和日志,传递到运维层,其中监控和告警是上报运维模块的云监控服务CES和应用运维管理AOM,日志上报到运维模块的日志服务LTS,可使用OBS对LTS日志进行转储,运维模块可按需和客户标注平台的运维模块进行对接。
  • 存储层,包括对象存储服务OBS和高性能弹性文件服务SFS Turbo,其中OBS用于存储标注前的预处理数据和标注结果数据(对接客户标注平台的数据预处理模块和可视化模块),可能也会包含LTS转储过来的日志,SFS Turbo则是用于GPU+NPU联合标注时的中间数据存储。

一个典型的数据标注工作流介绍如下:

  1. 标注镜像构建和上传,根据标注各步骤使用的模型和对应适配代码,结合基础容器镜像构建标注镜像,并上传到容器镜像服务SWR中。
  2. 预处理数据,根据标注中模型输入数据要求,将数据预处理后,上传到对象存储服务OBS中。
  3. 根据数据标注流程涉及的步骤,编写Argo上可运行的yaml标注任务文件,并提交到Argo上。
  4. Argo根据标注流程根据CCE集群纳管的节点编排出标注执行计划,CCE负责将标注中每个流程调度到各个节点上,并启动对应的容器进行具体的任务作业。
  5. 各容器执行完任务后,将标注的结果数据上传到OBS中,客户的数据可视化模块从OBS中取出标注结果以进行下一步分析。

使用流程

推荐您根据以下流程使用本解决方案进行数据标注。

  1. 资源规划:参考“整体架构”选择部署方案后,结合项目需求评估所需的算力资源、存储资源、CCE资源。
  2. 环境准备:在华为云购买算力资源和存储资源后,需要下载基础镜像,将标注所用模型及相关代码打包成新镜像并上传SWR,部署Argo服务,准备预处理数据。
  3. 执行数据标注:需要根据标注业务场景编写Argo的yaml文件,上传到Argo服务并执行数据标注,查看标注结果。
  4. 日志采集(可选):基于可维护性考虑,您可能需要查看标注过程中产生的关键日志,辅助关键问题定位,推荐将日志对接至LTS服务。
  5. 监控告警配置(可选):系统已预置部分监控能力,该部分将推荐您查看常用监控指标,并结合已有能力完成监控告警配置。

约束限制

  • 本文档中的模型运行环境是ModelArts Lite Cluster。
  • 本文档中的CCE集群版本选择v1.31,版本使用的容器引擎为Containerd。
  • 确保集群可以访问公网。
  • 本方案目前仅适用于企业客户,完成本方案的部署需要先联系您所在企业的华为方技术支持。

相关文档