更新时间:2026-05-26 GMT+08:00
分享

互联网AI数据管线

业务场景

随着多模态数据的爆发式增长,AI数据管线面临如下两大核心挑战:

  • 系统稳定性需进一步提升,传统单机脚本和人工编排方式难以应对视频、图像、音频和文本等混合数据的涌入,容易导致计算资源闲置、内存不足和调度故障,影响整体运行效率和系统稳定性。
  • 数据筛选需更加精准,大模型训练面临效果提升放缓的问题,关键样本往往淹没在海量普通数据中,造成标注资源浪费。需提升对关键样本的识别和回收能力。

系统稳定性和数据筛选能力相互促进,共同推动AI数据处理从追求数量向注重质量转变。

表1 传统架构面临的痛点

痛点类型

具体描述

处理效率不足

传统单机或简单并行处理模式无法实现任务级与数据级的细粒度并行,面对大规模数据时吞吐量严重不足,工程周期被无限拉长。

工具集成与弹性伸缩困难

传统方案集成新工具或算法模型改造成本高、周期长,且缺乏动态伸缩能力,无法灵活应对数据量和计算需求的波动,导致资源闲置或峰值期资源紧张。

异构资源调度效率低

识别关键样本需要借助小模型对海量数据进行标注,推理环节需要NPU加速。传统批处理系统难以精细调度NPU资源,导致NPU在数据I/O与解码阶段大量空闲,利用率常不足20%。

互联网AI数据管线,基于分布式计算框架,高效调度多节点算力处理海量图片、视频、用户行为数据,缩短模型训练与强化学习周期。

本节介绍AI DataLake Ray引擎在互联网AI数据管线场景的应用。

方案架构

AI DataLake集成AI计算引擎Ray,构建端到端的AI数据管线,核心架构如下:

  • 异构数据统一加载:通过Ray Data API直接从对象存储读取原始语料,系统自动根据文件数量和集群资源进行分区,实现分布式并发读取,避免单点I/O瓶颈。
  • 关键数据实时标注:通过自动化批处理功能,调用轻量级AI模型对输入语料进行实时分析标注。
  • 流式算子融合执行:采用流式处理方式,将数据读取、智能标注和样本筛选三个算子融合为单一Pipeline,避免中间结果落盘,能够有效控制内存使用量,防止因内存不足导致的系统中断。
图1 解决方案架构图
表2 与传统方案的对比

对比维度

传统方案

Ray方案

处理效率

单机或简单并行的处理模式。

借助Ray的分布式计算能力,各个环节实现任务并行与数据并行处理,缩减预处理时间,提升效率。

集群扩展性

工具/模型与运行环境及调用接口深度耦合,集群运维仍依赖命令行黑屏操作,缺乏可视化管控。

快速集成算法模型,提供自定义Ray镜像、动态扩缩容及节点组灵活配置,实现Ray集群的一键部署和可视化管理。

异构资源调度

CPU/NPU分离,跨任务执行时需数据落盘存储。

同一Pipeline中CPU/NPU混合调度,数据传递不落盘。计算资源利用效率高,减少重复I/O,成本更优。

方案流程

技术实现流程:

  1. 环境准备
    1. AI DataLake管理控制台创建工作空间,用于提供独立的作业运行环境。
    2. AI DataLake管理控制台创建计算资源池,为作业的运行提供计算资源。
    3. AI DataLake管理控制台创建Ray Cluster端点,配置Ray引擎与计算资源池的关联关系。
  2. 数据与模型准备
    1. 准备数据预处理、推理标注Ray Job代码脚本,并上传至存放作业代码的OBS桶。
    2. 将离线推理小模型及模型数据上传至存放模型的OBS桶,确保作业运行时能够加载。
  3. 执行作业并查看结果

    通过Rest API提交Ray Job作业至Ray Cluster端点运行。Ray Job会读取原始语料,通过内存直接传递至CPU完成数据预处理,NPU完成推理标注的全流程处理,最终结果以图片格式存储。

方案效果

  • NPU利用率从18.3%提升至74%:通过细粒度任务调度,实现了CPU数据清洗与NPU数据标注的高效并行处理。
  • 训练数据实时流转,免落盘处理:数据在各个算子之间传递时无需落盘,训练数据生产时间减少30%。
  • 分钟级弹性扩缩容:支持Ray Cluster的一键可视化部署与Worker自动伸缩,灵活满足大规模分布式训练需求。

相关文档