互联网应用音频加工流水线
业务场景
互联网应用音频加工流水线作为专业化的大规模数据处理系统,日常处理PB量级的原始音频数据,通过数据预处理、数据清洗、语音标签及语音转文本等关键环节,系统化地完成从原始音频到标准化语音文本对的高质量转化。
传统互联网音频加工流水线在处理大规模数据时存在资源利用率低、中间结果频繁落盘、开发效率不高等瓶颈。
| 痛点类型 | 具体描述 |
|---|---|
| 资源使用率低 | 通过容器多副本运行方式模拟并行计算,每个容器分配固定资源,这种方式计算资源使用效率低下,无法做到动态资源分配。 |
| 中间结果落盘 | 缺少统一执行框架,不同的处理步骤中间通过临时存储做数据交互,数据频繁落盘也会导致大量计算资源阻塞在I/O上。 |
| 开发效率低 | 开发者需要在单独进程内维护异步处理流程,开发难度高,也无法做到计算资源被有效调度使用。 |
多模数据引擎Aura,构建高效能音频数据处理体系,显著提升海量音频文件的处理效率,为语音模型训练提供高产能、高质量的数据支撑。
本节介绍AI DataLake Aura引擎在互联网音频数据加工场景的应用。
方案架构
AI DataLake提供异构资源(CPU/GPU/NPU)统一管理能力,用户可以一键开通使用。Aura引擎提供了高效、灵活、低成本的多模态数据处理能力,用户可以基于Aura提供的DataFrame API完成复杂工作流的编排。
- 通过CDM结合AI DataLake,支持非结构化数据的快速接入,助力客户实现分散数据上云与集成。
- 通过LakeFormation提供非结构化数据集管理能力,实现异构数据统一管理视图。
- 与ModelArts集成,提供端到端的模型训练与评测,打造从数据集成、处理到模型开发的全链路闭环。
| 对比项 | 传统方案 | Aura方案 |
|---|---|---|
| 资源管理 | 异构资源在不同平台之间管理,建设维护成本高,资源按业务申请,资源无法复用。 | 异构资源统一管理,一键开通,弹性扩缩,免运维。 |
| 中间结果传递 | 工作流节点之间通过OBS做数据中转,数据频繁落盘,计算资源使用效率低。 | 分布式内存数据流转,减少90%OBS读写,I/O效率提升10倍+。 |
方案流程
技术实现流程:
- 环境准备
- 在AI DataLake管理控制台创建工作空间,用于提供独立的作业运行环境。
- 在AI DataLake管理控制台创建计算资源池,为作业的运行提供计算资源。
- 在AI DataLake管理控制台创建端点,配置Aura引擎与计算资源池的关联关系。
- 数据准备
创建OBS桶,将音频文件上传到OBS桶中。
- 数据开发
使用Aura SDK开发数据加工任务。
方案效果
- 处理性能倍增:函数级别异构资源(CPU/GPU/NPU)混合调度,计算效率提升5~10倍以上。
- 数据流转加速:分布式内存数据流转,中间结果I/O性能提升10倍以上。
- 开发效率提升50%:不同数据类型开发方式不需要适配多个平台/引擎,在一套SDK中完成开发,与业界主流DataFrame开发API保持一致。