更新时间:2026-05-14 GMT+08:00
分享

多模数据引擎Aura

多模数据引擎Aura是专为管理、处理、分析多模态数据类型(如文本、图像、音频、视频)而设计。通过“One Flow,One Pool,One Data”的核心理念,为多模态数据处理提供了高效、灵活、低成本的解决方案。在智驾数据预处理等典型场景中,Aura通过异构资源统一调度、数据流转不落地、流水线并行优化等技术,显著提升了资源利用率和数据处理效率,降低了开发和运维成本,为AI应用提供统一的数据底座,释放多模态数据价值。

核心优势

  • 多模态统一抽象

将图像、音频、视频、文本等非结构化数据统一抽象为带有类型语义的列式数据,与结构化数据采用一致的查询和处理接口,降低多模态数据处理的技术门槛。

  • 统一开发体验

提供 SQL 和 DataFrame 双开发接口,开发者可根据场景灵活选择,无需额外学习成本即可在两种风格间自由切换。

支持用户自定义函数UDF,可直接复用现有Python代码逻辑,无需重构,轻松实现业务定制,大幅提升开发效率。

  • 异构资源统一调度

支持 CPU、GPU、NPU等异构计算资源的统一管理和调度,根据任务特性自动分配最优计算单元,实现资源利用率最大化。

  • 流水线执行

采用流式处理架构,数据在处理过程中无需频繁落盘,减少 I/O 开销,提升端到端处理效率。

智能识别数据处理流水线中的并行机会,通过流水线并行、算子融合等优化手段,显著提升大规模数据处理的吞吐量和延迟表现。

  • 降低运维成本

一站式的数据处理平台,统一管理数据源、处理流程和计算资源,减少多系统维护的复杂性。

核心功能

  • 多模态数据处理能力
    • 结构化格式:Iceberg、Parquet、ORC、CSV、TEXT 等。
    • 多模态格式:原生支持图像(Image)、音频(Audio)、视频(Video)、文本(Text)等原生多模格式。
    • 多模态算子库:支持自定义函数UDF,灵活对接Python丰富的多模态处理算子,包括图像滤镜、尺寸调整、特征提取,音频转码、频谱分析,文本分词、向量化等。
  • 双接口开发模式
    • SQL 查询接口:支持扩展 SQL 语法,可在 SQL 中直接调用多模态处理函数,支持复杂的多表连接和聚合分析。
    • DataFrame API:提供 Pythonic 的 DataFrame 接口,支持链式调用和自定义函数扩展。DataFrame 采用基于惰性计算(Lazy Evaluation)模型,通过构建逻辑执行计划(Logical Plan)而非立即触发物理执行,实现全局计算图的延迟加载与跨算子关联优化。
  • 异构资源调度
    • 统一资源抽象:对 CPU、GPU、NPU 等计算资源进行统一抽象和池化管理。
    • 智能任务分配:根据任务类型和资源状态自动选择最优执行路径。
    • 弹性伸缩:支持根据负载动态调整资源分配。
  • 流水线执行
    • 流式处理架构:数据处理过程中保持流式状态,减少中间结果落盘。
    • 流水线并行:自动识别并行化机会,优化任务调度顺序。
    • 算子融合:将相邻算子合并执行,减少数据移动和转换开销。

适用场景

  • 多模态数据处理场景

    需要同时处理文本、图像、音频、视频、点云等多种数据类型的场景。例如智能驾驶领域的数据采集、预处理、特征提取等场景。

  • 异构计算协同的大数据处理场景

    需要处理海量数据的场景,例如通过调度CPU、GPU、NPU等多种计算资源协同工作的场景。

相关文档