多模数据引擎Aura

多模数据引擎Aura是专为管理、处理、分析多模态数据类型（如文本、图像、音频、视频）而设计。通过“One Flow，One Pool，One Data”的核心理念，为多模态数据处理提供了高效、灵活、低成本的解决方案。在智驾数据预处理等典型场景中，Aura通过异构资源统一调度、数据流转不落地、流水线并行优化等技术，显著提升了资源利用率和数据处理效率，降低了开发和运维成本，为AI应用提供统一的数据底座，释放多模态数据价值。

点击放大

核心优势

多模态统一抽象

将图像、音频、视频、文本等非结构化数据统一抽象为带有类型语义的列式数据，与结构化数据采用一致的查询和处理接口，降低多模态数据处理的技术门槛。

统一开发体验

提供 SQL 和 DataFrame 双开发接口，开发者可根据场景灵活选择，无需额外学习成本即可在两种风格间自由切换。

支持用户自定义函数UDF，可直接复用现有Python代码逻辑，无需重构，轻松实现业务定制，大幅提升开发效率。

异构资源统一调度

支持 CPU、GPU、NPU等异构计算资源的统一管理和调度，根据任务特性自动分配最优计算单元，实现资源利用率最大化。

流水线执行

采用流式处理架构，数据在处理过程中无需频繁落盘，减少 I/O 开销，提升端到端处理效率。

智能识别数据处理流水线中的并行机会，通过流水线并行、算子融合等优化手段，显著提升大规模数据处理的吞吐量和延迟表现。

降低运维成本

一站式的数据处理平台，统一管理数据源、处理流程和计算资源，减少多系统维护的复杂性。

核心功能

多模态数据处理能力
- 结构化格式：Iceberg、Parquet、ORC、CSV、TEXT 等。
- 多模态格式：原生支持图像（Image）、音频（Audio）、视频（Video）、文本（Text）等原生多模格式。
- 多模态算子库：支持自定义函数UDF，灵活对接Python丰富的多模态处理算子，包括图像滤镜、尺寸调整、特征提取，音频转码、频谱分析，文本分词、向量化等。
双接口开发模式
- SQL 查询接口：支持扩展 SQL 语法，可在 SQL 中直接调用多模态处理函数，支持复杂的多表连接和聚合分析。
- DataFrame API：提供 Pythonic 的 DataFrame 接口，支持链式调用和自定义函数扩展。DataFrame 采用基于惰性计算（Lazy Evaluation）模型，通过构建逻辑执行计划（Logical Plan）而非立即触发物理执行，实现全局计算图的延迟加载与跨算子关联优化。
异构资源调度
- 统一资源抽象：对 CPU、GPU、NPU 等计算资源进行统一抽象和池化管理。
- 智能任务分配：根据任务类型和资源状态自动选择最优执行路径。
- 弹性伸缩：支持根据负载动态调整资源分配。
流水线执行
- 流式处理架构：数据处理过程中保持流式状态，减少中间结果落盘。
- 流水线并行：自动识别并行化机会，优化任务调度顺序。
- 算子融合：将相邻算子合并执行，减少数据移动和转换开销。