多模数据引擎Aura
多模数据引擎Aura是专为管理、处理、分析多模态数据类型(如文本、图像、音频、视频)而设计。通过“One Flow,One Pool,One Data”的核心理念,为多模态数据处理提供了高效、灵活、低成本的解决方案。在智驾数据预处理等典型场景中,Aura通过异构资源统一调度、数据流转不落地、流水线并行优化等技术,显著提升了资源利用率和数据处理效率,降低了开发和运维成本,为AI应用提供统一的数据底座,释放多模态数据价值。

核心优势
- 多模态统一抽象
将图像、音频、视频、文本等非结构化数据统一抽象为带有类型语义的列式数据,与结构化数据采用一致的查询和处理接口,降低多模态数据处理的技术门槛。
- 统一开发体验
提供 SQL 和 DataFrame 双开发接口,开发者可根据场景灵活选择,无需额外学习成本即可在两种风格间自由切换。
支持用户自定义函数UDF,可直接复用现有Python代码逻辑,无需重构,轻松实现业务定制,大幅提升开发效率。
- 异构资源统一调度
支持 CPU、GPU、NPU等异构计算资源的统一管理和调度,根据任务特性自动分配最优计算单元,实现资源利用率最大化。
- 流水线执行
采用流式处理架构,数据在处理过程中无需频繁落盘,减少 I/O 开销,提升端到端处理效率。
智能识别数据处理流水线中的并行机会,通过流水线并行、算子融合等优化手段,显著提升大规模数据处理的吞吐量和延迟表现。
- 降低运维成本
一站式的数据处理平台,统一管理数据源、处理流程和计算资源,减少多系统维护的复杂性。
核心功能
- 多模态数据处理能力
- 结构化格式:Iceberg、Parquet、ORC、CSV、TEXT 等。
- 多模态格式:原生支持图像(Image)、音频(Audio)、视频(Video)、文本(Text)等原生多模格式。
- 多模态算子库:支持自定义函数UDF,灵活对接Python丰富的多模态处理算子,包括图像滤镜、尺寸调整、特征提取,音频转码、频谱分析,文本分词、向量化等。
- 双接口开发模式
- SQL 查询接口:支持扩展 SQL 语法,可在 SQL 中直接调用多模态处理函数,支持复杂的多表连接和聚合分析。
- DataFrame API:提供 Pythonic 的 DataFrame 接口,支持链式调用和自定义函数扩展。DataFrame 采用基于惰性计算(Lazy Evaluation)模型,通过构建逻辑执行计划(Logical Plan)而非立即触发物理执行,实现全局计算图的延迟加载与跨算子关联优化。
- 异构资源调度
- 统一资源抽象:对 CPU、GPU、NPU 等计算资源进行统一抽象和池化管理。
- 智能任务分配:根据任务类型和资源状态自动选择最优执行路径。
- 弹性伸缩:支持根据负载动态调整资源分配。
- 流水线执行
- 流式处理架构:数据处理过程中保持流式状态,减少中间结果落盘。
- 流水线并行:自动识别并行化机会,优化任务调度顺序。
- 算子融合:将相邻算子合并执行,减少数据移动和转换开销。