更新时间:2026-04-14 GMT+08:00
分享

批处理引擎Spark

批处理引擎Spark公测期暂未开放。

引擎介绍

Spark引擎是面向大规模批处理场景的企业级分布式计算引擎,采用新一代流批一体架构设计,支持海量数据的离线处理、ETL管道构建、交互式分析等多种场景。引擎深度集成AI Datalake平台能力,提供Serverless化部署体验,帮助企业轻松应对PB级数据处理挑战。

核心优势

  • 提供Spark SQL、DataFrame API、PySpark、RDD API等多种开发接口,灵活满足数据工程师、AI工程师、数据分析师等不同角色的开发习惯,无论是偏好SQL查询还是Python/Java/Scala编程,都能快速上手。
  • 支持Python用户自定义函数,可直接复用现有Python代码逻辑和机器学习模型,无需重构,轻松实现业务定制,大幅提升开发效率。
  • 支持按作业粒度动态弹性伸缩、快速启停,无需关注底层基础设施配置,按实际使用算力计费,极大降低资源闲置成本。
  • 支持与多模态处理逻辑间高吞吐、全内存级数据流转,减少磁盘IO等待,大幅缩短数据处理周期。

核心功能

功能类别

功能描述

大规模计算能力

支持PB级大规模数据批处理,提供高性能分布式计算能力,支撑海量数据离线分析,满足大吞吐量业务需求。

开发接口

提供Spark SQL、DataFrame、Dataset、RDD、PySpark多接口,降低开发门槛,适配不同技术栈,提升开发效率。

UDF支持

Python UDF、Java UDF、Scala UDF,灵活扩展复杂业务逻辑,满足个性化计算需求。

数据源集成

原生支持Hive、OBS、OBS、JDBC等多种数据源,快速接入异构数据,减少数据迁移成本,提升集成效率。

机器学习

内置MLlib机器学习库,支持大规模机器学习模型训练,一站式实现数据挖掘与预测分析,降低AI工程化成本。

图计算

支持GraphX图计算,处理复杂图关系数据,高效支撑社交网络、知识图谱、风控关联分析等场景。

适用场景

  • 适用于需要进行大规模数据批处理和复杂数据分析的场景。
  • 适合对历史数据进行深度挖掘和分析,例如数据仓库中的数据查询和报表生成。

相关文档