批处理引擎Spark

Spark引擎是面向大规模批处理场景的企业级分布式计算引擎，采用新一代流批一体架构设计，支持海量数据的离线处理、ETL管道构建、交互式分析等多种场景。引擎深度集成AI DataLake平台能力，提供Serverless化部署体验，帮助企业轻松应对PB级数据处理挑战。

提供Spark SQL、DataFrame API、PySpark、RDD API等多种开发接口，灵活满足数据工程师、AI工程师、数据分析师等不同角色的开发习惯，无论是偏好SQL查询还是Python/Java/Scala编程，都能快速上手。
支持Python用户自定义函数，可直接复用现有Python代码逻辑和机器学习模型，无需重构，轻松实现业务定制，大幅提升开发效率。
支持按作业粒度动态弹性伸缩、快速启停，无需关注底层基础设施配置，按实际使用算力计费，极大降低资源闲置成本。
支持与多模态处理逻辑间高吞吐、全内存级数据流转，减少磁盘I/O等待，大幅缩短数据处理周期。

功能类别	功能描述
大规模计算能力	支持PB级大规模数据批处理，提供高性能分布式计算能力，支撑海量数据离线分析，满足大吞吐量业务需求。
开发接口	提供Spark SQL、DataFrame、Dataset、RDD、PySpark多接口，降低开发门槛，适配不同技术栈，提升开发效率。
UDF支持	Python UDF、Java UDF、Scala UDF，灵活扩展复杂业务逻辑，满足个性化计算需求。
数据源集成	原生支持Hive、OBS、JDBC等多种数据源，快速接入异构数据，减少数据迁移成本，提升集成效率。
机器学习	内置MLlib机器学习库，支持大规模机器学习模型训练，一站式实现数据挖掘与预测分析，降低AI工程化成本。
图计算	支持GraphX图计算，处理复杂图关系数据，高效支撑社交网络、知识图谱、风控关联分析等场景。