Spark端点类型概述
什么是端点?
端点是AI DataLake中用户与后端服务(计算引擎和计算资源)进行交互的访问入口,它定义了用户提交作业后系统如何提交任务、访问资源和获取计算能力,是连接用户请求与服务端计算引擎和计算资源的桥梁。
在提交Spark作业前,用户需要先创建Spark引擎端点。创建端点时,AI DataLake自动将引擎和计算资源池绑定,在后续提交作业时只需选择端点,无需再配置作业与计算引擎和计算资源的映射关系。
端点类型分为端点引擎类型和端点类型,两个维度互相结合,满足不同业务场景的需求。
- 端点引擎类型是指端点绑定的计算引擎,决定了数据处理的计算方式和能力。了解Spark引擎的功能特点请参考批处理引擎Spark。
- 端点类型是指端点的使用模式,决定了连接方式、资源使用模式和适用场景。不同引擎提供的端点类型不同。Spark提供了SQL端点和Job端点,详细介绍请参考Spark引擎的端点类型。 图1 端点类型介绍
Spark引擎的端点类型
- SparkSQL端点
适用于数据查询和分析的Spark SQL场景,通过编写SQL语句快速完成数据的筛选、聚合、计算等操作,满足数据分析师需要快速探索数据的业务需求。
- SparkJob端点
适用于复杂数据处理的Spark Job场景,适合执行大规模数据转换、机器学习模型训练、ETL作业等复杂的数据处理任务。
创建端点请参考创建Spark引擎端点。