更新时间:2024-04-18 GMT+08:00
分享

Standalone模式spark配置

数据工厂应用内配置

图1 计算引擎配置

参数配置中spark.executor.extraClassPath指定spark上需要额外加载的jar包的路径,jar包需要放在spark所在服务器上。如果spark是集群环境,则每个节点都需要放入jar包,且路径相同。

Spark所需jar包

所需jar包在数据工厂4.4.1war包中lib目录下,复制即可。

表1 jar包

jar包

必须

说明

ecore-1.4.1-SNAPSHOT.jar

-

edi-core-4.4.1-SNAPSHOT.jar

-

edi-designer-api-4.4.1-SNAPSHOT.jar

-

edi-engine-spark-4.4.1-SNAPSHOT.jar

-

edi-widget-base-4.4.1-SNAPSHOT.jar

-

edi-widget-hadoop-4.4.1-SNAPSHOT.jar

-

eutil-1.3.1-SNAPSHOT.jar

-

edi-edatasource-api-4.4.1-SNAPSHOT.jar

-

ejdbc-1.3.1-SNAPSHOT.jar

-

esql-1.2.3-SNAPSHOT.jar

如果输出组件用到实时文件输出组件,则要加上此依赖。

guava-20.0.jar

-

kafka-clients-2.0.0.jar

如果输出组件用到kafka生产组件,则要加上此依赖。

rxjava-1.1.6.jar

-

spark-sql-kafka-0-10_2.11-2.4.0.jar

如果输出组件用到kafka生产组件,则要加上此依赖。

数据库驱动

根据实际需要确定,如果你的实时任务中使用了数据库,那么就需要添加对应数据库的驱动程序包

如使用了oracle和mysql,那么就需要添加oracle和mysql的jdbc驱动。如果没使用数据库则不需要

相关文档