文档首页/ 数据治理中心 DataArts Studio/ 常见问题/ 数据开发/ Spark Python作业如何引用Python脚本?
更新时间:2025-08-05 GMT+08:00
分享

Spark Python作业如何引用Python脚本?

前提条件

在管理中心已创建MRS Spark连接,连接方式为MRS API连接。

操作步骤

  1. 在数据开发主界面的左侧导航栏,选择“数据开发 > 脚本开发”。
  2. 创建一个Spark Python脚本,脚本名称为pyspark_demo。数据连接选择管理中心已创建的MRS Spark连接。

    from pyspark import SparkConf, SparkContext
    
    conf = SparkConf().setAppName('My App')
    sc = SparkContext(conf=conf)
    
    count = sc.range(1, 1000 * 1000 * 100).filter(lambda x: x > 100).count()
    print('count: ', count)

  3. 保存并提交版本。
  4. 单击“运行”,运行该脚本。

    图1 运行脚本

  5. 查看脚本的执行历史结果。

    脚本创建好以后,在作业中引用该脚本,具体操作如下。

  6. 创建一个作业批处理的Pipeline作业。
  7. 进入作业后,在画布中间,拖入MRS Spark Python作业节点,并配置节点属性参数。

    集群:与管理中心创建连接时,所选择的集群保持一致。

    脚本:选择在线脚本,选择在脚本开发已创建好的脚本pyspark_demo。

    其他参数保持以默认。

    图2 配置节点参数

  8. 设置作业调度方式。配置调度方式为单次调度或者周期调度。
  9. 保存并提交版本。
  10. 单击“执行调度”,运行该作业。

    图3 查看调度运行结果

  11. 在“作业监控”查看作业的调度运行状态,并查看日志信息。

相关文档