更新时间:2025-06-17 GMT+08:00

Notebook

功能

通过Notebook节点执行一个在DLI中预先定义的Notebook作业。

约束限制

该功能依赖于OBS服务。

参数

用户可参考表1表2配置Notebook节点的参数。

表1 属性参数

参数

是否必选

说明

节点名称

节点名称,可以包含中文、英文字母、数字、“_”“-”“/”“<”“>”等各类特殊字符,长度为1~128个字符。

Spark作业名称

填写DLI Spark作业的名称,只能包含英文字母、数字、“_”,且长度为1~64个字符。默认与节点的名称一致。

DLI队列

下拉选择需要使用的队列。

说明:
  • 当子用户在创建作业时,子用户只能选择已经被分配的队列。
  • 当前由于DLI的“default”队列默认Spark组件版本较低,可能会出现无法支持建表语句执行的报错,这种情况下建议您选择自建队列运行业务。如需“default”队列支持建表语句执行,可联系DLI服务客服或技术支持人员协助解决。
  • DLI的“default”队列为共享队列,仅用于用户体验,用户间可能会出现抢占资源的情况,不能保证每次都可以得到资源执行相关操作。当遇到执行时间较长或无法执行的情况,建议您在业务低峰期再次重试,或选择自建队列运行业务。

作业特性

选择DLI队列后,该参数根据实际需要可以设置。

用户作业使用的Spark镜像类型(当前支持基础型和自定义的Spark镜像)。

  • 基础型
  • 自定义镜像

    当选择“自定义镜像”时,请选择自定义的镜像名称,版本号系统自动展示。您可以前往容器镜像服务进行设置。

Spark版本

选择了DLI队列后,该参数必填。

选择Spark版本。

  • 3.3.1
  • 3.1.1

    当调度数据开发的Notebook文件时,仅支持在DLI Spark 3.3.1上运行Notebook文件。

作业运行资源

选择作业运行的资源规格:

  • 8核32G内存
  • 16核64G内存
  • 32核128G内存

输入目录

在OBS桶下选择运行Notebook文件的路径。输入目录的绝对路径长度不超过1024个字符。

输入Notebook文件

在OBS输入目录下选择Notebook文件。文件格式为.ipynb格式。绝对路径长度不超过2048个字符。

输出Notebook文件路径

在OBS桶下选择输出Notebook文件运行结果的路径。输出目录的绝对路径长度不超过1024个字符。

输出Notebook文件名

输出Notebook文件名。文件名长度不能超过256个字符。文件格式为.ipynb格式。

输入Notebook参数

为本次执行的Notebook作业配置相关参数。

Spark作业运行参数

以“key=value”的形式设置提交Spark作业的属性,多个参数以Enter键分隔。具体参数请参见Spark Configuration

Spark参数value支持全局变量替换。例如,在“全局配置”>“全局变量”中新增全局变量key为custom_class,可以使用"spark.sql.catalog"={{custom_class}},在提交作业之后进行变量替换。

说明:

Spark作业不支持自定义设置jvm垃圾回收算法。

表2 高级参数

参数

是否必选

说明

节点状态轮询时间(秒)

设置轮询时间(1~60秒),每隔x秒查询一次节点是否执行完成。

节点执行的最长时间

设置节点执行的超时时间,如果节点配置了重试,在超时时间内未执行完成,该节点将会再次重试。

失败重试

节点执行失败后,是否重新执行节点

  • 是:重新执行节点,请配置以下参数。
    • 超时重试
    • 最大重试次数
    • 重试间隔时间(秒)
  • 否:默认值,不重新执行节点
    说明:

    如果作业节点配置了重试,并且配置了超时时间,该节点执行超时后,系统支持再重试。

    当节点运行超时导致的失败不会重试时,您可前往“默认项设置”修改此策略。

    当“失败重试”配置为“是”才显示“超时重试”。

当前节点失败后,后续节点处理策略

节点执行失败后的操作:

  • 终止后续节点执行计划:停止后续节点的运行,当前作业实例状态显示为“失败”。
  • 终止当前作业执行计划:停止当前作业运行,当前作业实例状态显示为“失败”。
  • 继续执行下一节点:忽略当前节点失败,当前作业实例状态显示为“忽略失败”。
  • 挂起当前作业执行计划:当前作业实例的状态为运行异常,该节点的后续节点以及依赖于当前作业的后续作业实例都会处于等待运行状态。

是否空跑

如果勾选了空跑,该节点不会实际执行,将直接返回成功。

任务组

选择任务组。任务组配置好后,可以更细粒度地进行当前任务组中的作业节点的并发数控制,比如作业中包含多个节点、补数据、重跑等场景。