最新动态
功能总览
服务公告
- 产品公告
- 版本支持公告
产品介绍
- 图解数据湖探索
- 数据湖探索简介
- 产品优势
- 应用场景
- 约束与限制
- 产品规格
- 安全
- 权限管理
- 配额管理
- 与其他云服务的关系
- 基本概念
计费说明
- 计费概述
- 计算计费
  - 弹性资源池计费
- 存储计费
- 扫描量计费
- 套餐包计费
- 计费样例
- 续费
- 费用账单
- 欠费说明
- 停止计费
- 计费相关问题
- 修订记录
快速入门
- 使用DLI提交SQL作业查询OBS数据
- 使用DLI提交SQL作业查询RDS MySQL数据
- 使用DLI提交Flink OpenSource SQL作业查询RDS MySQL数据
- 使用DLI提交Flink Jar作业
- 使用DLI提交Spark Jar作业
- 入门实践
用户指南
- DLI作业开发流程
- 准备工作
- 创建弹性资源池和队列
- 创建数据库和表
- 数据迁移与数据传输
- 配置DLI访问其他云服务的委托权限
- 使用DLI提交SQL作业
- 使用DLI提交Flink作业
- 使用DLI提交Spark作业
- 使用Notebook实例提交DLI作业
- 使用CES监控DLI服务
- 使用CTS审计DLI服务
- 权限管理
- DLI常用管理操作
最佳实践
- 最佳实践内容概览
- 使用DLI分析车联网场景驾驶行为数据
- 使用DLI将CSV数据转换为Parquet数据
- 使用DLI分析电商BI报表
- 使用DLI分析账单消费数据
- 使用DLI分析电商实时业务数据
- 使用BI工具连接DLI分析数据
开发指南
- 使用客户端工具连接DLI
- SQL作业开发指南
- Flink作业开发指南
- Spark Jar作业开发指南
Spark SQL语法参考
- Spark SQL常用配置项说明
- Spark SQL语法概览
- Spark开源命令支持说明
- 数据库相关
- 表相关
- 数据相关
- 导出查询结果
- 跨源连接相关
- 视图相关
  - 创建视图
  - 删除视图
- 查看计划
- 数据权限相关
- 数据类型
- 自定义函数
- 内置函数
  - 日期函数
    - 日期函数概览
    - add_months
    - current_date
    - current_timestamp
    - date_add
    - dateadd
    - date_sub
    - date_format
    - datediff
    - datediff1
    - datepart
    - datetrunc
    - day/dayofmonth
    - from_unixtime
    - from_utc_timestamp
    - getdate
    - hour
    - isdate
    - last_day
    - lastday
    - minute
    - month
    - months_between
    - next_day
    - quarter
    - second
    - to_char
    - to_date
    - to_date1
    - to_utc_timestamp
    - trunc
    - unix_timestamp
    - weekday
    - weekofyear
    - year
  - 字符串函数
    - 字符串函数概览
    - ascii
    - concat
    - concat_ws
    - char_matchcount
    - encode
    - find_in_set
    - get_json_object
    - instr
    - instr1
    - initcap
    - keyvalue
    - length
    - lengthb
    - levenshtein
    - locate
    - lower/lcase
    - lpad
    - ltrim
    - parse_url
    - printf
    - regexp_count
    - regexp_extract
    - replace
    - regexp_replace
    - regexp_replace1
    - regexp_instr
    - regexp_substr
    - repeat
    - reverse
    - rpad
    - rtrim
    - soundex
    - space
    - substr/substring
    - substring_index
    - split_part
    - translate
    - trim
    - upper/ucase
  - 数学函数
    - 数学函数概览
    - abs
    - acos
    - asin
    - atan
    - bin
    - bround
    - cbrt
    - ceil
    - conv
    - cos
    - cot1
    - degrees
    - e
    - exp
    - factorial
    - floor
    - greatest
    - hex
    - least
    - ln
    - log
    - log10
    - log2
    - median
    - negative
    - percentlie
    - percentlie_approx
    - pi
    - pmod
    - positive
    - pow
    - radians
    - rand
    - round
    - shiftleft
    - shiftright
    - shiftrightunsigned
    - sign
    - sin
    - sqrt
    - tan
  - 聚合函数
    - 聚合函数概览
    - avg
    - corr
    - count
    - covar_pop
    - covar_samp
    - max
    - min
    - percentile
    - percentile_approx
    - stddev_pop
    - stddev_samp
    - sum
    - variance/var_pop
    - var_samp
  - 分析窗口函数
    - 分析窗口函数概览
    - cume_dist
    - first_value
    - last_value
    - lag
    - lead
    - percent_rank
    - rank
    - row_number
  - 其他函数
    - 函数概览
    - decode1
    - javahash
    - max_pt
    - ordinal
    - trans_array
    - trunc_numeric
    - url_decode
    - url_encode
- SELECT
  - 基本语句
  - 排序
  - 分组
  - 连接
  - 子句
    - FROM
    - OVER
    - WHERE
    - HAVING
    - 多层嵌套子查询
  - 别名SELECT
    - 表别名
    - 列别名
  - 集合运算SELECT
    - UNION
    - INTERSECT
    - EXCEPT
  - WITH...AS
  - CASE...WHEN
    - 简单CASE函数
    - CASE搜索函数
- 标示符
- 运算符
Flink SQL语法参考
- Flink Opensource SQL1.15语法参考
- Flink Opensource SQL1.12语法参考
- Flink Opensource SQL1.10语法参考
HetuEngine SQL语法参考
- HetuEngine SQL语法
- 数据类型隐式转换
  - 简介
  - 隐式转换对照表
- 附录
  - 本文样例表数据准备
  - 常用数据源语法兼容性
Hudi SQL语法参考
- Hudi表概述
- DLI Hudi元数据
- DLI Hudi开发规范
- DLI中使用Hudi开发作业
- DLI Hudi SQL语法参考
- Spark datasource API语法参考
  - API语法说明
  - Hudi锁配置说明
- 数据管理维护
- Hudi常见配置参数
Delta SQL语法参考
- DLI Delta表概述
- DLI中使用Delta开发作业
  - DLI Delta元数据
  - 在DLI使用Delta提交Spark Jar作业
- Delta Time Travel
- Delta清理和优化
- Delta SQL语法参考
- Delta常见配置参数
- DLI Delta常见问题
API参考
- API使用前必读
  - 概述
  - 调用说明
  - 终端节点
  - 约束与限制
  - 基本概念
- API概览
- 如何调用API
  - 构造请求
  - 认证鉴权
  - 返回结果
- API快速入门
  - 创建并提交SQL作业
  - 创建并提交Spark作业
  - 创建并提交Flink作业
  - 创建并使用跨源链接
- 权限相关API
  - 数据赋权（用户或项目）
  - 查看赋权对象使用者权限信息
- 全局变量相关API
  - 创建全局变量
  - 删除全局变量
  - 修改全局变量
  - 查询所有全局变量
- 资源标签相关API
  - 批量添加资源标签
  - 批量删除资源标签
  - 查询资源实例数量
  - 查询资源实例列表
  - 查询指定资源类型的标签信息
  - 查询指定资源实例的标签信息
- 增强型跨源连接相关API
  - 创建增强型跨源连接
  - 删除增强型跨源连接
  - 查询增强型跨源连接列表
  - 查询增强型跨源连接
  - 绑定队列
  - 解绑队列
  - 修改主机信息
  - 查询增强型跨源授权信息
  - 创建路由
  - 删除路由
- 跨源认证相关API
  - 创建跨源认证
  - 获取跨源认证列表
  - 更新跨源认证
  - 删除跨源认证
- 弹性资源池相关API
  - 创建弹性资源池
  - 查询所有弹性资源池
  - 删除弹性资源池
  - 修改弹性资源池信息
  - 查询弹性资源池下所有队列
  - 关联队列到弹性资源池
  - 弹性资源池扩缩容历史记录
  - 修改弹性资源池关联队列的扩缩容策略
- 队列相关API（推荐）
  - 创建队列
  - 删除队列
  - 查询所有队列
  - 查询队列详情
  - 重启/扩容/缩容队列
  - 创建指定地址连通性测试请求
  - 查询指定地址连通性测试详情
- SQL作业相关API
  - 提交SQL作业（推荐）
  - 取消作业（推荐）
  - 查询所有作业
  - 预览SQL作业查询结果
  - 导出查询结果
  - 查询作业状态
  - 查询作业详细信息
  - 检查SQL语法
  - 查询作业执行进度信息
- SQL模板相关API
  - 保存SQL模板
  - 查看所有SQL模板
  - 更新SQL模板
  - 删除SQL模板
- Flink作业相关API
  - 新建SQL作业
  - 更新SQL作业
  - 新建Flink Jar作业
  - 更新Flink Jar作业
  - 批量运行作业
  - 查询作业列表
  - 查询作业详情
  - 查询作业执行计划
  - 批量停止作业
  - 删除作业
  - 批量删除作业
  - 导出Flink作业
  - 导入Flink作业
  - 生成Flink SQL作业的静态流图
- Flink作业模板相关API
  - 新建模板
  - 更新模板
  - 删除模板
  - 查询模板列表
- Flink作业管理相关API
  - 触发Flink作业保存点
  - 导入Flink作业保存点
- Spark作业相关API
  - 创建批处理作业
  - 查询批处理作业列表
  - 查询批处理作业详情
  - 查询批处理作业状态
  - 取消批处理作业
- Spark作业模板相关API
  - 创建作业模板
  - 查询作业模板列表
  - 修改作业模板
  - 获取作业模板
- 权限策略和授权项
- 历史API
  - 委托相关API（废弃）
    - 获取DLI委托信息（废弃）
    - 创建DLI委托（废弃）
  - 分组资源相关API（废弃）
  - Spark批处理相关API（废弃）
    - 查询批处理作业日志（废弃）
  - SQL作业相关API（废弃）
    - 导入数据（废弃）
    - 导出数据（废弃）
  - 资源相关API（废弃）
    - 数据库相关API（废弃）
    - 表相关API（废弃）
  - 权限相关API（废弃）
  - 队列相关API（废弃）
  - 跨源认证相关API（废弃）
  - 增强型跨源连接相关API（废弃）
    - 创建路由（废弃）
    - 删除路由（废弃）
  - 模板相关API（废弃）
    - 查询所有SQL样例模板（废弃）
  - 表相关API（废弃）
    - 查询所有表（废弃）
  - SQL作业相关API（废弃）
  - 上传数据相关API（废弃）
    - 对已创建的上传作业进行鉴权（废弃）
  - 集群相关API（废弃）
  - Flink作业相关API（废弃）
    - 查询作业监控信息（废弃）
    - OBS授权给DLI服务
- 公共参数
  - 状态码
  - 错误码
  - 获取项目ID
  - 获取账号ID
SDK参考
- DLI SDK简介
- （推荐）DLI SDK V3
- DLI SDK
  - DLI SDK功能矩阵
  - DLI SDK与API的对应关系
- Java SDK
- Python SDK
常见问题
- DLI产品咨询类
- DLI弹性资源池和队列类
- DLI数据库和表类
- 增强型跨源连接类
- SQL作业类
  - SQL作业开发类
  - SQL作业运维类
- Flink作业类
- Spark作业相类
  - Spark作业开发类
  - Spark作业运维类
- DLI资源配额类
- DLI权限管理类
- DLI API类
视频帮助
更多文档
- 用户指南（阿布扎比区域）
- API参考（阿布扎比区域）
- SQL语法参考（阿布扎比区域）
- 用户指南（巴黎区域）
- API参考 (巴黎区域)
- SQL语法参考（巴黎区域）
- 用户指南（吉隆坡区域）
- API参考（吉隆坡区域）
- SQL语法参考（吉隆坡区域）
通用参考
- 云服务等级协议（SLA）
- 白皮书资源
- 支持区域
- 系统权限

本文导读

使用须知
操作流程
约束限制
步骤1：创建弹性资源池并添加通用队列
步骤2：创建虚拟私有云和安全组
步骤3：创建增强型跨源连接
步骤4：注册ModelArts自定义镜像
步骤5：创建DLI自定义委托用于访问Notebook实例
步骤6：在DLI弹性资源池中创建Notebook实例
步骤7：配置Notebook访问DLI元数据
步骤8：使用Notebook实例编写和调试代码
（可选）配置Notebook访问DLI元数据
（可选）配置Notebook访问LakeFormation元数据

展开导读

文档首页/ 数据湖探索 DLI/ 用户指南/ 使用Notebook实例提交DLI作业

使用Notebook实例提交DLI作业

更新时间：2025-02-17 GMT+08:00

Notebook是基于开源JupyterLab进行了深度优化的交互式数据分析挖掘模块，提供在线的开发和调试能力，用于编写和调测模型训练代码。完成DLI对接Notebook实例后，您可以基于Notebook提供的Web交互的开发环境同时完成代码的编写与作业的开发，使用Notebook灵活的进行数据分析与探索，本节操作介绍使用Notebook作业提交DLI作业的操作步骤。

关于Jupyter Notebook的详细操作指导，请参见Jupyter Notebook使用文档。

使用Notebook实例提交DLI作业适用于在线开发调试场景下的作业需求，无需准备开发环境，一站式完成数据分析分析与探索。

使用须知

该功能为白名单功能，如需使用，请在管理控制台右上角，选择“工单 > 新建工单”，提交申请。
在DLI管理控制台删除弹性资源池时并不会删除关联的Notebook实例，如果不再使用Notebook实例，请登录ModelArts管理控制台删除对应的Notebook资源。

操作流程

创建弹性资源池并添加通用队列。
在DLI提交Notebook实例需要使用弹性资源池资源，并在弹性资源池中创建通用队列用于后续执行作业所需的计算资源。请参考步骤1：创建弹性资源池并添加通用队列。
创建Notebook实例所需的VPC和安全组。
配置弹性资源池开启Notebook后，弹性资源池会准备Notebook功能所需的组件。请参考步骤2：创建虚拟私有云和安全组。
创建增强型跨源连接用于打通DLI弹性弹性资源池和Notebook实例的网络。
请参考步骤3：创建增强型跨源连接。
准备创建Notebook实例所需的自定义镜像。
请参考步骤4：注册ModelArts自定义镜像。
创建自定义委托用于访问Notebook实例。
请参考步骤5：创建DLI自定义委托用于访问Notebook实例。
在DLI的弹性资源池中创建Notebook实例。
请参考步骤6：在DLI弹性资源池中创建Notebook实例。
配置Notebook访问DLI或LakeFormation元数据。
- （可选）配置Notebook访问DLI元数据
- （可选）配置Notebook访问LakeFormation元数据
在JupyterLab中编写和调试代码。
进入JupyterLab主页后，可在“Notebook”区域下编辑和调试代码。步骤8：使用Notebook实例编写和调试代码。

约束限制

使用Notebook实例提交DLI作业必须使用弹性资源池下的通用队列。
每一个弹性资源池关联唯一的Notebook实例。
Notebook作业运行过程中产生的临时数据将会存储在DLI作业桶中，且必须使用并行文件系统。
请在ModelArts管理控制台管理Notebook实例。请参考管理Notebook实例。
Notebook实例用于代码编辑和开发，关联队列用于执行作业。
如需更换Notebook实例关联的队列请在ModelArts管理控制台进行相关操作。

步骤1：创建弹性资源池并添加通用队列

创建弹性资源池。
1. 登录DLI管理控制台，在左侧导航栏单击“资源管理 > 弹性资源池”，可进入弹性资源池管理页面。
2. 在弹性资源池管理界面，单击界面右上角的“购买弹性资源池”。
3. 在“购买弹性资源池”界面，填写具体的弹性资源池参数，具体参数填写参考创建弹性资源池并添加队列。
  - CU范围：请确保弹性资源池预留资源大于16CUs，用于NoteBook实例资源所需。
  - 网段：请注意弹性资源池网段请勿与下列网段重复：
    172.18.0.0/16、172.16.0.0/16、10.247.0.0/16
4. 参数填写完成后，单击“立即购买”，在界面上确认当前配置是否正确。
5. 单击“提交”完成队列创建。等待弹性资源池状态变成“可使用”表示当前弹性资源池创建成功。
在弹性资源池添加通用队列。
1. 选择要操作的弹性资源池，在“操作”列，单击“添加队列”。
2. 在“添加队列”界面，配置队列的基础配置，具体参数信息请参考创建弹性资源池并添加队列。
  队列类型选择“通用队列”。
3. 单击“下一步”，在“扩缩容策略”界面配置当前队列在弹性资源池的扩缩容策略。
4. 单击“确定”完成添加队列配置。

步骤2：创建虚拟私有云和安全组

创建虚拟私有云
1. 登录VPC管理控制台，进入创建虚拟私有云页面。
2. 在“创建虚拟私有云”页面，根据界面提示配置VPC和子网的参数。
  具体参数说明请参考创建虚拟私有云。
  
  其中配置IPv4网段时，请确保VPC的IPv4网段不要与下列网段重复。
  
  172.18.0.0/16、172.16.0.0/16、10.247.0.0/16
创建安全组
1. 登录VPC管理控制台，进入安全组列表页面。
2. 在安全组列表右上方，单击“创建安全组”。
  进入“创建安全组”页面。根据界面提示，设置安全组参数。
  
  具体参数说明请参考创建安全组。
请确保安全组需要对DLI弹性资源池网段放通TCP的8998和30000-32767端口。

步骤3：创建增强型跨源连接

登录DLI管理控制台。
在左侧导航栏中，选择“跨源管理 > 增强型跨源 ”。
选择“增强型跨源”，单击“创建”。
配置增强型跨源连接信息，详细参数介绍请参见表2。

创建增强型跨源连接时：
- 弹性资源池：选择步骤1：创建弹性资源池并添加通用队列创建的弹性资源池。
- 虚拟私有云：选择步骤2：创建虚拟私有云和安全组创建的虚拟私有云。

步骤4：注册ModelArts自定义镜像

基于ModelArts提供的MindSpore预置镜像，并借助ModelArts命令行工具，通过加载镜像构建模板并修改Dockerfile，构建出一个新镜像，最后注册后在Notebook使用。

ModelArts命令行工具请参考ma-cli镜像构建命令介绍

基础镜像地址：swr.{endpoint}/atelier/pyspark_3_1_1:develop-remote-pyspark_3.1.1-py_3.7-cpu-ubuntu_18.04-x86_64-uid1000-20230308194728-68791b4
请按需更换地址中的Region名称后使用

例如，新加坡区域的endpoint为ap-southeast-3.myhuaweicloud.com

拼接后的基础镜像地址为：swr.ap-southeast-3.myhuaweicloud.com/atelier/pyspark_3_1_1:develop-remote-pyspark_3.1.1-py_3.7-cpu-ubuntu_18.04-x86_64-uid1000-20230308194728-68791b4
在ModelArts创建并注册自定义镜像的详细操作请参考在Notebook中通过Dockerfile从0制作自定义镜像。

步骤5：创建DLI自定义委托用于访问Notebook实例

参考创建DLI自定义委托权限创建DLI自定义委托用于访问Notebook实例。

请确保委托中包含以下权限：ModelArts FullAccess、DLI FullAccess、OBS Administrator、IAM的授予向云服务传递委托的权限。

关于IAM的授予向云服务传递委托的权限，如果使用的是IAM角色或策略授权：请授予IAMiam:agencies:*权限。

{
    "Version": "1.1",
    "Statement": [
        {
            "Effect": "Allow",
            "Action": [
                "iam:agencies:*"
            ]
        },
        {
            "Effect": "Deny",
            "Action": [
                "iam:agencies:update*",
                "iam:agencies:delete*",
                "iam:agencies:create*"
            ]
        }
    ]
}

步骤6：在DLI弹性资源池中创建Notebook实例

说明：

在ModelArts管理控制台的左侧导航栏中选择“权限管理”，检查是否配置了ModelArts访问授权。新建的委托中需包含IAM的授予向云服务传递委托的权限，权限策略请参考步骤5：创建DLI自定义委托用于访问Notebook实例。

在DLI弹性资源池页面预置创建Notebook实例相关的DLI资源信息。
1. 登录DLI管理控制台，进入弹性资源池列表页面。
2. 选择步骤1：创建弹性资源池并添加通用队列中创建的弹性资源池。
3. 单击操作列的“更多 > Notebook(新)”。
4. 单击“创建Notebook”，配置以下参数信息：
  - 自定义镜像：选择步骤4：注册ModelArts自定义镜像中注册的镜像。
  - 所属队列：选择步骤1：创建弹性资源池并添加通用队列中创建的队列。
  - Spark版本：推荐选择Spark 3.3.1版本。
  - 增强型跨源链接：选择步骤3：创建增强型跨源连接中创建的增强型跨源连接。
    图1 预置创建Notebook实例相关的DLI资源信息
5. 单击“确定”创建Notebook实例。系统跳转至Notebook实例创建页面。
在Notebook实例页面配置Notebook实例相关参数。
1. 创建Notebook实例。
  具体参数说明请参考创建Notebook实例。
  
  配置过程中：
  - 镜像：选择自定义镜像，选择步骤4：注册ModelArts自定义镜像中注册的镜像。
  - VPC接入：开启VPC接入接入功能
    说明：
    
    请联系客户支持开启Notebook实例的VPC接入白名单功能。
    
    安全组请配置为步骤2：创建虚拟私有云和安全组中创建的安全组，且安全组需要对DLI弹性资源池网段放通TCP的8998和30000-32767端口。
    
    参数配置完成后单击“立即创建”，等待Notebook实例创建完成。

配置Notebook实例连接DLI。

在Notebook实例的列表中单击操作类的“打开”跳转至Notebook实例页面。
在Notebook实例页面单击右上角的“connect”连接DLI。
图2 连接DLI

在Connect Cluster页面中，填写作业运行的相关信息。

图3 Connect Cluster

表1 Connect Cluster
参数名称	说明	配置样例
Service Type	连接的服务名称。	DLI
Pool Name	Notebook作业运行所在队列对应的弹性资源池。	本例配置为步骤1：创建弹性资源池并添加通用队列中创建的弹性资源池。
Queue Name	Notebook作业运行所在的队列。	本例配置为步骤1：创建弹性资源池并添加通用队列中创建的队列。
Spark Version	Spark引擎版本。	当前仅Spark 3.3.1版本支持使用Notebook实例提交DLI作业。
Spark参数(--conf)	该参数用于配置DLI作业的自定义参数。	请参考表2。

表2 常用Spark参数配置项
参数名称	说明
spark.dli.job.agency.name	用于指定DLI作业的委托权限名称。在使用Flink 1.15和Spark 3.3及以上版本的引擎执行作业时，需要在作业配置中添加新建的委托信息。配置样例：本例配置为用于访问Notebook的DLI委托名称“dli_notebook”。 spark.dli.job.agency.name=dli_notebook
spark.sql.session.state.builder	该参数是指定元数据的配置项。配置样例：配置访问DLI元数据场景的配置项 spark.sql.session.state.builder=org.apache.spark.sql.hive.DliLakeHouseBuilder
spark.sql.catalog.class	用于指定不同的数据源和元数据管理系统。配置样例：配置访问DLI元数据场景的配置项 spark.sql.catalog.class=org.apache.spark.sql.hive.DliLakeHouseCatalog
spark.dli.metaAccess.enable	用于开启或关闭对DLI元数据的访问。 spark.dli.metaAccess.enable=true

完成后单击连接，等待右上方的connect变成队列名称，名称前面小圆点变绿后代表连接成功，即可执行相关notebook作业。
图4 Notebook实例完成连接。
单击“Connect”测试连接。

等待实例初始化完成后即可在Notebook执行在线的数据分析操作。通常实例初始化需要2分钟左右。

在Notebook执行相关sql语句，在DLI就会启动一个Spark作业，同时在Notebook中显示作业结果。

步骤7：配置Notebook访问DLI元数据

执行作业前需要配置Notebook访问DLI或LakeFormation元数据。

（可选）配置Notebook访问DLI元数据
（可选）配置Notebook访问LakeFormation元数据

步骤8：使用Notebook实例编写和调试代码

Notebook与DLI队列连接成功后，即可在“Notebook”区域下编辑和调试代码。

您可以选择使用Notebook提交作业，或在DLI管理控制台的Spark作业操作页面提交作业。

Notebook相关操作请参考JupyterLab简介及常用操作。
Notebook中的数据上传请参考上传文件至JupyterLab。
Notebook中的数据下载请参考下载JupyterLab文件到本地。

（可选）配置Notebook访问DLI元数据

在完成DLI和Notebook的对接后，您需要配置如需在Notebook提交DLI作业场景下使用元数据的方式，本小节操作介绍配置访问DLI元数据的操作步骤。

如需配置Notebook访问LakeFormation元数据请采参考（可选）配置Notebook访问LakeFormation元数据。

指定Notebook镜像。

自定义委托授权DLI使用DLI元数据和OBS。

自定义委托操作步骤请参考创建DLI自定义委托权限。

请确保自定义委托具备以下权限：

表3 DLI自定义委托场景
场景	委托名称	适用场景	权限策略
允许DLI读写OBS将日志转储	自定义	DLI Flink作业下载OBS对象、OBS/DWS数据源（外表）、日志转储、使用savepoint、开启checkpoint，DLI Spark作业下载OBS对象、读写OBS外表。	访问和使用OBS的权限策略
允许访问DLI Catalog元数据	自定义	DLI 访问DLI元数据。	访问DLI Catalog元数据的权限

确认开启访问DLI元数据。
1. 登录ModelArts管理控制台，选择“开发空间>Notebook”。
2. 创建Notebook实例，实例处于“运行中”，单击“操作”列的“打开”，进入“JupyterLab”开发页面。
3. 选择“Files > New > Terminal”，进入到Terminal界面。
  图5 进入到Terminal界面
4. 执行以下命令进入到livy配置目录下，查看spark配置文件。
  cd /home/ma-user/livy/conf/
  
  vi spark-defaults.conf
  
  确认包含spark.dli.user.catalogName=dli配置项，该配置项即访问DLI元数据。
  
  spark.dli.user.catalogName=dli为默认配置项。
  
  图6 关闭默认访问DLI元数据
5. 使用notebook编辑作业。
  - Notebook相关操作请参考JupyterLab简介及常用操作。
  - Notebook中的数据上传请参考上传文件至JupyterLab。
  - Notebook中的数据下载请参考下载JupyterLab文件到本地。

（可选）配置Notebook访问LakeFormation元数据

在完成DLI和Notebook的对接后，您需要配置如需在Notebook提交DLI作业场景下使用元数据的方式，本小节操作介绍配置访问LakeFormation元数据的操作步骤。

如需配置Notebook访问DLI元数据请采参考（可选）配置Notebook访问DLI元数据。

DLI对接LakeFormation。
1. 具体操作请参考DLI对接LakeFormation。
指定Notebook镜像。

自定义委托授权DLI使用LakeFormation和OBS。

自定义委托操作步骤请参考创建DLI自定义委托权限。

请确保自定义委托具备以下权限：

表4 DLI自定义委托场景
场景	委托名称	适用场景	权限策略
允许DLI读写OBS将日志转储	自定义	DLI Flink作业下载OBS对象、OBS/DWS数据源（外表）、日志转储、使用savepoint、开启checkpoint，DLI Spark作业下载OBS对象、读写OBS外表。	访问和使用OBS的权限策略
允许访问LakeFormation Catalog元数据	自定义	DLI 访问LakeFormation元数据。	访问LakeFormation Catalog元数据的权限

在Notebook实例页面配置Spark参数。

选择DLI的notebook镜像的队列，并且单击connect，配置spark参数。

spark.sql.catalogImplementation=hive
spark.hadoop.hive-ext.dlcatalog.metastore.client.enable=true
spark.hadoop.hive-ext.dlcatalog.metastore.session.client.class=com.huawei.cloud.dalf.lakecat.client.hiveclient.LakeCatMetaStoreClient
spark.hadoop.lakecat.catalogname.default=lfcatalog  //需要指定要访问哪个catalog
spark.dli.job.agency.name=agencyForLakeformation  //此委托中需要有lf和obs必要的权限，并且需要委托给DLI
spark.driver.extraClassPath=/usr/share/extension/dli/spark-jar/lakeformation/*
spark.executor.extraClassPath=/usr/share/extension/dli/spark-jar/lakeformation/*
spark.sql.extensions=org.apache.spark.sql.hudi.HoodieSparkSessionExtension
spark.hadoop.hoodie.support.write.lock=org.apache.hudi.lakeformation.LakeCatMetastoreBasedLockProvider

表5 参数说明
配置项	是否必选	参数值	参数配置场景
spark.sql.catalogImplementation	是	hive	用于指定使用哪种类型的Catalog来存储和管理元数据
spark.hadoop.hive-ext.dlcatalog.metastore.client.enable	是	true	开启访问LakeFormation元数据时需要配置该参数。
spark.hadoop.hive-ext.dlcatalog.metastore.session.client.class	是	com.huawei.cloud.dalf.lakecat.client.hiveclient.LakeCatMetaStoreClient	开启访问LakeFormation元数据时需要配置该参数。
spark.hadoop.lakecat.catalogname.default	否	lfcatalog	配置需要访问的LakeFormation数据目录名称。默认取值hive
spark.dli.job.agency.name	是	用户自定义委托名称	用户自定义委托名。创建自定义委托请参考创建DLI自定义委托权限 DLI元数据委托权限请参考访问LakeFormation Catalog元数据的权限
spark.driver.extraClassPath	是	/usr/share/extension/dli/spark-jar/lakeformation/*	配置LakeFormation的依赖包加载。
spark.executor.extraClassPath	是	/usr/share/extension/dli/spark-jar/lakeformation/*	配置LakeFormation的依赖包加载。
spark.sql.extensions	否	org.apache.spark.sql.hudi.HoodieSparkSessionExtension	hudi场景需配置该参数。
spark.hadoop.hoodie.support.write.lock	否	org.apache.hudi.lakeformation.LakeCatMetastoreBasedLockProvider	hudi场景需配置该参数。

关闭默认访问DLI元数据，切换使用Lakeformation元数据。
1. 登录ModelArts管理控制台，选择“开发环境>Notebook”。
2. 创建Notebook实例，实例处于“运行中”，单击“操作”列的“打开”，进入“JupyterLab”开发页面。
3. 选择“Files > New > Terminal”，进入到Terminal界面。
  图7 进入到Terminal界面
4. 执行以下命令进入到livy配置目录下，修改spark配置文件，关闭默认访问DLI元数据。
  cd /home/ma-user/livy/conf/
  
  vi spark-defaults.conf
  
  使用#注释掉spark.dli.user.catalogName=dli，关闭默认访问DLI元数据。
  
  图8 关闭默认访问DLI元数据
5. 使用notebook编辑作业。
  执行spark.sql即可访问Lakeformation元数据和hudi相关表。
  
  图9 访问Lakeformation元数据

上一篇：管理Spark作业模板

下一篇：使用CES监控DLI服务

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消