网络
虚拟私有云 VPC
弹性公网IP EIP
弹性负载均衡 ELB
NAT网关 NAT
云专线 DC
虚拟专用网络 VPN
云连接 CC
VPC终端节点 VPCEP
企业路由器 ER
企业交换机 ESW
全球加速 GA
企业连接 EC
云原生应用网络 ANC
安全与合规
安全技术与应用
Web应用防火墙 WAF
企业主机安全 HSS
云防火墙 CFW
安全云脑 SecMaster
DDoS防护 AAD
数据加密服务 DEW
数据库安全服务 DBSS
云堡垒机 CBH
数据安全中心 DSC
云证书管理服务 CCM
威胁检测服务 MTD
态势感知 SA
认证测试中心 CTC
边缘安全 EdgeSec
应用中间件
微服务引擎 CSE
分布式消息服务Kafka版
分布式消息服务RabbitMQ版
分布式消息服务RocketMQ版
API网关 APIG
分布式缓存服务 DCS
多活高可用服务 MAS
事件网格 EG
管理与监管
统一身份认证服务 IAM
消息通知服务 SMN
云监控服务 CES
应用运维管理 AOM
应用性能管理 APM
云日志服务 LTS
云审计服务 CTS
标签管理服务 TMS
配置审计 Config
应用身份管理服务 OneAccess
资源访问管理 RAM
组织 Organizations
资源编排服务 RFS
优化顾问 OA
IAM 身份中心
云运维中心 COC
资源治理中心 RGC
解决方案
高性能计算 HPC
SAP
混合云灾备
开天工业工作台 MIW
Haydn解决方案工厂
数字化诊断治理专家服务
云生态
云商店
合作伙伴中心
华为云开发者学堂
华为云慧通差旅
开发与运维
软件开发生产线 CodeArts
需求管理 CodeArts Req
流水线 CodeArts Pipeline
代码检查 CodeArts Check
编译构建 CodeArts Build
部署 CodeArts Deploy
测试计划 CodeArts TestPlan
制品仓库 CodeArts Artifact
移动应用测试 MobileAPPTest
CodeArts IDE Online
开源镜像站 Mirrors
性能测试 CodeArts PerfTest
应用管理与运维平台 ServiceStage
云应用引擎 CAE
开源治理服务 CodeArts Governance
华为云Astro轻应用
CodeArts IDE
Astro工作流 AstroFlow
代码托管 CodeArts Repo
漏洞管理服务 CodeArts Inspector
联接 CodeArtsLink
软件建模 CodeArts Modeling
Astro企业应用 AstroPro
CodeArts盘古助手
华为云Astro大屏应用
计算
弹性云服务器 ECS
Flexus云服务
裸金属服务器 BMS
云手机服务器 CPH
专属主机 DeH
弹性伸缩 AS
镜像服务 IMS
函数工作流 FunctionGraph
云耀云服务器(旧版)
VR云渲游平台 CVR
Huawei Cloud EulerOS
云化数据中心 CloudDC
网络
虚拟私有云 VPC
弹性公网IP EIP
弹性负载均衡 ELB
NAT网关 NAT
云专线 DC
虚拟专用网络 VPN
云连接 CC
VPC终端节点 VPCEP
企业路由器 ER
企业交换机 ESW
全球加速 GA
企业连接 EC
云原生应用网络 ANC
CDN与智能边缘
内容分发网络 CDN
智能边缘云 IEC
智能边缘平台 IEF
CloudPond云服务
安全与合规
安全技术与应用
Web应用防火墙 WAF
企业主机安全 HSS
云防火墙 CFW
安全云脑 SecMaster
DDoS防护 AAD
数据加密服务 DEW
数据库安全服务 DBSS
云堡垒机 CBH
数据安全中心 DSC
云证书管理服务 CCM
威胁检测服务 MTD
态势感知 SA
认证测试中心 CTC
边缘安全 EdgeSec
大数据
MapReduce服务 MRS
数据湖探索 DLI
表格存储服务 CloudTable
可信智能计算服务 TICS
推荐系统 RES
云搜索服务 CSS
数据可视化 DLV
数据接入服务 DIS
数据仓库服务 GaussDB(DWS)
数据治理中心 DataArts Studio
湖仓构建 LakeFormation
智能数据洞察 DataArts Insight
应用中间件
微服务引擎 CSE
分布式消息服务Kafka版
分布式消息服务RabbitMQ版
分布式消息服务RocketMQ版
API网关 APIG
分布式缓存服务 DCS
多活高可用服务 MAS
事件网格 EG
开天aPaaS
应用平台 AppStage
开天企业工作台 MSSE
开天集成工作台 MSSI
API中心 API Hub
云消息服务 KooMessage
交换数据空间 EDS
云地图服务 KooMap
云手机服务 KooPhone
组织成员账号 OrgID
云空间服务 KooDrive
管理与监管
统一身份认证服务 IAM
消息通知服务 SMN
云监控服务 CES
应用运维管理 AOM
应用性能管理 APM
云日志服务 LTS
云审计服务 CTS
标签管理服务 TMS
配置审计 Config
应用身份管理服务 OneAccess
资源访问管理 RAM
组织 Organizations
资源编排服务 RFS
优化顾问 OA
IAM 身份中心
云运维中心 COC
资源治理中心 RGC
区块链
区块链服务 BCS
数字资产链 DAC
华为云区块链引擎服务 HBS
解决方案
高性能计算 HPC
SAP
混合云灾备
开天工业工作台 MIW
Haydn解决方案工厂
数字化诊断治理专家服务
价格
成本优化最佳实践
专属云商业逻辑
云生态
云商店
合作伙伴中心
华为云开发者学堂
华为云慧通差旅
其他
管理控制台
消息中心
产品价格详情
系统权限
客户关联华为云合作伙伴须知
公共问题
宽限期保留期
奖励推广计划
活动
云服务信任体系能力说明
开发与运维
软件开发生产线 CodeArts
需求管理 CodeArts Req
流水线 CodeArts Pipeline
代码检查 CodeArts Check
编译构建 CodeArts Build
部署 CodeArts Deploy
测试计划 CodeArts TestPlan
制品仓库 CodeArts Artifact
移动应用测试 MobileAPPTest
CodeArts IDE Online
开源镜像站 Mirrors
性能测试 CodeArts PerfTest
应用管理与运维平台 ServiceStage
云应用引擎 CAE
开源治理服务 CodeArts Governance
华为云Astro轻应用
CodeArts IDE
Astro工作流 AstroFlow
代码托管 CodeArts Repo
漏洞管理服务 CodeArts Inspector
联接 CodeArtsLink
软件建模 CodeArts Modeling
Astro企业应用 AstroPro
CodeArts盘古助手
华为云Astro大屏应用
存储
对象存储服务 OBS
云硬盘 EVS
云备份 CBR
高性能弹性文件服务 SFS Turbo
弹性文件服务 SFS
存储容灾服务 SDRS
云硬盘备份 VBS
云服务器备份 CSBS
数据快递服务 DES
云存储网关 CSG
专属分布式存储服务 DSS
数据工坊 DWR
地图数据 MapDS
键值存储服务 KVS
容器
云容器引擎 CCE
云容器实例 CCI
容器镜像服务 SWR
云原生服务中心 OSC
应用服务网格 ASM
华为云UCS
数据库
云数据库 RDS
数据复制服务 DRS
文档数据库服务 DDS
分布式数据库中间件 DDM
云数据库 GaussDB
云数据库 GeminiDB
数据管理服务 DAS
数据库和应用迁移 UGO
云数据库 TaurusDB
人工智能
AI开发平台ModelArts
华为HiLens
图引擎服务 GES
图像识别 Image
文字识别 OCR
自然语言处理 NLP
内容审核 Moderation
图像搜索 ImageSearch
医疗智能体 EIHealth
企业级AI应用开发专业套件 ModelArts Pro
人脸识别服务 FRS
对话机器人服务 CBS
语音交互服务 SIS
人证核身服务 IVS
视频智能分析服务 VIAS
城市智能体
自动驾驶云服务 Octopus
盘古大模型 PanguLargeModels
IoT物联网
设备接入 IoTDA
全球SIM联接 GSL
IoT数据分析 IoTA
路网数字化服务 DRIS
IoT边缘 IoTEdge
设备发放 IoTDP
企业应用
域名注册服务 Domains
云解析服务 DNS
企业门户 EWP
ICP备案
商标注册
华为云WeLink
华为云会议 Meeting
隐私保护通话 PrivateNumber
语音通话 VoiceCall
消息&短信 MSGSMS
云管理网络
SD-WAN 云服务
边缘数据中心管理 EDCM
云桌面 Workspace
应用与数据集成平台 ROMA Connect
ROMA资产中心 ROMA Exchange
API全生命周期管理 ROMA API
政企自服务管理 ESM
视频
实时音视频 SparkRTC
视频直播 Live
视频点播 VOD
媒体处理 MPC
视频接入服务 VIS
数字内容生产线 MetaStudio
迁移
主机迁移服务 SMS
对象存储迁移服务 OMS
云数据迁移 CDM
迁移中心 MGC
专属云
专属计算集群 DCC
开发者工具
SDK开发指南
API签名指南
DevStar
华为云命令行工具服务 KooCLI
Huawei Cloud Toolkit
CodeArts API
云化转型
云架构中心
云采用框架
用户服务
账号中心
费用中心
成本中心
资源中心
企业管理
工单管理
客户运营能力
国际站常见问题
支持计划
专业服务
合作伙伴支持计划
我的凭证
华为云公共事业服务云平台
工业软件
工业数字模型驱动引擎
硬件开发工具链平台云服务
工业数据转换引擎云服务
文档首页/ 数据湖探索 DLI/ 用户指南/ 使用Notebook实例提交DLI作业

使用Notebook实例提交DLI作业

更新时间:2025-02-14 GMT+08:00
分享

Notebook是基于开源JupyterLab进行了深度优化的交互式数据分析挖掘模块,提供在线的开发和调试能力,用于编写和调测模型训练代码。完成DLI对接Notebook实例后,您可以基于Notebook提供的Web交互的开发环境同时完成代码的编写与作业的开发,使用Notebook灵活的进行数据分析与探索,本节操作介绍使用Notebook作业提交DLI作业的操作步骤。

关于Jupyter Notebook的详细操作指导,请参见Jupyter Notebook使用文档

使用Notebook实例提交DLI作业适用于在线开发调试场景下的作业需求,无需准备开发环境,一站式完成数据分析分析与探索。

使用须知

  • 该功能为白名单功能,如需使用,请在管理控制台右上角,选择“工单 > 新建工单”,提交申请。
  • 在DLI管理控制台删除弹性资源池时并不会删除关联的Notebook实例,如果不再使用Notebook实例,请登录ModelArts管理控制台删除对应的Notebook资源。

操作流程

  1. 创建弹性资源池并添加通用队列。

    在DLI提交Notebook实例需要使用弹性资源池资源,并在弹性资源池中创建通用队列用于后续执行作业所需的计算资源。请参考步骤1:创建弹性资源池并添加通用队列

  2. 创建Notebook实例所需的VPC和安全组。

    配置弹性资源池开启Notebook后,弹性资源池会准备Notebook功能所需的组件。请参考步骤2:创建虚拟私有云和安全组

  3. 创建增强型跨源连接用于打通DLI弹性弹性资源池和Notebook实例的网络。

    请参考步骤3:创建增强型跨源连接

  4. 准备创建Notebook实例所需的自定义镜像。

    请参考步骤4:注册ModelArts自定义镜像

  5. 创建自定义委托用于访问Notebook实例。

    请参考步骤5:创建DLI自定义委托用于访问Notebook实例

  6. 在DLI的弹性资源池中创建Notebook实例。

    请参考步骤6:在DLI弹性资源池中创建Notebook实例

  7. 配置Notebook访问DLI或LakeFormation元数据。
  8. 在JupyterLab中编写和调试代码。

    进入JupyterLab主页后,可在“Notebook”区域下编辑和调试代码。步骤8:使用Notebook实例编写和调试代码

约束限制

  • 使用Notebook实例提交DLI作业必须使用弹性资源池下的通用队列。
  • 每一个弹性资源池关联唯一的Notebook实例。
  • Notebook作业运行过程中产生的临时数据将会存储在DLI作业桶中,且必须使用并行文件系统。
  • 请在ModelArts管理控制台管理Notebook实例。请参考管理Notebook实例
  • Notebook实例用于代码编辑和开发,关联队列用于执行作业。

    如需更换Notebook实例关联的队列请在ModelArts管理控制台进行相关操作。

步骤1:创建弹性资源池并添加通用队列

  1. 创建弹性资源池。
    1. 登录DLI管理控制台,在左侧导航栏单击“资源管理 > 弹性资源池”,可进入弹性资源池管理页面。
    2. 在弹性资源池管理界面,单击界面右上角的“购买弹性资源池”。
    3. 在“购买弹性资源池”界面,填写具体的弹性资源池参数,具体参数填写参考创建弹性资源池并添加队列
      • CU范围:请确保弹性资源池预留资源大于16CUs,用于NoteBook实例资源所需。
      • 网段:请注意弹性资源池网段请勿与下列网段重复:

        172.18.0.0/16、172.16.0.0/16、10.247.0.0/16

    4. 参数填写完成后,单击“立即购买”,在界面上确认当前配置是否正确。
    5. 单击“提交”完成队列创建。等待弹性资源池状态变成“可使用”表示当前弹性资源池创建成功。
  2. 在弹性资源池添加通用队列。
    1. 选择要操作的弹性资源池,在“操作”列,单击“添加队列”。
    2. 在“添加队列”界面,配置队列的基础配置,具体参数信息请参考创建弹性资源池并添加队列

      队列类型选择“通用队列”。

    3. 单击“下一步”,在“扩缩容策略”界面配置当前队列在弹性资源池的扩缩容策略。
    4. 单击“确定”完成添加队列配置。

步骤2:创建虚拟私有云和安全组

  • 创建虚拟私有云
    1. 登录VPC管理控制台,进入创建虚拟私有云页面。
    2. 在“创建虚拟私有云”页面,根据界面提示配置VPC和子网的参数。

      具体参数说明请参考创建虚拟私有云

      其中配置IPv4网段时,请确保VPC的IPv4网段不要与下列网段重复。

      172.18.0.0/16、172.16.0.0/16、10.247.0.0/16

  • 创建安全组
    1. 登录VPC管理控制台,进入安全组列表页面。
    2. 在安全组列表右上方,单击“创建安全组”。

      进入“创建安全组”页面。根据界面提示,设置安全组参数。

      具体参数说明请参考创建安全组

    请确保安全组需要对DLI弹性资源池网段放通TCP的8998和30000-32767端口。

步骤3:创建增强型跨源连接

  1. 登录DLI管理控制台。
  2. 在左侧导航栏中,选择“跨源管理 > 增强型跨源 ”
  3. 选择“增强型跨源”,单击“创建”。

    配置增强型跨源连接信息,详细参数介绍请参见表2

    创建增强型跨源连接时:

步骤4:注册ModelArts自定义镜像

基于ModelArts提供的MindSpore预置镜像,并借助ModelArts命令行工具,通过加载镜像构建模板并修改Dockerfile,构建出一个新镜像,最后注册后在Notebook使用。

ModelArts命令行工具请参考ma-cli镜像构建命令介绍

  • 基础镜像地址:swr.{endpoint}/atelier/pyspark_3_1_1:develop-remote-pyspark_3.1.1-py_3.7-cpu-ubuntu_18.04-x86_64-uid1000-20230308194728-68791b4

    请按需更换地址中的Region名称后使用

    例如,新加坡区域的endpoint为ap-southeast-3.myhuaweicloud.com

    拼接后的基础镜像地址为:swr.ap-southeast-3.myhuaweicloud.com/atelier/pyspark_3_1_1:develop-remote-pyspark_3.1.1-py_3.7-cpu-ubuntu_18.04-x86_64-uid1000-20230308194728-68791b4

  • 在ModelArts创建并注册自定义镜像的详细操作请参考在Notebook中通过Dockerfile从0制作自定义镜像

步骤5:创建DLI自定义委托用于访问Notebook实例

参考创建DLI自定义委托权限创建DLI自定义委托用于访问Notebook实例。

请确保委托中包含以下权限:ModelArts FullAccess、DLI FullAccess、OBS Administrator、IAM的授予向云服务传递委托的权限。

关于IAM的授予向云服务传递委托的权限,如果使用的是IAM角色或策略授权:请授予IAMiam:agencies:*权限。
{
    "Version": "1.1",
    "Statement": [
        {
            "Effect": "Allow",
            "Action": [
                "iam:agencies:*"
            ]
        },
        {
            "Effect": "Deny",
            "Action": [
                "iam:agencies:update*",
                "iam:agencies:delete*",
                "iam:agencies:create*"
            ]
        }
    ]
}

步骤6:在DLI弹性资源池中创建Notebook实例

说明:

在ModelArts管理控制台的左侧导航栏中选择“权限管理”,检查是否配置了ModelArts访问授权。新建的委托中需包含IAM的授予向云服务传递委托的权限,权限策略请参考步骤5:创建DLI自定义委托用于访问Notebook实例

  1. 在DLI弹性资源池页面预置创建Notebook实例相关的DLI资源信息。

    1. 登录DLI管理控制台,进入弹性资源池列表页面。
    2. 选择步骤1:创建弹性资源池并添加通用队列中创建的弹性资源池。
    3. 单击操作列的“更多 > Notebook(新)”。
    4. 单击“创建Notebook”,配置以下参数信息:
    5. 单击“确定”创建Notebook实例。系统跳转至Notebook实例创建页面。

  2. 在Notebook实例页面配置Notebook实例相关参数。

    1. 创建Notebook实例。

      具体参数说明请参考创建Notebook实例

      配置过程中:

      • 镜像:选择自定义镜像,选择步骤4:注册ModelArts自定义镜像中注册的镜像。
      • VPC接入:开启VPC接入接入功能
        说明:

        请联系客户支持开启Notebook实例的VPC接入白名单功能。

        安全组请配置为步骤2:创建虚拟私有云和安全组中创建的安全组,且安全组需要对DLI弹性资源池网段放通TCP的8998和30000-32767端口。

        参数配置完成后单击“立即创建”,等待Notebook实例创建完成。

  3. 配置Notebook实例连接DLI。

    1. 在Notebook实例的列表中单击操作类的“打开”跳转至Notebook实例页面。
    2. 在Notebook实例页面单击右上角的“connect”连接DLI。
      图2 连接DLI
    3. 在Connect Cluster页面中,填写作业运行的相关信息。
      图3 Connect Cluster
      表1 Connect Cluster

      参数名称

      说明

      配置样例

      Service Type

      连接的服务名称。

      DLI

      Pool Name

      Notebook作业运行所在队列对应的弹性资源池。

      本例配置为步骤1:创建弹性资源池并添加通用队列中创建的弹性资源池。

      Queue Name

      Notebook作业运行所在的队列。

      本例配置为步骤1:创建弹性资源池并添加通用队列中创建的队列。

      Spark Version

      Spark引擎版本。

      当前仅Spark 3.3.1版本支持使用Notebook实例提交DLI作业。

      Spark参数(--conf)

      该参数用于配置DLI作业的自定义参数。

      请参考表2

      表2 常用Spark参数配置项

      参数名称

      说明

      spark.dli.job.agency.name

      用于指定DLI作业的委托权限名称。

      在使用Flink 1.15和Spark 3.3及以上版本的引擎执行作业时,需要在作业配置中添加新建的委托信息。

      配置样例:

      本例配置为用于访问Notebook的DLI委托名称“dli_notebook”。

      spark.dli.job.agency.name=dli_notebook

      spark.sql.session.state.builder

      该参数是指定元数据的配置项。

      配置样例:配置访问DLI元数据场景的配置项

      spark.sql.session.state.builder=org.apache.spark.sql.hive.DliLakeHouseBuilder

      spark.sql.catalog.class

      用于指定不同的数据源和元数据管理系统。

      配置样例:配置访问DLI元数据场景的配置项

      spark.sql.catalog.class=org.apache.spark.sql.hive.DliLakeHouseCatalog

      spark.dli.metaAccess.enable

      用于开启或关闭对DLI元数据的访问。

      spark.dli.metaAccess.enable=true

    4. 完成后单击连接,等待右上方的connect变成队列名称,名称前面小圆点变绿后代表连接成功,即可执行相关notebook作业。
      图4 Notebook实例完成连接。
    5. 单击“Connect”测试连接。

等待实例初始化完成后即可在Notebook执行在线的数据分析操作。通常实例初始化需要2分钟左右。

在Notebook执行相关sql语句,在DLI就会启动一个Spark作业,同时在Notebook中显示作业结果。

步骤7:配置Notebook访问DLI元数据

执行作业前需要配置Notebook访问DLI或LakeFormation元数据。

步骤8:使用Notebook实例编写和调试代码

Notebook与DLI队列连接成功后,即可在“Notebook”区域下编辑和调试代码。

您可以选择使用Notebook提交作业,或在DLI管理控制台的Spark作业操作页面提交作业。

(可选)配置Notebook访问DLI元数据

在完成DLI和Notebook的对接后,您需要配置如需在Notebook提交DLI作业场景下使用元数据的方式,本小节操作介绍配置访问DLI元数据的操作步骤。

如需配置Notebook访问LakeFormation元数据请采参考(可选)配置Notebook访问LakeFormation元数据

  1. 指定Notebook镜像。
  2. 自定义委托授权DLI使用DLI元数据和OBS。

    自定义委托操作步骤请参考创建DLI自定义委托权限

    请确保自定义委托具备以下权限:

    表3 DLI自定义委托场景

    场景

    委托名称

    适用场景

    权限策略

    允许DLI读写OBS将日志转储

    自定义

    DLI Flink作业下载OBS对象、OBS/DWS数据源(外表)、日志转储、使用savepoint、开启checkpoint,DLI Spark作业下载OBS对象、读写OBS外表。

    访问和使用OBS的权限策略

    允许访问DLI Catalog元数据

    自定义

    DLI 访问DLI元数据。

    访问DLI Catalog元数据的权限

  3. 确认开启访问DLI元数据
    1. 登录ModelArts管理控制台,选择“开发空间>Notebook”。
    2. 创建Notebook实例,实例处于“运行中”,单击“操作”列的“打开”,进入“JupyterLab”开发页面。
    3. 选择“Files > New > Terminal”,进入到Terminal界面。
      图5 进入到Terminal界面
    4. 执行以下命令进入到livy配置目录下,查看spark配置文件。

      cd /home/ma-user/livy/conf/

      vi spark-defaults.conf

      确认包含spark.dli.user.catalogName=dli配置项,该配置项即访问DLI元数据。

      spark.dli.user.catalogName=dli为默认配置项。

      图6 关闭默认访问DLI元数据
    5. 使用notebook编辑作业。

(可选)配置Notebook访问LakeFormation元数据

在完成DLI和Notebook的对接后,您需要配置如需在Notebook提交DLI作业场景下使用元数据的方式,本小节操作介绍配置访问LakeFormation元数据的操作步骤。

如需配置Notebook访问DLI元数据请采参考(可选)配置Notebook访问DLI元数据

  1. DLI对接LakeFormation。
    1. 具体操作请参考DLI对接LakeFormation
  2. 指定Notebook镜像。
  3. 自定义委托授权DLI使用LakeFormation和OBS。

    自定义委托操作步骤请参考创建DLI自定义委托权限

    请确保自定义委托具备以下权限:

    表4 DLI自定义委托场景

    场景

    委托名称

    适用场景

    权限策略

    允许DLI读写OBS将日志转储

    自定义

    DLI Flink作业下载OBS对象、OBS/DWS数据源(外表)、日志转储、使用savepoint、开启checkpoint,DLI Spark作业下载OBS对象、读写OBS外表。

    访问和使用OBS的权限策略

    允许访问LakeFormation Catalog元数据

    自定义

    DLI 访问LakeFormation元数据。

    访问LakeFormation Catalog元数据的权限

  4. 在Notebook实例页面配置Spark参数。
    1. 选择DLI的notebook镜像的队列,并且单击connect,配置spark参数。
      spark.sql.catalogImplementation=hive
      spark.hadoop.hive-ext.dlcatalog.metastore.client.enable=true
      spark.hadoop.hive-ext.dlcatalog.metastore.session.client.class=com.huawei.cloud.dalf.lakecat.client.hiveclient.LakeCatMetaStoreClient
      spark.hadoop.lakecat.catalogname.default=lfcatalog  //需要指定要访问哪个catalog
      spark.dli.job.agency.name=agencyForLakeformation  //此委托中需要有lf和obs必要的权限,并且需要委托给DLI
      spark.driver.extraClassPath=/usr/share/extension/dli/spark-jar/lakeformation/*
      spark.executor.extraClassPath=/usr/share/extension/dli/spark-jar/lakeformation/*
      spark.sql.extensions=org.apache.spark.sql.hudi.HoodieSparkSessionExtension
      spark.hadoop.hoodie.support.write.lock=org.apache.hudi.lakeformation.LakeCatMetastoreBasedLockProvider

      表5 参数说明

      配置项

      是否必选

      参数值

      参数配置场景

      spark.sql.catalogImplementation

      hive

      用于指定使用哪种类型的Catalog来存储和管理元数据

      spark.hadoop.hive-ext.dlcatalog.metastore.client.enable

      true

      开启访问LakeFormation元数据时需要配置该参数。

      spark.hadoop.hive-ext.dlcatalog.metastore.session.client.class

      com.huawei.cloud.dalf.lakecat.client.hiveclient.LakeCatMetaStoreClient

      开启访问LakeFormation元数据时需要配置该参数。

      spark.hadoop.lakecat.catalogname.default

      lfcatalog

      配置需要访问的LakeFormation数据目录名称。

      默认取值hive

      spark.dli.job.agency.name

      用户自定义委托名称

      用户自定义委托名。

      spark.driver.extraClassPath

      /usr/share/extension/dli/spark-jar/lakeformation/*

      配置LakeFormation的依赖包加载。

      spark.executor.extraClassPath

      /usr/share/extension/dli/spark-jar/lakeformation/*

      配置LakeFormation的依赖包加载。

      spark.sql.extensions

      org.apache.spark.sql.hudi.HoodieSparkSessionExtension

      hudi场景需配置该参数。

      spark.hadoop.hoodie.support.write.lock

      org.apache.hudi.lakeformation.LakeCatMetastoreBasedLockProvider

      hudi场景需配置该参数。

  5. 关闭默认访问DLI元数据,切换使用Lakeformation元数据。
    1. 登录ModelArts管理控制台,选择“开发环境>Notebook”。
    2. 创建Notebook实例,实例处于“运行中”,单击“操作”列的“打开”,进入“JupyterLab”开发页面。
    3. 选择“Files > New > Terminal”,进入到Terminal界面。
      图7 进入到Terminal界面
    4. 执行以下命令进入到livy配置目录下,修改spark配置文件,关闭默认访问DLI元数据。

      cd /home/ma-user/livy/conf/

      vi spark-defaults.conf

      使用#注释掉spark.dli.user.catalogName=dli,关闭默认访问DLI元数据。

      图8 关闭默认访问DLI元数据
    5. 使用notebook编辑作业。

      执行spark.sql即可访问Lakeformation元数据和hudi相关表。

      图9 访问Lakeformation元数据
提示

您即将访问非华为云网站,请注意账号财产安全

文档反馈

文档反馈

意见反馈

0/500

标记内容

同时提交标记内容