数据湖探索_scala样例代码-华为云

scala样例代码

将写好的代码生成jar包，上传至 DLI 中。控制台操作请参考《数据湖探索用户指南》。API操作请参考《数据湖探索API参考》>《上传资源包》。在Spark作业编辑器中选择对应的Module模块并执行Spark作业。控制台操作请参考《数据湖探索用户指南》。API操作请参考《数据湖探索API参考》>《创建批处理作业》。

来自：帮助中心

查看更多 →
身份认证与访问控制

描述类别授权方式 DLI FullAccess 数据湖探索所有权限。系统策略具体的授权方式请参考创建IAM用户并授权使用DLI以及《如何创建子用户》和《如何修改用户策略》。 DLI ReadOnlyAccess 数据湖探索只读权限。系统策略 Tenant Administrator

来自：帮助中心

查看更多 →
MRS配置

DLI跨源连接中配置 MRS 主机信息在DLI管理控制台上已完成创建跨源连接。具体操作请参考《数据湖探索用户指南》。对接MRS HBase需要在DLI队列的host文件中添加MRS集群节点的/etc/hosts信息。详细操作请参考《数据湖探索用户指南》中的“修改主机信息”章节描述。开启Kerberos认证时的相关配置文件

来自：帮助中心

查看更多 →
终端节点

的请求地址，不同服务不同区域的终端节点不同，您可以从地区和终端节点中查询所有服务的终端节点。数据湖探索的终端节点如下表所示，请您根据业务需要选择对应区域的终端节点。表1 数据湖探索的终端节点区域名称区域终端节点（Endpoint）华北-北京四 cn-north-4 dli

来自：帮助中心

查看更多 →
附录

了简单易用的迁移能力和多种数据源到数据湖的集成能力，降低了客户数据源迁移和集成的复杂性，有效地提高您数据迁移和集成的效率。数据湖探索 DLI：数据湖探索（Data Lake Insight，简称DLI）是完全兼容Apache Spark、Apache Flink、openLoo

来自：帮助中心

查看更多 →
与其它云服务的关系

够弹性伸缩至PB规模，具备可扩展的性能，为海量数据、高带宽型应用提供有力支持。数据湖探索（DLI）基因容器使用数据湖探索服务提供的Spark能力，对GATK、BWA等业务流程进行加速。数据湖探索（Data Lake Insight，简称DLI）是完全托管的数据分析服务，用户无

来自：帮助中心

查看更多 →
DLI Hudi元数据

on元数据（仅Spark 3.3.1及以上版本支持对接Lakeformation元数据），对接方式与Spark一致。 DLI元数据可在数据湖探索管理控制台的“数据管理 > 库表管理”中查看。 Lakeformation元数据可在湖仓构建 Lakeformation服务的管理控制台中查看。

来自：帮助中心

查看更多 →
大数据

大数据数据湖探索 DLI 数据治理中心 DataArts Studio 数据仓库服务 GaussDB (DWS) MapReduce服务 MRS 云搜索服务 CSS 父主题： SCP授权参考

来自：帮助中心

查看更多 →
Flink作业推荐配置指导

找到“数据湖探索”服务。在Flink作业中找到目标作业，单击“创建告警规则”。图6 云服务监控图7 创建告警规则 DLI 为Flink作业提供了丰富的监控指标，用户可以依据自身需求使用不同的监控指标定义告警规则，实现更细粒度的作业监控。监控指标说明请参考《数据湖探索用户指南》>《数据湖探索监控指标说明》。

来自：帮助中心

查看更多 →
scala样例代码

将写好的代码生成jar包，上传至DLI中。控制台操作请参考《数据湖探索用户指南》。API操作请参考《数据湖探索API参考》>《上传资源包》。在Spark作业编辑器中选择对应的Module模块并执行Spark作业。控制台操作请参考《数据湖探索用户指南》。 API操作请参考《数据湖探索API参考》>《创建批处理作业》。

来自：帮助中心

查看更多 →
权限管理

Administrator 租户管理员。操作权限：具有数据湖探索服务资源的所有执行权限。创建后，可通过ACL赋权给其他子用户使用。作用范围：项目级服务。系统角色无 DLI Service Administrator 数据湖探索管理员。操作权限：具有数据湖探索服务资源的所有执行权限。创建后，可通过ACL赋权给其他子用户使用。

来自：帮助中心

查看更多 →
Flink作业高可靠推荐配置指导（异常自动重启）

为Flink作业提供了丰富的监控指标，用户可以依据自身需求使用不同的监控指标定义告警规则，实现更细粒度的作业监控。监控指标说明请参考《数据湖探索用户指南》>《数据湖探索监控指标说明》。父主题： Flink OpenSource SQL作业开发

来自：帮助中心

查看更多 →
开通相关资源

源由Modelarts服务提供并收费。在使用推荐系统之前，您需要开通数据湖探索（Data Lake Insight，简称DLI）来创建集群。 DLI服务登录华为云。在华为云“产品”页签，选择“大数据>数据湖探索DLI”，进入DLI产品页。单击“进入控制台”，授权开始使用DLI。

来自：帮助中心

查看更多 →
Kafka实时入库到GaussDB(DWS)

Kafka实时入库到GaussDB(DWS) 通过数据湖探索服务 DLI Flink作业将Kafka的消费数据实时同步至GaussDB(DWS)数据仓库，实现Kafka实时入库到GaussDB(DWS)的过程。了解DLI请参见数据湖产品介绍。了解Kafka请参见分布式消息服务Kafka产品介绍。

来自：帮助中心

查看更多 →
DLI Delta元数据

on元数据（仅Spark 3.3.1及以上版本支持对接Lakeformation元数据），对接方式与Spark一致。 DLI元数据可在数据湖探索管理控制台的“数据管理 > 库表管理”中查看。 Lakeformation元数据可在湖仓构建Lakeformation服务的管理控制台中查看。

来自：帮助中心

查看更多 →
怎样监控DLI队列上的作业异常？

登录DLI控制台。单击左侧“队列管理”，进入队列管理页面。在队列管理页面，单击左上角“创建消息通知主题”进行配置。详细操作请参考《数据湖探索用户指南》。父主题： DLI弹性资源池和队列类

来自：帮助中心

查看更多 →
方案概述

方案概述应用场景此解决方案通过华为云数据治理中心 DataArts Studio、数据湖探索服务 DLI、云数据迁移 CDM 、云数据库 RDS等服务的组合，可以快速构建一个轻量化离线数据分析平台，可一站式完成业务数据采集、分析，指标查询、做展示等工作，帮助企业实现业务数据洞察。

来自：帮助中心

查看更多 →
创建IAM用户并授权使用DLI

在“服务列表”中选择数据湖探索，进入DLI主界面。如果在“队列管理”页面可以查看队列列表，但是单击右上角“购买队列”，无法购买DLI队列（假设当前权限仅包含DLI ReadOnlyAccess），表示“DLI ReadOnlyAccess”已生效。在“服务列表”中选择除数据湖探索外（假设当前策略仅包含DLI

来自：帮助中心

查看更多 →
功能总览

功能总览功能总览全部数据湖探索权限管理弹性资源池 DLI元数据 DLI SQL作业 DLI Spark作业 DLI Flink作业跨源连接 DLI自定义委托自定义镜像 OBS 2.0支持数据湖探索数据湖探索（Data Lake Insight，以下简称DLI）是完全兼容Apache

来自：帮助中心

查看更多 →
scala样例代码

load().show() 返回结果：提交Spark作业将写好的代码生成jar包，上传至DLI中。控制台操作请参考《数据湖探索用户指南》。API操作请参考《数据湖探索API参考》>《上传资源包》。如果MRS集群开启了Kerberos认证，创建Spark作业时需要将krb5.conf和user

来自：帮助中心

查看更多 →
数据迁移失败，提示超过DLI网管流控上限

数据迁移失败，提示超过DLI网管流控上限问题描述进行大数据数据迁移失败，在数据湖探索的Spark作业查看报错信息为：The throttling thershold has been reached 问题分析出现该问题，是因为您创建的资源数量已达到DLI服务流控限制阈值。解决方法

来自：帮助中心

查看更多 →