数据湖探索 DLI

数据湖探索(Data Lake Insight,简称DLI)是完全兼容Apache Spark和Apache Flink生态, 实现批流一体的Serverless大数据计算分析服务。DLI支持多模引擎,企业仅需使用SQL或程序就可轻松完成异构数据源的批处理、流处理、内存计算、机器学习等,挖掘和探索数据价值

 
进入控制台立即购买帮助文档DLI开发者社区1对1咨询                
               

           

    spark 云服务器 更多内容
  • Spark作业管理

    Spark作业管理 Spark作业管理概述 创建Spark作业 父主题: 作业管理

    来自:帮助中心

    查看更多 →

  • Spark用户权限管理

    Spark用户权限管理 SparkSQL权限介绍 创建SparkSQL角色 配置Spark表、列和数据库的用户权限 配置SparkSQL业务用户权限 配置Spark2x Web UI ACL Spark客户端和服务端权限参数配置说明 父主题: 使用Spark2x( MRS 3.x及之后版本)

    来自:帮助中心

    查看更多 →

  • 调整Spark日志级别

    进程的JVM参数1 参数 说明 默认日志级别 spark.driver.extraJavaOptions Driver的JVM参数。 INFO spark.executor.extraJavaOptions Executor的JVM参数。 INFO spark.yarn.am.extraJavaOptions

    来自:帮助中心

    查看更多 →

  • Spark SQL语法概览

    Spark SQL语法概览 本章节介绍了目前 DLI 所提供的Spark SQL语法列表。参数说明,示例等详细信息请参考具体的语法说明。 表1 批作业SQL语法 语法分类 操作链接 数据库相关语法 创建数据库 删除数据库 查看指定数据库 查看所有数据库 创建OBS表相关语法 使用DataSource语法创建OBS表

    来自:帮助中心

    查看更多 →

  • 调测Spark应用

    调测Spark应用 编包并运行Spark应用 查看Spark应用调测结果 父主题: Spark开发指南

    来自:帮助中心

    查看更多 →

  • Spark SQL join优化

    广播。 参见https://spark.apache.org/docs/latest/sql-programming-guide.html 配置自动广播阈值的方法: 在Spark的配置文件“spark-defaults.conf”中,设置“spark.sql.autoBroadc

    来自:帮助中心

    查看更多 →

  • 调测Spark应用

    调测Spark应用 在本地Windows环境中调测Spark应用 在Linux环境中调测Spark应用 父主题: Spark2x开发指南(普通模式)

    来自:帮助中心

    查看更多 →

  • 调测Spark应用

    调测Spark应用 配置Windows通过EIP访问集群Spark 在本地Windows环境中调测Spark应用 在Linux环境中调测Spark应用 父主题: Spark2x开发指南(安全模式)

    来自:帮助中心

    查看更多 →

  • Spark应用开发简介

    言进行Spark应用程序开发。 按不同的语言分,Spark的API接口如表1所示。 表1 Spark API接口 功能 说明 Scala API 提供Scala语言的API,Spark Core、SparkSQL和Spark Streaming模块的常用接口请参见Spark Scala

    来自:帮助中心

    查看更多 →

  • 快速开发Spark应用

    // 通过Spark接口获取表中的数据。 SparkConf conf = new SparkConf().setAppName("SparkHivetoHbase"); JavaSparkContext jsc = new JavaSparkContext(conf);

    来自:帮助中心

    查看更多 →

  • Spark应用开发简介

    提供Python语言的API,Spark Core、SparkSQL和Spark Streaming模块的常用接口请参见Spark Python API接口介绍。 按不同的模块分,Spark Core和Spark Streaming使用上表中的API接口进行程序开发。而SparkSQL模块,支持CLI或者JD

    来自:帮助中心

    查看更多 →

  • 使用Livy提交Spark Jar作业

    明请参考Spark Configuration。 表2 spark-defaults.conf可选参数说明 Spark作业参数 对应Spark批处理参数 备注 spark.dli.user.file file 如果是对接notebook工具场景时不需要设置。 spark.dli.user

    来自:帮助中心

    查看更多 →

  • 配置Windows通过EIP访问集群Spark

    </dependency> 运行样例代码前,对SparkSession加入.master("local").config("spark.driver.host", "localhost"),配置Spark为本地运行模式。 父主题: 在本地Windows环境中调测Spark应用

    来自:帮助中心

    查看更多 →

  • 配置Windows通过EIP访问集群Spark

    </dependency> 运行样例代码前,对SparkSession加入.master("local").config("spark.driver.host", "localhost"),配置Spark为本地运行模式。 父主题: 调测Spark应用

    来自:帮助中心

    查看更多 →

  • DIS Spark Streaming概述

    DIS Spark Streaming概述 DIS Spark Streaming是 数据接入服务 (DIS)提供的一个sdk,支持将DIS作为数据源创建DStream对接SparkStreaming。dis-spark-streaming使用流程如图1所示。 图1 DIS Spark

    来自:帮助中心

    查看更多 →

  • SparkRTC Demo怎么体验?

    SparkRTC Demo怎么体验? 您可以提交工单联系华为云技术客服,获取各平台对应的Demo进行体验。 父主题: 产品咨询

    来自:帮助中心

    查看更多 →

  • 创建并提交Spark作业

    创建并提交Spark作业 场景描述 本章节指导用户通过API创建并提交Spark作业。 约束限制 新队列第一次运行作业时,需要一定的时间,通常为6~10分钟。 涉及接口 创建队列:创建队列。 上传分组资源:上传Spark作业所需的资源包。 查询组内资源包:确认上传的资源包是否正确。

    来自:帮助中心

    查看更多 →

  • Spark作业管理概述

    Spark作业管理概述 DLI在开源Spark基础上进行了大量的性能优化与服务化改造,兼容Apache Spark生态和接口,执行批处理任务。 DLI还支持使用Spark作业访问DLI元数据,具体请参考《 数据湖探索 开发指南》。 Spark作业管理主要包括如下功能: 创建Spark作业

    来自:帮助中心

    查看更多 →

  • 配置Spark Core广播变量

    配置Spark Core广播变量 操作场景 Broadcast(广播)可以把数据集合分发到每一个节点上,Spark任务在执行过程中要使用这个数据集合时,就会在本地查找Broadcast过来的数据集合。如果不使用Broadcast,每次任务需要数据集合时,都会把数据序列化到任务里面,不但耗时,还使任务变得很大。

    来自:帮助中心

    查看更多 →

  • 查看Spark任务日志失败

    查看目录下是否有对应的appid文件(Spark的eventlog存放目录:MRS 3.x及以后版本的目录是hdfs://hacluster/spark2xJobHistory2x,MRS 3.x以前版本的目录是hdfs://hacluster/sparkJobHistory,任务运行日

    来自:帮助中心

    查看更多 →

  • Spark连接Kafka认证错误

    Spark连接Kafka认证错误 问题现象 MRS 2.1.0版本集群中Spark消费kafka数据,过一天以后就会出现认证失败的报错: 原因分析 集群版本和运行的程序包版本不匹配。 处理步骤 参考运行Spark Streaming 对接Kafka0-10样例程序进行相关配置。 当前集群为MRS

    来自:帮助中心

    查看更多 →

共105条
看了本文的人还看了