功能总览
-
数据湖探索
-
数据湖探索(Data Lake Insight,以下简称DLI)是完全兼容Apache Spark、Apache Flink、Trino生态,提供一站式的流处理、批处理、交互式分析的Serverless融合处理分析服务。企业使用标准SQL、Spark、Flink程序就可轻松完成多数据源的联合计算分析,挖掘和探索数据价值。
发布区域:以控制台实际上线区域为准。
-
-
权限管理
-
DLI服务不仅在服务本身有一套完善的权限控制机制,同时还支持通过统一身份认证服务(Identity and Access Management,简称IAM)细粒度鉴权,可以通过在IAM创建策略来管理DLI的权限控制。两种权限控制机制可以共同使用,没有冲突。
发布区域:以控制台实际上线区域为准。
-
-
队列弹性扩缩容
-
DLI提供了队列弹性扩缩容功能。用户可以根据自己的业务使用情况或者使用周期,调整队列规格,以满足自己的业务需求,节约成本。
发布区域:以控制台实际上线区域为准。
-
弹性扩缩容
-
DLI提供了按需队列弹性扩缩容的功能。用户在创建指定规格按需队列后,可根据需要进行弹性扩缩容。当前只支持按需队列的弹性扩缩容,扩容/缩容后仍然按需计费,即根据CU时计费。
说明:
新创建的队列需要运行作业后才可进行扩缩容。
发布区域:以控制台实际上线区域为准。
-
-
弹性扩缩容定时任务
-
DLI提供了队列弹性扩缩容定时任务的功能。用户在创建队列后,可根据需要进行弹性扩缩容定时任务。
根据业务情况,设置队列自动扩缩容的时间,由系统定时触发队列扩缩容。- 按需队列扩容/缩容后仍然按需计费,即根据CU时计费。目前只支持64CU以上队列进行定时弹性扩缩容任务,即队列最小值为64CU。
- 包年包月队列只支持弹性扩容定时任务,扩容根据“预付费 + 按需CU时”计费,即包年包月规格之外的资源按需计费。目前只支持64CUs以上包年包月队列进行定时弹性扩容任务。
说明:
新创建的队列需要运行作业后才可进行扩缩容。
发布区域:以控制台实际上线区域为准。
-
-
-
跨AZ双活
-
可用区(AZ,Availability Zone):一个AZ是一个或多个物理数据中心的集合,有独立的风火水电,AZ内逻辑上再将计算、网络、存储等资源划分成多个集群。一个Region中的多个AZ间通过高速光纤相连,以满足用户跨AZ构建高可用性系统的需求。更多内容请参考《区域和可用区》。
DLI跨AZ队列能够为用户提供跨区域容灾的能力,提高计算的可靠性,用户可以在单AZ不可用的情况下,持续使用DLI服务。适用于用户对队列可靠性要求较高的场景。
DLI跨AZ队列是指在两个不同AZ下建立相同的计算资源,例如,用户1需要1400CUs的计算资源,那么用户1可以在创建队列的时候选择1400CUs的计算资源并且勾选跨AZ选项,DLI将为用户1创建两个不同AZ下的专属1400CUs计算资源,在一个AZ不可用的情况下,另外一个AZ可以正常的处理用户1的计算任务。
说明:
- 目前仅支持SQL队列。
- 目前仅支持包年包月队列和按需专属队列进行跨AZ双活,不支持普通按需队列和default队列。
- 在购买队列时勾选跨AZ选项后,计费将为单AZ模式下的2倍。
发布区域:以控制台实际上线区域为准。
-
-
DLI SQL作业
-
DLI SQL作业,即DLI Spark SQL作业,通过在SQL编辑器使用SQL语句执行数据查询等操作。支持SQL2003,兼容SparkSQL,详细语法描述请参见《数据湖探索Spark SQL语法参考》。
-
-
DLI Spark作业
-
DLI Flink作业
-
DLI Flink作业支持Flink SQL在线分析功能,同时支持与多种云服务跨源连通,形成丰富的流生态圈。
目前有以下Flink作业类型:
- Flink Jar作业:基于Flink API的自定义Jar包作业,可以运行在独享队列上。
发布区域:以控制台实际上线区域为准。
- Flink Jar作业:基于Flink API的自定义Jar包作业,可以运行在独享队列上。
-
-
跨源连接
-
在使用DLI进行跨源分析前,需要先建立跨源连接,打通数据源之间的网络。
DLI增强型跨源连接底层采用对等连接,直接打通DLI队列与目的数据源的VPC网络,通过点对点的方式实现数据互通,能够提供比经典型跨源更加灵活的使用场景与更加强劲的性能。
说明:
系统default队列不支持创建跨源连接。
跨源连接需要使用VPC、子网、路由、对等连接功能,因此需要获得VPC(虚拟私有云)的VPC Administrator权限。可在服务授权中进行设置。发布区域:以控制台实际上线区域为准。
-
-
跨源分析
-
增强型跨源支持DLI服务已实现的所有跨源业务,并且通过可以UDF、Spark作业和Flink作业等方式实现与自建数据源之间的访问。增强型跨源仅支持包年包月队列和按需专属队列。
目前DLI支持跨源访问的数据源包括:CloudTable HBase,CloudTable OpenTSDB,CSS,DCS Redis,DDS Mongo,DIS,DMS,DWS,MRS HBase,MRS Kafka,MRS OpenTSDB,OBS,RDS MySQL,RDS PostGre,SMN。具体请参考DLI支持访问的数据源。
说明:
访问跨源表需要使用已经创建跨源连接的队列。
跨源表不支持Preview预览功能。发布区域:以控制台实际上线区域为准。
-
-
自定义镜像
-
DLI支持容器部署的集群。在容器集群中,Spark作业和Flink作业相关组件都运行在容器中,通过下载DLI提供的自定义镜像,可以改变Spark作业和Flink作业的容器运行环境。例如,在自定义镜像中加入机器学习相关的Python包或者C库,可以通过这种方式方便地帮助用户进行功能扩展。
使用限制
- 必须使用DLI 容器队列,且为专属队列。
- 必须使用DLI提供的基础镜像。
- 不能随意修改基础镜像中DLI相关组件及目录。
- 只支持Spark作业和Flink Jar作业,即Jar包作业。
发布区域:以控制台实际上线区域为准。
-