dli服务_实时聚类-华为云

实时聚类

定类别数目，运行K-Means算法可以取得比较好的聚类效果。但是对于在线实时流数据，数据是在不断变化和演进，类别数目极有可能发生变化， DLI 服务提供一种能够应对此类场景，无需提前设定聚类数目，并且低延时的在线聚类算法。算法大致思想为：定义一种距离函数，两两数据点之间如果距离小于

来自：帮助中心

查看更多 →
开发一个DLI Spark作业

开发一个DLI Spark作业在本章节您可以学习到数据开发模块资源管理、作业编辑等功能。场景说明用户在使用DLI服务时，大部分时间会使用SQL对数据进行分析处理，有时候处理的逻辑特别复杂，无法通过SQL处理，那么可以通过Spark作业进行分析处理。本章节通过一个例子演示如何

来自：帮助中心

查看更多 →
永洪BI添加数据源

置项之间以“;”隔开，详见表2 表2 属性配置项属性项（key）必须配置默认值（value）描述 queuename 是 - DLI服务的队列名称。 databasename 否 - 默认访问的数据库，URL中若不填此项，访问数据库的表时需采用db.table方式（如 select

来自：帮助中心

查看更多 →
CREATE SERVER

r。 address option必须存在，若用于跨集群互联互通场景则只允许设置1个。当server类型为DLI时，address为DLI服务上数据所存储的OBS address。若HDFS为联邦模式时，即fed 'rbf'，address可设置为多组IP、port，对应为HDFS

来自：帮助中心

查看更多 →
权限管理

，控制他们对DLI资源的使用范围。如果账号已经能满足您的需求，不需要创建独立的IAM用户进行权限管理，您可以跳过本章节，不影响您使用DLI服务的其他功能。 IAM是华为云提供权限管理的基础服务，无需付费即可使用，您只需要为您账号中的资源进行付费。关于IAM的详细介绍，请参见《IAM产品介绍》。

来自：帮助中心

查看更多 →
流生态作业开发指引

强和性能提升，为用户提供易用、低时延、高吞吐的数据湖探索。数据湖探索的流生态开发包括云服务生态、开源生态和自拓展生态：云服务生态 DLI服务在Stream SQL中支持与其他服务的连通。用户可以直接使用SQL从这些服务中读写数据，如DIS、OBS、CloudTable、 MRS 、RDS、SMN、D CS 等。

来自：帮助中心

查看更多 →
MaxCompute迁移至DLI数据校验

接窗口。连接类型选择“数据湖探索（DLI）”，单击“下一步”，进入详细配置页面。根据DLI服务参数配置说明，配置连接参数后，单击“测试连接”按钮，测试通过代表连接成功。表4 DLI服务参数配置说明参数配置说明所属源选择目的端。连接名称默认创建名称为“DLI-4位

来自：帮助中心

查看更多 →
步骤2：数据开发处理

本较低，可能会出现无法支持建表语句执行的报错，这种情况下建议您选择自建队列运行业务。如需“default”队列支持建表语句执行，可联系DLI服务客服或技术支持人员协助解决。 DLI的“default”队列为共享队列，仅用于用户体验，用户间可能会出现抢占资源的情况，不能保证每次都可

来自：帮助中心

查看更多 →
实时聚类

定类别数目，运行K-Means算法可以取得比较好的聚类效果。但是对于在线实时流数据，数据是在不断变化和演进，类别数目极有可能发生变化，DLI服务提供一种能够应对此类场景，无需提前设定聚类数目，并且低延时的在线聚类算法。算法大致思想为：定义一种距离函数，两两数据点之间如果距离小于

来自：帮助中心

查看更多 →
新建模板

新建模板功能介绍该API在DLI服务中新建一个用户模板，最多100个。调试您可以在 API Explorer 中调试该接口。 URI URI格式 POST /v1.0/{project_id}/streaming/job-templates 参数说明表1 URI参数说明参数名称

来自：帮助中心

查看更多 →
功能总览

数据价值。发布区域：全部 Serverless DLI与自建Hadoop对比优势 DLI使用约束与限制 OBS 2.0支持权限管理 DLI服务不仅在服务本身有一套完善的权限控制机制，同时还支持通过统一身份认证服务（Identity and Access Management，简

来自：帮助中心

查看更多 →
创建导入任务

import_origin 否 String 数据来源。可选值如下： obs：OBS桶（默认值） dws： GaussDB (DWS)服务 dli：DLI服务 rds：RDS服务 mrs：MRS服务 inference：推理服务 import_path 是 String 导入的OBS路径或manifest路径。

来自：帮助中心

查看更多 →
CREATE SERVER

r。 address option必须存在，若用于跨集群互联互通场景则只允许设置1个。当server类型为DLI时，address为DLI服务上数据所存储的OBS address。若HDFS为联邦模式时，即fed 'rbf'，address可设置为多组IP、port，对应为HDFS

来自：帮助中心

查看更多 →
CREATE SERVER

r。 address option必须存在，若用于跨集群互联互通场景则只允许设置1个。当server类型为DLI时，address为DLI服务上数据所存储的OBS address。若HDFS为联邦模式时，即fed 'rbf'，address可设置为多组IP、port，对应为HDFS

来自：帮助中心

查看更多 →
深度学习模型预测

深度学习模型预测深度学习已经广泛应用于图像分类、图像识别和语音识别等不同领域，DLI服务中提供了若干函数实现加载深度学习模型并进行预测的能力。目前可支持的模型包括DeepLearning4j 模型和Keras模型。由于Keras它能够以 TensorFlow、CNTK或者 Theano

来自：帮助中心

查看更多 →
时间序列预测

流数据处理中经常需要对于时间序列数据进行建模和预测，建模是指提取数据中有用的统计信息和数据特征，预测是指使用模型对未来的数据进行推测。DLI服务提供了一系列随机线性模型，帮助用户在线实时进行模型的建模和预测。 ARIMA (Non-Seasonal) ARIMA（Auto-Regressive

来自：帮助中心

查看更多 →
贸易数据上云场景介绍

H公司屏蔽大数据基础设施复杂的构建、维护过程，使其客户人员可以全身心聚焦业务创新，盘活100T的存量数据，使资产最大化变现。 CDM 和DLI服务按需收费，帮助H公司客户释放了维护人员并降低了专用带宽成本，使得维护成本相比线下数据中心降低了70%，且使用门槛低，可实现已有数据的平滑

来自：帮助中心

查看更多 →
创建并提交SQL作业

本节内容介绍使用DLI的SQL编辑器创建并提交SQL作业。使用须知首次进入SQL编辑器，页面会提示设置DLI作业桶。该桶用于存储使用DLI服务产生的临时数据，例如：作业日志等。如果不创建该桶，将无法查看作业日志。桶名称为系统默认。在OBS管理控制台页面通过配置桶的生命周期规

来自：帮助中心

查看更多 →
DLI弹性资源池与队列简介

源池并添加队列。全局共享模式：全局共享模式是一种根据SQL查询中实际扫描的数据量来分配计算资源的模式，不支持指定或预留计算资源。 DLI服务预置的“default”队列即为全局共享模式的计算资源，资源的大小是按需分配的。在不确定数据量大小或偶尔需要进行数据处理的用户，可以使用default队列执行作业。

来自：帮助中心

查看更多 →
开始使用

查看DLI。在控制台单击“服务列表”，选择“数据湖探索 DLI”，单击进入DLI服务页面。单击“资源管理 > 队列管理”，查询创建的DLI队列。图5 DLI队列配置DLI服务授权。单击“全局变量>服务授权”，选定以下两项委托授权，单击“更新委托权限”。图6 DLI服务授权参考数据湖探索 DLI使用指南创建

来自：帮助中心

查看更多 →
约束与限制

套餐包到期后，按需资源不会自动关闭，将会以按需付费的方式继续使用。存储套餐的额度每个小时会重置。其他类型套餐包额度按月重置。队列使用约束限制 DLI服务预置了名为“default”的队列供用户体验，资源的大小按需分配。运行作业时按照用户每个作业的数据扫描量（单位为“GB”）收取计算费用。

来自：帮助中心

查看更多 →