更新时间:2024-12-05 GMT+08:00
分享

DLI

基于数据湖探索(Data Lake Insight,简称DLI)服务的数据集。

前提条件

连接的数据源已创建,如何创建请参见DLI数据源

在DLI构建数据

  1. 登录DLI服务控制台。
  2. 参考创建并提交Spark SQL作业中操作,创建队列、数据库和表。

    例如,创建了数据库tpch,且数据库中预置了所需的表。

    图1 tpch数据库

  3. 单击已创建的数据库tpch,进入tpch数据库。
  4. (可选)双击对应的表,右侧会显示对应的查询语句,单击“设置”,添加标签。

    为作业添加标签后,在AstroCanvas中可通过标签识别到是具体哪个作业的执行结果。如果不设置标签,默认识别到最新作业的执行结果。
    图2 设置标签

  5. 单击“执行”,构建数据。

    图3 构建数据

  6. 在左侧导航栏中,选择作业管理 > SQL作业,查看构建结果。

    图4 查看构建结果

创建DLI数据集

  1. 参考登录AstroCanvas界面中操作,登录AstroCanvas界面。
  2. 在主菜单中,选择“数据中心”。
  3. 在左侧导航栏中,选择“数据集 > 全部”。
  4. 在数据集管理页面,单击“新建数据集”
  5. 在新增数据集页面,设置数据集名称、选择数据类型、数据源和目录,单击“保存”

    图5 新建数据集
    • 数据集名称:新建数据集的名称,用于标识该数据集。长度为1~60个字符,可包括中文、字母、数字及下划线。
    • 数据类型:选择“DLI”
    • 数据源:选择DLI数据源中,创建的数据源。
    • 目录:设置数据集的存放目录,配置为(可选)新建目录中新建的目录,也可以直接单击“新增目录”,新建一个目录。
    • 责任人:数据集的创建人。
    • 描述:新建数据集的描述信息,通常设置为数据集的功能。

  6. 配置数据集参数。

    • 标签:SQL作业的标签。单击“标签”后的“展开”,设置标签的键“key”和标签的值“value”,即在DLI构建数据中设置的标签。
      • 设置标签:从设置标签的SQL作业中,获取数据(48小时内的数据,作业超过48小时会过期)。
      • 不设置标签,默认从最后执行的作业中获取数据。
    • 刷新数据:单击该按钮,可预览数据。

  7. 单击“保存”,完成DLI数据集的创建。

相关文档