更新时间:2022-05-07 GMT+08:00
分享

新增物理实体

提供物理实体和逻辑实体智能匹配能力,快速完成DWS、OBS等数据源上的数据物化。

操作步骤

  1. 在数据服务左侧导航,选择工具箱>数据开发>数据建模
  2. 在左侧导航中,单击展开分层,选择一个分层。
  3. 在逻辑实体列表中,在需要新增物理实体对应的“物理实体”列下,单击
  4. 单击“新增”
  5. “新建物理实体”界面,配置信息。

    如果用户无HIVE、HDFS数据源,则该数据源不开放。

    • 当逻辑实体的“实体类型”“表”时。
      • 当“数据源类型”为“DWS”时,参数配置说明见表1
        表1 数据源类型为DWS的参数说明

        区域

        参数

        说明

        基本信息

        实体名称

        逻辑实体名称。系统自动获取。

        数据源类型

        物理实体的数据源类型。此处选择“DWS”。

        当前结构化数据(实体类型为表)支持DWS、OBS、ES、HBase、Kafka、MySql、HIVE、HDFS数据源;非结构化数据(实体类型不是表)仅支持OBS、HDFS数据源。

        数据源实例

        选择“创建”,将在对应数据源下创建对应实例;选择“关联”,请确保数据源实例下已存在表、索引或者字段。

        存储类型

        物理实体的存储类型。不支持修改。

        表名称

        物理实体表名称。默认值为实体名称,支持修改。

        描述

        物理实体描述信息。

        属性信息

        属性信息

        仅当逻辑实体的“实体类型”为“表”时,可以查看。

        逻辑实体属性信息不支持修改,支持设置物理实体的部分属性信息。

      • 当“数据源类型”为“OBS”时,参数配置说明见表2
        表2 数据源类型为OBS的参数说明

        区域

        参数

        说明

        基本信息

        实体名称

        逻辑实体名称。系统自动获取。

        数据源类型

        物理实体的数据源类型。此处选择“OBS”。

        当前结构化数据(实体类型为表)支持DWS、OBS、ES、HBase、Kafka、MySql、HIVE、HDFS数据源;非结构化数据(实体类型不是表)仅支持OBS、HDFS数据源。

        数据源实例

        选择“创建”,将在对应数据源下创建对应实例;选择“关联”,请确保数据源实例下已存在表、索引或者字段。

        分隔符

        表头字段和值的分隔符,从下拉框中选择。

        文件头所在行

        设置文件头所在行。选择“0”,表示文件无表头。

        文件编码

        选择文件的编码格式。

        文件格式

        选择文件的格式。

        文件路径

        从OBS桶中选择分层或者文件。对应数据模型的文件存放分层或数据模型文件。

        描述

        物理实体描述信息。

        属性信息

        属性信息

        仅当逻辑实体的“实体类型”为“表”时,可以查看。

        逻辑实体属性信息不支持修改,支持设置物理实体的部分属性信息。

      • 当“数据源类型”为“ES”时,参数配置说明见表3。其中,文件相关的配置参数要与实际的文件保持一致。
        表3 数据源类型为ES的参数说明

        区域

        参数

        说明

        基本信息

        实体名称

        逻辑实体名称。系统自动获取。

        数据源类型

        物理实体的数据源类型。此处选择“ES”。

        当前结构化数据(实体类型为表)支持DWS、OBS、ES、HBase、Kafka、MySql、HIVE、HDFS数据源;非结构化数据(实体类型不是表)仅支持OBS、HDFS数据源。

        数据源实例

        选择“创建”,将在对应数据源下创建对应实例;选择“关联”,请确保数据源实例下已存在表、索引或者字段。

        模式

        分为模板模式和参数模式两种。模板模式下,需要提供ES的索引模板。

        索引模板

        “模式”“模板模式”时,才有此参数。

        ES的索引模板。建议直接从ES服务中导出对应的索引模板。

        索引名称

        ES的索引名称。

        主分片数

        “模式”“参数模式”时,才有此参数。

        ES的主分片数。

        主分片副本数

        “模式”“参数模式”时,才有此参数。

        ES的主分片副本数。

        压缩算法

        “模式”“参数模式”时,才有此参数。

        ES使用的压缩算法。目前仅支持best_compression类型。

        合并最大线程数

        “模式”“参数模式”时,才有此参数。

        ES合并最大线程数。

        刷新频率

        “模式”“参数模式”时,才有此参数。

        ES索引归档刷新频率。

        日志刷新门限

        “模式”“参数模式”时,才有此参数。

        日志刷新的时长和大小门限。

        最大合并字段

        “模式”“参数模式”时,才有此参数。

        最大合并字段。超过该阈值时,合并对应字段。

        自定义参数

        用于配置ES支持的参数字段。输入内容必须为json格式。

        属性信息

        属性信息

        仅当逻辑实体的“实体类型”为“表”时,可以查看。

        不支持修改。

      • 当“数据源类型”为“HBase”时,参数配置说明见表4
        表4 数据源类型为HBase的参数说明

        区域

        参数

        说明

        基本信息

        实体名称

        逻辑实体名称。系统自动获取。

        数据源类型

        物理实体的数据源类型。此处选择“HBase”。

        当前结构化数据(实体类型为表)支持DWS、OBS、ES、HBase、Kafka、MySql、HIVE、HDFS数据源;非结构化数据(实体类型不是表)仅支持OBS、HDFS数据源。

        数据源实例

        选择“创建”,将在对应数据源下创建对应实例;选择“关联”,请确保数据源实例下已存在表、索引或者字段。

        表名称

        物理实体表名称,默认值为实体名称,支持修改。

        存储类型

        存储类型。目前仅支持单表。

        生存时间(S)

        生存时间。超过该时间时,移除对应数据。

        描述

        物理实体描述信息。

        预分区

        预分区的个数。

        Rowkey规则定义

        设置Rowkey规则定义。

        属性信息

        属性信息

        仅当逻辑实体的“实体类型”为“表”时,可以查看。

        逻辑实体的属性信息不支持修改,支持设置物理实体的部分属性信息。

      • 当“数据源类型”为“Kafka”时,参数配置说明见表5
        表5 数据源类型为Kafka的参数说明

        区域

        参数

        说明

        基本信息

        实体名称

        逻辑实体名称。系统自动获取。

        数据源类型

        物理实体的数据源类型。此处选择“Kafka”。

        当前结构化数据(实体类型为表)支持DWS、OBS、ES、HBase、Kafka、MySql、HIVE、HDFS数据源;非结构化数据(实体类型不是表)仅支持OBS、HDFS数据源。

        数据源实例

        选择“创建”,将在对应数据源下创建对应实例;选择“关联”,请确保数据源实例下已存在表、索引或者字段。

        Topic

        Kafka的topic名称。

        分区数

        Kafka的分区数。

        副本数

        Kafka的副本数。备份副本数量,用于高可用场景。

        分隔符

        Kafka的消息分隔符。

        描述

        物理实体的描述信息。

        属性信息

        属性信息

        仅当逻辑实体的“实体类型”为“表”时,可以查看。

        逻辑实体的属性信息不支持修改,支持设置物理实体的部分属性信息。

      • 当“数据源类型”为“MySql”时,参数配置说明见表6
        表6 数据源类型为MySql的参数说明

        区域

        参数

        说明

        基本信息

        实体名称

        逻辑实体名称。系统自动获取。

        数据源类型

        物理实体的数据源类型。此处选择“MySql”。

        当前结构化数据(实体类型为表)支持DWS、OBS、ES、HBase、Kafka、MySql、HIVE、HDFS数据源;非结构化数据(实体类型不是表)仅支持OBS、HDFS数据源。

        数据源实例

        选择“创建”,将在对应数据源下创建对应实例;选择“关联”,请确保数据源实例下已存在表、索引或者字段。

        存储类型

        物理实体的存储类型。不支持修改。

        表名称

        物理实体表名称。默认值为实体名称,支持修改。

        描述

        物理实体描述信息。

        属性信息

        属性信息

        仅当逻辑实体的“实体类型”为“表”时,可以查看。

        逻辑实体的属性信息不支持修改,支持设置物理实体的部分属性信息。

      • 当“数据源类型”为“HIVE”时,参数配置说明见表7
        表7 数据源类型为HIVE的参数说明

        区域

        参数

        说明

        基本信息

        实体名称

        逻辑实体名称。系统自动获取。

        数据源类型

        物理实体的数据源类型。此处选择“HIVE”。

        当前结构化数据(实体类型为表)支持DWS、OBS、ES、HBase、Kafka、MySql、HIVE、HDFS数据源;非结构化数据(实体类型不是表)仅支持OBS、HDFS数据源。

        数据源实例

        选择“创建”,将在对应数据源下创建对应实例;选择“关联”,请确保数据源实例下已存在表、索引或者字段。

        存储类型

        物理实体的存储类型。

        包含如下选项:

        • 单表
        • 分区数:只有HIVE数据源类型的物理实体支持分区。最多支持3个分区。请根据实际情况,设置逻辑实体每列所在的分区。

        表名称

        物理实体表名称。默认值为实体名称,支持修改。

        描述

        物理实体描述信息。

        属性信息

        属性信息

        仅当逻辑实体的“实体类型”为“表”时,可以查看。

        不支持修改。

      • 当“数据源类型”为“HDFS”时,参数配置说明见表8
        表8 数据源类型为HDFS的参数说明

        区域

        参数

        说明

        基本信息

        实体名称

        逻辑实体名称。系统自动获取。

        数据源类型

        物理实体的数据源类型。此处选择“HDFS”。

        当前结构化数据(实体类型为表)支持DWS、OBS、ES、HBase、Kafka、MySql、HIVE、HDFS数据源;非结构化数据(实体类型不是表)仅支持OBS、HDFS数据源。

        数据源实例

        选择“创建”,将在对应数据源下创建对应实例;选择“关联”,请确保数据源实例下已存在表、索引或者字段。

        压缩算法

        HDFS服务支持的数据压缩算法。

        分隔符

        表头字段和值的分隔符,从下拉框中选择。

        文件头所在行

        设置文件头所在行。选择“0”,表示文件无表头。

        文件编码

        选择文件的编码格式。

        文件格式

        选择文件的格式。

        文件路径

        文件所在的路径。

        存储策略

        HDFS文件存储时,归档目录及名称规则。

        描述

        物理实体描述信息。

        属性信息

        属性信息

        仅当逻辑实体的“实体类型”为“表”时,可以查看。

        逻辑实体的属性信息不支持修改,支持设置物理实体的部分属性信息。

    • 当逻辑实体的“实体类型”不为“表”时。
      • “数据源类型”为“OBS”时,参数配置说明见表9
        表9 数据源类型为OBS的参数说明

        参数

        说明

        实体名称

        逻辑实体名称。系统自动获取。

        数据源类型

        物理实体的数据源类型。此处选择“OBS”。

        当前支持OBS和HDFS数据源。

        数据源实例

        选择“创建”,将在对应数据源下创建对应实例;选择“关联”,请确保数据源实例下已存在表、索引或者字段。

        递归遍历子目录

        支持选项:

        是:包含该路径下的所有文件及文件夹下的文件。

        否:仅包含该路径下的文件。

        文件路径

        文件所在的路径。

        描述

        物理实体描述信息。

      • “数据源类型”为“HDFS”时,参数配置说明见表10
        表10 数据源类型为HDFS的参数说明

        参数

        说明

        实体名称

        逻辑实体名称。系统自动获取。

        数据源类型

        物理实体的数据源类型。此处选择“HDFS”。

        当前支持OBS和HDFS数据源。

        数据源实例

        选择“创建”,将在对应数据源下创建对应实例;选择“关联”,请确保数据源实例下已存在表、索引或者字段。

        压缩算法

        HDFS的压缩算法。

        递归遍历子目录

        是否包含该路径下的所有文件及文件夹下的文件。

        支持选项:

        是:包含该路径下的所有文件及文件夹下的文件。

        否:仅包含该路径下的文件。

        文件路径

        文件所在的路径。

        存储策略

        HDFS文件存储时,归档目录及名称规则。

        描述

        物理实体描述信息。

  6. 单击“预览SQL”,查看建表的SQL语句。

    当数据源类型为“DWS”时,才有此操作。

  7. 单击“保存”
  8. “确认”对话框单击“确定”

    成功创建的物理实体,自动显示在物理实体列表中。

  9. (可选)支持对物理实体做如下操作:

    • 单击物理实体所在行,对应“操作”列的“修改”,修改物理实体配置信息。
    • 单击物理实体所在行,对应“操作”列的“创建”,对物理实体进行物化。即创建真实的DWE类型的表。此时物理实体的状态,从“草稿”变更为“已建表”
    • 单击物理实体所在行,对应“操作”列的“删除”,删除物理实体。

相关文档