更新时间:2024-10-18 GMT+08:00

数据集市

数据集市,也称为DM模型。是汇总表的统称。汇总逻辑表是由一个特定的分析对象(如会员)及其相关的统计指标组成的。组成一个汇总逻辑表的统计指标都具有相同的统计粒度(如会员),汇总逻辑表面向用户提供了以统计粒度(如会员)为主题的所有统计数据(如会员主题集市)。

汇总表分为“手工创建”和“自动汇聚”,此处仅描述手工创建场景。

如果在数据架构 > 配置中心 > 功能配置页面中开启了“模型设计业务流程步骤 > 创建数据开发作业”(默认为关闭),发布汇总表时,系统将在数据开发中自动创建一个数据开发作业,作业名称以“数据库名称_表编码”开头。您可以进入数据开发 > 作业开发页面查看作业。该作业默认没有调度配置,需要您自行在数据开发模块中设置。

前提条件

在创建汇总表之前,请先确认您已完成维度、维度表、事实表和衍生指标/复合指标的新建、发布与审核。

新建汇总表并发布

  1. DataArts Studio控制台首页,选择对应工作空间的“数据架构”模块,进入数据架构页面。
  2. 在数据架构控制台,单击左侧导航树中的“模型设计 > 数据集市”
  3. 在左侧主题目录中选中一个主题,然后单击“新建”按钮,或者直接单击“新建”按钮,开始创建汇总表。
  4. 在“新建汇总表”页面,完成如下配置。
    1. 设置“基本配置”参数:
      图1 汇总表基本配置

      表1 基本配置参数说明

      参数说明

      说明

      *所属主题

      单击“选择主题”,选择表所属的主题域分组、主题域和业务对象。

      *表名称

      设置表名称。只允许除\、<、>、%、"、'、;及换行符以外的字符。

      *表英文名称

      设置表英文名称。只能包含英文字母、数字和下划线,且以dws_开头。

      *资产责任人

      在下拉框中选择资产责任人,可以手动输入名字或直接选择已有的责任人。

      高级配置

      设置自定义项,以对表进行描述。自定义项设置完成后仅可用于在表详情中进行查看,无特殊需求时无需设置。

      例如您需要标识该表的来源时,可以设置自定义项配置名为“来源”,值为对应的表来源信息。配置完成后可以在表详情中查看该信息。

      *数据连接类型

      请选择和维度表、事实表相同的数据连接类型。

      *数据连接

      数据集市建议使用统一的数据连接。

      *数据库

      选择数据库。

      队列

      DLI队列。该参数仅DLI连接类型有效。

      Schema

      DWS或POSTGRESQL的模式。该参数在DWS或POSTGRESQL连接类型有效。

      表类型

      DLI模型的表支持以下表类型:
      • Managed:数据存储位置为DLI的表。
      • External:数据存储位置为OBS的表。当“表类型”设置为External时,需设置“OBS路径””参数。OBS路径格式如:/bucket_name/filepath。

      DWS模型的表支持以下表类型:

      • DWS_ROW:行存表。行存储是指将表按行存储到硬盘分区上。
      • DWS_COLUMN:列存表。列存储是指将表按列存储到硬盘分区上。
      • DWS_VIEW:视图存表。视图存储是指将表按视图存储到硬盘分区上。

      MRS_HIVE模型支持HIVE_TABLE和HIVE_EXTERNAL_TABLE。

      MRS_SPARK模型支持HUDI_COW和HUDI_MOR。

      POSTGRESQL模型仅支持POSTGRESQL_TABLE。

      MRS_CLICKHOUSE模型仅支持CLICKHOUSE_TABLE。

      Oracle模型仅支持ORACLE_TABLE。

      MySQL模型仅支持MYSQL_TABLE。

      压缩等级

      当数据连接类型为DWS时,可选择压缩等级,以减少数据存储成本。

      不同表类型可选以下压缩等级:

      • DWS_ROW:“NO”“YES”
      • DWS_COLUMN:“NO”“LOW”“MIDDLE”“HIGH”
      • DWS_VIEW:不支持设置压缩等级。

      DISTRIBUTE BY

      该参数仅DWS连接类型有效。DWS表当前支持复制(Replication)和散列(Hash)两种分布策略。用户可选取多个字段。

      • REPLICATION方式:在每一个DN节点上存储一份全量表数据。这种存储方式的优点是每个DN上都有此表的全量数据,在join操作中可以避免数据重分布操作,从而减小网络开销;缺点是每个DN都保留了表的完整数据,造成数据的冗余。一般情况下只有较小的维度表才会定义为Replication表。
      • HASH方式:采用这种分布方式,需要为用户表指定一个分布列(distribute key)。当插入一条记录时,系统会根据分布列的值进行hash运算后,将数据存储在对应的DN中。对于Hash分布表,在读/写数据时可以利用各个节点的IO资源,大大提升表的读/写速度。一般情况下大表(1000000条记录以上)定义为Hash表。

      *描述

      描述信息。支持的长度为1~600个字符。

    2. 选择“属性配置”页签,配置汇总表的属性信息。

      单击“添加”,可以添加一个或多个相关联的属性信息,例如衍生指标。

      单击“导入字段”,可以选择“从指标导入”、“从维度属性导入”或“从数据指标导入”,可以导入所需的字段信息。

      从维度属性导入字段时,指标引用的维度属性,必须先关联指标/导入指标字段,再关联维度,才能够从维度属性导入字段。

      单击“数据标准稽查”,可以对汇总表的属性信息进行数据标准稽查,“稽查状态”为

      单击“批量关联”,可以对多个属性配置批量关联数据标准和密级。

      单击“批量清空”,可以对多个属性配置批量清空数据标准和密级。
      图2 属性配置

      表2 属性配置参数

      参数名称

      说明

      名称

      只允许除\、<、>、%、"、'、;及换行符以外的字符。

      维度属性的字段会自动显示所添加的维度表及维度表的属性值字段,一般不需要修改。

      英文名称

      只能以英文字母开头,支持英文字母、数字、下划线。

      数据类型

      显示该字段名称的数据类型。

      配置类型

      表示该字段名称对应的配置类型。比如衍生指标。

      关联对象

      表示该字段名称的配置类型对应的关联对象。比如衍生指标的名称。

      主键

      选中时表示该字段为主键。

      说明:

      数据连接为MRS Spark连接(通过MRS Spark连接支持MRS Hudi数据源)时,由于Hudi的限制,必须存在字段主键才能数据落库成功,否则会导致表同步失败。

      分区

      选中时表示该字段为分区字段。

      不为空

      是否限制该字段不为空。

      数据标准

      如果您已创建数据标准,在“数据标准”列,单击按钮可以选择一个数据标准与字段相关联。在配置中心 > 功能配置页面中的“模型设计业务流程步骤 > 创建质量作业”勾选的情况下,将字段关联数据标准后,表发布上线后,就会自动生成一个质量作业,每个关联了数据标准的字段会生成一个质量规则,基于数据标准对字段进行质量监控,您可以前往DataArts Studio数据质量模块的“质量作业”页面进行查看。

      如果您还未创建数据标准,请参见新建数据标准进行创建。

      密级

      单击按钮可以为逻辑实体属性添加密级。

      如果没有您想要的密级,可点击跳转到数据安全界面中创建需要的密级。

      如不使用该功能,可在配置中心 > 模型设计中关闭该功能。

      描述

      描述信息。

      稽核状态

      表示是否进行数据标准稽核。

      操作

      相关操作按钮。

    3. 选择“代码配置”页签,可以查看系统生成的代码以及对指标代码进行格式化。

      单击“生成代码”,可以对已经生成的代码进行刷新。单击“复制到指标代码”可以复制代码到下面的指标代码,单击“格式化”,可以对指标代码进行格式化。

  5. 单击“发布”,并在弹出框中,选择审核人,单击“确认提交”,提交汇总表的发布审核。

    企业模式下,进行发布时,可以选择发布到生产环境或开发环境。默认发布到生产环境,不勾选则无法发布。

    如果当前用户已被添加为审核人,则可以勾选“自助审批”,单击“确认提交”后,状态显示为“已发布”

    选择审核人时,系统支持选择多个审核人,全部审批通过后,状态才会显示为已发布。如果有任意一个人驳回,则状态为已驳回。

  6. 请联系审核人员审核汇总表,等待审核通过。

    审核通过后,汇总表就会在数据库中自动创建。

  7. 返回“模型设计 > 数据集市 > 汇总表”页面,在列表中找到刚发布的汇总表,在“同步状态”一列中可以查看汇总表的同步状态。您可以切换生产环境和开发环境查看同步结果。
    • 如果同步状态均显示成功,则说明汇总表发布成功,汇总表在数据库中已创建成功。
    • 如果同步状态中存在失败,可单击该汇总表所在行的“更多 > 发布历史”,然后在展开的页面中进入“发布日志”页签查看日志。请根据错误日志定位失败原因,问题解决后,您可以在汇总表页面勾选该汇总表,再单击列表上方的“更多 > 同步”尝试重新同步。如果问题仍未能解决,请联系技术支持人员协助处理。

      企业模式下,进行同步时,可以选择同步到生产环境或开发环境。默认同步到生产环境,不勾选则无法同步。

管理汇总表

  1. 在数据架构控制台,单击左侧导航树中的“模型设计 > 数据集市”,选择“汇总表”页签,进入汇总表页面。
    图3 汇总表页面

  2. 您可以根据实际需要选择如下操作。

    当需要...

    则...

    新建

    执行新建汇总表并发布

    编辑

    执行3

    发布

    执行4

    发布历史

    执行5

    预览SQL

    执行6

    下线

    执行7

    关联质量规则

    执行8

    删除

    执行9

    导入

    执行10

    导出

    执行11

  3. 编辑
    1. 在需要编辑的汇总表右侧,单击“编辑”,进入编辑汇总表页面。
    2. 根据实际需要编辑相关内容。
    3. 单击“发布”

      企业模式下,进行发布时,可以选择发布到生产环境或开发环境。默认发布到生产环境,不勾选则无法发布。

  4. 发布
    1. 在需要发布的汇总表右侧,单击“发布”,弹出“提交发布”对话框。
    2. 在下拉菜单中选择审核人。

      企业模式下,进行发布时,可以选择发布到生产环境或开发环境。默认发布到生产环境,不勾选则无法发布。

    3. 单击“确认提交”
  5. 查看发布历史
    1. 在汇总列表中,找到所需要的汇总表,在右侧单击“更多 > 发布历史”,将显示“发布历史”页面。
    2. 在“发布历史”中,您可以查看汇总表的发布历史记录、版本对比信息以及发布日志。

      如果“发布日志”中有错误日志,说明发布失败。您可以单击“重新同步”进行重试。

  6. 预览SQL
    1. 在汇总表列表中,找到所需要的汇总表,在右侧单击“更多 > 预览SQL”,弹出“预览SQL”对话框。
    2. 在“预览SQL”中,您可以查看SQL语句,也可以复制SQL。
  7. 下线
    1. 在需要下线的汇总表右侧,单击“更多 > 下线”,系统弹出“提交下线”对话框。
    2. 在下拉菜单中选择审核人。
    3. 单击“确认提交”

      汇总表下线后,API的如何处理由客户在数据服务中根据实际情况决定,数据架构侧不会对API做任何处理。

  8. 关联质量规则
    1. 在汇总表列表中,勾选所需要关联质量规则的汇总表,在上方单击“关联质量规则”,弹出“关联质量规则”对话框。
    2. “关联质量规则”对话框中,您可以批量给汇总表的字段添加规则并关联到字段。
    3. 单击“确定”
  9. 删除
    1. 勾选需要删除的汇总表,单击上方“更多 > 删除”,系统弹出“删除”对话框。
    2. 单击“是”
  10. 导入

    可通过导入的方式将汇总表批量快速的导入到系统中。

    1. 在汇总表上方,单击“更多 > 导入”,进入“导入配置”页签。
      图4 导入汇总表
    2. 下载汇总表导入模板,编辑完成后保存至本地。
    3. 选择是否更新已有数据。

      如果系统中已有的表英文名称和模板中的表英文名称相同,系统则认为是数据重复。

      • 不更新:当数据重复时,不会替换系统中原有的数据。
      • 更新:当数据重复时
        • 系统中的原有数据为草稿状态,则会覆盖生成新的草稿数据。
        • 系统中的原有数据为发布状态,则会生成下展数据。
    4. 单击“添加文件”,选择编辑完成的导入模板。
    5. 单击“上传文件”,上传完成后,自动跳转到“上次导入”页签,查看已导入的数据。
    6. 单击“关闭”。
  11. 导出

    可通过导出的方式将汇总表导出到本地。

    1. 在手工创建或自动汇聚列表选中待导出的汇总表。
    2. 在列表上方,单击“更多 > 导出”,即可将系统中的汇总表导出到本地。
    • 在左侧主题树中选中某个主题,可以导出该主题下的所有汇总表;
    • 当该空间下不超过500条汇总表数据时可以全部导出。

汇总表关联质量规则

  1. 在数据架构控制台,选择“模型设计 > 数据集市”,进入数据集市页面。
  2. 单击“汇总表”页签,进入汇总表页面。
  3. 在汇总表列表中,勾选需要关联质量规则的汇总表。单击“关联质量规则”
    图5 关联汇总表质量规则

  4. 在弹出的页面中配置关联质量规则参数。配置完成单击确定。
    • 更新已有规则:若勾选此项,新添加的规则会覆盖旧规则。
    • 匹配字段:此参数默认应用于所有字段,依据用户输入的正则表达式对字段进行过滤。
    • Where条件:可依据用户输入的where条件对字段进行过滤。
    • 生成异常数据:勾选此项,表示异常数据将按照配置的参数存储到规定的库中。
    • 数据库或Schema:勾选“生成异常数据”时显示此项,表示存储异常数据的数据库或Schema
    • 表前缀:勾选“生成异常数据”时显示此项,表示存储异常数据的表的前缀。
    • 表后缀:勾选“生成异常数据”时显示此项,表示存储异常数据的表的后缀。
    • 添加规则:单击“添加规则”进行设置。例如,添加名称为“字段唯一值”规则,选中该规则后单击“确定”,在“告警条件”中输入告警条件表达式,然后按照此方法添加其他规则后,单击“确定”。告警表达式举例如下:

    • 告警条件表达式,由告警参数和逻辑运算符组成。在质量作业运行时,系统将计算出告警条件表达式的结果,并根据表达式的结果是否为真来判断是否触发告警。如果表达式的结果为真则触发质量告警,结果为假则不触发质量告警。在此处的“关联质量规则”对话框中,每个质量规则的“告警参数”以按钮形式列出。
    图6 汇总表关联质量规则

汇总表字段关联数据标准

  1. 在数据架构控制台,选择“模型设计 > 数据集市”,进入数据集市页面。
  2. 单击“汇总表”页签,进入汇总表页面。
  3. 在汇总表列表中,单击需要关联数据标准的汇总表名称。
  4. 在汇总表的详情页的表字段列表中,查找需要关联数据标准的字段,单击其所属的,配置单个表字段关联数据标准。
    图7 汇总表字段关联数据标准
  5. 配置完成后,单击“确定”,完成汇总表字段关联数据标准。数据标准的来源请参考新建数据标准
    图8 配置数据标准

单个表字段关联质量规则

  1. 在数据架构控制台,选择“模型设计 > 数据集市”,进入数据集市页面。
  2. 单击“汇总表”页签,进入汇总表页面。
  3. 在汇总表列表中,单击需要关联质量规则的汇总表名称。
  4. 在汇总表的详情页的表字段列表中,单击,配置单个表字段关联质量规则。
    图9 汇总表单个字段关联质量规则
  5. 配置完成后,单击“确定”,完成汇总表字段关联质量规则。
    • 更新已有规则:若勾选此项,新添加的规则会覆盖旧规则。
    • 添加规则:单击“添加规则”进行设置。例如,添加名称为“字段唯一值”规则,选中该规则后单击“确定”,在“告警条件”中输入告警条件表达式,然后按照此方法添加其他规则后,单击“确定”
    • 告警条件表达式,由告警参数和逻辑运算符组成。在质量作业运行时,系统将计算出告警条件表达式的结果,并根据表达式的结果是否为真来判断是否触发告警。如果表达式的结果为真则触发质量告警,结果为假则不触发质量告警。在此处的“关联质量规则”对话框中,每个质量规则的“告警参数”以按钮形式列出。
    图10 配置质量规则

表字段批量关联质量规则

  1. 在数据架构控制台,选择“模型设计 > 数据集市”,进入数据集市页面。
  2. 单击“汇总表”页签,进入汇总表页面。
  3. 在汇总表列表中,单击需要关联质量规则的汇总表名称。
  4. 在汇总表的详情页的表字段列表中,勾选需要关联质量规则的表字段,单击关联质量规则。
    图11 汇总表批量字段关联质量规则
  5. 在弹出的界面中添加规则,完成规则参数配置。
    • 更新已有规则:若勾选此项,新添加的规则会覆盖旧规则。
    • 添加规则:单击“添加规则”进行设置。例如,添加名称为“字段唯一值”规则,选中该规则后单击“确定”,在“告警条件”中输入告警条件表达式,然后按照此方法添加其他规则后,单击“确定”
    • 告警条件表达式,由告警参数和逻辑运算符组成。在质量作业运行时,系统将计算出告警条件表达式的结果,并根据表达式的结果是否为真来判断是否触发告警。如果表达式的结果为真则触发质量告警,结果为假则不触发质量告警。在此处的“关联质量规则”对话框中,每个质量规则的“告警参数”以按钮形式列出。
    图12 添加汇总表质量规则
  6. 配置完成后,单击“确定”,完成汇总表字段批量关联质量规则。