数据集市
数据集市,也称为DM模型。是汇总表的统称。汇总逻辑表是由一个特定的分析对象(如会员)及其相关的统计指标组成的。组成一个汇总逻辑表的统计指标都具有相同的统计粒度(如会员),汇总逻辑表面向用户提供了以统计粒度(如会员)为主题的所有统计数据(如会员主题集市)。
汇总表分为“手工创建”和“自动汇聚”,此处仅描述手工创建场景。
如果在
页面中开启了“模型设计业务流程步骤 > 创建数据开发作业”(默认为关闭),发布汇总表时,系统将在数据开发中自动创建一个数据开发作业,作业名称以“数据库名称_表编码”开头。您可以进入 页面查看作业。该作业默认没有调度配置,需要您自行在数据开发模块中设置。前提条件
在创建汇总表之前,请先确认您已完成维度、维度表、事实表和衍生指标/复合指标的新建、发布与审核。
新建汇总表并发布
- 在DataArts Studio控制台首页,选择对应工作空间的“数据架构”模块,进入数据架构页面。
- 在数据架构控制台,单击左侧导航树中的“模型设计 > 数据集市”。
- 在左侧主题目录中选中一个主题,然后单击“新建”按钮,或者直接单击“新建”按钮,开始创建汇总表。
- 在“新建汇总表”页面,完成如下配置。
- 设置“基本配置”参数:
图1 汇总表基本配置
表1 基本配置参数说明 参数说明
说明
*所属主题
单击“选择主题”,选择表所属的主题域分组、主题域和业务对象。
*表名称
设置表名称。只允许除\、<、>、%、"、'、;及换行符以外的字符。
*表英文名称
设置表英文名称。只能包含英文字母、数字和下划线,且以dws_开头。
*资产责任人
在下拉框中选择资产责任人,可以手动输入名字或直接选择已有的责任人。
高级配置
设置自定义项,以对表进行描述。自定义项设置完成后仅可用于在表详情中进行查看,无特殊需求时无需设置。
例如您需要标识该表的来源时,可以设置自定义项配置名为“来源”,值为对应的表来源信息。配置完成后可以在表详情中查看该信息。
*数据连接类型
请选择和维度表、事实表相同的数据连接类型。
*数据连接
数据集市建议使用统一的数据连接。
*数据库
选择数据库。
队列
DLI队列。该参数仅DLI连接类型有效。
Schema
DWS或POSTGRESQL的模式。该参数在DWS或POSTGRESQL连接类型有效。
表类型
DLI模型的表支持以下表类型:- Managed:数据存储位置为DLI的表。
- External:数据存储位置为OBS的表。当“表类型”设置为External时,需设置“OBS路径””参数。OBS路径格式如:/bucket_name/filepath。
DWS模型的表支持以下表类型:
- DWS_ROW:行存表。行存储是指将表按行存储到硬盘分区上。
- DWS_COLUMN:列存表。列存储是指将表按列存储到硬盘分区上。
- DWS_VIEW:视图存表。视图存储是指将表按视图存储到硬盘分区上。
MRS_HIVE模型支持HIVE_TABLE和HIVE_EXTERNAL_TABLE。
MRS_SPARK模型支持HUDI_COW和HUDI_MOR。
POSTGRESQL模型仅支持POSTGRESQL_TABLE。
MRS_CLICKHOUSE模型仅支持CLICKHOUSE_TABLE。
Oracle模型仅支持ORACLE_TABLE。
MySQL模型仅支持MYSQL_TABLE。
DORIS模型仅支持DORIS_TABLE。
压缩等级
当数据连接类型为DWS时,可选择压缩等级,以减少数据存储成本。
不同表类型可选以下压缩等级:
- DWS_ROW:“NO”、“YES”。
- DWS_COLUMN:“NO”、“LOW”、“MIDDLE”、“HIGH”。
- DWS_VIEW:不支持设置压缩等级。
DISTRIBUTE BY
该参数仅DWS连接类型有效。DWS表当前支持复制(Replication)和散列(Hash)两种分布策略。用户可选取多个字段。
- REPLICATION方式:在每一个DN节点上存储一份全量表数据。这种存储方式的优点是每个DN上都有此表的全量数据,在join操作中可以避免数据重分布操作,从而减小网络开销;缺点是每个DN都保留了表的完整数据,造成数据的冗余。一般情况下只有较小的维度表才会定义为Replication表。
- HASH方式:采用这种分布方式,需要为用户表指定一个分布列(distribute key)。当插入一条记录时,系统会根据分布列的值进行hash运算后,将数据存储在对应的DN中。对于Hash分布表,在读/写数据时可以利用各个节点的IO资源,大大提升表的读/写速度。一般情况下大表(1000000条记录以上)定义为Hash表。
*描述
描述信息。支持的长度为1~600个字符。
- 选择“属性配置”页签,配置汇总表的属性信息。
单击“添加”,可以添加一个或多个相关联的属性信息,例如衍生指标。
单击“导入字段”,可以选择“从指标导入”、“从维度属性导入”或“从数据指标导入”,可以导入所需的字段信息。
从维度属性导入字段时,指标引用的维度属性,必须先关联指标/导入指标字段,再关联维度,才能够从维度属性导入字段。
单击“数据标准稽查”,可以对汇总表的属性信息进行数据标准稽查,“稽查状态”为。
单击“批量关联”,可以对多个属性配置批量关联数据标准和密级。
单击“批量清空”,可以对多个属性配置批量清空数据标准和密级。图2 属性配置
表2 属性配置参数 参数名称
说明
名称
只允许除\、<、>、%、"、'、;及换行符以外的字符。
维度属性的字段会自动显示所添加的维度表及维度表的属性值字段,一般不需要修改。
英文名称
只能以英文字母开头,支持英文字母、数字、下划线。
数据类型
显示该字段名称的数据类型。
配置类型
表示该字段名称对应的配置类型。比如衍生指标。
关联对象
表示该字段名称的配置类型对应的关联对象。比如衍生指标的名称。
主键
选中时表示该字段为主键。
说明:数据连接为MRS Spark连接(通过MRS Spark连接支持MRS Hudi数据源)时,由于Hudi的限制,必须存在字段主键才能数据落库成功,否则会导致表同步失败。
分区
选中时表示该字段为分区字段。
不为空
是否限制该字段不为空。
数据标准
如果您已创建数据标准,在“数据标准”列,单击按钮可以选择一个数据标准与字段相关联。在 页面中的“模型设计业务流程步骤 > 创建质量作业”勾选的情况下,将字段关联数据标准后,表发布上线后,就会自动生成一个质量作业,每个关联了数据标准的字段会生成一个质量规则,基于数据标准对字段进行质量监控,您可以前往DataArts Studio数据质量模块的“质量作业”页面进行查看。
如果您还未创建数据标准,请参见新建数据标准进行创建。
密级
单击按钮可以为逻辑实体属性添加密级。
如果没有您想要的密级,可点击跳转到数据安全界面中创建需要的密级。
如不使用该功能,可在配置中心 > 模型设计中关闭该功能。
描述
描述信息。
稽核状态
表示是否进行数据标准稽核。
操作
相关操作按钮。
- 选择“代码配置”页签,可以查看系统生成的代码以及对指标代码进行格式化。
单击“生成代码”,可以对已经生成的代码进行刷新。单击“复制到指标代码”可以复制代码到下面的指标代码,单击“格式化”,可以对指标代码进行格式化。
- 设置“基本配置”参数:
- 单击“发布”,并在弹出框中,选择审核人,单击“确认提交”,提交汇总表的发布审核。
企业模式下,进行发布时,可以选择发布到生产环境或开发环境。默认发布到生产环境,不勾选则无法发布。
如果当前用户已被添加为审核人,则可以勾选“自助审批”,单击“确认提交”后,状态显示为“已发布”。
选择审核人时,系统支持选择多个审核人,全部审批通过后,状态才会显示为已发布。如果有任意一个人驳回,则状态为已驳回。
- 请联系审核人员审核汇总表,等待审核通过。
- 返回“模型设计 > 数据集市 > 汇总表”页面,在列表中找到刚发布的汇总表,在“同步状态”一列中可以查看汇总表的同步状态。您可以切换生产环境和开发环境查看同步结果。
- 如果同步状态均显示成功,则说明汇总表发布成功,汇总表在数据库中已创建成功。
- 如果同步状态中存在失败,可单击该汇总表所在行的“更多 > 发布历史”,然后在展开的页面中进入“发布日志”页签查看日志。请根据错误日志定位失败原因,问题解决后,您可以在汇总表页面勾选该汇总表,再单击列表上方的“更多 > 同步”尝试重新同步。如果问题仍未能解决,请联系技术支持人员协助处理。
企业模式下,进行同步时,可以选择同步到生产环境或开发环境。默认同步到生产环境,不勾选则无法同步。
管理汇总表
- 在数据架构控制台,单击左侧导航树中的“模型设计 > 数据集市”,选择“汇总表”页签,进入汇总表页面。
图3 汇总表页面
- 您可以根据实际需要选择如下操作。
- 编辑
- 在需要编辑的汇总表右侧,单击“编辑”,进入编辑汇总表页面。
- 根据实际需要编辑相关内容。
- 单击“发布”。
企业模式下,进行发布时,可以选择发布到生产环境或开发环境。默认发布到生产环境,不勾选则无法发布。
- 发布
- 在需要发布的汇总表右侧,单击“发布”,弹出“提交发布”对话框。
- 在下拉菜单中选择审核人。
企业模式下,进行发布时,可以选择发布到生产环境或开发环境。默认发布到生产环境,不勾选则无法发布。
- 单击“确认提交”。
- 查看发布历史
- 预览SQL
- 在汇总表列表中,找到所需要的汇总表,在右侧单击“更多 > 预览SQL”,弹出“预览SQL”对话框。
- 在“预览SQL”中,您可以查看SQL语句,也可以复制SQL。
- 下线
- 在需要下线的汇总表右侧,单击“更多 > 下线”,系统弹出“提交下线”对话框。
- 在下拉菜单中选择审核人。
- 单击“确认提交”。
汇总表下线后,API的如何处理由客户在数据服务中根据实际情况决定,数据架构侧不会对API做任何处理。
- 关联质量规则
- 在汇总表列表中,勾选所需要关联质量规则的汇总表,在上方单击“关联质量规则”,弹出“关联质量规则”对话框。
- 在“关联质量规则”对话框中,您可以批量给汇总表的字段添加规则并关联到字段。
- 单击“确定”。
- 删除
- 勾选需要删除的汇总表,单击上方“更多 > 删除”,系统弹出“删除”对话框。
- 单击“是”。
- 导入
- 在汇总表上方,单击“更多 > 导入”,进入“导入配置”页签。
图4 导入汇总表
- 下载汇总表导入模板,编辑完成后保存至本地。
- 选择是否更新已有数据。
如果系统中已有的表英文名称和模板中的表英文名称相同,系统则认为是数据重复。
- 不更新:当数据重复时,不会替换系统中原有的数据。
- 更新:当数据重复时
- 系统中的原有数据为草稿状态,则会覆盖生成新的草稿数据。
- 系统中的原有数据为发布状态,则会生成下展数据。
- 单击“添加文件”,选择编辑完成的导入模板。
- 单击“上传文件”,上传完成后,自动跳转到“上次导入”页签,查看已导入的数据。
- 单击“关闭”。
- 在汇总表上方,单击“更多 > 导入”,进入“导入配置”页签。
- 导出
- 在手工创建或自动汇聚列表选中待导出的汇总表。
- 在列表上方,单击“更多 > 导出”,即可将系统中的汇总表导出到本地。
- 在左侧主题树中选中某个主题,可以导出该主题下的所有汇总表;
- 当该空间下不超过500条汇总表数据时可以全部导出。
汇总表关联质量规则
- 在数据架构控制台,选择“模型设计 > 数据集市”,进入数据集市页面。
- 单击“汇总表”页签,进入汇总表页面。
- 在汇总表列表中,勾选需要关联质量规则的汇总表。单击“关联质量规则”。
图5 关联汇总表质量规则
- 在弹出的页面中配置关联质量规则参数。配置完成单击确定。
- 更新已有规则:若勾选此项,新添加的规则会覆盖旧规则。
- 匹配字段:此参数默认应用于所有字段,依据用户输入的正则表达式对字段进行过滤。
- Where条件:可依据用户输入的where条件对字段进行过滤。
- 生成异常数据:勾选此项,表示异常数据将按照配置的参数存储到规定的库中。
- 数据库或Schema:勾选“生成异常数据”时显示此项,表示存储异常数据的数据库或Schema
- 表前缀:勾选“生成异常数据”时显示此项,表示存储异常数据的表的前缀。
- 表后缀:勾选“生成异常数据”时显示此项,表示存储异常数据的表的后缀。
- 添加规则:单击“添加规则”进行设置。例如,添加名称为“字段唯一值”规则,选中该规则后单击“确定”,在“告警条件”中输入告警条件表达式,然后按照此方法添加其他规则后,单击“确定”。告警表达式举例如下:
- 告警条件表达式,由告警参数和逻辑运算符组成。在质量作业运行时,系统将计算出告警条件表达式的结果,并根据表达式的结果是否为真来判断是否触发告警。如果表达式的结果为真则触发质量告警,结果为假则不触发质量告警。在此处的“关联质量规则”对话框中,每个质量规则的“告警参数”以按钮形式列出。
图6 汇总表关联质量规则
汇总表字段关联数据标准
- 在数据架构控制台,选择“模型设计 > 数据集市”,进入数据集市页面。
- 单击“汇总表”页签,进入汇总表页面。
- 在汇总表列表中,单击需要关联数据标准的汇总表名称。
- 在汇总表的详情页的表字段列表中,查找需要关联数据标准的字段,单击其所属的,配置单个表字段关联数据标准。
图7 汇总表字段关联数据标准
- 配置完成后,单击“确定”,完成汇总表字段关联数据标准。数据标准的来源请参考新建数据标准。
图8 配置数据标准
单个表字段关联质量规则
- 在数据架构控制台,选择“模型设计 > 数据集市”,进入数据集市页面。
- 单击“汇总表”页签,进入汇总表页面。
- 在汇总表列表中,单击需要关联质量规则的汇总表名称。
- 在汇总表的详情页的表字段列表中,单击,配置单个表字段关联质量规则。
图9 汇总表单个字段关联质量规则
- 配置完成后,单击“确定”,完成汇总表字段关联质量规则。
- 更新已有规则:若勾选此项,新添加的规则会覆盖旧规则。
- 添加规则:单击“添加规则”进行设置。例如,添加名称为“字段唯一值”规则,选中该规则后单击“确定”,在“告警条件”中输入告警条件表达式,然后按照此方法添加其他规则后,单击“确定”。
- 告警条件表达式,由告警参数和逻辑运算符组成。在质量作业运行时,系统将计算出告警条件表达式的结果,并根据表达式的结果是否为真来判断是否触发告警。如果表达式的结果为真则触发质量告警,结果为假则不触发质量告警。在此处的“关联质量规则”对话框中,每个质量规则的“告警参数”以按钮形式列出。
图10 配置质量规则
表字段批量关联质量规则
- 在数据架构控制台,选择“模型设计 > 数据集市”,进入数据集市页面。
- 单击“汇总表”页签,进入汇总表页面。
- 在汇总表列表中,单击需要关联质量规则的汇总表名称。
- 在汇总表的详情页的表字段列表中,勾选需要关联质量规则的表字段,单击关联质量规则。
图11 汇总表批量字段关联质量规则
- 在弹出的界面中添加规则,完成规则参数配置。
- 更新已有规则:若勾选此项,新添加的规则会覆盖旧规则。
- 添加规则:单击“添加规则”进行设置。例如,添加名称为“字段唯一值”规则,选中该规则后单击“确定”,在“告警条件”中输入告警条件表达式,然后按照此方法添加其他规则后,单击“确定”。
- 告警条件表达式,由告警参数和逻辑运算符组成。在质量作业运行时,系统将计算出告警条件表达式的结果,并根据表达式的结果是否为真来判断是否触发告警。如果表达式的结果为真则触发质量告警,结果为假则不触发质量告警。在此处的“关联质量规则”对话框中,每个质量规则的“告警参数”以按钮形式列出。
图12 添加汇总表质量规则
- 配置完成后,单击“确定”,完成汇总表字段批量关联质量规则。
查看汇总表详情
- 在数据架构控制台,单击左侧导航树中的“模型设计 > 数据集市”进入数据集市页面。
- 单击“汇总表”页签,进入汇总表页面。
- 单击汇总表名称,进入汇总表详情页面。
- 可以查看汇总表基本信息和表字段信息。同时,您可以配置异常数据输出信息。
- 单击“编辑”按钮,并打开“生成异常数据”的开关。开启此项,表示异常数据将按照配置的参数存储到规定的库中。
- 输入数据库或Schema信息,表示存储异常数据的数据库或Schema。
- 设置异常表的表前缀和表后缀,表示存储异常数据的表前缀和后缀。
异常表的前后和后缀只能包含英文字母、数字和下划线。
- 配置好以后,单击保存异常数据配置信息。
- 系统支持配置where表达式,可依据用户输入的where条件对字段进行过滤。