新建数据标准
数据标准是用于描述公司层面需共同遵守的数据含义和业务规则,它描述了公司层面对某个数据的共同理解,这些理解一旦确定下来,就应作为企业层面的标准在企业内被共同遵守。
数据标准,也称数据元,由一组属性规定其定义、标识、表示和允许值的数据单元,是不可再分的最小数据单元。您可以将数据标准关联到各个业务上的数据库中。其中,标识符、数据类型、表示格式、值域是数据交换的基础,它们用于描述表的字段元信息,规范字段所存储的数据信息。
本章节介绍如何创建数据标准,创建好的数据标准,可用于在关系建模中新建业务表时与业务表中的字段相关联,从而约束业务表中的字段遵从指定的数据标准。
约束与限制
单工作空间允许创建的数据标准目录最多500条,个数最多20000个。
新建数据标准目录
- 在DataArts Studio控制台首页,选择对应工作空间的“数据架构”模块,进入数据架构页面。
- 在数据架构控制台,单击左侧导航树中的“数据标准”。
- 首次进入数据治理中心的数据标准页面,会显示制定数据标准模板的页面,在“可选项”中勾选所需要的选项,添加自定义项,完成后单击“确定”。
保存模板后,如需修改,您也可以进入“配置中心 > 标准模板管理”页面修改模板,详情请参见标准模板管理。在新建数据标准时,将需要设置此处模板中选中的选项。
- 在“数据标准”页面,在目录树上,单击一个目录,然后单击按钮在该目录下新建一个目录。首次新建目录时选择在根目录下新建目录。
图1 数据标准页面
- 在弹出窗口中配置如下参数,然后单击“确定”。
图2 新建数据标准目录
表1 参数描述 参数名称
说明
*目录名称
只允许除/、\、<、>和.以外的字符。
*选择目录
在已有的目录中选择一个目录,新建的目录将创建在所选择的目录中。
单击按钮,可以刷新目录。
单击按钮,可以刷新目录,可以同步主题目录到数据标准目录。
- 同步目录前,请检查当前空间是否有已发布主题。如果没有已发布主题,同步时系统会报错提示。
- 同步目录时,最多同步五级主题到数据标准目录(目录层级不能超过5层),五级之后的主题不做处理。同步后的目录数量不能超过配额(一般是500),否则系统将报错提示并取消同步操作。每次同步之前系统会自动检测数据标准的目录是否有空目录(该目录及其子目录下没有数据标准),有空目录则进行删除。
- 由主题目录同步过来的目录显示为L1~L5图标,数据标准自有的目录显示原来的图标。
新建数据标准
- 在“数据标准”页面的目录树中,选择一个目录,然后单击“新建”按钮新建一个数据标准。
- 在新建数据标准页面中,请参考表2配置参数。
在新建数据标准页面中,仅显示在“配置中心 > 标准模板管理”中已勾选的参数和已添加的自定义参数。表2中所示为选中数据标准模板中的所有参数并添加了一个自定义参数的场景。有关配置数据标准模板的详细信息,请参见标准模板管理。
表2 数据标准参数说明 参数名称
说明
*标准名称
只允许除\、<、>、%、"、'、;及换行符以外的字符。
如果未开启“数据标准是否重名”,需要确保标准名称在本工作空间内唯一。请在“数据架构”模块,“配置中心”的“功能配置”页签下查看“数据标准是否重名”是否开启。
*标准编码
支持自动生成和自定义两种方式。
自定义的标准编码要求本工作空间内唯一,用于唯一标识一条数据标准记录。详情参考表2。
*数据类型
数据类型有:STRING、BIGINT、DOUBLE、TIMESTAMP、DATE、BOOLEAN、DECIMAL。
不同的系统数据类型可能存在差异,系统内部会做类型转换。如果未找到所需要的数据类型,您可以参考字段类型添加数据类型。
英文名称
数据标准的英文名称。
只能包含英文字母、数字、左右括号、空格和下划线,且以英文字母开头。
数据长度
设置数据长度:- 可以为空。数据长度为空时,对数据长度不做限制。
- 选择可以设置为具体的数值。输入1~10000之间的数值。
- 选择可以设置为一个范围。输入数据范围的临界值,输入值范围1~10000。
如果设置了数据长度标准,当数据类型为STRING时,会为关联该标准的属性创建数据质量作业,其他类型暂不支持创建质量作业。
是否有允许值
当开启时,请输入允许值。
允许值
开启“是否有允许值”后,由用户自行输入。输入一个值并按回车即可添加一个允许值,支持添加多个允许值,最多支持20个。
引用码表
- 选择已创建的码表并选择相应的“码表字段”,这样就可以将码表字段和数据标准相关联。如果未创建码表,请参见新建码表进行创建。在 页面中的“模型设计业务流程步骤 > 创建质量作业”勾选的情况下,当引用码表的数据标准被关系建模的业务表关联后,如果表发布成功,系统将会在DataArts Studio数据质量中自动创建一个质量作业,并根据数据标准以及码表分别生成相应的质量规则。如果当前表已经发布已有质量作业,则系统会自动更新质量作业,新增根据数据标准以及码表生成的质量规则。
- 如果已开启公共层空间,在普通空间选择码表时,需要手动选择引用码表来源为“选择公共层空间数据”或“选择本空间数据”。“选择公共层”开启后,可以将公共层空间的码表引用到普通空间。
质量规则
在“质量规则”勾选的情况下,创建数据标准时,会显示质量规则选项。进行关联质量规则时,可以关联系统规则也可以关联自己创建的质量规则。
页面中的单击弹出“关联质量规则”对话框,单击“添加规则”进行设置。
例如,添加名称为“字段唯一值”规则,选中该规则后单击“确定”,在“告警条件”中输入告警条件表达式,然后按照此方法添加其他规则后,单击“确定”。
告警条件表达式,由告警参数和逻辑运算符组成。在质量作业运行时,系统将计算出告警条件表达式的结果,并根据表达式的结果是否为真来判断是否触发告警。如果表达式的结果为真则触发质量告警,结果为假则不触发质量告警。
在此处的“关联质量规则”对话框中,每个质量规则的“告警参数”以按钮形式列出。
图3 关联质量规则界面
业务规则责任人
在下拉框中选择业务规则责任人。该责任人为质量规则制定责任人,可以手动输入名字或直接选择已有的责任人。
数据监控责任人
在下拉框中选择数据监控责任人。该责任人为质量规则实施责任人,可以手动输入名字或直接选择已有的责任人。
标准层级
- global:全局级别。
- domain:非全局级别。
用户自定义字段
该配置项是在DataArts Studio数据架构的 中添加的自定义项。您可以根据实际情况添加一个或多个自定义项,名称可以自己定义。有关添加自定义项的更多信息,请参见标准模板管理。
描述
描述信息。支持的长度为0~600个字符。
- 单击“保存”,完成新建数据标准操作。
- 选中待发布的数据标准,单击“发布”,在提交发布对话框中,选择审核人,再单击“确认提交”提交审核。审核通过后,返回“数据标准”页面,在列表中可以查看已建好的数据标准且状态显示为“已发布”,已发布的数据标准才可被使用。
如果当前用户已被添加为审核人,则可以勾选“自助审批”,单击“确认提交”后,状态显示为“已发布”。
选择审核人时,系统支持选择多个审核人,全部审批通过后,状态才会显示为已发布。如果有任意一个人驳回,则状态为已驳回。
导入数据标准
- 在数据架构控制台,单击左侧的“数据标准”,进入数据标准页面。
- 在数据标准的目录结构中,选择一个指定的目录名称,然后单击上方“更多 > 导入”,弹出对话框如下图所示。
图4 导入数据标准
- 在导入配置页签内,选择是否“更新已有数据”。已有数据是通过标准编码唯一标识的,即如果导入模板中的某个标准编码在当前工作空间下已经存在,则系统会认为导入模板中标准编码所在的这组数据为已有数据。
- 在导入配置页签内,单击“下载数据标准导入模板”下载模板。打开模板,请根据业务需求填写好模板中的相关参数并保存。
模板中的参数说明如表3、表4所示,其中名称前带“*”的参数为必填参数,名称前未带“*”的参数为可选参数。
表3 标准Sheet页参数说明 参数名称
说明
*目录
导入的数据标准所属的目录。
*标准名称
数据标准的中文名称。
只允许除\、<、>、%、"、'、;及换行符以外的字符。
*标准编码
支持自动生成和自定义两种方式。
自定义的标准编码要求本工作空间内唯一,用于唯一标识一条数据标准记录。详情参考表2。
*数据类型
数据类型有:STRING、BIGINT、DOUBLE、TIMESTAMP、DATE、BOOLEAN、DECIMAL。
不同的系统数据类型可能存在差异,系统内部会做类型转换。如果未找到所需要的数据类型,您可以参考字段类型添加数据类型。
数据长度
设置数据长度:- 可以为空。数据长度为空时,对数据长度不做限制。
- 可以设置为具体的数值。输入1~10000之间的数值。
- 可以设置为一个范围。输入数据范围的临界值,如(1,20),输入值范围1~10000。
如果输入了数据长度标准,当数据类型为STRING时,会为关联该标准的属性创建数据质量作业,其他类型暂不支持创建质量作业。
是否有允许值
true表示有允许值,false表示没有允许值。
允许值
当参数“是否有允许值”为true时,必须设置“允许值”。
支持添加多个允许值,最多支持20个。多个允许值之间以逗号分隔,例如“1,2,3”。
引用码表
填写已创建的码表名称。
码表字段
当“引用码表”不为空时,请设置该引用码表中的“码表字段”,这样就可以将码表字段和数据标准相关联。
业务规则责任人
填写业务规则责任人,可以手动输入名字或直接选择已有的责任人。
数据监控责任人
填写数据监控责任人,可以手动输入名字或直接选择已有的责任人。
标准层级
- global:全局级别。
- domain:非全局级别。
描述
描述信息。支持的长度0~600字符。
用户自定义字段(可选)
如果在定制数据标准模板时,您添加了一个或多个自定义字段,则在导入模板中也需要填写相应的字段,如果未添加自定义字段,则无需填写。关于定制数据标准模板的更多信息,请参见标准模板管理。
在“质量规则”勾选的情况下,下载的导入模板中会显示“质量规则”Sheet页,在“质量规则”Sheet页中,可以配置数据标准所需添加的质量规则。
页面中的表4 质量规则Sheet页参数说明 参数名称
说明
*标准编码
需要添加质量规则的数据标准编码
规则名称
填写已有的规则名称。在DataArts Studio控制台左上角的模块下拉列表中选择“数据质量”进入DataArts Studio数据质量控制台,然后您可以进入“规则模板”页面查看已有的规则名称。
告警配置
告警条件表达式,由告警参数和逻辑运算符组成。在质量作业运行时,系统将计算出告警条件表达式的结果,并根据表达式的结果是否为真来判断是否触发告警。如果表达式的结果为真则触发质量告警,结果为假则不触发质量告警。
在告警条件表达式中,告警参数以${1}、${2}、${3}等变量名称表示,变量名即代表所指定的质量规则的告警参数,变量$1代表第一个告警参数,$2代表第二个告警参数,以此类推。在DataArts Studio控制台左上角的模块下拉列表中选择“数据质量”进入DataArts Studio数据质量控制台,然后您可以进入“规则模板”页面在“结果说明”一列中查看质量规则支持的告警参数。
例如:${1}>100
表达式
只有当“规则名称”配置为“表达式校验”或者“合法性校验”时,需要配置表达式。
- 返回“导入数据标准”对话框,选择上一步配置好的数据标准模板文件,然后单击“上传文件”。
如果上传的模板文件校验不通过,请修改正确后,再重新上传。
- 在导入对话框中,导入结果会在“上次导入”页面中显示。如果导入成功,单击“关闭”完成导入。如果导入失败,您可以查看失败原因,将模板文件修改正确后,再重新上传。
图5 上次导入结果
管理数据标准
在DataArts Studio数据架构控制台,单击左侧导航树中的“数据标准”,进入数据标准页面。您可以对数据标准进行管理。
- 普通空间均可查询到“公共层空间”目录下创建的数据标准,“公共层空间”无法反向查询到普通空间目录下创建的数据标准。
- 普通空间仅对本空间内创建的数据标准和目录有编辑权限,不支持对“公共层空间”的数据标准和其所属的目录进行操作,仅能查看引用。
- 搜索
在数据标准上方,设置标准、数据类型、创建人、审核人等筛选条件,然后单击“搜索”可以查找指定的数据标准。
找到指定的数据标准后,可以执行以下操作:
- 编辑
- 发布
- 下线
- 导入
单击“更多 > 导入”,可以导入数据标准,下载导入模板,填写模板并上传,然后单击“确定”。
- 导出
- 删除
勾选标准后单击“更多 > 删除”,可以删除数据标准,其中发布审核中,已发布和下线审核中状态的数据标准不可被删除。且被引用的数据标准不可被删除。
- 发布
选中需要发布的数据标准,单击“发布”,弹出“提交发布”对话框,下列两种方式任选其一。
- 选择审核人。如果下拉列表里无审核人,可单击旁边的进行添加。
- 勾选“自助审批”。
如果当前账号在审批人列表中,才会有“自助审批”功能。
单击“确认提交”,如果选择了审核人,需要审核通过后才能发布上线。如果勾选了“自助审批”,会立即发布上线。
导出数据标准
- 在数据架构控制台,单击左侧的“数据标准”,进入数据标准页面。
- 在数据标准的目录结构中,选择一个指定的目录名称并单击右键,然后单击“导出”即可。