新建码表
码表,也称lookup表、数据字典表,一般由中英文名称编码组成,由可枚举数据构成,存储枚举数据名称与编码的映射关系。码表的作用主要有:
- 在数据清洗中用于标准化业务数据以及补充映射字段。
- 在质量监控中用于监控业务数据的值域范围。
- 在维度建模中可以引申为枚举维度。
新建码表并发布
手动新建码表,完成新建后可以参考填写数值到码表中添加码表记录。
- 在DataArts Studio控制台首页,选择对应工作空间的“数据架构”模块,进入数据架构页面。
- 在数据架构控制台,单击左侧导航树中的“码表管理”。
- 在“码表管理”页面的码表目录树中,选择一个目录,然后单击按钮在所选目录下新建目录。首次新建目录时,可选择在根目录下新建目录。
图1 码表管理页面
- 在弹出窗口中进行参数配置,单击“确定”。
图2 新建码表目录
表1 参数描述 参数名称
说明
*目录名称
只允许除/、\、<、>和.以外的字符。
*选择目录
在已有的目录中选择一个目录,新建的目录将创建在所选择的目录中。
- 在目录树中单击刚建好的目录,然后单击“新建”按钮新建一个码表。
- 在“新建码表”页面中,做如下配置:
在“基础配置”区域,配置如下参数:
图3 基础配置
表2 基础配置 参数名称
说明
*表名
码表名称。
只允许除\、<、>、%、"、'、;及换行符以外的字符。
*编码
码表的英文名称。支持自动生成码表,也可选择自定义手动输入。只能包含英文字母、数字和下划线,且以英文字母开头。
描述
描述信息。支持的长度为0~600个字符。
在“建表配置”中添加所需要的表字段,单击“新建”或可以添加新的字段,单击某个字段后的按钮可删除该字段。
图4 建表配置
- 单击“发布”,在提交发布对话框中,选择审核人,再单击“确认提交”提交审核。审核通过后,返回“码表管理”页面,在列表中可以查看已建好的码表且状态显示为“已发布”,已发布的码表才可被使用。
如果当前用户已被添加为审核人,则可以勾选“自助审批”,单击“确认提交”后,码表状态显示为“已发布”。
选择审核人时,系统支持选择多个审核人,全部审批通过后,状态才会显示为已发布。如果有任意一个人驳回,则状态为已驳回。
填写数值到码表中
对于已创建的码表,您可以通过填写数值,增加码表记录。
- 在数据架构控制台,单击左侧的“码表管理”,进入码表管理页面。
- 在码表列表,找到所需要的码表,单击其所在行的“更多 > 填写数值”。
- 进入相应页面后,单击“新建”,并在弹出窗口中设置各字段的值。
图5 填写数值
- 完成后单击“确定”。或者您也可以单击“确定并继续”继续添加更多码表记录。
导入码表
通过导入码表,可以导入新的码表,也可以往已有的码表中批量导入码表记录。如果码表记录比较多,建议采用导入方式。
- 在数据架构控制台,单击左侧的“码表管理”,进入码表管理页面。
- 在左侧的目录树中,选择一个目录,再单击“更多 > 导入”。您也可以在所选择的码表目录上单击鼠标右键,然后选择菜单“导入”。
图6 码表页面
- 在“导入码表”对话框中,根据页面提示配置参数,然后单击“上传文件”。
图7 导入码表
表3 导入配置参数说明 参数名
说明
*更新已有表
在导入时是否更新已有的码表信息。在导入时,系统将按编码进行判断将要导入的码表在系统中是否已存在。支持以下选项:
- 不更新:当码表已存在时,将直接跳过,不更新。
- 更新:当码表已存在时,更新已有的码表信息。如果码表处于“已发布”状态,码表更新后,您需要重新发布码表,才能使更新后的表生效。
在导入码表时,只有创建或更新操作,不会删除已有的码表。
*上传模板
选择所需导入的码表文件。所需导入的码表文件,可以通过以下两种方式获得。
- 下载码表模板并填写模板
在“导入配置”页签内,单击“下载码表导入模板”下载模板,然后根据业务需求填写好模板中的相关参数并保存。模板参数的详细描述,请参见表4。
码表模板填写说明:
- 模板中参数名称前带“*”的参数为必填参数,名称前未带“*”的参数为可选参数。
- 一个码表可以添加多个字段。
- 如果要导入多个码表,可以在模板文件中添加多个Sheet页,Sheet页的名称可以是码表名称或码表编码。
- 如果码表名称已存在,当“更新已有数据”设置为“更新”时,导入时会更新已有的码表。
- 如果码表名称不存在,导入时会新建该码表。
- 导出的码表文件
您可以将某个DataArts Studio实例的数据架构中已创建的码表导出到Excel文件中。导出后的文件可用于码表导入。码表导出操作请参见管理码表。
表4 码表导入模板参数 参数名称
说明
目录
码表所属的目录。多级目录以“/”分隔,例如“dir01/dir02”。
*表名称
码表名称。只允许除\、<、>、%、"、'、;及换行符以外的字符。
*表编码
码表的英文名称。只能包含英文字母、数字、下划线,且以英文字母开头。
表描述
码表的描述信息。支持的长度0~600个字符。
*字段名称
字段名称。只能包含中文、英文字母、数字、左右括号、空格、中划线和下划线,且以中文或英文字母开头。
*字段编码
字段编码。只能包含英文字母、数字、下划线,且以英文字母开头。
*字段数据类型
支持的数据类型有:STRING、BIGINT、DOUBLE、TIMESTAMP、DATE、BOOLEAN、DECIMAL。
字段描述
字段的描述信息。支持的长度0~600个字符。
是否生成标准
- true:生成数据标准。
- false:不生成数据标准。默认为false。
注意:如果要自动生成数据标准,还需在“配置中心 > 标准模板管理”中勾选上“引用码表”选项。
如果导入时,需要同时导入码表记录,请在码表导入模板中新建一个命名为码表名称或码表编码的Sheet页,并在该Sheet页中增加码表字段,每个字段为一列,列名由字段名称、换行、字段编码组成,然后再填写所需导入的码表数值。如果码表导入模板中已有码表名称的Sheet页,则无需再新建该Sheet页,您可以直接在该Sheet中填写所需导入的码表数值。
如果Sheet页的命名过长,系统会自动将超长的部分进行截断。
- 导入结果会在“上次导入”页面中显示。如果导入成功,单击“关闭”完成导入。如果导入失败,您可以查看失败原因,将模板文件修改正确后,再重新上传。
通过逆向数据库导入码表
通过逆向数据库,您可以从其他数据源中将一个或多个已创建的数据库表导入到码表目录中,使其变成码表。
- 在数据架构控制台,单击左侧导航树中的“码表管理”,进入码表管理页面。
- 在左侧的码表目录树中,选中一个目录,然后在码表列表上方,单击“逆向数据库”。
- 在“逆向数据库”对话框中,配置如下参数,然后单击“确定”。
表5 逆向数据库配置 参数名称
说明
*数据连接类型
在下拉列表中将显示逆向数据库支持的数据连接类型,请选择所需要的数据连接类型。
*数据连接
选择数据连接。
如需从其他数据源逆向数据库到码表目录中,需要先在DataArts Studio管理中心创建一个数据连接,以便连接数据源。创建数据连接的操作,请参见配置DataArts Studio数据连接参数。
*数据库
选择数据库。
*Schema
下拉选择Schema。该参数仅DWS和POSTGRESQL模型的表有效。
队列
DLI队列。仅当“数据连接类型”选择“DLI”时,该参数有效。
更新已有表
如果从其他数据源逆向过来的表,在码表中已存在同名的表,选择是否更新已有的码表。
名称来源
逆向后表名称/字段名称的来源,可以是描述或者是相应英文名,如表/字段未指定描述则固定使用英文名。
- 来自描述
- 来自英文名称
逆向表数据
- 不逆向:逆向数据库时,将表导入到码表目录中,但是不导入表数据。您可以在完成逆向数据库后,参考填写数值到码表中添加记录到码表中。
- 覆盖:逆向数据库时,将表导入到码表目录中,同时将表数据导入到该码表中。
*数据表
选择一个或多个需导入的数据表。
图8 逆向配置
- 逆向数据库的结果会在“上次逆向”页面中显示。如果逆向成功,单击“关闭”。如果逆向失败,您可以查看失败原因,问题解决后,选中失败的表,然后单击“重新逆向”进行重试。
图9 逆向结果
导出码表
Excel导出码表时,码表名称需要限制在32个字符以内。
- 在数据架构控制台,单击左侧导航树中的“码表管理”,进入码表管理页面。
- 导出码表。
- 导出码表
在码表列表中,选中所需导出的码表,然后单击“更多 > 导出”。
图10 码表列表
- 导出码表目录中的所有表
在码表目录树中,选中一个目录,单击鼠标右键,选择“导出”菜单。
图11 导出码表目录
- 导出码表
删除码表
码表被删除后,将无法恢复,请谨慎操作。删除码表时,如果码表为发布审核中、已发布或下线审核中状态,则无法删除。您需要对码表进行操作,使其变为其他状态时,才能删除该码表。
- 在数据架构控制台,单击左侧导航树中的“码表管理”,进入码表管理页面。
- 在码表列表中,选择要删除的码表,然后在列表上方单击“更多 > 删除”。
- 在弹出的确认对话框中,单击“是”进行删除。
删除码表目录
删除码表目录时,如果该目录或其子目录包含码表,则无法删除。您需要先删除其中的码表后,才能删除该目录。
- 在数据架构控制台,单击左侧导航树中的“码表管理”,进入码表管理页面。
- 在左侧码表目录树中,选择要删除的目录,单击鼠标右键,选择“删除”菜单。
图12 管理码表目录
- 在弹出的确认对话框中,单击“是”进行删除。
管理码表
建立好码表后,可以对码表进行查找、编辑、下线或发布等操作。
在数据架构控制台,单击左侧导航树中的“码表管理”,进入码表管理页面。您可以对码表进行管理。
- 普通空间均可查询到“公共层空间”目录下创建的码表,“公共层空间”无法反向查询到普通空间目录下创建的码表。
- 普通空间仅对本空间内创建的码表和目录有编辑权限,不支持对“公共层空间”的码表和其所属的目录进行操作,仅能查看引用。
- 编辑
在码表列表中,找到所需要的码表,单击其所在行的“编辑”,即可编辑指定的码表。
- 发布
在码表列表中,对于状态为“草稿”或“已驳回”的码表,单击其所在行的“发布”,并在弹出框中选择审核人并单击“确认提交”,即可发布该码表提交审核。等待审核人员审核通过后,码表就发布成功了。如果当前用户已被添加为审核人,则可以勾选“自助审批”,单击“确认提交”后,码表状态显示为“已发布”。
- 下线
在码表列表中,对于状态为“已发布”的码表,单击其所在行的“更多-下线”,并在弹出框中选择审核人并单击“确认提交”,即可提交下线申请。等待审核人员审核通过后,码表就下线成功了。
- 填写数值
在码表列表中,找到所需要的码表,单击其所在行的“更多-填写数值”,可以快速设置各字段的值。
- 发布历史
在码表列表中,找到所需要的码表,单击其所在行的“更多-发布历史”,可以查看码表的发布历史和变更详情,并支持进行版本对比。