导入导出
数据架构支持流程、主题、码表、数据标准、关系建模表(物理表)、逻辑实体、维度建模维度/事实表、业务指标、技术指标、数据集市汇总表的导入导出,暂不支持时间限定、审核中心和配置中心数据的导入导出。
本例中以导入和导出关系建模表为例说明如何进行导入导出,其他数据操作类似。如果您想了解其他数据如何导入导出以及使用场景等,请参考数据架构数据搬迁。
约束与限制
- 导入关系建模表、逻辑实体、维度建模维度/事实表、数据集市汇总表前请确保已创建管理中心连接,确保数据连接可用。
- 数据架构中的时间限定、审核中心和配置中心数据不支持导入导出。如有涉及,请您在其他数据迁移前,先进行手动配置同步。
- 数据架构支持最大导入文件大小为4Mb;支持最大导入指标个数为3000个;支持一次最大导出500张表。
导入表到逻辑模型
- 在DataArts Studio数据架构控制台,单击左侧导航栏的“逻辑模型”进入逻辑模型页面。
- 在逻辑模型中,找到所需要的逻辑模型,单击模型卡片进入,在主题目录中选中一个对象,然后单击“更多 > 导入”。
- 在“导入表”对话框中,单击“下载关系建模导入模板”。
图1 导入表
表1 导入配置参数说明 参数名
说明
更新已有表
如果所要导入的表,在模型中已经存在,是否更新已有的表。系统将根据表编码判断将要导入的表在关系模型中是否已存在。在导入时,只有创建或更新操作,不会删除已有的表。支持以下选项:
- 不更新:如果表已存在,将直接跳过,不处理。
- 更新:如果表已存在,更新已有的表信息。如果表处于“已发布”状态,表更新后,您需要重新发布表,才能使更新后的表生效。
上传模板
选择所需导入的文件。所需导入的文件,可以通过以下两种方式获得。
- 下载关系建模导入模板并填写模板
在“导入配置”页签内,单击“下载关系建模导入模板”下载模板,然后根据业务需求填写好模板中的相关参数并保存。
- 导出的表文件
您可以将某个DataArts Studio实例的数据架构中已创建的表导出到Excel文件中。导出后的文件可用于导入到关系模型中。导出模型的操作请参见导出表或DDL。
- 打开下载的模板,请根据业务需求填写好模板中的相关参数并保存,模板中的“填写说明”Sheet页供参考。
模板中的参数,其中名称前带“*”的参数为必填参数,名称前未带“*”的参数为可选参数。
在模板的“表模型”Sheet页中,所需填写的参数,说明如下:
表2 表模型Sheet页参数说明 参数名
参数说明
所属主题
需填写已有的主题的编码路径,以/分隔。如果您未新建主题信息,请参见主题设计进行新建。
*逻辑实体名称
表名称,只允许除\、<、>、%、"、'、;及换行符以外的字符。
*表名称
表英文名称,只能包含英文字母、数字、下划线、$、{、},且不能以数字开头。
表别名
用户在配置中心打开了“表别名”时显示此项,名称别名。
表级标签
给表添加的标签,请输入已有的标签或新的标签名称。您也可以先前往DataArts Studio数据目录模块的“标签管理”页面添加标签,然后再回到此处设置相应的标签。添加标签的具体操作,请参见管理资产标签。
*描述
表的描述信息。
资产责任人
需输入DataArts Studio实例当前工作空间中的用户名,可以手动输入名字或直接选择已有的责任人。
父表
只能填写为本模型中的其他表的表名称。
DWS表 DISTRIBUTE BY
仅DWS连接支持,支持HASH、REPLICATION2种方式分布。
*属性名称(CHN)
表中的属性字段的中文名称。只允许除\、<、>、%、"、'、;及换行符以外的字符。
*属性名称(ENG)
表中的属性字段的英文名称。只能包含英文字母、数字和下划线,且以英文字母开头。
属性编码
表中的属性字段的编码,系统自动生成。
属性别名
用户在配置中心打开了“属性别名”时显示此项,属性别名。
顺序
属性字段在表中的顺序,从1开始。可以不填,不填时属性字段默认按模板中的顺序在表中排列。
属性描述
属性字段的描述信息。
*数据类型
逻辑模型的数据类型,请参见字段类型中的DEFAULT类型分组。
数据长度
数据的长度。对于不定长的数据类型,如果所指定的数据连接类型支持对其指定数据长度,请指定数据长度。
例如,DWS连接类型,如果字段类型为CHAR(10),需要在“数据类型”中填写“CHAR”,在“数据长度”中填写“10”。
是否分区
填写“Y”表示该字段为分区字段,填写“N”表示不是分区字段。
是否主键
填写“Y”表示该字段为主键,填写“N”表示不是主键。
不为空
填写“Y”表示该字段不为空,填写“N”表示字段允许为空。
引用的数据标准编码
填写需要引用的数据标准的编码。如果未创建数据标准,请参见新建数据标准进行创建。
属性标签
为属性字段添加的标签,请输入已有的标签或新的标签名称。您也可以先前往DataArts Studio数据目录模块的“标签管理”页面添加标签,然后再回到此处设置相应的标签。添加标签的具体操作,请参见管理资产标签。
其他配置
填写“高级配置”中自定义项的名称与输入值。
- 在模板的“关系”Sheet页中,所需填写的参数,说明如下:
表3 关系Sheet页参数说明 参数名
参数说明
关系名称
关系的名称,只能包含中文、英文字母、数字、左右括号、中划线和下划线,且以中文或英文字母开头。
*子表
输入关系中子表的英文名称。
*子表字段
输入关系中子表的字段英文名,该字段应为子表的外键,映射为父表的主键。
*子对父
子表对父表的映射关系,可以有以下四种取值:
- 1:表示每条子表数据在父表中有且只有一条数据与之对应。
- 0,1:表示每条子表数据在父表中最多有一条数据与之对应。
- 0..n:表示每条子表数据在父表中可能有多条数据与之对应。
- 1..n:表示每条子表数据在父表中至少有一条数据与之对应。
*父对子
父表对子表的映射关系,可以有以下四种取值:
- 1:表示每条父表数据在子表中有且只有一条数据与之对应。
- 0,1:表示每条父表数据在子表中最多有一条数据与之对应。
- 0..n:表示每条父表数据在子表中可能有多条数据与之对应。
- 1..n:表示每条父表数据在子表中至少有一条数据与之对应。
*父表
输入关系中父表的英文名称。
*父字段表
输入关系中父表的字段英文名,该字段应为父表的主键,映射为子表的外键。
角色名称
自定义角色名称,用于标识该关系,只能包含中文、英文字母、数字、左右括号、中划线和下划线,且以中文或英文字母开头。
- 在“关联质量规则”中填入关联的表名称和属性名称(ENG)。
在模板的“关联质量规则”Sheet页中,所需填写的参数,说明如下:
表4 关联质量规则Sheet页参数说明 参数名
参数说明
*表名称
表英文名称,只能包含英文字母、数字、下划线、$、{、},且不能以数字开头。
*属性名称(ENG)
表中的属性字段的英文名称。只能包含英文字母、数字和下划线,且以英文字母开头。
规则名称
填写已有的规则名称。在DataArts Studio控制台左上角的模块下拉列表中选择“数据质量”进入DataArts Studio数据质量控制台,然后您可以进入“规则模板”页面查看已有的规则名称。
告警配置
告警条件表达式,由告警参数和逻辑运算符组成。在质量作业运行时,系统将计算出告警条件表达式的结果,并根据表达式的结果是否为真来判断是否触发告警。如果表达式的结果为真则触发质量告警,结果为假则不触发质量告警。
在告警条件表达式中,告警参数以${1}、${2}、${3}等变量名称表示,变量名即代表所指定的质量规则的告警参数,变量$1代表第一个告警参数,$2代表第二个告警参数,以此类推。在DataArts Studio控制台左上角的模块下拉列表中选择“数据质量”进入DataArts Studio数据质量控制台,然后您可以进入“规则模板”页面在“结果说明”一列中查看质量规则支持的告警参数。
例如:${1}>100
表达式
只有当“规则名称”配置为“表达式校验”或者“合法性校验”时,需要配置表达式。
- 导入结果会在导入对话框的“上次导入”中显示。如果导入成功,单击“关闭”完成导入。如果导入失败,您可以查看失败原因,将模板文件修改正确后,再重新上传。
图2 上次导入
- 当导入的逻辑实体关联的标准编码不存在或者未发布时,系统会自动弹出报错拦截及详细的编码名称,请修改后再重新上传。
- 当导入的数据不存在时,在“上次导入”页签中的备注中会出现格式为“表名称:属性名称”的报错提示。
导入表到物理模型
- 在DataArts Studio数据架构控制台,单击左侧导航栏的“关系建模”进入关系建模页面。
- 在页面的中间栏位,从最上方的下拉列表中找到所需要的物理模型,或者从“数仓规划”选择一个物理模型单击进入,在主题目录中选中一个对象,然后单击“导入”。
- 在“导入表”对话框中,单击“下载关系建模导入模板”。
图3 导入表
表5 导入配置参数说明 参数名
说明
更新已有表
如果所要导入的表,在模型中已经存在,是否更新已有的表。系统将根据表编码判断将要导入的表在关系模型中是否已存在。在导入时,只有创建或更新操作,不会删除已有的表。支持以下选项:
- 不更新:如果表已存在,将直接跳过,不处理。
- 更新:如果表已存在,更新已有的表信息。如果表处于“已发布”状态,表更新后,您需要重新发布表,才能使更新后的表生效。
上传模板
选择所需导入的文件。所需导入的文件,可以通过以下两种方式获得。
- 下载关系建模导入模板并填写模板
在“导入配置”页签内,单击“下载关系建模导入模板”下载模板,然后根据业务需求填写好模板中的相关参数并保存。
- 导出的表文件
您可以将某个DataArts Studio实例的数据架构中已创建的表导出到Excel文件中。导出后的文件可用于导入到关系模型中。导出模型的操作请参见导出表或DDL。
- 打开下载的模板,请根据业务需求填写好模板中的相关参数并保存,模板中的“填写说明”Sheet页供参考。
模板中的参数,其中名称前带“*”的参数为必填参数,名称前未带“*”的参数为可选参数。
在模板的“表模型”Sheet页中,所需填写的参数,说明如下:
表6 表模型Sheet页参数说明 参数名
参数说明(导入DLI/POSTGRESQL/DWS/MRS_HIVE类型的表)
所属主题
需填写已有的主题的编码路径,以/分隔。如果您未新建主题信息,请参见主题设计进行新建。
*逻辑实体名称
表名称,只允许除\、<、>、%、"、'、;及换行符以外的字符。
*表名称
表英文名称,只能包含英文字母、数字、下划线、$、{、},且不能以数字开头。
表别名
用户在配置中心打开了“表别名”时显示此项,名称别名。
表级标签
给表添加的标签,请输入已有的标签或新的标签名称。您也可以先前往DataArts Studio数据目录模块的“标签管理”页面添加标签,然后再回到此处设置相应的标签。添加标签的具体操作,请参见管理资产标签。
*描述
表的描述信息。
资产责任人
需输入DataArts Studio实例当前工作空间中的用户名。只有工作空间管理员或开发者、运维者角色的用户才可以设置为责任人。
数据连接类型
支持以下连接类型:DLI、POSTGRESQL、DWS、MRS_HIVE。
*表类型
DLI模型的表支持以下表类型:- Managed:数据存储位置为DLI的表。
- External:数据存储位置为OBS的表。当“表类型”设置为External时,需设置“OBS路径””参数。
- DLI_VIEW:该类型只支持导入,不支持在控制台页面创建。
DWS模型的表支持以下表类型:
- DWS_ROW:行类型。
- DWS_COLUMN:列类型。
- DWS_VIEW:视图类型。
MRS_HIVE模型的表不支持该参数。
OBS路径
DLI模型的表类型为DLI_EXTERNAL时,需填写与表相关联的存放源数据的OBS路径。OBS路径格式如:bucket_name/filepath。
数据格式
该参数仅DLI模型的表有效。
表类型为DLI_MANAGED的表支持的数据格式有:Parquet、Carbon。
表类型为DLI_EXTERNAL的表支持的数据格式有:Parquet、Carbon、CSV、ORC、JSON、Avro。
表所属的数据连接
输入已创建的数据连接名称。
表所属的数据库
输入已创建的数据库名称。
数据连接扩展信息
连接类型为DLI时,输入DLI队列名称。连接类型为DWS或POSTGRESQL时,输入Schema名称。
DWS表 DISTRIBUTE BY
仅DWS连接支持,支持HASH(属性名称)、REPLICATION2种方式分布。
HUDI表 PreCombineField
版本字段,仅Hudi表需要填写。
*属性名称(CHN)
表中的属性字段的中文名称。只允许除\、<、>、%、"、'、;及换行符以外的字符。
*属性名称(ENG)
表中的属性字段的英文名称。只能包含英文字母、数字和下划线,且以英文字母开头。
属性别名
用户在配置中心打开了“属性别名”时显示此项,属性别名。
顺序
属性字段在表中的顺序,从1开始。可以不填,不填时属性字段默认按模板中的顺序在表中排列。
属性描述
属性字段的描述信息。
*数据类型
不同的数据连接类型支持的数据类型不一样,请参见字段类型。
数据长度
对于不定长的数据类型,如果所指定的数据连接类型支持对其指定数据长度,请指定数据长度。
例如,DWS连接类型,如果字段类型为CHAR(10),需要在“数据类型”中填写“CHAR”,在“数据长度”中填写“10”。
是否分区
填写“Y”表示该字段为分区字段,填写“N”表示不是分区字段。
是否主键
填写“Y”表示该字段为主键,填写“N”表示不是主键。
不为空
填写“Y”表示该字段不为空,填写“N”表示字段允许为空。
引用的数据标准编码
填写需要引用的数据标准的编码,也可以不填。如果未创建数据标准,请参见新建数据标准进行创建。
属性标签
为属性字段添加的标签,请输入已有的标签或新的标签名称。您也可以先前往DataArts Studio数据目录模块的“标签管理”页面添加标签,然后再回到此处设置相应的标签。添加标签的具体操作,请参见管理资产标签。
其他配置
为JSON格式,用于存放表额外配置信息。格式如下:
{
"option_name1": "value",
"option_name2": "value"
……
}
例如:
{
"a1": "100",
"a2": "30"
}
版本号
可选参数。
其他配置
填写“高级配置”中自定义项的名称与输入值。
- 在模板的“关系”Sheet页中,所需填写的参数,说明如下:
表7 关系Sheet页参数说明 参数名
参数说明
关系名称
关系的名称,只能包含中文、英文字母、数字、左右括号、中划线和下划线,且以中文或英文字母开头。
*子表
输入关系中子表的英文名称。
子表所属数据库
输入关系中子表所属数据库的名称。
*子表字段
输入关系中子表的字段英文名,该字段应为子表的外键,映射为父表的主键。
*子对父
子表对父表的映射关系,可以有以下四种取值:
- 1:表示每条子表数据在父表中有且只有一条数据与之对应。
- 0,1:表示每条子表数据在父表中最多有一条数据与之对应。
- 0..n:表示每条子表数据在父表中可能有多条数据与之对应。
- 1..n:表示每条子表数据在父表中至少有一条数据与之对应。
*父对子
父表对子表的映射关系,可以有以下四种取值:
- 1:表示每条父表数据在子表中有且只有一条数据与之对应。
- 0,1:表示每条父表数据在子表中最多有一条数据与之对应。
- 0..n:表示每条父表数据在子表中可能有多条数据与之对应。
- 1..n:表示每条父表数据在子表中至少有一条数据与之对应。
*父表
输入关系中父表的英文名称。
父表所属数据库
输入关系中父表所属数据库的名称。
*父字段表
输入关系中父表的字段英文名,该字段应为父表的主键,映射为子表的外键。
角色名称
自定义角色名称,用于标识该关系,只能包含中文、英文字母、数字、左右括号、中划线和下划线,且以中文或英文字母开头。
- 在“关联质量规则”中填入关联的表名称和属性名称(ENG)。
在模板的“关联质量规则”Sheet页中,所需填写的参数,说明如下:
表8 关联质量规则Sheet页参数说明 参数名
参数说明
*表名称
表英文名称,只能包含英文字母、数字、下划线、$、{、},且不能以数字开头。
*属性名称(ENG)
表中的属性字段的英文名称。只能包含英文字母、数字和下划线,且以英文字母开头。
规则名称
填写已有的规则名称。在DataArts Studio控制台左上角的模块下拉列表中选择“数据质量”进入DataArts Studio数据质量控制台,然后您可以进入“规则模板”页面查看已有的规则名称。
告警配置
告警条件表达式,由告警参数和逻辑运算符组成。在质量作业运行时,系统将计算出告警条件表达式的结果,并根据表达式的结果是否为真来判断是否触发告警。如果表达式的结果为真则触发质量告警,结果为假则不触发质量告警。
在告警条件表达式中,告警参数以${1}、${2}、${3}等变量名称表示,变量名即代表所指定的质量规则的告警参数,变量$1代表第一个告警参数,$2代表第二个告警参数,以此类推。在DataArts Studio控制台左上角的模块下拉列表中选择“数据质量”进入DataArts Studio数据质量控制台,然后您可以进入“规则模板”页面在“结果说明”一列中查看质量规则支持的告警参数。
例如:${1}>100
表达式
只有当“规则名称”配置为“表达式校验”或者“合法性校验”时,需要配置表达式。
- 导入结果会在导入对话框的“上次导入”页面中显示。如果导入成功,单击“关闭”完成导入。如果导入失败,您可以查看失败原因,将模板文件修改正确后,再重新上传。
- 当导入的关系表的标准编码不存在或者未发布时,系统会自动弹出报错拦截及详细的编码名称,请修改后再重新上传。
- 当导入的数据不存在时,在“上次导入”页签中的备注中会出现格式为“表名称:属性名称”的报错提示。
导出表或DDL
- 在DataArts Studio数据架构主界面,单击左侧导航栏的“逻辑模型”进入逻辑模型页面。
- 在逻辑模型中,找到所需要的逻辑模型,单击模型卡片进入,在主题目录中选择对象,然后单击“更多 > 导出”。
图4 导出表或DDL
- 在弹出对话框中,选择需要导出的对象。
导出的Excel表可以用于导入操作。图5 导出表
导出DDL时,会将所选表的DDL语句导出成txt文件。
图6 导出DDL
- 单击“确定”。
导入/导出维度
- 导入维度
可通过导入的方式将维度批量快速的导入到系统中。
- 在维度页面,单击“更多 > 导入”,进入“导入配置”页签。
图7 导入表
- 下载维度导入模板,编辑完成后保存至本地。
- 选择是否更新已有数据。
如果系统中已有的编码和模板中的编码相同,系统则认为是数据重复。
- 不更新:当数据重复时,不会替换系统中原有的数据。
- 更新:当数据重复时
- 系统中的原有数据为草稿状态,则会覆盖生成新的草稿数据。
- 系统中的原有数据为发布状态,则会生成下展数据。
- 单击“添加文件”,选择编辑完成的导入模板。
- 单击“上传文件”,上传完成后,自动跳转到“上次导入”页签,查看已导入的数据。
- 单击“关闭”。
当导入的维度关联的标准编码不存在或者未发布时,系统会自动弹出报错拦截及详细的编码名称,请修改后再重新上传。
- 在维度页面,单击“更多 > 导入”,进入“导入配置”页签。
- 导出维度
可通过导出的方式将维度导出到本地。
在维度页面,单击“更多 > 导出”,即可将系统中的维度导出到本地。
导入/导出事实表
- 导入事实表
可通过导入的方式将事实表批量快速的导入到系统中。
- 在事实表上方,单击“更多 > 导入”,进入“导入配置”页签。
图8 导入表
- 下载事实表导入模板,编辑完成后保存至本地。
- 选择是否更新已有数据。
如果系统中已有的编码和模板中的编码相同,系统则认为是数据重复。
- 不更新:当数据重复时,不会替换系统中原有的数据。
- 更新:当数据重复时
- 系统中的原有数据为草稿状态,则会覆盖生成新的草稿数据。
- 系统中的原有数据为发布状态,则会生成下展数据。
- 单击“添加文件”,选择编辑完成的导入模板。
- 单击“上传文件”,上传完成后,自动跳转到“上次导入”页签,查看已导入的数据。
- 单击“关闭”。
当导入的事实表关联的标准编码不存在或者未发布时,系统会自动弹出报错拦截及详细的编码名称,请修改后再重新上传。
- 在事实表上方,单击“更多 > 导入”,进入“导入配置”页签。
- 导出事实表
可通过导出的方式将事实表导出到本地。
在事实表上方,单击“更多 > 导出”,即可将系统中的事实表导出到本地。