更新时间:2024-10-18 GMT+08:00

导入导出

数据架构支持流程、主题、码表、数据标准、关系建模表(物理表)、逻辑实体、维度建模维度/事实表、业务指标、技术指标、数据集市汇总表的导入导出,暂不支持时间限定、审核中心和配置中心数据的导入导出。

本例中以导入和导出关系建模表为例说明如何进行导入导出,其他数据操作类似。如果您想了解其他数据如何导入导出以及使用场景等,请参考数据架构数据搬迁

约束与限制

  • 导入关系建模表、逻辑实体、维度建模维度/事实表、数据集市汇总表前请确保已创建管理中心连接,确保数据连接可用。
  • 数据架构中的时间限定、审核中心和配置中心数据不支持导入导出。如有涉及,请您在其他数据迁移前,先进行手动配置同步。
  • 数据架构支持最大导入文件大小为4Mb;支持最大导入指标个数为3000个;支持一次最大导出500张表。

导入表到逻辑模型

  1. DataArts Studio数据架构控制台,单击左侧导航栏的“逻辑模型”进入逻辑模型页面。
  2. 在逻辑模型中,找到所需要的逻辑模型,单击模型卡片进入,在主题目录中选中一个对象,然后单击“更多 > 导入”
  3. “导入表”对话框中,单击“下载关系建模导入模板”。

    图1 导入表
    表1 导入配置参数说明

    参数名

    说明

    更新已有表

    如果所要导入的表,在模型中已经存在,是否更新已有的表。系统将根据表编码判断将要导入的表在关系模型中是否已存在。在导入时,只有创建或更新操作,不会删除已有的表。支持以下选项:

    • 不更新:如果表已存在,将直接跳过,不处理。
    • 更新:如果表已存在,更新已有的表信息。如果表处于“已发布”状态,表更新后,您需要重新发布表,才能使更新后的表生效。

    上传模板

    选择所需导入的文件。所需导入的文件,可以通过以下两种方式获得。

    • 下载关系建模导入模板并填写模板

      “导入配置”页签内,单击“下载关系建模导入模板”下载模板,然后根据业务需求填写好模板中的相关参数并保存。

    • 导出的表文件

      您可以将某个DataArts Studio实例的数据架构中已创建的表导出到Excel文件中。导出后的文件可用于导入到关系模型中。导出模型的操作请参见导出表或DDL

  4. 打开下载的模板,请根据业务需求填写好模板中的相关参数并保存,模板中的“填写说明”Sheet页供参考。

    模板中的参数,其中名称前带“*”的参数为必填参数,名称前未带“*”的参数为可选参数。

    在模板的“表模型”Sheet页中,所需填写的参数,说明如下:

    表2 表模型Sheet页参数说明

    参数名

    参数说明

    所属主题

    需填写已有的主题的编码路径,以/分隔。如果您未新建主题信息,请参见主题设计进行新建。

    *逻辑实体名称

    表名称,只允许除\、<、>、%、"、'、;及换行符以外的字符。

    *表名称

    表英文名称,只能包含英文字母、数字、下划线、$、{、},且不能以数字开头。

    表别名

    用户在配置中心打开了“表别名”时显示此项,名称别名。

    表级标签

    给表添加的标签,请输入已有的标签或新的标签名称。您也可以先前往DataArts Studio数据目录模块的“标签管理”页面添加标签,然后再回到此处设置相应的标签。添加标签的具体操作,请参见管理资产标签

    *描述

    表的描述信息。

    资产责任人

    需输入DataArts Studio实例当前工作空间中的用户名,可以手动输入名字或直接选择已有的责任人。

    父表

    只能填写为本模型中的其他表的表名称。

    DWS表 DISTRIBUTE BY

    仅DWS连接支持,支持HASH、REPLICATION2种方式分布。

    *属性名称(CHN)

    表中的属性字段的中文名称。只允许除\、<、>、%、"、'、;及换行符以外的字符。

    *属性名称(ENG)

    表中的属性字段的英文名称。只能包含英文字母、数字和下划线,且以英文字母开头。

    属性编码

    表中的属性字段的编码,系统自动生成。

    属性别名

    用户在配置中心打开了“属性别名”时显示此项,属性别名。

    顺序

    属性字段在表中的顺序,从1开始。可以不填,不填时属性字段默认按模板中的顺序在表中排列。

    属性描述

    属性字段的描述信息。

    *数据类型

    逻辑模型的数据类型,请参见字段类型中的DEFAULT类型分组。

    数据长度

    数据的长度。对于不定长的数据类型,如果所指定的数据连接类型支持对其指定数据长度,请指定数据长度。

    例如,DWS连接类型,如果字段类型为CHAR(10),需要在“数据类型”中填写“CHAR”,在“数据长度”中填写“10”

    是否分区

    填写“Y”表示该字段为分区字段,填写“N”表示不是分区字段。

    是否主键

    填写“Y”表示该字段为主键,填写“N”表示不是主键。

    不为空

    填写“Y”表示该字段不为空,填写“N”表示字段允许为空。

    引用的数据标准编码

    填写需要引用的数据标准的编码。如果未创建数据标准,请参见新建数据标准进行创建。

    属性标签

    为属性字段添加的标签,请输入已有的标签或新的标签名称。您也可以先前往DataArts Studio数据目录模块的“标签管理”页面添加标签,然后再回到此处设置相应的标签。添加标签的具体操作,请参见管理资产标签

    其他配置

    填写“高级配置”中自定义项的名称与输入值。

  5. 在模板的“关系”Sheet页中,所需填写的参数,说明如下:

    表3 关系Sheet页参数说明

    参数名

    参数说明

    关系名称

    关系的名称,只能包含中文、英文字母、数字、左右括号、中划线和下划线,且以中文或英文字母开头。

    *子表

    输入关系中子表的英文名称。

    *子表字段

    输入关系中子表的字段英文名,该字段应为子表的外键,映射为父表的主键。

    *子对父

    子表对父表的映射关系,可以有以下四种取值:

    • 1:表示每条子表数据在父表中有且只有一条数据与之对应。
    • 0,1:表示每条子表数据在父表中最多有一条数据与之对应。
    • 0..n:表示每条子表数据在父表中可能有多条数据与之对应。
    • 1..n:表示每条子表数据在父表中至少有一条数据与之对应。

    *父对子

    父表对子表的映射关系,可以有以下四种取值:

    • 1:表示每条父表数据在子表中有且只有一条数据与之对应。
    • 0,1:表示每条父表数据在子表中最多有一条数据与之对应。
    • 0..n:表示每条父表数据在子表中可能有多条数据与之对应。
    • 1..n:表示每条父表数据在子表中至少有一条数据与之对应。

    *父表

    输入关系中父表的英文名称。

    *父字段表

    输入关系中父表的字段英文名,该字段应为父表的主键,映射为子表的外键。

    角色名称

    自定义角色名称,用于标识该关系,只能包含中文、英文字母、数字、左右括号、中划线和下划线,且以中文或英文字母开头。

  6. “关联质量规则”中填入关联的表名称和属性名称(ENG)。

    在模板的“关联质量规则”Sheet页中,所需填写的参数,说明如下:

    表4 关联质量规则Sheet页参数说明

    参数名

    参数说明

    *表名称

    表英文名称,只能包含英文字母、数字、下划线、$、{、},且不能以数字开头。

    *属性名称(ENG)

    表中的属性字段的英文名称。只能包含英文字母、数字和下划线,且以英文字母开头。

    规则名称

    填写已有的规则名称。在DataArts Studio控制台左上角的模块下拉列表中选择“数据质量”进入DataArts Studio数据质量控制台,然后您可以进入“规则模板”页面查看已有的规则名称。

    告警配置

    告警条件表达式,由告警参数和逻辑运算符组成。在质量作业运行时,系统将计算出告警条件表达式的结果,并根据表达式的结果是否为真来判断是否触发告警。如果表达式的结果为真则触发质量告警,结果为假则不触发质量告警。

    在告警条件表达式中,告警参数以${1}、${2}、${3}等变量名称表示,变量名即代表所指定的质量规则的告警参数,变量$1代表第一个告警参数,$2代表第二个告警参数,以此类推。在DataArts Studio控制台左上角的模块下拉列表中选择“数据质量”进入DataArts Studio数据质量控制台,然后您可以进入“规则模板”页面在“结果说明”一列中查看质量规则支持的告警参数。

    例如:${1}>100

    表达式

    只有当“规则名称”配置为“表达式校验”或者“合法性校验”时,需要配置表达式。

  7. 导入结果会在导入对话框的“上次导入”中显示。如果导入成功,单击“关闭”完成导入。如果导入失败,您可以查看失败原因,将模板文件修改正确后,再重新上传。

    图2 上次导入
    • 当导入的逻辑实体关联的标准编码不存在或者未发布时,系统会自动弹出报错拦截及详细的编码名称,请修改后再重新上传。
    • 当导入的数据不存在时,在“上次导入”页签中的备注中会出现格式为“表名称:属性名称”的报错提示。

导入表到物理模型

  1. DataArts Studio数据架构控制台,单击左侧导航栏的“关系建模”进入关系建模页面。
  2. 在页面的中间栏位,从最上方的下拉列表中找到所需要的物理模型,或者从“数仓规划”选择一个物理模型单击进入,在主题目录中选中一个对象,然后单击“导入”
  3. “导入表”对话框中,单击“下载关系建模导入模板”。

    图3 导入表
    表5 导入配置参数说明

    参数名

    说明

    更新已有表

    如果所要导入的表,在模型中已经存在,是否更新已有的表。系统将根据表编码判断将要导入的表在关系模型中是否已存在。在导入时,只有创建或更新操作,不会删除已有的表。支持以下选项:

    • 不更新:如果表已存在,将直接跳过,不处理。
    • 更新:如果表已存在,更新已有的表信息。如果表处于“已发布”状态,表更新后,您需要重新发布表,才能使更新后的表生效。

    上传模板

    选择所需导入的文件。所需导入的文件,可以通过以下两种方式获得。

    • 下载关系建模导入模板并填写模板

      “导入配置”页签内,单击“下载关系建模导入模板”下载模板,然后根据业务需求填写好模板中的相关参数并保存。

    • 导出的表文件

      您可以将某个DataArts Studio实例的数据架构中已创建的表导出到Excel文件中。导出后的文件可用于导入到关系模型中。导出模型的操作请参见导出表或DDL

  4. 打开下载的模板,请根据业务需求填写好模板中的相关参数并保存,模板中的“填写说明”Sheet页供参考。

    模板中的参数,其中名称前带“*”的参数为必填参数,名称前未带“*”的参数为可选参数。

    在模板的“表模型”Sheet页中,所需填写的参数,说明如下:

    表6 表模型Sheet页参数说明

    参数名

    参数说明(导入DLI/POSTGRESQL/DWS/MRS_HIVE类型的表)

    所属主题

    需填写已有的主题的编码路径,以/分隔。如果您未新建主题信息,请参见主题设计进行新建。

    *逻辑实体名称

    表名称,只允许除\、<、>、%、"、'、;及换行符以外的字符。

    *表名称

    表英文名称,只能包含英文字母、数字、下划线、$、{、},且不能以数字开头。

    表别名

    用户在配置中心打开了“表别名”时显示此项,名称别名。

    表级标签

    给表添加的标签,请输入已有的标签或新的标签名称。您也可以先前往DataArts Studio数据目录模块的“标签管理”页面添加标签,然后再回到此处设置相应的标签。添加标签的具体操作,请参见管理资产标签

    *描述

    表的描述信息。

    资产责任人

    需输入DataArts Studio实例当前工作空间中的用户名。只有工作空间管理员或开发者、运维者角色的用户才可以设置为责任人。

    数据连接类型

    支持以下连接类型:DLI、POSTGRESQL、DWS、MRS_HIVE。

    *表类型

    DLI模型的表支持以下表类型:
    • Managed:数据存储位置为DLI的表。
    • External:数据存储位置为OBS的表。当“表类型”设置为External时,需设置“OBS路径””参数。
    • DLI_VIEW:该类型只支持导入,不支持在控制台页面创建。

    DWS模型的表支持以下表类型:

    • DWS_ROW:行类型。
    • DWS_COLUMN:列类型。
    • DWS_VIEW:视图类型。

    MRS_HIVE模型的表不支持该参数。

    OBS路径

    DLI模型的表类型为DLI_EXTERNAL时,需填写与表相关联的存放源数据的OBS路径。OBS路径格式如:bucket_name/filepath。

    数据格式

    该参数仅DLI模型的表有效。

    表类型为DLI_MANAGED的表支持的数据格式有:Parquet、Carbon。

    表类型为DLI_EXTERNAL的表支持的数据格式有:Parquet、Carbon、CSV、ORC、JSON、Avro。

    表所属的数据连接

    输入已创建的数据连接名称。

    表所属的数据库

    输入已创建的数据库名称。

    数据连接扩展信息

    连接类型为DLI时,输入DLI队列名称。连接类型为DWS或POSTGRESQL时,输入Schema名称。

    DWS表 DISTRIBUTE BY

    仅DWS连接支持,支持HASH(属性名称)、REPLICATION2种方式分布。

    HUDI表 PreCombineField

    版本字段,仅Hudi表需要填写。

    *属性名称(CHN)

    表中的属性字段的中文名称。只允许除\、<、>、%、"、'、;及换行符以外的字符。

    *属性名称(ENG)

    表中的属性字段的英文名称。只能包含英文字母、数字和下划线,且以英文字母开头。

    属性别名

    用户在配置中心打开了“属性别名”时显示此项,属性别名。

    顺序

    属性字段在表中的顺序,从1开始。可以不填,不填时属性字段默认按模板中的顺序在表中排列。

    属性描述

    属性字段的描述信息。

    *数据类型

    不同的数据连接类型支持的数据类型不一样,请参见字段类型

    数据长度

    对于不定长的数据类型,如果所指定的数据连接类型支持对其指定数据长度,请指定数据长度。

    例如,DWS连接类型,如果字段类型为CHAR(10),需要在“数据类型”中填写“CHAR”,在“数据长度”中填写“10”

    是否分区

    填写“Y”表示该字段为分区字段,填写“N”表示不是分区字段。

    是否主键

    填写“Y”表示该字段为主键,填写“N”表示不是主键。

    不为空

    填写“Y”表示该字段不为空,填写“N”表示字段允许为空。

    引用的数据标准编码

    填写需要引用的数据标准的编码,也可以不填。如果未创建数据标准,请参见新建数据标准进行创建。

    属性标签

    为属性字段添加的标签,请输入已有的标签或新的标签名称。您也可以先前往DataArts Studio数据目录模块的“标签管理”页面添加标签,然后再回到此处设置相应的标签。添加标签的具体操作,请参见管理资产标签

    其他配置

    为JSON格式,用于存放表额外配置信息。格式如下:

    {

    "option_name1": "value",

    "option_name2": "value"

    ……

    }

    例如:

    {

    "a1": "100",

    "a2": "30"

    }

    版本号

    可选参数。

    其他配置

    填写“高级配置”中自定义项的名称与输入值。

  5. 在模板的“关系”Sheet页中,所需填写的参数,说明如下:

    表7 关系Sheet页参数说明

    参数名

    参数说明

    关系名称

    关系的名称,只能包含中文、英文字母、数字、左右括号、中划线和下划线,且以中文或英文字母开头。

    *子表

    输入关系中子表的英文名称。

    子表所属数据库

    输入关系中子表所属数据库的名称。

    *子表字段

    输入关系中子表的字段英文名,该字段应为子表的外键,映射为父表的主键。

    *子对父

    子表对父表的映射关系,可以有以下四种取值:

    • 1:表示每条子表数据在父表中有且只有一条数据与之对应。
    • 0,1:表示每条子表数据在父表中最多有一条数据与之对应。
    • 0..n:表示每条子表数据在父表中可能有多条数据与之对应。
    • 1..n:表示每条子表数据在父表中至少有一条数据与之对应。

    *父对子

    父表对子表的映射关系,可以有以下四种取值:

    • 1:表示每条父表数据在子表中有且只有一条数据与之对应。
    • 0,1:表示每条父表数据在子表中最多有一条数据与之对应。
    • 0..n:表示每条父表数据在子表中可能有多条数据与之对应。
    • 1..n:表示每条父表数据在子表中至少有一条数据与之对应。

    *父表

    输入关系中父表的英文名称。

    父表所属数据库

    输入关系中父表所属数据库的名称。

    *父字段表

    输入关系中父表的字段英文名,该字段应为父表的主键,映射为子表的外键。

    角色名称

    自定义角色名称,用于标识该关系,只能包含中文、英文字母、数字、左右括号、中划线和下划线,且以中文或英文字母开头。

  6. “关联质量规则”中填入关联的表名称和属性名称(ENG)。

    在模板的“关联质量规则”Sheet页中,所需填写的参数,说明如下:

    表8 关联质量规则Sheet页参数说明

    参数名

    参数说明

    *表名称

    表英文名称,只能包含英文字母、数字、下划线、$、{、},且不能以数字开头。

    *属性名称(ENG)

    表中的属性字段的英文名称。只能包含英文字母、数字和下划线,且以英文字母开头。

    规则名称

    填写已有的规则名称。在DataArts Studio控制台左上角的模块下拉列表中选择“数据质量”进入DataArts Studio数据质量控制台,然后您可以进入“规则模板”页面查看已有的规则名称。

    告警配置

    告警条件表达式,由告警参数和逻辑运算符组成。在质量作业运行时,系统将计算出告警条件表达式的结果,并根据表达式的结果是否为真来判断是否触发告警。如果表达式的结果为真则触发质量告警,结果为假则不触发质量告警。

    在告警条件表达式中,告警参数以${1}、${2}、${3}等变量名称表示,变量名即代表所指定的质量规则的告警参数,变量$1代表第一个告警参数,$2代表第二个告警参数,以此类推。在DataArts Studio控制台左上角的模块下拉列表中选择“数据质量”进入DataArts Studio数据质量控制台,然后您可以进入“规则模板”页面在“结果说明”一列中查看质量规则支持的告警参数。

    例如:${1}>100

    表达式

    只有当“规则名称”配置为“表达式校验”或者“合法性校验”时,需要配置表达式。

  7. 导入结果会在导入对话框的“上次导入”页面中显示。如果导入成功,单击“关闭”完成导入。如果导入失败,您可以查看失败原因,将模板文件修改正确后,再重新上传。

    • 当导入的关系表的标准编码不存在或者未发布时,系统会自动弹出报错拦截及详细的编码名称,请修改后再重新上传。
    • 当导入的数据不存在时,在“上次导入”页签中的备注中会出现格式为“表名称:属性名称”的报错提示。

导出表或DDL

  1. DataArts Studio数据架构主界面,单击左侧导航栏的“逻辑模型”进入逻辑模型页面。
  2. 在逻辑模型中,找到所需要的逻辑模型,单击模型卡片进入,在主题目录中选择对象,然后单击“更多 > 导出”

    图4 导出表或DDL

  3. 在弹出对话框中,选择需要导出的对象。

    导出的Excel表可以用于导入操作。
    图5 导出表

    导出DDL时,会将所选表的DDL语句导出成txt文件。

    图6 导出DDL

  4. 单击“确定”

导入/导出维度

  • 导入维度

    可通过导入的方式将维度批量快速的导入到系统中。

    1. 在维度页面,单击“更多 > 导入”,进入“导入配置”页签。
      图7 导入表
    2. 下载维度导入模板,编辑完成后保存至本地。
    3. 选择是否更新已有数据。

      如果系统中已有的编码和模板中的编码相同,系统则认为是数据重复。

      • 不更新:当数据重复时,不会替换系统中原有的数据。
      • 更新:当数据重复时
        • 系统中的原有数据为草稿状态,则会覆盖生成新的草稿数据。
        • 系统中的原有数据为发布状态,则会生成下展数据。
    4. 单击“添加文件”,选择编辑完成的导入模板。
    5. 单击“上传文件”,上传完成后,自动跳转到“上次导入”页签,查看已导入的数据。
    6. 单击“关闭”。

    当导入的维度关联的标准编码不存在或者未发布时,系统会自动弹出报错拦截及详细的编码名称,请修改后再重新上传。

  • 导出维度

    可通过导出的方式将维度导出到本地。

    在维度页面,单击“更多 > 导出”,即可将系统中的维度导出到本地。

导入/导出事实表

  • 导入事实表

    可通过导入的方式将事实表批量快速的导入到系统中。

    1. 在事实表上方,单击“更多 > 导入”,进入“导入配置”页签。
      图8 导入表
    2. 下载事实表导入模板,编辑完成后保存至本地。
    3. 选择是否更新已有数据。

      如果系统中已有的编码和模板中的编码相同,系统则认为是数据重复。

      • 不更新:当数据重复时,不会替换系统中原有的数据。
      • 更新:当数据重复时
        • 系统中的原有数据为草稿状态,则会覆盖生成新的草稿数据。
        • 系统中的原有数据为发布状态,则会生成下展数据。
    4. 单击“添加文件”,选择编辑完成的导入模板。
    5. 单击“上传文件”,上传完成后,自动跳转到“上次导入”页签,查看已导入的数据。
    6. 单击“关闭”。

    当导入的事实表关联的标准编码不存在或者未发布时,系统会自动弹出报错拦截及详细的编码名称,请修改后再重新上传。

  • 导出事实表

    可通过导出的方式将事实表导出到本地。

    在事实表上方,单击“更多 > 导出”,即可将系统中的事实表导出到本地。