开发利用方数据开发
场景说明
该场景主要描述了开发利用方各类角色基于DataArtsStudio工具展开数据治理的关键操作,开发利用方按需日常操作。
这里仅举例了部分数据工具的操作作为参考,其他详细的操作可以参考相关工具的用户指南材料。
授权运营方管理员-DataArts Studio工具准备
DataArts Studio实例中默认不包含数据集成的CDM集群,如需使用数据集成功能,需要授权运营方-管理员根据业务场景,为开发利用方工作空间发放CDM增量包。
- 授权运营方-管理员登录智能云管理平台平台,单击DataArts Studio云服务,单击已开通实例卡片上的“创建增量包”;
- 进入创建DataArts Studio增量包页面,参照表1进行配置。为保证网络互通,虚拟私有云,子网,安全组需与MRS、DWS集群一致;
图1 配置数据集成的增量包参数
表1 配置数据集成的增量包参数 参数
说明
增量包类型
选择“批量数据迁移增量包”。
工作空间
选择需要使用数据集成增量包的工作空间。例如在DataArtsStudio实例test的A工作空间中创建数据集成的增量包,这里工作空间选择A。创建成功后,即可通过A工作空间查看到已经创建的数据集成集群。
集群名称
自定义数据集成集群名称。
实例类型
选择数据集成集群实例规格。
虚拟私有云
DataArts Studio实例中的数据集成CDM集群所属的VPC。VPC即虚拟私有云,是通过逻辑方式进行网络隔离,提供安全、隔离的网络环境。如果DataArts Studio实例或CDM集群需连接云上服务(如DWS、MRS、RDS等),则您需要确保CDM集群与该云服务网络互通。同区域情况下,同虚拟私有云、同子网、同安全组的不同实例默认网络互通,如果同虚拟私有云而子网或安全组不同,还需配置路由规则及安全组规则。VPC、子网、安全组的详细操作,请参见《虚拟私有云用户指南》。
说明
目前CDM实例创建完成后不支持切换虚拟私有云,请谨慎选择所属虚拟私有云
子网
DataArts Studio实例中的数据迁移CDM集群所属的子网。通过子网提供与其他网络隔离的、可以独享的网络资源,以提高网络安全。如果DataArts Studio实例或CDM集群需连接云上服务(如DWS、MRS、RDS等),则您需要确保CDM集群与该云服务网络互通。同区域情况下,同虚拟私有云、同子网、同安全组的不同实例默认网络互通,如果同虚拟私有云而子网或安全组不同,还需配置路由规则及安全组规则。VPC、子网、安全组的详细操作,请参见《虚拟私有云用户指南》。
说明
目前CDM实例创建完成后不支持切换子网,请谨慎选择所属子网。
安全组
DataArts Studio实例中的数据集成CDM集群所属的安全组。安全组是一组对弹性云服务器的访问规则的集合,为同一个VPC内具有相同安全保护需求并相互信任的弹性云服务器提供访问策略。如果DataArts Studio实例或CDM集群需连接云上服务(如DWS、MRS、RDS等),则您需要确保CDM集群与该云服务网络互通。同区域情况下,同虚拟私有云、同子网、同安全组的不同实例默认网络互通,如果同虚拟私有云而子网或安全组不同,还需配置路由规则及安全组规则。VPC、子网、安全组的详细操作,请参见《虚拟私有云用户指南》。
说明
目前CDM实例创建完成后不支持切换安全组,请谨慎选择所属安全组。
- 单击“立即创建”,确认规格后单击“创建”;
- 创建成功后,即可返回对应的工作空间查看已创建的数据集成集群。
测试人员-数据清理转换作业调试
开发利用方-测试人员负责对开发空间的ETL作业等进行测试验证,测试验证通过后将作业导出至DataArts Studio生产空间进行上线发布。
- 选择"数据开发>作业",单击"执行调度",对数据治理作业进行测试;
- 在"作业监控"页面,查看作业运行情况。
图2 作业监控
运维人员-跨工作空间作业导出
开发利用方-运维人员将开发利用方DataArts Studio开发空间的各委办局开发接入库的数据清理转换作业等导出包导入到DataArts Studio生产空间上线发布;将数据开发作业导出有两种操作方式:
方式一:单个作业导出
方式二:批量作业导出
- 方式一:在作业开发页面导出某一个作业
双击作业名称,进入某一作业的开发页面,单击画布上方的导出按钮,选择导出作业的类型。
- 只导出作业:导出作业中节点的连接关系,以及各节点的属性配置到本地,不包含密码等敏感信息。导出后,通过浏览器下载内容获取到zip格式的压缩包文件。
- 导出作业及其依赖脚本:导出作业中节点的连接关系、各节点的属性配置以及作业的调度配置、参数配置、依赖的脚本、资源定义到本地,不包含密码等敏感信息。导出后,通过浏览器下载内容获取到zip格式的压缩包文件。
图3 导出作业
- 方式二:在作业目录中导出一个或多个作业
- 单击作业目录右侧按钮,选择“显示复选框”。
图4 显示复选框
- 勾选需要导出的作业,单击 > 导出作业,可选择“只导出作业”或“导出作业及其依赖脚本和资源定义”。导出完成后,即可通过浏览器下载地址,获取到导出的zip文件。
- 作业中使用集群等不存在时,选择本工作空间下已创建的CDM集群。
图5 导入作业
CDM节点等依赖其他作业的节点, 需要将对应CDM作业,需要在"数据集成-作业管理"中,将原空间中作业导入新的工作空间。
- 单击作业目录右侧按钮,选择“显示复选框”。