- 最新动态
- 功能总览
- 产品介绍
- 数据治理方法论
- 准备工作
- 快速入门
-
用户指南
- DataArts Studio使用流程
- 购买并配置DataArts Studio
- 授权用户使用DataArts Studio
-
管理中心
- DataArts Studio支持的数据源
- 创建DataArts Studio数据连接
-
配置DataArts Studio数据连接参数
- DWS数据连接参数说明
- DLI数据连接参数说明
- MRS Hive数据连接参数说明
- Apache Hive数据连接参数说明
- MRS HBase数据连接参数说明
- MRS Kafka数据连接参数说明
- MRS Spark数据连接参数说明
- MRS Clickhouse数据连接参数说明
- MRS Hetu数据连接参数说明
- MRS Impala数据连接参数说明
- MRS Ranger数据连接参数说明
- MRS Presto数据连接参数说明
- Doris数据连接参数说明
- OpenSource ClickHouse数据连接参数说明
- RDS数据连接参数说明
- ORACLE数据连接参数说明
- DIS数据连接参数说明
- 主机连接参数说明
- OBS数据连接参数说明
- Apache HDFS数据连接参数说明
- MRS Hudi数据连接参数说明
- Elasticsearch数据连接参数说明
- Rest Client数据连接参数说明
- DMS Kafka数据连接参数说明
- MongoDB数据连接参数说明
- SFTP/FTP数据连接参数说明
- GBase数据连接参数说明
- Redis数据连接参数说明
- SAP HANA数据连接参数说明
- LTS数据连接参数说明
- 配置DataArts Studio资源迁移
- 配置DataArts Studio企业模式环境隔离
- 管理中心典型场景教程
-
数据集成(CDM作业)
- 数据集成概述
- 约束与限制
- 支持的数据源
- 创建并管理CDM集群
-
在CDM集群中创建连接
- 创建CDM与数据源之间的连接
-
配置连接参数
- OBS连接参数说明
- PostgreSQL/SQLServer连接参数说明
- 数据仓库服务(DWS)连接参数说明
- 云数据库MySQL/MySQL数据库连接参数说明
- Oracle数据库连接参数说明
- DLI连接参数说明
- Hive连接参数说明
- HBase连接参数说明
- HDFS连接参数说明
- FTP/SFTP连接参数说明
- Redis连接参数说明
- DDS连接参数说明
- CloudTable连接参数说明
- MongoDB连接参数说明
- Cassandra连接参数说明
- DIS连接参数说明
- Kafka连接参数说明
- DMS Kafka连接参数说明
- 云搜索服务(CSS)连接参数说明
- Elasticsearch连接参数说明
- 达梦数据库 DM连接参数说明
- SAP HANA连接参数说明
- 分库连接参数说明
- MRS Hudi连接参数说明
- MRS ClickHouse连接参数说明
- 神通(ST)连接参数说明
- CloudTable OpenTSDB连接参数说明
- GBASE连接参数说明
- YASHAN连接参数说明
- 上传CDM连接驱动
- 新建Hadoop集群配置
-
在CDM集群中创建作业
- 新建表/文件迁移作业
- 新建整库迁移作业
-
配置CDM作业源端参数
- 配置OBS源端参数
- 配置HDFS源端参数
- 配置HBase/CloudTable源端参数
- 配置Hive源端参数
- 配置DLI源端参数
- 配置FTP/SFTP源端参数
- 配置HTTP源端参数
- 配置PostgreSQL/SQL Server源端参数
- 配置DWS源端参数
- 配置SAP HANA源端参数
- 配置MySQL源端参数
- 配置Oracle源端参数
- 配置分库源端参数
- 配置MongoDB/DDS源端参数
- 配置Redis源端参数
- 配置DIS源端参数
- 配置Kafka/DMS Kafka源端参数
- 配置Elasticsearch/云搜索服务源端参数
- 配置OpenTSDB源端参数
- 配置MRS Hudi源端参数
- 配置MRS ClickHouse源端参数
- 配置神通(ST)源端参数
- 配置达梦数据库 DM源端参数
- 配置YASHAN源端参数
- 配置CDM作业目的端参数
- 配置CDM作业字段映射
- 配置CDM作业定时任务
- CDM作业配置管理
- 管理单个CDM作业
- 批量管理CDM作业
- 时间宏变量使用解析
- 优化迁移性能
- 关键操作指导
- 使用教程
- 常见错误码参考
-
数据集成(离线作业)
- 离线作业概述
- 支持的数据源
- 新建离线处理集成作业
- 配置离线处理集成作业
-
配置作业源端参数
- 配置MySql源端参数
- 配置Hive源端参数
- 配置HDFS源端参数
- 配置Hudi源端参数
- 配置PostgreSQL源端参数
- 配置SQLServer源端参数
- 配置Oracle源端参数
- 配置DLI源端参数
- 配置OBS源端参数
- 配置SAP HANA源端参数
- 配置Kafka源端参数
- 配置Rest Client源端参数
- 配置DWS源端参数
- 配置FTP/SFTP源端参数
- 配置Doris源端参数
- 配置HBase 源端参数
- 配置ClickHouse源端参数
- 配置ElasticSearch源端参数
- 配置MongoDB源端参数
- 配置RestApi源端参数
- 配置GBase源端参数
- 配置Redis源端参数
- 配置LTS源端参数
- 配置作业目的端参数
- 字段转换器配置指导
- 新增字段操作指导
- 数据集成(实时作业)
- 数据架构
- 数据指标
-
数据开发
- 数据开发概述
- 数据管理
- 脚本开发
- 作业开发
- 解决方案
- 运行历史
- 运维调度
- 配置管理
- 审批中心
- 下载中心
-
节点参考
- 节点概述
- 节点数据血缘
- CDM Job
- Data Migration
- DIS Stream
- DIS Dump
- DIS Client
- Rest Client
- Import GES
- MRS Kafka
- Kafka Client
- ROMA FDI Job
- DLI Flink Job
- DLI SQL
- DLI Spark
- DWS SQL
- MRS Spark SQL
- MRS Hive SQL
- MRS Presto SQL
- MRS Spark
- MRS Spark Python
- MRS ClickHouse
- MRS HetuEngine
- MRS Impala SQL
- MRS Flink Job
- MRS MapReduce
- CSS
- Shell
- RDS SQL
- ETL Job
- Python
- DORIS SQL
- GBase SQL
- ModelArts Train
- OCR
- Create OBS
- Delete OBS
- OBS Manager
- Open/Close Resource
- Data Quality Monitor
- Sub Job
- For Each
- SMN
- Dummy
- EL表达式参考
- 简易变量集参考
- 使用教程
- 数据质量
- 数据目录
- 数据安全
- 数据服务
- 审计日志
- 最佳实践
-
API参考
- 使用前必读
- API概览
- 如何调用API
- 数据集成API
- 数据开发API(V1)
- 数据开发API(V2)
- 管理中心API
- 数据架构API
- 数据质量API
- 数据目录API
- 数据服务API
- 数据安全API
- 应用示例
- 附录
- SDK参考
-
常见问题
-
咨询与计费
- 区域和可用区如何选择?
- 数据库、数据仓库、数据湖与华为智能数据湖方案是什么,有哪些区别和联系?
- DataArts Studio和沃土是什么关系?
- DataArts Studio和ROMA有什么差异?
- DataArts Studio是否支持私有化部署到本地或私有云?
- 如何在IAM中创建细粒度权限策略?
- 如何实现用户的工作空间隔离,使其无法查看其他未授权工作空间?
- 用户已添加权限,还是无法查看工作空间?
- IAM用户操作时报错“无xx权限”怎么办?
- DataArts Studio的工作空间可以删除吗?
- 可以免费试用DataArts Studio吗?
- 免费试用即将到期,如何续费?
- 实例试用/购买成功后,可以转移到其他账号下吗?
- DataArts Studio是否支持版本升级?
- DataArts Studio是否支持版本降级?
- 如何查看DataArts Studio的版本?
- 购买DataArts Studio实例时为什么选不到指定的IAM项目?
- DataArts Studio的会话超时时间是多少,是否支持修改?
- 套餐包到期未续订或按需资源欠费时,我的数据会保留吗?
- 如何查看套餐包的剩余时长?
- DataArts Studio实例中的CDM没有计费是什么原因?
- 为什么会提示每日执行节点个数超过上限,应该怎么处理?
- 管理中心
-
数据集成(CDM作业)
- CDM与其他数据迁移服务有什么区别,如何选择?
- CDM有哪些优势?
- CDM有哪些安全防护?
- 如何降低CDM使用成本?
- CDM未使用数据传输功能时,是否会计费?
- 已购买包年包月的CDM套餐包,为什么还会产生按需计费的费用?
- 如何查看套餐包的剩余时长?
- CDM可以跨账户使用吗?
- CDM集群是否支持升级操作?
- CDM迁移性能如何?
- CDM不同集群规格对应并发的作业数是多少?
- 是否支持增量迁移?
- 是否支持字段转换?
- Hadoop类型的数据源进行数据迁移时,建议使用的组件版本有哪些?
- 数据源为Hive时支持哪些数据格式?
- 是否支持同步作业到其他集群?
- 是否支持批量创建作业?
- 是否支持批量调度作业?
- 如何备份CDM作业?
- 如何解决HANA集群只有部分节点和CDM集群网络互通?
- 如何使用Java调用CDM的Rest API创建数据迁移作业?
- 如何将云下内网或第三方云上的私网与CDM连通?
- CDM是否支持参数或者变量?
- CDM迁移作业的抽取并发数应该如何设置?
- CDM是否支持动态数据实时迁移功能?
- CDM是否支持集群关机功能?
- 如何使用表达式方式获取当前时间?
- 日志提示解析日期格式失败时怎么处理?
- 字段映射界面无法显示所有列怎么处理?
- CDM迁移数据到DWS时如何选取分布列?
- 迁移到DWS时出现value too long for type character varying怎么处理?
- OBS导入数据到SQL Server时出现Unable to execute the SQL statement怎么处理?
- 获取集群列表为空/没有权限访问/操作时报当前策略不允许执行?
- Oracle迁移到DWS报错ORA-01555
- MongoDB连接迁移失败时如何处理?
- Hive迁移作业长时间卡顿怎么办?
- 使用CDM迁移数据由于字段类型映射不匹配导致报错怎么处理?
- MySQL迁移时报错“JDBC连接超时”怎么办?
- 创建了Hive到DWS类型的连接,进行CDM传输任务失败时如何处理?
- 如何使用CDM服务将MySQL的数据导出成SQL文件,然后上传到OBS桶?
- 如何处理CDM从OBS迁移数据到DLI出现迁移中断失败的问题?
- 如何处理CDM连接器报错“配置项 [linkConfig.iamAuth] 不存在”?
- 报错“配置项[linkConfig.createBackendLinks]不存在”或“配置项 [throttlingConfig.concurrentSubJobs] 不存在怎么办”?
- 新建MRS Hive连接时,提示:CORE_0031:Connect time out. (Cdm.0523) 怎么解决?
- 迁移时已选择表不存在时自动创表,提示“CDM not support auto create empty table with no column”怎么处理?
- 创建Oracle关系型数据库迁移作业时,无法获取模式名怎么处理?
- MySQL迁移时报错:invalid input syntax for integer: "true"
- 数据集成(实时作业)
- 数据架构
-
数据开发
- 数据开发可以创建多少个作业,作业中的节点数是否有限制?
- DataArts Studio支持自定义的Python脚本吗?
- 作业关联的CDM集群删除后,如何快速修复?
- 作业的计划时间和开始时间相差大,是什么原因?
- 相互依赖的几个作业,调度过程中某个作业执行失败,是否会影响后续作业?这时该如何处理?
- 通过DataArts Studio调度大数据服务时需要注意什么?
- 环境变量、作业参数、脚本参数有什么区别和联系?
- 打不开作业日志,返回404报错?
- 配置委托时获取委托列表失败如何处理?
- 数据开发创建数据连接,为什么选不到指定的周边资源?
- 配置了SMN通知,却收不到作业失败告警通知?
- 作业配置了周期调度,但是实例监控没有作业运行调度记录?
- Hive SQL和Spark SQL脚本执行失败,界面只显示执行失败,没有显示具体的错误原因?
- 数据开发节点运行中报TOKEN不合法?
- 作业开发时,测试运行后如何查看运行日志?
- 月周期的作业依赖天周期的作业,为什么天周期作业还未跑完,月周期的作业已经开始运行?
- 执行DLI脚本,报Invalid authentication怎么办?
- 创建数据连接时,在代理模式下为什么选不到需要的CDM集群?
- 作业配置了每日调度,但是实例没有作业运行调度记录?
- 查看作业日志,但是日志中没有内容?
- 创建了2个作业,但是为什么无法建立依赖关系?
- DataArts Studio执行调度时,报错提示“作业没有可以提交的版本”怎么办?
- DataArts Studio执行调度时,报错提示“作业中节点XXX关联的脚本没有提交的版本”怎么办?
- 提交调度后的作业执行失败,报depend job [XXX] is not running or pause怎么办?
- 如何创建数据库和数据表,数据库对应的是不是数据连接?
- 为什么执行完HIVE任务什么结果都不显示?
- 在作业监控页面里的“上次实例状态”只有运行成功、运行失败,这是为什么?
- 如何创建通知配置对全量作业都进行结果监控?
- 数据开发的并行执行节点数是多少?
- DataArts Studio是否支持修改时区?
- CDM作业改名后,在数据开发中如何同步?
- 执行RDS SQL,报错hll不存在,在DataArts Studio可以执行成功?
- 创建DWS数据连接时报错提示“The account has been locaked”怎么处理?
- 作业实例取消了,日志提示“The node start execute failed, so the current node status is set to cancel.”怎么处理?
- 调用数据开发接口报错“Workspace does not exists”怎么处理?
- Postman调用接口返回结果正常,为什么测试环境调用接口的URL参数不生效?
- 执行Python脚本报错:Agent need to be updated?
- 节点状态为成功,为什么日志显示运行失败?
- 调用数据开发API报错Unknown Exception?
- 调用创建资源的API报错“资源名不合法”是什么原因?
- 补数据的作业实例都是成功的,为什么补数据任务失败了?
- DWS数据连接可视化建表,报错提示“表已存在”,但是展开数据连接看不到该表?
- 调度MRS spark作业报错“The throttling threshold has been reached: policy user over ratelimit,limit:60,time:1 minute.”怎么处理?
- 执行Python脚本,报错“UnicodeEncodeError :‘ascii' codec cant encode characters in position 63-64 : ordinal not in range ( 128 )”怎么处理?
- 查看日志时,系统提示“OBS日志文件不存在,请检查文件是否被删除或者没有OBS写入权限。”怎么办?
- Shell/Python节点执行失败,后台报错session is down
- 请求头中参数值长度超过512个字符时,何如处理?
- 执行DWS SQL脚本时,提示id不存在,如何处理?
- 如何查看CDM作业被哪些作业进行调用?
- 执行SQL语句失败,系统提示“Failed to create ThriftService instance, please check the cluster has available resources and check YARN or Spark driver's logs for further information”,如何处理?
- 使用python调用执行脚本的api报错:The request parameter invalid,如何处理?
- 在ECS上调试好的shell脚本,在DLF中shell脚本执行异常,如何处理?
- DataArts Studio调度CDM任务时报错Given transaction id [xxxx] is invalid,如何处理?
- 在数据开发子模块中,doris SQL作业执行失败,是什么原因?
- 在数据开发子模块中,新建的DLI SQL脚本默认队列是一个已删除的队列,怎么处理?
- 数据开发中的事件驱动是否支持线下kafka?
- 数据质量
- 数据目录
- 数据安全
- 数据服务
-
咨询与计费
- 视频帮助
- 文档下载
- 通用参考
链接复制成功!
新建表/文件迁移作业
操作场景
CDM可以实现在同构、异构数据源之间进行表或文件级别的数据迁移,支持表/文件迁移的数据源请参见支持的数据源。
约束限制
- 记录脏数据功能依赖于OBS服务。
- 作业导入时,JSON文件大小不超过1MB。
- 单文件传输大小不超过1TB。
- 配置源端和目的端参数时,字段名不可包含&和%。
前提条件
- 已新建连接,详情请参见创建CDM与数据源之间的连接。
- CDM集群与待迁移数据源可以正常通信。
操作步骤
- 进入CDM主界面,单击左侧导航上的“集群管理”,选择集群后的“作业管理”。
- 选择“表/文件迁移 > 新建作业”,进入作业配置界面。
图1 新建表/文件迁移的作业
- 选择源连接、目的连接:
- 作业名称:用户自定义任务名称,名称由中文、数字、字母、中划线、下划线、点号,且首字符不能是中划线或点号组成,长度必须在1到240个字符之间,例如“oracle2rds_t”。
- 源连接名称:选择待迁移数据的数据源,作业运行时将从此端复制导出数据。
- 目的连接名称:选择将数据迁移到哪个数据源,作业运行时会将数据导入此端。
- 选择源连接后,配置作业参数,例如迁移MySQL到DWS时,如图2所示。
每种数据源对应的作业参数不一样,其它类型数据源的作业参数请根据表1和表2选择。
表1 源端作业参数说明 源端类型
说明
参数配置
OBS
支持以CSV、JSON或二进制格式抽取数据,其中二进制方式不解析文件内容,性能快,适合文件迁移。
参见配置OBS源端参数。
- MRS HDFS
- FusionInsight HDFS
- Apache HDFS
支持以CSV、Parquet或二进制格式抽取HDFS数据,支持多种压缩格式。
参见配置HDFS源端参数。
- MRS HBase
- FusionInsight HBase
- Apache HBase
- CloudTable
支持从MRS、FusionInsight HD、开源Apache Hadoop的HBase,或CloudTable服务导出数据,用户需要知道HBase表的所有列族和字段名。
- MRS Hive
- FusionInsight Hive
- Apache Hive
支持从Hive导出数据,使用JDBC接口抽取数据。
Hive作为数据源,CDM自动使用Hive数据分片文件进行数据分区。
参见配置Hive源端参数。
DLI
支持从DLI导出数据。
参见配置DLI源端参数。
- FTP
- SFTP
支持以CSV、JSON或二进制格式抽取FTP/SFTP的数据。
- HTTP
用于读取一个公网HTTP/HTTPS URL的文件,包括第三方对象存储的公共读取场景和网盘场景。
当前只支持从HTTP URL导出数据,不支持导入。
参见配置HTTP源端参数。
数据仓库 DWS
支持从数据仓库 DWS导出数据。
参见配置DWS源端参数。
SAP HANA
支持从SAP HANA导出数据。
- 云数据库 PostgreSQL
- 云数据库 SQL Server
- Microsoft SQL Server
- PostgreSQL
支持从云端的数据库服务导出数据。
这些非云服务的数据库,既可以是用户在本地数据中心自建的数据库,也可以是用户在ECS上部署的,还可以是第三方云上的数据库服务。
从这些数据源导出数据时,CDM使用JDBC接口抽取数据,源端作业参数相同,详细请参见配置PostgreSQL/SQL Server源端参数。
MySQL
支持从MySQL导出数据。
参见配置MySQL源端参数。
Oracle
支持从Oracle导出数据。
参见配置Oracle源端参数。
分库
支持从分库导出数据。
参见配置分库源端参数。
- MongoDB
- 文档数据库服务(DDS)
支持从MongoDB或DDS导出数据。
Redis
支持从开源Redis导出数据。
参见配置Redis源端参数。
数据接入服务(DIS)
仅支持导出数据到云搜索服务。
参见配置DIS源端参数。
- Apache Kafka
- DMS Kafka
- MRS Kafka
仅支持导出数据到云搜索服务。
- 云搜索服务
- Elasticsearch
支持从云搜索服务或Elasticsearch导出数据。
MRS Hudi
支持从MRS Hudi导出数据。
MRS ClickHouse
支持从MRS ClickHouse导出数据。
神通(ST)
支持从神通(ST)导出数据。
参见配置神通(ST)源端参数。
达梦数据库 DM
支持从达梦数据库 DM导出数据。
- 配置目的端作业参数,根据目的端数据类型配置对应的参数,具体如表2所示。
表2 目的端作业参数说明 目的端类型
说明
参数配置
OBS
支持使用CSV或二进制格式批量传输大量文件到OBS。
参见配置OBS目的端参数。
MRS HDFS
导入数据到HDFS时,支持设置压缩格式。
参见配置HDFS目的端参数。
MRS HBase
CloudTable
支持导入数据到HBase,创建新HBase表时支持设置压缩算法。
MRS Hive
支持快速导入数据到MRS的Hive。
参见配置Hive目的端参数。
- MySQL
- SQL Server
- PostgreSQL
支持导入数据到云端的数据库服务。
使用JDBC接口导入数据,参见配置MySQL/SQL Server/PostgreSQL目的端参数。
DWS
支持导入数据到数据仓库 DWS。
参见配置DWS目的端参数。
Oracle
支持导入数据到Oracle。
数据湖探索(DLI)
支持导入数据到DLI服务。
参见配置DLI目的端参数。
Elasticsearch或云搜索服务
支持导入数据到云搜索服务。
MRS Hudi
支持快速导入数据到MRS的Hudi。
MRS Clickhouse
支持快速导入数据到MRS的Clickhouse。
MongoDB
支持快速导入数据到MongoDB。
- 作业参数配置完成后,单击“下一步”进入字段映射的操作页面。
如果是文件类数据源(FTP/SFTP/HDFS/OBS)之间相互迁移数据,且源端“文件格式”配置为“二进制格式”(即不解析文件内容直接传输),则没有字段映射这一步骤。
其他场景下,CDM会自动匹配源端和目的端数据表字段,需用户检查字段映射关系和时间格式是否正确,例如:源字段类型是否可以转换为目的字段类型。
图3 字段映射说明:
- 如果字段映射关系不正确,用户可以通过拖拽字段来调整映射关系。
- 如果在字段映射界面,CDM通过获取样值的方式无法获得所有列(例如从HBase/CloudTable/MongoDB导出数据时,CDM有较大概率无法获得所有列,以及SFTP/FTP迁移数据到DLI的链路场景),则可以单击
后选择“添加新字段”来手动增加,确保导入到目的端的数据完整。
- 关系数据库、Hive、MRS Hudi及DLI做源端时,不支持获取样值功能。
- 支持通过字段映射界面的
,可自定义添加常量、变量及表达式。
- 当作业源端为OBS、迁移CSV文件时,并且配置“解析首行为列名”参数的场景下显示列名。
- SQLServer作为目的端数据源时,不支持timestamp类型字段的写入,需修改为其他时间类型字段写入(如datatime)。
- Hive作为源端数据源时,支持array、map类型的数据读取。
- 当使用二进制格式进行文件到文件的迁移时,没有字段映射这一步。
- 如果是导入到数据仓库服务(DWS),则还需在目的字段中选择分布列,建议按如下顺序选取分布列:
- 有主键可以使用主键作为分布列。
- 多个数据段联合做主键的场景,建议设置所有主键作为分布列。
- 在没有主键的场景下,如果没有选择分布列,DWS会默认第一列作为分布列,可能会有数据倾斜风险。
- CDM支持字段内容转换,如果需要可单击操作列下
,进入转换器列表界面,再单击“新建转换器”。
图4 新建转换器CDM支持以下转换器:
- 脱敏:隐藏字符串中的关键数据。
- 去前后空格:自动删除字符串前后的空值。
- 字符串反转:自动反转字符串,例如将“ABC”转换为“CBA”。
- 字符串替换:将选定的字符串替换。
- 表达式转换:使用JSP表达式语言(Expression Language)对当前字段或整行数据进行转换,详细请参见字段转换。
- 去换行:将字段中的换行符(\n、\r、\r\n)删除。
说明:
作业源端开启“使用SQL语句”参数时不支持配置转换器。
- 单击“下一步”配置任务参数,单击“显示高级属性”展开可选参数。
图5 任务参数各参数说明如表3所示。
表3 任务配置参数 参数
说明
取值样例
作业失败重试
如果作业执行失败,可选择自动重试三次或者不重试。
建议仅对文件类作业或启用了导入阶段表的数据库作业配置自动重试,避免自动重试重复写入数据导致数据不一致。
说明:
如果通过DataArts Studio数据开发使用参数传递并调度CDM迁移作业时,不能在CDM迁移作业中配置“作业失败重试”参数,如有需要请在数据开发中的CDM节点配置“失败重试”参数。
不重试
作业分组
选择作业的分组,默认分组为“DEFAULT”。在CDM“作业管理”界面,支持作业分组显示、按组批量启动作业、按分组导出作业等操作。
DEFAULT
是否定时执行
如果选择“是”,可以配置作业自动启动的时间、重复周期和有效期,具体请参见配置CDM作业定时任务。
说明:
如果通过DataArts Studio数据开发调度CDM迁移作业,此处也配置了定时任务,则两种调度均会生效。为了业务运行逻辑统一和避免调度冲突,推荐您启用数据开发调度即可,无需配置CDM定时任务。
否
抽取并发数
当前任务从源端进行读取最大线程数。
说明:
由于数据源限制,实际执行时并发的线程数可能小于等于此处配置的并发数,如CSS,ClickHouse数据源不支持多并发抽取。
CDM通过数据迁移作业,将源端数据迁移到目的端数据源中。其中,主要运行逻辑如下:- 数据迁移作业提交运行后,CDM会根据作业配置中的“抽取并发数”参数,将每个作业拆分为多个Task,即作业分片。
说明:
不同源端数据源的作业分片维度有所不同,因此某些作业可能出现未严格按作业“抽取并发数”参数分片的情况。
- CDM依次将Task提交给运行池运行。根据集群配置管理中的“最大抽取并发数”参数,超出规格的Task排队等待运行。
因此作业抽取并发数和集群最大抽取并发数参数设置为适当的值可以有效提升迁移速度。
作业抽取并发数的配置原则如下:
- 迁移的目的端为文件时,CDM不支持多并发,此时应配置为单进程抽取数据。
- 表中每行数据大小为1MB以下的可以设置多并发抽取,超过1MB的建议单线程抽取数据。
- 作业抽取并发数可参考集群最大抽取并发数配置,但不建议超过集群最大抽取并发数上限。
- 目的端为DLI数据源时,抽取并发数建议配置为1,否则可能会导致写入失败。
其中,集群最大抽取并发数的设置与CDM集群规格有关,并发数上限建议配置为vCPU核数*2。例如8核16GB规格集群的最大抽取并发数上限为16。
1
加载(写入)并发数
加载(写入)时并发执行的Loader数量。
仅当HBase或Hive作为目的数据源时该参数才显示。
3
分片重试次数
每个分片执行失败时的重试次数,为0表示不重试。
0
是否写入脏数据
选择是否记录脏数据,默认不记录脏数据。
CDM中脏数据指的是数据格式非法的数据。当源数据中存在脏数据时,建议您打开此配置。否则可能导致迁移作业失败。
说明:
脏数据当前仅支持写入到OBS桶路径中。因此仅当已具备OBS连接时,此参数才可以配置。
是
脏数据写入连接
当“是否写入脏数据”为“是”才显示该参数。
脏数据要写入的连接,目前只支持写入到OBS连接。
obs_link
OBS桶
当“脏数据写入连接”为OBS类型的连接时,才显示该参数。
写入脏数据的OBS桶的名称。
dirtydata
脏数据目录
“是否写入脏数据”选择为“是”时,该参数才显示。
OBS上存储脏数据的目录,只有在配置了脏数据目录的情况下才会记录脏数据。
用户可以进入脏数据目录,查看作业执行过程中处理失败的数据或者被清洗过滤掉的数据,针对该数据可以查看源数据中哪些数据不符合转换、清洗规则。
/user/dirtydir
单个分片的最大错误记录数
当“是否写入脏数据”为“是”才显示该参数。
单个map的错误记录超过设置的最大错误记录数则任务自动结束,已经导入的数据不支持回退。推荐使用临时表作为导入的目标表,待导入成功后再改名或合并到最终数据表。
0
开启限速
设置限速可以保护源端读取压力,速率代表CDM传输速率,而非网卡流量。
说明:
- 支持对非二进制文件迁移的作业进行单并发限速。
- 如果作业配置多并发则实际限制速率需要乘以并发数。
- 文件到文件的二进制传输不支持限速功能。
是
单并发速率上限(MB/s)
CDM限速并查看作业读写速率。
支持对到HIVE\DLI\JDBC\OBS\HDFS的作业进行单并发限速,如果配置多并发则实际速率限制需要乘以并发数。
说明:
限制速率为大于1的整数。
20
中间队列缓存大小(MB)
数据写入时中间队列缓存大小,取值范围为1-500,默认值为64。
如果单行数据超过该值,可能会导致迁移失败。如果该值设置过大时,可能会影响集群正常运行。请酌情设置,无特殊场景请使用默认值。例如:64
64
- 数据迁移作业提交运行后,CDM会根据作业配置中的“抽取并发数”参数,将每个作业拆分为多个Task,即作业分片。
- 单击“保存”,或者“保存并运行”回到作业管理界面,可查看作业状态。
说明:
作业状态有New,Pending,Booting,Running,Failed,Succeeded,stopped。
其中“Pending”表示正在等待系统调度该作业,“Booting”表示正在分析待迁移的数据。