- 最新动态
- 功能总览
- 产品介绍
- 数据治理方法论
- 准备工作
- 快速入门
-
用户指南
- DataArts Studio使用流程
- 购买并配置DataArts Studio
- 授权用户使用DataArts Studio
-
管理中心
- DataArts Studio支持的数据源
- 创建DataArts Studio数据连接
-
配置DataArts Studio数据连接参数
- DWS数据连接参数说明
- DLI数据连接参数说明
- MRS Hive数据连接参数说明
- Apache Hive数据连接参数说明
- MRS HBase数据连接参数说明
- MRS Kafka数据连接参数说明
- MRS Spark数据连接参数说明
- MRS Clickhouse数据连接参数说明
- MRS Hetu数据连接参数说明
- MRS Impala数据连接参数说明
- MRS Ranger数据连接参数说明
- MRS Presto数据连接参数说明
- Doris数据连接参数说明
- OpenSource ClickHouse数据连接参数说明
- RDS数据连接参数说明
- ORACLE数据连接参数说明
- DIS数据连接参数说明
- 主机连接参数说明
- OBS数据连接参数说明
- Apache HDFS数据连接参数说明
- MRS Hudi数据连接参数说明
- Elasticsearch数据连接参数说明
- Rest Client数据连接参数说明
- DMS Kafka数据连接参数说明
- MongoDB数据连接参数说明
- SFTP/FTP数据连接参数说明
- GBase数据连接参数说明
- Redis数据连接参数说明
- SAP HANA数据连接参数说明
- LTS数据连接参数说明
- 配置DataArts Studio资源迁移
- 配置DataArts Studio企业模式环境隔离
- 管理中心典型场景教程
-
数据集成(CDM作业)
- 数据集成概述
- 约束与限制
- 支持的数据源
- 创建并管理CDM集群
-
在CDM集群中创建连接
- 创建CDM与数据源之间的连接
-
配置连接参数
- OBS连接参数说明
- PostgreSQL/SQLServer连接参数说明
- 数据仓库服务(DWS)连接参数说明
- 云数据库MySQL/MySQL数据库连接参数说明
- Oracle数据库连接参数说明
- DLI连接参数说明
- Hive连接参数说明
- HBase连接参数说明
- HDFS连接参数说明
- FTP/SFTP连接参数说明
- Redis连接参数说明
- DDS连接参数说明
- CloudTable连接参数说明
- MongoDB连接参数说明
- Cassandra连接参数说明
- DIS连接参数说明
- Kafka连接参数说明
- DMS Kafka连接参数说明
- 云搜索服务(CSS)连接参数说明
- Elasticsearch连接参数说明
- 达梦数据库 DM连接参数说明
- SAP HANA连接参数说明
- 分库连接参数说明
- MRS Hudi连接参数说明
- MRS ClickHouse连接参数说明
- 神通(ST)连接参数说明
- CloudTable OpenTSDB连接参数说明
- GBASE连接参数说明
- YASHAN连接参数说明
- 上传CDM连接驱动
- 新建Hadoop集群配置
-
在CDM集群中创建作业
- 新建表/文件迁移作业
- 新建整库迁移作业
-
配置CDM作业源端参数
- 配置OBS源端参数
- 配置HDFS源端参数
- 配置HBase/CloudTable源端参数
- 配置Hive源端参数
- 配置DLI源端参数
- 配置FTP/SFTP源端参数
- 配置HTTP源端参数
- 配置PostgreSQL/SQL Server源端参数
- 配置DWS源端参数
- 配置SAP HANA源端参数
- 配置MySQL源端参数
- 配置Oracle源端参数
- 配置分库源端参数
- 配置MongoDB/DDS源端参数
- 配置Redis源端参数
- 配置DIS源端参数
- 配置Kafka/DMS Kafka源端参数
- 配置Elasticsearch/云搜索服务源端参数
- 配置OpenTSDB源端参数
- 配置MRS Hudi源端参数
- 配置MRS ClickHouse源端参数
- 配置神通(ST)源端参数
- 配置达梦数据库 DM源端参数
- 配置YASHAN源端参数
- 配置CDM作业目的端参数
- 配置CDM作业字段映射
- 配置CDM作业定时任务
- CDM作业配置管理
- 管理单个CDM作业
- 批量管理CDM作业
- 时间宏变量使用解析
- 优化迁移性能
- 关键操作指导
- 使用教程
- 常见错误码参考
-
数据集成(离线作业)
- 离线作业概述
- 支持的数据源
- 新建离线处理集成作业
- 配置离线处理集成作业
-
配置作业源端参数
- 配置MySql源端参数
- 配置Hive源端参数
- 配置HDFS源端参数
- 配置Hudi源端参数
- 配置PostgreSQL源端参数
- 配置SQLServer源端参数
- 配置Oracle源端参数
- 配置DLI源端参数
- 配置OBS源端参数
- 配置SAP HANA源端参数
- 配置Kafka源端参数
- 配置Rest Client源端参数
- 配置DWS源端参数
- 配置FTP/SFTP源端参数
- 配置Doris源端参数
- 配置HBase 源端参数
- 配置ClickHouse源端参数
- 配置ElasticSearch源端参数
- 配置MongoDB源端参数
- 配置RestApi源端参数
- 配置GBase源端参数
- 配置Redis源端参数
- 配置LTS源端参数
- 配置作业目的端参数
- 字段转换器配置指导
- 新增字段操作指导
- 数据集成(实时作业)
- 数据架构
- 数据指标
-
数据开发
- 数据开发概述
- 数据管理
- 脚本开发
- 作业开发
- 解决方案
- 运行历史
- 运维调度
- 配置管理
- 审批中心
- 下载中心
-
节点参考
- 节点概述
- 节点数据血缘
- CDM Job
- Data Migration
- DIS Stream
- DIS Dump
- DIS Client
- Rest Client
- Import GES
- MRS Kafka
- Kafka Client
- ROMA FDI Job
- DLI Flink Job
- DLI SQL
- DLI Spark
- DWS SQL
- MRS Spark SQL
- MRS Hive SQL
- MRS Presto SQL
- MRS Spark
- MRS Spark Python
- MRS ClickHouse
- MRS HetuEngine
- MRS Impala SQL
- MRS Flink Job
- MRS MapReduce
- CSS
- Shell
- RDS SQL
- ETL Job
- Python
- DORIS SQL
- GBase SQL
- ModelArts Train
- OCR
- Create OBS
- Delete OBS
- OBS Manager
- Open/Close Resource
- Data Quality Monitor
- Sub Job
- For Each
- SMN
- Dummy
- EL表达式参考
- 简易变量集参考
- 使用教程
- 数据质量
- 数据目录
- 数据安全
- 数据服务
- 审计日志
- 最佳实践
-
API参考
- 使用前必读
- API概览
- 如何调用API
- 数据集成API
- 数据开发API(V1)
- 数据开发API(V2)
- 管理中心API
- 数据架构API
- 数据质量API
- 数据目录API
- 数据服务API
- 数据安全API
- 应用示例
- 附录
- SDK参考
-
常见问题
-
咨询与计费
- 区域和可用区如何选择?
- 数据库、数据仓库、数据湖与华为智能数据湖方案是什么,有哪些区别和联系?
- DataArts Studio和沃土是什么关系?
- DataArts Studio和ROMA有什么差异?
- DataArts Studio是否支持私有化部署到本地或私有云?
- 如何在IAM中创建细粒度权限策略?
- 如何实现用户的工作空间隔离,使其无法查看其他未授权工作空间?
- 用户已添加权限,还是无法查看工作空间?
- IAM用户操作时报错“无xx权限”怎么办?
- DataArts Studio的工作空间可以删除吗?
- 可以免费试用DataArts Studio吗?
- 免费试用即将到期,如何续费?
- 实例试用/购买成功后,可以转移到其他账号下吗?
- DataArts Studio是否支持版本升级?
- DataArts Studio是否支持版本降级?
- 如何查看DataArts Studio的版本?
- 购买DataArts Studio实例时为什么选不到指定的IAM项目?
- DataArts Studio的会话超时时间是多少,是否支持修改?
- 套餐包到期未续订或按需资源欠费时,我的数据会保留吗?
- 如何查看套餐包的剩余时长?
- DataArts Studio实例中的CDM没有计费是什么原因?
- 为什么会提示每日执行节点个数超过上限,应该怎么处理?
- 管理中心
-
数据集成(CDM作业)
- CDM与其他数据迁移服务有什么区别,如何选择?
- CDM有哪些优势?
- CDM有哪些安全防护?
- 如何降低CDM使用成本?
- CDM未使用数据传输功能时,是否会计费?
- 已购买包年包月的CDM套餐包,为什么还会产生按需计费的费用?
- 如何查看套餐包的剩余时长?
- CDM可以跨账户使用吗?
- CDM集群是否支持升级操作?
- CDM迁移性能如何?
- CDM不同集群规格对应并发的作业数是多少?
- 是否支持增量迁移?
- 是否支持字段转换?
- Hadoop类型的数据源进行数据迁移时,建议使用的组件版本有哪些?
- 数据源为Hive时支持哪些数据格式?
- 是否支持同步作业到其他集群?
- 是否支持批量创建作业?
- 是否支持批量调度作业?
- 如何备份CDM作业?
- 如何解决HANA集群只有部分节点和CDM集群网络互通?
- 如何使用Java调用CDM的Rest API创建数据迁移作业?
- 如何将云下内网或第三方云上的私网与CDM连通?
- CDM是否支持参数或者变量?
- CDM迁移作业的抽取并发数应该如何设置?
- CDM是否支持动态数据实时迁移功能?
- CDM是否支持集群关机功能?
- 如何使用表达式方式获取当前时间?
- 日志提示解析日期格式失败时怎么处理?
- 字段映射界面无法显示所有列怎么处理?
- CDM迁移数据到DWS时如何选取分布列?
- 迁移到DWS时出现value too long for type character varying怎么处理?
- OBS导入数据到SQL Server时出现Unable to execute the SQL statement怎么处理?
- 获取集群列表为空/没有权限访问/操作时报当前策略不允许执行?
- Oracle迁移到DWS报错ORA-01555
- MongoDB连接迁移失败时如何处理?
- Hive迁移作业长时间卡顿怎么办?
- 使用CDM迁移数据由于字段类型映射不匹配导致报错怎么处理?
- MySQL迁移时报错“JDBC连接超时”怎么办?
- 创建了Hive到DWS类型的连接,进行CDM传输任务失败时如何处理?
- 如何使用CDM服务将MySQL的数据导出成SQL文件,然后上传到OBS桶?
- 如何处理CDM从OBS迁移数据到DLI出现迁移中断失败的问题?
- 如何处理CDM连接器报错“配置项 [linkConfig.iamAuth] 不存在”?
- 报错“配置项[linkConfig.createBackendLinks]不存在”或“配置项 [throttlingConfig.concurrentSubJobs] 不存在怎么办”?
- 新建MRS Hive连接时,提示:CORE_0031:Connect time out. (Cdm.0523) 怎么解决?
- 迁移时已选择表不存在时自动创表,提示“CDM not support auto create empty table with no column”怎么处理?
- 创建Oracle关系型数据库迁移作业时,无法获取模式名怎么处理?
- MySQL迁移时报错:invalid input syntax for integer: "true"
- 数据集成(实时作业)
- 数据架构
-
数据开发
- 数据开发可以创建多少个作业,作业中的节点数是否有限制?
- DataArts Studio支持自定义的Python脚本吗?
- 作业关联的CDM集群删除后,如何快速修复?
- 作业的计划时间和开始时间相差大,是什么原因?
- 相互依赖的几个作业,调度过程中某个作业执行失败,是否会影响后续作业?这时该如何处理?
- 通过DataArts Studio调度大数据服务时需要注意什么?
- 环境变量、作业参数、脚本参数有什么区别和联系?
- 打不开作业日志,返回404报错?
- 配置委托时获取委托列表失败如何处理?
- 数据开发创建数据连接,为什么选不到指定的周边资源?
- 配置了SMN通知,却收不到作业失败告警通知?
- 作业配置了周期调度,但是实例监控没有作业运行调度记录?
- Hive SQL和Spark SQL脚本执行失败,界面只显示执行失败,没有显示具体的错误原因?
- 数据开发节点运行中报TOKEN不合法?
- 作业开发时,测试运行后如何查看运行日志?
- 月周期的作业依赖天周期的作业,为什么天周期作业还未跑完,月周期的作业已经开始运行?
- 执行DLI脚本,报Invalid authentication怎么办?
- 创建数据连接时,在代理模式下为什么选不到需要的CDM集群?
- 作业配置了每日调度,但是实例没有作业运行调度记录?
- 查看作业日志,但是日志中没有内容?
- 创建了2个作业,但是为什么无法建立依赖关系?
- DataArts Studio执行调度时,报错提示“作业没有可以提交的版本”怎么办?
- DataArts Studio执行调度时,报错提示“作业中节点XXX关联的脚本没有提交的版本”怎么办?
- 提交调度后的作业执行失败,报depend job [XXX] is not running or pause怎么办?
- 如何创建数据库和数据表,数据库对应的是不是数据连接?
- 为什么执行完HIVE任务什么结果都不显示?
- 在作业监控页面里的“上次实例状态”只有运行成功、运行失败,这是为什么?
- 如何创建通知配置对全量作业都进行结果监控?
- 数据开发的并行执行节点数是多少?
- DataArts Studio是否支持修改时区?
- CDM作业改名后,在数据开发中如何同步?
- 执行RDS SQL,报错hll不存在,在DataArts Studio可以执行成功?
- 创建DWS数据连接时报错提示“The account has been locaked”怎么处理?
- 作业实例取消了,日志提示“The node start execute failed, so the current node status is set to cancel.”怎么处理?
- 调用数据开发接口报错“Workspace does not exists”怎么处理?
- Postman调用接口返回结果正常,为什么测试环境调用接口的URL参数不生效?
- 执行Python脚本报错:Agent need to be updated?
- 节点状态为成功,为什么日志显示运行失败?
- 调用数据开发API报错Unknown Exception?
- 调用创建资源的API报错“资源名不合法”是什么原因?
- 补数据的作业实例都是成功的,为什么补数据任务失败了?
- DWS数据连接可视化建表,报错提示“表已存在”,但是展开数据连接看不到该表?
- 调度MRS spark作业报错“The throttling threshold has been reached: policy user over ratelimit,limit:60,time:1 minute.”怎么处理?
- 执行Python脚本,报错“UnicodeEncodeError :‘ascii' codec cant encode characters in position 63-64 : ordinal not in range ( 128 )”怎么处理?
- 查看日志时,系统提示“OBS日志文件不存在,请检查文件是否被删除或者没有OBS写入权限。”怎么办?
- Shell/Python节点执行失败,后台报错session is down
- 请求头中参数值长度超过512个字符时,何如处理?
- 执行DWS SQL脚本时,提示id不存在,如何处理?
- 如何查看CDM作业被哪些作业进行调用?
- 执行SQL语句失败,系统提示“Failed to create ThriftService instance, please check the cluster has available resources and check YARN or Spark driver's logs for further information”,如何处理?
- 使用python调用执行脚本的api报错:The request parameter invalid,如何处理?
- 在ECS上调试好的shell脚本,在DLF中shell脚本执行异常,如何处理?
- DataArts Studio调度CDM任务时报错Given transaction id [xxxx] is invalid,如何处理?
- 在数据开发子模块中,doris SQL作业执行失败,是什么原因?
- 在数据开发子模块中,新建的DLI SQL脚本默认队列是一个已删除的队列,怎么处理?
- 数据开发中的事件驱动是否支持线下kafka?
- 数据质量
- 数据目录
- 数据安全
- 数据服务
-
咨询与计费
- 视频帮助
- 文档下载
- 通用参考
链接复制成功!
新建数据对账作业
数据对账对于数据开发和数据迁移流程中的数据一致性至关重要,而跨源数据对账的能力是检验数据迁移或数据加工前后是否一致的关键指标。
数据质量监控中的对账作业支持跨源数据对账能力,可将创建的规则应用到两张表中进行质量监控,并输出对账结果。
创建作业
- 在DataArts Studio控制台首页,选择对应工作空间的“数据质量”模块,进入数据质量页面。
- (可选)选择“数据质量监控 > 对账作业”,新建目录。如果已存在可用的目录,可以不用新建目录。注意,规则模板、质量作业和对账作业的目录为同一目录,择一操作即可。
当前系统支持“新建目录”和“同步主题为目录”两种方式:
选择“新建目录”时,直接在目录处单击,输入目录名称,即可完成目录新建。直接新建目录的最大深度拓展为7层。
图1 新建目录选择“同步主题为目录”时,在目录处单击,即可将数据架构处的主题同步到目录中(仅支持同步“已发布”状态的主题)。同步后的主题目录与数据架构发布后主题一致,按照主题层级如
、
等进行展示。
说明:
- 直接新建的普通目录不受同步影响。但当普通目录名称与主题名称冲突时:
- 主题首次同步名称冲突时,会将普通目录修改为主题目录属性,带上主题层级如
、
等进行展示。
- 主题修改后再次同步名称冲突时,会出现同步失败的情况。
- 主题首次同步名称冲突时,会将普通目录修改为主题目录属性,带上主题层级如
- 不支持变更自动同步。即数据架构处的主题或主题层级变更并发布后,需要手动再次单击
才能同步到主题目录。
特殊的,数据架构处的主题或主题层级删除后,手动同步后目录不会删除,仅去除主题目录属性,作为普通目录进行展示。
- 完成同步后,若有同步失败的主题,系统会自动弹出同步结果明细,可查看同步失败的主题名称。
图2 同步主题为目录 - 直接新建的普通目录不受同步影响。但当普通目录名称与主题名称冲突时:
- 在“对账作业”页面,单击“新建”,在弹出的对话框中,参见表1配置相关参数。
表1 配置作业参数 参数名
说明
作业名称
对账作业的名称。
描述
为更好的识别数据对账作业 ,此处加以描述信息。描述信息长度不能超过1024个字符。
标签
选择所需的标签。标签是在数据地图组件中定义的标签。如果未使用数据地图组件,则标签功能不生效。
所属目录
数据对账作业的存储目录,可选择已创建的目录。目录创建请参见(可选)新建目录。
作业级别
支持提示,一般,严重和致命四种级别,作业级别决定发出通知消息的模板样式。
超时时间
输入超时时间。输入值必须在5到1440之间。单位为分钟。该参数为空或者默认1440分钟时,超时时间系统默认为24小时,支持修改。
- 单击“下一步”,进入规则配置页面。您需要单击规则卡片中的
,然后参见表2配置数据对账规则。您也可选择添加对账规则。
图3 打开对账作业规则配置表2 配置模板规则 模块
参数名
说明
基本信息
子作业名称
在作业的执行结果中,每条规则对应一个子作业。为便于结果查看和日志定位,建议您补充子作业信息。
描述
为更好的识别子作业,此处加以描述信息。描述信息长度不能超过1024个字符。
来源对象/目的对象
规则类型
来源对象的“规则类型”包括“表级规则”,“字段级规则”和“自定义规则”。字段级规则可针对表中的具体字段配置监控规则。此处选择为表级规则,页面中其他设置项对应为表级规则配置项。
目的对象的“规则类型”由来源对象的规则类型自动生成。
数据连接
来源对象/目的对象支持的数据源类型:DWS、MRS Hive、MRS Spark、DLI、ORACLE、RDS(MySQL、PostgreSQL)、Hetu、MRS Spark(Hudi)、MRS ClickHouse、DORIS。
从下拉列表中选择已创建的数据连接。
说明:
- 规则都是基于数据连接的,所以在建立数据质量规则之前需要先到管理中心模块中建立数据连接。
- 针对通过代理连接的MRS Hive,需要选择MRS API方式或者代理方式提交:
- MRS API方式:通过MRS API的方式提交。历史作业默认是MRS API提交,编辑作业时建议不修改。
- 代理方式:通过用户名、密码访问的方式提交。新建作业建议选择代理提交,可以避免权限问题导致的作业提交失败。
- 数据质量当前不支持MRS hive组件的严格模式 。
数据库
选择配置的数据质量规则所应用到的数据库。
说明:
- 数据库基于已建立的数据连接。
- 当“规则类型”选择“自定义规则”,数据对象选择对应的数据库即可。
数据对象
在来源对象选择的数据表将和右侧目的对象的数据表做结果比较。选择配置的数据对账规则所应用到的表。
说明:
数据表与数据库强相关,基于已选择的数据库。数据库基于已建立的数据连接。
SQL
当“规则类型”选择“自定义规则”时,需要配置该参数。此处需输入完整的SQL语句,定义如何对数据对象进行数据质量监控。
默认参数值
自定义SQL可设置入参用于执行,SQL入参需要与参数默认值顺序匹配(数据质量单点执行时)。
说明:
当通过数据开发任务调度质量算子的时候,优先使用数据开发中定义的参数值。
计算引擎
队列名称
选择运行对账作业的引擎。仅数据连接为DLI、Hive或Hetu类型时,此参数有效,输入队列名称。
当连接类型为Hetu,规则类型为除了库级以外的所有系统模板,自定义模板,自定义规则时,队列名称指的是Hetu引擎的资源队列名称。查看Hetu引擎的资源队列名称,需要登录MRS的FusionInsight Manager系统,单击左侧导航的HetuEngine,在基本信息区域,单击HSConsole WebUI链接,在计算实例列表中查看Hetu引擎的资源队列名称。
规则模板
模板名称
该参数定义如何对数据对象做数据质量监控。
来源对象的模板名称包含内置的规则模板和用户自定义的规则模板。
目的对象的“模板名称”由来源对象的规则类型自动生成。
版本
仅“模板名称”选择为自定义的规则模板时,需要配置该参数。自定义的规则模板发布后,会产生对应的版本号,此处选择所需的版本。
计算范围
选择扫描区域
支持选择“全表扫描”或“条件扫描”,默认为全表扫描。
当仅需计算一部分数据,或需周期性按时间戳运行对账作业时,建议通过设置where条件进行条件扫描。
where条件
输入where子句,系统会选择符合条件的数据进行扫描。
说明:
配置where条件语句时,最前面需要加and,因为在SQL生成中需要进行语法的校验,否则会报语法错误。
例如需要筛选数据表中“age”字段在 (18, 60] 区间范围内的数据时,where条件可设置为如下内容:
and age > 18 and age <= 60
where条件还支持输入为SQL动态表达式,例如当需要根据“time”字段筛选数据表中24小时前的数据时,where条件可设置为如下内容:
and time >= (date_trunc('hour', now()) - interval '24 h') and time <= (date_trunc('hour', now()))
参数默认值
当选择“条件扫描”时可填写。
请按照输入的where条件文本框中出现的参数名,依次填写默认参数值。
说明:
参数默认值优先由数据开发传递,为空时可能会造成质量作业运行出错。
数据开发传递参数给数据质量后,作业运行完以后,通过“查看SQL”可以查看所传递的数据开发的参数以及参数值。
告警条件
告警表达式
此参数可选,如果您需要针对当前规则设定告警条件,则可以在此配置告警条件的表达式。
配置规则的告警条件后,系统通过“告警参数”的值,结合告警条件进行真假判断,如果结果为真则进行告警。另外,除了单一告警表达式的结果,您还可以通过逻辑运算符组成更复杂的告警条件进行告警。当前表达式中支持如下逻辑运算符,且可以通过“(”和“)”进行包围:
- +:相加
- -:相减
- *:相乘
- /:相除
- ==:等于
- !=:不等于
- >:大于
- <:小于
- >=:大于等于
- <=:小于等于
- !:非
- ||:或
- &&:与
- abs:绝对值
例如,对账作业的来源侧和目的侧的“规则模板”为“表行数”时,您可以参考如下样例进行配置:
- 需要配置来源侧表行数小于100时告警,则此处可设置为“${1_1}<100”,其中“${1_1}”为通过告警参数配置的来源侧表“总行数”。
- 需要配置来源侧表行数不等于目的侧表行数时告警,则此处可设置为“${1_1}!=${2_1}”,其中“${1_1}”为通过告警参数配置的来源侧表“总行数”,“${2_1}”为通过告警参数配置的目的侧表“总行数”。
- 需要配置来源侧表行数小于100或来源侧表行数不等于目的侧表行数时告警,则此处可设置为“(${1_1}<100)||(${1_1}!=${2_1})”,其中“${1_1}”和“${2_1}”分别为通过告警参数配置的来源侧表和目的侧表的“总行数”,“||”表示满足两个条件之一即会告警。
- 需要配置来源侧表行数减去目的侧表行数的绝对值在除以来源侧表行数大于0.1时告警,则此处可设置为“abs(${1_1}-${2_1})/${1_1}>0.1”,其中“${1_1}”为通过告警参数配置的来源侧表“总行数”,“${2_1}”为通过告警参数配置的目的侧表“总行数”。
告警参数
此参数来源于规则模板的输出结果。您可以单击界面显示的参数从而输入告警表达式中的告警参数,单击后系统会在“告警表达式”输入框给出参数的表达式。
例如“规则模板”为“表行数”时,单击告警参数“总行数”,在“告警表达式”输入框会显示为“${1_1}”。
逻辑运算符
可选,本参数支持将单一告警表达式的结果进行逻辑运算,组成更复杂的告警条件。
您可以将鼠标光标放在“告警表达式”输入框处需要进行逻辑运算的两个告警表达式之间,然后单击输入如下之一运算符。另外,您也可以手动输入,当前表达式中支持如下逻辑运算符,且可以通过“(”和“)”进行包围:
- +:相加
- -:相减
- *:相乘
- /:相除
- ==:等于
- !=:不等于
- >:大于
- <:小于
- >=:大于等于
- <=:小于等于
- !:非
- ||:或
- &&:与
- abs:绝对值
例如,“规则模板”为“表行数”,需要配置来源侧表行数小于100或来源侧表行数不等于目的侧表行数时告警,则此处可设置为“(${1_1}<100)||(${1_1}!=${2_1})”,其中“${1_1}”和“${2_1}”分别为通过告警参数配置的来源侧表和目的侧表的“总行数”,“||”表示满足两个条件之一即会告警。
- 单击“下一步”,设置订阅配置信息,如果需要接收SMN通知,打开通知状态,选择通知类型和SMN服务主题,如图4。
说明:
开启订阅配置后,每个满足通知类型的子作业都会发送通知。
如果开启告警,失败告警通知不需要单独配置,任务运行失败后会发送告警。
当前仅支持“短信”、“邮件”这两种协议的订阅终端订阅主题。
通知类型包含“触发告警”和“运行成功”两种。
打开“通知抑制”后,告警上报的通知策略可以进行配置,在最近N分钟以内,连续N次告警,则发送告警通知。最近时间可支持配置1~360分钟,连续次数可支持配置1~10次。
- 单击“下一步”,选择调度方式,支持单次调度和周期调度两种方式,周期调度的相关参数配置请参见表3。配置完成后单击“提交”。
说明:
- 单次调度会产生手动任务的实例,手动任务的特点是没有调度依赖,只需要手动触发即可。
- 周期调度会产生周期实例,周期实例是周期任务达到启用调度所配置的周期性运行时间时,被自动调度起来的实例快照。
- 周期任务每调度一次,便生成一个实例工作流。您可以对已调度起的实例任务进行日常的运维管理,如查看运行状态,对任务进行终止、重跑等操作。
- 只有支持委托提交作业的MRS集群,才支持对账作业周期调度。 支持委托方式提交作业的MRS集群有:
- MRS的非安全集群。
- MRS的安全集群,集群版本大于 2.1.0,并且安装了MRS 2.1.0.1以上的补丁。
表3 配置周期调度参数 参数名
说明
生效日期
调度任务的生效日期。
调度周期
选择调度任务的执行周期,并配置相关参数。
- 分钟
- 小时
- 天
- 周
说明:
- 调度周期选择分钟/小时,需配置调度的开始时间、间隔时间和结束时间。
- 调度周期选择天,需要配置调度时间,即确定了调度任务于每天的几时几分启用。
- 调度周期选择周,需要配置生效时间和调度时间,即确定了调度任务于周几的几时几分启用。
对账作业创建完成后,可以在作业里面进行查看,系统支持通过作业名称、创建人、最近运行时间进行筛选。同时,系统支持模糊搜索。
对账作业创建完成后,可以对该对账作业进行编辑、删除、运行、启动调度、停止调度等操作。
说明:
单次调度模式不支持启动调度。
运行单个对账作业
系统支持运行单个对账作业。
- 选择“数据质量监控 > 对账作业”,选择要运行的对账作业。
- 单击“操作”列的“运行”。
- 企业模式下,选择运行环境,系统支持可选择“开发环境”或“生产环境”。
- 单击“确定”。
导出对账作业
系统支持批量导出对账作业,一次最多可导出200个对账作业。导出作业时,导出的单元格内容最大长度支持65534个字符。
- 选择“数据质量监控 > 对账作业”,选择要导出的对账作业。
- 单击“导出”,弹出“导出对账作业”对话框。
- 单击“导出”,切换到“导出记录”页签。
- 在导出文件列表中,单击最新导出文件对应的“下载”,可将对账作业的Excel表格下载到本地。
导入对账作业
系统支持批量导入对账作业,一次最大可导入4M数据的文件。导入作业时,导出的单元格内容最大长度支持65534个字符。
- 选择“数据质量监控 > 对账作业”,单击“导入”,弹出“导入对账作业”对话框。
图5 导入对账作业
- 在“导入配置”页签,选择模板名称重名策略。
- 终止:如果对账作业名称有重复,则全部导入失败。
- 跳过:如果对账作业名称有重复,会忽略后继续导入。
- 覆盖:如果对账作业名称有重复,会覆盖现有同名作业。
说明:
如果选择覆盖,请在导入文件前,停止所有作业调度,否则调度中的作业会导致上传文件失败。
- 单击“上传文件”,选择准备好的数据文件。
说明:
可通过如下两种方式填写数据文件:
- (推荐使用) 通过“导出”功能,可将数据直接/或修改后批量导入系统。
- 通过“下载Excel模板”,将数据填写好,再导入至系统中。
- 分别配置数据连接、集群、目录、主题、映射资源信息。如不选择,默认使用原映射资源信息。
图6 配置映射资源信息
- 数据连接:选择导入后的数据连接类型。
- 集群:如果数据连接类型是DLI,需要选择对应的队列。
- 目录:选择导入后的对账作业存储目录。
- 主题:如果配置了消息通知,需要选择主题。
- 单击“导入”,将填好的Excel表格模板导入到系统。
- 单击“导入记录页签”,可查看对应的导入记录。
批量运行对账作业
系统支持批量运行对账作业,一次最多可批量运行200个对账作业。
- 选择“数据质量监控 > 对账作业”,选择要批量运行的对账作业。
- 单击“更多 > 批量运行”,即可完成对账作业的批量运行。
图7 批量运行
- 企业模式下,选择运行环境,系统支持可选择“开发环境”或“生产环境”。
- 单击“确定”。
批量调度对账作业
系统支持批量调度对账作业,一次最多可批量调度200个对账作业。
- 选择“数据质量监控 > 对账作业”,选择要批量调度的对账作业。
- 单击“更多 > 启动调度”,即可完成对账作业的批量调度。
图8 批量调度
批量停止调度对账作业
系统支持批量停止调度对账作业,一次最多可批量停止200个对账作业。
- 选择“数据质量监控 > 对账作业”,选择要批量停止调度的对账作业。
- 单击“更多 > 停止调度”,即可完成对账作业的批量停止调度。
图9 批量停止调度
批量停止运行对账作业
系统支持批量停止运行对账作业,一次最多可批量停止200个对账作业。
仅运行状态为“运行中”的对账作业可以停止。
- 选择“数据质量监控 > 运维管理”,选择要批量停止的对账作业。
- 单击“停止运行”,在弹出的“停止实例”界面中确认需要停止运行的对账作业实例,单击“是”,即可完成对账作业的批量停止运行。
图10 批量停止运行图11 停止实例