计算
弹性云服务器 ECS
Flexus云服务
裸金属服务器 BMS
弹性伸缩 AS
镜像服务 IMS
专属主机 DeH
函数工作流 FunctionGraph
云手机服务器 CPH
Huawei Cloud EulerOS
网络
虚拟私有云 VPC
弹性公网IP EIP
虚拟专用网络 VPN
弹性负载均衡 ELB
NAT网关 NAT
云专线 DC
VPC终端节点 VPCEP
云连接 CC
企业路由器 ER
企业交换机 ESW
全球加速 GA
安全与合规
安全技术与应用
Web应用防火墙 WAF
企业主机安全 HSS
云防火墙 CFW
安全云脑 SecMaster
DDoS防护 AAD
数据加密服务 DEW
数据库安全服务 DBSS
云堡垒机 CBH
数据安全中心 DSC
云证书管理服务 CCM
边缘安全 EdgeSec
威胁检测服务 MTD
CDN与智能边缘
内容分发网络 CDN
CloudPond云服务
智能边缘云 IEC
迁移
主机迁移服务 SMS
对象存储迁移服务 OMS
云数据迁移 CDM
迁移中心 MGC
大数据
MapReduce服务 MRS
数据湖探索 DLI
表格存储服务 CloudTable
云搜索服务 CSS
数据接入服务 DIS
数据仓库服务 GaussDB(DWS)
数据治理中心 DataArts Studio
数据可视化 DLV
数据湖工厂 DLF
湖仓构建 LakeFormation
企业应用
云桌面 Workspace
应用与数据集成平台 ROMA Connect
云解析服务 DNS
专属云
专属计算集群 DCC
IoT物联网
IoT物联网
设备接入 IoTDA
智能边缘平台 IEF
用户服务
账号中心
费用中心
成本中心
资源中心
企业管理
工单管理
国际站常见问题
ICP备案
我的凭证
支持计划
客户运营能力
合作伙伴支持计划
专业服务
区块链
区块链服务 BCS
Web3节点引擎服务 NES
解决方案
SAP
高性能计算 HPC
视频
视频直播 Live
视频点播 VOD
媒体处理 MPC
实时音视频 SparkRTC
数字内容生产线 MetaStudio
存储
对象存储服务 OBS
云硬盘 EVS
云备份 CBR
存储容灾服务 SDRS
高性能弹性文件服务 SFS Turbo
弹性文件服务 SFS
云硬盘备份 VBS
云服务器备份 CSBS
数据快递服务 DES
专属分布式存储服务 DSS
容器
云容器引擎 CCE
容器镜像服务 SWR
应用服务网格 ASM
华为云UCS
云容器实例 CCI
管理与监管
云监控服务 CES
统一身份认证服务 IAM
资源编排服务 RFS
云审计服务 CTS
标签管理服务 TMS
云日志服务 LTS
配置审计 Config
资源访问管理 RAM
消息通知服务 SMN
应用运维管理 AOM
应用性能管理 APM
组织 Organizations
优化顾问 OA
IAM 身份中心
云运维中心 COC
资源治理中心 RGC
应用身份管理服务 OneAccess
数据库
云数据库 RDS
文档数据库服务 DDS
数据管理服务 DAS
数据复制服务 DRS
云数据库 GeminiDB
云数据库 GaussDB
分布式数据库中间件 DDM
数据库和应用迁移 UGO
云数据库 TaurusDB
人工智能
人脸识别服务 FRS
图引擎服务 GES
图像识别 Image
内容审核 Moderation
文字识别 OCR
AI开发平台ModelArts
图像搜索 ImageSearch
对话机器人服务 CBS
华为HiLens
视频智能分析服务 VIAS
语音交互服务 SIS
应用中间件
分布式缓存服务 DCS
API网关 APIG
微服务引擎 CSE
分布式消息服务Kafka版
分布式消息服务RabbitMQ版
分布式消息服务RocketMQ版
多活高可用服务 MAS
事件网格 EG
企业协同
华为云会议 Meeting
云通信
消息&短信 MSGSMS
云生态
合作伙伴中心
云商店
开发者工具
SDK开发指南
API签名指南
Terraform
华为云命令行工具服务 KooCLI
其他
产品价格详情
系统权限
管理控制台
客户关联华为云合作伙伴须知
消息中心
公共问题
开发与运维
应用管理与运维平台 ServiceStage
软件开发生产线 CodeArts
需求管理 CodeArts Req
部署 CodeArts Deploy
性能测试 CodeArts PerfTest
编译构建 CodeArts Build
流水线 CodeArts Pipeline
制品仓库 CodeArts Artifact
测试计划 CodeArts TestPlan
代码检查 CodeArts Check
代码托管 CodeArts Repo
云应用引擎 CAE
开天aPaaS
云消息服务 KooMessage
云手机服务 KooPhone
云空间服务 KooDrive
文档首页/ 数据治理中心 DataArts Studio/ 最佳实践/ DataArts Studio数据开发作业告警最佳实践

DataArts Studio数据开发作业告警最佳实践

更新时间:2024-08-30 GMT+08:00

DataArts Studio数据开发作为大数据调度平台,如果每日频繁调度大量的大数据作业,可能会遇到如下痛点:

  • 作业失败无感知:大数据的离线作业大部分会在凌晨执行,当作业失败时,用户无法及时得知并处理。
  • 作业补数窗口期较短:上游作业失败重跑过多导致下游核心业务执行时间超过基线,导致影响业务时发现时间太晚,无法及时执行补救措施。

为了解决这些痛点,您可以通过配置各类作业告警,及时发现调度运行问题,提高处理问题的窗口期。

  • 配置作业节点失败重试配置作业失败告警:通过配置作业节点失败重试及失败告警,尽量减少在集群压力峰值时的作业无法正常运行的情况,即使发生失败也可以及时通知到运维管理人员解决,减少故障升级情况。
  • 配置作业超时告警:通过配置作业超时告警,可以提前发现作业运行的潜在风险问题,判定当天是否能按基线生成业务侧所需要的数据,提高容错窗口时间,降低故障时间。

前提条件

已完成数据开发作业的开发和调度配置。

配置作业节点失败重试

您可以通过关键业务作业中的节点配置,逐一开启节点失败重试;也可以通过批量作业配置,统一开启各作业中的节点失败重启。本章节以批量作业配置为例,为您介绍如果配置作业节点失败重试。

  1. 参考访问DataArts Studio实例控制台,登录DataArts Studio管理控制台。
  2. DataArts Studio控制台首页,选择对应工作空间的“数据开发”模块,进入数据开发页面。
  3. 在数据开发主界面的左侧导航栏,选择数据开发 > 作业开发
  4. 单击作业目录中的,选择“显示复选框”
    图1 显示作业复选框

  5. 勾选需要配置失败重试的作业,单击 > 作业配置,进入作业配置窗口。
    说明:

    对于CDM Job作业,建议仅选择文件类的CDM Job作业或启用了导入阶段表的数据类CDM Job作业。未启用导入阶段表的数据类CDM Job作业可能因作业失败重试引起数据重复写入,导致迁移前后的数据不一致。

    图2 作业配置菜单

  6. 在作业配置窗口中,配置失败重试策略。
    • 失败重试:选择“是”,开启所选择作业中所有节点的失败重试功能。
    • 超时重试:根据实际需要选择,如果作业节点配置了超时时间,则该节点执行超时后,系统支持重试。
    • 最大重试次数:根据实际需要选择,过多重试可能会导致下游作业运行时间被压缩。
    • 重试间隔时间(秒):根据实际需要选择,过大重试间隔时间可能会导致下游作业运行时间被压缩。
    图3 配置失败重试策略

  7. 单击“确定”,完成配置

配置作业失败告警

您可以在通知管理页面,为单个作业或所有作业开启失败告警。本章节以批量作业配置为例,为您介绍如果配置作业失败告警。

  1. DataArts Studio控制台首页,选择对应工作空间的“数据开发”模块,进入数据开发页面。
  2. 在数据开发主界面的左侧导航栏,选择运维调度 > 通知管理
  3. 在页面右侧的“通知管理”页签,单击“通知配置”,弹出“通知配置”页面,在页面中配置作业失败重试告警。
    • 作业范围:根据实际需要选择,推荐选择“所有作业”,在当前已有的作业和后续新创建的作业运行异常/失败时都会发送通知。
    • 通知类型:选择“运行异常/失败”,当作业的状态为“运行异常”“失败”时,发送通知。

      另外可以设置作业运行异常或者失败后、在作业未修复前,告警通知的“最大通知次数”和“最小通知间隔(分钟)”。

      说明:

      最大通知次数可设置为1~50。默认为1时,最小通知间隔不显示。

      最小通知间隔可设置为5~60。

    • 通知方式:根据实际需要选择,推荐选择“按主题”通知。
      说明:
      • 通知管理功能是通过消息通知服务SMN来发送消息,消息通知服务的使用可能会产生费用,具体请咨询消息通知服务。
      • 一个作业支持配置多个消息主题,当作业运行成功或失败,可同时向多个订阅了消息主题的终端发送通知。
    • 选择主题:选择通知的SMN消息主题。如果缺少合适的主题,则可以单击“查看主题”,进入消息通知服务(SMN)界面创建消息主题信息。
      说明:

      当前仅支持“短信”、“邮件”、“HTTP”这三种协议的订阅终端订阅主题。

    • 开关:是否开启通知,默认开启。
    图4 配置通知

  4. 单击“确定”,为作业配置失败告警通知。

配置作业超时告警

作业超时告警是通过为作业配置实例超时时间实现的,您需要确保已参考配置作业失败告警,为作业设置了“运行异常/失败”类型通知。作业实例超时时间只能单个作业配置,配置完成后当作业运行实例超时,则将触发异常通知。

  1. DataArts Studio控制台首页,选择对应工作空间的“数据开发”模块,进入数据开发页面。
  2. 在数据开发主界面的左侧导航栏,选择数据开发 > 作业开发
  3. 在作业目录中,双击作业名称,进入作业开发页面。
  4. 在作业开发页面,单击画布右侧“作业基本信息”页签,展开配置页面,配置作业实例超时时间。
    • 实例超时时间:根据实际需要配置作业实例的超时时间,设置为0或不配置时,该配置项不生效。当您参考配置作业失败告警作业设置了异常通知,如果作业实例执行时间超过超时时间,则将触发异常通知,作业不会中断,继续运行。
    • 实例超时是否忽略等待时间:根据实际需要配置实例运行时等待时间是否会被计入超时时间。
      图5 配置实例超时时间
  5. 配置完成后,单击“提交”,完成作业配置。

我们使用cookie来确保您的高速浏览体验。继续浏览本站,即表示您同意我们使用cookie。 详情

文档反馈

文档反馈

意见反馈

0/500

标记内容

同时提交标记内容