更新时间:2024-04-03 GMT+08:00

基线运维概述

基线运维功能支持用户通过配置基线任务,实现对任务运行状态及资源使用情况的监控;通过配置运维基线,保障复杂依赖场景下重要数据在预期时间内正常产出,帮助用户有效降低配置成本、避免无效报警、自动监控所有重要任务。

应用场景:

  • 管理任务优先级

    在任务数量越来越多,而资源有限的情况下,当发生资源抢占时,可以将重要任务添加至基线上,并为基线设置较高的优先级,以保证重要的任务可以优先分配到资源。

  • 计算任务预计完成时间

    任务的运行受到资源和上游任务运行情况的影响,可以将任务添加至基线上,系统将计算出该任务的预计完成时间,便于用户查看任务的预计完成时间。

  • 保障任务在承诺时间前运行完成

    可以将任务添加至基线上,并设置基线承诺时间,当系统预测到基线上任务无法在承诺时间前完成,或上游任务有出错或变慢的情况,将发送报警信息,用户可以根据报警信息及时处理问题,保障任务在承诺时间前运行完成。

相关概念

  • 基线:用户将重要任务加到基线上并设置承诺时间后,系统将根据任务运行情况计算基线任务的预计完成时间。当系统判断基线任务可能无法在承诺时间前完成,系统将发出告警。
  • 承诺时间:任务运行成功的最晚时间点。即面向数据应用,任务承诺在该时间点前完成。如果希望为运维人员预留一定的时间处理异常,您可以为基线设置预警余量,则系统会将承诺时间-预警余量作为触发报警的预警时间,判断任务能否在预警时间前运行成功。
  • 预警余量:预警提前的时间,达到余量时即触发基线预警。
  • 预警时间:即承诺时间-预警余量。
  • 预测运行时间:基于任务历史的执行情况预测当前任务执行的运行时长。
  • 承诺最晚开始时间:承诺时间-任务预测运行时长。
  • 预警最晚开始时间:预警时间-任务预测运行时长。

  • 基线任务:被添加到基线上的任务。
  • 基线实例:系统使用基线实例计算任务每次运行的预计完成时间。基线实例的状态包括:安全、预警、破线。

    • 安全:预计完成时间<预警时间。
    • 预警:预警时间<预计完成时间<承诺时间。
    • 破线:预计完成时间>承诺时间。
  • 关键路径:影响基线任务的多条路径中,运行耗时最长的路径。
  • 事件:基线任务及其上游任务出错,或关键路径上的任务变慢时,会产生事件。事件会影响基线任务的按时完成。

监控范围

关键任务以及其依赖链上游的所有任务。

功能介绍

将重要任务添加到基线上后,系统将根据基线的优先级保障基线任务的资源,并根据基线任务的上下游依赖关系确定监控范围,根据该监控范围内任务的运行情况触发基线报警或事件报警。基线运维包含的功能如下:

  • 关键任务失败提前告警
  • 关键任务延迟提前告警
  • 关键路径分析
  • 关键任务优先调度
  • 关键任务告警
  • 配置错误立即告警
  • 关键作业全链路版本对比

报警机制

基线报警是对开启状态且打开告警开关的基线提供的一个报警提醒,用户可以基于基线的预计完成时间配置基线的预警余量和承诺时间。系统将根据监控范围内任务历史运行情况推算出的任务预计最晚完成时间,并结合基线上任务的实际运行情况进行监控,当预测到基线上任务无法在基线预警时间(基线承诺时间-预警余量)内完成时,系统将根据该基线定义的基线报警接收人发送基线报警信息。

告警类型

  • 基线预警

    基线监控的链路上,首个没有在预警时间(任务节点粒度)完成的任务节点。

  • 基线破线
    基线破线报警需满足以下两个条件:
    1. 任务节点的上游(包含直接和间接上游)没有出现过破线
    2. 该任务没有在承诺时间节点完成
  • 破线加剧
    执行变慢导致破线加剧报警触发需满足以下两个条件:
    1. 任务所在链路已发送首次“基线破线”报警
    2. 任务运行耗时相较于预测运行耗时有所增加,具体来说:
  • 保障任务预警时间未完成

    基线预警时间到达(承诺时间-预警余量),检查基线所有保障任务是否完成运行,若有保障任务未运行完成,则触发报警。相同保障任务只报一次。

  • 保障任务承诺时间未完成

    基线承诺时间到达,检查基线所有保障任务是否完成运行,若有保障任务未运行完成,则触发报警。相同保障任务只报一次。

  • 任务失败事件

    基线监控链路上,任意任务失败或因为错误配置停止调度,则触发失败事件。