更新时间:2022-01-21 GMT+08:00
分享

IT应用健康监控

  • 适用领域

    IT应用,云服务,SaaS

  • 场景

    SRE使用该服务对IT应用,云服务等进行监控,故障恢复。

  • 功能描述

    SRE日常运维中,需要根据KPI,日志,告警等多种机器数据来发现故障,定位故障,恢复故障。机器数据具有海量,信噪比低的特点,通过人工来分析费时费力。IT应用健康监控APP,通过人工智能算法,智能分析机器数据,辅助SRE快速发现问题,定位问题。

    整个APP分为异常检测,事件聚合,根因定界,根因定位四大步骤,需要接入Access日志,运行日志,服务告警数据,调用链数据等机器产生的数据。具有实时性高,定位准确率高的优点。

  • 输入数据格式
    1. Access日志

    Access日志字段描述如表 access日志字段表所示。

    表1 Access日志字段表

    名称

    类型

    长度

    是否必须

    描述

    method

    String

    255

    Y

    方法名

    retcode

    String

    255

    Y

    返回码

    restime

    timestamp

    255

    Y

    响应时长

    collectime

    Date

    255

    Y

    采集时间

    2. 运行日志

    运行日志字段描述如表 运行日志字段表所示。

    表2 运行日志字段表

    名称

    类型

    长度

    是否必须

    描述

    thread

    String

    255

    Y

    线程号

    level

    String

    255

    Y

    级别

    serviceName

    String

    255

    Y

    服务名

    context

    String

    255

    Y

    内容

    collectime

    Date

    255

    Y

    采集时间

    3. GC日志

    GC日志字段描述如表 GC日志字段表所示。

    表3 GC日志字段表

    名称

    类型

    长度

    是否必须

    描述

    collectime

    String

    255

    Y

    采集时间

    thread

    String

    255

    Y

    线程名

    type

    String

    255

    Y

    类型

    context

    String

    255

    Y

    内容

    4. Trace日志

    Trace日志字段描述如表 trace日志字段表所示。

    表4 Trace日志字段表

    名称

    类型

    长度

    是否必须

    描述

    severity

    String

    255

    Y

    告警级别

    neId

    String

    255

    Y

    网元标识

    title

    String

    255

    Y

    标题

    moName

    String

    255

    Y

    网元名称

    clearFlag

    String

    255

    Y

    是否清除

    moId

    String

    255

    Y

    mo标识

    normId

    String

    255

    Y

    告警标识

    serialId

    String

    255

    Y

    序列号

  • 输出数据格式
    表5 输出数据格式

    名称

    类型

    长度

    是否必须

    描述

    csn

    String

    255

    Y

    事件标识

    domain

    String

    255

    Y

    领域

    name

    String

    255

    Y

    名称

    occurTime

    date

    255

    Y

    发生时间

    updateTime

    date

    255

    Y

    更新时间

    clearTime

    date

    255

    Y

    清除时间

    duration

    String

    255

    Y

    持续时间

    category

    String

    255

    Y

    类别

    detail

    String

    255

    Y

    明细

    rootEventCsn

    String

    255

    Y

    根因事件标识

    eventSize

    String

    255

    Y

    事件大小

    sourceObjects

    String

    255

    Y

    源对象

    events

    String

    255

    Y

    事件列表

    affects

    String

    255

    Y

    受影响事件

    linkList

    String

    255

    Y

    关联topo

  • 流程详情

    在“应用货架”中单击“IT应用健康监控”,可查看流程详情。

    Access日志接入:从数据源接入Access日志。

    运行日志接入:从数据源接入运行日志。

    GC日志接入:从数据源接入GC日志。

    调用链日志接入:从数据源接入调用链日志。

    KPI提取: 通过Access日志来提取各接口调用成功率和接口时延。

    KPI异常检测:对KPI时序数据进行异常检测,生成KPI异常告警。

    日志异常检测:对日志文本进行异常检测,生成日志异常告警。

    GC异常检测:对GC日志进行异常检测,生成GC异常告警。

    数据转换:数据转换,将前序节点的输出格式转换为后续节点的输入格式。

    记录集: 将数据记录到ES数据库。

    基于调用链的故障定界:输入异常事件,Trace日志,输出事件。该原子能力完成了异常事件聚合,故障定界,故障定位。

    事件通知:通过短信,邮件等发送通知。

  • 大屏详情

    在“应用货架”中单击“IT应用健康监控”,可查看大屏详情。

  • 使用约束

本APP的核心能力基于调用链进行故障定界,需要提供Trace日志作为输入。Trace日志需要在软件中引入华为云CloudMonitorTracker-SDK来获取。

分享:

    相关文档

    相关产品

关闭导读