IT应用健康监控
- 适用领域
- 场景
- 功能描述
SRE日常运维中,需要根据KPI,日志,告警等多种机器数据来发现故障,定位故障,恢复故障。机器数据具有海量,信噪比低的特点,通过人工来分析费时费力。IT应用健康监控APP,通过人工智能算法,智能分析机器数据,辅助SRE快速发现问题,定位问题。
整个APP分为异常检测,事件聚合,根因定界,根因定位四大步骤,需要接入Access日志,运行日志,服务告警数据,调用链数据等机器产生的数据。具有实时性高,定位准确率高的优点。
- 输入数据格式
- Access日志
Access日志字段描述如表 access日志字段表所示。
表1 Access日志字段表 名称
类型
长度
是否必须
描述
method
String
255
Y
方法名
retcode
String
255
Y
返回码
restime
timestamp
255
Y
响应时长
collectime
Date
255
Y
采集时间
2. 运行日志
运行日志字段描述如表 运行日志字段表所示。
表2 运行日志字段表 名称
类型
长度
是否必须
描述
thread
String
255
Y
线程号
level
String
255
Y
级别
serviceName
String
255
Y
服务名
context
String
255
Y
内容
collectime
Date
255
Y
采集时间
3. GC日志
GC日志字段描述如表 GC日志字段表所示。
表3 GC日志字段表 名称
类型
长度
是否必须
描述
collectime
String
255
Y
采集时间
thread
String
255
Y
线程名
type
String
255
Y
类型
context
String
255
Y
内容
4. Trace日志
Trace日志字段描述如表 trace日志字段表所示。
- 输出数据格式
表5 输出数据格式 名称
类型
长度
是否必须
描述
csn
String
255
Y
事件标识
domain
String
255
Y
领域
name
String
255
Y
名称
occurTime
date
255
Y
发生时间
updateTime
date
255
Y
更新时间
clearTime
date
255
Y
清除时间
duration
String
255
Y
持续时间
category
String
255
Y
类别
detail
String
255
Y
明细
rootEventCsn
String
255
Y
根因事件标识
eventSize
String
255
Y
事件大小
sourceObjects
String
255
Y
源对象
events
String
255
Y
事件列表
affects
String
255
Y
受影响事件
linkList
String
255
Y
关联topo
- 流程详情
Access日志接入:从数据源接入Access日志。
运行日志接入:从数据源接入运行日志。
GC日志接入:从数据源接入GC日志。
调用链日志接入:从数据源接入调用链日志。
KPI提取: 通过Access日志来提取各接口调用成功率和接口时延。
KPI异常检测:对KPI时序数据进行异常检测,生成KPI异常告警。
日志异常检测:对日志文本进行异常检测,生成日志异常告警。
GC异常检测:对GC日志进行异常检测,生成GC异常告警。
数据转换:数据转换,将前序节点的输出格式转换为后续节点的输入格式。
记录集: 将数据记录到ES数据库。
基于调用链的故障定界:输入异常事件,Trace日志,输出事件。该原子能力完成了异常事件聚合,故障定界,故障定位。
事件通知:通过短信,邮件等发送通知。
- 大屏详情
- 使用约束
本APP的核心能力基于调用链进行故障定界,需要提供Trace日志作为输入。Trace日志需要在软件中引入华为云CloudMonitorTracker-SDK来获取。
