使用监控服务进行主机运维监控
AppStage运维中心支持将华为云主机接入主机管理服务(VMS)进行统一管理,并使用监控服务(ServiceInsight)的日志、监控和告警功能对主机进行运维监控。
使用监控服务进行主机运维监控的操作如下所示:
- 日志:完成主机日志接入,将日志接入监控服务中,接入后可以在“日志检索”页面查看已接入日志,具体操作请参见日志检索。
- 监控:完成主机监控接入,为主机绑定监控模板,根据监控模板定义的插件采集主机监控数据,监控数据接入后可以在“虚机报表”页面查看,具体操作请参见查看虚机报表。
- 告警:完成主机告警配置,定义告警上报内容,然后可以在“告警列表”页面查看已上报告警,具体操作请参见查看告警。
主机日志接入
- 创建日志项目。
- 进入运维中心工作台。
- 在顶部导航栏选择自有服务。
- 单击
,选择“运维 > 监控服务(ServiceInsight)”。
- 选择左侧导航栏的“日志 > 日志接入”,接入方式选择“虚拟机日志接入”。
- 在“虚拟机日志接入”页面,选择左侧导航栏的“日志项目”,单击“创建日志项目”。
- 自定义日志项目名称并输入日志项目描述,单击“创建”。
- 创建日志空间
- 在“虚拟机日志接入”页面,选择左侧导航栏的“日志空间”。
- 单击“申请实时日志空间”。
- 配置实时日志空间信息,参数说明如表1所示,配置完成后,单击“下一步”。
- 配置实时日志字段信息,参数说明如表2所示,配置完成后,单击“下一步”。
表2 实时日志字段信息参数说明 参数名称
参数说明
自定义字段
勾选需要接入的日志字段,包括通用字段、容器字段和虚机字段。
新增自定义环境变量
如需添加自定义环境变量,请选择环境变量名,然后单击“添加”。虚机暂无可选自定义环境变量。
清洗规则
选择日志清洗规则。
请优先使用算子清洗模式采样,通过配置解析脚本将原始日志清洗为业务需要的日志字段,算子清洗功能及使用样例请参见算子清洗功能介绍。原始日志采样清洗只适用于单纯采样,不需要清洗的场景。
日志样例
输入日志样例。
解析脚本
配置解析脚本,将日志样例清洗为字段显示。
说明:配置解析脚本时字段命名不支持使用中划线“-”,支持使用下划线“_”。
清洗字段
配置解析脚本后单击“配置解析脚本”,自动生成清洗字段,查看字段是否符合预期。
开启汇聚
选择是否开启日志汇集,如果日志量较大且不需要关注原始日志时可以进行日志汇集。
开启后需要配置汇集相关参数。
汇聚粒度
开启汇聚后,需要设置汇集粒度。支持分钟级和秒级数据汇聚。选择分钟级,每一分钟会生成一个统计点,选择秒级,每一秒会生成一个统计点。
汇聚时间戳
仅支持时间戳格式字段timestamp,获取当前计算的日志的时间。
时间戳格式
选择时间戳格式。支持秒、毫秒、纳秒级时间戳,获取当前计算的日志的时间格式。
汇聚维度
结合业务场景需要,选择日志是以哪些日志字段进行日志汇聚,支持多选。
汇聚度量
设置对日志字段以COUNT、SUM、MAX、MIN进行度量。
原始字段是日志中的字段,用来获取原始值;度量字段是用户自定义字段名,计算后,度量的值会赋值给该字段。
输出原始日志
选择是否需要输出原始日志。如果打开输出原始日志,原始日志也会上报。
- 日志字段确认,确认日志字段配置是否达到预期,达到预期后可单击“下一步”。
- 申请日志空间共享,如果需要其他自有服务共用这个空间进行日志下发和日志检索,可以添加共享服务。配置完成后,单击“保存”。
- 创建日志采集配置。
- 在“虚拟机日志接入”页面,选择左侧导航栏的“日志采集配置”。
- 单击“创建日志采集配置”。
- 配置日志采集参数,配置完成后,单击“确定”。
表3 日志采集配置参数说明 参数名称
参数说明
日志项目
选择已创建的日志项目,相同服务的不同日志使用同一个日志项目。
日志空间
选择已创建的日志空间。选择日志空间时日志提取规则会展示日志空间定义的日志格式,采集的日志须满足对应格式。
配置名称
自定义日志采集配置名称。
配置类型
选择日志采集配置类型,建议选择“FILEBEAT”。
日志类型
输入采集日志类型。
日志路径
填写实际日志路径,可使用通配符进行匹配。
说明:- 接入容器日志需要根据通配符匹配完成。
- 注意避免同一台主机上下发的多个采集任务重复采集相同的日志文件,会导致filebeat进程异常。
日志TPS
TPS表示单实例每秒日志条数,请准确填写,用于推荐资源自动计算。
- 如果采集路径是单个日志,则按照单个日志单台机器(pod)的TPS值填写,且按照高峰期计算。
- 如果采集路径配置了通配符,则将采集的日志TPS累加,累加计算高峰期单台机器(pod)的TPS,建议按近期业务增长预期填写。
日志模式
选择日志采集模式,是单行模式还是多行模式。
是否支持软连接
当填写的日志路径为链接路径时,需要开启支持软连接。
首行正则表达式
日志模式选择多行模式时,需要输入首行正则表达式。
日志提取规则
根据填写的配置参数会自动生成提取规则。
- 创建日志配置下发任务。
- 在“虚拟机日志接入”页面,选择左侧导航栏的“任务管理”。
- 单击页面右上角的“新建任务”。
- 配置任务参数,参数说明如表4所示,配置完成后,单击“确定”。
- 在任务列表中查看已创建的任务,单击任务所在行“操作”列的“执行”。
主机监控接入
- 进入运维中心工作台。
- 在顶部导航栏选择自有服务。
- 单击
,选择“运维 > 监控服务(ServiceInsight)”。
- 选择左侧导航栏的 。
- 单击“新建”,进入“新建模板”页面。
- 输入模板名称、选择模板类型、输入模板版本,也可为模板添加说明。
- 单击“已选中插件的具体详情”后的
。
- 在“选择插件”页面单击需选择插件后的
或
。
表示可以选择多次,
表示只能选择一次。
- 关闭“选择插件”页面,在“新建模板”页面可以对已选择的插件参数进行编辑,单击已选插件名称后的
,如图1所示。
- 在“配置参数”页面编辑插件参数,编辑完成后单击“确定”。
- 配置完成后,在“新建模板”页面单击“确定”。
- 选择左侧导航栏的 。
- 在主机列表,单击待绑定主机所在行“操作”列的“配置监控”。
- 勾选模板后单击
,单击“确定”。
主机告警配置
- 进入运维中心工作台。
- 在顶部导航栏选择自有服务。
- 单击
,选择“运维 > 监控服务(ServiceInsight)”。
- 选择左侧导航栏的 。
- 单击“统一告警定义”,进入告警定义页面。
- 在“统一告警规则”页面,“模板告警”页签,单击“创建”。
- 配置模板告警参数,参数说明如表5所示,配置完成后,单击“确定”。
表5 模板告警参数说明 参数名称
参数说明
指标来源
选择告警的指标来源。
告警定义名称
告警定义名称。
级别
统计的告警级别。
告警类型
选择告警类型。
持续时间
指标持续异常的时间,以持续时间5min为例,需要异常连续满足5min内的计算点全部异常才会生成告警,否则就不会生成。
持续时间控制了当前指标生成告警的速率。
是否激活
是否激活这条告警定义。
是否调试
选择是否调试。
关联监控模板
选择需要关联的监控模板。
指标名称
选择插件、指标。
指标名称由插件决定,业务启用了哪些插件,所有启用插件能够采集到的所有数据都属于告警定义指标。例如选择cpu_iowait,指的就是宿主机的cpu io等待时间,在比较方式里可以根据不同的策略来决定当前指标是否异常,异常则生产告警。
比较方式
- 区间阈值分为在区间内和在区间外。
- 在区间内:指数据值满足在该范围内则指标正常,否则异常。
- 在区间外:指数据值满足不在该范围内则指标正常,否则异常。
- 固定阈值是指数据不满足当前设置表达式则指标异常,有四种表达式,包括大于等于、小于、等于和不等于。
- 同比是计算指标的时候与前一天同一时刻的比较,根据前一条的值的大小来决定当前指标是否异常。例:昨日为100 今日为105,超出了下图设置的4%的增长阈值,则指标异常。
告警标签
指标的补充条件,如果存在告警标签则需要满足所有的告警标签才会生成告警。
标签的范围也是由指标定义。例: 选择ip = 10.123.15.102 则上报的指标数据不仅需要满足指标的比较方式同时也需要满足ip = 10.123.15.102 才能产生指标,如果是同一个业务下其他ip的异常,则不会产生告警。
标签的判断有四种形式:等于、不等于、正则匹配成功、正则匹配不成功。
消息模板
消息模板是告警msg中的具体信息,可选变量名由指标来决定,每一个指标都有自己对应的变量名列表,可选范围也在这里。
短信息模板
编辑短消息模板。
表达式
获取表达式,即根据配置的指标、比较方式等生成表达式。
- 区间阈值分为在区间内和在区间外。