CES中Logstash集群支持的监控指标
云监控服务CES支持实时监控云搜索服务集群的核心指标,方便用户掌握集群的指标信息,以便及时处理集群的异常状况。
功能说明
本节定义了云搜索服务上报云监控服务的监控指标的命名空间,监控指标列表和维度定义。用户可以通过云监控服务管理控制台或API接口来检索云搜索服务产生的监控指标和告警信息。
- 当Logstash集群的配置中心无管道列表的操作记录,则Logstash集群的监控记录将为空。
- 当管道的“事件”数据动态变化时,监控数据也会同步变化;当管道任务在启动中、停止中或事件数据稳定时,监控数据则无变化。
云监控服务最大支持4个层级维度,维度编号从0开始,编号3为最深层级。例如监控指标中的维度信息为“cluster_id,instance_id”时,表示对应的监控指标的维度存在层级关系,且“cluster_id”为0层,“instance_id”为1层。
命名空间
SYS.ES
CSS.CUSTOM
集群监控指标列表
累计值:从节点启动时开始叠加数值,当节点重启后清零重新累计。
|
指标ID |
指标名称 |
指标含义 |
取值范围 |
单位 |
进制 |
维度 |
监控周期(原始指标) |
|---|---|---|---|---|---|---|---|
|
max_jvm_heap_usage |
最大JVM堆使用率 |
CSS集群中各个节点的JVM堆使用率的最大值。 |
0~100 |
% |
不涉及 |
cluster_id |
1分钟 |
|
max_jvm_young_gc_time |
最大JVM Young GC耗时 |
CSS集群中各个节点的JVM Young GC耗时累计值的最大值。 |
≥ 0 |
ms |
不涉及 |
cluster_id |
1分钟 |
|
max_jvm_young_gc_count |
最大JVM Young GC次数 |
CSS集群中各个节点的JVM Young GC次数累计值的最大值。 |
≥ 0 |
Count |
不涉及 |
cluster_id |
1分钟 |
|
max_jvm_old_gc_time |
最大JVM Old GC耗时 |
CSS集群中各个节点的JVM Old GC耗时累计值的最大值。 |
≥ 0 |
ms |
不涉及 |
cluster_id |
1分钟 |
|
max_jvm_old_gc_count |
最大JVM Old GC次数 |
CSS集群中各个节点的JVM Old GC次数累计值的最大值。 |
≥ 0 |
Count |
不涉及 |
cluster_id |
1分钟 |
|
max_cpu_usage |
最大CPU利用率 |
CSS集群中各个节点的CPU利用率的最大值。 |
0~100 |
% |
不涉及 |
cluster_id |
1分钟 |
|
max_load_average |
最大节点Load值 |
CSS集群中各个节点在操作系统中1分钟平均排队任务数的最大值。 |
≥ 0 |
Count |
不涉及 |
cluster_id |
1分钟 |
|
avg_cpu_usage |
平均CPU使用率 |
CSS集群中各节点CPU利用率的平均值。 |
0~100 |
% |
不涉及 |
cluster_id |
1分钟 |
|
avg_load_average |
平均节点Load值 |
CSS集群中各节点在操作系统中1分钟平均排队任务数的平均值。 |
≥ 0 |
Count |
不涉及 |
cluster_id |
1分钟 |
|
avg_jvm_heap_usage |
平均JVM堆使用率 |
CSS集群中各节点JVM堆内存使用率的平均值。 |
0~100 |
% |
不涉及 |
cluster_id |
1分钟 |
|
avg_jvm_old_gc_count |
JVM老年代平均GC次数 |
CSS集群中各个节点“老年代”垃圾回收的运行次数的累计值的平均值。 |
≥ 0 |
Count |
不涉及 |
cluster_id |
1分钟 |
|
avg_jvm_old_gc_time |
JVM老年代平均GC时间 |
CSS集群中各个节点执行“老年代”垃圾回收所花费的时间累计值的平均值。 |
≥ 0 |
ms |
不涉及 |
cluster_id |
1分钟 |
|
avg_jvm_young_gc_count |
JVM年轻代平均GC次数 |
CSS集群中各个节点“年轻代”垃圾回收的运行次数的累计值的平均值。 |
≥ 0 |
Count |
不涉及 |
cluster_id |
1分钟 |
|
avg_jvm_young_gc_time |
JVM年轻代平均GC时间 |
CSS集群中各个节点执行“年轻代”垃圾回收所花费的时间累计值的平均值。 |
≥ 0 |
ms |
不涉及 |
cluster_id |
1分钟 |
|
sum_events_in |
集群下所有节点经过input插件的数据总数 |
该指标用于统计所有节点经过input插件的数据总数。 |
≥ 0 |
Count |
不涉及 |
cluster_id |
1分钟 |
|
sum_events_filtered |
集群下所有节点经过filter插件的数据总数 |
该指标用于统计所有节点经过过滤处理的数据总数。 |
≥ 0 |
Count |
不涉及 |
cluster_id |
1分钟 |
|
sum_events_out |
集群下所有节点经过out插件的数据总数 |
该指标用于统计所有节点经过out插件的数据总数。 |
≥ 0 |
Count |
不涉及 |
cluster_id |
1分钟 |
节点监控指标列表
|
指标ID |
指标名称 |
指标含义 |
取值范围 |
单位 |
进制 |
维度 |
监控周期(原始指标) |
|---|---|---|---|---|---|---|---|
|
jvm_heap_usage |
JVM堆使用率 |
节点JVM堆内存使用率。 |
0~100 |
% |
不涉及 |
cluster_id,instance_id |
1分钟 |
|
cpu_usage |
CPU利用率 |
CPU利用率。 |
0~100 |
% |
不涉及 |
cluster_id,instance_id |
1分钟 |
|
load_average |
节点Load值 |
操作系统中1分钟平均排队任务数。 |
≥ 0 |
Count |
不涉及 |
cluster_id,instance_id |
1分钟 |
|
jvm_old_gc_count |
JVM老年代总GC次数 |
“老年代”垃圾回收的运行次数。 |
≥ 0 |
Count |
不涉及 |
cluster_id,instance_id |
1分钟 |
|
jvm_old_gc_time |
JVM老年代总GC时间 |
执行“老年代”垃圾回收所花费的时间。 |
≥ 0 |
ms |
不涉及 |
cluster_id,instance_id |
1分钟 |
|
jvm_young_gc_count |
JVM年轻代总GC次数 |
“年轻代”垃圾回收的运行次数。 |
≥ 0 |
Count |
不涉及 |
cluster_id,instance_id |
1分钟 |
|
jvm_young_gc_time |
JVM年轻代GC时间 |
执行“年轻代”垃圾回收所花费的时间。 |
≥ 0 |
ms |
不涉及 |
cluster_id,instance_id |
1分钟 |
|
events_in |
当前节点经过input插件的数据数 |
该指标用于统计当前节点经过input插件的数据数。 |
≥ 0 |
Count |
不涉及 |
cluster_id,instance_id |
1分钟 |
|
events_filtered |
当前节点经过filter插件的数据数 |
该指标用于统计当前节点过滤处理的数据数。 |
≥ 0 |
Count |
不涉及 |
cluster_id,instance_id |
1分钟 |
|
events_out |
当前节点经过out插件的数据数 |
该指标用于统计当前节点经过out插件的数据数。 |
≥ 0 |
Count |
不涉及 |
cluster_id,instance_id |
1分钟 |
Logstash管道监控指标列表
|
指标ID |
指标名称 |
指标含义 |
取值范围 |
单位 |
进制 |
维度 |
监控周期(原始指标) |
|---|---|---|---|---|---|---|---|
|
logstash_pipeline_events_in |
当前管道监控周期内经过input插件的数据数。 |
该指标用于统计当前管道监控周期内经过input插件的数据数。 |
≥ 0 |
Count |
不涉及 |
cluster_id,instance_id,pipeline_name 或 cluster_id,pipeline_name |
1分钟 |
|
logstash_pipeline_events_filtered |
当前管道监控周期内经过filter插件的数据数。 |
该指标用于统计当前管道监控周期内过滤处理的数据数。 |
≥ 0 |
Count |
不涉及 |
cluster_id,instance_id,pipeline_name 或 cluster_id,pipeline_name |
1分钟 |
|
logstash_pipeline_events_out |
当前管道监控周期内经过out插件的数据数。 |
该指标用于统计当前管道监控周期内经过out插件的数据数。 |
≥ 0 |
Count |
不涉及 |
cluster_id,instance_id,pipeline_name 或 cluster_id,pipeline_name |
1分钟 |
对于有多层测量维度的测量对象,使用接口查询监控指标时,需要代入具体指标的维度层级关系。
例如,需要查询CSS服务中Logstash集群节点的CPU利用率(cpu_usage),该指标的维度信息为“cluster_id,instance_id”,表示cluster_id为0层,instance_id为1层。
- 通过API查询单个监控指标时,instance_id的维度信息代入样例如下:
dim.0=cluster_id,3d65c1ac-9a9f-4c5f-a054-35184a087bb2&dim.1=instance_id,6666cd76f96956469e7be39d750cc7d9
其中,3d65c1ac-9a9f-4c5f-a054-35184a087bb2和6666cd76f96956469e7be39d750cc7d9分别为cluster_id和instance_id的维度值,具体获取方法请参见维度。
- 通过API批量查询监控指标时,instance_id的维度信息代入样例如下:
{
"name": "cluster_id",
"value": "3d65c1ac-9a9f-4c5f-a054-35184a087bb2"
},
{
"name": "instance_id",
"value": "6666cd76f96956469e7be39d750cc7d9"
}
]
其中,3d65c1ac-9a9f-4c5f-a054-35184a087bb2和6666cd76f96956469e7be39d750cc7d9分别为cluster_id和instance_id的维度值,具体获取方法请参见维度。
维度
|
Key |
Value |
|---|---|
|
cluster_id |
集群ID。 该值可通过CSS服务的查询集群列表接口获取,位于响应体的clusters[].id字段,即集群ID。 |
|
instance_id |
集群节点ID。 该值可通过CSS服务的查询集群列表接口获取,位于响应体的clusters[].instances[].id字段,即集群实例ID。 |
|
pipeline_name |
Logstash管道名称。 该值可通过CSS服务的查询pipeline列表接口获取,位于响应体的pipelines[].name字段,即配置文件名称。 |