Cloud Eye监控集群
本章节定义了图引擎服务上报云监控的监控指标的命名空间,监控指标列表和维度定义,用户可以通过云监控提供的API接口来检索图引擎服务产生的监控指标。
命名空间
SYS.GES
监控指标
指标ID |
指标名称 |
含义 |
取值范围 |
测量对象 |
---|---|---|---|---|
ges001_vertex_util |
点容量使用率 |
统计图实例的点容量使用率,其值为当前图点个数和图点容量的比值。 单位:% |
0~100 值类型:Float |
GES实例 |
ges002_edge_util |
边容量使用率 |
统计图实例的边容量使用率,其值为当前图边个数和图边容量的比值。 单位:% |
0~100 值类型:Float |
GES实例 |
ges003_average_import_rate |
平均导入速率 |
统计图实例导入点或者边的平均速率。 单位:count/s |
0~400000 值类型:Float |
GES实例 |
ges004_request_count |
请求个数 |
统计图实例接收的请求个数。 单位:count |
建议>=0 值类型:Integer |
GES实例 |
ges005_average_response_time |
平均响应时间 |
统计图实例接收请求平均响应时间。 单位:ms |
建议>=0 值类型:Integer |
GES实例 |
ges006_min_response_time |
最小响应时间 |
统计图实例接收请求最小响应时间。 单位:ms |
建议>=0 值类型:Integer |
GES实例 |
ges007_max_response_time |
最大响应时间 |
统计图实例接收请求最大响应时间。 单位:ms |
建议>=0 值类型:Integer |
GES实例 |
ges008_read_task_pending_queue_size |
读任务等待队列长度 |
统计图实例读请求任务等待队列长度,用于查看当前等待的读请求个数。 单位:count |
建议>=0 值类型:Integer |
GES实例 |
ges009_read_task_pending_max_time |
读任务最长等待时间 |
统计图实例读请求任务最长等待时间,用于查看读请求最长的等待时间。 单位:ms |
建议>=0 值类型:Integer |
GES实例 |
ges010_pending_max_time_ read_task_type |
等待最长的读任务类型 |
统计图实例等待最长的读请求任务类型,参考可以找到对应的任务名称。 |
建议>=1 值类型:Integer |
GES实例 |
ges011_read_task_running_queue_size |
读任务运行队列长度 |
统计图实例读请求任务运行队列长度,用于查看当前正在运行的读请求个数。 单位:count |
建议>=0 值类型:Integer |
GES实例 |
ges012_read_task_running_max_time |
读任务最长运行时间 |
统计图实例读任务最长运行时间,用于查看读请求最长的运行时间。 单位:ms |
建议>=0 值类型:Integer |
GES实例 |
ges013_running_max_time_ read_task_type |
运行最长的读任务类型 |
统计图实例运行最长的读请求类型,参考可以找到对应的任务名称。 |
建议>=1 值类型:Integer |
GES实例 |
ges014_write_task_pending_queue_size |
写任务等待队列长度 |
统计图实例写请求任务等待队列长度,用于查看当前等待的写请求个数。 单位:count |
建议>=0 值类型:Integer |
GES实例 |
ges015_write_task_pending_max_time |
写任务最长等待时间 |
统计图实例写请求任务最长等待时间,用于查看写请求最长的等待时间。 单位:ms |
建议>=0 值类型:Integer |
GES实例 |
ges016_pending_max_time_ write_task_type |
等待最长的写任务类型 |
统计图实例等待最长的写请求任务类型,参考可以找到对应的任务名称。 |
建议>=1 值类型:Integer |
GES实例 |
ges017_write_task_running_queue_size |
写任务运行队列长度 |
统计图实例写请求任务运行队列长度,用于查看当前正在运行的写请求个数。 单位:count |
建议>=0 值类型:Integer |
GES实例 |
ges018_write_task_running_max_time |
写任务最长运行时间 |
统计图实例写请求任务最长运行时间,用于查看写请求最长的运行时间。 单位:ms |
建议>=0 值类型:Integer |
GES实例 |
ges019 _running_max_time_ write_task_type |
运行最长的写任务类型 |
统计运行最长的写请求任务类型,参考可以找到对应的任务名称。 |
建议>=1 值类型:Integer |
GES实例 |
ges020_computer_resource_usage |
计算资源使用率 |
统计每个图实例的计算资源使用率。 单位:% |
0~100 值类型:Float |
GES实例 |
ges021_memory_usage |
内存资源使用率 |
统计每个图实例的内存资源使用率。 单位:% |
0~100 值类型:Float |
GES实例 |
ges022_iops |
IOPS |
统计每个图实例每秒处理的I/O请求数量。 单位:count/s |
建议>=0 值类型:Integer |
GES实例 |
ges023_bytes_in |
网络输入吞吐量 |
统计每秒从网络输入每个图实例的数据总量。 单位:Byte/s |
建议>=0 值类型:Float |
GES实例 |
ges024_bytes_out |
网络输出吞吐量 |
统计从每个图实例每秒发送到网络的数据总量。 单位:Byte/s |
建议>=0 值类型:Float |
GES实例 |
ges025_disk_usage |
磁盘利用率 |
统计每个图实例节点的磁盘使用情况。 单位:% |
0~100 值类型:Float |
GES实例 |
ges026_disk_total_size |
磁盘总大小 |
统计每个图实例的数据磁盘总大小。 单位:GB |
建议>=0 值类型:Float |
GES实例 |
ges027_disk_used_size |
磁盘使用量 |
统计每个图实例的数据磁盘已用大小。 单位:GB |
建议>=0 值类型:Float |
GES实例 |
ges028_disk_read_throughput |
磁盘读吞吐量 |
统计图实例数据磁盘每秒读取的数据量。 单位:Byte/s |
建议>=0 值类型:Float |
GES实例 |
ges029_disk_write_throughput |
磁盘写吞吐量 |
统计图实例数据磁盘每秒写入的数据量。 单位:Byte/s |
建议>=0 值类型:Float |
GES实例 |
ges030_avg_disk_sec_per_read |
磁盘读耗时 |
统计图实例数据磁盘每次读取数据的平时耗时。 单位:s |
建议>=0 值类型:Float |
GES实例 |
ges031_avg_disk_sec_per_write |
磁盘写耗时 |
统计图实例数据磁盘每次写入数据的平时耗时。 单位:s |
建议>=0 值类型:Float |
GES实例 |
ges032_avg_disk_queue_length |
磁盘平均队列长度 |
统计每个图实例数据磁盘平均的I/O队列长度。 单位:count |
建议>=0 值类型:Integer |
GES实例 |
维度
Key |
Value |
---|---|
instance_id |
图引擎服务实例 |
任务类型对应表
任务类型 |
任务名称 |
---|---|
100 |
点查询 |
101 |
创建点 |
102 |
删除点 |
103 |
修改点属性 |
104 |
添加点Label |
105 |
删除点Label |
200 |
边查询 |
201 |
创建边 |
202 |
删除边 |
203 |
修改边属性 |
300 |
查询Schema详情 |
301 |
添加Label |
302 |
修改Label |
303 |
查询Label |
304 |
修改属性 |
400 |
查询图详情 |
401 |
清空图 |
402 |
在线增量导入图 |
403 |
创建图 |
405 |
删除图 |
406 |
导出图 |
407 |
filtered_khop |
408 |
查询路径详情 |
409 |
离线增量导入图 |
500 |
创建备份 |
501 |
从备份恢复图 |
601 |
创建索引 |
602 |
查询索引 |
603 |
更新索引 |
604 |
删除索引 |
700 |
运行算法 |
查看实例监控信息
创建告警规则
通过设置图引擎服务(GES)的告警规则,用户可以自定义监控目标和通知策略,及时了解图引擎服务(GES)运行状态,从而起到预警作用。
设置图引擎服务(GES)的告警规则包括设置告警规则名称、监控对象、监控指标、告警阈值、监控周期和是否发送通知等参数。
本节介绍设置图引擎服务(GES)规则的具体方法。
- 登录图引擎服务管理控制台,在左侧导航栏中选择“图管理”。
- 在指定实例所在行的“操作”列中,单击“查看监控数据”,进入云监控管理控制台,查看图引擎服务服务监控信息。
图1 查看监控数据
确认待查看“监控信息”的实例状态必须为“运行中”,否则不能进行创建告警操作。
- 在云监控管理控制台的左侧导航栏,单击“告警 > 告警规则”,进入告警规则界面,单击右上角或页面中间的“创建告警规则”。
- 在“创建告警规则”界面,根据界面提示填写配置参数。
- 填写告警配置参数
图2 配置参数
表3 配置告警内容 参数名称
参数说明
取值样例
告警类型
告警规则适用的告警类型,可选择指标或者事件告警。
指标
云产品
配置告警规则监控的云服务资源名称。
图引擎服务-图实例
资源层级
当告警类型选择指标时,需选择告警规则的资源层级,可选择云产品或子维度,推荐选择云产品。
以图引擎服务GES为例:用户购买了云产品(GES虚拟机),根据指标划分了多个子维度(包含磁盘、挂载点、进程等)。
云产品
监控范围
告警规则适用的资源范围,选择“指定资源”,然后勾选具体的监控对象,可以是一个或多个。对于图引擎服务(GES)而言,选择您创建的集群实例ID。再单击选择“监控对象”。
指定资源
触发规则
根据需要可选择关联模板、导入已有模板或自定义创建。
关联模板
模板
当告警内容选择从模板导入时,该参数有效。
选择需要导入的模板。如果当前没有告警模板,可以单击“创建自定义告警模板”创建一个符合您需求的告警模板。
-
告警策略
当告警内容选择从自定义创建时,该参数有效。
设置触发告警的告警策略。例如,CPU使用率连续三个周期原始值≥80%。
图引擎服务支持的监控指标请参见监控项列表。
-
告警级别
根据告警的严重程度不同等级,可选择紧急、重要、次要、提示。
重要
- 配置告警通知,根据界面提示配置参数。
图3 配置告警通知
表4 配置告警通知 参数名称
参数说明
取值样例
发送通知
配置是否发送邮件、短信、HTTP和HTTPS通知用户。
选择“是”(推荐选择),会发送通知;选择“否”,不会发送通知。
是
通知方式
可以选择通知策略、通知组或者主题订阅
主题订阅
通知策略
当通知方式选择通知策略时,需要选择告警通知的策略。通知策略是包含通知组选择、生效时间、通知内容模板等参数的组合编排。创建通知策略请参见创建/修改/删除通知策略。
-
通知对象
通知方式选择为主题订阅时需要设置。
需要发送告警通知的主题名称。当发送通知选择“是”时,需要选择已有的主题名称,若此处没有需要的主题则需先创建主题,该功能会调用消息通知服务(SMN)。
创建主题请参见《消息通知服务用户指南》。
SMN主题
通知组
通知方式选择为通知组时需要设置。
可以选择通知组,若没有您想要选择的通知组,您可以创建通知组。创建通知组后,需要点击通知组列表操作栏的添加通知对象按钮,添加组内成员及通知方式。
通知组名称
通知内容模板
可以选择系统模板或者自定义通知模板
系统模板
生效时间
该告警规则仅在生效时间内发送通知消息。
如生效时间为00:00-8:00,则该告警规则仅在00:00-8:00发送通知消息。
-
触发条件
可以选择“出现告警”、“恢复正常”两种状态,作为触发告警通知的条件。
-
- 填写告警配置参数
- 配置完成后,单击右下角的“立即创建”,完成告警规则的创建。告警规则添加完成后,当监控指标触发设定的阈值时,云监控会在第一时间通过消息通知服务实时告知您资源异常,以免因此造成业务损失。
配置OBS转储
云监控各监控指标的原始数据的保留周期为两天,超过保留周期后原始数据将不再保存。用户可以开通对象存储服务,然后将原始数据同步保存至OBS,以保存更长时间。
关于如何配置OBS转储,具体请参见《云监控服务用户指南》中的配置OBS数据存储章节。