在Cloud Eye查看GaussDB(DWS)集群监控
功能说明
用户需要查看集群的监控指标信息时,可以通过云监控(Cloud Eye)确认集群各项指标情况。通过监控集群运行时的各项指标,用户可以识别出数据库集群状态异常的时间段,然后在数据库日志中,分析可能存在问题的活动,从而优化数据库性能。本章节定义了数据仓库服务上报云监控服务的监控指标的命名空间、监控指标列表和维度定义。用户可以通过云监控服务提供的管理控制台或API接口来检索数据仓库服务产生的监控指标和告警信息。
命名空间
SYS.DWS
集群监控指标
通过云监控提供的数据仓库服务相关监控指标,用户可以获取有关集群运行状况和性能的信息,并深入了解节点级别的对应信息。
数据仓库服务相关监控指标,具体请参见表1。
指标ID |
指标名称 |
指标含义 |
取值范围 |
测量对象 |
监控周期(原始指标) |
---|---|---|---|---|---|
dws001_shared_buffer_hit_ratio |
缓存命中率 |
该指标是指在系统中请求数据时,请求到的数据已经存在于缓存中的比率。即缓存中已经存在的数据量与请求的总数据量之比。缓存命中率越高,说明系统的缓存利用率越高,请求数据时需要从磁盘或网络中读取的次数就越少,系统响应速度就越快。以百分比为单位。 |
0%~100% |
数据仓库集群 |
4分钟 |
dws002_in_memory_sort_ratio |
内存中排序比率 |
该指标用于表示排序算法所使用的额外内存空间与排序数据所占用的内存空间的比值。例如,在归并排序中,归并缓冲区的大小通常是排序数据大小的一部分,因此归并排序的内存中排序比率通常在10%到50%之间。以百分比为单位。 |
0%~100% |
数据仓库集群 |
4分钟 |
dws003_physical_reads |
文件读取次数 |
该指标用于表示读取数据库文件的累计次数。 |
> 0 |
数据仓库集群 |
4分钟 |
dws004_physical_writes |
文件写入次数 |
该指标用于表示写入数据库文件的累计次数。 |
> 0 |
数据仓库集群 |
4分钟 |
dws005_physical_reads_per_second |
每秒文件读取次数 |
该指标用于表示每秒读取数据库文件的次数。 |
≥ 0 |
数据仓库集群 |
4分钟 |
dws006_physical_writes_per_second |
每秒文件写入次数 |
该指标用于表示每秒写入数据库文件的次数。 |
≥ 0 |
数据仓库集群 |
4分钟 |
dws007_db_size |
数据量大小 |
该指标用于表示数据库中所有数据总量大小。 单位:兆字节(MB) |
≥0MB |
数据仓库集群 |
4分钟 |
dws008_active_sql_count |
活跃SQL数 |
该指标用于表示数据库当前活动的SQL个数。 |
≥ 0 |
数据仓库集群 |
4分钟 |
dws009_session_count |
会话数 |
该指标用于表示数据库当前访问的连接个数。 |
≥ 0 |
数据仓库集群 |
4分钟 |
dws010_cpu_usage |
CPU使用率 |
该指标用于统计每个集群节点的CPU使用率,以百分比为单位。 |
0%~100% |
数据仓库节点 |
1分钟 |
dws011_mem_usage |
内存使用率 |
该指标用于统计每个集群节点的内存使用率,以百分比为单位。
说明:
由于控制台界面升级到新版本(8.3.0.202)后,内存使用率统计包括了缓存Cache所占的内存大小,该指标显示值比升级前会有所提升。 |
0%~100% |
数据仓库节点 |
1分钟 |
dws012_iops |
IOPS |
该指标用于统计每个集群节点每秒处理的I/O请求数量。 |
≥ 0 |
数据仓库节点 |
1分钟 |
dws013_bytes_in |
网络输入吞吐量 |
该指标用于统计每秒从网络输入每个集群节点的数据总量。 单位:字节/秒 |
≥ 0字节/秒 |
数据仓库节点 |
1分钟 |
dws014_bytes_out |
网络输出吞吐量 |
该指标用于统计从每个节点每秒发送到网络的数据总量。 单位:字节/秒 |
≥ 0字节/秒 |
数据仓库节点 |
1分钟 |
dws015_disk_usage |
磁盘利用率 |
该指标用于统计每个集群节点的磁盘使用情况,以百分比为单位。 |
0%~100% |
数据仓库节点 |
1分钟 |
dws016_disk_total_size |
磁盘总大小 |
该指标用于统计每个集群节点的数据磁盘总大小。 单位:吉字节(GB) |
100GB~2000GB |
数据仓库节点 |
1分钟 |
dws017_disk_used_size |
磁盘使用量 |
该指标用于统计每个集群节点的数据磁盘已用大小。 单位:吉字节(GB) |
0GB~3600GB |
数据仓库节点 |
1分钟 |
dws018_disk_read_throughput |
磁盘读吞吐量 |
该指标用于统计集群节点数据磁盘每秒读取的数据量。 单位:字节/秒 |
≥ 0字节/秒 |
数据仓库节点 |
1分钟 |
dws019_disk_write_throughput |
磁盘写吞吐量 |
该指标用于统计集群节点数据磁盘每秒写入的数据量。 单位:字节/秒 |
≥ 0字节/秒 |
数据仓库节点 |
1分钟 |
dws020_avg_disk_sec_per_read |
磁盘读耗时 |
该指标用于统计集群节点数据磁盘每次读取数据的平均耗时。 单位:秒 |
> 0秒 |
数据仓库节点 |
1分钟 |
dws021_avg_disk_sec_per_write |
磁盘写耗时 |
该指标用于统计集群节点数据磁盘每次写入数据的平均耗时。 单位:秒 |
> 0秒 |
数据仓库节点 |
1分钟 |
dws022_avg_disk_queue_length |
磁盘平均队列长度 |
该指标用于统计每个集群节点数据磁盘平均的I/O队列长度。 |
≥ 0 |
数据仓库节点 |
1分钟 |
dws_024_dn_diskio_util |
DN实例I/O使用率 |
该指标用于统计集群DN实例磁盘平均I/O使用率。 |
0%~100% |
数据仓库实例 |
1分钟 |
维度
Key |
Value |
---|---|
datastore_id |
数据仓库集群ID |
dws_instance_id |
数据仓库节点ID |
查看集群监控和节点监控信息
- 登录GaussDB(DWS)管理控制台,进入“集群 > 专属集群”页面。
- 查看集群信息:在集群列表中,在指定集群所在行,单击“查看监控指标”,打开云监控管理控制台。默认显示的是集群监控信息。
用户可以根据需要,选择指定的监控指标名称以及时间范围,从而显示监控指标的性能曲线。
- 查看节点信息:单击可回到云监控管理控制台,默认显示“数据仓库节点”页签,可以从集群节点维度查看每个节点的指标。
用户可以根据需要,选择指定的监控指标名称以及时间范围,从而显示监控指标的性能曲线。
云监控也支持多个节点间的监控指标对比,具体操作请参见多节点间的监控指标对比。
多节点间的监控指标对比
- 在云监控管理控制台的左侧导航栏中,选择“监控看板 > 我的看板”,单击需要添加监控视图的看板名称,进入我的看板中,然后单击“添加监控视图”,系统弹出“添加监控视图”窗口。
- 在“添加监控视图”界面时,可以选择“曲线图”或者“条形图”来显示视图,确认无误后单击“确定”。
例如选择“曲线图”,指标展示选择“多指标一个视图”,对比GaussDB(DWS)三个节点间的CPU使用率,参数设置如下表所示。
表2 配置样例 参数名
样例值
资源类型
数据仓库服务
维度
数据仓库节点
监控对象
dws-demo-dws-cn-cn-2-1
dws-demo-dws-cn-cn-1-1
dws-demo-dws-dn-1-1
监控指标
CPU使用率
- 单击“保存”,完成监控视图的添加。
在所选的我的看板上可以查看新添加监控视图的监控走势图,单击放大按钮,可放大查看详细的指标对比数据。
创建告警规则
通过设置GaussDB(DWS)的告警规则,用户可以自定义监控目标和通知策略,及时了解GaussDB(DWS)运行状态,从而起到预警作用。
设置GaussDB(DWS)的告警规则包括设置告警规则名称、监控对象、监控指标、告警阈值、监控周期和是否发送通知等参数。本节介绍设置GaussDB(DWS)规则的具体方法。
- 登录GaussDB(DWS)管理控制台。
- 在左侧导航栏中选择“集群 > 专属集群”。
- 在指定集群所在行的“操作”列中,单击“查看监控指标”,进入云监控管理控制台,查看数据仓库服务监控信息。
确认待查看“监控信息”的集群状态必须为“可用”,否则不能进行创建告警操作。
- 在云监控管理控制台的左侧导航树上,选择 。
- 在“告警规则”界面,单击右上方“创建告警规则”。
- 在“创建告警规则”界面,根据界面提示配置参数。
- 配置规则名称和描述。
- 配置告警内容,根据界面提示配置参数。
表3 配置告警内容 参数名称
参数说明
取值样例
资源类型
配置告警规则监控的云服务资源名称。
数据仓库服务
维度
用于指定告警规则对应指标的维度名称。可以选择“数据仓库节点”或“数据仓库服务”。
数据仓库节点
监控范围
告警规则适用的资源范围,选择“指定资源”,然后勾选具体的监控对象,可以是一个或多个。对于GaussDB(DWS) 而言,在弹窗中选择您创建的集群实例ID或节点ID。
指定资源
触发规则
根据需要可选择关联模板、导入已有模板或自定义创建。
自定义创建
模板
当告警内容选择从模板导入时,该参数有效。
选择需要导入的模板。如果当前没有告警模板,可以单击“创建自定义告警模板”创建一个符合您需求的告警模板。
-
告警策略
当告警内容选择从自定义创建时,该参数有效。
设置触发告警的告警策略。例如,CPU使用率连续三个周期原始值≥80%。
数据仓库服务支持的监控指标请参见表1。
-
告警级别
根据告警的严重程度不同等级,可选择紧急、重要、次要、提示。
重要
- 配置告警通知,根据界面提示配置参数。
表4 配置告警通知 参数名称
参数说明
取值样例
发送通知
配置是否发送邮件、短信、HTTP和HTTPS通知用户。
选择“是”(推荐选择),会发送通知;选择“否”,不会发送通知。
是
生效时间
该告警规则仅在生效时间内发送通知消息。
如生效时间为00:00-8:00,则该告警规则仅在00:00-8:00发送通知消息。
-
通知对象
需要发送告警通知的主题名称。
当发送通知选择“是”时,需要选择已有的主题名称,若此处没有需要的主题则需先创建主题,该功能会调用消息通知服务(SMN)。
创建主题请参见《消息通知服务用户指南》。
-
触发条件
可以选择“出现告警”、“恢复正常”两种状态,作为触发告警通知的条件。
-
- 配置完成后,单击“立即创建”,完成告警规则的创建。
告警规则添加完成后,当监控指标触发设定的阈值时,云监控会在第一时间通过消息通知服务实时告知您资源异常,以免因此造成业务损失。
配置OBS转储
云监控各监控指标的原始数据的保留周期为两天,超过保留周期后原始数据将不再保存。用户可以开通对象存储服务,然后将原始数据同步保存至OBS,以保存更长时间。
关于如何配置OBS转储,具体请参见《云监控服务用户指南》中的配置OBS数据存储章节。