告警上报
在集群运行的过程中,会对数据库中的错误场景进行上报,便于用户及早感知到数据库集群的错误。告警写入的system_alarm日志可以在$GAUSSLOG/cm、$GAUSSLOG/gs_log/gtm、$GAUSSLOG/gs_log或$GAUSSLOG/roach/agent路径下查看。
enable_alarm
参数说明:设置是否打开告警上报线程,上报数据库中可能的故障场景。
参数类型:布尔型
参数单位:无
取值范围:
- on:表示打开告警上报线程。
- off:表示关闭告警上报线程。
默认值:on
设置方式:该参数属于POSTMASTER类型参数,请参考表1中对应设置方法进行设置。
设置建议:推荐使用默认值。
设置不当的风险与影响:关闭该参数会导致用户无法感知数据库中的某些故障场景。
该参数生效范围节点仅为CN、DN。
connection_alarm_rate
参数说明:设置允许和数据库连接的最大并发连接数的比率限制。数据库连接的最大并发连接数为max_connections* connection_alarm_rate。当并发连接数超过max_connections* connection_alarm_rate时,后台会打印连接信息的日志connection_log,日志中可以查看pg_stat_activity视图和线程池视图LOCAL_THREADPOOL_STATUS(查看pg_stat_activity视图需要开启追踪功能,查看线程池视图LOCAL_THREADPOOL_STATUS需要开启线程池功能)。
参数类型:浮点型
参数单位:无
取值范围:0 ~ 1
默认值:0.9
设置方式:该参数属于SIGHUP类型参数,请参考表1中对应设置方法进行设置。
设置建议:推荐使用默认值。
设置不当的风险与影响:请在充分理解参数含义,并经过测试验证后进行修改,避免出现意料之外的结果。
alarm_report_interval
参数说明:指定告警上报的时间间隔。
参数类型:整型
参数单位:秒(s)
取值范围:0 ~ 2147483647
默认值:10
设置方式:该参数属于SIGHUP类型参数,请参考表1中对应设置方法进行设置。设置时取值不能带单位。
设置建议:推荐使用默认值。
设置不当的风险与影响:
- 该值设置过大时,若指定告警上报时间间隔内检测出多次相同告警,会丢失关键告警。
- 该值设置过小时,若指定告警上报时间间隔内持续检测出同一告警,告警会频繁上报。
alarm_component
参数说明:在告警上报时,会进行告警抑制,即同一个实例的同一个告警项在alarm_report_interval(默认值为10s)内不做重复上报。在这种情况下设置用于处理告警内容的告警组件的位置,仅sysadmin用户可以访问。
参数类型:字符串
参数单位:无
取值范围:合法文件名称。
- 若前置脚本gs_preinstall中的--alarm-type参数设置为5时,表示未对接第三方组件,告警写入system_alarm日志,此时GUC参数alarm_component的取值为:/opt/huawei/snas/bin/snas_cm_cmd。
- 若前置脚本gs_preinstall中的--alarm-type参数设置为1时,表示对接第三方组件,此时GUC参数alarm_component的值为第三方组件的可执行程序的绝对路径。
默认值:"/opt/huawei/snas/bin/snas_cm_cmd"
设置方式:该参数属于POSTMASTER类型参数,请参考表1中对应设置方法进行设置。设置时取值不能带单位。
设置建议:推荐使用默认值。
设置不当的风险与影响:请在充分理解参数含义,并经过测试验证后进行修改,避免出现意料之外的结果。
table_skewness_warning_threshold
参数说明:设置用于表倾斜告警的阈值。
参数类型:浮点型
参数单位:无
取值范围:0 ~ 1
默认值:1
设置方式:该参数属于USERSET类型参数,请参考表1中对应设置方法进行设置。
设置建议:推荐使用默认值,并根据业务场景对表倾斜的敏感度适时调整。
设置不当的风险与影响:设置较小时,可能对表倾斜更敏感,无显著风险。
table_skewness_warning_rows
参数说明:设置用于表倾斜告警的行数。
参数类型:整型
参数单位:无
取值范围:0 ~ 2147483647
默认值:100000
设置方式:该参数属于USERSET类型参数,请参考表1中对应设置方法进行设置。
设置建议:推荐使用默认值,并根据业务场景对表倾斜的敏感度适时调整。
设置不当的风险与影响:设置较小时,可能对表倾斜更敏感,无显著风险。