DWS_2000000001 DWS集群节点CPU使用率超阈值

告警解释

DWS每30秒采集集群各节点的CPU使用率。如果某节点最近10分钟（可配置）内的平均使用率超过90%（可配置），则上报节点CPU使用率超阈值告警；如果平均使用率低于85%（即上报阈值减去5%），则消除告警。

如果节点CPU的平均使用率一直大于上报阈值，那么在24小时（可配置）后将再次发起告警。

告警属性

告警ID	告警归属	告警级别	告警类型	业务类型	是否可自动清除
DWS_2000000001	租户面	>95% 紧急	操作告警	数据仓库服务	是

告警参数

类别	参数名称	参数含义
定位信息	名称	DWS集群节点CPU使用率超阈值。
	类型	操作告警。
	发生时间	告警发生时间。
附加信息	集群ID	集群resourceId、domain_id等详细信息。

对系统的影响

CPU长时间使用率高可能导致业务进程响应缓慢或不可用。

可能原因

存在复杂的业务占用大量的CPU资源。
集群CPU配置过低，无法满足业务需求。

处理步骤

检查各节点CPU使用情况。
1. 登录DWS管理控制台。
2. 在“监控 > 告警”界面，单击右上角“集群选择”下拉框，选中告警集群，查看集群最近7天的告警信息，通过定位信息锁定触发告警的节点名称。
3. 在“集群 > 集群列表”界面找到告警集群，在所在行操作列单击“监控面板”进入监控界面。
4. 选择“监控 > 节点监控 > 概览”可查看当前集群各节点CPU使用率的具体情况，单击最右的监控图标，查看最近1/3/12/24小时的CPU性能指标，判断是否有CPU使用率突然增大的情况。
  - 如果CPU使用率频繁出现短时间内上升然后恢复正常的情况，说明是业务执行过程中的临时冲高，可通过2调整告警阈值的方式减少告警的上报。
  - 如果CPU使用率长时间一直较高，则说明集群负载过高，可以按照3的方式排查集群业务，或考虑提升集群的配置规格，详情请参见弹性变更规格。
检查节点CPU使用率告警的配置是否合理。
1. 根据实际集群的使用情况，进入“监控 > 告警 > 告警规则管理”界面。
2. 在“节点CPU使用率超阈值”规则所在行“操作”列单击“修改”，进入“修改告警规则”界面。
3. 调整告警阈值和检测周期配置项，其中上报阈值越大、检测周期越长，则告警的灵敏度越低；否则灵敏度越高。更详细的界面配置说明参考告警规则。
检查当前集群业务是否占用CPU过高。
1. 在“集群 > 集群列表”界面找到集群，在所在行操作列单击“监控面板”进入监控界面。
2. 在监控面板的页面中选择“监控 > 实时查询”，切换至“实时查询”模块，单击，选择“CPU时间（ms）”，查看CPU时间最长的查询信息。
  图1 查看CPU时间信息
3. 和业务侧确认后，选中需要终止的查询ID，单击“终止查询”。
  图2 终止查询
进一步优化处理，可参见高CPU系统性能调优。