智能检测OpenSearch集群风险
CSS服务提供智能运维功能,支持检测集群潜在风险,并给出风险处理的建议。
场景描述
集群的智能运维支持以下功能:
- 启动检测任务:通过启动检测任务,触发系统智能诊断集群的健康状况。
- 查看集群风险项:检测任务完成后,可以查看集群存在的风险项详情,根据风险建议及时处理集群存在的风险。
- 删除检测任务:当不需要历史所创建的检测任务时,可删除检测任务。删除检测任务后,系统将删除检测任务所对应的所有诊断信息。
智能运维的检查项包含如下项目。
- 检查当前时刻集群的健康状态,其中red表示有主分片未分配,yellow表示有副本分片未分配,green表示所有分片均已分配。
- 检测集群节点数与AZ(可用区)数,判定OpenSearch分布式集群的高可用性。
- 检测集群索引是否开启副本,未设置副本的索引在节点发生故障后可能导致索引不可用,本地盘集群未设置副本会有数据丢失的风险。
- 检测集群是否存在kibana索引冲突。
- 检测节点磁盘用量百分比,节点磁盘存储过大可能导致节点无法分配新索引分片并影响集群性能。
- 检测集群数据节点/冷数据节点的存储用量是否均衡,不均衡的存储用量分布可能导致集群负载不均,读写延迟增加。
- 连续5分钟检测当前集群是否有节点脱离或不可用。
- 检测节点分片数量是否过多,单节点分片数量过多会消耗大量节点资源,读写请求时延增加,集群元数据更新缓慢等。
- 检测所有分片大小,分片太大可能导致查询性能下降,节点内存消耗增加,影响扩缩容以及节点故障时分片的恢复速率等。
- 检测当前集群是否存在可升级的版本。
- 检测集群7天内是否有快照备份失败,或7天内无快照备份记录。
授权使用SMN服务
当智能检测任务完成后需要发送SMN告警通知时,需要先授权使用SMN服务,并在SMN服务创建主题。下面提供了授权指导,在SMN服务创建主题则请参见创建主题。
- 登录云搜索服务管理控制台。
必须使用CSS服务的管理员账号登录。
- 在左侧导航栏选择“服务授权”。
- 在服务授权页面,单击“创建SMN委托”,在弹窗中确认委托创建成功。
- 如果已经创建过委托,则右上角会提示“css_smn_agency exist, no need to created.”。
- 如果无创建权限,则右上角会提示“当前用户没有操作权限,请通过IAM检查账户权限!”,请确认该管理员账号是否配置了IAM使用权限。
启动检测任务
- 登录云搜索服务管理控制台。
- 在左侧导航栏,选择“集群管理 > OpenSearch”。
- 在集群列表,单击目标集群名称,进入集群详情页。
- 选择“运维监控 > 智能运维”。
- 在智能运维页面,单击左上角的“启动检测”,在对话框中配置检测任务。
表1 配置检测任务 参数
说明
名称
检测任务的名称。
支持自定义,只能包含4到64位小写字母、数字、中划线或者下划线,并且以小写字母开头。
描述
检测任务的简短描述。
任务完成后发送SMN告警
选择是否在检测任务完成后发送SMN告警。
- 勾选:需要配置SMN主题和告警灵敏度。当检测任务完成后,会以SMN通知的形式发送大于或等于告警敏感度的告警信息。
- 不勾选(默认值):检测任务完成后不会收到SMN通知。
SMN主题
当勾选“任务完成后发送SMN告警”时,需要选择SMN主题。
告警灵敏度
当勾选“任务完成后发送SMN告警”时,需要选择告警灵敏度。
当检测到的风险项存在大于或等于此告警敏感度的条目,则发送SMN告警消息,消息内容则包含所有风险项。
- 配置完成后,单击“确定”。
- 当检测任务状态变成“完成”时,表示智能检测结束,可以查看集群风险项。