智能检测Elasticsearch集群风险
CSS服务提供智能运维功能,支持检测集群潜在风险,并给出风险处理的建议。
场景描述
集群的智能运维支持以下功能:
- 启动检测任务:通过启动检测任务,触发系统智能诊断集群的健康状况。
- 查看集群风险项:检测任务完成后,可以查看集群存在的风险项详情,根据风险建议及时处理集群存在的风险。
- 删除检测任务:当不需要历史所创建的检测任务时,可删除检测任务。删除检测任务后,系统将删除检测任务所对应的所有诊断信息。
智能运维的检查项包含如下项目。
- 检查当前时刻集群的健康状态,其中red表示有主分片未分配,yellow表示有副分片未分配,green表示所有分片均已分配。
- 检测集群节点数与AZ(可用区)数,判定Elasticsearch分布式集群的高可用性。
- 检测集群索引是否开启副本,未设置副本的索引在节点发生故障后可能导致索引不可用,本地盘集群未设置副本会有数据丢失的风险。
- 检测集群是否存在kibana索引冲突。
- 检测节点磁盘用量百分比,节点磁盘存储过大可能导致节点无法分配新索引分片并影响集群性能。
- 检测集群数据节点/冷数据节点的存储用量是否均衡,不均衡的存储用量分布可能导致集群负载不均,读写延迟增加。
- 连续5分钟检测当前集群是否有节点脱离或不可用。
- 检测节点分片数量是否过多,单节点分片数量过多会消耗大量节点资源,读写请求时延增加,集群元数据更新缓慢等。
- 检测所有分片大小,分片太大可能导致查询性能下降,节点内存消耗增加,影响扩缩容以及节点故障时分片的恢复速率等。
- 检测当前集群是否存在可升级的版本。
- 检测集群7天内是否有快照备份失败,或7天内无快照备份记录。
启动检测任务
- 登录云搜索服务管理控制台。
- 在集群管理页面,单击需要进行智能运维的集群名称,跳转至该集群基本信息页面。
- 左侧菜单栏选择“智能运维”。
- 在智能运维页面,单击左上角的“启动检测”。
- 在对话框中填写检测任务的基本信息,单击“确定”。
表1 配置检测任务 参数
说明
名称
检测任务的名称。
描述
检测任务的简短描述。
SMN主题
当勾选“任务完成后发送SMN告警”时,需要选择当前账号已创建的SMN主题。
告警灵敏度
当勾选“任务完成后发送SMN告警”时,需要选择告警灵敏度。
当检测到的风险项存在大于等于此告警敏感度的条目,则发送SMN告警消息,消息内容则包含所有风险项。
- 当检测任务状态变成“完成”时,表示智能检测结束,可以查看集群风险项。