更新时间:2026-04-24 GMT+08:00
分享

强制重启集群

在Logstash集群长期运行或遇到内存溢出、进程假死等未知故障导致服务不可用时,常规的配置更新可能无法解决底层资源僵死的问题。为此,CSS服务提供了强制重启集群功能,通过直接重启集群底层的虚拟机(VMs)来重置运行环境,从而快速恢复集群的健康状态。

重启影响

强制重启集群的过程中,会停止所有Logstash进程,中断所有处理中的数据流,集群将完全不可用。

集群重启后,管道(Pipelines)的状态取决于管道“是否保持常驻”。如表1所示,系统将根据是否保持常驻执行不同的恢复策略。

表1 管道恢复策略

管道配置

重启时的行为

恢复策略

“是否保持常驻”:否

直接停止

  1. 集群重启过程中,所有“运行中”的管道任务会被强制置为“已停止”
  2. 重启完成后,需人工手动启动管道。

“是否保持常驻”:是

尝试自动恢复

  1. 集群重启开始时,管道状态置为“恢复中”
  2. 系统尝试重启拉起Logstash进程。
  3. 如果10分钟内成功拉起Logstash进程,管道自动恢复为“工作中”
  4. 如果超时,则管道状态置为“失败”,需人工手动启动管道。

重启耗时取决于底层虚拟机的启动速度,通常比Logstash进程重启耗时更长。

约束限制

不支持重启的集群:“任务状态”“冻结”或存在其他正在进行中的任务。

操作前检查

  • 检查集群健康状态:确认“任务状态”不存在其他正在进行中的任务。
  • 建议在业务低峰期操作,或确保上游数据源(如Kafka)具备数据保留能力,以便重启后回溯消费。

强制重启集群

  1. 登录云搜索服务管理控制台
  2. 在左侧导航栏,选择“集群管理 > Logstash”
  3. 在集群列表,选择目标集群名称,单击操作列“更多 > 强制重启”
  4. “强制重启集群VMs”弹窗中,确认重启信息,输入YES,单击“确定”启动重启任务。
  5. “集群状态”“处理中”变为“可用”,则表示集群重启完成。

相关文档