更新时间:2023-06-20 GMT+08:00
源端为Kafka/MQ
迁移流程
在泛IOT、新闻、舆情、社交等数据量较大的行业,通常会引入消息中间件(kafka、MQ等)对流量进行削峰填谷,然后借助Flink/Logstash等工具消费数据并进行数据预处理,最终将数据导入到搜索引擎,对外提供搜索服务。
对于这种源端是kafka/MQ的集群,集群迁移流程如图1所示。
该迁移方案具有割接方便和通用性好的优点。
- 割接方便:一旦两个ES集群的数据保持一致后,随时可割接。
- 通用性好:两边均可同步对客户端的ES进行增删改查操作。
操作步骤
- 订阅增量。在kafka/MQ中新建消费组,订阅增量数据。
- 存量数据同步。使用Logstash等工具将源端ES集群中的数据迁移到CSS集群中。若使用Logstash进行数据迁移,可以参考使用Logstash迁移集群数据。
- 增量数据同步。待存量数据同步完成之后开启增量消费组,利用ES对数据操作的幂等性,等新的消费组追上之前的消费组时,两边的数据就会追平。
关于日志场景,源端ES集群中的数据并不需要迁移,即可跳过存量数据同步的步骤,待增量数据同步完成后,两边持续同步跑一段时间(例如3天或7天),然后直接割接即可。
父主题: 集群迁移