数据导入方式介绍
在构建企业级搜索与分析平台时,用户经常面临将分散在关系型数据库(MySQL/Oracle)、消息队列(Kafka)、对象存储(OBS)或业务应用中的海量异构数据汇聚到OpenSearch集群的挑战。由于不同业务场景对数据实时性、数据量级及开发成本的要求各异,CSS服务的OpenSearch集群提供了多种数据接入方案。本文将为您详细解析这些方案的适用场景与技术特点,帮助您根据业务需求选择合适的数据导入方式。
| 导入方案 | 适用场景 | 支持数据源/格式 | 相关文档 |
|---|---|---|---|
| CSS Logstash | 适用于不想自建Logstash服务器,且需要对数据进行复杂清洗(Filter)的场景。 例:将Kafka中的Nginx日志清洗后写入OpenSearch | MySQL、Kafka、OBS等 | |
| CDM(云数据迁移服务) | 适用于存量历史数据的全量搬迁,无需编写代码,向导式操作。 例:将存放多年的OBS归档日志或Oracle历史订单表导入OpenSearch | OBS (JSON/CSV)、Oracle、MySQL等 | |
| 开源Logstash | 适用于本地IDC数据上云,或需要使用特殊插件、深度定制管道逻辑的场景。 例:本地机房的系统日志通过SSH隧道上传至OpenSearch | JSON、CSV、文本等任意支持Logstash Input的源 | |
| 开源API | 适用于业务代码直接写入,或开发调试阶段的小规模数据导入。 例:Java/Python应用程序直接调用OpenSearch API写入数据 | JSON |
