数据导入方式介绍

在构建企业级搜索与分析平台时，用户经常面临将分散在关系型数据库（MySQL/Oracle）、消息队列（Kafka）、对象存储（OBS）或业务应用中的海量异构数据汇聚到OpenSearch集群的挑战。由于不同业务场景对数据实时性、数据量级及开发成本的要求各异，CSS服务的OpenSearch集群提供了多种数据接入方案。本文将为您详细解析这些方案的适用场景与技术特点，帮助您根据业务需求选择合适的数据导入方式。

在大规模写入数据前，可以根据需要选择先对目标OpenSearch集群进行导入性能增强，以提升写入吞吐量。具体操作请参见导入性能增强。

表1 OpenSearch集群导入方案对比
导入方案	适用场景	支持数据源/格式	相关文档
CSS Logstash	适用于不想自建Logstash服务器，且需要对数据进行复杂清洗（Filter）的场景。例：将Kafka中的Nginx日志清洗后写入OpenSearch	MySQL、Kafka、OBS等	使用Logstash同步数据至Elasticsearch
CDM（云数据迁移服务）	适用于存量历史数据的全量搬迁，无需编写代码，向导式操作。例：将存放多年的OBS归档日志或Oracle历史订单表导入OpenSearch	OBS (JSON/CSV)、Oracle、MySQL等	使用CDM导入数据
开源Logstash	适用于本地IDC数据上云，或需要使用特殊插件、深度定制管道逻辑的场景。例：本地机房的系统日志通过SSH隧道上传至OpenSearch	JSON、CSV、文本等任意支持Logstash Input的源	使用自建Logstash导入数据
开源API	适用于业务代码直接写入，或开发调试阶段的小规模数据导入。例：Java/Python应用程序直接调用OpenSearch API写入数据	JSON	使用开源OpenSearch API导入数据