更新时间:2026-04-24 GMT+08:00
分享

数据导入方式介绍

在构建企业级搜索与分析平台时,用户经常面临将分散在关系型数据库(MySQL/Oracle)、消息队列(Kafka)、对象存储(OBS)或业务应用中的海量异构数据汇聚到OpenSearch集群的挑战。由于不同业务场景对数据实时性、数据量级及开发成本的要求各异,CSS服务的OpenSearch集群提供了多种数据接入方案。本文将为您详细解析这些方案的适用场景与技术特点,帮助您根据业务需求选择合适的数据导入方式。

在大规模写入数据前,可以根据需要选择先对目标OpenSearch集群进行导入性能增强,以提升写入吞吐量。具体操作请参见导入性能增强

表1 OpenSearch集群导入方案对比

导入方案

适用场景

支持数据源/格式

相关文档

CSS Logstash

适用于不想自建Logstash服务器,且需要对数据进行复杂清洗(Filter)的场景。

例:将Kafka中的Nginx日志清洗后写入OpenSearch

MySQL、Kafka、OBS等

使用Logstash同步数据至Elasticsearch

CDM(云数据迁移服务)

适用于存量历史数据的全量搬迁,无需编写代码,向导式操作。

例:将存放多年的OBS归档日志或Oracle历史订单表导入OpenSearch

OBS (JSON/CSV)、Oracle、MySQL等

使用CDM导入数据

开源Logstash

适用于本地IDC数据上云,或需要使用特殊插件、深度定制管道逻辑的场景。

例:本地机房的系统日志通过SSH隧道上传至OpenSearch

JSON、CSV、文本等任意支持Logstash Input的源

使用自建Logstash导入数据

开源API

适用于业务代码直接写入,或开发调试阶段的小规模数据导入。

例:Java/Python应用程序直接调用OpenSearch API写入数据

JSON

使用开源OpenSearch API导入数据

相关文档