数据采集概述
数据采集原理
数据采集的基本原理是安全云脑提供组件控制器(isap-agent),安装在租户云服务器上,通过组件控制器来管理采集组件Logstash,通过Logstash完成租户自身、租户与安全云脑数据的收发工作。
含义
- 采集器:定制化的Logstash。采集器节点则是定制化的Logstash+组件控制器(isap-agent)。
- 节点:安装了组件控制器(isap-agent),并被安全云脑纳管的云服务器叫做节点。节点纳管成功后,即可在组件管理中下发采集引擎Logstash。
- 组件:为了很好地完成业务而定制的软件,目前提供汇聚式收集引擎Logstash用于租户日志收发安全云脑业务。
- 连接器:Logstash配置的基础概念,主要包括input、output两部分,分别对应源连接器、目的连接器,用于定义采集器Logstash接受数据方式和规范。其中,安全云脑管道pipe连接器可以对接安全云脑,实现租户数据上报安全云脑,安全云脑数据转储到租户的能力。
- 解析器:Logstash配置的基础概念,主要为Logstash的filter部分,安全云脑解析器是对其filter部分的无码化封装和定制,用户只需在页面上配置解析器规则即可生成原生的filter配置脚本,从而轻松实现将原始日志转化为目标格式。
- 采集通道:采集通道等价于Logstash的pipeline,在Logstash可以配置多个pipeline,每个pipeline包括input、filter、output部分,每个pipeline为单独的作业,互不影响。在安全云脑租户采集上,可将相同的pipeline部署在多个节点上,并且配置相同的pipeline视为一个采集通道。
约束与限制
- 目前,数据采集的组件控制器支持运行在Linux系统x86_64和arm64架构的ECS主机上。
采集器规格
采集管理中,选作为节点的云服务器规格说明如下表所示:
CPU内核数 |
内存大小 |
系统盘 |
数据盘 |
参考处理能力 |
---|---|---|---|---|
4U |
8G |
50G |
100G |
2000 EPS @ 1KB 4000 EPS @ 500B |
8U |
16G |
50G |
100G |
5000 EPS @ 1KB 10000 EPS @ 500B |
16U |
32G |
50G |
100G |
10000 EPS @ 1KB 20000 EPS @ 500B |
32U |
64G |
50G |
100G |
20000 EPS @ 1KB 40000 EPS @ 500B |
64U |
128G |
50G |
100G |
40000 EPS @ 1KB 80000 EPS @ 500B |
说明:
云服务器规格最少为2U4G,目录磁盘至少挂载100G磁盘。 日志量应当与机器规格成比例放大,总体来说,建议按表中规格比例进行放大。如果机器压力较大,建议部署多台采集器,通过采集通道来统一管理,分摊单机日志中转压力。 安装组件控制器前,建议先挂载磁盘,然后使用分盘脚本对磁盘进行分配,确保目录磁盘下有超过100G的剩余空间,保证采集器Logstash的正常安装和运行。 |
日志源的数量
采集器支持的日志源数量不受限制,可随云资源配置变化而动态扩展。
数据采集流程
数据采集移除流程
序号 |
步骤 |
说明 |
---|---|---|
1 |
删除采集通道 |
请在采集通道管理页面中,停止并删除Logstash的pipeline配置。 注:相关节点上的所有采集通道都需要进行停止并删除,才可以完整移除组件、注销节点。 |
2 |
(可选)删除解析器 |
如果配置了解析器,请在解析器管理页面中,删除配置的无码化解析器。 |
3 |
(可选)删除数据连接 |
如果新增了数据连接,请在连接管理页面中,删除源和目的连接器。 |
4 |
移除组件 |
删除节点上安装的采集引擎Logstash,移除组件。 |
5 |
注销节点 |
移除组件控制器,完成节点注销。 注:注销节点不会删除ECS和endpointinterface资源,后续如果不再使用数据采集功能,需要手动释放。 |