更新时间:2024-05-23 GMT+08:00
分享

数据清洗

数据清洗是指数据开发前对数据预处理、对原始数据进行ETL(Extract Transform Load)处理的过程。通过数据清洗过程检查原始数据的类型,确保数据完整,去除脏数据,并根据具体的业务规则将原始数据转换为业务需要的格式,为进一步数据分析做准备。

接入的日志数据存在于对应的Topic中,需要创建导流任务,将数据存储在对应的数据库中进行管理和后续开发。

FileBeat采集端数据清洗

在做日志接入创建日志空间时可以配置算子清洗策略完成日志数据清洗,如图1所示。

图1 算子清洗
  • 清洗规则:选择“算子清洗”。
  • 日志样例:使用典型日志,用来做清洗验证。
  • 解析脚本:配置解析脚本,将日志样例清洗为字段显示。解析脚本中不支持使用中划线,支持使用下划线。
  • 清洗字段:配置解析脚本后单击“配置解析脚本”,自动生成清洗自动,查看字段是否符合预期。

创建导流任务

以ClickHouse数据库为例,介绍如何创建导流任务将数据存储在ClickHouse数据库,创建前需要先新建ClickHouse表

如需使用其他数据库,可在已创建表的编辑页面创建任务进行数据提取。

  1. 进入运维中心工作台。
  2. 在顶部导航栏选择自有服务。
  1. 单击,选择“运维 > 监控服务(ServiceInsight)”。
  1. 选择左侧导航栏的“运维数据开发 > 数据开发”,进入“数据开发”页面。
  2. 单击“数据管理 > ClickHouse”,进入ClickHouse页面。
  3. 找到与日志接入时系统自动创建的检索空间同名的ClickHouse表,检索空间可在“日志空间”页面查看,如图2所示。单击该表所在行“操作”列的“编辑任务”。

    图2 查看检索空间

  4. 单击“创建导流任务”。
  5. 在“导流任务配置”页面配置导流任务及字段,如图4所示。

    • 执行集群:选择Topic所在的Kafka集群。
    • Kafka Topic:选择日志接入时选择或系统自动创建的Topic,即“日志空间”页面的存储空间,如图3所示。
      图3 查看存储空间
    • 是否从头消费:选择“是”,系统将会读取Topic中的历史数据;选择“否”,从当前创建任务时间点的数据开始读取。
    • Kafka字段名:Kafka Topic选择后,自动生成导流数据,部分数据列与Kafka Topic未联系起来,即“Kafka字段名”为空,需要单击“操作”列的“编辑”,在下拉列表中选择对应的字段,然后单击“保存”。
    图4 配置导流任务

  6. 导流任务及为空的Kafka字段名配置完成后,单击“确认创建”。
  7. 在任务列表中单击已创建的导流任务后的“启动”。
分享:

    相关文档

    相关产品