更新时间:2022-05-20 GMT+08:00
分享

数据源类型管理

用户可以选择多个系统预制数据源类型,也可通过自身需求自定义编辑新的数据源类型。为用户的数据源数据提取提供多种配置方式。当用户选择通用数据类型时,需要用户配置字段提取获取文件内的字段数据,只有字段和数据匹配成功后,数据源才能采集到数据为APP应用输出原始数据。

  • 通用数据类型
  1. 通用-Json格式
  2. 通用-csv文件
  • 字段提取操作流程
  1. 当用户选择通用类型的“通用-Json格式”,用户可单击“提取字段”进入字段提取页面。
  2. 用户将数据原始数据上传OBS后,字段提取便捷页面左侧会展示文件数据内容。
  3. 以硬盘异常检测标准格式为例,上传预测文件,选择数据输出类型为“dfp_input”,单击“提取字段”,系统自动补全“提取方式”为“JSON键值”。
  4. 当用户选择“通用-csv文件”时,用户可单击“编辑”进入字段提取页面,单击“字段提取”,选择“通用-csv文件”。
  5. 用户将数据原始数据csv文件上传OBS后,字段提取便捷页面左侧会展示文件数据内容。
  • 当系统内的数据类型都不满足用户需求时,用户可通过编辑提取方式获得想要的数据。
  1. 以日志标准格式为例,选择自定义的数据类型,上传NAIE日志标准格式文件到OBS,“输出数据类型”选择“run_log”。单击“字段提取”按钮系统无法识别提取规则后,用户可通过索引“编辑”操作完成最终的数据提取。
  2. 单击“编辑”,选择相应的提取规则,“提取类型”和“提取方式”分为多种。其中,“提取类型”分为:text、keyword、long、double、float、boolean、date。“提取方式”分为:自动、分隔符、正则表达式、时间戳、指定索引、常量、行内容、JSON键值。
  • 提取类型简介
表1 提取类型简介

提取类型

描述

text

以text提取数据

keyword

以键值对提取数据

long

以数字长long类型提取数据

double

以双浮点double类型提取数据

float

以单浮点类型提取数据

boolean

以布尔类型格式提取数据

date

以日志格式提取数据,可设置时区。一般与时间戳提取方式合并使用

  • 提取方式操作流程
  1. 进入字段提取页面,“提取方式”选择“自动”后,系统会自动匹配字段。如果左侧没有对应颜色数据则匹配失败。
  2. “提取方式”选择“分隔符”匹配,右侧会出现两个输入框,第一个填分割符号,第二个填分割次序。如以图片内的数据为例,一行数据可看做以“][”分割,第二个分割的字符串就是我们想要的数据。数据匹配完成后,颜色对应即数据提取成功。
  3. “提取方式”选择“正则表达式”匹配,右侧出现一个输入框用于输入正则表达式。如下图的正则表达式为“((GET|POST|PUT|DELETE) [^?]+)\??.* HTTP” 用于匹配日志内的access日志内的http请求方式。
  4. 当需要提取日期格式数据时,“类型”选择“date”,“提取方式”选择“时间戳”匹配,右侧出现一个输入框用于输入日志格式。如下图的日期格式为“yyyy-MM-dd HH:mm:ss.SSS” 提取日志精确到秒后三位数。颜色匹配数据后,提取日期成功。
  5. “提取方式”选择“指定索引”匹配,右侧出现两个下拉框,第一个为指定索引名称,索引属于当前的“输出数据类型”内的字段,第二个下拉框选择关联MO属性,用于关联相关数据,且不能为空。
  6. “提取方式”选择“常量”匹配,右侧出现一个输入框用于填写常量的长度。如果长度过大甚至可以将整个文件作为一条记录存储。
  7. “提取方式”选择“行内容”匹配,当前的索引会按行提取。
  8. “提取方式”选择“JSON键值”匹配,当前索引会抓取json格式数据作为索引数据存储使用。
分享:

    相关文档

    相关产品

close