编排作业
操作场景
按照业务诉求,以算子编排的方式来开发实时作业。
- 实时作业是由“算子”和“数据流”组成一个DAG(有向无环图)。
- “算子”表示的是对数据的处理,本服务预制了多个算子供您使用,一个实时作业最多支持100个算子(即作业流图上显示的100个处理节点)。
- “数据流”表示在算子之间的传递数据,数据有明确的字段和格式,在编排界面,数据流以算子之间的连线表示。
- 算子分成3类,输入算子、转换算子和输出算子。一个完整的作业必须包含输入算子、转换算子和输出算子,否则不能正常执行。
- 输入算子:负责实时作业数据的输入,是作业的属性类型。
- 转换算子:负责对数据进行各种处理。
- 输出算子:负责把作业处理的结果输出到作业外部。
编排作业
序号 |
区域 |
描述 |
---|---|---|
1 |
算子货架窗口 |
算子列表,提供多种输入算子、转换算子、输出算子,以及高级算子。 |
2 |
画布窗口 |
在画布上通过算子和线来编排实时作业。 |
3 |
算子参数配置窗口 |
点击画布上某个算子后,显示此算子的参数。 |
算子类型 |
算子名称 |
描述 |
---|---|---|
输入算子 |
管道数据输入 |
使用数据管道清洗过的数据作为实时分析的数据源。 算子配置项如图所示:
|
资产数据输入 |
接收来自于资产模型的数据,以便进一步使用实时分析算子对资产数据进行分析,并将分析后的结果返回给资产模型,丰富资产模型内容。 注意:使用该算子后,数据输出算子只可选择“资产数据输出”。 算子配置项如图所示:
注意:每个“资产数据输入”算子只可指定一个参数,若原作业中使用了多个参数,则需要使用多个“资产数据输入”算子。 |
|
转换算子 |
数据过滤 |
实现了根据条件进行数据过滤。支持多个条件过滤数据,条件间是“与”或“或”的关系。当需要按单条数据本身的字段取值来决定是否过滤数据时使用本算子。 |
数据扁平 |
把数据流中的嵌套Json字段转换为多个独立字段。如果测点类型是Object,那么是一个嵌套结构,需要把结构中的每个字段提取出来,成为数据流中的独立字段,这样数据流的所有字段都是字符串、数字等简单数据类型。 |
|
数据嵌套 |
把数据流中的字段打包成嵌套的Json格式字段,在实时作业输出数据时,如果需要输出嵌套的Json格式,那么使用此算子。 |
|
数据聚合 |
对多条数据进行聚合计算。支持算法为,求和(SUM),求平均(AVERAGE),求最大值(MAX),求最小值(MIN),求最旧值(FIRST),求最新值(LAST),求个数(COUNT),组装数组(ARRAY)。
须知:
求和(SUM),求平均(AVERAGE),求最大值(MAX),求最小值(MIN)算法支持STRING、INTEGER、LONG、FLOAT、DOUBLE数据类型,不支持其他数据类型。求最旧值(FIRST),求最新值(LAST),求个数(COUNT)支持所有数据类型。配置如果类型不匹配,输出此字段为null。 聚合使用数据窗口,支持窗口类型为: 滚动窗口:窗口数据无重叠,需要指定窗口大小。比如每5分钟统计数据条数,那么每5分钟一个窗口,不会有重复统计。 滑动窗口:窗口有数据重叠,需要指定窗口大小,以及窗口移动大小。比如每1分钟统计最近5分钟数据条数,那么1分钟一个窗口,窗口大小为5分钟,重叠了4分钟数据。 会话窗口:窗口无固定大小,以多长时间没有没有数据作为窗口间隔。 |
|
数据计算 |
需要生成新的字段或者改变字段的取值时使用。通过表达式配置(表达式配置与”数据管道”相同,详见 表达式说明)新字段的取值计算方式
须知:
对于新增加字段,在本算子的输出字段配置项中需要手工添加此字段,并且字段类型要和实际表达式计算结果的类型一致,如果不一致,算子会按照输出算子配置强制转换,如果转换失败,输出此字段为null。 |
|
数据状态计算 |
支持以最新数据取值来进行条件计算。数据可能来自不同时间点,比如温度测点上报了温度,烟感测点上报了烟状态,因为这2个测点是不同数据中字段,并且不是同一时间点,使用其他算子不能进行组合判断,而本算子可以把数据缓存起来,在任意数据有变更时触发条件检测。
须知:
|
|
数据去重 |
为了过滤掉重复数据,使用本算子。支持指定字段是否相同来判断是否是重复数据,比如指定温度字段没有变化则是重复数据,而事件时间字段每条数据取值不同。 支持指定去重超时时长,在超时后,收到的第一条数据不按去重处理,然后重新开始去重计时以及去重检查。用于避免长时间数据字段值没有变化导致数据都被丢弃而不能产生数据。 |
|
数据选择 |
对数据的字段进行过滤,选择的字段名字才输出,过滤掉不在字段列表中的字段。 |
|
输出算子 |
资产数据输出 |
将实时分析的计算结果输出到资产模型,用于在资产模型中使用实时分析作业进行分析任务计算的结果。 注意:使用该算子后,数据输入算子只可选择“资产数据输入”。 算子配置项如图所示:
|
DIS输出 |
作业处理后的数据结果输出到您的DIS云服务。
说明:
请先进行DIS云服务授权配置,相关操作请参考数据源--添加DIS数据源 |
|
高级算子 |
去噪 |
去噪算子,对数据流中的数据根据窗口周期进行去噪。 主要算子配置项包括:
|
算子如果配置正确,提示为:
算子如果配置错误,提示为: