更新时间:2026-06-17 GMT+08:00
分享

预测类加工算子介绍

平台支持预测类数据集的加工操作,预测类加工算子能力清单见表1

表1 预测类加工算子能力清单

算子分类

算子名称

算子描述

数据提取

通用设备特征计算

针对预测数据集里面的CSV文件,提取预测维护相关的基础设备特征,一般包括RMS等。

列选择与丢弃

针对预测数据集里面的CSV文件,根据列名对特征列进行筛选或者丢弃。

数据转换

异常空缺值处理

针对预测数据集里面的CSV文件中存在的异常空缺值,按照指定规则或者自定义值进行填充。

快速傅里叶变换

针对预测数据集里面的CSV文件,对数据表中指定的特征列进行快速傅里叶变换。

巴特沃斯高通低通滤波

针对预测数据集里面的CSV文件,对数据表中指定的特征列进行巴特沃斯高通滤波或低通滤波。

中值滤波

针对预测数据集里面的CSV文件,对数据表中指定的特征列按照指定窗口和pad方式进行中值滤波。

时间特征编码

针对预测数据集里面的CSV文件,进行时间特征编码。

标签列编码

针对预测数据集里面的CSV文件,进行标签列编码。

CSV文件合并

针对预测数据集里面的多个字段一致的CSV文件,进行文件合并。

IOS8601时间格式转换

针对CSV文件里,指定的时间列,进行IOS8601时间格式转换。

将 CSV中指定的时间戳列,列名指定,(支持多种常见格式)自动解析并统一转换为 ISO 8601 字符串格式(YYYY-MM-DDTHH:MM:SS),同时返回解析成功率统计信息,便于数据质量监控。

频率检查

提供一个健壮、可重复、可解释的时间序列预处理函数,用于:

从 CSV 文件加载时间列,严格验证时间格式为 ISO 8601 字符串;

可选地将原始时间四舍五入对齐到指定时间栅格(如 5 秒、1 分钟);

自动补全缺失的时间点(按指定频率);

保留所有原始(或对齐后)数据点,缺失处填充 NaN。

时间序列插值

针对CSV文件里的时序进行插值操作。

对按时间(或顺序)排列的 DataFrame 中指定数值列的缺失值(NaN)进行插值处理,支持三种常见插值策略,适用于时间序列数据清洗场景(如价格、销量、传感器读数等)。

花卉每日价格数据中存在缺失,需填充以进行后续建模。

物联网设备采样数据偶发丢失,需保持时间连续性。

财务或销售数据预处理阶段。

数值范围检查

用于对指定的数值列进行值域范围校验,并按需:

过滤(filter):移除值超出指定范围的行;或

置空(mask):将超出范围的值替换为 NaN。

适用于数据清洗、异常值处理、特征工程等场景。

标签表格拆分

针对预测数据集里面的CSV文件,对数据表中的类别列,按照类别进行表格文件拆分。

数据抽样

简单采样

针对预测数据集里面的CSV文件,对文件进行简单采样。

过采样

针对预测数据集里面的CSV文件,对标签列的指定标签进行过采样,可选择SMOTE过采样或者随机采样。

降采样

针对预测数据集里面的CSV文件,进行降采样。

数据分析

特征分布统计

针对预测数据集里面的CSV文件,按照列进行特征统计分析。

特征相关性分析

针对预测数据集里面的CSV文件,对不同特征列进行相关性分析。

特征加工前后对比

针对预测数据集加工后的csv文件,与加工前数据集的相同数值特征列进行比较。

其他

散点图或直方图可视化

针对预测数据集里面的CSV文件,对列名所在的数值列数据进行绘制散点图或直方图,输出为jpg文件。

异常空缺值处理

  • 适用的文件:格式限制.csv文件,大小限制3GB。
  • 算子说明:

    针对预测数据集里面的CSV文件中存在的异常空缺值,按照指定规则或者自定义值进行填充。

  • 各参数说明:

    自定义异常值:自定义数值作为异常值,当异常值类型为自定义异常时有效。

    填充方式:设置平均值填充、众数填充、中位数填充、最小值填充、最大值填充或自定义填充值分别通过特征列的平均值、众数、中位数、最小值、最大值或自定义值对异常空缺值替换填充。

    填充内容:当填充方式为自定义填充值时有效。

    特征列名:需要进行处理的列名,多列可用英文逗号隔开。

    表2 异常空缺值处理算子参数说明

    参数名称

    是否必选

    参数类型

    取值范围

    默认值

    自定义异常值

    Int, Float

    取值范围即int或float的取值范围。

    填充方式

    String

    平均值填充:取特征列的平均值填充,填充值为float型。

    众数填充:取特征列的众数填充。

    中位数填充:取特征列的中位数填充,填充值为float型。

    最小值填充:取特征列的最小值填充,如果特征列存在float型数值,则以最小值的float型进行填充。

    最大值填充:取特征列的最大值填充,如果特征列存在float型数值,则以最大值的float型进行填充。

    自定义填充值:填充值仅支持int或float数值型内容。

    平均值填充

    填充内容

    Int, Float

    当填充方式为自定义填充值时生效,取值范围即int或float的取值范围。

    特征列名

    String

    仅支持对数据表中的数值型特征列处理。

  • 参数配置样例:

    本示例将condition列中的-1.0作为异常值,输入数据如下:

    自定义异常值为-1.0,填充方式选择自定义填充值,此时填充内容3.0才能够生效,参数设置如下图所示:

    将condition列中的异常值-1.0替换成指定值3.0,处理后结果如下图所示:

快速傅里叶变换

  • 适用的文件:格式限制.csv文件,大小限制3GB。
  • 算子说明:

    针对预测数据集里面的CSV文件,对数据表中指定的特征列进行快速傅里叶变换。

  • 各参数说明:

    傅里叶变换结果:取傅里叶变换结果的实部、虚部、振幅或者幅角。

    傅里叶变换列名:指定进行变换的特征列名,多列可使用英文逗号隔开。

    结果保存方式:选择使用追加或者替换对傅里叶变换结果追加到数据表最后一列或直接替换原数据列。

    表3 快速傅里叶变换算子参数说明

    参数名称

    是否必选

    参数类型

    取值范围

    默认值

    傅里叶变换结果

    String

    实部:傅里叶变换结果的实部。

    虚部:傅里叶变换结果的虚部。

    振幅:傅里叶变换结果的振幅。

    幅角:傅里叶变换结果的幅角。

    振幅

    傅里叶变换列名

    String

    仅支持对数据表中的数值型特征列进行快速傅里叶变换。

    结果保存方式

    String

    替换:将傅里叶变换结果直接替换到原特征列中。

    追加:将傅里叶变换结果追加在数据表中的最后一列。

    替换

  • 参数配置样例

    输入数据如下:

    本示例通过对输入数据中的sharpness特征列进行FFT变换,将FFT变换结果的振幅直接替换原特征列,参数配置如下所示:

    变换后结果如下图所示:

巴特沃斯高低通滤波

  • 适用的文件:格式限制.csv文件,大小限制3GB。
  • 算子说明:

    针对预测数据集里面的CSV文件,对数据表中指定的特征列进行巴特沃斯高通滤波或低通滤波。

  • 各参数说明:

    截止频率:归一化后的截止频率,归一化公式为:

    截止频率要低于本身最大频率,采样频率一般大于本身最大频率两倍,归一化后截止频率取值范围在(0, 1)范围内。

    滤波方式:通过设置低通滤波或者高通滤波使用巴特沃斯低通或者高通滤波器。

    滤波器阶数:巴特沃斯滤波器阶数,取值范围[1, 10],阶数越高,在阻频带振幅衰减速度越快。

    滤波操作列名:选择需要滤波操作的特征列,多列可使用英文逗号隔开。

    表4 巴特沃斯高通低通滤波算子参数说明

    参数名称

    是否必选

    参数类型

    取值范围

    默认值

    截止频率

    float

    (0, 1)

    0.5

    滤波方式

    String

    低通滤波:使用低通滤波器进行滤波。

    高通滤波:使用高通滤波器进行滤波。

    低通滤波

    滤波器阶数

    Int

    [1, 10]

    4

    滤波操作列名

    String

    仅支持数据表中的数值型特征列。

  • 参数配置样例:

    输入数据如下图:

    本示例使用归一化后截止频率为0.3,阶数为4阶的巴特沃斯低通滤波器,对输入数据的sharpness特征列进行低通滤波,参数配置如下图:

    滤波后的输出结果如下所示:

中值滤波

  • 适用的文件:格式限制.csv文件,大小限制3GB。
  • 算子说明:

    针对预测数据集里面的CSV文件,对数据表中指定的特征列按照指定窗口和pad方式进行中值滤波。

  • 各参数说明:

    滤波窗口:中值滤波窗口大小,必须为奇数,取值范围3~21,且不能大于数据行数。

    滤波操作列名:指定进行中值滤波操作的特征列名,多列可使用英文逗号隔开。

    数据边缘pad方式:对数据边缘按照窗口大小进行填充操作,通过选择零值填充、边缘值填充、镜像值填充、中位数填充对数据边缘使用数值0、序列数据的头尾数值、在数据头尾的镜像数据、整段数据的中位数填充。

    表5 中值滤波算子参数说明

    参数名称

    是否必选

    参数类型

    取值范围

    默认值

    滤波窗口

    Int

    必须为奇数,取值范围3~21,且不能大于数据行数。

    3

    滤波操作列名

    String

    仅支持数据表中的数值型特征列。

    数据边缘pad方式

    String

    零值填充:使用0进行边缘填充。

    边缘值填充:使用特征列的头尾数据分别对数据列的两边进行填充。

    镜像值填充:在数据列的头尾处使用镜像复制的数据进行填充。

    中位数填充:使用整段数据列的中位数进行填充。

    零值填充

  • 参数配置样例:

    输入数据如下所示:

    本示例对输入数据的sharpness特征列进行中值滤波,窗口大小为5,pad方式使用0进行填充,参数配置如下:

    其中不同数据边缘pad方式结果示意图如下:

    得到最终中值滤波的结果如下图所示:

通用设备特征计算

  • 适用的文件格式:

    多个设备的.csv组成的数据集。

    一般为设备采集数据的数据库数据。数据库中,数据列为FLOATLIST,频率列为INT或FLOAT。

    导出CSV以后,数据列为"1.0,2.0,3.0,4.0"这样的字符串,频率列为1024这样的整数或浮点数,若频率为浮点数,则在计算过程中自动截取整数部分。

    数据列的单行数据点数需大于等于256个,且同一频率的数据点个数一致。

    作为设备特征专用算子,请注意数据格式和文件内容,如果格式不符合要求,则无法运行。

  • 算子说明:

    针对预测数据集里面的CSV文件,提取预测维护相关的基础设备特征,一般包括RMS等。

  • 各参数说明:

    模式特征选择:目前支持3种模式,基础特征(base_feats)|高阶特征(pro_feats)|自定义特征(user_defined),自定义特征模式下,需要在自定义特征列补充需要提供的特征清单。

    数据列名:测点采集到的高频时序数据。

    频率列名:测点采集频率。

    自定义特征清单:指定的特征清单

    表6 基础设备特征算子参数说明

    参数名称

    是否必选

    参数类型

    取值范围

    默认值

    模式特征选择

    String

    基础特征,高阶特征,自定义特征。基础特征为32个,高阶特征117个。若选择自定义特征,则必须填写自定义特征清单。

    基础特征

    数据列名

    String

    数据列名,列名中不应包含逗号、引号、反斜线、空格等特殊字符,以免与CSV语法冲突。

    频率列名

    String

    频率列名,列名中不应包含逗号、引号、反斜杠、空格等特殊字符,以免与CSV语法冲突。

    自定义特征清单

    String

    样例内容如下:sharpness,roughness,mean_square,rms,var

    格式为特征名+英文逗号分隔。

    支持的特征列名表如下:

    表7 特征列名表

    序号

    函数名

    特征名称

    简要说明

    BASE

    1

    sharpness

    尖锐度

    用于量化信号瞬态冲击强度和突变特性的指标,主要用于衡量信号中高频、高幅值的瞬态成分的多少和显著程度。

    2

    roughness

    粗糙度

    用于表征和量化由摩擦、磨损、表面划伤等分布式表面劣化故障所激发的中高频,反映的是机械接触表面的微观不平度和纹理特征。

    3

    mean_square

    均方值

    反映的是振动信号在统计时间内的总能量强度,对信号幅值的变化非常敏感,能够有效表征设备的总体振动强度和能量状态。

    4

    rms

    有效值

    衡量振动信号平均能量强度的时域指标,它表征的是信号在统计时间内的有效幅值或等效稳态能量,反映设备的总体振动水平和能量状态,对平稳振动信号的能量变化最为敏感。

    5

    var

    方差

    衡量振动信号围绕均值波动的能量分散程度。它表征的是信号动态分量的能量强度,反映振动幅值的离散程度和波动幅度,对信号中的异常波动和非平稳成分敏感。

    6

    pk_pk

    峰值

    衡量振动信号在监测周期内最大动态变化范围的幅值指标。它表征的是信号最大振幅跨度,反映振动极值间的总体波动范围,对信号中的极端冲击和大幅值变化最为敏感。

    7

    shape_factor

    波形指标

    衡量振动信号波形平坦程度的无量纲指标,计算为均方根值与绝对平均值的比值。它表征的是信号幅值分布的集中特性,反映波形与理想正弦波的偏离程度,对信号中的冲击成分和非高斯特性敏感。

    8

    crest

    峰值因数

    它表征的是信号中极端峰值相对于平均能量水平的突出程度,对旋转机械的局部损伤类故障(如点蚀、剥落)异常敏感。

    9

    impulse

    脉冲指数

    衡量振动信号中冲击成分强度的无量纲指标,计算为峰值与绝对平均值的比值。它表征的是信号中瞬时冲击峰值相对于平均幅值水平的突出程度,对早期局部损伤类故障(如点蚀、裂纹)产生的瞬态冲击异常敏感。

    10

    clearance

    裕度

    衡量振动信号中极端冲击强度的无量纲指标,计算为峰值与方根幅值的比值。它表征的是信号中最大峰值相对于典型幅值水平的突出程度,对严重局部故障(如严重剥落、断裂)产生的剧烈冲击异常敏感。

    11

    skewness

    偏度

    衡量振动信号幅度分布不对称性的统计指标。它表征的是信号概率密度函数相对于均值的偏斜方向和程度,反映振动冲击的单向性特征,对非对称性故障(如单侧摩擦、不对中)敏感。

    12

    kurt

    峭度

    衡量振动信号概率分布陡峭程度的统计指标,反映信号中冲击成分的强度。它表征的是信号幅值分布的尖峰厚尾特性,对早期局部损伤(如点蚀、剥落)引起的瞬态冲击异常敏感。

    13

    gini

    基尼指数

    衡量振动信号能量分布不均匀性或稀疏程度的指标。它表征的是信号能量在频域或时域中的集中特性,对由局部故障(如点蚀、裂纹)引起的冲击性振动成分异常敏感,值越小表明能量分布越均匀,值越大表明能量越集中于少数冲击事件。

    14

    spec_ctrd

    重心频率

    衡量振动信号频谱能量分布平均位置的频域指标。它表征的是频谱中能量集中的平均频率成分,反映系统振动的主要频率分布趋势,其偏移可指示故障引起的刚度变化或共振特性改变。

    15

    spec_ms

    频谱均方

    衡量振动信号在频域上的平均能量分布强度指标。它表征的是信号功率谱的平均功率密度,反映频域能量的总体分布水平,用于评估振动能量在频率范围内的集中程度和分布特性。

    16

    spec_rms

    频谱均方根

    衡量振动信号在频域上的等效平均能量强度指标。它表征的是信号功率谱的有效幅值密度,反映频域能量分布的总体水平,用于评估振动在频率范围内的平均能量分布强度。

    17

    spec_var_ctrd

    频谱方差

    信号频谱分布的方差,反映了信号频率成分的分散程度。

    18

    spec_std_ctrd

    频谱标准差

    频率方差的平方根,用于描述信号频谱分布的离散程度。

    19

    pse

    谱熵

    衡量振动信号功率谱能量分布混乱程度或不确定性的指标。它表征的是频域能量分布的无序性,值越大表明能量在频带上分布越分散(混乱),值越小表明能量越集中于少数频带(有序),用于检测系统状态变化引起的频谱能量分布特性改变。

    20

    env_rms

    包络均方根

    衡量振动信号包络分量的平均能量强度指标。它表征的是信号经包络解调后获得的调制波形的有效幅值,专门用于检测和量化由轴承、齿轮等部件局部故障引起的周期性冲击能量的平均强度。

    21

    ehr

    谐噪比

    衡量信号中谐波成分相对于总能量比重的频域指标。它表征的是振动频谱中谐波能量分布的集中程度,反映系统非线性特性的强度,对齿轮磨损、轴系不对中等故障引起的谐波激励异常敏感。

    22

    kurt_aver

    平均峭度

    平均峭度,是上述峭度指标的分段平均结果,以增强鲁棒性。

    23

    rms_filtered_band_0_500

    低频均方根

    对信号做0-500Hz低通滤波后,计算有效值,描述低频信号的能量或强度。

    24

    rms_filtered_band_500_2000

    中频均方根

    对信号做500-2000Hz带通滤波后,计算有效值,描述中频信号的能量或强度。

    25

    rms_filtered_band_2000_inf

    高频均方根

    对信号做2000Hz以上频率高通滤波后,计算有效值,描述高频信号的能量或强度。

    26

    kurt_filtered_band_0_500

    低频峭度

    对信号做0-500Hz低通滤波后,计算峭度指标,描述低频信号中冲击性的强弱。

    27

    kurt_filtered_band_500_2000

    中频峭度

    对信号做500-2000Hz带通频滤波后,计算峭度指标,描述中频信号中冲击性的强弱。

    28

    kurt_filtered_band_2000_inf

    高频峭度

    对信号做(2000-fs/2)Hz高通滤波后,计算峭度指标,描述高频信号中冲击性的强弱。

    29

    ehr_filtered_band_0_500

    低频谐噪比

    对信号做0-500Hz低通滤波后,计算谐噪比,描述低频信号中谐波成分与噪声成分强度比。

    30

    ehr_filtered_band_500_2000

    中频谐噪比

    对信号做500-2000Hz带通滤波后,计算谐噪比,描述中频信号中谐波成分与噪声成分强度比。

    31

    ehr_filtered_band_2000_inf

    高频谐噪比

    对信号做(2000-fs/2)Hz高通滤波后,计算谐噪比,描述高频信号中谐波成分与噪声成分强度比。

    32

    mpf

    机械主频(转速)

    表征转速,用于在没有转速传感器时的替代。

    PRO

    33

    rms_filtered_band_0_1000

    带通滤波信号(0_1kHz)有效值

    对信号做0_1kHz带通滤波后,计算有效值,描述带通滤波后信号的能量或强度。

    34

    rms_filtered_band_1000_2000

    带通滤波信号(1_2kHz)有效值

    对信号做1_2kHz带通滤波后,计算有效值,描述带通滤波后信号的能量或强度。

    35

    rms_filtered_band_2000_3000

    带通滤波信号(2_3kHz)有效值

    对信号做2_3kHz带通滤波后,计算有效值,描述带通滤波后信号的能量或强度。

    36

    rms_filtered_band_3000_4000

    带通滤波信号(3_4kHz)有效值

    对信号做3_4kHz带通滤波后,计算有效值,描述带通滤波后信号的能量或强度。

    37

    rms_filtered_band_4000_5000

    带通滤波信号(4_5kHz)有效值

    对信号做4_5kHz带通滤波后,计算有效值,描述带通滤波后信号的能量或强度。

    38

    rms_filtered_band_5000_6000

    带通滤波信号(5_6kHz)有效值

    对信号做5_6kHz带通滤波后,计算有效值,描述带通滤波后信号的能量或强度。

    39

    rms_filtered_band_6000_7000

    带通滤波信号(6_7kHz)有效值

    对信号做6_7kHz带通滤波后,计算有效值,描述带通滤波后信号的能量或强度。

    40

    rms_filtered_band_7000_8000

    带通滤波信号(7_8kHz)有效值

    对信号做7_8kHz带通滤波后,计算有效值,描述带通滤波后信号的能量或强度。

    41

    rms_filtered_band_8000_9000

    带通滤波信号(8_9kHz)有效值

    对信号做8_9kHz带通滤波后,计算有效值,描述带通滤波后信号的能量或强度。

    42

    rms_filtered_band_9000_10000

    带通滤波信号(9_10kHz)有效值

    对信号做9_10kHz带通滤波后,计算有效值,描述带通滤波后信号的能量或强度。

    43

    rms_filtered_band_10000_11000

    带通滤波信号(10_11kHz)有效值

    对信号做10_11kHz带通滤波后,计算有效值,描述带通滤波后信号的能量或强度。

    44

    rms_filtered_band_11000_12000

    带通滤波信号(11_12kHz)有效值

    对信号做11_12kHz带通滤波后,计算有效值,描述带通滤波后信号的能量或强度。

    45

    rms_filtered_band_12000_13000

    带通滤波信号(12_13kHz)有效值

    对信号做12_13kHz带通滤波后,计算有效值,描述带通滤波后信号的能量或强度。

    46

    rms_filtered_band_13000_14000

    带通滤波信号(13_14kHz)有效值

    对信号做13_14kHz带通滤波后,计算有效值,描述带通滤波后信号的能量或强度。

    47

    rms_filtered_band_14000_15000

    带通滤波信号(14_15kHz)有效值

    对信号做14_15kHz带通滤波后,计算有效值,描述带通滤波后信号的能量或强度。

    48

    rms_filtered_band_15000_16000

    带通滤波信号(15_16kHz)有效值

    对信号做15_16kHz带通滤波后,计算有效值,描述带通滤波后信号的能量或强度。

    49

    rms_filtered_band_16000_17000

    带通滤波信号(16_17kHz)有效值

    对信号做16_17kHz带通滤波后,计算有效值,描述带通滤波后信号的能量或强度。

    50

    rms_filtered_band_17000_18000

    带通滤波信号(17_18kHz)有效值

    对信号做17_18kHz带通滤波后,计算有效值,描述带通滤波后信号的能量或强度。

    51

    rms_filtered_band_18000_19000

    带通滤波信号(18_19kHz)有效值

    对信号做18_19kHz带通滤波后,计算有效值,描述带通滤波后信号的能量或强度。

    52

    rms_filtered_band_19000_inf

    带通滤波信号(19k_fs/2 Hz)有效值

    对信号做(19k_fs/2)Hz带通滤波后,计算有效值,描述带通滤波后信号的能量或强度。

    53

    ehr_filtered_band_0_1000

    带通滤波信号(0_1kHz)谐噪比

    对信号做0_1kHz带通滤波后,计算谐噪比,描述带通滤波后信号中谐波成分与噪声成分强度比。

    54

    ehr_filtered_band_1000_2000

    带通滤波信号(1_2kHz)谐噪比

    对信号做1_2kHz带通滤波后,计算谐噪比,描述带通滤波后信号中谐波成分与噪声成分强度比。

    55

    ehr_filtered_band_2000_3000

    带通滤波信号(2_3kHz)谐噪比

    对信号做2_3kHz带通滤波后,计算谐噪比,描述带通滤波后信号中谐波成分与噪声成分强度比。

    56

    ehr_filtered_band_3000_4000

    带通滤波信号(3_4kHz)谐噪比

    对信号做3_4kHz带通滤波后,计算谐噪比,描述带通滤波后信号中谐波成分与噪声成分强度比。

    57

    ehr_filtered_band_4000_5000

    带通滤波信号(4_5kHz)谐噪比

    对信号做4_5kHz带通滤波后,计算谐噪比,描述带通滤波后信号中谐波成分与噪声成分强度比。

    58

    ehr_filtered_band_5000_6000

    带通滤波信号(5_6kHz)谐噪比

    对信号做5_6kHz带通滤波后,计算谐噪比,描述带通滤波后信号中谐波成分与噪声成分强度比。

    59

    ehr_filtered_band_6000_7000

    带通滤波信号(6_7kHz)谐噪比

    对信号做6_7kHz带通滤波后,计算谐噪比,描述带通滤波后信号中谐波成分与噪声成分强度比。

    60

    ehr_filtered_band_7000_8000

    带通滤波信号(7_8kHz)谐噪比

    对信号做7_8kHz带通滤波后,计算谐噪比,描述带通滤波后信号中谐波成分与噪声成分强度比。

    61

    ehr_filtered_band_8000_9000

    带通滤波信号(8_9kHz)谐噪比

    对信号做8_9kHz带通滤波后,计算谐噪比,描述带通滤波后信号中谐波成分与噪声成分强度比。

    62

    ehr_filtered_band_9000_10000

    带通滤波信号(9_10kHz)谐噪比

    对信号做9_10kHz带通滤波后,计算谐噪比,描述带通滤波后信号中谐波成分与噪声成分强度比。

    63

    ehr_filtered_band_10000_11000

    带通滤波信号(10_11kHz)谐噪比

    对信号做10_11kHz带通滤波后,计算谐噪比,描述带通滤波后信号中谐波成分与噪声成分强度比。

    64

    ehr_filtered_band_11000_12000

    带通滤波信号(11_12kHz)谐噪比

    对信号做11_12kHz带通滤波后,计算谐噪比,描述带通滤波后信号中谐波成分与噪声成分强度比。

    65

    ehr_filtered_band_12000_13000

    带通滤波信号(12_13kHz)谐噪比

    对信号做12_13kHz带通滤波后,计算谐噪比,描述带通滤波后信号中谐波成分与噪声成分强度比。

    66

    ehr_filtered_band_13000_14000

    带通滤波信号(13_14kHz)谐噪比

    对信号做13_14kHz带通滤波后,计算谐噪比,描述带通滤波后信号中谐波成分与噪声成分强度比。

    67

    ehr_filtered_band_14000_15000

    带通滤波信号(14_15kHz)谐噪比

    对信号做14_15kHz带通滤波后,计算谐噪比,描述带通滤波后信号中谐波成分与噪声成分强度比。

    68

    ehr_filtered_band_15000_16000

    带通滤波信号(15_16kHz)谐噪比

    对信号做15_16kHz带通滤波后,计算谐噪比,描述带通滤波后信号中谐波成分与噪声成分强度比。

    69

    ehr_filtered_band_16000_17000

    带通滤波信号(16_17kHz)谐噪比

    对信号做16_17kHz带通滤波后,计算谐噪比,描述带通滤波后信号中谐波成分与噪声成分强度比。

    70

    ehr_filtered_band_17000_18000

    带通滤波信号(17_18kHz)谐噪比

    对信号做17_18kHz带通滤波后,计算谐噪比,描述带通滤波后信号中谐波成分与噪声成分强度比。

    71

    ehr_filtered_band_18000_19000

    带通滤波信号(18_19kHz)谐噪比

    对信号做18_19kHz带通滤波后,计算谐噪比,描述带通滤波后信号中谐波成分与噪声成分强度比。

    72

    ehr_filtered_band_19000_inf

    带通滤波信号(19k_fs/2 Hz)谐噪比

    对信号做(19k_fs/2)Hz带通滤波后,计算谐噪比,描述带通滤波后信号中谐波成分与噪声成分强度比。

    73

    kurt_filtered_band_0_1000

    带通滤波信号(0_1kHz)峭度

    对信号做0_1kHz带通滤波后,计算峭度,描述带通滤波后信号中冲击性的强弱。

    74

    kurt_filtered_band_1000_2000

    带通滤波信号(1_2kHz)峭度

    对信号做1_2kHz带通滤波后,计算峭度,描述带通滤波后信号中冲击性的强弱。

    75

    kurt_filtered_band_2000_3000

    带通滤波信号(2_3kHz)峭度

    对信号做2_3kHz带通滤波后,计算峭度,描述带通滤波后信号中冲击性的强弱。

    76

    kurt_filtered_band_3000_4000

    带通滤波信号(3_4kHz)峭度

    对信号做3_4kHz带通滤波后,计算峭度,描述带通滤波后信号中冲击性的强弱。

    77

    kurt_filtered_band_4000_5000

    带通滤波信号(4_5kHz)峭度

    对信号做4_5kHz带通滤波后,计算峭度,描述带通滤波后信号中冲击性的强弱。

    78

    kurt_filtered_band_5000_6000

    带通滤波信号(5_6kHz)峭度

    对信号做5_6kHz带通滤波后,计算峭度,描述带通滤波后信号中冲击性的强弱。

    79

    带通滤波信号(6_7kHz)峭度

    带通滤波信号(6_7kHz)峭度

    对信号做6_7kHz带通滤波后,计算峭度,描述带通滤波后信号中冲击性的强弱。

    80

    kurt_filtered_band_7000_8000

    带通滤波信号(7_8kHz)峭度

    对信号做7_8kHz带通滤波后,计算峭度,描述带通滤波后信号中冲击性的强弱。

    81

    kurt_filtered_band_8000_9000

    带通滤波信号(8_9kHz)峭度

    对信号做8_9kHz带通滤波后,计算峭度,描述带通滤波后信号中冲击性的强弱。

    82

    kurt_filtered_band_9000_10000

    带通滤波信号(9_10kHz)峭度

    对信号做9_10kHz带通滤波后,计算峭度,描述带通滤波后信号中冲击性的强弱。

    83

    kurt_filtered_band_10000_11000

    带通滤波信号(10_11kHz)峭度

    对信号做10_11kHz带通滤波后,计算峭度,描述带通滤波后信号中冲击性的强弱。

    84

    kurt_filtered_band_11000_12000

    带通滤波信号(11_12kHz)峭度

    对信号做11_12kHz带通滤波后,计算峭度,描述带通滤波后信号中冲击性的强弱。

    85

    kurt_filtered_band_12000_13000

    带通滤波信号(12_13kHz)峭度

    对信号做12_13kHz带通滤波后,计算峭度,描述带通滤波后信号中冲击性的强弱。

    86

    kurt_filtered_band_13000_14000

    带通滤波信号(13_14kHz)峭度

    对信号做13_14kHz带通滤波后,计算峭度,描述带通滤波后信号中冲击性的强弱。

    87

    kurt_filtered_band_14000_15000

    带通滤波信号(14_15kHz)峭度

    对信号做14_15kHz带通滤波后,计算峭度,描述带通滤波后信号中冲击性的强弱。

    88

    kurt_filtered_band_15000_16000

    带通滤波信号(15_16kHz)峭度

    对信号做15_16kHz带通滤波后,计算峭度,描述带通滤波后信号中冲击性的强弱。

    89

    kurt_filtered_band_16000_17000

    带通滤波信号(16_17kHz)峭度

    对信号做16_17kHz带通滤波后,计算峭度,描述带通滤波后信号中冲击性的强弱。

    90

    kurt_filtered_band_17000_18000

    带通滤波信号(17_18kHz)峭度

    对信号做17_18kHz带通滤波后,计算峭度,描述带通滤波后信号中冲击性的强弱。

    91

    kurt_filtered_band_18000_19000

    带通滤波信号(18_19kHz)峭度

    对信号做18_19kHz带通滤波后,计算峭度,描述带通滤波后信号中冲击性的强弱。

    92

    kurt_filtered_band_19000_inf

    带通滤波信号(19k_fs/2 Hz)峭度

    对信号做(19k_fs/2)Hz带通滤波后,计算峭度,描述带通滤波后信号中冲击性的强弱。

    93

    kurt_aver_filtered_band_0_1000

    带通滤波信号(0_1kHz)平均峭度

    对信号做0_1kHz带通滤波后,计算平均峭度,描述带通滤波后信号中冲击性的强弱。

    94

    kurt_aver_filtered_band_1000_2000

    带通滤波信号(1_2kHz)平均峭度

    对信号做1_2kHz带通滤波后,计算平均峭度,描述带通滤波后信号中冲击性的强弱。

    95

    kurt_aver_filtered_band_2000_3000

    带通滤波信号(2_3kHz)平均峭度

    对信号做2_3kHz带通滤波后,计算平均峭度,描述带通滤波后信号中冲击性的强弱。

    96

    kurt_aver_filtered_band_3000_4000

    带通滤波信号(3_4kHz)平均峭度

    对信号做3_4kHz带通滤波后,计算平均峭度,描述带通滤波后信号中冲击性的强弱。

    97

    kurt_aver_filtered_band_4000_5000

    带通滤波信号(4_5kHz)平均峭度

    对信号做4_5kHz带通滤波后,计算平均峭度,描述带通滤波后信号中冲击性的强弱。

    98

    kurt_aver_filtered_band_5000_6000

    带通滤波信号(5_6kHz)平均峭度

    对信号做5_6kHz带通滤波后,计算平均峭度,描述带通滤波后信号中冲击性的强弱。

    99

    kurt_aver_filtered_band_6000_7000

    带通滤波信号(6_7kHz)平均峭度

    对信号做6_7kHz带通滤波后,计算平均峭度,描述带通滤波后信号中冲击性的强弱。

    100

    kurt_aver_filtered_band_7000_8000

    带通滤波信号(7_8kHz)平均峭度

    对信号做7_8kHz带通滤波后,计算平均峭度,描述带通滤波后信号中冲击性的强弱。

    101

    kurt_aver_filtered_band_8000_9000

    带通滤波信号(8_9kHz)平均峭度

    对信号做8_9kHz带通滤波后,计算平均峭度,描述带通滤波后信号中冲击性的强弱。

    102

    kurt_aver_filtered_band_9000_10000

    带通滤波信号(9_10kHz)平均峭度

    对信号做9_10kHz带通滤波后,计算平均峭度,描述带通滤波后信号中冲击性的强弱。

    103

    kurt_aver_filtered_band_10000_11000

    带通滤波信号(10_11kHz)平均峭度

    对信号做10_11kHz带通滤波后,计算平均峭度,描述带通滤波后信号中冲击性的强弱。

    104

    kurt_aver_filtered_band_11000_12000

    带通滤波信号(11_12kHz)平均峭度

    对信号做11_12kHz带通滤波后,计算平均峭度,描述带通滤波后信号中冲击性的强弱。

    105

    kurt_aver_filtered_band_12000_13000

    带通滤波信号(12_13kHz)平均峭度

    对信号做12_13kHz带通滤波后,计算平均峭度,描述带通滤波后信号中冲击性的强弱。

    106

    kurt_aver_filtered_band_13000_14000

    带通滤波信号(13_14kHz)平均峭度

    对信号做13_14kHz带通滤波后,计算平均峭度,描述带通滤波后信号中冲击性的强弱。

    107

    kurt_aver_filtered_band_14000_15000

    带通滤波信号(14_15kHz)平均峭度

    对信号做14_15kHz带通滤波后,计算平均峭度,描述带通滤波后信号中冲击性的强弱。

    108

    kurt_aver_filtered_band_15000_16000

    带通滤波信号(15_16kHz)平均峭度

    对信号做15_16kHz带通滤波后,计算平均峭度,描述带通滤波后信号中冲击性的强弱。

    109

    kurt_aver_filtered_band_16000_17000

    带通滤波信号(16_17kHz)平均峭度

    对信号做16_17kHz带通滤波后,计算平均峭度,描述带通滤波后信号中冲击性的强弱。

    110

    kurt_aver_filtered_band_17000_18000

    带通滤波信号(17_18kHz)平均峭度

    对信号做17_18kHz带通滤波后,计算平均峭度,描述带通滤波后信号中冲击性的强弱。

    111

    kurt_aver_filtered_band_18000_19000

    带通滤波信号(18_19kHz)平均峭度

    对信号做18_19kHz带通滤波后,计算平均峭度,描述带通滤波后信号中冲击性的强弱。

    112

    kurt_aver_filtered_band_19000_inf

    带通滤波信号(19k_fs/2 Hz)平均峭度

    对信号做(19k_fs/2) Hz带通滤波后,计算平均峭度,描述带通滤波后信号中冲击性的强弱。

    113

    energy_ratio_filtered_band_0_500

    频谱低频能量占比(0-500Hz)

    用于衡量信号低频能量(0-500Hz)的强弱。

    114

    energy_ratio_filtered_band_500_5000

    频谱中频能量占比(500Hz-5kHz)

    用于衡量信号中频能量(500Hz-5kHz)的强弱。

    115

    energy_ratio_filtered_band_5000_10000

    频谱次高频能量占比(5kHz-10kHz)

    用于衡量信号次高频能量(5kHz-10kHz)的强弱。

    116

    energy_ratio_filtered_band_10000_15000

    频谱高频能量占比(10kHz-15kHz)

    用于衡量信号高频能量占比(10kHz-15kHz)的强弱。

    117

    energy_ratio_filtered_band_15000_inf

    频谱超高频能量占比(15k-fs/2 Hz)

    用于衡量信号超高频能量占比(15k-fs/2) Hz的强弱。

  • 参数配置样例:

    样例数据如下,输入文件中必须有数据列与频率列,案例中分别为data和hz这两列。其中数据列是该采样时刻所有的数据,用英文逗号隔开,频率列为Int类型的正整数。

    模式特征选择可以选择基础特征,高阶特征或自定义特征,数据列名与频率列名必须要和表格数据中的列名对应。

    计算结束后,原始数据列和频率列会被删除,得到生成的各个特征列,保留数据列和频率列的其他列:

时间特征编码

  • 适用的文件:格式限制.csv文件,大小限制2GB。
  • 算子说明:

    针对预测数据集里面的CSV文件,进行时间特征编码。需要选择待编码的时间列,支持多种时间格式,然后设置编码指令,支持多种时间成分:hour, min, sec, day_of_week, month, day, day_of_year, week_of_year,支持sin和cos两种编码方式;is_leap_year,is_month_start,is_month_end,is_quarter_start,is_quarter_end,is_year_start,is_year_end,is_weekend,仅支持binary编码。

  • 各参数说明:

    时间列名:需要时间特征编码列的标签名字,支持多种时间格式。例如:标准格式(2012-09-12 20:08:00)、使用点号分隔符(2012.09.12 20:08:00)、12小时制(2012-09-12 08:08 PM)、汉字描述(2012年9月12日 20:08)、斜杠分割(2012/09/12 20:08:00)、无秒格式(2012-09-12 20:08)。

    编码指令:支持多种时间成分:hour(小时), min(分钟), sec(秒), day_of_week(一周的第几天), month(月份), day(天数), day_of_year(一年的第几天), week_of_year(一年的第几周),支持sin和cos两种编码方式,例如hour:sin;is_leap_year(是闰年),is_month_start(是月初),is_month_end(是月末),is_quarter_start(是季度初),is_quarter_end(是季度末),is_year_start(是年初),is_year_end(是年末),is_weekend(是周末),仅支持binary编码,例如is_weekend:binary

    表8 时间特征编码算子参数说明

    参数名称

    是否必选

    参数类型

    取值范围

    默认值

    时间列名

    String

    仅支持数据表中存在的列名,并且内容为时间格式类型,不支持一列中多种时间格式混合。

    编码指令

    String

    支持多种时间成分,在时间成分后面标记编码方式。

    hour:sin month:cos day_of_year:sin day_of_week:cos

  • 参数配置样例:

    假设待处理的数据集如下:

    设置参数分别为:时间列名:采样时间;编码指令:hour:sin month:cos day_of_year:sin day_of_week:cos(多个列名可以用英文逗号或空格隔开)。

    得到的处理结果如下,将会新增4列编码内容,对应设置的4个编码规则:

标签列编码

  • 适用的文件:格式限制.csv文件,大小限制2GB。
  • 算子说明:

    针对预测数据集里面的CSV文件,进行标签列编码。

  • 各参数说明:

    待编码的特征列:需要ID编码的标签列,多个字符串按照英文逗号分隔。

    表9 标签列编码算子参数说明

    参数名称

    是否必选

    参数类型

    取值范围

    默认值

    待编码的特征列

    String

    仅支持数据表中存在的列名。

  • 参数配置样例:

    假设待处理的数据集如下:

    设置参数,待编码的特征列:device_code,measuring_point_code(多个列名可以用英文逗号隔开)。

    输出编码后的数据集:

CSV文件合并

  • 适用的文件格式:.csv
  • 算子说明:

    针对预测数据集里面的多个字段一致的CSV文件,进行文件合并。比如多个设备的字段一致的表格。算子合并过程中会校验每个文件的表头和类型。如果不一致会报错。

  • 各参数说明:

    输出文件名,不带CSV文件后缀:合并输出的文件名,仅支持中文汉字、英文字母、数字和下划线,且长度不超过128,如果未提供,则使用第一个文件名作为合并后的文件名。

    表10 CSV文件合并算子参数说明

    参数名称

    是否必选

    参数类型

    取值范围

    默认值

    输出文件名,不带CSV文件后缀

    String

    仅支持中文汉字、英文字母、数字和下划线,且长度不超过128。

  • 参数配置样例:

列选择与丢弃

  • 适用的文件格式:.csv
  • 算子说明:

    针对预测数据集里面的CSV文件,根据列名对特征列进行筛选或者丢弃。

  • 各参数说明:

    列名:需要进行选择或者丢弃的特征列名,多列使用英文逗号分隔,例如A,B 。若列名为空,则返回原数据集。

    选择或丢弃:根据列名对特征列数据选择提取或者丢弃。

    表11 列选择与丢弃算子参数说明

    参数名称

    是否必选

    参数类型

    取值范围

    默认值

    列名

    String

    仅支持数据表中存在的列名。

    选择或丢弃

    String

    选择:根据列名,将对应特征列数据提取出来。

    丢弃:根据列名,将对应特征列数据丢弃。

  • 参数配置样例:

IOS8601时间格式转换

  • 适用的文件:格式限制.csv文件,大小限制3GB。
  • 算子说明:

    针对CSV文件里,指定的时间列,进行IOS8601时间格式转换。

    将 CSV中指定的时间戳列,列名指定,(支持多种常见格式)自动解析并统一转换为 ISO 8601 字符串格式(YYYY-MM-DDTHH:MM:SS),同时返回解析成功率统计信息,便于数据质量监控。

    支持的输入格式包括:

    标准日期时间(带秒):'2023-01-01 14:30:25'

    标准日期时间(无秒):'2023-01-01 14:30'

    斜杠分隔格式:'2023/02/15 09:45[:30]'

    日-月-年格式(带/无秒):'01-03-2023 18:20[:15]'

    Unix 时间戳(字符串或数字):'1672531825'

    紧凑 ISO 格式:'20230101T143025'

  • 各参数说明:

    操作列名:需要进行操作的列名,只支持单列操作。

    参数名称

    是否必选

    参数类型

    取值范围

    默认值

    需要进行操作的列名,只支持单列操作

    String

    按照CSV列名规范填入

  • 参数配置样例:

    输入数据如下图:

    本示例中时间列为timestamp列,参数配置如下图:

    运行后的输出结果如下所示:

频率检查

  • 适用的文件:格式限制.csv文件,大小限制3GB。
  • 算子说明:

    提供一个健壮、可重复、可解释的时间序列预处理函数,用于:

    从 CSV 文件加载时间列,严格验证时间格式为 ISO 8601 字符串。

    可选地将原始时间四舍五入对齐到指定时间栅格(如 5 秒、1 分钟)。

    自动补全缺失的时间点(按指定频率)。

    保留所有原始(或对齐后)数据点,缺失处填充 NaN。

  • 各参数说明:

    操作列名:需要进行操作的列名,只支持单列操作

    时间采样频率:时间采样频率,需要ISO兼容的字符串描述,比如5s,5min,5h,5d。

    类型

    合法示例

    '5s', '30S'

    分钟

    '5T', '10min'

    小时

    '1H', '6h'

    '1D', '7d'

    月初

    'MS', '2MS'

    月末

    'M', '3M'

    参数名称

    是否必选

    参数类型

    取值范围

    默认值

    操作列名

    String

    需要进行操作的列名,只支持单列操作。

    时间采样频率

    String

    需要ISO兼容的字符串描述,比如5s,5min,5h,5d。

  • 参数配置样例:

    输入数据如下图:

    本示例使用归一化后截止频率为0.3,阶数为4阶的巴特沃斯低通滤波器,对输入数据的sharpness特征列进行低通滤波,参数配置如下图:

    滤波后的输出结果如下所示:

时间序列插值

  • 适用的文件:格式限制.csv文件,大小限制3GB。
  • 算子说明:

    针对CSV文件里的时序进行插值操作。

    对按时间(或顺序)排列的 DataFrame 中指定数值列的缺失值(NaN)进行插值处理,支持三种常见插值策略,适用于时间序列数据清洗场景(如价格、销量、传感器读数等)。

    花卉每日价格数据中存在缺失,需填充以进行后续建模。

    物联网设备采样数据偶发丢失,需保持时间连续性。

    财务或销售数据预处理阶段。

  • 各参数说明:

    操作列名:需要进行操作的列名,只支持单列操作

    插值模式:枚举值,可选3个模式,前向模式、后向模式、线性插值

    参数名称

    是否必选

    参数类型

    取值范围

    默认值

    操作列名

    String

    需要进行操作的列名,只支持单列操作。

    时间采样频率

    ENUM

    三个选项:插值方式: 'forward':前向填充'backward':后向填充,'linear':线性插值。

  • 参数配置样例:

    输入数据如下图:

    本示例,先使用时间格式算子强制转换到标准时间,后进行范围检查和频率检查,在有大量空行的情况下,本算子作为第四个算子,其参数配置如下图:

    输出结果如下所示:

数值范围检查

  • 适用的文件:格式限制.csv文件,大小限制3GB。
  • 算子说明:

    用于对指定的数值列进行值域范围校验,并按需:

    过滤(filter):移除值超出指定范围的行;或

    置空(mask):将超出范围的值替换为 NaN。

    适用于数据清洗、异常值处理、特征工程等场景。

  • 各参数说明:

    正常的数值范围:正常的数值范围,范围之外的会过滤掉。

    运行模式:枚举值,过滤模式和置空模式。

    参数名称

    是否必选

    参数类型

    取值范围

    默认值

    正常的数值范围

    float

    浮点数范围

    -3.40E+38到+3.40E+38

    运行模式

    ENUM

    过滤模式和置空模式,

    置空模式

    输入数据如下图:

    本示例使用归一化后截止频率为0.3,阶数为4阶的巴特沃斯低通滤波器,对输入数据的sharpness特征列进行低通滤波,参数配置如下图:

    输出结果如下所示:

标签表格拆分

  • 适用的文件:格式限制.csv文件,大小限制3GB。
  • 算子说明:

    针对预测数据集里面的CSV文件,对数据表中的类别列,按照类别进行表格文件拆分,拆分成不同表格,比如某一列数据包含了三个类别标签,指定该列,会被拆成三个表格。

  • 各参数说明:

    特征列名:需要ID编码的特征列,多个列名按照英文逗号分隔。

    表12

    参数名称

    是否必选

    参数类型

    取值范围

    默认值

    特征列名

    String

    仅支持数据表中存在的列名。

  • 参数配置样例:

简单采样

  • 适用的文件格式:csv表格文件。
  • 算子说明:

    针对预测数据集里面的CSV文件,对文件进行简单采样。

  • 各参数说明:

    采样比例:采样比例在0.01~1.0之间。

    是否要打乱:是或者否,选择是则最后生成的样本是随机打乱的,选择否则按照顺序进行采样,并保持原顺序。

    随机种子:固定随机种子可确保每次运行结果一致,便于调试与复现,取值0-2000。

    表13 简单采样算子参数说明

    参数名称

    是否必选

    参数类型

    取值范围

    默认值

    采样比例

    Float

    0.01~1.0

    0.7

    是否要打乱

    Boolean

    是:随机打乱采样。

    否:按顺序采样。

    随机种子

    Int

    0-2000

    123

  • 参数配置样例:

    运行结果统计如下:

过采样

  • 适用的文件:格式限制csv表格文件,文件大小限制2GB,行数限制300万行。
  • 算子说明:

    针对预测数据集里面的CSV文件,对标签列的指定标签进行过采样,可选择SMOTE过采样或者随机采样。

  • 各参数说明:

    过采样率 (百分比):过采样率 (百分比),例如50表示增加50%的样本,取值范围[1, 500],且过采样后目标类别数量不超过最大类别样本数。

    注意:过采样后的类别数据量不可以超过原有数量最大的类别。

    标签列名:需要进行过采样的标签列名。

    类别标签:要过采样的类别标签,支持字符和整数两种类型。

    过采样方法:过采样方法,数据量少(小于10万条)建议使用SMOTE采样,数据量大时建议使用随机过采样,SMOTE采样不支持字符类型特征。

    表14 过采样算子参数说明

    参数名称

    是否必选

    参数类型

    取值范围

    默认值

    过采样率 (百分比)

    Int

    1~500

    100

    标签列名

    String

    仅支持数据表中存在的列名。

    类别标签

    String

    仅支持标签列下的字符型或整数型标签。

    过采样方法

    String

    SMOTE采样:生成样本质量更高。

    随机过采样:生成速度更快。

    随机过采样

  • 参数配置样例:

    假设原始输入如下:

    其中,过采样率 (百分比):200,表示增加200%的样本。标签列名为:RainTomorrow,类别标签:1,过采样方法选择SMOTE采样。

    假设采样率过高,导致过采样后的类别数据量超过原有数量最大的类别,则会产出如下报错:

降采样

  • 适用的文件:格式限制csv表格文件,大小限制3GB。
  • 算子说明:

    针对预测数据集里面的CSV文件,进行降采样。

  • 各参数说明:

    标签列名:需要进行降采样的标签列名。

    需要降采样的类别:正要降采样的类别列表,格式如:B,C,多个默认值使用英文逗号隔开。

    降采样类别对应的采样比例:采样比例在0.01~0.99之间,格式如0.5,0.6 ,多个默认值使用英文逗号隔开。

    是否要打乱:是或者否,选择是则最后生成的样本是随机打乱的,选择否则按照顺序进行采样,并保持原顺序。

    随机种子:固定随机种子可确保每次运行结果一致,便于调试与复现,取值0-2000。

    表15 降采样算子参数说明

    参数名称

    是否必选

    参数类型

    取值范围

    默认值

    标签列名

    String

    仅支持数据表中存在的列名。

    需要降采样的类别

    String

    仅支持标签列下的字符型或整数型或object型标签,多个默认值使用英文逗号隔开。

    降采样类别对应的采样比例

    String

    单个采样比例在0.01~0.99之间,多个默认值使用英文逗号隔开。

    0.5

    是否要打乱

    Boolean

    是:随机打乱采样。

    否:按顺序采样。

    随机种子

    Int

    0-2000

    123

  • 参数配置样例:

    假设原始输入如下:

    其中,标签列名为:RainTomorrow,可选择需要采样的类别:0,1(注意需要用英文逗号分隔),在降采样类别对应的采样比例中填写对应的降采样比例:0.5,0.9(注意需要用英文逗号分隔),即类别0的采样率是0.5,类别1的采样率是0.9,是否打乱选项选择是即生成的结果为随机采样,否则按照顺序采样。如果需要采样的类别只选择一个类别,则降采样类别对应的采样比例也只填一个数值。

    运行日志输出:

散点图或直方图可视化

  • 适用的文件:格式限制.csv表格文件,大小限制2GB。
  • 算子说明:

    针对预测数据集里面的CSV文件,对列名所在的数值列数据进行绘制散点图或直方图,输出为jpg文件。散点图的横轴默认为index索引(可选填),纵轴为value(所选数值列的值),用于观察所选数值列的分布情况或与所选横轴变量的特征关系;直方图的横轴为value(所选数值列的值),纵轴为频率,将所有数据按照值的大小等间隔划分为30个区间,直方图用于统计每个区间内数据出现的频次(例如[1,100]划分为30个区间,区间为[1,4.3]、(4.3,7.6]、(10.9,14.2]...以此类推),以柱状图显示。

  • 各参数说明:

    数值列名:需要绘制的数值列名,该列必须存在于数据中且为数值类型,散点图中作为纵轴,直方图中作为横轴。

    图表类型:选择图表类型,散点图或直方图。

    最大数据点数量:最大显示的数据点数量,默认2000,在2000范围内则全部可视化,超过2000需要截断,只可视化前2000个点,与图片尺寸正相关。

    图片分辨率: 图片分辨率,默认300 DPI,用户可以自定义,支持范围为[72,600],与图片清晰度正相关。

    横轴列名: (可选) 仅适用于散点图的横轴列名,默认不填写就使用序号索引(这里索引不是表格中的索引列,只是表格中的行数索引),该列必须存在于数据中且为数值类型。

    表16 散点图或直方图可视化算子参数说明

    参数名称

    是否必选

    参数类型

    取值范围

    默认值

    数值列名

    String

    仅支持表中存在的数值型列名。

    图表类型

    String

    散点图或直方图。

    最大数据点数量

    Int

    大于0。

    2000

    图片分辨率

    Int

    [72,600]

    300

    横轴列名

    String

    仅支持表中存在的数值型列名。

  • 参数配置样例:

    设置参数:需要绘制的数值列名和图表类型。

    假设原始输入为:

    不同设置参数会得到不同的jpg图片的输出:

    1. 设置数值列名:MinTemp,图表类型:散点图,最大数据点:2000,图片分辨率:300,横轴列名为空。

    1. 设置数值列名:MinTemp,图表类型:散点图,最大数据点:2000,图片分辨率:300,横轴列名:MaxTemp。

    1. 设置数值列名:MinTemp,图表类型:直方图,最大数据点:2000,图片分辨率:300,横轴列名为空。

特征分布统计

  • 适用文件:.csv文件。
  • 算子说明:

    针对预测数据集里面的CSV文件,按照列进行特征统计分析。

  • 各参数说明:

    特征列名:全部或自定义。

    用户自定义特征列:当自定义特征列名时,填入指定特征列名,多个特征列名使用英文逗号分隔。

    表17 特征分布统计算子各参数说明

    参数名称

    是否必选

    参数类型

    取值范围

    默认值

    特征列名

    String

    全部:对所有特征列进行分布统计;

    自定义:指定输入的特征列名进行分布统计。

    用户自定义特征列

    String

    仅支持数据表中存在的特征列。

  • 算子输出结果说明:

    统计结果将特征分为四类:Categorical、Numeric、DateTime和Text,每一类的统计结果会有共同的基础结果和特有的统计结果,详细结果说明如表18所示:

    表18 特征分布统计算子结果说明

    特征类别

    是否支持图表展示

    统计结果

    数据类型

    统计结果说明

    基础结果

    -

    n_distinct

    int

    去重后元素数量

    p_distinct

    float

    去重后元素数量占非空元素数量百分比

    n_missing

    int

    空值数量

    p_missing

    float

    空值数量占总行数百分百

    memory_size

    int

    该特征存储大小,单位为Byte

    type

    string

    特征类别

    Categorical

    category_count

    list[int]

    每个类别的出现次数,当类别总数超过5,则只保存前5个的类别分布,计算其余类别的总数并追加在最后

    category_value

    list[int]、list[string]

    所有出现的类别,当类别总数超过5,则只保存前5个的类别分布,其余类别使用others表示并追加在最后

    Numeric

    n_infinite

    int

    无穷大、无穷小个数

    p_infinite

    float

    无穷大、无穷小个数占非空元素数量百分比

    mean

    int, float

    特征均值

    min

    int, float

    特征最小值

    max

    int, float

    特征最大值

    n_zeros

    int

    特征零值个数

    p_zeros

    float

    零值个数占非空元素数量百分比

    n_negative

    int

    特征负数个数

    p_negative

    float

    负数个数占非空元素数量百分比

    DateTime

    min

    string

    最小时间点

    max

    string

    最大时间点

    n_invalid_dates

    int

    非法时间格式但不为空的个数

    p_invalid_dates

    float

    非法时间格式占所有非空元素的百分比

    Text

    -

    -

    Text类仅包含基础结果

    算子将数值类和非数值类(一般为字符串类)自动解析为不同类别特征的逻辑如下所示:

  • 参数配置样例:

    参数配置如下,当特征列名选择自定义时,用户自定义特征列才会显现,本示例自定义特征列为col_0,col_1,col_2,col_3,col_4,使用英文逗号分隔,如果需要对所有特征列进行分布统计分析,请选择全部特征列名。

    分析结果页面如下:

    上面两幅图分别为数据集中analysis_dataset_0文件的分析结果的图表展示和表单展示,当数值类的特征数据量过大,前端无法展示,可选择下载到本地进行查看,下载文件为statistics.tar.gz的压缩文件,压缩文件中包含数据集中所有文件的分析结果,其中jsonl和csv文件与原文件名同名,jsonl文件为对应数据集文件所有特征列的分析结果,为防止jsonl文件过大,将数值类特征列的原始数据另存为csv文件进行查看,另外还有Categorical和Numeric类的可视化图,命名方式分别为“文件名_特征列名_柱状图.png”,“文件名_特征列名_折线图.png”。

特征相关性分析

  • 适用文件:.csv文件。
  • 算子说明:

    针对预测数据集里面的CSV文件,对不同特征列进行相关性分析。

  • 算子限制:

    相关性分析一般仅支持数值特征,该算子通过将非数值元素进行编码后,进行特征相关性计算,因此非数值特征相关性结果可能不具参考意义。

  • 各参数说明:

    特征列名:全部或自定义

    用户自定义特征列:当自定义特征列名时,填入指定特征列名,多个特征列名使用英文逗号分隔

    表19 特征相关性分析算子各参数说明

    参数名称

    是否必选

    参数类型

    取值范围

    默认值

    特征列名

    String

    全部:对所有特征列进行相关性分析;

    自定义:指定输入的特征列名进行相关性分析。

    用户自定义特征列

    String

    仅支持数据表中存在的列名。

  • 参数配置样例:

    本示例将对数据集中csv文件的所有特征列进行相关性分析,参数配置如下:

    上图为数据集中analysis_dataset_0.csv文件的相关性分析的表格与热力图展示。

特征加工前后对比

  • 适用文件:.csv文件。
  • 算子说明:

    针对预测数据集加工后的csv文件,与加工前数据集的相同数值特征列进行比较。

  • 算子限制:

    特征加工前后对比算子仅支持对共同存在的数值列进行对比,对于改变文件结构的加工算子如标签表格拆分、CSV文件合并、采样算子也不支持。

  • 各参数说明:

    特征列名:全部或自定义

    用户自定义特征列:当自定义特征列名时,填入指定特征列名,多个特征列名使用英文逗号分隔

    指定横轴:指定表格中存在的列作为横轴,且不能同时存在于自定义特征列中,若不提供则使用表格行序号作为横轴

    表20 特征加工前后对比算子各参数说明

    参数名称

    是否必选

    参数类型

    取值范围

    默认值

    特征列名

    String

    全部:对所有数值特征列进行对比;

    自定义:指定输入的数值特征列对比。

    用户自定义特征列

    String

    仅支持数据表中存在的数值特征列。

    指定横轴

    String

    仅支持数据表中存在的列,且不能同时存在于自定义特征列中。

  • 参数配置样例:

    本示例对所有特征列进行加工前后对比,加工算子为中值滤波算子,参数配置如下:

    特征加工前后对比算子仅支持对数值列进行对比,下图为数值列col_1的前后对比折线图:

相关文档