更新时间:2021-09-18 GMT+08:00
分享

时序数据处理

缺失时间填充

时序序列是在连续的等间隔时间点采集的序列,缺失时间填充即根据已知的时间信息,补充缺失的时间。缺失时间填充完成后,其值可通过“数据处理 > 数据清洗 > 空值填充”菜单,进行空值填充。

操作步骤如下所示。

  1. 单击界面右上角的图标,选择“数据处理 > 时序数据处理 > 缺失时间填充”,界面新增“缺失时间填充”内容。

    对应参数说明,如表1所示。

    表1 参数说明

    参数

    参数说明

    时间列

    待填充缺失时间特征数据的时间列。

    当前操作流

    从下拉框中选择当前数据操作流的名字。

    操作流变量名

    如果存在多个数据操作流,可重命名操作流对象的变量名,以避免冲突。

  2. 单击图标,运行“缺失时间填充”代码框内容。

时序数据排序

时序数据排序即根据给定的参数对时间序列进行排序。

操作步骤如下所示。

  1. 单击界面右上角的图标,选择“数据处理 > 时序数据处理 > 时序数据排序”,界面新增“时序数据排序”内容。

    对应参数说明,如表2所示。

    表2 参数说明

    参数

    参数说明

    时间列

    时序数据时间列,系统将根据指定的时间,按时间从早到晚对时序数据进行排序。

    ID列

    时序数据的标识列,默认为空,如果指定ID列,系统将按照(ID,Time)的方式对时序数据进行升序排序。

    当前操作流

    从下拉框中选择当前数据操作流的名字。

    操作流变量名

    如果存在多个数据操作流,可重命名操作流对象的变量名,以避免冲突。

  2. 单击图标,运行“时序数据排序”代码框内容。

时间迁移

时间迁移即转换时序数据的时间,如将时间整体向前推移或整体向后推移等。

操作步骤如下所示。

  1. 单击界面右上角的图标,选择“数据处理 > 时序数据处理 > 时间迁移”,界面新增“时间迁移”内容。

    对应参数说明,如表3所示。

    表3 参数说明

    参数

    参数说明

    时间列

    待迁移时间的时间字段。

    迁移量

    迁移的幅度,如“-3min9s”表示指定时间列值减去3分9秒;“2h30min”表示指定时间列值加2小时30分。

    当前操作流

    从下拉框中选择当前数据操作流的名字。

    操作流变量名

    如果存在多个数据操作流,可重命名操作流对象的变量名,以避免冲突。

  2. 单击图标,运行“时间迁移”代码框内容。

时序数据重采样

时序数据重采样即时间序列从一个频率转换到另一个频率的过程。

其中:

  • 高频率(采样间隔短)数据转换到低频率(采样间隔长)称为降采样。
  • 低频率数据转换到高频率称为升采样。

操作步骤如下所示。

  1. 单击界面右上角的图标,选择“数据处理 > 时序数据处理 > 时序数据重采样”,界面新增“时序数据重采样”内容。

    对应参数说明,如表4所示。

    表4 时序数据重采样参数说明

    参数

    参数说明

    时间列

    时序数据的时间字段。

    重采样频率

    重采样时间频率,如“5H”。

    时间频率单位说明:

    • S:秒
    • min:分钟
    • H:小时
    • D:天
    • B:工作日
    • W:周
    • M:月
    • Q:季
    • A:年

    重采样方法

    当前支持的重采样方法:

    • 升采样时可选择:不填充、前向填充、后向填充、插值填充。
    • 降采样时可选择:求和、求均值、求方差、中位数、第一个值、最大值、最小值、最后一个值。

    如果采样方法为空,则升采样默认方法为不填充;降采样默认方法为均值聚合。采样方法支持传入自定义函数。

    ID列

    时序数据的标识列。

    当前操作流

    从下拉框中选择当前数据操作流的名字。

    操作流变量名

    如果存在多个数据操作流,可重命名操作流对象的变量名,以避免冲突。

  2. 单击图标,运行“时序数据重采样”代码框内容。

时序数据去噪

时序数据中可能会存在许多噪声数据,这些噪声严重影响进一步的定量分析和数据挖掘,因此需要进行数据去噪。

操作步骤如下所示。

  1. 单击界面右上角的图标,选择“数据处理 > 时序数据处理 > 时序数据去噪”,界面新增“时序数据去噪”内容。

    对应参数说明,如表5所示。

    表5 参数说明

    参数

    参数说明

    列筛选方式

    特征列的筛选方式,有如下两种:

    • 列选择
    • 正则匹配

    列名

    列筛选方式设置为“列选择”时才会展示。

    通过单击“”图标,在弹出的对话框中,选择一个或者多个特征列。

    正则表达式

    列筛选方式设置为“正则匹配”时才会展示。

    请根据实际情况输入正则表达式,系统自动筛选符合正则筛选规则的所有特征列。

    新列名

    经过去噪后产生的新数据的列名。如果不设置,则直接在原有特征列上进行去噪处理。

    时间列

    待去噪时序数据的时间列。

    其他参数配置

    该参数用于在去噪时指定frac值。

    去噪使用了statsmodels的局部加权回归散点平滑法(locally weighted scatterplot smoothing, LOWESS),其中局部表示每次只处理数据的一部分,此部分数据所占整体的比例由LOWESS的frac参数表示,而frac值可通过该参数传递。具体用法可参见查看“帮助中心 > SDK文档”。

    当前操作流

    从下拉框中选择当前数据操作流的名字。

    操作流变量名

    如果存在多个数据操作流,可重命名操作流对象的变量名,以避免冲突。

  2. 单击图标,运行“时序数据去噪”代码框内容。

时间特征提取

时间特征提取是指从时序数据的时间列中提取出日期相关的特征,如年、月、日、时、分、秒、季节、星期几、一年中的第几周、一年中的第几天等特征。

操作步骤如下所示。

  1. 单击界面右上角的图标,选择“数据处理 > 时序数据处理 > 时间特征提取”,界面新增“时间特征提取”内容。

    对应参数说明,如表6所示。

    表6 参数说明

    参数

    参数说明

    时间列

    待进行时间特征提取的时间列。

    预提取时间特征

    要提取的时间特征。默认为“全量提取”,指提取全部的时间特征。此外还支持提取“年”、“月”、“日”、“时”、“分”、“秒”、“星期几”、“一年中的第几天”、“一年中的第几周”、“季”这些时间特征。

    新列名

    提取出时间特征后产生的新特征列的列名。如果不设置,则默认采用时间列名称加特征名称的命名方式。

    当前操作流

    从下拉框中选择当前数据操作流的名字。

    操作流变量名

    如果存在多个数据操作流,可重命名操作流对象的变量名,以避免冲突。

  2. 单击图标,运行“时间特征提取”代码框内容。

时序特征提取

时序特征提取,即从时序数据中提取数据统计学特性,最大限度地找出样本内时间序列的统计特性和发展规律。

操作步骤如下所示。

  1. 单击界面右上角的图标,选择“数据处理 > 时序数据处理 > 时序特征提取”,界面新增“时序特征提取”内容。

    对应参数说明,如表7所示。

    表7 时序特征提取参数说明

    参数

    参数说明

    列筛选方式

    特征列的筛选方式,有如下两种:

    • 列选择
    • 正则匹配

    列名

    列筛选方式为“列选择”时展示,时序特征提取的目标特征列,可单击“”从特征列中选择一个或多个特征列。

    正则表达式

    列筛选方式为“正则匹配”时展示,请根据实际情况输入正则表达式,系统自动筛选符合正则筛选规则的所有特征列。

    ID列

    单击“”从特征列中选取特征标识字段作为时序特征提取的ID列,仅支持单列选取。系统会根据ID列进行分组特征提取,如果不设置ID列,则默认“列名”选择的所有列数据都具有相同的ID。

    时间列

    单击“”从特征列中选取时间字段作为时序特征提取的时间列,仅支持单列选取。如果为空,则认为时序数据已经按时间顺序排列。

    特征提取策略

    特征提取分层参数配置策略,支持如下策略:

    • SmallEfficientFCParameters
    • MoreEfficientFCParameters
    • CombinedFCParameters

    是否执行特征选择

    是否选择提取的特征。

    标签列

    单击“”从特征列中选取一列作为标签列,指定用于分析其他特征列和标签列的相关性。

    FDR Level

    “是否执行特征选择”开启时展示,进行特征选择时使用,表示显著性水平,是理论上的预期不相关特征在所有特征中所占的百分比。默认值为“0.05”。

    当前操作流

    从下拉框中选择当前数据操作流的名字。

    操作流变量名

    如果存在多个数据操作流,可重命名操作流对象的变量名,以避免冲突。

  2. 单击图标,运行“时序特征提取”代码框内容。

相关文档