时序数据处理
缺失时间填充
时序序列是在连续的等间隔时间点采集的序列,缺失时间填充即根据已知的时间信息,补充缺失的时间。缺失时间填充完成后,其值可通过“数据处理 > 数据清洗 > 空值填充”菜单,进行空值填充。
操作步骤如下所示。
- 单击界面右上角的图标,选择“数据处理 > 时序数据处理 > 缺失时间填充”,界面新增“缺失时间填充”内容。
对应参数说明,如表1所示。
- 单击图标,运行“缺失时间填充”代码框内容。
时序数据排序
时序数据排序即根据给定的参数对时间序列进行排序。
操作步骤如下所示。
- 单击界面右上角的图标,选择“数据处理 > 时序数据处理 > 时序数据排序”,界面新增“时序数据排序”内容。
对应参数说明,如表2所示。
- 单击图标,运行“时序数据排序”代码框内容。
时间迁移
时间迁移即转换时序数据的时间,如将时间整体向前推移或整体向后推移等。
操作步骤如下所示。
- 单击界面右上角的图标,选择“数据处理 > 时序数据处理 > 时间迁移”,界面新增“时间迁移”内容。
对应参数说明,如表3所示。
- 单击图标,运行“时间迁移”代码框内容。
时序数据重采样
时序数据重采样即时间序列从一个频率转换到另一个频率的过程。
其中:
- 高频率(采样间隔短)数据转换到低频率(采样间隔长)称为降采样。
- 低频率数据转换到高频率称为升采样。
操作步骤如下所示。
- 单击界面右上角的图标,选择“数据处理 > 时序数据处理 > 时序数据重采样”,界面新增“时序数据重采样”内容。
对应参数说明,如表4所示。
表4 时序数据重采样参数说明 参数
参数说明
时间列
时序数据的时间字段。
重采样频率
重采样时间频率,如“5H”。
时间频率单位说明:
- S:秒
- min:分钟
- H:小时
- D:天
- B:工作日
- W:周
- M:月
- Q:季
- A:年
重采样方法
当前支持的重采样方法:
- 升采样时可选择:不填充、前向填充、后向填充、插值填充。
- 降采样时可选择:求和、求均值、求方差、中位数、第一个值、最大值、最小值、最后一个值。
如果采样方法为空,则升采样默认方法为不填充;降采样默认方法为均值聚合。采样方法支持传入自定义函数。
ID列
时序数据的标识列。
当前操作流
从下拉框中选择当前数据操作流的名字。
操作流变量名
如果存在多个数据操作流,可重命名操作流对象的变量名,以避免冲突。
- 单击图标,运行“时序数据重采样”代码框内容。
时序数据去噪
时序数据中可能会存在许多噪声数据,这些噪声严重影响进一步的定量分析和数据挖掘,因此需要进行数据去噪。
操作步骤如下所示。
- 单击界面右上角的图标,选择“数据处理 > 时序数据处理 > 时序数据去噪”,界面新增“时序数据去噪”内容。
对应参数说明,如表5所示。
表5 参数说明 参数
参数说明
列筛选方式
特征列的筛选方式,有如下两种:
- 列选择
- 正则匹配
列名
列筛选方式设置为“列选择”时才会展示。
通过单击“”图标,在弹出的对话框中,选择一个或者多个特征列。
正则表达式
列筛选方式设置为“正则匹配”时才会展示。
请根据实际情况输入正则表达式,系统自动筛选符合正则筛选规则的所有特征列。
新列名
经过去噪后产生的新数据的列名。如果不设置,则直接在原有特征列上进行去噪处理。
时间列
待去噪时序数据的时间列。
其他参数配置
该参数用于在去噪时指定frac值。
去噪使用了statsmodels的局部加权回归散点平滑法(locally weighted scatterplot smoothing, LOWESS),其中局部表示每次只处理数据的一部分,此部分数据所占整体的比例由LOWESS的frac参数表示,而frac值可通过该参数传递。具体用法可参见查看“帮助中心 > SDK文档”。
当前操作流
从下拉框中选择当前数据操作流的名字。
操作流变量名
如果存在多个数据操作流,可重命名操作流对象的变量名,以避免冲突。
- 单击图标,运行“时序数据去噪”代码框内容。
时间特征提取
时间特征提取是指从时序数据的时间列中提取出日期相关的特征,如年、月、日、时、分、秒、季节、星期几、一年中的第几周、一年中的第几天等特征。
操作步骤如下所示。
- 单击界面右上角的图标,选择“数据处理 > 时序数据处理 > 时间特征提取”,界面新增“时间特征提取”内容。
对应参数说明,如表6所示。
- 单击图标,运行“时间特征提取”代码框内容。
时序特征提取
时序特征提取,即从时序数据中提取数据统计学特性,最大限度地找出样本内时间序列的统计特性和发展规律。
操作步骤如下所示。
- 单击界面右上角的图标,选择“数据处理 > 时序数据处理 > 时序特征提取”,界面新增“时序特征提取”内容。
对应参数说明,如表7所示。
表7 时序特征提取参数说明 参数
参数说明
列筛选方式
特征列的筛选方式,有如下两种:
- 列选择
- 正则匹配
列名
列筛选方式为“列选择”时展示,时序特征提取的目标特征列,可单击“”从特征列中选择一个或多个特征列。
正则表达式
列筛选方式为“正则匹配”时展示,请根据实际情况输入正则表达式,系统自动筛选符合正则筛选规则的所有特征列。
ID列
单击“”从特征列中选取特征标识字段作为时序特征提取的ID列,仅支持单列选取。系统会根据ID列进行分组特征提取,如果不设置ID列,则默认“列名”选择的所有列数据都具有相同的ID。
时间列
单击“”从特征列中选取时间字段作为时序特征提取的时间列,仅支持单列选取。如果为空,则认为时序数据已经按时间顺序排列。
特征提取策略
特征提取分层参数配置策略,支持如下策略:
- SmallEfficientFCParameters
- MoreEfficientFCParameters
- CombinedFCParameters
是否执行特征选择
是否选择提取的特征。
标签列
单击“”从特征列中选取一列作为标签列,指定用于分析其他特征列和标签列的相关性。
FDR Level
“是否执行特征选择”开启时展示,进行特征选择时使用,表示显著性水平,是理论上的预期不相关特征在所有特征中所占的百分比。默认值为“0.05”。
当前操作流
从下拉框中选择当前数据操作流的名字。
操作流变量名
如果存在多个数据操作流,可重命名操作流对象的变量名,以避免冲突。
- 单击图标,运行“时序特征提取”代码框内容。