更新时间:2021-09-18 GMT+08:00
分享

数据集

平台提供的SDK能力,用户可以通过如下两种方式获取解释:

  • 通过新增代码框,输入“?参数名称”的形式,运行代码框,查看释义。
  • 通过界面右上角“帮助中心”中的“SDK文档”,查看SDK文档中释义。

加载数据

用户在执行特征操作前,需要先选择数据。

可以任选下述一种方式选择数据:

  • 在编辑界面,单击“Import sdk”下方的“加载数据”。
  • 在JupyterLab环境编辑界面右上角,单击图标,选择“数据处理 > 数据集 > 加载数据”。

选择数据操作步骤如下。

  1. 单击“Import sdk”代码框左侧的图标,运行“Import sdk”内容。

    “Import sdk”必须放在所有操作的最前面执行,否则执行“加载数据”会报错。

  2. 单击“Import sdk”左下方的“加载数据”。

    代码框右侧的参数说明,如表1所示。同时支持单击当前算子右侧的图标,新增需要绑定的多个数据集实例。

    表1 选择数据

    参数

    参数说明

    数据集

    从下拉框中选择数据集,即“数据集”菜单中创建的数据集名称。

    数据集实例

    从下拉框中选择数据集实例,即“数据集”菜单中创建的数据集实例名称。

    数据文件列表

    当数据通过本地上传,且“数据类别”参数设置为“多文件与目录(文件大小限制为10G)”,则需要同时设置“数据文件列表”和“数据文件编码格式”,将本地上传的多目录和文件同时添加进来,系统会自动进行数据集合并。

    注意:各文件的列名需要完全相同。

    数据文件格式

    数据文件的格式,请根据实际情况选择。

    数据文件编码格式

    数据文件的编码格式。

    是否启用本地缓存

    开启容器本地缓存,能够加快执行速度。

  3. 单击图标,运行“加载数据”代码框内容。

    数据集实例绑定成功。

生成数据实例

在JupyterLab环境编辑界面,完成所有特征操作后,需要将特征操作流应用于加载的全量数据,并生成经过特征处理后的新数据。

操作步骤如下所示。

  1. 单击界面右上角的图标,选择“数据处理 > 数据集 > 生成数据实例”。

    在编辑界面,新增“生成数据实例”内容。参数说明如表2所示。

    表2 生成数据实例参数说明

    参数

    参数说明

    数据集

    从下拉框中选择已有的数据集。

    数据集实例

    经过特征处理后生成的新数据名称,支持用户自定义。

    当前操作流

    高级配置参数,从下拉框中选择当前输入操作流的名字。

  2. 单击图标,在选择的数据集下面生成新的数据。

    可通过双击如图1所示的数据集名称目录,查看新生成的数据集。

    支持双击数据集名称,在右侧界面查看数据内容。

    图1 数据集列表

修改元数据

单独抽取数据的时序配置信息为算子,即“修改元数据”。

操作步骤如下所示。

  1. 单击界面右上角的图标,选择“数据处理 > 数据集 > 修改元数据”。

    在编辑界面,新增“ 修改元数据”内容,对应的参数说明如表3所示。
    表3 修改元数据

    参数

    参数说明

    当前数据

    从下拉框中选择“加载数据”中已加载的数据。

    是否为时序数据

    选择数据为时序数据时,可开启此开关。

    开启开关后,需要同时配置如下参数:

    • 时间列:输入时间字段名称。
    • 时间格式:时间字段的时间格式。默认为“自动解析”,系统会自动解析时间格式。
    • ID列:数据集的标识列。

    是否检测周期与平稳性

    开启开关会检测时序数据的周期,或判断指定的周期是否为时序数据的周期,以及检测时序数据是否平稳。

    如果开启此开关,运行时间会较长,默认关闭此开关。

  1. 单击图标,运行“修改元数据”代码框内容。

创建数据操作流

如果对多份数据同时进行特征处理,必须为每份数据指定“操作流变量名”,防止数据处理时,处理的数据不对。如果仅处理一份数据,无需设置此参数。

操作步骤如下所示。

  1. 单击界面右上角的图标,选择“数据处理 > 数据集 > 创建数据操作流”。

    在编辑界面,新增“ 创建数据操作流”内容,对应的参数说明如表4所示。
    表4 修改元数据

    参数

    参数说明

    当前数据

    从下拉框中选择“加载数据”中已加载的数据。

    操作流变量名

    当需要对多份数据分别进行特征处理,防止数据之间产生冲突,需要配置此参数,来区分数据。

  1. 单击图标,运行“创建数据操作流”代码框内容。“操作流变量名”配置完成。

相关文档