更新时间:2021-09-18 GMT+08:00
分享

特征工程

特征工程中已经预置了两个特征处理工程,这里暂不使用,会提供端到端的操作流程,帮助用户快速熟悉特征工程界面操作。

如果需要了解特征工程操作详情,可查看模型训练服务《用户指南》中的“特征工程”章节内容。

无故障硬盘训练数据集特征处理

  1. 单击菜单栏中的“特征工程”,进入特征工程首页,如图1所示。

    在当前界面,可以看到如下两个特征工程:

    • HardDisk-Detect_Good:好盘特征工程,用于对好盘训练数据或测试数据,进行数据处理,并生成经过特征处理后的新数据。
    • HardDisk-Detect_Fail:坏盘特征工程,用于对坏盘训练数据或测试数据,进行数据处理,并生成经过特征处理后的新数据。
    此处仅介绍两个特征工程的作用,并不会使用。
    图1 特征工程

  2. 单击界面右上角的“特征处理”,弹出“特征处理”对话框。

    参数说明如下所示:

    • 工程名称:特征处理工程名称。示例:Harddisk。
    • 开发模式:特征工程开发环境。请选择“Jupyterlab交互式开发”。
    • 规格:资源配置信息,请按需求选择,如选择“2核|8G”。
    • 实例:无环境实例时,请从下拉框中选择“新建一个新环境”。

  3. 单击“创建”,界面新增“Harddisk”特征工程。

    等待特征工程的“环境信息”中的特征工程状态从“创建中”变更为“运行中”,即开发环境创建完成。

  4. 单击特征工程“操作”列的图标,进入JupyterLab环境的“Launcher”界面。

    在左侧的代码目录中,可以看到系统自动为用户创建的与特征工程同名的算法工程目录“Harddisk”。一个特征工程中,支持创建多个算法工程,与Harddisk同级的是其他算法工程目录,可无需关注。

  5. 在左侧代码目录中,单击Harddisk,进入Harddisk目录。
  6. 单击“Harddisk.ipynb”,打开当前算法工程主文件。

    在进行数据处理操作前,请先运行“Import sdk”代码块,否则会导致“加载数据”出错。

  7. 单击“Import sdk”代码框左侧的图标,如图2所示。

    导入模型训练服务SDK。
    图2 导入模型训练服务SDK

  8. 单击界面右上角的“”图标,在弹出的菜单栏中,选择“数据处理 > 数据集 > 加载数据”。

    或者单击“Import sdk”代码框下方的“加载数据”。

    参数设置说明,如下所示,其余参数保持默认值即可。
    • 数据集:从下拉框中选择预置数据集“HardDisk-Detect”。
    • 数据集实例:从下拉框中选择无故障训练数据集实例“HardDisk-Detect_Train_Good”。

  9. 单击界面右上角的图标,在弹出的菜单栏中,选择“数据处理 > 特征选择 > 选择列”。

    界面新增“选择列”算子内容。参数配置说明,如下所示:

    • 列筛选方式:选择“列选择”。
    • 列名:单击参数配置框右侧的图标,在弹出的“列名”对话框中,选择如下特征列,如图3所示:

      serial_number,D_date,model,failure,smart_1_normalized,smart_1_raw,smart_5_raw,smart_7_normalized,smart_187_raw,smart_197_raw,smart_198_raw,smart_1_normalized_slope,smart_1_raw_slope,smart_5_raw_slope,smart_7_normalized_slope,smart_187_raw_slope,smart_197_raw_slope,smart_198_raw_slope

      特征列选择完成后,单击“确认”,返回至JupyterLab环境编辑界面。

    图3 选择特征列

  10. 单击“选择列”代码框左侧的图标,运行“选择列”算子。

    运行成功后,代码框下方会展示仅包含选定列的特征数据表。

  11. 单击界面右上角的图标,在弹出的菜单栏中,选择“数据处理 > 特征选择 > 删除列”。

    界面新增“删除列”算子内容。参数配置说明,如下所示:

    • 列筛选方式:选择“列选择”。
    • 列名:单击参数配置框右侧的图标,在弹出的“列名”对话框中,选择特征列“D_date”和“model”

      单击“确认”,返回特征工程编辑界面。

  12. 单击“删除列”代码框左侧的图标,运行“删除列”算子。

    运行成功后,代码框下方会展示删除选定列的特征数据表。

  13. 单击界面右上角的图标,在弹出的菜单栏中,选择“数据处理 > 数据集 > 生成数据实例”。

    界面新增“生成数据实例”算子内容。参数配置说明,如下所示:

    • 数据集:从下拉框中选择预置数据集“HardDisk-Detect”。
    • 数据集实例:将特征操作流应用于加载的无故障硬盘训练集实例“HardDisk-Detect_Train_Good”,生成经过特征处理后的新数据。示例:Train_good_FE。

    运行成功后,可在左侧目录中展开数据集目录,查看新生成的数据文件,如图4所示。

    图4 全量数据集

使用特征工程服务对剩余的三份数据做特征处理

四份数据的特征处理操作完全相同,可以将前面的特征处理工程,发布成特征工程服务,再通过创建任务的方式,分别生成经过特征处理的数据集。

下述操作以故障硬盘训练集的操作为例,进行操作说明。

  1. 在JupyterLab环境编辑界面,单击“Harddisk.ipynb”页签下方的图标,保存算法主文件的所有操作。

    在将特征工程发布成服务前,请先保存算法主文件,否则会导致特征工程服务异常,无法正常调用。

  2. 在JupyterLab环境编辑界面,单击界面右上角的图标,弹出如图5所示的对话框。

    参数“ServiceName”为特征工程发布服务名,请根据实际情况设置。示例:harddisk。

    图5 特征工程服务

  3. 单击“Publish”,将特征工程发布成服务。

    发布成功后,会弹出成功提示框,单击“OK”。

  4. 在菜单栏中,单击“特征工程”,进入“特征工程管理”界面。
  5. 单击“已发布服务”页签,查看特征工程服务,如图6所示。

    图6 特征工程服务

  6. 单击特征工程服务行对应“操作”列的图标。

    弹出“创建任务”对话框。参数配置说明,如下所示,其余参数保持默认值即可。

    • 任务名称:特征工程服务任务名称。示例:Train_Fail。
    • 数据集:从下拉框中选择预置数据集“HardDisk-Detect(HardDisk)”。
    • 数据实例:从下拉框中选择故障硬盘训练数据集“HardDisk-Detect_Train_Fail”。
    • 目标数据集:从下拉框中选择预置数据集“HardDisk-Detect(HardDisk)”。
    • 目标数据实例:经过特征工程任务处理后,生成的数据集名称。示例:Train_fail_FE。
    • AI引擎:AI算法运行平台,从下拉框中选择“TF-1.8.0-python3.6”。
    • 规格:资源配置信息,从下拉框中选择“2核|8G”。

  7. 单击“创建”,进入特征工程任务详情界面。

    当任务的“任务状态”列为“FINISHED”时,说明故障硬盘训练集的特征处理操作完成。

  8. 请参考6~7,依次对无故障硬盘测试和故障硬盘测试数据集做特征工程处理。

    等待所有特征工程任务处理完成。

  9. 单击菜单栏中的“数据集”,进入数据集页面。

    查看经过特征处理,生成的四份新数据,如图7所示。通过特征工程任务,生成的新数据的“数据来源”均为“JOB”。

    图7 数据集页面

分享:

    相关文档

    相关产品