特征工程
特征工程中已经预置了两个特征处理工程,这里暂不使用,会提供端到端的操作流程,帮助用户快速熟悉特征工程界面操作。
如果需要了解特征工程操作详情,可查看模型训练服务《用户指南》中的“特征工程”章节内容。
无故障硬盘训练数据集特征处理
- 单击菜单栏中的“特征工程”,进入特征工程首页,如图1所示。
在当前界面,可以看到如下两个特征工程:
- HardDisk-Detect_Good:好盘特征工程,用于对好盘训练数据或测试数据,进行数据处理,并生成经过特征处理后的新数据。
- HardDisk-Detect_Fail:坏盘特征工程,用于对坏盘训练数据或测试数据,进行数据处理,并生成经过特征处理后的新数据。
- 单击界面右上角的“特征处理”,弹出“特征处理”对话框。
参数说明如下所示:
- 工程名称:特征处理工程名称。示例:Harddisk。
- 开发模式:特征工程开发环境。请选择“Jupyterlab交互式开发”。
- 规格:资源配置信息,请按需求选择,如选择“2核|8G”。
- 实例:无环境实例时,请从下拉框中选择“新建一个新环境”。
- 单击“创建”,界面新增“Harddisk”特征工程。
等待特征工程的“环境信息”中的特征工程状态从“创建中”变更为“运行中”,即开发环境创建完成。
- 单击特征工程“操作”列的图标,进入JupyterLab环境的“Launcher”界面。
在左侧的代码目录中,可以看到系统自动为用户创建的与特征工程同名的算法工程目录“Harddisk”。一个特征工程中,支持创建多个算法工程,与Harddisk同级的是其他算法工程目录,可无需关注。
- 在左侧代码目录中,单击Harddisk,进入Harddisk目录。
- 单击“Harddisk.ipynb”,打开当前算法工程主文件。
在进行数据处理操作前,请先运行“Import sdk”代码块,否则会导致“加载数据”出错。
- 单击“Import sdk”代码框左侧的图标,如图2所示。
- 单击界面右上角的“”图标,在弹出的菜单栏中,选择“数据处理 > 数据集 > 加载数据”。
或者单击“Import sdk”代码框下方的“加载数据”。
参数设置说明,如下所示,其余参数保持默认值即可。- 数据集:从下拉框中选择预置数据集“HardDisk-Detect”。
- 数据集实例:从下拉框中选择无故障训练数据集实例“HardDisk-Detect_Train_Good”。
- 单击界面右上角的图标,在弹出的菜单栏中,选择“数据处理 > 特征选择 > 选择列”。
界面新增“选择列”算子内容。参数配置说明,如下所示:
- 列筛选方式:选择“列选择”。
- 列名:单击参数配置框右侧的图标,在弹出的“列名”对话框中,选择如下特征列,如图3所示:
serial_number,D_date,model,failure,smart_1_normalized,smart_1_raw,smart_5_raw,smart_7_normalized,smart_187_raw,smart_197_raw,smart_198_raw,smart_1_normalized_slope,smart_1_raw_slope,smart_5_raw_slope,smart_7_normalized_slope,smart_187_raw_slope,smart_197_raw_slope,smart_198_raw_slope
特征列选择完成后,单击“确认”,返回至JupyterLab环境编辑界面。
- 单击“选择列”代码框左侧的图标,运行“选择列”算子。
运行成功后,代码框下方会展示仅包含选定列的特征数据表。
- 单击界面右上角的图标,在弹出的菜单栏中,选择“数据处理 > 特征选择 > 删除列”。
界面新增“删除列”算子内容。参数配置说明,如下所示:
- 列筛选方式:选择“列选择”。
- 列名:单击参数配置框右侧的图标,在弹出的“列名”对话框中,选择特征列“D_date”和“model”
单击“确认”,返回特征工程编辑界面。
- 单击“删除列”代码框左侧的图标,运行“删除列”算子。
运行成功后,代码框下方会展示删除选定列的特征数据表。
- 单击界面右上角的图标,在弹出的菜单栏中,选择“数据处理 > 数据集 > 生成数据实例”。
界面新增“生成数据实例”算子内容。参数配置说明,如下所示:
- 数据集:从下拉框中选择预置数据集“HardDisk-Detect”。
- 数据集实例:将特征操作流应用于加载的无故障硬盘训练集实例“HardDisk-Detect_Train_Good”,生成经过特征处理后的新数据。示例:Train_good_FE。
运行成功后,可在左侧目录中展开数据集目录,查看新生成的数据文件,如图4所示。
使用特征工程服务对剩余的三份数据做特征处理
四份数据的特征处理操作完全相同,可以将前面的特征处理工程,发布成特征工程服务,再通过创建任务的方式,分别生成经过特征处理的数据集。
下述操作以故障硬盘训练集的操作为例,进行操作说明。
- 在JupyterLab环境编辑界面,单击“Harddisk.ipynb”页签下方的图标,保存算法主文件的所有操作。
在将特征工程发布成服务前,请先保存算法主文件,否则会导致特征工程服务异常,无法正常调用。
- 在JupyterLab环境编辑界面,单击界面右上角的图标,弹出如图5所示的对话框。
参数“ServiceName”为特征工程发布服务名,请根据实际情况设置。示例:harddisk。
- 单击“Publish”,将特征工程发布成服务。
发布成功后,会弹出成功提示框,单击“OK”。
- 在菜单栏中,单击“特征工程”,进入“特征工程管理”界面。
- 单击“已发布服务”页签,查看特征工程服务,如图6所示。
- 单击特征工程服务行对应“操作”列的图标。
弹出“创建任务”对话框。参数配置说明,如下所示,其余参数保持默认值即可。
- 任务名称:特征工程服务任务名称。示例:Train_Fail。
- 数据集:从下拉框中选择预置数据集“HardDisk-Detect(HardDisk)”。
- 数据实例:从下拉框中选择故障硬盘训练数据集“HardDisk-Detect_Train_Fail”。
- 目标数据集:从下拉框中选择预置数据集“HardDisk-Detect(HardDisk)”。
- 目标数据实例:经过特征工程任务处理后,生成的数据集名称。示例:Train_fail_FE。
- AI引擎:AI算法运行平台,从下拉框中选择“TF-1.8.0-python3.6”。
- 规格:资源配置信息,从下拉框中选择“2核|8G”。
- 单击“创建”,进入特征工程任务详情界面。
当任务的“任务状态”列为“FINISHED”时,说明故障硬盘训练集的特征处理操作完成。
- 请参考6~7,依次对无故障硬盘测试和故障硬盘测试数据集做特征工程处理。
等待所有特征工程任务处理完成。
- 单击菜单栏中的“数据集”,进入数据集页面。
查看经过特征处理,生成的四份新数据,如图7所示。通过特征工程任务,生成的新数据的“数据来源”均为“JOB”。