特征工程

特征工程中已经预置了两个特征处理工程，这里暂不使用，会提供端到端的操作流程，帮助用户快速熟悉特征工程界面操作。

如果需要了解特征工程操作详情，可查看模型训练服务《用户指南》中的“特征工程”章节内容。

无故障硬盘训练数据集特征处理

单击菜单栏中的“特征工程”，进入特征工程首页，如图1所示。

在当前界面，可以看到如下两个特征工程：
- HardDisk-Detect_Good：好盘特征工程，用于对好盘训练数据或测试数据，进行数据处理，并生成经过特征处理后的新数据。
- HardDisk-Detect_Fail：坏盘特征工程，用于对坏盘训练数据或测试数据，进行数据处理，并生成经过特征处理后的新数据。
此处仅介绍两个特征工程的作用，并不会使用。
图1 特征工程
单击界面右上角的“特征处理”，弹出“特征处理”对话框。

参数说明如下所示：
- 工程名称：特征处理工程名称。示例：Harddisk。
- 开发模式：特征工程开发环境。请选择“Jupyterlab交互式开发”。
- 规格：资源配置信息，请按需求选择，如选择“2核|8G”。
- 实例：无环境实例时，请从下拉框中选择“新建一个新环境”。
单击“创建”，界面新增“Harddisk”特征工程。

等待特征工程的“环境信息”中的特征工程状态从“创建中”变更为“运行中”，即开发环境创建完成。
单击特征工程“操作”列的图标，进入JupyterLab环境的“Launcher”界面。

在左侧的代码目录中，可以看到系统自动为用户创建的与特征工程同名的算法工程目录“Harddisk”。一个特征工程中，支持创建多个算法工程，与Harddisk同级的是其他算法工程目录，可无需关注。
在左侧代码目录中，单击Harddisk，进入Harddisk目录。
单击“Harddisk.ipynb”，打开当前算法工程主文件。

在进行数据处理操作前，请先运行“Import sdk”代码块，否则会导致“加载数据”出错。
单击“Import sdk”代码框左侧的图标，如图2所示。

导入模型训练服务SDK。
图2 导入模型训练服务SDK
单击界面右上角的“”图标，在弹出的菜单栏中，选择“数据处理 > 数据集 > 加载数据”。

或者单击“Import sdk”代码框下方的“加载数据”。
参数设置说明，如下所示，其余参数保持默认值即可。
- 数据集：从下拉框中选择预置数据集“HardDisk-Detect”。
- 数据集实例：从下拉框中选择无故障训练数据集实例“HardDisk-Detect_Train_Good”。
单击界面右上角的图标，在弹出的菜单栏中，选择“数据处理 > 特征选择 > 选择列”。

界面新增“选择列”算子内容。参数配置说明，如下所示：
- 列筛选方式：选择“列选择”。
- 列名：单击参数配置框右侧的图标，在弹出的“列名”对话框中，选择如下特征列，如图3所示：
  serial_number，D_date，model，failure，smart_1_normalized，smart_1_raw，smart_5_raw，smart_7_normalized，smart_187_raw，smart_197_raw，smart_198_raw，smart_1_normalized_slope，smart_1_raw_slope，smart_5_raw_slope，smart_7_normalized_slope，smart_187_raw_slope，smart_197_raw_slope，smart_198_raw_slope
  
  特征列选择完成后，单击“确认”，返回至JupyterLab环境编辑界面。
图3 选择特征列
单击“选择列”代码框左侧的图标，运行“选择列”算子。

运行成功后，代码框下方会展示仅包含选定列的特征数据表。
单击界面右上角的图标，在弹出的菜单栏中，选择“数据处理 > 特征选择 > 删除列”。

界面新增“删除列”算子内容。参数配置说明，如下所示：
- 列筛选方式：选择“列选择”。
- 列名：单击参数配置框右侧的图标，在弹出的“列名”对话框中，选择特征列“D_date”和“model”
  单击“确认”，返回特征工程编辑界面。
单击“删除列”代码框左侧的图标，运行“删除列”算子。

运行成功后，代码框下方会展示删除选定列的特征数据表。
单击界面右上角的图标，在弹出的菜单栏中，选择“数据处理 > 数据集 > 生成数据实例”。

界面新增“生成数据实例”算子内容。参数配置说明，如下所示：
- 数据集：从下拉框中选择预置数据集“HardDisk-Detect”。
- 数据集实例：将特征操作流应用于加载的无故障硬盘训练集实例“HardDisk-Detect_Train_Good”，生成经过特征处理后的新数据。示例：Train_good_FE。
运行成功后，可在左侧目录中展开数据集目录，查看新生成的数据文件，如图4所示。

图4 全量数据集

使用特征工程服务对剩余的三份数据做特征处理

四份数据的特征处理操作完全相同，可以将前面的特征处理工程，发布成特征工程服务，再通过创建任务的方式，分别生成经过特征处理的数据集。

下述操作以故障硬盘训练集的操作为例，进行操作说明。

在JupyterLab环境编辑界面，单击“Harddisk.ipynb”页签下方的图标，保存算法主文件的所有操作。

在将特征工程发布成服务前，请先保存算法主文件，否则会导致特征工程服务异常，无法正常调用。
在JupyterLab环境编辑界面，单击界面右上角的图标，弹出如图5所示的对话框。

参数“ServiceName”为特征工程发布服务名，请根据实际情况设置。示例：harddisk。

图5 特征工程服务
单击“Publish”，将特征工程发布成服务。

发布成功后，会弹出成功提示框，单击“OK”。
在菜单栏中，单击“特征工程”，进入“特征工程管理”界面。
单击“已发布服务”页签，查看特征工程服务，如图6所示。

图6 特征工程服务
单击特征工程服务行对应“操作”列的图标。

弹出“创建任务”对话框。参数配置说明，如下所示，其余参数保持默认值即可。
- 任务名称：特征工程服务任务名称。示例：Train_Fail。
- 数据集：从下拉框中选择预置数据集“HardDisk-Detect(HardDisk)”。
- 数据实例：从下拉框中选择故障硬盘训练数据集“HardDisk-Detect_Train_Fail”。
- 目标数据集：从下拉框中选择预置数据集“HardDisk-Detect(HardDisk)”。
- 目标数据实例：经过特征工程任务处理后，生成的数据集名称。示例：Train_fail_FE。
- AI引擎：AI算法运行平台，从下拉框中选择“TF-1.8.0-python3.6”。
- 规格：资源配置信息，从下拉框中选择“2核|8G”。
单击“创建”，进入特征工程任务详情界面。

当任务的“任务状态”列为“FINISHED”时，说明故障硬盘训练集的特征处理操作完成。
请参考6~7，依次对无故障硬盘测试和故障硬盘测试数据集做特征工程处理。

等待所有特征工程任务处理完成。
单击菜单栏中的“数据集”，进入数据集页面。

查看经过特征处理，生成的四份新数据，如图7所示。通过特征工程任务，生成的新数据的“数据来源”均为“JOB”。

图7 数据集页面