根因分析

将样例数据中的训练数据集加载至当前学件项目中，进行数据预处理、根因分析和结果展示。

单击代码框左下方的“加载数据”。

弹出“加载数据”代码框，如图1所示。

也可以单击界面右上角的，在弹出的算子框中，选择“学件 > 硬盘故障根因分析 > 加载数据”，添加“加载数据”代码框。

参数说明如下所示：
- 数据集：从下拉框中选择数据集“samples”。
- 数据集实例：从下拉框中选择数据“rca_forest_kpi”。
图1 加载数据
单击“加载数据”代码框左侧的图标。运行代码，绑定数据。

运行成功后，可以查看数据，如图2所示。
图2 查看训练数据
单击界面左下角的“数据预处理”。

弹出“数据预处理”代码框，如图3所示。

也可以单击界面右上角的，在弹出的算子框中，选择“学件 > 硬盘故障根因分析 > 数据预处理”，添加“数据预处理”代码框。

参数说明如下所示：
- 列筛选方式：保持默认值“列选择”。
- 待处理列：选择除时间列“Unnamed: 0”外的所有列。
- 时间列：选择时间列“Unnamed: 0”。
- 分组数：请根据实际业务场景配置分组数量。如果配置为“2”，数据预处理后的效果如图4所示，将相邻两行数据合并为一行展示。如果相邻四行的数据具备相关性，则需要将4行数据合并为一行展示，“分组数”配置为“4”。此处，保持默认值“2”。
- 标签列：选择标签列“label”。
- 标签汇聚方式：取值如果为“logic_or”，则转换后的标签列值为转换前的多个标签列值做逻辑或运算；取值如果为“logic_and”，则转换后的标签列值为转换前的多个标签列值做逻辑与运算。
图3 数据预处理

 图4 分组后的数据转换效果
单击“数据预处理”代码框左侧的图标。运行代码，进行数据预处理操作。

数据预处理后的结果，如图5所示。

图5 数据预处理结果
单击界面左下角的“根因分析”，弹出“根因分析”代码框。

请根据实际情况配置模型参数取值。此处体验，均保持默认值即可。当前支持使用RandomForest、XGBoost、使用RandomForest和XGBoost的Ensemble三种算法的模型进行特征评估。其中设置的“根因数”的值，为在“结果展示”运行结果图中展示的根因KPI个数。

也可以单击界面右上角的，在弹出的算子框中，选择“学件 > 硬盘故障根因分析 > 根因分析”，添加“根因分析”代码框。
单击“根因分析”代码框左侧的图标。等待根因分析完成。
单击界面左下角的“结果展示”。

弹出“结果展示”代码框。

也可以单击界面右上角的，在弹出的算子框中，选择“学件 > 硬盘故障根因分析 > 结果展示”，添加“结果展示”代码框。
单击“结果展示”代码框左侧的图标。

运行完成后，效果如图6所示。可以通过结果图，查看模型推荐的造成硬盘故障的前两个根因KPI和占比情况。

图6 结果展示