根因分析
将样例数据中的训练数据集加载至当前学件项目中,进行数据预处理、根因分析和结果展示。
- 单击代码框左下方的“加载数据”。
弹出“加载数据”代码框,如图1所示。
也可以单击界面右上角的,在弹出的算子框中,选择“学件 > 硬盘故障根因分析 > 加载数据”,添加“加载数据”代码框。
参数说明如下所示:
- 数据集:从下拉框中选择数据集“samples”。
- 数据集实例:从下拉框中选择数据“rca_forest_kpi”。
- 单击“加载数据”代码框左侧的图标。运行代码,绑定数据。
运行成功后,可以查看数据,如图2所示。
- 单击界面左下角的“数据预处理”。
弹出“数据预处理”代码框,如图3所示。
也可以单击界面右上角的,在弹出的算子框中,选择“学件 > 硬盘故障根因分析 > 数据预处理”,添加“数据预处理”代码框。
参数说明如下所示:
- 列筛选方式:保持默认值“列选择”。
- 待处理列:选择除时间列“Unnamed: 0”外的所有列。
- 时间列:选择时间列“Unnamed: 0”。
- 分组数:请根据实际业务场景配置分组数量。如果配置为“2”,数据预处理后的效果如图4所示,将相邻两行数据合并为一行展示。如果相邻四行的数据具备相关性,则需要将4行数据合并为一行展示,“分组数”配置为“4”。此处,保持默认值“2”。
- 标签列:选择标签列“label”。
- 标签汇聚方式:取值如果为“logic_or”,则转换后的标签列值为转换前的多个标签列值做逻辑或运算;取值如果为“logic_and”,则转换后的标签列值为转换前的多个标签列值做逻辑与运算。
- 单击“数据预处理”代码框左侧的图标。运行代码,进行数据预处理操作。
数据预处理后的结果,如图5所示。
- 单击界面左下角的“根因分析”,弹出“根因分析”代码框。
请根据实际情况配置模型参数取值。此处体验,均保持默认值即可。当前支持使用RandomForest、XGBoost、使用RandomForest和XGBoost的Ensemble三种算法的模型进行特征评估。其中设置的“根因数”的值,为在“结果展示”运行结果图中展示的根因KPI个数。
也可以单击界面右上角的,在弹出的算子框中,选择“学件 > 硬盘故障根因分析 > 根因分析”,添加“根因分析”代码框。
- 单击“根因分析”代码框左侧的图标。等待根因分析完成。
- 单击界面左下角的“结果展示”。
弹出“结果展示”代码框。
也可以单击界面右上角的,在弹出的算子框中,选择“学件 > 硬盘故障根因分析 > 结果展示”,添加“结果展示”代码框。
- 单击“结果展示”代码框左侧的图标。
运行完成后,效果如图6所示。可以通过结果图,查看模型推荐的造成硬盘故障的前两个根因KPI和占比情况。