更新时间:2021-09-18 GMT+08:00
分享

根因分析

将样例数据中的训练数据集加载至当前学件项目中,进行数据预处理、根因分析和结果展示。

  1. 单击代码框左下方的“加载数据”。

    弹出“加载数据”代码框,如图1所示。

    也可以单击界面右上角的,在弹出的算子框中,选择“学件 > 硬盘故障根因分析 > 加载数据”,添加“加载数据”代码框。

    参数说明如下所示:

    • 数据集:从下拉框中选择数据集“samples”。
    • 数据集实例:从下拉框中选择数据“rca_forest_kpi”。
    图1 加载数据

  2. 单击“加载数据”代码框左侧的图标。运行代码,绑定数据。

    运行成功后,可以查看数据,如图2所示。
    图2 查看训练数据

  3. 单击界面左下角的“数据预处理”。

    弹出“数据预处理”代码框,如图3所示。

    也可以单击界面右上角的,在弹出的算子框中,选择“学件 > 硬盘故障根因分析 > 数据预处理”,添加“数据预处理”代码框。

    参数说明如下所示:

    • 列筛选方式:保持默认值“列选择”。
    • 待处理列:选择除时间列“Unnamed: 0”外的所有列。
    • 时间列:选择时间列“Unnamed: 0”。
    • 分组数:请根据实际业务场景配置分组数量。如果配置为“2”,数据预处理后的效果如图4所示,将相邻两行数据合并为一行展示。如果相邻四行的数据具备相关性,则需要将4行数据合并为一行展示,“分组数”配置为“4”。此处,保持默认值“2”。
    • 标签列:选择标签列“label”。
    • 标签汇聚方式:取值如果为“logic_or”,则转换后的标签列值为转换前的多个标签列值做逻辑或运算;取值如果为“logic_and”,则转换后的标签列值为转换前的多个标签列值做逻辑与运算。
    图3 数据预处理
    图4 分组后的数据转换效果

  4. 单击“数据预处理”代码框左侧的图标。运行代码,进行数据预处理操作。

    数据预处理后的结果,如图5所示。

    图5 数据预处理结果

  5. 单击界面左下角的“根因分析”,弹出“根因分析”代码框。

    请根据实际情况配置模型参数取值。此处体验,均保持默认值即可。当前支持使用RandomForest、XGBoost、使用RandomForest和XGBoost的Ensemble三种算法的模型进行特征评估。其中设置的“根因数”的值,为在“结果展示”运行结果图中展示的根因KPI个数。

    也可以单击界面右上角的,在弹出的算子框中,选择“学件 > 硬盘故障根因分析 > 根因分析”,添加“根因分析”代码框。

  6. 单击“根因分析”代码框左侧的图标。等待根因分析完成。
  7. 单击界面左下角的“结果展示”。

    弹出“结果展示”代码框。

    也可以单击界面右上角的,在弹出的算子框中,选择“学件 > 硬盘故障根因分析 > 结果展示”,添加“结果展示”代码框。

  8. 单击“结果展示”代码框左侧的图标。

    运行完成后,效果如图6所示。可以通过结果图,查看模型推荐的造成硬盘故障的前两个根因KPI和占比情况。

    图6 结果展示

相关文档