更新时间:2025-09-16 GMT+08:00
分享

查看预测大模型评测报告

评测任务创建成功后,可以查看大模型评测任务报告,具体步骤如下:

  1. 登录ModelArts Studio平台,在“我的空间”模块,单击进入所需空间。
    图1 我的空间
  2. 在左侧导航栏中选择“评测中心 > 评测任务”。
  3. 单击操作列“评测报告”,在“评测报告”页面,可以查看评测任务的评测报告及详情。

    其中,各评测指标说明详见预测大模型评测指标说明

  4. 导出评测报告。
    1. 在“评测报告 > 服务结果分析”页面,单击“导出”,可选择需要导出的评测报告,单击“确定”。
    2. 单击右侧“导出记录”,可查看导出的任务ID,单击操作列“下载”,可将评测报告下载到本地。

预测大模型评测指标说明

表1 预测大模型评测指标说明

模型类型

模型场景

评测指标(自动评测)

指标说明

预测大模型

回归

拟合度

预测值对真实值变动的解释程度,越接近于1,说明模型对真实值的拟合越好。

平均绝对误差

预测值与真实值之间差异的平均绝对值。它衡量了模型预测的平均偏差程度,值越小表示模型的预测越准确。

均方根误差

预测值与真实值之间差异的平方和的平均值的平方根。它与MAE类似,但对大误差给予更高的惩罚。RMSE在一定程度上反映了模型预测的波动程度,值越小表示模型的预测越准确。

命中率

表示预测结果误差在可接受范围内的样本所占的比例,命中率接近1,表示效果越好。

分类

F1分数

精确率和召回率的调和平均数,分数越高表示模型在这两个指标上表现越好,即模型在精确率和召回率之间取得了更好的平衡。

准确率

正确预测(标注与预测完全匹配)的样本数与总样本数的比例。分数越高表示模型正确预测的样本比例越高,模型的效果越好。

精确率

预测为正的样本中,实际为正的比率。

召回率

实际为正的样本,预测为正的比率。

异常检测

F1分数

精确率和召回率的调和平均数,分数越高表示模型在这两个指标上表现越好,即模型在精确率和召回率之间取得了更好的平衡。

准确率

正确预测(标注与预测完全匹配)的样本数与总样本数的比例。分数越高表示模型正确预测的样本比例越高,模型的效果越好。

精确率

预测为正的样本中,实际为正的比率。

召回率

实际为正的样本,预测为正的比率。

误报率

衡量检测系统或分类模型在负样本中错误判断为正样本的比例。其核心意义在于反映系统对正常数据的误判程度。

漏报率

漏报率是指被错误预测为正常的异常样本在总异常样本中所占的比例。漏报率关乎于错过真正的故障,高漏报率表示实际存在故障时,系统未能正确识别并报警,这意味着真正的故障被忽视了。这种情况下,可能会导致设备损坏加剧、意外停机甚至安全事故的发生。

相关文档