文档首页/ 盘古大模型 PanguLargeModels/ 用户指南/ 开发三方大模型/ 评测三方大模型/ 查看三方大模型评测报告

更新时间：2026-06-17 GMT+08:00

查看三方大模型评测报告

评测任务创建成功后，可以查看大模型评测任务报告，具体步骤如下：

登录ModelArts Studio大模型开发平台，在“我的空间”模块，单击进入所需空间。
图1 我的空间
在左侧导航栏中选择“评测平台 > 评测任务”。
单击操作列“评测报告”，在“评测报告”页面，可以查看评测任务的基本信息及评测概览。
其中，各评测指标说明详见三方大模型评测指标说明。
导出评测报告。
1. 在“评测报告 > 服务结果分析”页面，单击“导出”，可选择需要导出的评测报告，单击“确定”。
2. 单击右侧“导出记录”，可查看导出的任务ID，单击操作列“下载”，可将评测报告下载到本地。

三方大模型评测指标说明

三方大模型支持自动评测与人工评测，各指标说明如表1、表2、表3。

表1 三方大模型自动评测指标说明-不使用预置评测集
评测指标（自动评测-自定义评测集）	指标说明
准确率	正确预测(标注与预测完全匹配)的样本数与总样本数的比例。分数越高表示模型正确预测的样本比例越高，模型的效果越好。
F1分数	精确率和召回率的调和平均数，分数越高表示模型在这两个指标上表现越好，即模型在精确率和召回率之间取得了更好的平衡。
BLEU-1	模型生成句子与实际句子在单字层面的匹配度，分数越高，表示模型效果越好。
BLEU-2	模型生成句子与实际句子在中词组层面的匹配度，分数越高，表示模型效果越好。
BLEU-4	模型生成结果和实际句子的加权平均精确率，分数越高，表示模型效果越好。
ROUGE-1	将模型生成结果和标注结果按1-gram拆分后，计算出的召回率（n-gram指一个语句内连续的n个单词组成的片段），分数越高，表示模型效果越好。
ROUGE-2	将模型生成结果和标注结果按2-gram拆分后，计算出的召回率（n-gram指一个语句内连续的n个单词组成的片段），分数越高，表示模型效果越好。
ROUGE-L	将模型生成结果和标注结果按最长公共子序列（longest-gram）拆分后，计算出的召回率，分数越高，表示模型效果越好。

表2 三方大模型自动评测指标说明-使用预置评测集
评测指标（自动评测-使用评测模板）	指标说明
评测得分	每个数据集上的得分为模型在当前数据集上的通过率；评测能力项中若有多个数据集则按照数据量的大小计算通过率的加权平均数。
综合能力	综合能力是计算所有数据集通过率的加权平均数。

表3 三方大模型人工评测指标说明
评测指标（人工评测）	指标说明
准确性	模型生成答案正确且无事实性错误。
average	模型生成句子与实际句子基于评估指标得到的评分后，统计平均得分。
goodcase	模型生成句子与实际句子基于评估指标得到的评分后，统计得分为5分的占比。
badcase	模型生成句子与实际句子基于评估指标得到的评分后，统计得分1分以下的占比。
用户自定义的指标	由用户定义的指标，如有用性、逻辑性、安全性等。

父主题： 评测三方大模型

上一篇：创建三方大模型评测任务

下一篇：管理三方大模型评测任务

相关文档

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

云宝助手提问云社区提问