查看NLP大模型评测报告

评测任务创建成功后，可以查看大模型评测任务报告，具体步骤如下：

登录ModelArts Studio大模型开发平台，在“我的空间”模块，单击进入所需空间。
图1 我的空间
在左侧导航栏中选择“评测中心 > 评测任务”。
单击操作列“评测报告”，在“评测报告”页面，可以查看评测任务的基本信息及评测概览。
其中，各评测指标说明详见NLP大模型评测指标说明。
导出评测报告。
1. 在“评测报告 > 服务结果分析”页面，单击“导出”，可选择需要导出的评测报告，单击“确定”。
2. 单击右侧“导出记录”，可查看导出的任务ID，单击操作列“下载”，可将评测报告下载到本地。

NLP大模型支持自动评测与人工评测，各指标说明如表1、表2、表3、表4。

表1 NLP大模型自动评测指标说明-不使用预置评测集
评测指标（自动评测-自定义评测集）	指标说明
准确率	正确预测(标注与预测完全匹配)的样本数与总样本数的比例。分数越高表示模型正确预测的样本比例越高，模型的效果越好。
F1分数	精确率和召回率的调和平均数，分数越高表示模型在这两个指标上表现越好，即模型在精确率和召回率之间取得了更好的平衡。
BLEU-1	模型生成句子与实际句子在单字层面的匹配度，分数越高，表示模型效果越好。
BLEU-2	模型生成句子与实际句子在中词组层面的匹配度，分数越高，表示模型效果越好。
BLEU-4	模型生成结果和实际句子的加权平均精确率，分数越高，表示模型效果越好。
ROUGE-1	将模型生成结果和标注结果按1-gram拆分后，计算出的召回率（n-gram指一个语句内连续的n个单词组成的片段），分数越高，表示模型效果越好。
ROUGE-2	将模型生成结果和标注结果按2-gram拆分后，计算出的召回率（n-gram指一个语句内连续的n个单词组成的片段），分数越高，表示模型效果越好。
ROUGE-L	将模型生成结果和标注结果按最长公共子序列（longest-gram）拆分后，计算出的召回率，分数越高，表示模型效果越好。

表2 NLP大模型自动评测指标说明-使用预置评测集
评测指标（自动评测-使用评测模板）	指标说明
评测得分	每个数据集上的得分为模型在当前数据集上的通过率；评测能力项中若有多个数据集则按照数据量的大小计算通过率的加权平均数。
综合能力	综合能力是计算所有数据集通过率的加权平均数。

表3 NLP大模型人工评测指标说明
评测指标（人工评测）	指标说明
准确性	模型生成答案正确且无事实性错误。
average	模型生成句子与实际句子基于评估指标得到的评分后，统计平均得分。
goodcase	模型生成句子与实际句子基于评估指标得到的评分后，统计得分为5分的占比。
badcase	模型生成句子与实际句子基于评估指标得到的评分后，统计得分1分以下的占比。
用户自定义的指标	由用户定义的指标，如有用性、逻辑性、安全性等。

表4 NLP大模型自动评测指标说明
模型类型	评测指标（自动评测-基于规则-基于大模型）	指标说明
NLP大模型	裁判员模型打分	数据集中每个用例，裁判员模型给的评分值。
	平均值	数据集中所有用例得分的平均值。
	中位数	数据集中所有用例得分的中位数。
	标准差	数据集中所有用例得分的标准差。
	win	统计所有对比模型中，性能指标（需提前明确 “优” 的定义，如准确率高为优、误差低为优）优于基准模型的模型数量。
	lose	统计所有对比模型中，性能指标劣于基准模型的模型数量。
	tie	统计所有对比模型中，性能指标与基准模型完全持平（无优劣差异）的模型数量。
	分位	(win+tie)/(lose+tie)
	分位（剔除tie_bad）	剔除tie_bad所得分位，(win+tie_good)/(lose+tie_good)
	分位（剔除tie_good）	剔除tie_good所得分位，(win+tie_bad)/(lose+tie_bad)

父主题： 评测NLP大模型

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨