查看NLP大模型评测报告
评测任务创建成功后,可以查看大模型评测任务报告,具体步骤如下:
- 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
图1 我的空间
- 在左侧导航栏中选择“评测中心 > 评测任务”。
- 单击操作列“评测报告”,在“评测报告”页面,可以查看评测任务的基本信息及评测概览。
其中,各评测指标说明详见NLP大模型评测指标说明。
- 导出评测报告。
- 在“评测报告 > 服务结果分析”页面,单击“导出”,可选择需要导出的评测报告,单击“确定”。
- 单击右侧“导出记录”,可查看导出的任务ID,单击操作列“下载”,可将评测报告下载到本地。
NLP大模型评测指标说明
NLP大模型支持自动评测与人工评测,各指标说明如表1、表2、表3、表4。
评测指标(自动评测-自定义评测集) |
指标说明 |
---|---|
准确率 |
正确预测(标注与预测完全匹配)的样本数与总样本数的比例。分数越高表示模型正确预测的样本比例越高,模型的效果越好。 |
F1分数 |
精确率和召回率的调和平均数,分数越高表示模型在这两个指标上表现越好,即模型在精确率和召回率之间取得了更好的平衡。 |
BLEU-1 |
模型生成句子与实际句子在单字层面的匹配度,分数越高,表示模型效果越好。 |
BLEU-2 |
模型生成句子与实际句子在中词组层面的匹配度,分数越高,表示模型效果越好。 |
BLEU-4 |
模型生成结果和实际句子的加权平均精确率,分数越高,表示模型效果越好。 |
ROUGE-1 |
将模型生成结果和标注结果按1-gram拆分后,计算出的召回率(n-gram指一个语句内连续的n个单词组成的片段),分数越高,表示模型效果越好。 |
ROUGE-2 |
将模型生成结果和标注结果按2-gram拆分后,计算出的召回率(n-gram指一个语句内连续的n个单词组成的片段),分数越高,表示模型效果越好。 |
ROUGE-L |
将模型生成结果和标注结果按最长公共子序列(longest-gram)拆分后,计算出的召回率,分数越高,表示模型效果越好。 |
评测指标(自动评测-使用评测模板) |
指标说明 |
---|---|
评测得分 |
每个数据集上的得分为模型在当前数据集上的通过率;评测能力项中若有多个数据集则按照数据量的大小计算通过率的加权平均数。 |
综合能力 |
综合能力是计算所有数据集通过率的加权平均数。 |
评测指标(人工评测) |
指标说明 |
---|---|
准确性 |
模型生成答案正确且无事实性错误。 |
average |
模型生成句子与实际句子基于评估指标得到的评分后,统计平均得分。 |
goodcase |
模型生成句子与实际句子基于评估指标得到的评分后,统计得分为5分的占比。 |
badcase |
模型生成句子与实际句子基于评估指标得到的评分后,统计得分1分以下的占比。 |
用户自定义的指标 |
由用户定义的指标,如有用性、逻辑性、安全性等。 |
模型类型 |
评测指标(自动评测-基于规则-基于大模型) |
指标说明 |
---|---|---|
NLP大模型 |
裁判员模型打分 |
数据集中每个用例,裁判员模型给的评分值。 |
平均值 |
数据集中所有用例得分的平均值。 |
|
中位数 |
数据集中所有用例得分的中位数。 |
|
标准差 |
数据集中所有用例得分的标准差。 |
|
win |
对比模式下,对比模型win基准模型的个数。 |
|
lose |
对比模式下,对比模型lose基准模型的个数。 |
|
tie |
对比模式下,对比模型tie基准模型的个数。 |
|
分位 |
(win+tie)/(lose+tie) |
|
分位(剔除tie_bad) |
剔除tie_bad所得分位,(win+tie_good)/(lose+tie_good) |
|
分位(剔除tie_good) |
剔除tie_good所得分位,(win+tie_bad)/(lose+tie_bad) |