查看三方大模型评测报告
评测任务创建成功后,可以查看大模型评测任务报告,具体步骤如下:
- 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
图1 我的空间
- 在左侧导航栏中选择“评测中心 > 评测任务”。
- 单击操作列“评测报告”,在“评测报告”页面,可以查看评测任务的基本信息及评测概览。
其中,各评测指标说明详见三方大模型评测指标说明。
- 导出评测报告。
- 在“评测报告 > 服务结果分析”页面,单击“导出”,可选择需要导出的评测报告,单击“确定”。
- 单击右侧“导出记录”,可查看导出的任务ID,单击操作列“下载”,可将评测报告下载到本地。
三方大模型评测指标说明
三方大模型支持自动评测与人工评测,各指标说明如表1、表2、表3。
评测指标(自动评测-自定义评测集) |
指标说明 |
---|---|
准确率 |
正确预测(标注与预测完全匹配)的样本数与总样本数的比例。分数越高表示模型正确预测的样本比例越高,模型的效果越好。 |
F1分数 |
精确率和召回率的调和平均数,分数越高表示模型在这两个指标上表现越好,即模型在精确率和召回率之间取得了更好的平衡。 |
BLEU-1 |
模型生成句子与实际句子在单字层面的匹配度,分数越高,表示模型效果越好。 |
BLEU-2 |
模型生成句子与实际句子在中词组层面的匹配度,分数越高,表示模型效果越好。 |
BLEU-4 |
模型生成结果和实际句子的加权平均精确率,分数越高,表示模型效果越好。 |
ROUGE-1 |
将模型生成结果和标注结果按1-gram拆分后,计算出的召回率(n-gram指一个语句内连续的n个单词组成的片段),分数越高,表示模型效果越好。 |
ROUGE-2 |
将模型生成结果和标注结果按2-gram拆分后,计算出的召回率(n-gram指一个语句内连续的n个单词组成的片段),分数越高,表示模型效果越好。 |
ROUGE-L |
将模型生成结果和标注结果按最长公共子序列(longest-gram)拆分后,计算出的召回率,分数越高,表示模型效果越好。 |