查看NLP大模型评测报告
评测任务创建成功后,可以查看大模型评测任务报告,具体步骤如下:
- 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
- 在左侧导航栏中选择“模型开发 > 模型评测”。
- 单击操作列“评测报告”,在“评测报告”页面,可以查看评测任务的基本信息及评测概览。
其中,各评测指标说明详见NLP大模型评测指标说明。
- 导出评测报告。
- 在“评测报告 > 评测明细”页面,单击“导出”,可选择需要导出的评测报告,单击“确定”。
- 单击右侧“下载记录”,可查看导出的任务ID,单击操作列“下载”,可将评测报告下载到本地。
NLP大模型评测指标说明
NLP大模型支持自动评测与人工评测,各指标说明如表1、表2、表3。
评测指标(自动评测-不使用评测模板) |
指标说明 |
---|---|
F1_SCORE |
精准率和召回率的调和平均数,数值越高,表明模型性能越好。 |
BLEU-1 |
模型生成句子与实际句子在单字层面的匹配度,数值越高,表明模型性能越好。 |
BLEU-2 |
模型生成句子与实际句子在词组层面的匹配度,数值越高,表明模型性能越好。 |
BLEU-4 |
模型生成结果和实际句子的加权平均精确率,数值越高,表明模型性能越好。 |
ROUGE-1 |
模型生成句子与实际句子在单个词的相似度,数值越高,表明模型性能越好。 |
ROUGE-2 |
模型生成句子与实际句子在两个词的相似度,数值越高,表明模型性能越好。 |
ROUGE-L |
模型生成句子与实际句子在最长公共子序列的相似度,数值越高,表明模型性能越好。 |
PRECISION |
问答匹配的精确度,模型生成句子与实际句子相比的精确程度,数值越高,表明模型性能越好。 |