更新时间:2025-01-05 GMT+08:00
分享

查看NLP大模型评测报告

评测任务创建成功后,可以查看大模型评测任务报告,具体步骤如下:

  1. 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
  2. 在左侧导航栏中选择“模型开发 > 模型评测”。
  3. 单击操作列“评测报告”,在“评测报告”页面,可以查看评测任务的基本信息及评测概览。

    其中,各评测指标说明详见NLP大模型评测指标说明

  4. 导出评测报告。
    1. 在“评测报告 > 评测明细”页面,单击“导出”,可选择需要导出的评测报告,单击“确定”。
    2. 单击右侧“下载记录”,可查看导出的任务ID,单击操作列“下载”,可将评测报告下载到本地。

NLP大模型评测指标说明

NLP大模型支持自动评测与人工评测,各指标说明如表1表2表3

表1 NLP大模型自动评测指标说明-不使用评测模板

评测指标(自动评测-不使用评测模板)

指标说明

F1_SCORE

精准率和召回率的调和平均数,数值越高,表明模型性能越好。

BLEU-1

模型生成句子与实际句子在单字层面的匹配度,数值越高,表明模型性能越好。

BLEU-2

模型生成句子与实际句子在词组层面的匹配度,数值越高,表明模型性能越好。

BLEU-4

模型生成结果和实际句子的加权平均精确率,数值越高,表明模型性能越好。

ROUGE-1

模型生成句子与实际句子在单个词的相似度,数值越高,表明模型性能越好。

ROUGE-2

模型生成句子与实际句子在两个词的相似度,数值越高,表明模型性能越好。

ROUGE-L

模型生成句子与实际句子在最长公共子序列的相似度,数值越高,表明模型性能越好。

PRECISION

问答匹配的精确度,模型生成句子与实际句子相比的精确程度,数值越高,表明模型性能越好。

表2 NLP大模型自动评测指标说明-使用评测模板

评测指标(自动评测-使用评测模板)

指标说明

评测得分

每个数据集上的得分为模型在当前数据集上的通过率;评测能力项中若有多个数据集则按照数据量的大小计算通过率的加权平均数。

综合能力

综合能力是计算所有数据集通过率的加权平均数。

表3 NLP大模型人工评测指标说明

评测指标(人工评测)

指标说明

准确性

模型生成答案正确且无事实性错误。

average

模型生成句子与实际句子基于评估指标得到的评分后,统计平均得分。

goodcase

模型生成句子与实际句子基于评估指标得到的评分后,统计得分为5分的占比。

badcase

模型生成句子与实际句子基于评估指标得到的评分后,统计得分1分以下的占比。

用户自定义的指标

由用户定义的指标,如有用性、逻辑性、安全性等。

相关文档