- 功能总览
- 产品介绍
- 计费说明
- 快速入门
- 用户指南
- 最佳实践
- API参考
- SDK参考
-
常见问题
- 大模型概念类问题
-
大模型微调训练类问题
- 无监督领域知识数据量无法支持增量预训练,如何进行模型学习
- 如何调整训练参数,使盘古大模型效果最优
- 如何判断盘古大模型训练状态是否正常
- 如何评估微调后的盘古大模型是否正常
- 如何调整推理参数,使盘古大模型效果最优
- 为什么微调后的盘古大模型总是重复相同的回答
- 为什么微调后的盘古大模型的回答中会出现乱码
- 为什么微调后的盘古大模型的回答会异常中断
- 为什么微调后的盘古大模型只能回答训练样本中的问题
- 为什么在微调后的盘古大模型中输入训练样本问题,回答完全不同
- 为什么微调后的盘古大模型评估结果很好,但实际场景表现很差
- 为什么多轮问答场景的盘古大模型微调效果不好
- 数据量足够,为什么盘古大模型微调效果仍然不好
- 数据量和质量均满足要求,为什么盘古大模型微调效果不好
- 大模型使用类问题
- 提示词工程类
- 文档下载
- 通用参考
本文导读
展开导读
链接复制成功!
查看NLP大模型评测报告
评测任务创建成功后,可以查看大模型评测任务报告,具体步骤如下:
- 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
- 在左侧导航栏中选择“模型开发 > 模型评测”。
- 单击操作列“评测报告”,在“评测报告”页面,可以查看评测任务的基本信息及评测概览。
其中,各评测指标说明详见NLP大模型评测指标说明。
- 导出评测报告。
- 在“评测报告 > 评测明细”页面,单击“导出”,可选择需要导出的评测报告,单击“确定”。
- 单击右侧“下载记录”,可查看导出的任务ID,单击操作列“下载”,可将评测报告下载到本地。
NLP大模型评测指标说明
NLP大模型支持自动评测与人工评测,各指标说明如表1、表2、表3。
评测指标(自动评测-不使用评测模板) |
指标说明 |
---|---|
F1_SCORE |
精准率和召回率的调和平均数,数值越高,表明模型性能越好。 |
BLEU-1 |
模型生成句子与实际句子在单字层面的匹配度,数值越高,表明模型性能越好。 |
BLEU-2 |
模型生成句子与实际句子在词组层面的匹配度,数值越高,表明模型性能越好。 |
BLEU-4 |
模型生成结果和实际句子的加权平均精确率,数值越高,表明模型性能越好。 |
ROUGE-1 |
模型生成句子与实际句子在单个词的相似度,数值越高,表明模型性能越好。 |
ROUGE-2 |
模型生成句子与实际句子在两个词的相似度,数值越高,表明模型性能越好。 |
ROUGE-L |
模型生成句子与实际句子在最长公共子序列的相似度,数值越高,表明模型性能越好。 |
PRECISION |
问答匹配的精确度,模型生成句子与实际句子相比的精确程度,数值越高,表明模型性能越好。 |
父主题: 评测NLP大模型