- 功能总览
- 产品介绍
- 计费说明
- 快速入门
- 用户指南
- 最佳实践
- API参考
- SDK参考
-
常见问题
- 大模型概念类问题
-
大模型微调训练类问题
- 无监督领域知识数据量无法支持增量预训练,如何进行模型学习
- 如何调整训练参数,使盘古大模型效果最优
- 如何判断盘古大模型训练状态是否正常
- 如何评估微调后的盘古大模型是否正常
- 如何调整推理参数,使盘古大模型效果最优
- 为什么微调后的盘古大模型总是重复相同的回答
- 为什么微调后的盘古大模型的回答中会出现乱码
- 为什么微调后的盘古大模型的回答会异常中断
- 为什么微调后的盘古大模型只能回答训练样本中的问题
- 为什么在微调后的盘古大模型中输入训练样本问题,回答完全不同
- 为什么微调后的盘古大模型评估结果很好,但实际场景表现很差
- 为什么多轮问答场景的盘古大模型微调效果不好
- 数据量足够,为什么盘古大模型微调效果仍然不好
- 数据量和质量均满足要求,为什么盘古大模型微调效果不好
- 大模型使用类问题
- 提示词工程类
- 文档下载
- 通用参考
本文导读
链接复制成功!
创建NLP大模型评测任务
创建NLP大模型评测任务前,请确保已完成创建NLP大模型评测数据集操作。
预训练的NLP大模型不支持评测。
创建NLP大模型自动评测任务
创建NLP大模型自动评测任务步骤如下:
- 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
- 在左侧导航栏中选择“模型开发 > 模型评测”,单击界面右上角“创建评测任务”。
- 在“创建评测任务”页面,参考表1完成部署参数设置。
表1 NLP大模型自动评测任务参数说明 参数分类
参数名称
参数说明
选择服务
模型来源
选择“NLP大模型”。
服务来源
支持已部署服务、外部服务两种选项。单次最多可评测10个模型。
- 已部署服务:选择部署至ModelArts Studio平台的模型进行评测。
- 外部服务:通过API的方式接入外部模型进行评测。选择外部服务时,需要填写外部模型的接口名称、接口地址、请求体、响应体等信息。
- 请求体支持openai、tgi、自定义三种格式。openai格式即是由OpenAI公司开发并标准化的一种大模型请求格式;tgi格式即是Hugging Face团队推出的一种大模型请求格式。
- 接口的响应体需要按照jsonpath语法要求进行填写,jsonpath语法的作用是从响应体的json字段中提取出所需的数据。
评测配置
评测类型
选择“自动评测”。
评测规则
选择“基于规则”。
评测数据集
评测结果存储位置
模型评测结果的存储位置。
基本信息
评测任务名称
填写评测任务名称。
描述
填写评测任务描述。
- 参数填写完成后,单击“立即创建”,回退至“模型评测 > 自动评测”页面。
- 当状态为“已完成”时,可以单击操作列“评测报告”查看模型评测结果,包括模型详细的得分以及评测明细。
创建NLP大模型人工评测任务
创建NLP大模型人工评测任务步骤如下:
- 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
- 在左侧导航栏中选择“模型开发 > 模型评测”,单击界面右上角“创建评测任务”。
- 在“创建评测任务”页面,参考表2完成部署参数设置。
表2 NLP大模型人工评测任务参数说明 参数分类
参数名称
参数说明
选择服务
模型来源
选择“NLP大模型”。
服务来源
支持已部署服务、外部服务两种选项。单次最多可评测10个模型。
- 已部署服务:选择部署至ModelArts Studio平台的模型进行评测。
- 外部服务:通过API的方式接入外部模型进行评测。选择外部服务时,需要填写外部模型的接口名称、接口地址、请求体、响应体等信息。
- 请求体支持openai、tgi、自定义三种格式。openai格式即是由OpenAI公司开发并标准化的一种大模型请求格式;tgi格式即是Hugging Face团队推出的一种大模型请求格式。
- 接口的响应体需要按照jsonpath语法要求进行填写,jsonpath语法的作用是从响应体的json字段中提取出所需的数据。
评测配置
评测类型
选择“人工评测”。
评测指标
由用户自定义评测指标并填写评测标准。
评测数据集
待评测的数据集。
评测结果存储位置
模型评测结果的存储位置。
基本信息
评测任务名称
填写评测任务名称。
描述
填写评测任务描述。
- 参数填写完成后,单击“立即创建”,回退至“模型评测 > 人工评测”页面。
- 当状态为“待评测”时,可以单击操作列“在线评测”进入评测页面。
- 依据页面提示对评估效果区域进行评测打分,全部数据评测完成后单击“提交”。
图1 人工评测示例
- 在“人工测评”页面,评测任务的状态将显示为“已完成”,单击操作列“评测报告”查看模型评测结果。
父主题: 评测NLP大模型