创建模型评测任务
前提条件
计费说明
数据连接计费涉及到OBS计费,具体可参考数据管理计费项。
约束限制
- 仅西南-贵阳一区域的新版控制台支持。
- 仅支持大语言模型支持模型评测。
创建大模型自动评测任务(基于规则)
创建大模型自动评测任务步骤如下:
- 前往ModelArts管理控制台。
- 在控制台左侧导航栏选择“模型评测 > 评测任务”,在评测任务工作区左上角选择“自动评测”页签后,选择“创建”,如图1所示。
- 在“创建自动评测任务”页面,参考表1完成部署参数设置。
表1 大模型自动评测任务参数说明(基于规则) 参数分类
参数名称
参数说明
基本信息
任务名称
评测任务名称。任务名称字段要求输入以中文、字母开头,以中文、字母、数字结尾,长度2~32的字符。只允许输入中文、字母、数字、中划线、下划线字符。
描述
填写评测任务描述,该字段可选。
评测对象
评测类型
当前仅支持“文本生成”类型。
添加服务
选择部署至ModelArts平台的模型进行评测。单次最多可评测10个模型。
评测配置
评测规则
选择“基于规则”:基于规则自动打分,即基于相似度/准确率进行打分,对比模型预测结果与标注数据的差异,适合标准选择题或简单问答场景。
评测数据集
评测结果存储位置
模型评测结果的存储位置。
- 参数填写完成后,单击“立即创建”,返回至“评测任务 > 自动评测”页面。
- 当状态为“已完成”时,可以单击操作列“评测报告”,在“评测报告”页面,可以查看评测任务的评测报告和详情。
创建大模型自动评测任务(基于大模型)
创建大模型自动评测任务步骤如下:
- 前往ModelArts管理控制台。
- 在控制台左侧导航栏选择“模型评测 > 评测任务”,在评测任务工作区左上角选择“自动评测”页签后,选择“创建”,如图2所示。
- 在“创建自动评测任务”页面,参考表2完成部署参数设置。
表2 大模型自动评测任务参数说明(基于大模型) 参数分类
参数名称
参数说明
基本信息
任务名称
评测任务名称。任务名称字段要求输入以中文、字母开头,以中文、字母、数字结尾,长度2~32的字符。只允许输入中文、字母、数字、中划线、下划线字符。
描述
填写评测任务描述,该字段可选。
评测对象
评测类型
当前仅支持“文本生成”类型。
添加服务
选择部署至ModelArts平台的模型进行评测。单次最多可评测10个模型。
评测配置
评测规则
选择“基于大模型”。
选择模式
- 评分模式:裁判模型将根据设置的评分标准对模型推理结果自动进行打分。
- 对比模式:模型将对比每个模型服务和基准模型服务的表现,选择win、lose、tie展示对比结果, 对比模式下服务必须选择2个及以上。
评测数据集
- 预置评测集:使用预置的专业数据集进行评测。最多只能添加一个预置评测集。
- 自定义评测集:由用户指定评测指标(F1分数、准确率、BLEU、Rouge)并上传评测数据集进行评测。选择“自定义评测集”时需要上传待评测数据集。(上传单个.jsonl文件,文件大小不超过10M,最大1000条)
评测结果存储位置
模型评测结果的存储位置,选择OBS存储评测结果。
裁判员配置
裁判模型
- 已部署服务:选择已部署至ModelArts平台的模型进行评测。
打分规则
打分prompt模板可以选择预置,也可以选择自定义。
预置prompt不支持修改。
创建自定义prompt模板需要在“编辑自定义规则”右侧对话框选择“新建”,根据页面输入名称,人设,任务描述,是否包含问题,是否包含参考答案,打分策略,评测指标,最终单击“保存模板”。
- 参数填写完成后,单击“立即创建”,返回至“评测任务 > 自动评测”页面。单租户可以创建的最大评测任务数为2000。
- 当状态为“已完成”时,可以单击操作列“评测报告”,在“评测报告”页面,可以查看评测任务的评测报告和详情。
创建大模型人工评测任务
创建大模型人工评测任务步骤如下:
- 前往ModelArts管理控制台。
- 在控制台左侧导航栏选择“模型评测 > 评测任务”,在评测任务工作区左上角选择“人工评测”页签后,选择“创建”,如图4所示。
图3 创建人工评测
- 在“创建人工评测任务”页面,参考表3完成部署参数设置。
表3 大模型人工评测任务参数说明 参数分类
参数名称
参数说明
基本信息
任务名称
评测任务名称。任务名称字段要求输入以中文、字母开头,以中文、字母、数字结尾,长度2~32的字符。只允许输入中文、字母、数字、中划线、下划线字符。
描述
填写评测任务描述,该字段可选。
评测对象
评测类型
当前仅支持“文本生成”类型。
添加服务
选择部署至ModelArts平台的模型进行评测。单次最多可评测10个模型。
评测配置
评测指标
由用户自定义评测指标并填写评测标准,最多支持同时添加6个指标。
评测数据集
待评测的数据集。
是否开启盲测
开启盲测后,人工打分时将看不到模型名称,且多个模型的排列顺序是打乱的。
评测人员
只有配置的人员才能对该评测任务评分,且必须所有配置的人员都对所有case评分后才能生成评测报告。
评测结果存储位置
模型评测结果的存储位置。
- 参数填写完成后,单击“立即创建”,返回至“评测任务 > 人工评测”页面。
- 当状态为“待评测”时,可以单击操作列“在线评测”进入评测页面。
- 依据页面提示完成评测,全部数据评测完成后单击“提交”。
- 单击“存疑”或者“作废”进行用例的存疑或作废,如果取消存疑或作废,单击“取消存疑”或“取消作废”进行处理。
- 给用例的所有评估指标打分,单击“保存并下一个”,可保存分数并切换到下一个用例
- 单击“上一个”,可以回到上一个用户重新打分
- 单击备注下方“单击以添加备注”,可以进行新增备注。
- 评测页面,长按鼠标左键选中需要标记的文本内容,单击“标记”可以标记成重点内容。
- 返回“评测平台 > 评测任务 > 人工评测”页面,单击操作列“评测报告”查看模型评测结果。


