创建多模态大模型评测任务
创建多模态大模型评测任务前,请确保已完成创建多模态大模型评测数据集操作。
预训练的多模态大模型不支持评测。
创建多模态大模型人工评测任务
创建多模态大模型人工评测任务步骤如下:
- 登录ModelArts Studio平台,在“我的空间”模块,单击进入所需空间。
图1 我的空间
- 在左侧导航栏中选择“评测中心 > 评测任务”,单击界面右上角“创建人工评测任务”。
- 在“创建人工评测任务”页面,参考表1完成部署参数设置。
表1 多模态大模型人工评测任务参数说明 参数分类
参数名称
参数说明
评测对象
评测类型
选择“多模态大模型”。
服务来源
支持已部署服务、外部服务两种选项。单次最多可评测10个模型。
- 已部署服务:选择部署至ModelArts Studio平台的模型进行评测。
评测配置
评测指标
由用户自定义评测指标并填写评测标准。
评测数据集
待评测的数据集。
是否开启盲测
开启盲测后,人工打分时将看不到模型名称,且多个模型的排列顺序是打乱的。
评测人员
只可选择超级管理员、空间管理员、模型开发工程师。配置评测人员后,只有配置的人员才能对该评测任务评分,且必须所有配置的人员都对所有case评分后才能生成评测报告。
评测结果存储位置
模型评测结果的存储位置。
基本信息
任务名称
填写评测任务名称。
描述
填写评测任务描述。
- 参数设置完成后,单击“立即创建”创建评测任务。
在“评测任务 > 人工评测”页面,单击操作列“在线评测”,进入人工评测页面。如配置了评测人员,只有评测人员可以看到“在线评测“按钮。在人工评测页面对每条数据进行评估并打分,直到所有数据评估完成后,单击“提交”,提交评估结果。
- 单击“存疑”或者“作废”进行用例的存疑或作废,若取消存疑或作废,单击“取消存疑”或“取消作废”进行处理。
- 单击备注下方“单击以添加备注”,可以进行新增备注。
- 评测页面,长按鼠标左键选中需要标记的文本内容,单击“标记”可以标记成重点内容。
图2 多模态大模型人工评测
创建多模态大模型自动评测任务
- 登录ModelArts Studio平台,进入所需空间。
- 在左侧导航栏中选择“评测中心 > 评测任务”,单击界面右上角“创建自动评测任务”。
- 在“创建自动评测任务”页面选择“多模态大模型”,参考表2完成评测任务参数设置
表2 自动评测任务参数说明 参数分类
参数名称
参数说明
评测对象
评测类型
选择“多模态大模型”。
服务来源
支持已部署服务。单次最多可评测10个模型。
- 已部署服务:选择部署至ModelArts Studio平台的模型进行评测。
评测配置(基于规则)
评测规则
选择“基于规则”。
评测数据集
- 预置评测集:使用预置的专业数据集进行评测。
- 自定义评测集:由用户指定评测指标(准确率、BLEU)并上传评测数据集进行评测。
评测数据集
选择“单个评测集”时需要上传待评测数据集。
评测结果存储位置
模型评测结果的存储位置。
评测配置(基于大模型)
评测类型
选择“多模态大模型”。
评测规则
选择“基于大模型”。
选择模式
- 评分模式:裁判模型将根据设置的评分标准对模型推理结果自动进行打分。
评测数据集
需要用户在自己的obs桶中提前准备好数据。
评测结果存储位置
模型评测结果的存储位置。
选择模式
- 评分模式:裁判模型将根据设置的评分标准对模型推理结果自动进行打分。
裁判模型
裁判员模型可以是已部署的服务,也可以是外部服务。外部服务的创建可以参考创建API服务
打分规则
打分prompt有评分模式的prompt和对比模式的prompt。prompt中的${metric},${max_score},${score_desc}和${steps}的值可以通过右边对应的编辑栏设置,最终请求给裁判模型的prompt是用设置的值替换了变量的prompt。
基本信息
评测任务名称
填写评测任务名称。
描述
填写评测任务描述。
- 评测任务参数设置完成后单击“立即创建”。
- 返回“评测任务 > 自动评测”页面,可查看创建好的评测任务,此时任务状态显示为“初始化”,等到自动评测完成,状态显示为“已完成”时,可以单击操作列“评测报告”查看模型评测结果。