创建多模态大模型评测任务
创建多模态大模型评测任务前,请确保已完成创建多模态大模型评测数据集操作。
预训练的多模态大模型不支持评测。
创建多模态大模型人工评测任务
创建多模态大模型人工评测任务步骤如下:
- 登录ModelArts Studio平台,在“我的空间”模块,单击进入所需空间。
图1 我的空间
- 在左侧导航栏中选择“评测中心 > 评测任务”,单击界面右上角“创建人工评测任务”。
- 在“创建人工评测任务”页面,参考表1完成部署参数设置。
- 参数设置完成后,单击“立即创建”创建评测任务。
在“评测任务 > 人工评测”页面,单击操作列“在线评测”,进入人工评测页面。在人工评测页面对每条数据进行评估并打分,直到所有数据评估完成后,单击“提交”,提交评估结果。
- 评测详情页面,打开“盲测”按钮,会隐藏模型名称,进行盲评。
- 单击“存疑”或者“作废”进行用例的存疑或作废,若取消存疑或作废,单击“取消存疑”或“取消作废”进行处理。
- 单击备注下方“单击以添加备注”,可以进行新增备注。
- 评测页面,长按鼠标左键选中需要标记的文本内容,单击“标记”可以标记成重点内容。
图2 多模态大模型人工评测
创建多模态大模型自动评测任务
- 登录ModelArts Studio平台,进入所需空间。
- 在左侧导航栏中选择“评测中心 > 评测任务”,单击界面右上角“创建自动评测任务”。
- 在“创建自动评测任务”页面选择“多模态大模型”,参考表2完成评测任务参数设置
表2 自动评测任务参数说明 参数分类
参数名称
参数说明
评测对象
评测类型
选择“模型评测”、“多模态大模型”。
服务来源
支持已部署服务。单次最多可评测10个模型。
- 已部署服务:选择部署至ModelArts Studio平台的模型进行评测。
评测配置(基于规则)
评测规则
选择“基于规则”。
评测数据集
- 预置评测集:使用预置的专业数据集进行评测。
- 自定义评测集:由用户指定评测指标(准确率、BLEU)并上传评测数据集进行评测。
评测数据集
选择“单个评测集”时需要上传待评测数据集。
评测结果存储位置
模型评测结果的存储位置。
评测配置(基于大模型)
评测类型
选择“多模态大模型”。
评测规则
选择“基于大模型”。
评测数据集
需要用户在自己的obs桶中提前准备好数据。
评测结果存储位置
模型评测结果的存储位置。
选择模式
- 评分模式:每个模型独立评测。
- 对比模式:多个模型对比 。
裁判员模型
裁判员模型可以是已部署的NLP服务,也可以是外部服务。外部服务的创建可以参考创建API服务(可选)
打分规则
打分prompt有评分模式的prompt和对比模式的prompt。prompt中的${metric},${max_score},${score_desc}和${steps}的值可以通过右边对应的编辑栏设置,最终请求给裁判模型的prompt是用设置的值替换了变量的prompt。
基本信息
评测任务名称
填写评测任务名称。
描述
填写评测任务描述。
- 评测任务参数设置完成后单击“立即创建”。
- 返回“评测任务 > 自动评测”页面,可查看创建好的评测任务,此时任务状态显示为“初始化”,等到自动评测完成,状态显示为“已完成”时,可以单击操作列“评测报告”查看模型评测结果。