更新时间:2025-07-30 GMT+08:00
分享

创建多模态大模型评测任务

创建多模态大模型评测任务前,请确保已完成创建多模态大模型评测数据集操作。

预训练的多模态大模型不支持评测。

创建多模态大模型人工评测任务

创建多模态大模型人工评测任务步骤如下:

  1. 登录ModelArts Studio平台,在“我的空间”模块,单击进入所需空间。
    图1 我的空间
  2. 在左侧导航栏中选择“评测中心 > 评测任务”,单击界面右上角“创建人工评测任务”。
  3. 在“创建人工评测任务”页面,参考表1完成部署参数设置。
    表1 多模态大模型人工评测任务参数说明

    参数分类

    参数名称

    参数说明

    评测对象

    评测类型

    选择“多模态大模型”。

    服务来源

    支持已部署服务、外部服务两种选项。单次最多可评测10个模型。

    • 已部署服务:选择部署至ModelArts Studio平台的模型进行评测。

    评测配置

    评测指标

    由用户自定义评测指标并填写评测标准。

    评测数据集

    待评测的数据集。

    评测结果存储位置

    模型评测结果的存储位置。

    基本信息

    任务名称

    填写评测任务名称。

    描述

    填写评测任务描述。

  4. 参数设置完成后,单击“立即创建”创建评测任务。

    在“评测任务 > 人工评测”页面,单击操作列“在线评测”,进入人工评测页面。在人工评测页面对每条数据进行评估并打分,直到所有数据评估完成后,单击“提交”,提交评估结果。

    • 评测详情页面,打开“盲测”按钮,会隐藏模型名称,进行盲评。
    • 单击“存疑”或者“作废”进行用例的存疑或作废,若取消存疑或作废,单击“取消存疑”或“取消作废”进行处理。
    • 单击备注下方“单击以添加备注”,可以进行新增备注。
    • 评测页面,长按鼠标左键选中需要标记的文本内容,单击“标记”可以标记成重点内容。
    图2 多模态大模型人工评测

创建多模态大模型自动评测任务

  1. 登录ModelArts Studio平台,进入所需空间。
  2. 在左侧导航栏中选择“评测中心 > 评测任务”,单击界面右上角“创建自动评测任务”。
  3. 在“创建自动评测任务”页面选择“多模态大模型”,参考表2完成评测任务参数设置
    表2 自动评测任务参数说明

    参数分类

    参数名称

    参数说明

    评测对象

    评测类型

    选择“模型评测”、“多模态大模型”。

    服务来源

    支持已部署服务。单次最多可评测10个模型。

    • 已部署服务:选择部署至ModelArts Studio平台的模型进行评测。

    评测配置(基于规则)

    评测规则

    选择“基于规则”。

    评测数据集

    • 预置评测集:使用预置的专业数据集进行评测。
    • 自定义评测集:由用户指定评测指标(准确率、BLEU)并上传评测数据集进行评测。

    评测数据集

    选择“单个评测集”时需要上传待评测数据集。

    评测结果存储位置

    模型评测结果的存储位置。

    评测配置(基于大模型)

    评测类型

    选择“多模态大模型”。

    评测规则

    选择“基于大模型”。

    评测数据集

    需要用户在自己的obs桶中提前准备好数据。

    评测结果存储位置

    模型评测结果的存储位置。

    选择模式

    • 评分模式:每个模型独立评测。
    • 对比模式:多个模型对比 。

    裁判员模型

    裁判员模型可以是已部署的NLP服务,也可以是外部服务。外部服务的创建可以参考创建API服务(可选)

    打分规则

    打分prompt有评分模式的prompt和对比模式的prompt。prompt中的${metric},${max_score},${score_desc}和${steps}的值可以通过右边对应的编辑栏设置,最终请求给裁判模型的prompt是用设置的值替换了变量的prompt。

    基本信息

    评测任务名称

    填写评测任务名称。

    描述

    填写评测任务描述。

  4. 评测任务参数设置完成后单击“立即创建”。
  5. 返回“评测任务 > 自动评测”页面,可查看创建好的评测任务,此时任务状态显示为“初始化”,等到自动评测完成,状态显示为“已完成”时,可以单击操作列“评测报告”查看模型评测结果。

    在“评测报告”页面可以查看详细的得分以及评测数据信息。

相关文档