更新时间:2025-12-30 GMT+08:00
分享

创建视频生成大模型评测任务

创建视频生成大模型评测任务前,请确保已完成创建视频生成大模型评测数据集操作。

创建视频生成大模型人工评测任务

  1. 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
    图1 我的空间
  2. 在左侧导航栏中选择“评测中心 > 评测任务”,单击界面右上角“创建自动评测任务”。
  3. 在“创建自动评测任务”页面,参考表1完成部署参数设置。
    表1 视频生成大模型人工评测任务参数说明(基于规则)

    参数分类

    参数名称

    参数说明

    选择服务

    模型类型

    选择“多模态大模型”。

    评测模型

    评测不同的视频生成模型。可选择文生视频、图生视频、视频续写。

    服务来源

    支持已部署服务、外部服务两种选项。单次最多可评测3个模型。

    • 已部署服务:选择部署至ModelArts Studio平台的模型进行评测。
    • 外部服务:通过API的方式接入外部模型进行评测。

    评测配置

    评测数据集

    待评测的数据集。

    评测指标

    由用户自定义评测指标并填写评测标准。

    是否开启盲测

    开启盲测后,人工打分时将看不到模型名称,且多个模型的排列顺序是打乱的。

    评测人员

    只可选择超级管理员、空间管理员、模型开发工程师。配置评测人员后,只有配置的人员才能对该评测任务评分,且必须所有配置的人员都对所有case评分后才能生成评测报告。

    评测结果存储位置

    模型评测结果的存储位置。

    基本信息

    评测任务名称

    填写评测任务名称。

    描述

    填写评测任务描述。

  4. 参数填写完成后,单击“立即创建”,返回至“评测任务 > 自动评测”页面。
  5. 当状态为“待评测”时,可以单击操作列“在线评测”进入评测页面。如配置了评测人员,只有评测人员可以看到“在线评测”按钮。
  6. 依据页面提示完成评测,全部数据评测完成后单击“提交”,所有评测人员提交之后可以生成评测报告。
    • 单击“存疑”或者“作废”进行用例的存疑或作废,若取消存疑或作废,单击“取消存疑”或“取消作废”进行处理。
    • 勾选问题标记选项,可以标记评测用例的问题点。
    • 给用例的所有评估指标打分,单击“保存并下一个”,可保存分数并切换到下一个用例。
    • 单击“上一个”,可以回到上一个用户重新打分。
  7. 提交之后可以单击“人工复核”对评分进行修改,进入人工复核再次提交后,评测才会更新。

相关文档