创建视频生成大模型评测任务
创建视频生成大模型评测任务前,请确保已完成创建视频生成大模型评测数据集操作。
创建视频生成大模型人工评测任务
- 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
图1 我的空间
- 在左侧导航栏中选择“评测中心 > 评测任务”,单击界面右上角“创建自动评测任务”。
- 在“创建自动评测任务”页面,参考表1完成部署参数设置。
表1 视频生成大模型人工评测任务参数说明(基于规则) 参数分类
参数名称
参数说明
选择服务
模型类型
选择“多模态大模型”。
评测模型
评测不同的视频生成模型。可选择文生视频、图生视频、视频续写。
服务来源
支持已部署服务、外部服务两种选项。单次最多可评测3个模型。
- 已部署服务:选择部署至ModelArts Studio平台的模型进行评测。
- 外部服务:通过API的方式接入外部模型进行评测。
评测配置
评测数据集
待评测的数据集。
评测指标
由用户自定义评测指标并填写评测标准。
是否开启盲测
开启盲测后,人工打分时将看不到模型名称,且多个模型的排列顺序是打乱的。
评测人员
只可选择超级管理员、空间管理员、模型开发工程师。配置评测人员后,只有配置的人员才能对该评测任务评分,且必须所有配置的人员都对所有case评分后才能生成评测报告。
评测结果存储位置
模型评测结果的存储位置。
基本信息
评测任务名称
填写评测任务名称。
描述
填写评测任务描述。
- 参数填写完成后,单击“立即创建”,返回至“评测任务 > 自动评测”页面。
- 当状态为“待评测”时,可以单击操作列“在线评测”进入评测页面。如配置了评测人员,只有评测人员可以看到“在线评测”按钮。
- 依据页面提示完成评测,全部数据评测完成后单击“提交”,所有评测人员提交之后可以生成评测报告。
- 单击“存疑”或者“作废”进行用例的存疑或作废,若取消存疑或作废,单击“取消存疑”或“取消作废”进行处理。
- 勾选问题标记选项,可以标记评测用例的问题点。
- 给用例的所有评估指标打分,单击“保存并下一个”,可保存分数并切换到下一个用例。
- 单击“上一个”,可以回到上一个用户重新打分。

- 提交之后可以单击“人工复核”对评分进行修改,进入人工复核再次提交后,评测才会更新。