更新时间:2026-04-16 GMT+08:00
分享

创建模型评测任务

前提条件

  1. 已注册华为账号并开通华为云,进行了实名认证,且在使用ModelArts前检查账号状态,账号不能处于欠费或冻结状态。
  2. 配置委托访问授权

    ModelArts使用过程中涉及到OBS等服务交互,首次使用ModelArts需要用户配置委托授权,允许访问这些依赖服务。

计费说明

数据连接计费涉及到OBS计费,具体可参考数据管理计费项

约束限制

  • 仅西南-贵阳一区域的新版控制台支持。
  • 仅支持大语言模型支持模型评测。

创建大模型自动评测任务(基于规则)

创建大模型自动评测任务步骤如下:

  1. 前往ModelArts管理控制台
  2. 在控制台左侧导航栏选择“模型评测 > 评测任务”,在评测任务工作区左上角选择“自动评测”页签后,选择“创建”,如图1所示。
    图1 创建自动评测
  1. 在“创建自动评测任务”页面,参考表1完成部署参数设置。
    表1 大模型自动评测任务参数说明(基于规则)

    参数分类

    参数名称

    参数说明

    基本信息

    任务名称

    评测任务名称。任务名称字段要求输入以中文、字母开头,以中文、字母、数字结尾,长度2~32的字符。只允许输入中文、字母、数字、中划线、下划线字符。

    描述

    填写评测任务描述,该字段可选。

    评测对象

    评测类型

    当前仅支持“文本生成”类型。

    添加服务

    选择部署至ModelArts平台的模型进行评测。单次最多可评测10个模型。

    评测配置

    评测规则

    选择“基于规则”:基于规则自动打分,即基于相似度/准确率进行打分,对比模型预测结果与标注数据的差异,适合标准选择题或简单问答场景。

    评测数据集

    • 预置评测集:使用预置的专业数据集进行评测。
    • 自定义评测集:由用户指定评测指标(F1分数、准确率、BLEU、Rouge)并上传评测数据集进行评测。选择“自定义评测集”时需要上传待评测数据集。

      (上传单个.jsonl文件,文件大小不超过10M,最大1000条)

    评测结果存储位置

    模型评测结果的存储位置。

  2. 参数填写完成后,单击“立即创建”,返回至“评测任务 > 自动评测”页面。
  3. 当状态为“已完成”时,可以单击操作列“评测报告”,在“评测报告”页面,可以查看评测任务的评测报告和详情。

创建大模型自动评测任务(基于大模型)

创建大模型自动评测任务步骤如下:

  1. 前往ModelArts管理控制台
  2. 在控制台左侧导航栏选择“模型评测 > 评测任务”,在评测任务工作区左上角选择“自动评测”页签后,选择“创建”,如图2所示。
    图2 创建自动评测
  1. 在“创建自动评测任务”页面,参考表2完成部署参数设置。
    表2 大模型自动评测任务参数说明(基于大模型)

    参数分类

    参数名称

    参数说明

    基本信息

    任务名称

    评测任务名称。任务名称字段要求输入以中文、字母开头,以中文、字母、数字结尾,长度2~32的字符。只允许输入中文、字母、数字、中划线、下划线字符。

    描述

    填写评测任务描述,该字段可选。

    评测对象

    评测类型

    当前仅支持“文本生成”类型。

    添加服务

    选择部署至ModelArts平台的模型进行评测。单次最多可评测10个模型。

    评测配置

    评测规则

    选择“基于大模型”。

    选择模式

    • 评分模式:裁判模型将根据设置的评分标准对模型推理结果自动进行打分。
    • 对比模式:模型将对比每个模型服务和基准模型服务的表现,选择win、lose、tie展示对比结果, 对比模式下服务必须选择2个及以上。

    评测数据集

    • 预置评测集:使用预置的专业数据集进行评测。最多只能添加一个预置评测集。
    • 自定义评测集:由用户指定评测指标(F1分数、准确率、BLEU、Rouge)并上传评测数据集进行评测。选择“自定义评测集”时需要上传待评测数据集。(上传单个.jsonl文件,文件大小不超过10M,最大1000条)

    评测结果存储位置

    模型评测结果的存储位置,选择OBS存储评测结果。

    裁判员配置

    裁判模型

    • 已部署服务:选择已部署至ModelArts平台的模型进行评测。

    打分规则

    打分prompt模板可以选择预置,也可以选择自定义。

    预置prompt不支持修改。

    创建自定义prompt模板需要在“编辑自定义规则”右侧对话框选择“新建”,根据页面输入名称,人设,任务描述,是否包含问题,是否包含参考答案,打分策略,评测指标,最终单击“保存模板”。

  2. 参数填写完成后,单击“立即创建”,返回至“评测任务 > 自动评测”页面。单租户可以创建的最大评测任务数为2000。
  3. 当状态为“已完成”时,可以单击操作列“评测报告”,在“评测报告”页面,可以查看评测任务的评测报告和详情。

创建大模型人工评测任务

创建大模型人工评测任务步骤如下:

  1. 前往ModelArts管理控制台
  2. 在控制台左侧导航栏选择“模型评测 > 评测任务”,在评测任务工作区左上角选择“人工评测”页签后,选择“创建”,如图4所示。
    图3 创建人工评测
  1. 在“创建人工评测任务”页面,参考表3完成部署参数设置。
    表3 大模型人工评测任务参数说明

    参数分类

    参数名称

    参数说明

    基本信息

    任务名称

    评测任务名称。任务名称字段要求输入以中文、字母开头,以中文、字母、数字结尾,长度2~32的字符。只允许输入中文、字母、数字、中划线、下划线字符。

    描述

    填写评测任务描述,该字段可选。

    评测对象

    评测类型

    当前仅支持“文本生成”类型。

    添加服务

    选择部署至ModelArts平台的模型进行评测。单次最多可评测10个模型。

    评测配置

    评测指标

    由用户自定义评测指标并填写评测标准,最多支持同时添加6个指标。

    评测数据集

    待评测的数据集。

    是否开启盲测

    开启盲测后,人工打分时将看不到模型名称,且多个模型的排列顺序是打乱的。

    评测人员

    只有配置的人员才能对该评测任务评分,且必须所有配置的人员都对所有case评分后才能生成评测报告。

    评测结果存储位置

    模型评测结果的存储位置。

  2. 参数填写完成后,单击“立即创建”,返回至“评测任务 > 人工评测”页面。
  3. 当状态为“待评测”时,可以单击操作列“在线评测”进入评测页面。
  4. 依据页面提示完成评测,全部数据评测完成后单击“提交”。
    • 单击“存疑”或者“作废”进行用例的存疑或作废,如果取消存疑或作废,单击“取消存疑”或“取消作废”进行处理。
    • 给用例的所有评估指标打分,单击“保存并下一个”,可保存分数并切换到下一个用例
    • 单击“上一个”,可以回到上一个用户重新打分
    • 单击备注下方“单击以添加备注”,可以进行新增备注。
    • 评测页面,长按鼠标左键选中需要标记的文本内容,单击“标记”可以标记成重点内容。
      图4 人工评测
  5. 返回“评测平台 > 评测任务 > 人工评测”页面,单击操作列“评测报告”查看模型评测结果。

    评测完成之后,进入人工评测列表页面,单击“人工复核”,进行复核评测,复核完成之后,单击“提交”,提交评估结果。

相关文档