文档首页/ 智能体开发平台 AgentArts/ API参考/ API/ 评估/ 评估任务管理/ 创建评估任务 - CreateOpsEvaluationTask

更新时间：2026-04-15 GMT+08:00

查看PDF

创建评估任务 - CreateOpsEvaluationTask

功能介绍

该接口用于创建新的评估任务，支持离线和在线评估模式，灵活配置评估参数和数据源，适用于各类模型评估和数据质量验证的场景。

适用场景：

启动新的离线评估任务进行模型质量测试。

URI

POST /v1/ops/evaluation-tasks

请求参数

表1 请求Header参数
参数	是否必选	参数类型	描述
Content-Type	是	String	参数解释：消息体编码格式。用于告知服务端请求体（Body）所采用的主体数据类型，以便服务端正确解析。约束限制：不涉及取值范围：不涉及默认取值： application/json
Authorization	是	String	参数解释：签名认证信息，当使用AK/SK方式认证时，使用SDK对请求进行签名的过程中会自动填充该字段。约束限制：不涉及取值范围：不涉及默认取值：不涉及
X-Sdk-Date	是	String	参数解释：请求发送的时间，当使用AK/SK方式认证时，使用SDK对请求进行签名的过程中会自动填充该字段。约束限制：不涉及取值范围：不涉及默认取值：不涉及

表2 请求Body参数
参数	是否必选	参数类型	描述
eval_mode	否	String	参数解释：评估模式，指定任务是在线评估还是离线评估，影响任务的执行环境和策略。约束限制：字符串类型，最小长度为1，最大长度为36。取值范围：枚举值：OFFLINE（离线）、ONLINE（在线）。默认取值： OFFLINE。
name	否	String	参数解释：评估任务的名称，用于标识和区分不同的评估任务，方便管理和查找。约束限制：字符串类型，最小长度为4，最大长度为100。取值范围：不涉及。默认取值：不涉及。
description	否	String	参数解释：评估任务的描述信息，详细说明任务的目的、范围和预期结果等背景信息。约束限制：字符串类型，最大长度为400。取值范围：不涉及。默认取值：不涉及。
dataset_id	否	String	参数解释：评测集ID，离线任务使用的数据集唯一标识符，用于指定评估的数据来源。通过1.1-创建评测集 - CreateOpsDataset获取。约束限制：字符串类型，最大长度为36。取值范围：符合通用唯一识别码(UUID)标准的字符串。默认取值：不涉及。
dataset_version	否	String	参数解释：评测集版本号，离线任务使用的评测集版本标识。约束限制：字符串类型，最大长度为36。取值范围：系统内有效的评测集版本标识。默认取值：不涉及。
human_read_version	否	String	参数解释：评测集版本，离线任务使用的评测集可读版本标识。约束限制：字符串类型，最大长度为 36。取值范围：如0.0.1 格式。默认取值：不涉及。
dataset_name	否	String	参数解释：评测集名称，离线任务使用的评测集显示名称。约束限制：字符串类型，最小长度为 2，最大长度为 100。取值范围：不涉及。默认取值：不涉及。
input_source_type	否	String	参数解释：评估数据来源，指定评估数据的类型和来源，影响数据的获取方式。约束限制：字符串类型，最大长度为 36。取值范围：枚举值：DATASET_DYNAMIC、DATASET_STATIC、TRACE_STREAM。默认取值： DATASET_DYNAMIC。
runtime_config	否	RuntimeConfig object	参数解释：运行时配置信息，包含任务执行的相关设置，如并发数和异常策略。约束限制：需符合RuntimeConfig定义。取值范围：不涉及。默认取值：不涉及。
evaluation_object_config	否	Object	参数解释：评估对象配置，指定被评估的对象信息（如模型、流等）。约束限制：结构化对象。取值范围：不涉及。默认取值：不涉及。

表3 RuntimeConfig
参数	是否必选	参数类型	描述
execution_time	是	Integer	参数解释：任务的预定执行时间（Unix 时间戳）。约束限制： 1609430399到2147483647。取值范围： 1609430399 - 2147483647。默认取值：不涉及。
concurrency	否	Integer	参数解释：任务执行的并发数配置。约束限制： 1到100之间的整数。取值范围： 1 - 100。默认取值：不涉及。
continue_on_exception	否	Boolean	参数解释：异常处理策略，是否在遇到非致命异常时继续。约束限制：不涉及。取值范围： true, false。默认取值：不涉及。

响应参数

状态码：200

创建任务成功

状态码：400

表4 响应Body参数
参数	参数类型	描述
error_code	String	参数解释：系统定义的标准化错误代码。取值范围：业务异常编码字符串。
error_msg	String	参数解释：对错误的详细描述，包含异常原因或解决建议。取值范围：任意文本内容。

请求示例

创建一个基于工作流（Workflow）和动态评测集（DATASET_DYNAMIC）的离线评估任务，并配置并发数及内置评估器。

https://*.com/agents/v1/ops/evaluation-tasks

{
  "eval_mode" : "OFFLINE",
  "name" : "hzx-4",
  "description" : "调用workflow测试14",
  "dataset_id" : "8f245ce1-aac2-47bf-a6cf-4ea8839fb8c9",
  "dataset_version" : "bd6a8268-c45f-465c-bf10-6ceda5a1d9b6",
  "human_read_version" : "0.0.1",
  "dataset_name" : "OMGEval评测集",
  "input_source_type" : "DATASET_DYNAMIC",
  "runtime_config" : {
    "execution_time" : 1768555998000
  },
  "evaluation_object_config" : { }
}

响应示例

状态码：200

创建任务成功

{
  "data" : {
    "task_id" : "1769499746650415700514"
  }
}

状态码：400

错误请求

{
  "error_code" : "AgentArts.03400001",
  "error_msg" : "请求错误"
}

状态码

状态码	描述
200	创建任务成功
400	错误请求

错误码

请参见错误码。

父主题： 评估任务管理

上一篇：批量删除任务 - BatchDeleteOpsEvaluationTasks

下一篇：暂停评估任务 - StopOpsEvaluationTask

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

云宝助手提问云社区提问