文档首页/ 智能体开发平台 AgentArts/ API参考/ API/ 评估/ 评估任务管理/ 创建评估任务 - CreateOpsEvaluationTask
更新时间:2026-04-15 GMT+08:00
分享

创建评估任务 - CreateOpsEvaluationTask

功能介绍

该接口用于创建新的评估任务,支持离线和在线评估模式,灵活配置评估参数和数据源,适用于各类模型评估和数据质量验证的场景。

适用场景:

  • 启动新的离线评估任务进行模型质量测试。

URI

POST /v1/ops/evaluation-tasks

请求参数

表1 请求Header参数

参数

是否必选

参数类型

描述

Content-Type

String

参数解释:

消息体编码格式。用于告知服务端请求体(Body)所采用的主体数据类型,以便服务端正确解析。

约束限制:

不涉及

取值范围:

不涉及

默认取值:

application/json

Authorization

String

参数解释:

签名认证信息,当使用AK/SK方式认证时,使用SDK对请求进行签名的过程中会自动填充该字段。

约束限制:

不涉及

取值范围:

不涉及

默认取值:

不涉及

X-Sdk-Date

String

参数解释:

请求发送的时间,当使用AK/SK方式认证时,使用SDK对请求进行签名的过程中会自动填充该字段。

约束限制:

不涉及

取值范围:

不涉及

默认取值:

不涉及

表2 请求Body参数

参数

是否必选

参数类型

描述

eval_mode

String

参数解释:

评估模式,指定任务是在线评估还是离线评估,影响任务的执行环境和策略。

约束限制:

字符串类型,最小长度为1,最大长度为36。

取值范围:

枚举值:OFFLINE(离线)、ONLINE(在线)。

默认取值:

OFFLINE。

name

String

参数解释:

评估任务的名称,用于标识和区分不同的评估任务,方便管理和查找。

约束限制:

字符串类型,最小长度为4,最大长度为100。

取值范围:

不涉及。

默认取值:

不涉及。

description

String

参数解释:

评估任务的描述信息,详细说明任务的目的、范围和预期结果等背景信息。

约束限制:

字符串类型,最大长度为400。

取值范围:

不涉及。

默认取值:

不涉及。

dataset_id

String

参数解释:

评测集ID,离线任务使用的数据集唯一标识符,用于指定评估的数据来源。

通过1.1-创建评测集 - CreateOpsDataset获取。

约束限制:

字符串类型,最大长度为36。

取值范围:

符合通用唯一识别码(UUID)标准的字符串。

默认取值:

不涉及。

dataset_version

String

参数解释:

评测集版本号,离线任务使用的评测集版本标识。

约束限制:

字符串类型,最大长度为36。

取值范围:

系统内有效的评测集版本标识。

默认取值:

不涉及。

human_read_version

String

参数解释:

评测集版本,离线任务使用的评测集可读版本标识。

约束限制:

字符串类型,最大长度为 36。

取值范围:

如0.0.1 格式。

默认取值:

不涉及。

dataset_name

String

参数解释:

评测集名称,离线任务使用的评测集显示名称。

约束限制:

字符串类型,最小长度为 2,最大长度为 100。

取值范围:

不涉及。

默认取值:

不涉及。

input_source_type

String

参数解释:

评估数据来源,指定评估数据的类型和来源,影响数据的获取方式。

约束限制:

字符串类型,最大长度为 36。

取值范围:

枚举值:DATASET_DYNAMIC、DATASET_STATIC、TRACE_STREAM。

默认取值:

DATASET_DYNAMIC。

runtime_config

RuntimeConfig object

参数解释:

运行时配置信息,包含任务执行的相关设置,如并发数和异常策略。

约束限制:

需符合RuntimeConfig定义。

取值范围:

不涉及。

默认取值:

不涉及。

evaluation_object_config

Object

参数解释:

评估对象配置,指定被评估的对象信息(如模型、流等)。

约束限制:

结构化对象。

取值范围:

不涉及。

默认取值:

不涉及。

表3 RuntimeConfig

参数

是否必选

参数类型

描述

execution_time

Integer

参数解释:

任务的预定执行时间(Unix 时间戳)。

约束限制:

1609430399到2147483647。

取值范围:

1609430399 - 2147483647。

默认取值:

不涉及。

concurrency

Integer

参数解释:

任务执行的并发数配置。

约束限制:

1到100之间的整数。

取值范围:

1 - 100。

默认取值:

不涉及。

continue_on_exception

Boolean

参数解释:

异常处理策略,是否在遇到非致命异常时继续。

约束限制:

不涉及。

取值范围:

true, false。

默认取值:

不涉及。

响应参数

状态码:200

创建任务成功

状态码:400

表4 响应Body参数

参数

参数类型

描述

error_code

String

参数解释:

系统定义的标准化错误代码。

取值范围:

业务异常编码字符串。

error_msg

String

参数解释:

对错误的详细描述,包含异常原因或解决建议。

取值范围:

任意文本内容。

请求示例

创建一个基于工作流(Workflow)和动态评测集(DATASET_DYNAMIC)的离线评估任务,并配置并发数及内置评估器。

https://*.com/agents/v1/ops/evaluation-tasks

{
  "eval_mode" : "OFFLINE",
  "name" : "hzx-4",
  "description" : "调用workflow测试14",
  "dataset_id" : "8f245ce1-aac2-47bf-a6cf-4ea8839fb8c9",
  "dataset_version" : "bd6a8268-c45f-465c-bf10-6ceda5a1d9b6",
  "human_read_version" : "0.0.1",
  "dataset_name" : "OMGEval评测集",
  "input_source_type" : "DATASET_DYNAMIC",
  "runtime_config" : {
    "execution_time" : 1768555998000
  },
  "evaluation_object_config" : { }
}

响应示例

状态码:200

创建任务成功

{
  "data" : {
    "task_id" : "1769499746650415700514"
  }
}

状态码:400

错误请求

{
  "error_code" : "AgentArts.03400001",
  "error_msg" : "请求错误"
}

状态码

状态码

描述

200

创建任务成功

400

错误请求

错误码

请参见错误码

相关文档