创建评估任务 - CreateOpsEvaluationTask
URI
POST /v1/ops/evaluation-tasks
请求参数
|
参数 |
是否必选 |
参数类型 |
描述 |
|---|---|---|---|
|
Content-Type |
是 |
String |
参数解释: 消息体编码格式。用于告知服务端请求体(Body)所采用的主体数据类型,以便服务端正确解析。 约束限制: 不涉及 取值范围: 不涉及 默认取值: application/json |
|
Authorization |
是 |
String |
参数解释: 签名认证信息,当使用AK/SK方式认证时,使用SDK对请求进行签名的过程中会自动填充该字段。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及 |
|
X-Sdk-Date |
是 |
String |
参数解释: 请求发送的时间,当使用AK/SK方式认证时,使用SDK对请求进行签名的过程中会自动填充该字段。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及 |
|
参数 |
是否必选 |
参数类型 |
描述 |
|---|---|---|---|
|
eval_mode |
否 |
String |
参数解释: 评估模式,指定任务是在线评估还是离线评估,影响任务的执行环境和策略。 约束限制: 字符串类型,最小长度为1,最大长度为36。 取值范围: 枚举值:OFFLINE(离线)、ONLINE(在线)。 默认取值: OFFLINE。 |
|
name |
否 |
String |
参数解释: 评估任务的名称,用于标识和区分不同的评估任务,方便管理和查找。 约束限制: 字符串类型,最小长度为4,最大长度为100。 取值范围: 不涉及。 默认取值: 不涉及。 |
|
description |
否 |
String |
参数解释: 评估任务的描述信息,详细说明任务的目的、范围和预期结果等背景信息。 约束限制: 字符串类型,最大长度为400。 取值范围: 不涉及。 默认取值: 不涉及。 |
|
dataset_id |
否 |
String |
参数解释: 评测集ID,离线任务使用的数据集唯一标识符,用于指定评估的数据来源。 通过1.1-创建评测集 - CreateOpsDataset获取。 约束限制: 字符串类型,最大长度为36。 取值范围: 符合通用唯一识别码(UUID)标准的字符串。 默认取值: 不涉及。 |
|
dataset_version |
否 |
String |
参数解释: 评测集版本号,离线任务使用的评测集版本标识。 约束限制: 字符串类型,最大长度为36。 取值范围: 系统内有效的评测集版本标识。 默认取值: 不涉及。 |
|
human_read_version |
否 |
String |
参数解释: 评测集版本,离线任务使用的评测集可读版本标识。 约束限制: 字符串类型,最大长度为 36。 取值范围: 如0.0.1 格式。 默认取值: 不涉及。 |
|
dataset_name |
否 |
String |
参数解释: 评测集名称,离线任务使用的评测集显示名称。 约束限制: 字符串类型,最小长度为 2,最大长度为 100。 取值范围: 不涉及。 默认取值: 不涉及。 |
|
input_source_type |
否 |
String |
参数解释: 评估数据来源,指定评估数据的类型和来源,影响数据的获取方式。 约束限制: 字符串类型,最大长度为 36。 取值范围: 枚举值:DATASET_DYNAMIC、DATASET_STATIC、TRACE_STREAM。 默认取值: DATASET_DYNAMIC。 |
|
runtime_config |
否 |
RuntimeConfig object |
参数解释: 运行时配置信息,包含任务执行的相关设置,如并发数和异常策略。 约束限制: 需符合RuntimeConfig定义。 取值范围: 不涉及。 默认取值: 不涉及。 |
|
evaluation_object_config |
否 |
Object |
参数解释: 评估对象配置,指定被评估的对象信息(如模型、流等)。 约束限制: 结构化对象。 取值范围: 不涉及。 默认取值: 不涉及。 |
|
参数 |
是否必选 |
参数类型 |
描述 |
|---|---|---|---|
|
execution_time |
是 |
Integer |
参数解释: 任务的预定执行时间(Unix 时间戳)。 约束限制: 1609430399到2147483647。 取值范围: 1609430399 - 2147483647。 默认取值: 不涉及。 |
|
concurrency |
否 |
Integer |
参数解释: 任务执行的并发数配置。 约束限制: 1到100之间的整数。 取值范围: 1 - 100。 默认取值: 不涉及。 |
|
continue_on_exception |
否 |
Boolean |
参数解释: 异常处理策略,是否在遇到非致命异常时继续。 约束限制: 不涉及。 取值范围: true, false。 默认取值: 不涉及。 |
响应参数
状态码:200
创建任务成功
状态码:400
|
参数 |
参数类型 |
描述 |
|---|---|---|
|
error_code |
String |
参数解释: 系统定义的标准化错误代码。 取值范围: 业务异常编码字符串。 |
|
error_msg |
String |
参数解释: 对错误的详细描述,包含异常原因或解决建议。 取值范围: 任意文本内容。 |
请求示例
创建一个基于工作流(Workflow)和动态评测集(DATASET_DYNAMIC)的离线评估任务,并配置并发数及内置评估器。
https://*.com/agents/v1/ops/evaluation-tasks
{
"eval_mode" : "OFFLINE",
"name" : "hzx-4",
"description" : "调用workflow测试14",
"dataset_id" : "8f245ce1-aac2-47bf-a6cf-4ea8839fb8c9",
"dataset_version" : "bd6a8268-c45f-465c-bf10-6ceda5a1d9b6",
"human_read_version" : "0.0.1",
"dataset_name" : "OMGEval评测集",
"input_source_type" : "DATASET_DYNAMIC",
"runtime_config" : {
"execution_time" : 1768555998000
},
"evaluation_object_config" : { }
}
响应示例
状态码:200
创建任务成功
{
"data" : {
"task_id" : "1769499746650415700514"
}
}
状态码:400
错误请求
{
"error_code" : "AgentArts.03400001",
"error_msg" : "请求错误"
}
状态码
|
状态码 |
描述 |
|---|---|
|
200 |
创建任务成功 |
|
400 |
错误请求 |
错误码
请参见错误码。