文档首页/ 智能体开发平台 AgentArts/ API参考/ API/ 评估/ 评测集管理/ 创建评测集合成任务 - CreateOpsSynthesisTask
更新时间:2026-04-15 GMT+08:00
分享

创建评测集合成任务 - CreateOpsSynthesisTask

功能介绍

该接口用于利用大模型能力发起异步的数据合成任务,通过种子数据泛化(Seed-based Generalization)等手段自动生成高质量、多样化的训练或评测样本。

适用场景:

  • 数据样本扩充:在现有数据量不足时,基于少量种子数据生成大规模同分布的模拟数据,提升模型训练效果。

  • 边界场景覆盖:通过 AI 模拟生成罕见或特定领域的对话记录,增强评测集对极端情况(Edge Cases)的覆盖度。

URI

POST /v1/ops/datasets-synthesis

请求参数

表1 请求Header参数

参数

是否必选

参数类型

描述

Content-Type

String

参数解释:

消息体编码格式。用于告知服务端请求体(Body)所采用的主体数据类型,以便服务端正确解析。

约束限制:

不涉及

取值范围:

不涉及

默认取值:

application/json

Authorization

String

参数解释:

签名认证信息,当使用AK/SK方式认证时,使用SDK对请求进行签名的过程中会自动填充该字段。

约束限制:

不涉及

取值范围:

不涉及

默认取值:

不涉及

X-Sdk-Date

String

参数解释:

请求发送的时间,当使用AK/SK方式认证时,使用SDK对请求进行签名的过程中会自动填充该字段。

约束限制:

不涉及

取值范围:

不涉及

默认取值:

不涉及

表2 请求Body参数

参数

是否必选

参数类型

描述

name

String

参数解释:

数据合成任务的显示名称,用于在任务列表中进行识别与检索。

约束限制:

长度为2-100个字符。

取值范围:

任意字符串。

默认取值:

不涉及。

scenario_type

String

参数解释:

指定数据合成的具体逻辑场景。

约束限制:

必填,仅支持枚举值。

取值范围:

seed_data (基于种子数据生成)。

默认取值:

不涉及。

scenario_description

String

参数解释:

对合成任务背景的详细描述,辅助模型更好地理解合成目标。

约束限制:

1-4000个字符。

取值范围:

由用户定义的业务背景描述。

默认取值:

不涉及。

status

String

参数解释:

任务创建后的初始执行状态。

约束限制:

枚举类型。

取值范围:

pending(仅保存草稿),running(立即启动运行)。

默认取值:

pending。

model_config

EvaluationOpsModelConfig object

参数解释:

执行合成任务所调用的底层大模型配置信息。

约束限制:

必填,参考EvaluationOpsModelConfig定义。

取值范围:

不涉及。

默认取值:

不涉及。

seed_data

EvaluationOpsSeedDataCreateConfig object

参数解释:

作为合成基础的源数据配置。

约束限制:

当 scenario_type 为 seed_data 时必填。

取值范围:

参考EvaluationOpsSeedDataCreateConfig定义。

默认取值:

不涉及。

schemas

Array of EvaluationOpsSynthesisSchema objects

参数解释:

定义合成数据输出的字段结构与约束。

约束限制:

数组长度为 1-50。

取值范围:

参考EvaluationOpsSynthesisSchema定义。

默认取值:

不涉及。

sample_count

Integer

参数解释:

期望通过本次合成任务产出的目标样本总数。

约束限制:

1-500之间的整数。

取值范围:

1-500。

默认取值:

不涉及。

表3 EvaluationOpsModelConfig

参数

是否必选

参数类型

描述

model_id

String

参数解释:

指定调用的大模型唯一标识符。

约束限制:

1-64个字符。

取值范围:

合法的模型ID字符串。

默认取值:

不涉及。

model_name

String

参数解释:

模型的显示名称。

约束限制:

2-100个字符。

取值范围:

任意字符串。

默认取值:

不涉及。

temperature

Float

参数解释:

采样温度参数,用于控制输出的随机性。数值低更聚焦,数值高更具创造性。

约束限制:

浮点数。

取值范围:

0.0到2.0。

默认取值:

0.7。

max_tokens

Integer

参数解释:

单次推理生成的最大Token数量限制。

约束限制:

1-32,000之间的整数。

取值范围:

1-32000。

默认取值:

2000。

top_p

Float

参数解释:

核采样参数。

约束限制:

浮点数。

取值范围:

0.0到1.0。

默认取值:

1.0。

frequency_penalty

Float

参数解释:

频率惩罚系数,降低内容重复倾向。

约束限制:

浮点数。

取值范围:

-2.0到2.0。

默认取值:

0。

表4 EvaluationOpsSeedDataCreateConfig

参数

是否必选

参数类型

描述

type

String

参数解释:

指定种子数据的来源类型。

约束限制:

枚举值。

取值范围:

dataset(平台评测集),file(本地上传文件)。

默认取值:

不涉及。

dataset_id

String

参数解释:

种子评测集的唯一标识符。

约束限制:

0-64个字符;当type为dataset时必填。

取值范围:

已存在的评测集ID。

默认取值:

不涉及。

dataset_version_id

String

参数解释:

指定种子评测集的具体版本标识。

约束限制:

0-64个字符。

取值范围:

已发布或草稿版本的ID。

默认取值:

指向草稿版本。

file_name

String

参数解释:

上传的种子数据文件的原始名称。

约束限制:

1-200个字符;当type为file时必填。

取值范围:

合法的文件名。

默认取值:

不涉及。

obs_tmp_file_id

String

参数解释:

种子数据文件在OBS中的临时存储路径。

约束限制:

最大长度10000字符。

取值范围:

OBS路径字符串。

默认取值:

不涉及。

表5 EvaluationOpsSynthesisSchema

参数

是否必选

参数类型

描述

name

String

参数解释:

合成字段的名称。

约束限制:

长度 1-100字符。

取值范围:

由字母、数字、下划线组成。

默认取值:

不涉及。

description

String

参数解释:

合成字段的业务含义描述。

约束限制:

0-400字符。

取值范围:

任意字符串。

默认取值:

不涉及。

synthesis_requirement

String

参数解释:

合成要求,用于指导LLM生成该字段的思考路径。

约束限制:

0-4000 字符。

取值范围:

详细的指令说明。

默认取值:

不涉及。

响应参数

状态码:200

表6 响应Body参数

参数

参数类型

描述

id

String

参数解释:

系统生成的合成任务唯一标识符。

取值范围:

符合通用唯一识别码(UUID)标准的字符串。

请求示例

任务创建

GET https://*.com/agentarts/v1/ops/datasets-synthesis

{
  "name" : "从现有数据演化生成技术面试题",
  "scenario_type" : "seed_data",
  "scenario_description" : "基于现有100条React问答,生成50条更复杂的面试题",
  "status" : "pending",
  "model_config" : {
    "model_id" : "1749615103",
    "model_name" : "豆包·1.6·自动深度思考",
    "temperature" : 0.1,
    "max_tokens" : 4096,
    "top_p" : 0.7,
    "frequency_penalty" : 0
  },
  "seed_data" : {
    "type" : "dataset",
    "dataset_id" : "c3c2571d-a8b0-4447-8b79-a67cac076768",
    "dataset_version_id" : "c3c2571d-a8b0-4447-8b79-a67cac076768",
    "file_name" : "seed.jsonl",
    "obs_tmp_file_id" : "obs:../path/to/seed.jsonl"
  },
  "schemas" : [ {
    "name" : "input",
    "description" : "作为输入投递给评测对象",
    "synthesis_requirement" : "生成技术深度适中、具有实践意义的React问题,考虑候选人2-3年经验水平"
  } ],
  "sample_count" : 50
}

响应示例

状态码:200

任务创建成功

{
  "id" : "task_uuid"
}

状态码

状态码

描述

200

任务创建成功

错误码

请参见错误码

相关文档