创建评测集合成任务 - CreateOpsSynthesisTask
功能介绍
该接口用于利用大模型能力发起异步的数据合成任务,通过种子数据泛化(Seed-based Generalization)等手段自动生成高质量、多样化的训练或评测样本。
适用场景:
URI
POST /v1/ops/datasets-synthesis
请求参数
| 参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
| Content-Type | 是 | String | 参数解释: 消息体编码格式。用于告知服务端请求体(Body)所采用的主体数据类型,以便服务端正确解析。 约束限制: 不涉及 取值范围: application/json 默认取值: application/json |
| Authorization | 是 | String | 参数解释: 签名认证信息,当使用AK/SK方式认证时,使用SDK对请求进行签名的过程中会自动填充该字段。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及 |
| X-Sdk-Date | 是 | String | 参数解释: 请求发送的时间,当使用AK/SK方式认证时,使用SDK对请求进行签名的过程中会自动填充该字段。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及 |
| 参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
| name | 是 | String | 参数解释: 数据合成任务的显示名称,用于在任务列表中进行识别与检索。 约束限制: 长度为2-100个字符。 取值范围: 任意字符串。 默认取值: 不涉及。 |
| scenario_type | 是 | String | 参数解释: 指定数据合成的具体逻辑场景。 约束限制: 必填,仅支持枚举值。 取值范围: seed_data (基于种子数据生成)。 默认取值: 不涉及。 |
| scenario_description | 否 | String | 参数解释: 对合成任务背景的详细描述,辅助模型更好地理解合成目标。 约束限制: 1-4000个字符。 取值范围: 由用户定义的业务背景描述。 默认取值: 不涉及。 |
| status | 否 | String | 参数解释: 任务创建后的初始执行状态。 约束限制: 枚举类型。 取值范围: pending(仅保存草稿),running(立即启动运行)。 默认取值: pending。 |
| model_config | 是 | EvaluationOpsModelConfig object | 参数解释: 执行合成任务所调用的底层大模型配置信息。 约束限制: 必填,参考EvaluationOpsModelConfig定义。 取值范围: 不涉及。 默认取值: 不涉及。 |
| seed_data | 否 | 参数解释: 作为合成基础的源数据配置。 约束限制: 当 scenario_type 为 seed_data 时必填。 取值范围: 参考EvaluationOpsSeedDataCreateConfig定义。 默认取值: 不涉及。 | |
| schemas | 是 | Array of EvaluationOpsSynthesisSchema objects | 参数解释: 定义合成数据输出的字段结构与约束。 约束限制: 数组长度为 1-50。 取值范围: 参考EvaluationOpsSynthesisSchema定义。 默认取值: 不涉及。 |
| sample_count | 是 | Integer | 参数解释: 期望通过本次合成任务产出的目标样本总数。 约束限制: 1-500之间的整数。 取值范围: 1-500。 默认取值: 不涉及。 |
| 参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
| model_id | 是 | String | 参数解释: 指定调用的大模型唯一标识符。 约束限制: 1-64个字符。 取值范围: 合法的模型ID字符串。 默认取值: 不涉及。 |
| model_name | 是 | String | 参数解释: 模型的显示名称。 约束限制: 2-100个字符。 取值范围: 任意字符串。 默认取值: 不涉及。 |
| temperature | 否 | Float | 参数解释: 采样温度参数,用于控制输出的随机性。数值低更聚焦,数值高更具创造性。 约束限制: 浮点数。 取值范围: 0.0到2.0。 默认取值: 0.7。 |
| max_tokens | 否 | Integer | 参数解释: 单次推理生成的最大Token数量限制。 约束限制: 1-32,000之间的整数。 取值范围: 1-32000。 默认取值: 2000。 |
| top_p | 否 | Float | 参数解释: 核采样参数。 约束限制: 浮点数。 取值范围: 0.0到1.0。 默认取值: 1.0。 |
| frequency_penalty | 否 | Float | 参数解释: 频率惩罚系数,降低内容重复倾向。 约束限制: 浮点数。 取值范围: -2.0到2.0。 默认取值: 0。 |
| 参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
| type | 否 | String | 参数解释: 指定种子数据的来源类型。 约束限制: 枚举值。 取值范围: dataset(平台评测集),file(本地上传文件)。 默认取值: 不涉及。 |
| dataset_id | 否 | String | 参数解释: 种子评测集的唯一标识符。 约束限制: 0-64个字符;当type为dataset时必填。 取值范围: 已存在的评测集ID。 默认取值: 不涉及。 |
| dataset_version_id | 否 | String | 参数解释: 指定种子评测集的具体版本标识。 约束限制: 0-64个字符。 取值范围: 已发布或草稿版本的ID。 默认取值: 指向草稿版本。 |
| file_name | 否 | String | 参数解释: 上传的种子数据文件的原始名称。 约束限制: 1-200个字符;当type为file时必填。 取值范围: 合法的文件名。 默认取值: 不涉及。 |
| obs_tmp_file_id | 否 | String | 参数解释: 种子数据文件在OBS中的临时存储路径。 约束限制: 最大长度10000字符。 取值范围: OBS路径字符串。 默认取值: 不涉及。 |
| 参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
| name | 是 | String | 参数解释: 合成字段的名称。 约束限制: 长度 1-100字符。 取值范围: 由字母、数字、下划线组成。 默认取值: 不涉及。 |
| description | 否 | String | 参数解释: 合成字段的业务含义描述。 约束限制: 0-400字符。 取值范围: 任意字符串。 默认取值: 不涉及。 |
| synthesis_requirement | 否 | String | 参数解释: 合成要求,用于指导LLM生成该字段的思考路径。 约束限制: 0-4000 字符。 取值范围: 详细的指令说明。 默认取值: 不涉及。 |
响应参数
状态码:200
| 参数 | 参数类型 | 描述 |
|---|---|---|
| id | String | 参数解释: 系统生成的合成任务唯一标识符。 取值范围: 符合通用唯一识别码(UUID)标准的字符串。 |
请求示例
任务创建
GET https://*.com/agentarts/v1/ops/datasets-synthesis
{
"name" : "从现有数据演化生成技术面试题",
"scenario_type" : "seed_data",
"scenario_description" : "基于现有100条React问答,生成50条更复杂的面试题",
"status" : "pending",
"model_config" : {
"model_id" : "1749615103",
"model_name" : "豆包·1.6·自动深度思考",
"temperature" : 0.1,
"max_tokens" : 4096,
"top_p" : 0.7,
"frequency_penalty" : 0
},
"seed_data" : {
"type" : "dataset",
"dataset_id" : "c3c2571d-a8b0-4447-8b79-a67cac076768",
"dataset_version_id" : "c3c2571d-a8b0-4447-8b79-a67cac076768",
"file_name" : "seed.jsonl",
"obs_tmp_file_id" : "obs:../path/to/seed.jsonl"
},
"schemas" : [ {
"name" : "input",
"description" : "作为输入投递给评测对象",
"synthesis_requirement" : "生成技术深度适中、具有实践意义的React问题,考虑候选人2-3年经验水平"
} ],
"sample_count" : 50
} 响应示例
状态码:200
任务创建成功
{
"id" : "task_uuid"
} 状态码
| 状态码 | 描述 |
|---|---|
| 200 | 任务创建成功 |
错误码
请参见错误码。