知识数据集请求参数说明
CreateKnowledgeDataSetReq
创建知识数据集的data_set参数具有特定结构,需要按照以下实体进行构造后转成json。
参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
name | 是 | String | 参数解释: 数据集名称。 约束限制: 不涉及。 取值范围: 长度2-50个字符,支持中英文、数字、下划线(_),以中英文、数字开头。 默认取值: 不涉及。 |
description | 否 | String | 参数解释: 数据集描述。 约束限制: 不涉及。 取值范围: 长度0-255个字符,只能包含英文、中文、数字、下划线、中划线、空格及,.?:;"':;“”’‘,。?、()()/等符号。 默认取值: 不涉及。 |
tags | 否 | Array of strings | 参数解释: 数据集标签。 约束限制: 不涉及。 取值范围: 传入数量0~5个,需为以下标签:航空、语音转文本、电力、文本、城市数字化、文案生成、水运、1M-10M、NL2SQL、全功能、公路交通、银行业务、制造、数字基础设施、高质量数据(训练)、英文、流媒体、图像理解、托管服务、政府、医疗、>100M、文本向量化、文本生图、城市交通、对话问答、多模生成、功能调用、语音合成、城轨、图文向量化、证券业务、大语言模型、铁路、互联网交换中心、企业基础设施与运营、通用、口岸海关和特殊监管区、10M-100M、代码生成、0-1M、中文、矿业、教育、油气、大企业、种子数据(数据膨胀)、任务规划、保险业务、政务/政党数字化。 默认取值: 不涉及。 |
data_type | 是 | String | 参数解释: 数据集类型。 约束限制: 不涉及。 取值范围: 枚举值:TEXT(文档)、IMAGE_TO_TEXT(图片摘要)、VIDEO_TO_TEXT(视频摘要)、IMAGE(图片)。 默认取值: 不涉及。 |
preprocess_config | 否 | PreprocessConfig object | 参数解释: 数据集预处理配置。 约束限制: data_type为IMAGE时不传。 取值范围: 不涉及。 默认取值: 不涉及。 |
ingestion_config | 是 | IngestionConfig object | 数据集数据接入配置。 参数解释: 数据集数据接入配置。 约束限制: 不涉及。 取值范围: 不涉及。 默认取值: 不涉及。 |
chunk_config | 否 | ChunkConfig object | 参数解释: 数据集切分配置。 约束限制: 不涉及。 取值范围: data_type不为TEXT不传。 默认取值: 不涉及。 |
schedule_config | 是 | ScheduleConfig object | 参数解释: 调度配置。 约束限制: 不涉及。 取值范围: 不涉及。 默认取值: 不涉及。 |
extraction_config | 否 | ExtractionConfig object | 参数解释: 切片提取配置。 约束限制: 不涉及。 取值范围: 不涉及。 默认取值: 不涉及。 |
index_config | 否 | IndexConfig object | 参数解释: 知识数据集索引配置。 约束限制: 创建知识库需要索引,若需创建知识库则需传入。 取值范围: 不涉及。 默认取值: 不涉及。 |
参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
cleaning_methods | 否 | Array of strings | 参数解释: 数据集清洗方法。 约束限制: 不涉及。 取值范围: 枚举值:URL_AND_EMAIL(删除所有的URL和电子邮件地址)、CONTINUOUS_SYMBOL(清除连续的空格,换行符和制表符)、INVISIBLE(清除不可见字符)、WHITESPACE(规范化空格)、GARBLE(清除乱码)、WEB_SYMBOL(清除网页标识符)、EMOJI(清除表情)。 默认取值: 不涉及。 |
pdf_preprocess_type | 否 | String | 参数解释: 数据集pdf文件预处理类型。 约束限制: 仅data_type为TEXT时支持传入。 取值范围: 枚举值:EXTRACT_RICH_MEDIA(提取富媒体,如表、图)、NO_PREPROCESS(不做处理)。 默认取值: 不涉及。 |
rich_media_intelligent_match | 否 | String | 数据集pdf预处理后,富媒体提取类型,仅data_type为TEXT时支持传入,枚举值:SMART_MATCH_IMAGE_TABLE(智能提取,仅预处理为EXTRACT_RICH_MEDIA支持)、NO_MATCH(不提取)。 参数解释: 数据集pdf预处理后,富媒体提取类型。 约束限制: 仅data_type为TEXT时支持传入。 取值范围: 枚举值:SMART_MATCH_IMAGE_TABLE(智能提取,仅预处理为EXTRACT_RICH_MEDIA支持)、NO_MATCH(不提取)。 默认取值: 不涉及。 |
参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
data_source | 是 | String | 参数解释: 数据来源。 约束限制: 不涉及。 取值范围: 枚举值:FILE_UPLOAD(文件上传)、OBS_INGESTION(OBS接入)。 默认取值: 不涉及。 |
obs_ingestion | 否 | ObsIngestion object | 参数解释: OBS接入配置。 约束限制: data_source为FILE_UPLOAD(文件上传)则不传OBS接入配置,否则需传入。 取值范围: 不涉及。 默认取值: 不涉及。 |
file_types | 是 | Array of strings | 参数解释: 数据集支持的文件类型。 约束限制: 不涉及。 取值范围: 枚举值:PDF、TXT、CSV、XLSX、DOCX、PPTX、HTML、JSON、XML、JPG、JPEG、PNG、MP4、WEBM。 默认取值: 不涉及。 |
summary_configs | 否 | Array of SummaryConfig objects | 参数解释: 摘要类型数据集摘要配置。 约束限制: 在data_type为IMAGE_TO_TXT或VIDEO_TO_TEXT时需传入,其它类型则不传。 取值范围: 不涉及。 默认取值: 不涉及。 |
参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
obs_bucket_name | 是 | String | 参数解释: OBS桶名。 约束限制: 不涉及。 取值范围: 长度3~63个字符。 默认取值: 不涉及。 |
obs_input_directory | 是 | String | 参数解释: OBS接入目录路径。 约束限制: 不涉及。 取值范围: OBS接入路径与目录下文件名组合成的路径,最长不超过200。 默认取值: 不涉及。 |
参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
file_name | 是 | String | 参数解释: 文件名。 约束限制: 需与上传文件名称一致。 取值范围: 不涉及。 默认取值: 不涉及。 |
summary | 是 | String | 参数解释: 摘要。 约束限制: 不涉及。 取值范围: 长度1~600。 默认取值: 不涉及。 |
参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
slicing_configs | 否 | Map<String,SlicingConfig> | 参数解释: 数据集切分配置列表。 约束限制: 切分配置数量需要与文件类型数量保持一致。 取值范围: 范围1~30。 默认取值: 不涉及。 |
参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
slicing_method | 是 | String | 参数解释: 数据集切分方法。 约束限制: 不涉及。 取值范围: 枚举值:AUTO_SLICING(自动切分)、TITLE(标题切分)、SENTENCE(自定义切分)、JSON(Json切分)、XML(XML切分),除自动切分外,其它类型切分需传入对应切分配置。 默认取值: 不涉及。 |
sentence_slicing_config | 否 | SentenceSlicingConfig object | 参数解释: 自定义切分配置。 约束限制: 不涉及。 取值范围: 不涉及。 默认取值: 不涉及。 |
title_slicing_config | 否 | TitleSlicingConfig object | 参数解释: 标题切分配置。 约束限制: 不涉及。 取值范围: 不涉及。 默认取值: 不涉及。 |
json_slicing_config | 否 | JsonSlicingConfig object | 参数解释: json切分配置。 约束限制: 不涉及。 取值范围: 不涉及。 默认取值: 不涉及。 |
xml_slicing_config | 否 | XmlSlicingConfig object | 参数解释: xml切分配置。 约束限制: 不涉及。 取值范围: 不涉及。 默认取值: 不涉及。 |
参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
slicing_strategy | 是 | String | 参数解释: 文本切分策略。 约束限制: 不涉及。 取值范围: 枚举值:RECURSIVE(递归切分)、EQUIVALENT(等价切分)。 默认取值: 不涉及。 |
spec_symbols | 是 | Array of strings | 参数解释: 分段分隔符。 约束限制: 不涉及。 取值范围: 长度1~20,除\n外,不允许包含以下字符 *./$^?+ 且不允许为<!I@M#A%G&E!>、<!T@A#B%L&E!>。 默认取值: 不涉及。 |
chunk_size | 是 | Integer | 参数解释: 分段长度。 约束限制: 不涉及。 取值范围: 取值1~500。 默认取值: 不涉及。 |
chunk_overlap | 是 | Integer | 参数解释: 分段重叠长度。 约束限制: 不涉及。 取值范围: 取值0~50。 默认取值: 不涉及。 |
contain_separator | 是 | Boolean | 参数解释: 切片是否包含分隔符。 约束限制: 不涉及。 取值范围: true或false。 默认取值: 不涉及。 |
参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
slicing_strategy | 是 | String | 参数解释: 文本切分策略。 约束限制: 不涉及。 取值范围: 枚举值:RECURSIVE(递归切分)、EQUIVALENT(等价切分)。 默认取值: 不涉及。 |
title_level | 是 | String | 参数解释: 标题层级深度。 约束限制: 不涉及。 取值范围: 枚举值:H1、H2、H3、H4、H5。 默认取值: 不涉及。 |
title_saved_method | 是 | String | 参数解释: 标题保存方式。 约束限制: 不涉及。 取值范围: 枚举值:COMBINATION(多标题组合)、LAST(最后一级标题)。 默认取值: 不涉及。 |
spec_symbols | 是 | Array of strings | 参数解释: 分段分隔符。 约束限制: 不涉及。 取值范围: 长度1~20,除\n外,不允许包含以下字符 *./$^?+ 且不允许为<!I@M#A%G&E!>、<!T@A#B%L&E!>。 默认取值: 不涉及。 |
chunk_size | 是 | Integer | 参数解释: 分段长度。 约束限制: 不涉及。 取值范围: 取值1~500。 默认取值: 不涉及。 |
chunk_overlap | 是 | Integer | 参数解释: 分段重叠长度。 约束限制: 不涉及。 取值范围: 取值0~50。 默认取值: 不涉及。 |
contain_separator | 是 | Boolean | 参数解释: 切片是否包含分隔符。 约束限制: 不涉及。 取值范围: true或false。 默认取值: 不涉及。 |
参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
levels_back | 是 | Integer | 参数解释: 输出层级。 约束限制: 不涉及。 取值范围: 取值0~20。 默认取值: 不涉及。 |
collapse_length | 是 | Integer | 参数解释: 递归最小长度。 约束限制: 不涉及。 取值范围: 取值0~1000。 默认取值: 不涉及。 |
参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
schedule_type | 是 | String | 参数解释: 调度类型。 约束限制: data_source为FILE_UPLOAD时仅支持ONCE(一次性调度)。 取值范围: 枚举值:ONCE(一次性调度)、SCHEDULE(周期性调度)。 默认取值: 不涉及。 |
scheduled_task_config | 否 | ScheduledTaskConfig object | 参数解释: 定时调度配置。 约束限制: 不涉及。 取值范围: 不涉及。 默认取值: 不涉及。 |
参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
cycle_type | 是 | String | 参数解释: 定时任务周期类型。 约束限制: 不涉及。 取值范围: 枚举值:DAY(按日更新)、WEEK(按周更新)。 默认取值: 不涉及。 |
run_time | 是 | String | 参数解释: 定时任务执行时间。 约束限制: 不涉及。 取值范围: 格式为:HH:mm:ss,如:18:30:00。 默认取值: 不涉及。 |
week_day | 否 | String | 参数解释: 定时任务执行日期(星期)。 约束限制: cycle_type为WEEK时需传入。 取值范围: 枚举值:SUNDAY(星期天)、MONDAY(星期一)、TUESDAY(星期二)、WEDNESDAY(星期三)、THURSDAY(星期四)、FRIDAY(星期五)、SATURDAY(星期六)。 默认取值: 不涉及。 |
execute_immediately | 是 | Boolean | 参数解释: 定时任务是否立即执行一次。 约束限制: 不涉及。 取值范围: true或false。 默认取值: 不涉及。 |
version_refresh_mode | 是 | String | 参数解释: 版本刷新模式。 约束限制: 不涉及。 取值范围: 枚举值:ONE_VERSION(每次执行覆盖原版本)、MULTI_VERSION(每次执行生成新版本)。 默认取值: 不涉及。 |
参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
extraction_example | 否 | String | 参数解释: 切片提取样例。 约束限制: 不涉及。 取值范围: 不涉及。 默认取值: 不涉及。 |
extraction_mode | 是 | String | 参数解释: 切片提取模式。 约束限制: 不涉及。 取值范围: 枚举:RULE_EXTRACTION(规则提取)、SMART_EXTRACTION(智能提取)。 默认取值: 不涉及。 |
rule_extraction_configs | 否 | Array of RuleExtractionConfig objects | 参数解释: 规则提取配置列表。 约束限制: extraction_mode为RULE_EXTRACTION时需传入,为SMART_EXTRACTION时则不传。 取值范围: 规则提取配置数量不超过10个,提取字段名称长度1~20,不允许重复。 默认取值: 不涉及。 |
参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
field_name | 是 | String | 参数解释: 提取字段名称。 约束限制: 不涉及。 取值范围: 字段数量不超过10个,其中名称长度1~20,不允许重复,不允许为以下名称(大小写不敏感):“file_name”、“file_id”、“path”、“order”、“document”、“base64”、“chunk”,不能以“ki_”、“ko_”开头,仅可包含字母、数字、下划线,并且以字母开头。 默认取值: 不涉及。 |
extraction_rule | 是 | String | 参数解释: 提取规则。 约束限制: 不涉及。 取值范围: 枚举:SEPARATOR(分隔符提取)、TEMPLATE(模板提取)。 默认取值: 不涉及。 |
separator_extraction | 是 | SeparatorExtractionConfig object | 参数解释: 分隔符提取配置。 约束限制: 不涉及。 取值范围: true或false。 默认取值: 不涉及。 |
template_extraction | 是 | 参数解释: 首尾匹配提取模板。 约束限制: 不涉及。 取值范围: 不涉及。 默认取值: 不涉及。 |
参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
separator | 是 | String | 参数解释: 分隔符。 约束限制: 不涉及。 取值范围: 长度1~20,除\n外,不允许包含以下字符 *./$^?+ 且不允许为<!I@M#A%G&E!>、<!T@A#B%L&E!>。 默认取值: 不涉及。 |
extraction_code | 是 | Integer | 参数解释: 提取分段序号。 约束限制: 不涉及。 取值范围: 范围1~100,提取序号大于可提取分段数量时字段内容为空串。 默认取值: 不涉及。 |
contain_separator | 是 | Boolean | 参数解释: 提取分段是否包含分隔符。 约束限制: 不涉及。 取值范围: true或false。 默认取值: 不涉及。 |
参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
start_with | 是 | String | 参数解释: 提取分段开头。 约束限制: 不涉及。 取值范围: 长度1~20,除\n外,不允许包含以下字符 *./$^?+,且不允许为<!I@M#A%G&E!>、<!T@A#B%L&E!>。 默认取值: 不涉及。 |
contain_start | 是 | Boolean | 参数解释: 提取分段是否包含开头。 约束限制: 不涉及。 取值范围: true或false。 默认取值: 不涉及。 |
end_with | 是 | String | 参数解释: 提取分段结尾。 约束限制: 不涉及。 取值范围: 长度1~20,除\n外,不允许包含以下字符 *./$^?+,且不允许为<!I@M#A%G&E!>、<!T@A#B%L&E!>。 默认取值: 不涉及。 |
contain_end | 是 | Boolean | 参数解释: 提取分段是否包含结尾。 约束限制: 不涉及。 取值范围: true或false。 默认取值: 不涉及。 |
extraction_code | 是 | Integer | 参数解释: 提取分段序号。 约束限制: 不涉及。 取值范围: 范围1~100,提取序号大于可提取分段数量时字段内容为空串。 默认取值: 不涉及。 |
参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
name | 是 | String | 参数解释: 索引配置名称。 约束限制: 不涉及。 取值范围: 支持中英文、数字、“_”,长度为2~50个字符,以中英文、数字开头。 默认取值: 不涉及。 |
description | 否 | String | 参数解释: 索引配置描述。 约束限制: 不涉及。 取值范围: 不涉及。 默认取值: 不涉及。 |
rag_type | 否 | String | 参数解释: 知识库RAG类型。 约束限制: 不涉及。 取值范围: 可以为空,为空则使用默认值。 枚举值:VECTOR_RAG(向量RAG,是一种结合了向量化和大语言模型的RAG技术)、GRAPH_RAG(知识图谱RAG,是一种结合了知识图谱和大语言模型的RAG技术)。 默认取值: VECTOR_RAG |
vector_model_service_key | 是 | String | 参数解释: 向量化模型的service_key。 约束限制: 不涉及。 取值范围: 长度1~128,不能为空白字符,如空格。 默认取值: 不涉及。 |
long_text_solution | 是 | String | 参数解释: 知识数据集切片长文本处理方式。 约束限制: 不涉及。 取值范围: 枚举值:
默认取值: 不涉及。 |
index_graph_config | 否 | Object IndexGraphConfig objects | 参数解释: 知识图谱相关配置。 约束限制: 不涉及。 取值范围: 不涉及。 默认取值: 不涉及。 |
retrieval_configs | 是 | Array of IndexConfigField objects | 参数解释: 知识库召回配置。 约束限制: 不涉及。 取值范围: 不涉及。 默认取值: 不涉及。 |
参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
name | 是 | String | 参数解释: 索引字段名称。 约束限制: 不涉及。 取值范围: 名称长度1~20,仅可包含字母、数字、下划线,并且以字母开头,不允许为以下名称(大小写不敏感):“file_name”、“file_id”、“path”、“order”、“document”、“base64”、“chunk”,不能以“ki_”、“ko_”开头。 默认取值: 不涉及。 |
category | 是 | String | 参数解释: 索引字段类型。 约束限制: 不涉及。 取值范围: 枚举值:FULL_CHUNK(完整切片)、CHUNK_FRAGMENT(切片提取片段)。 默认取值: 不涉及。 |
vector_retrieval | 是 | Boolean | 参数解释: 是否为向量化字段。 约束限制: 整个索引配置中,必须有且只有一个向量化字段。 取值范围: true或false。 默认取值: 不涉及。 |
graph_extract | 否 | Boolean | 参数解释: 是否为知识图谱抽取字段。 约束限制: 索引配置适配RAG类型为GRAPH_RAG时有效,整个索引配置中,最多有一个字段为true。 取值范围: true或false。 默认取值: false。 |
text_filter | 是 | Boolean | 参数解释: 是否为文本过滤字段。 约束限制: 不涉及。 取值范围: true或false。 默认取值: false。 |
retrieval_return | 是 | Boolean | 参数解释: 是否为附加返回字段。 约束限制: 不涉及。 取值范围: true或false。 默认取值: false。 |
参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
entity_extract_method | 是 | String | 参数解释: 实体抽取方式。 约束限制: 不涉及。 取值范围: 枚举值:TRIPLET(三元组抽取)。 默认取值: 不涉及。 |
extract_model_service_key | 是 | String | 参数解释: 实体抽取模型服务key。 约束限制: 不涉及。 取值范围: 长度1~128,不能为空白字符,如空格。 默认取值: 不涉及。 |
customize_extract_prompt | 是 | Boolean | 参数解释: 是否自定义实体抽取提示语。 约束限制: 不涉及。 取值范围: true或false。 默认取值: 不涉及。 |
extract_prompt | 否 | String | 参数解释: 用户自定义实体抽取Prompt。 约束限制: 不涉及。 取值范围: 不涉及。 默认取值: 不涉及。 |

