文档首页/ 应用平台 AppStage/ API参考/ 附录/ 知识数据集请求参数说明

更新时间：2025-01-20 GMT+08:00

知识数据集请求参数说明

CreateKnowledgeDataSetReq

创建知识数据集的data_set参数具有特定结构，需要按照以下实体进行构造后转成json。

表1 请求Body参数
参数	是否必选	参数类型	描述
name	是	String	参数解释：数据集名称。约束限制：不涉及。取值范围：长度2-50个字符，支持中英文、数字、下划线(_)，以中英文、数字开头。默认取值：不涉及。
description	否	String	参数解释：数据集描述。约束限制：不涉及。取值范围：长度0-255个字符，只能包含英文、中文、数字、下划线、中划线、空格及,.?:;"'：；“”’‘，。？、()（）/等符号。默认取值：不涉及。
tags	否	Array of strings	参数解释：数据集标签。约束限制：不涉及。取值范围：传入数量0~5个，需为以下标签：航空、语音转文本、电力、文本、城市数字化、文案生成、水运、1M-10M、NL2SQL、全功能、公路交通、银行业务、制造、数字基础设施、高质量数据（训练）、英文、流媒体、图像理解、托管服务、政府、医疗、>100M、文本向量化、文本生图、城市交通、对话问答、多模生成、功能调用、语音合成、城轨、图文向量化、证券业务、大语言模型、铁路、互联网交换中心、企业基础设施与运营、通用、口岸海关和特殊监管区、10M-100M、代码生成、0-1M、中文、矿业、教育、油气、大企业、种子数据（数据膨胀）、任务规划、保险业务、政务/政党数字化。默认取值：不涉及。
data_type	是	String	参数解释：数据集类型。约束限制：不涉及。取值范围：枚举值：TEXT（文档）、IMAGE_TO_TEXT（图片摘要）、VIDEO_TO_TEXT（视频摘要）、IMAGE（图片）。默认取值：不涉及。
preprocess_config	否	PreprocessConfig object	参数解释：数据集预处理配置。约束限制： data_type为IMAGE时不传。取值范围：不涉及。默认取值：不涉及。
ingestion_config	是	IngestionConfig object	数据集数据接入配置。参数解释：数据集数据接入配置。约束限制：不涉及。取值范围：不涉及。默认取值：不涉及。
chunk_config	否	ChunkConfig object	参数解释：数据集切分配置。约束限制：不涉及。取值范围： data_type不为TEXT不传。默认取值：不涉及。
schedule_config	是	ScheduleConfig object	参数解释：调度配置。约束限制：不涉及。取值范围：不涉及。默认取值：不涉及。
extraction_config	否	ExtractionConfig object	参数解释：切片提取配置。约束限制：不涉及。取值范围：不涉及。默认取值：不涉及。
index_config	否	IndexConfig object	参数解释：知识数据集索引配置。约束限制：创建知识库需要索引，若需创建知识库则需传入。取值范围：不涉及。默认取值：不涉及。

表2 PreprocessConfig
参数	是否必选	参数类型	描述
cleaning_methods	否	Array of strings	参数解释：数据集清洗方法。约束限制：不涉及。取值范围：枚举值：URL_AND_EMAIL（删除所有的URL和电子邮件地址）、CONTINUOUS_SYMBOL（清除连续的空格，换行符和制表符）、INVISIBLE（清除不可见字符）、WHITESPACE（规范化空格）、GARBLE（清除乱码）、WEB_SYMBOL（清除网页标识符）、EMOJI（清除表情）。默认取值：不涉及。
pdf_preprocess_type	否	String	参数解释：数据集pdf文件预处理类型。约束限制：仅data_type为TEXT时支持传入。取值范围：枚举值：EXTRACT_RICH_MEDIA（提取富媒体，如表、图）、NO_PREPROCESS（不做处理）。默认取值：不涉及。
rich_media_intelligent_match	否	String	数据集pdf预处理后，富媒体提取类型，仅data_type为TEXT时支持传入，枚举值：SMART_MATCH_IMAGE_TABLE（智能提取，仅预处理为EXTRACT_RICH_MEDIA支持）、NO_MATCH（不提取）。参数解释：数据集pdf预处理后，富媒体提取类型。约束限制：仅data_type为TEXT时支持传入。取值范围：枚举值：SMART_MATCH_IMAGE_TABLE（智能提取，仅预处理为EXTRACT_RICH_MEDIA支持）、NO_MATCH（不提取）。默认取值：不涉及。

表3 IngestionConfig
参数	是否必选	参数类型	描述
data_source	是	String	参数解释：数据来源。约束限制：不涉及。取值范围：枚举值：FILE_UPLOAD（文件上传）、OBS_INGESTION（OBS接入）。默认取值：不涉及。
obs_ingestion	否	ObsIngestion object	参数解释： OBS接入配置。约束限制： data_source为FILE_UPLOAD（文件上传）则不传OBS接入配置，否则需传入。取值范围：不涉及。默认取值：不涉及。
file_types	是	Array of strings	参数解释：数据集支持的文件类型。约束限制：不涉及。取值范围：枚举值：PDF、TXT、CSV、XLSX、DOCX、PPTX、HTML、JSON、XML、JPG、JPEG、PNG、MP4、WEBM。默认取值：不涉及。
summary_configs	否	Array of SummaryConfig objects	参数解释：摘要类型数据集摘要配置。约束限制：在data_type为IMAGE_TO_TXT或VIDEO_TO_TEXT时需传入，其它类型则不传。取值范围：不涉及。默认取值：不涉及。

表4 ObsIngestion
参数	是否必选	参数类型	描述
obs_bucket_name	是	String	参数解释： OBS桶名。约束限制：不涉及。取值范围：长度3~63个字符。默认取值：不涉及。
obs_input_directory	是	String	参数解释： OBS接入目录路径。约束限制：不涉及。取值范围： OBS接入路径与目录下文件名组合成的路径，最长不超过200。默认取值：不涉及。

表5 SummaryConfig
参数	是否必选	参数类型	描述
file_name	是	String	参数解释：文件名。约束限制：需与上传文件名称一致。取值范围：不涉及。默认取值：不涉及。
summary	是	String	参数解释：摘要。约束限制：不涉及。取值范围：长度1~600。默认取值：不涉及。

表6 ChunkConfig
参数	是否必选	参数类型	描述
slicing_configs	否	Map<String,SlicingConfig>	参数解释：数据集切分配置列表。约束限制：切分配置数量需要与文件类型数量保持一致。取值范围：范围1~30。默认取值：不涉及。

表7 SlicingConfig
参数	是否必选	参数类型	描述
slicing_method	是	String	参数解释：数据集切分方法。约束限制：不涉及。取值范围：枚举值：AUTO_SLICING（自动切分）、TITLE（标题切分）、SENTENCE（自定义切分）、JSON（Json切分）、XML（XML切分），除自动切分外，其它类型切分需传入对应切分配置。默认取值：不涉及。
sentence_slicing_config	否	SentenceSlicingConfig object	参数解释：自定义切分配置。约束限制：不涉及。取值范围：不涉及。默认取值：不涉及。
title_slicing_config	否	TitleSlicingConfig object	参数解释：标题切分配置。约束限制：不涉及。取值范围：不涉及。默认取值：不涉及。
json_slicing_config	否	JsonSlicingConfig object	参数解释： json切分配置。约束限制：不涉及。取值范围：不涉及。默认取值：不涉及。
xml_slicing_config	否	XmlSlicingConfig object	参数解释： xml切分配置。约束限制：不涉及。取值范围：不涉及。默认取值：不涉及。

表8 SentenceSlicingConfig
参数	是否必选	参数类型	描述
slicing_strategy	是	String	参数解释：文本切分策略。约束限制：不涉及。取值范围：枚举值：RECURSIVE（递归切分）、EQUIVALENT（等价切分）。默认取值：不涉及。
spec_symbols	是	Array of strings	参数解释：分段分隔符。约束限制：不涉及。取值范围：长度1~20，除\n外，不允许包含以下字符 ./$^?+ 且不允许为<!I@M#A%G&E!>、<!T@A#B%L&E!>。默认取值：* 不涉及。
chunk_size	是	Integer	参数解释：分段长度。约束限制：不涉及。取值范围：取值1~500。默认取值：不涉及。
chunk_overlap	是	Integer	参数解释：分段重叠长度。约束限制：不涉及。取值范围：取值0~50。默认取值：不涉及。
contain_separator	是	Boolean	参数解释：切片是否包含分隔符。约束限制：不涉及。取值范围： true或false。默认取值：不涉及。

表9 TitleSlicingConfig
参数	是否必选	参数类型	描述
slicing_strategy	是	String	参数解释：文本切分策略。约束限制：不涉及。取值范围：枚举值：RECURSIVE（递归切分）、EQUIVALENT（等价切分）。默认取值：不涉及。
title_level	是	String	参数解释：标题层级深度。约束限制：不涉及。取值范围：枚举值：H1、H2、H3、H4、H5。默认取值：不涉及。
title_saved_method	是	String	参数解释：标题保存方式。约束限制：不涉及。取值范围：枚举值：COMBINATION（多标题组合）、LAST（最后一级标题）。默认取值：不涉及。
spec_symbols	是	Array of strings	参数解释：分段分隔符。约束限制：不涉及。取值范围：长度1~20，除\n外，不允许包含以下字符 ./$^?+ 且不允许为<!I@M#A%G&E!>、<!T@A#B%L&E!>。默认取值：* 不涉及。
chunk_size	是	Integer	参数解释：分段长度。约束限制：不涉及。取值范围：取值1~500。默认取值：不涉及。
chunk_overlap	是	Integer	参数解释：分段重叠长度。约束限制：不涉及。取值范围：取值0~50。默认取值：不涉及。
contain_separator	是	Boolean	参数解释：切片是否包含分隔符。约束限制：不涉及。取值范围： true或false。默认取值：不涉及。

**表10** JsonSlicingConfig
参数	是否必选	参数类型	描述
levels_back	是	Integer	参数解释：输出层级。约束限制：不涉及。取值范围：取值0~20。默认取值：不涉及。
collapse_length	是	Integer	参数解释：递归最小长度。约束限制：不涉及。取值范围：取值0~1000。默认取值：不涉及。

**表11** XmlSlicingConfig
参数	是否必选	参数类型	描述
tree_level_split	是	Integer	参数解释：遍历层级。约束限制：不涉及。取值范围：取值0~20。默认取值：不涉及。

**表12** ScheduleConfig
参数	是否必选	参数类型	描述
schedule_type	是	String	参数解释：调度类型。约束限制： data_source为FILE_UPLOAD时仅支持ONCE（一次性调度）。取值范围：枚举值：ONCE（一次性调度）、SCHEDULE（周期性调度）。默认取值：不涉及。
scheduled_task_config	否	ScheduledTaskConfig object	参数解释：定时调度配置。约束限制：不涉及。取值范围：不涉及。默认取值：不涉及。

**表13** ScheduledTaskConfig
参数	是否必选	参数类型	描述
cycle_type	是	String	参数解释：定时任务周期类型。约束限制：不涉及。取值范围：枚举值：DAY（按日更新）、WEEK（按周更新）。默认取值：不涉及。
run_time	是	String	参数解释：定时任务执行时间。约束限制：不涉及。取值范围：格式为：HH:mm:ss，如：18:30:00。默认取值：不涉及。
week_day	否	String	参数解释：定时任务执行日期（星期）。约束限制： cycle_type为WEEK时需传入。取值范围：枚举值：SUNDAY（星期天）、MONDAY（星期一）、TUESDAY（星期二）、WEDNESDAY（星期三）、THURSDAY（星期四）、FRIDAY（星期五）、SATURDAY（星期六）。默认取值：不涉及。
execute_immediately	是	Boolean	参数解释：定时任务是否立即执行一次。约束限制：不涉及。取值范围： true或false。默认取值：不涉及。
version_refresh_mode	是	String	参数解释：版本刷新模式。约束限制：不涉及。取值范围：枚举值：ONE_VERSION（每次执行覆盖原版本）、MULTI_VERSION（每次执行生成新版本）。默认取值：不涉及。

**表14** ExtractionConfig
参数	是否必选	参数类型	描述
extraction_example	否	String	参数解释：切片提取样例。约束限制：不涉及。取值范围：不涉及。默认取值：不涉及。
extraction_mode	是	String	参数解释：切片提取模式。约束限制：不涉及。取值范围：枚举：RULE_EXTRACTION（规则提取）、SMART_EXTRACTION（智能提取）。默认取值：不涉及。
rule_extraction_configs	否	Array of RuleExtractionConfig objects	参数解释：规则提取配置列表。约束限制： extraction_mode为RULE_EXTRACTION时需传入，为SMART_EXTRACTION时则不传。取值范围：规则提取配置数量不超过10个，提取字段名称长度1~20，不允许重复。默认取值：不涉及。

**表15** RuleExtractionConfig
参数	是否必选	参数类型	描述
field_name	是	String	参数解释：提取字段名称。约束限制：不涉及。取值范围：字段数量不超过10个，其中名称长度1~20，不允许重复，不允许为以下名称（大小写不敏感）：“file_name”、“file_id”、“path”、“order”、“document”、“base64”、“chunk”，不能以“ki_”、“ko_”开头，仅可包含字母、数字、下划线，并且以字母开头。默认取值：不涉及。
extraction_rule	是	String	参数解释：提取规则。约束限制：不涉及。取值范围：枚举：SEPARATOR（分隔符提取）、TEMPLATE（模板提取）。默认取值：不涉及。
separator_extraction	是	SeparatorExtractionConfig object	参数解释：分隔符提取配置。约束限制：不涉及。取值范围： true或false。默认取值：不涉及。
template_extraction	是	HeadAndTailExtractionTemplate object	参数解释：首尾匹配提取模板。约束限制：不涉及。取值范围：不涉及。默认取值：不涉及。

**表16** SeparatorExtractionConfig
参数	是否必选	参数类型	描述
separator	是	String	参数解释：分隔符。约束限制：不涉及。取值范围：长度1~20，除\n外，不允许包含以下字符 ./$^?+ 且不允许为<!I@M#A%G&E!>、<!T@A#B%L&E!>。默认取值：* 不涉及。
extraction_code	是	Integer	参数解释：提取分段序号。约束限制：不涉及。取值范围：范围1~100，提取序号大于可提取分段数量时字段内容为空串。默认取值：不涉及。
contain_separator	是	Boolean	参数解释：提取分段是否包含分隔符。约束限制：不涉及。取值范围： true或false。默认取值：不涉及。

**表17** HeadAndTailExtractionTemplate
参数	是否必选	参数类型	描述
start_with	是	String	参数解释：提取分段开头。约束限制：不涉及。取值范围：长度1~20，除\n外，不允许包含以下字符 ./$^?+，且不允许为<!I@M#A%G&E!>、<!T@A#B%L&E!>。默认取值：* 不涉及。
contain_start	是	Boolean	参数解释：提取分段是否包含开头。约束限制：不涉及。取值范围： true或false。默认取值：不涉及。
end_with	是	String	参数解释：提取分段结尾。约束限制：不涉及。取值范围：长度1~20，除\n外，不允许包含以下字符 ./$^?+，且不允许为<!I@M#A%G&E!>、<!T@A#B%L&E!>。默认取值：* 不涉及。
contain_end	是	Boolean	参数解释：提取分段是否包含结尾。约束限制：不涉及。取值范围： true或false。默认取值：不涉及。
extraction_code	是	Integer	参数解释：提取分段序号。约束限制：不涉及。取值范围：范围1~100，提取序号大于可提取分段数量时字段内容为空串。默认取值：不涉及。

**表18** IndexConfig
参数	是否必选	参数类型	描述
name	是	String	参数解释：索引配置名称。约束限制：不涉及。取值范围：支持中英文、数字、“_”，长度为2~50个字符，以中英文、数字开头。默认取值：不涉及。
description	否	String	参数解释：索引配置描述。约束限制：不涉及。取值范围：不涉及。默认取值：不涉及。
rag_type	否	String	参数解释：知识库RAG类型。约束限制：不涉及。取值范围：可以为空，为空则使用默认值。枚举值：VECTOR_RAG（向量RAG，是一种结合了向量化和大语言模型的RAG技术）、GRAPH_RAG（知识图谱RAG，是一种结合了知识图谱和大语言模型的RAG技术）。默认取值： VECTOR_RAG
vector_model_service_key	是	String	参数解释：向量化模型的service_key。约束限制：不涉及。取值范围：长度1~128，不能为空白字符，如空格。默认取值：不涉及。
long_text_solution	是	String	参数解释：知识数据集切片长文本处理方式。约束限制：不涉及。取值范围：枚举值： TRUNCATE_MODE（如果分片的token长度超过向量化模型的token数，则知识库向量化失败）。 SMART_MODE（如果分片的token长度超过向量化模型的token数，则自动对超长部分进行截断处理）。 DEFAULT_MODE（如果分片的token长度超过向量化模型的token数，则大模型对超长部分进行重写；如果重写后仍然超长，则进入截断模式。此模式较为耗时）。默认取值：不涉及。
index_graph_config	否	Object IndexGraphConfig objects	参数解释：知识图谱相关配置。约束限制：不涉及。取值范围：不涉及。默认取值：不涉及。
retrieval_configs	是	Array of IndexConfigField objects	参数解释：知识库召回配置。约束限制：不涉及。取值范围：不涉及。默认取值：不涉及。

**表19** IndexConfigField
参数	是否必选	参数类型	描述
name	是	String	参数解释：索引字段名称。约束限制：不涉及。取值范围：名称长度1~20，仅可包含字母、数字、下划线，并且以字母开头，不允许为以下名称（大小写不敏感）：“file_name”、“file_id”、“path”、“order”、“document”、“base64”、“chunk”，不能以“ki_”、“ko_”开头。默认取值：不涉及。
category	是	String	参数解释：索引字段类型。约束限制：不涉及。取值范围：枚举值：FULL_CHUNK（完整切片）、CHUNK_FRAGMENT（切片提取片段）。默认取值：不涉及。
vector_retrieval	是	Boolean	参数解释：是否为向量化字段。约束限制：整个索引配置中，必须有且只有一个向量化字段。取值范围： true或false。默认取值：不涉及。
graph_extract	否	Boolean	参数解释：是否为知识图谱抽取字段。约束限制：索引配置适配RAG类型为GRAPH_RAG时有效，整个索引配置中，最多有一个字段为true。取值范围： true或false。默认取值： false。
text_filter	是	Boolean	参数解释：是否为文本过滤字段。约束限制：不涉及。取值范围： true或false。默认取值： false。
retrieval_return	是	Boolean	参数解释：是否为附加返回字段。约束限制：不涉及。取值范围： true或false。默认取值： false。

**表20** IndexGraphConfig
参数	是否必选	参数类型	描述
entity_extract_method	是	String	参数解释：实体抽取方式。约束限制：不涉及。取值范围：枚举值：TRIPLET（三元组抽取）。默认取值：不涉及。
extract_model_service_key	是	String	参数解释：实体抽取模型服务key。约束限制：不涉及。取值范围：长度1~128，不能为空白字符，如空格。默认取值：不涉及。
customize_extract_prompt	是	Boolean	参数解释：是否自定义实体抽取提示语。约束限制：不涉及。取值范围： true或false。默认取值：不涉及。
extract_prompt	否	String	参数解释：用户自定义实体抽取Prompt。约束限制：不涉及。取值范围：不涉及。默认取值：不涉及。

父主题： 附录

上一篇：错误码

相关文档

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

云宝助手提问云社区提问