知识数据集请求参数说明
CreateKnowledgeDataSetReq
创建知识数据集的data_set参数具有特定结构,需要按照以下实体进行构造后转成json。
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
name |
是 |
String |
数据集名称,支持中英文、数字、下划线(_),2-50个字符,以中英文、数字开头。 |
description |
否 |
String |
数据集描述。 |
tags |
否 |
Array of strings |
数据集标签,传入标签值取值: 登录AI原生应用引擎,在左侧导航栏选择“资产中心”,选择“数据集”页签,在筛选栏下查看标签值。 |
data_type |
是 |
String |
数据集类型,枚举值:TEXT(文档)、IMAGE_TO_TEXT(图片摘要)、VIDEO_TO_TEXT(视频摘要)、IMAGE(图片)。 |
preprocess_config |
否 |
PreprocessConfig object |
数据集预处理配置,data_type为IMAGE时不传。 |
ingestion_config |
是 |
IngestionConfig object |
数据集数据接入配置。 |
chunk_config |
否 |
ChunkConfig object |
数据集切分配置,data_type不为TEXT不传。 |
schedule_config |
是 |
ScheduleConfig object |
调度配置。 |
extraction_config |
否 |
ExtractionConfig object |
切片提取配置。 |
index_config |
否 |
IndexConfig object |
知识数据集索引配置,创建知识库需要索引,若需创建知识库则需传入。 |
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
cleaning_methods |
否 |
Array of strings |
数据集清洗方法,枚举值:URL_AND_EMAIL(删除所有的URL和电子邮件地址)、CONTINUOUS_SYMBOL(清除连续的空格,换行符和制表符)、INVISIBLE(清除不可见字符)、WHITESPACE(规范化空格)、GARBLE(清除乱码)、WEB_SYMBOL(清除网页标识符)、EMOJI(清除表情)。 |
pdf_preprocess_type |
否 |
String |
数据集pdf文件预处理类型,仅data_type为TEXT时支持传入:枚举值:EXTRACT_RICH_MEDIA(提取富媒体,如表、图)、NO_PREPROCESS(不做处理)。 |
rich_media_intelligent_match |
否 |
String |
数据集pdf预处理后,富媒体提取类型,仅data_type为TEXT时支持传入,枚举值:SMART_MATCH_IMAGE_TABLE(智能提取,仅预处理为EXTRACT_RICH_MEDIA支持)、NO_MATCH(不提取)。 |
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
data_source |
是 |
String |
数据来源,枚举值:FILE_UPLOAD(文件上传)、OBS_INGESTION(OBS接入),选择文件上传则不传obs_ingestion,否则需传入。 |
obs_ingestion |
否 |
ObsIngestion object |
OBS接入配置。 |
file_types |
是 |
Array of strings |
数据集支持的文件类型,枚举值:PDF、TXT、CSV、XLSX、DOCX、PPTX、HTML、JSON、XML、JPG、JPEG、PNG、MP4、WEBM。 |
summary_configs |
否 |
Array of SummaryConfig objects |
摘要类型数据集摘要配置,在data_type为IMAGE_TO_TXT或VIDEO_TO_TEXT时需传入,其它类型则不传。 |
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
obs_bucket_name |
是 |
String |
OBS桶名。 |
obs_input_directory |
是 |
String |
OBS接入目录。 |
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
slicing_method |
是 |
String |
数据集切分方法,枚举值:AUTO_SLICING(自动切分)、TITLE(标题切分)、SENTENCE(自定义切分)、JSON(Json切分)、XML(XML切分),除自动切分外,其它类型切分需传入对应切分配置。 |
sentence_slicing_config |
否 |
SentenceSlicingConfig object |
自动切分配置。 |
title_slicing_config |
否 |
TitleSlicingConfig object |
标题切分配置。 |
json_slicing_config |
否 |
JsonSlicingConfig object |
json切分配置。 |
xml_slicing_config |
否 |
XmlSlicingConfig object |
xml切分配置。 |
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
slicing_strategy |
是 |
String |
文本切分策略,枚举值:RECURSIVE(递归切分)、EQUIVALENT(等价切分)。 |
spec_symbols |
是 |
Array of strings |
分段分隔符,注:除\n外,不允许包含以下字符:*./$^?+,且不允许为<!I@M#A%G&E!>、<!T@A#B%L&E!>。 |
chunk_size |
是 |
Integer |
分段长度,注最小值1,最大值500。 |
chunk_overlap |
是 |
Integer |
分段重叠长度,注最小值0,最大值50。 |
contain_separator |
是 |
Boolean |
切片是否包含分隔符。 |
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
slicing_strategy |
是 |
String |
文本切分策略,枚举值:RECURSIVE(递归切分)、EQUIVALENT(等价切分)。 |
title_level |
是 |
String |
标题层级深度,枚举值:H1、H2、H3、H4、H5。 |
title_saved_method |
是 |
String |
标题保存方式,枚举值:COMBINATION(多标题组合)、LAST(最后一级标题)。 |
spec_symbols |
是 |
Array of strings |
分段分隔符,注:除\n外,不允许包含以下字符:*./$^?+,且不允许为<!I@M#A%G&E!>、<!T@A#B%L&E!>。 |
chunk_size |
是 |
Integer |
分段长度,最小值1,最大值500。 |
chunk_overlap |
是 |
Integer |
分段重叠长度,最小值0,最大值50。 |
contain_separator |
是 |
Boolean |
切片是否包含分隔符。 |
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
levels_back |
是 |
Integer |
输出层级,注:最小值0,最大值20。 |
collapse_length |
是 |
Integer |
递归最小长度,注:最小值0,最大值1000。 |
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
schedule_type |
是 |
String |
调度类型,枚举值:ONCE(一次性调度)、SCHEDULE(周期性调度)注:data_source为FILE_UPLOAD时仅支持ONCE(一次性调度)。 |
scheduled_task_config |
否 |
ScheduledTaskConfig object |
定时调度配置。 |
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
cycle_type |
是 |
String |
定时任务周期类型,枚举值:DAY。 |
run_time |
是 |
String |
定时任务执行时间,格式为:HH:mm:ss,如18:30:00。 |
execute_immediately |
是 |
Boolean |
定时任务是否立即执行一次。 |
version_refresh_mode |
是 |
String |
版本刷新模式,枚举值:ONE_VERSION(每次执行覆盖原版本)、MULTI_VERSION(每次执行生成新版本)。 |
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
extraction_example |
否 |
String |
切片提取样例。 |
extraction_mode |
是 |
String |
切片提取模式,枚举:RULE_EXTRACTION(规则提取)、SMART_EXTRACTION(智能提取)。 |
rule_extraction_configs |
否 |
Array of RuleExtractionConfig objects |
规则提取配置,注:extraction_mode为RULE_EXTRACTION需传入,为SMART_EXTRACTION不传。 |
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
field_name |
是 |
String |
提取字段名称,注:添加字段数量不超过10个,其中名称长度不超过20,不允许重复,不允许为以下名称(大小写不敏感):“file_name”、“file_id”、“path”、“order”、“document”、“base64”、“chunk”,不能以“ki_”、“ko_”开头,仅可包含字母、数字、下划线,并且以字母开头。 |
extraction_rule |
是 |
String |
提取规则,枚举:SEPARATOR(分隔符提取)、TEMPLATE(模板提取)。 |
separator_extraction |
是 |
SeparatorExtractionConfig object |
分隔符提取。 |
template_extraction |
是 |
首尾匹配提取模板。 |
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
separator |
是 |
String |
分隔符,注:除\n外,不允许包含以下字符:*./$^?+,且不允许为<!I@M#A%G&E!>、<!T@A#B%L&E!>。 |
extraction_code |
是 |
Integer |
提取分段序号,注:最小值为1,最大值100,提取序号大于可提取分段数量时返回空串。 |
contain_separator |
是 |
Boolean |
提取分段是否包含分隔符。 |
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
start_with |
是 |
String |
提取分段开头,注:除\n外,不允许包含以下字符:*./$^?+,且不允许为<!I@M#A%G&E!>、<!T@A#B%L&E!>。 |
contain_start |
是 |
Boolean |
提取分段是否包含开头。 |
end_with |
是 |
String |
提取分段结尾,注:除\n外,不允许包含以下字符:*./$^?+,且不允许为<!I@M#A%G&E!>、<!T@A#B%L&E!>。 |
contain_end |
是 |
Boolean |
提取分段是否包含结尾。 |
extraction_code |
是 |
Integer |
提取分段序号,注:最小值为1,最大值100,提取序号大于可提取分段数量时返回空串。 |
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
name |
是 |
String |
索引配置名称,支持中英文、数字、下划线(_),2-50个字符,以中英文、数字开头。 |
description |
否 |
String |
索引配置描述。 |
vector_model_service_key |
是 |
String |
向量化模型service_key。 |
long_text_solution |
是 |
String |
长文本处理方式,枚举:TRUNCATE_MODE(超长自动截段)、SMART_MODE(通过大模型重写仍超长则截断)、DEFAULT_MODE(超长报错)。 |
retrieval_configs |
是 |
Array of IndexConfigField objects |
知识库召回配置。 |
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
name |
是 |
String |
索引字段名称,注:切片全文需填chunk,category为FULL_CHUNK,其它字段为提取配置中提取字段名称,category为CHUNK_FRAGMENT。 |
category |
是 |
String |
索引字段类型,枚举:FULL_CHUNK(切片全文)、CHUNK_FRAGMENT(切片提取字段内容)。 |
vector_retrieval |
是 |
Boolean |
是否为向量化字段,该字段内容是否进行向量化存储,向量化字段唯一。 |
text_filter |
是 |
Boolean |
是否为文本过滤字段。 |
retrieval_return |
是 |
Boolean |
是否为召回字段,知识召回时是否召回该字段及其内容。 |