文档首页/ 应用平台 AppStage/ API参考/ 附录/ 知识数据集请求参数说明
更新时间:2024-12-09 GMT+08:00
分享

知识数据集请求参数说明

CreateKnowledgeDataSetReq

创建知识数据集的data_set参数具有特定结构,需要按照以下实体进行构造后转成json。

表1 请求Body参数

参数

是否必选

参数类型

描述

name

String

数据集名称,支持中英文、数字、下划线(_),2-50个字符,以中英文、数字开头。

description

String

数据集描述。

tags

Array of strings

数据集标签,传入标签值取值:

登录AI原生应用引擎,在左侧导航栏选择“资产中心”,选择“数据集”页签,在筛选栏下查看标签值。

data_type

String

数据集类型,枚举值:TEXT(文档)、IMAGE_TO_TEXT(图片摘要)、VIDEO_TO_TEXT(视频摘要)、IMAGE(图片)。

preprocess_config

PreprocessConfig object

数据集预处理配置,data_type为IMAGE时不传。

ingestion_config

IngestionConfig object

数据集数据接入配置。

chunk_config

ChunkConfig object

数据集切分配置,data_type不为TEXT不传。

schedule_config

ScheduleConfig object

调度配置。

extraction_config

ExtractionConfig object

切片提取配置。

index_config

IndexConfig object

知识数据集索引配置,创建知识库需要索引,若需创建知识库则需传入。

表2 PreprocessConfig

参数

是否必选

参数类型

描述

cleaning_methods

Array of strings

数据集清洗方法,枚举值:URL_AND_EMAIL(删除所有的URL和电子邮件地址)、CONTINUOUS_SYMBOL(清除连续的空格,换行符和制表符)、INVISIBLE(清除不可见字符)、WHITESPACE(规范化空格)、GARBLE(清除乱码)、WEB_SYMBOL(清除网页标识符)、EMOJI(清除表情)。

pdf_preprocess_type

String

数据集pdf文件预处理类型,仅data_type为TEXT时支持传入:枚举值:EXTRACT_RICH_MEDIA(提取富媒体,如表、图)、NO_PREPROCESS(不做处理)。

rich_media_intelligent_match

String

数据集pdf预处理后,富媒体提取类型,仅data_type为TEXT时支持传入,枚举值:SMART_MATCH_IMAGE_TABLE(智能提取,仅预处理为EXTRACT_RICH_MEDIA支持)、NO_MATCH(不提取)。

表3 IngestionConfig

参数

是否必选

参数类型

描述

data_source

String

数据来源,枚举值:FILE_UPLOAD(文件上传)、OBS_INGESTION(OBS接入),选择文件上传则不传obs_ingestion,否则需传入。

obs_ingestion

ObsIngestion object

OBS接入配置。

file_types

Array of strings

数据集支持的文件类型,枚举值:PDF、TXT、CSV、XLSX、DOCX、PPTX、HTML、JSON、XML、JPG、JPEG、PNG、MP4、WEBM。

summary_configs

Array of SummaryConfig objects

摘要类型数据集摘要配置,在data_type为IMAGE_TO_TXT或VIDEO_TO_TEXT时需传入,其它类型则不传。

表4 ObsIngestion

参数

是否必选

参数类型

描述

obs_bucket_name

String

OBS桶名。

obs_input_directory

String

OBS接入目录。

表5 SummaryConfig

参数

是否必选

参数类型

描述

file_name

String

文件名。

summary

String

摘要,最小长度1,最大长度600。

表6 ChunkConfig

参数

是否必选

参数类型

描述

slicing_configs

Map<String,SlicingConfig>

数据集切分配置列表。

表7 SlicingConfig

参数

是否必选

参数类型

描述

slicing_method

String

数据集切分方法,枚举值:AUTO_SLICING(自动切分)、TITLE(标题切分)、SENTENCE(自定义切分)、JSON(Json切分)、XML(XML切分),除自动切分外,其它类型切分需传入对应切分配置。

sentence_slicing_config

SentenceSlicingConfig object

自动切分配置。

title_slicing_config

TitleSlicingConfig object

标题切分配置。

json_slicing_config

JsonSlicingConfig object

json切分配置。

xml_slicing_config

XmlSlicingConfig object

xml切分配置。

表8 SentenceSlicingConfig

参数

是否必选

参数类型

描述

slicing_strategy

String

文本切分策略,枚举值:RECURSIVE(递归切分)、EQUIVALENT(等价切分)。

spec_symbols

Array of strings

分段分隔符,注:除\n外,不允许包含以下字符:*./$^?+,且不允许为<!I@M#A%G&E!>、<!T@A#B%L&E!>。

chunk_size

Integer

分段长度,注最小值1,最大值500。

chunk_overlap

Integer

分段重叠长度,注最小值0,最大值50。

contain_separator

Boolean

切片是否包含分隔符。

表9 TitleSlicingConfig

参数

是否必选

参数类型

描述

slicing_strategy

String

文本切分策略,枚举值:RECURSIVE(递归切分)、EQUIVALENT(等价切分)。

title_level

String

标题层级深度,枚举值:H1、H2、H3、H4、H5。

title_saved_method

String

标题保存方式,枚举值:COMBINATION(多标题组合)、LAST(最后一级标题)。

spec_symbols

Array of strings

分段分隔符,注:除\n外,不允许包含以下字符:*./$^?+,且不允许为<!I@M#A%G&E!>、<!T@A#B%L&E!>。

chunk_size

Integer

分段长度,最小值1,最大值500。

chunk_overlap

Integer

分段重叠长度,最小值0,最大值50。

contain_separator

Boolean

切片是否包含分隔符。

表10 JsonSlicingConfig

参数

是否必选

参数类型

描述

levels_back

Integer

输出层级,注:最小值0,最大值20。

collapse_length

Integer

递归最小长度,注:最小值0,最大值1000。

表11 XmlSlicingConfig

参数

是否必选

参数类型

描述

tree_level_split

Integer

遍历层级,注:最小值0,最大值20。

表12 ScheduleConfig

参数

是否必选

参数类型

描述

schedule_type

String

调度类型,枚举值:ONCE(一次性调度)、SCHEDULE(周期性调度)注:data_source为FILE_UPLOAD时仅支持ONCE(一次性调度)。

scheduled_task_config

ScheduledTaskConfig object

定时调度配置。

表13 ScheduledTaskConfig

参数

是否必选

参数类型

描述

cycle_type

String

定时任务周期类型,枚举值:DAY。

run_time

String

定时任务执行时间,格式为:HH:mm:ss,如18:30:00。

execute_immediately

Boolean

定时任务是否立即执行一次。

version_refresh_mode

String

版本刷新模式,枚举值:ONE_VERSION(每次执行覆盖原版本)、MULTI_VERSION(每次执行生成新版本)。

表14 ExtractionConfig

参数

是否必选

参数类型

描述

extraction_example

String

切片提取样例。

extraction_mode

String

切片提取模式,枚举:RULE_EXTRACTION(规则提取)、SMART_EXTRACTION(智能提取)。

rule_extraction_configs

Array of RuleExtractionConfig objects

规则提取配置,注:extraction_mode为RULE_EXTRACTION需传入,为SMART_EXTRACTION不传。

表15 RuleExtractionConfig

参数

是否必选

参数类型

描述

field_name

String

提取字段名称,注:添加字段数量不超过10个,其中名称长度不超过20,不允许重复,不允许为以下名称(大小写不敏感):“file_name”、“file_id”、“path”、“order”、“document”、“base64”、“chunk”,不能以“ki_”、“ko_”开头,仅可包含字母、数字、下划线,并且以字母开头。

extraction_rule

String

提取规则,枚举:SEPARATOR(分隔符提取)、TEMPLATE(模板提取)。

separator_extraction

SeparatorExtractionConfig object

分隔符提取。

template_extraction

HeadAndTailExtractionTemplate object

首尾匹配提取模板。

表16 SeparatorExtractionConfig

参数

是否必选

参数类型

描述

separator

String

分隔符,注:除\n外,不允许包含以下字符:*./$^?+,且不允许为<!I@M#A%G&E!>、<!T@A#B%L&E!>。

extraction_code

Integer

提取分段序号,注:最小值为1,最大值100,提取序号大于可提取分段数量时返回空串。

contain_separator

Boolean

提取分段是否包含分隔符。

表17 HeadAndTailExtractionTemplate

参数

是否必选

参数类型

描述

start_with

String

提取分段开头,注:除\n外,不允许包含以下字符:*./$^?+,且不允许为<!I@M#A%G&E!>、<!T@A#B%L&E!>。

contain_start

Boolean

提取分段是否包含开头。

end_with

String

提取分段结尾,注:除\n外,不允许包含以下字符:*./$^?+,且不允许为<!I@M#A%G&E!>、<!T@A#B%L&E!>。

contain_end

Boolean

提取分段是否包含结尾。

extraction_code

Integer

提取分段序号,注:最小值为1,最大值100,提取序号大于可提取分段数量时返回空串。

表18 IndexConfig

参数

是否必选

参数类型

描述

name

String

索引配置名称,支持中英文、数字、下划线(_),2-50个字符,以中英文、数字开头。

description

String

索引配置描述。

vector_model_service_key

String

向量化模型service_key。

long_text_solution

String

长文本处理方式,枚举:TRUNCATE_MODE(超长自动截段)、SMART_MODE(通过大模型重写仍超长则截断)、DEFAULT_MODE(超长报错)。

retrieval_configs

Array of IndexConfigField objects

知识库召回配置。

表19 IndexConfigField

参数

是否必选

参数类型

描述

name

String

索引字段名称,注:切片全文需填chunk,category为FULL_CHUNK,其它字段为提取配置中提取字段名称,category为CHUNK_FRAGMENT。

category

String

索引字段类型,枚举:FULL_CHUNK(切片全文)、CHUNK_FRAGMENT(切片提取字段内容)。

vector_retrieval

Boolean

是否为向量化字段,该字段内容是否进行向量化存储,向量化字段唯一。

text_filter

Boolean

是否为文本过滤字段。

retrieval_return

Boolean

是否为召回字段,知识召回时是否召回该字段及其内容。

相关文档