查询知识数据集列表(Token认证)
功能介绍
该接口用于查询知识数据集列表。
调用方法
请参见如何调用API。
URI
GET https://aiae.appstage.myhuaweicloud.com/v1/unidata/knowledge-base-datasets
|
参数 |
是否必选 |
参数类型 |
描述 |
|---|---|---|---|
|
category |
否 |
String |
参数解释: 数据集范围类型。 约束限制: 不涉及。 取值范围: 枚举值:
默认取值: 不涉及。 |
|
offset |
否 |
Integer |
参数解释: 偏移量。 约束限制: 不涉及。 取值范围: 正整数。 默认取值: 0。 |
|
limit |
否 |
Integer |
参数解释: 分页每页的条目数量。 约束限制: 不涉及。 取值范围: 1-100的整数。 默认取值: 10。 |
|
keyword |
否 |
String |
参数解释: 查询关键字。 约束限制: 支持中英文、数字、下划线(_),1-50个字符。 取值范围: 不涉及。 默认取值: 不涉及。 |
|
status |
否 |
Array of strings |
参数解释: 数据集状态。 约束限制: 不涉及。 取值范围: 枚举值:
默认取值: 不涉及。 |
|
data_type |
否 |
String |
参数解释: 数据集类型。 约束限制: 不涉及。 取值范围: 枚举值:
默认取值: 不涉及。 |
|
tags |
否 |
Array of strings |
参数解释: 标签列表。 约束限制: 支持中英文、数字、下划线(_),1-100个字符。 取值范围: 1-100 默认取值: 不涉及。 |
|
schedule_type |
否 |
String |
参数解释: 任务类型。 约束限制: 不涉及。 取值范围: 枚举值:
默认取值: 不涉及。 |
|
schedule_status |
否 |
String |
参数解释: 任务状态。 约束限制: 不涉及。 取值范围: 枚举值:
默认取值: 不涉及。 |
请求参数
|
参数 |
是否必选 |
参数类型 |
描述 |
|---|---|---|---|
|
X-Auth-Token |
是 |
String |
参数解释: 用户Token。通过调用IAM服务获取用户Token接口获取(响应消息头中X-Subject-Token的值)。 约束限制: 不涉及。 取值范围: 不涉及。 默认取值: 不涉及。 |
响应参数
状态码:200
|
参数 |
参数类型 |
描述 |
|---|---|---|
|
data |
知识数据集详情列表。 |
|
参数 |
参数类型 |
描述 |
|---|---|---|
|
total |
Long |
参数解释: 知识库总数。 取值范围: 不涉及。 |
|
list |
Array of KnowledgeDataSet objects |
参数解释: 知识数据集列表。 取值范围: 不涉及。 |
|
pageNum |
Integer |
参数解释: 当前页。 取值范围: 不涉及。 |
|
pageSize |
Integer |
参数解释: 每页的数量。 取值范围: 不涉及。 |
|
size |
Integer |
参数解释: 当前页的数量。 取值范围: 不涉及。 |
|
startRow |
Long |
参数解释: 当前页面第一个元素在数据库中的行号。 取值范围: 不涉及。 |
|
endRow |
Long |
参数解释: 当前页面最后一个元素在数据库中的行号。 取值范围: 不涉及。 |
|
pages |
Integer |
参数解释: 总页数。 取值范围: 不涉及。 |
|
prePage |
Integer |
参数解释: 前一页。 取值范围: 不涉及。 |
|
nextPage |
Integer |
参数解释: 后一页。 取值范围: 不涉及。 |
|
isFirstPage |
Boolean |
参数解释: 是否为第一页。 取值范围: 不涉及。 |
|
isLastPage |
Boolean |
参数解释: 是否为最后一页。 取值范围: 不涉及。 |
|
hasPreviousPage |
Boolean |
参数解释: 是否有前一页。 取值范围: 不涉及。 |
|
hasNextPage |
Boolean |
参数解释: 是否有下一页。 取值范围: 不涉及。 |
|
navigatePages |
Integer |
参数解释: 导航页总数。 取值范围: 不涉及。 |
|
navigatepageNums |
Array of integers |
参数解释: 所有导航页号。 取值范围: 不涉及。 |
|
navigateFirstPage |
Integer |
参数解释: 导航页上一页。 取值范围: 不涉及。 |
|
navigateLastPage |
Integer |
参数解释: 导航页下一页。 取值范围: 不涉及。 |
|
参数 |
参数类型 |
描述 |
|---|---|---|
|
last_updated_date |
String |
参数解释: 最近更新时间。 取值范围: 格式为:yyyy-mm-dd hh:mm:ss,如2024-11-21 11:36:55。 |
|
last_updated_by_user_id |
String |
参数解释: 最近一次更新人ID。 取值范围: 不涉及。 |
|
last_updated_by_user_name |
String |
参数解释: 最近一次更新人名称。 取值范围: 不涉及。 |
|
last_updated_by_nick_name |
String |
参数解释: 最新一次更新人昵称。 取值范围: 不涉及。 |
|
tenant_id |
String |
参数解释: 租户ID。 取值范围: 不涉及。 |
|
tenant_name |
String |
参数解释: 租户名称。 取值范围: 不涉及。 |
|
dept_code |
String |
参数解释: 部门编码。 取值范围: 不涉及。 |
|
created_date |
String |
参数解释: 创建日期。 取值范围: 不涉及。 |
|
created_by_user_id |
String |
参数解释: 创建人ID。 取值范围: 不涉及。 |
|
created_by_user_name |
String |
参数解释: 创建人名称。 取值范围: 不涉及。 |
|
created_by_nick_name |
String |
参数解释: 创建人昵称。 取值范围: 不涉及。 |
|
deleted |
Boolean |
参数解释: 是否删除。 取值范围: 不涉及。 |
|
id |
String |
参数解释: 知识库ID。 取值范围: 不涉及。 |
|
name |
String |
参数解释: 知识库名称。 取值范围: 不涉及。 |
|
description |
String |
参数解释: 知识库描述。 取值范围: 不涉及。 |
|
tags |
Array of strings |
参数解释: 标签列表。 取值范围: 不涉及。 |
|
scope |
String |
参数解释: 知识数据集范围。 取值范围: 枚举值:
|
|
data_type |
String |
参数解释: 数据集类型。 取值范围: 枚举值:
|
|
preprocess_config |
PreprocessConfig object |
参数解释: 数据集预处理配置。 约束限制: data_type为IMAGE时不传。 取值范围: 不涉及。 |
|
ingestion_config |
IngestionConfig object |
参数解释: 数据集数据接入配置。 取值范围: 不涉及。 |
|
chunk_config |
ChunkConfig object |
参数解释: 数据集切分配置。 取值范围: data_type不为TEXT不传。 |
|
schedule_config |
ScheduleConfig object |
参数解释: 调度配置。 取值范围: 不涉及。 |
|
extraction_config |
ExtractionConfig object |
参数解释: 切片提取配置。 取值范围: 不涉及。 |
|
schedule_status |
String |
参数解释: 调度状态。 取值范围: 不涉及 |
|
status |
String |
参数解释: 数据集状态。 取值范围:
|
|
参数 |
参数类型 |
描述 |
|---|---|---|
|
cleaning_methods |
Array of strings |
参数解释: 数据集清洗方法。 约束限制: 不涉及。 取值范围: 枚举值:
默认取值: 不涉及。 |
|
pdf_preprocess_type |
String |
参数解释: 数据集pdf文件预处理类型。 约束限制: 仅data_type为TEXT时支持传入。 取值范围: 枚举值:
默认取值: 不涉及。 |
|
rich_media_intelligent_match |
String |
参数解释: 数据集pdf预处理后,富媒体提取类型。 约束限制: 仅data_type为TEXT时支持传入。 取值范围: 枚举值:
默认取值: 不涉及。 |
|
参数 |
参数类型 |
描述 |
|---|---|---|
|
data_source |
String |
参数解释: 数据来源。 约束限制: 不涉及。 取值范围: 枚举值:
默认取值: 不涉及。 |
|
obs_ingestion |
ObsIngestion object |
参数解释: OBS接入配置。 取值范围: 不涉及 |
|
file_types |
Array of strings |
参数解释: 数据集支持的文件类型。 约束限制: 不涉及。 取值范围: PDF、TXT、CSV、XLSX、DOCX、PPTX、HTML、JSON、XML、JPG、JPEG、PNG、MP4、WEBM。 默认取值: 不涉及。 |
|
summary_configs |
Array of SummaryConfig objects |
参数解释: 摘要类型数据集摘要配置。 约束限制: 在data_type为IMAGE_TO_TXT或VIDEO_TO_TEXT时需传入,其它类型则不传。 取值范围: 不涉及。 默认取值: 不涉及。 |
|
参数 |
参数类型 |
描述 |
|---|---|---|
|
obs_bucket_name |
String |
参数解释: OBS桶名。 约束限制: 不涉及。 取值范围: 长度[3, 63]。 默认取值: 不涉及。 |
|
obs_input_directory |
String |
参数解释: OBS接入目录路径。 约束限制: 不涉及。 取值范围: OBS接入路径与目录下文件名组合成的路径,最长不超过200。 默认取值: 不涉及。 |
|
参数 |
参数类型 |
描述 |
|---|---|---|
|
file_name |
String |
参数解释: 文件名。 约束限制: 需与上传文件名称一致。 取值范围: 不涉及。 默认取值: 不涉及。 |
|
summary |
String |
参数解释: 摘要。 约束限制: 不涉及。 取值范围: 长度[1, 600]。 默认取值: 不涉及。 |
|
参数 |
参数类型 |
描述 |
|---|---|---|
|
slicing_configs |
Map<String,SlicingConfig> |
参数解释: 数据集切分配置列表。 约束限制: 切分配置数量需要与文件类型数量保持一致。 取值范围: 范围[1, 30]。 默认取值: 不涉及。 |
|
参数 |
参数类型 |
描述 |
|---|---|---|
|
slicing_method |
String |
参数解释: 数据集切分方法。 约束限制: 不涉及。 取值范围: 枚举值:
除自动切分外,其它类型切分需传入对应切分配置。 默认取值: 不涉及。 |
|
sentence_slicing_config |
SentenceSlicingConfig object |
参数解释: 自定义切分配置。 取值范围: 不涉及。 |
|
title_slicing_config |
TitleSlicingConfig object |
参数解释: 标题切分配置。 取值范围: 不涉及。 |
|
json_slicing_config |
JsonSlicingConfig object |
参数解释: JSON切分配置。 取值范围: 不涉及。 |
|
xml_slicing_config |
XmlSlicingConfig object |
参数解释: XML切分配置。 取值范围: 不涉及。 |
|
参数 |
参数类型 |
描述 |
|---|---|---|
|
slicing_strategy |
String |
参数解释: 文本切分策略。 约束限制: 不涉及。 取值范围: 枚举值:
默认取值: 不涉及。 |
|
spec_symbols |
Array of strings |
参数解释: 分段分隔符。 约束限制: 不涉及。 取值范围: 长度[1,20],除\n外,不允许包含以下字符 *./$^?+ 且不允许为<!I@M#A%G&E!>、<!T@A#B%L&E!>。 默认取值: 不涉及。 |
|
chunk_size |
Integer |
参数解释: 分段长度。 约束限制: 不涉及。 取值范围: 取值[1, 500]。 默认取值: 不涉及。 |
|
chunk_overlap |
Integer |
参数解释: 分段重叠长度。 约束限制: 不涉及。 取值范围: 取值[0, 50]。 默认取值: 不涉及。 |
|
contain_separator |
Boolean |
参数解释: 切片是否包含分隔符。 约束限制: 不涉及。 取值范围: true或false。 默认取值: 不涉及。 |
|
参数 |
参数类型 |
描述 |
|---|---|---|
|
slicing_strategy |
String |
参数解释: 文本切分策略。 约束限制: 不涉及。 取值范围: 枚举值:
默认取值: 不涉及。 |
|
title_level |
String |
参数解释: 标题层级深度。 约束限制: 不涉及。 取值范围: H1、H2、H3、H4、H5。 默认取值: 不涉及。 |
|
title_saved_method |
String |
参数解释: 标题保存方式。 约束限制: 不涉及。 取值范围: 枚举值:
默认取值: 不涉及。 |
|
spec_symbols |
Array of strings |
参数解释: 分段分隔符。 约束限制: 不涉及。 取值范围: 长度[1,20],除\n外,不允许包含以下字符 *./$^?+ 且不允许为<!I@M#A%G&E!>、<!T@A#B%L&E!>。 默认取值: 不涉及。 |
|
chunk_size |
Integer |
参数解释: 分段长度。 约束限制: 不涉及。 取值范围: 取值[1,500]。 默认取值: 不涉及。 |
|
chunk_overlap |
Integer |
参数解释: 分段重叠长度。 约束限制: 不涉及。 取值范围: 取值[0,50]。 默认取值: 不涉及。 |
|
contain_separator |
Boolean |
参数解释: 切片是否包含分隔符。 约束限制: 不涉及。 取值范围: true或false。 默认取值: 不涉及。 |
|
参数 |
参数类型 |
描述 |
|---|---|---|
|
levels_back |
Integer |
参数解释: 输出层级。 约束限制: 不涉及。 取值范围: 取值[0,20]。 默认取值: 不涉及。 |
|
collapse_length |
Integer |
参数解释: 递归最小长度。 约束限制: 不涉及。 取值范围: 取值[0,1000]。 默认取值: 不涉及。 |
|
参数 |
参数类型 |
描述 |
|---|---|---|
|
tree_level_split |
Integer |
参数解释: 遍历层级。 约束限制: 不涉及。 取值范围: 取值[0,20]。 默认取值: 不涉及。 |
|
参数 |
参数类型 |
描述 |
|---|---|---|
|
schedule_type |
String |
参数解释: 调度类型。 约束限制: data_source为FILE_UPLOAD时仅支持ONCE。 取值范围: 枚举值:
默认取值: 不涉及。 |
|
scheduled_task_config |
ScheduledTaskConfig object |
参数解释: 调度任务配置。 取值范围: 不涉及。 |
|
参数 |
参数类型 |
描述 |
|---|---|---|
|
cycle_type |
String |
参数解释: 定时任务周期类型。 约束限制: 不涉及。 取值范围: 枚举值:
默认取值: 不涉及。 |
|
run_time |
String |
参数解释: 定时任务执行时间。 约束限制: 不涉及。 取值范围: 格式为:HH:mm:ss,如18:30:00。 默认取值: 不涉及。 |
|
week_day |
String |
参数解释: 定时任务的星期。 约束限制: 不涉及。 取值范围: 枚举值:
默认取值: 不涉及。 |
|
execute_immediately |
Boolean |
参数解释: 定时任务是否立即执行一次。 约束限制: 不涉及。 取值范围: true或false。 默认取值: 不涉及。 |
|
version_refresh_mode |
String |
参数解释: 版本刷新模式。 约束限制: 不涉及。 取值范围: 枚举值:
默认取值: 不涉及。 |
|
参数 |
参数类型 |
描述 |
|---|---|---|
|
extraction_example |
String |
参数解释: 切片提取样例。 约束限制: 不涉及。 取值范围: 不涉及。 默认取值: 不涉及。 |
|
extraction_mode |
String |
参数解释: 切片提取模式。 约束限制: 不涉及。 取值范围: 枚举:
默认取值: 不涉及。 |
|
rule_extraction_configs |
Array of RuleExtractionConfig objects |
参数解释: 规则提取配置列表。 约束限制: extraction_mode为RULE_EXTRACTION需传入,为SMART_EXTRACTION不传。 取值范围: 规则提取配置数量不超过10个,提取字段名称长度[1,20],不允许重复。 默认取值: 不涉及。 |
|
参数 |
参数类型 |
描述 |
|---|---|---|
|
field_name |
String |
参数解释: 提取字段名称。 约束限制: 不涉及。 取值范围: 字段数量不超过10个,其中名称长度[1,20],不允许重复,仅可包含字母数字下划线,并且以字母开头; 不允许为以下名称(大小写不敏感)【"file_name", "file_id", "path", "order", "document", "base64","chunk",不能以ki_、ko_开头】。 默认取值: 不涉及。 |
|
extraction_rule |
String |
参数解释: 提取规则。 约束限制: 不涉及。 取值范围: 枚举值:
默认取值: 不涉及。 |
|
separator_extraction |
SeparatorExtractionConfig object |
参数解释: 分隔符提取配置。 取值范围: 不涉及。 |
|
template_extraction |
参数解释: 模板提取配置。 取值范围: 不涉及。 |
|
参数 |
参数类型 |
描述 |
|---|---|---|
|
separator |
String |
参数解释: 分隔符。 约束限制: 不涉及。 取值范围: 长度[1,20],除\n外,不允许包含以下字符 *./$^?+ 且不允许为<!I@M#A%G&E!>、<!T@A#B%L&E!>。 默认取值: 不涉及。 |
|
extraction_code |
Integer |
参数解释: 提取分段序号。 约束限制: 不涉及。 取值范围: 范围[1,100],提取序号大于可提取分段数量时字段内容为空串。 默认取值: 不涉及。 |
|
contain_separator |
Boolean |
参数解释: 提取分段是否包含分隔符。 约束限制: 不涉及。 取值范围: true或false。 默认取值: 不涉及。 |
|
参数 |
参数类型 |
描述 |
|---|---|---|
|
start_with |
String |
参数解释: 提取分段开头。 约束限制: 不涉及。 取值范围: 长度[1,20],除\n外,不允许包含以下字符 *./$^?+ 且不允许为<!I@M#A%G&E!>、<!T@A#B%L&E!>。 默认取值: 不涉及。 |
|
contain_start |
Boolean |
参数解释: 提取分段是否包含开头。 约束限制: 不涉及。 取值范围: true或false。 默认取值: 不涉及。 |
|
end_with |
String |
参数解释: 提取分段结尾。 约束限制: 不涉及。 取值范围: 长度[1,20],除\n外,不允许包含以下字符 *./$^?+ 且不允许为<!I@M#A%G&E!>、<!T@A#B%L&E!>。 默认取值: 不涉及。 |
|
contain_end |
Boolean |
参数解释: 提取分段是否包含结尾。 约束限制: 不涉及。 取值范围: true或false。 默认取值: 不涉及。 |
|
extraction_code |
Integer |
参数解释: 提取分段序号。 约束限制: 不涉及。 取值范围: 范围[1,100],提取序号大于可提取分段数量时字段内容为空串。 默认取值: 不涉及。 |
状态码:400
|
参数 |
参数类型 |
描述 |
|---|---|---|
|
error_code |
String |
参数解释: 异常错误码。 取值范围: 不涉及。 |
|
error_msg |
String |
参数解释: 异常错误信息。 取值范围: 不涉及。 |
请求示例
无
响应示例
状态码:200
查询知识数据集成功响应参数。
{
"data" : {
"total" : 1,
"list" : [ {
"last_updated_date" : "2025-07-21T01:22:00.000+00:00",
"last_updated_by_user_id" : "f0e1c67f3ee445cb938fb86bfbdf2255",
"last_updated_by_user_name" : "developer",
"last_updated_by_nick_name" : "developer",
"tenant_id" : "1015192394",
"tenant_name" : "developer",
"dept_code" : "1015192394",
"created_date" : "2025-07-21T01:22:00.000+00:00",
"created_by_user_id" : "f0e1c67f3ee445cb938fb86bfbdf2255",
"created_by_user_name" : "developer",
"created_by_nick_name" : "developer",
"deleted" : false,
"id" : "83be02f0-0b99-419b-81e4-83a9c0676a0c",
"name" : "测试0716_003",
"description" : "测试",
"tags" : [ ],
"scope" : "PRIVATE",
"data_type" : "TEXT",
"company_id" : null,
"preprocess_config" : {
"cleaning_methods" : [ "normalizeWhitespace" ],
"pdf_preprocess_type" : "NO_PREPROCESS",
"rich_media_intelligent_match" : "NO_MATCH"
},
"ingestion_config" : {
"data_source" : "FILE_UPLOAD",
"obs_ingestion" : null,
"file_types" : [ "txt" ],
"summary_configs" : null
},
"chunk_config" : {
"slicing_configs" : {
"txt" : {
"slicing_method" : "autoSlicing"
}
}
},
"schedule_config" : {
"schedule_type" : "ONCE",
"scheduled_task_config" : {
"cycle_type" : null,
"run_time" : null,
"week_day" : null,
"execute_immediately" : null,
"version_refresh_mode" : null
}
},
"extraction_config" : null,
"schedule_status" : null,
"status" : "NORMAL",
"on_shelf_status" : "OFF_SHELF",
"source_asset_id" : null
} ],
"pageNum" : 0,
"pageSize" : 0,
"size" : 3,
"startRow" : 1,
"endRow" : 3,
"pages" : 0,
"prePage" : 0,
"nextPage" : 0,
"isFirstPage" : false,
"isLastPage" : false,
"hasPreviousPage" : false,
"hasNextPage" : false,
"navigatePages" : 0,
"navigatepageNums" : null,
"navigateFirstPage" : 0,
"navigateLastPage" : 0
}
}
状态码
|
状态码 |
描述 |
|---|---|
|
200 |
查询知识数据集成功响应参数。 |
|
400 |
请求错误。 |
错误码
请参见错误码。