查询文档接口
功能介绍
在当前知识库查询名称为xx的文件。
URI
GET /v1/koosearch/repos/{repo_id}/files
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
repo_id |
是 |
String |
知识库ID,1~64个字符,只能包含数字、字母、中划线和下划线。 获取方式: 账号登录KooSearch体验平台,在左侧导航栏选择:"知识库管理" ,在此界面获取"知识库ID"字段的值,表示该知识库在向量数据库中存储的ID,具有唯一性 最小长度:1 最大长度:64 |
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
file_name |
否 |
String |
文件名 最小长度:1 最大长度:1024 |
page_num |
否 |
Integer |
请求页码 最小值:1 最大值:65535 缺省值:1 |
page_size |
否 |
Integer |
请求限定响应结果的分页大小,例如5条/页,10条/页 最小值:1 最大值:65535 缺省值:10 |
category |
否 |
String |
文档目录,单值,对应目录树中的叶子节点 建议格式为 叶子节点目录名称(目录ID),如:专利(3166-1)。 最小长度:0 最大长度:255 |
ids |
否 |
Array |
查询文件id列表 最小长度:1 最大长度:64 数组长度:1 - 65535 |
请求参数
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
X-Auth-Token |
是 |
String |
接口鉴权使用的Token,Token获取方式参考:获取IAM用户Token 最小长度:1 最大长度:1000000 |
响应参数
状态码: 200
参数 |
参数类型 |
描述 |
---|---|---|
total |
Integer |
返回的文档总数 最小值:1 最大值:65535 |
page_num |
Integer |
页码 最小值:1 最大值:65535 |
page_size |
Integer |
每页数量 最小值:1 最大值:65535 |
files |
Array of FileInfo objects |
文件列表 数组长度:0 - 65535 |
参数 |
参数类型 |
描述 |
---|---|---|
id |
String |
文件ID 最小长度:1 最大长度:64 |
task_id |
String |
任务id 最小长度:0 最大长度:64 |
name |
String |
文件名 最小长度:1 最大长度:255 |
repo_id |
String |
知识库id 最小长度:0 最大长度:64 |
project_id |
String |
项目id 最小长度:1 最大长度:64 |
application_id |
String |
应用id 最小长度:1 最大长度:64 |
status |
String |
文件状态
最小长度:0 最大长度:64 枚举值:
|
type |
String |
文件类型 最小长度:1 最大长度:64 |
size |
Long |
文件大小(bytes) 最小值:1 最大值:99999999 |
category |
String |
文档目录,单值,对应目录树中的叶子节点。 建议格式为 叶子节点目录名称(目录 ID),如:专利(3166-1)。 最小长度:0 最大长度:255 |
create_user |
String |
创建者,指上传文件的用户,可能不存在该键值 最小长度:1 最大长度:64 |
create_time |
String |
创建时间,指上传文件的时间,例如:1692848139119 最小长度:1 最大长度:13 |
update_time |
String |
更新时间,可能不存在该键值 最小长度:1 最大长度:13 |
file_path |
String |
文件地址,可能不存在该键值 最小长度:0 最大长度:65535 |
upload_desc |
String |
上传说明,可能不存在该键值 最小长度:0 最大长度:65535 |
file_extract_conf |
FileExtractConf object |
文件抽取配置项 |
tags |
Array of strings |
文档标签,可以使用标签对文档进行自动分组,用于筛选过滤。 注意事项: 1.建议不区分大小写,例如, Approved and approved 是同一个标签 2.文档可以有一个或多个标签 3.建议格式为:标签名称:标签值 ,如果能够保证标签值不冲突,也可以直接使用 标签值,例如 《冰箱使用说明书》对应的产品型号:ProductModel:BCD-551WLCTDAFA5U1 《一句顶一万句》的作者是:刘震云 《外观设计专利交底书模板》 的专业领域是:法务领域 最小长度:1 最大长度:255 数组长度:0 - 250 |
fail_count |
Integer |
上传失败的数据条数 最小值:0 最大值:65535 |
fail_records_expire_time |
String |
上传失败的时间戳 最小长度:1 最大长度:13 |
参数 |
参数类型 |
描述 |
---|---|---|
parse_conf |
ParseConf object |
文档解析配置,包含是否使用OCR增强、是否解析图片、解析图片是否需要提取文字、是否解析页眉页脚、是否解析目录页 |
split_conf |
SplitConf object |
拆分配置,包括分段方式设置、层级解析模式设置、标题层级深度设置、标题保存方式设置、分段长度配置、标题匹配pattern配置等 |
id |
String |
文档解析ID 最小长度:0 最大长度:64 |
参数 |
参数类型 |
描述 |
---|---|---|
ocr_enabled |
Boolean |
ocr增强 缺省值:false |
image_enabled |
Boolean |
图片解析 缺省值:false |
header_footer_enabled |
Boolean |
解析页眉页脚 缺省值:false |
catalog_enabled |
Boolean |
解析目录页 缺省值:false |
image_conf |
String |
图片解析开启后(TEXT 提取图片文本、IMAGE 保留原图) 缺省值:TEXT 枚举值:
|
参数 |
参数类型 |
描述 |
---|---|---|
split_mode |
String |
分段设置/层级解析模型
缺省值:AUTO 枚举值:
|
separator_ids |
Array of strings |
分段标识符ID列表 文件解析分类 default.separator.list[0].id=space_en default.separator.list[0].separator=\u0020 default.separator.list[0].locale=en default.separator.list[1].id=period_zh default.separator.list[1].separator=。 default.separator.list[1].locale=zh default.separator.list[2].id=period_en default.separator.list[2].separator=. default.separator.list[2].locale=en default.separator.list[3].id=exclamation_mark_zh default.separator.list[3].separator=! default.separator.list[3].locale=zh default.separator.list[4].id=exclamation_mark_en default.separator.list[4].separator=! default.separator.list[4].locale=en default.separator.list[5].id=question_mark_zh default.separator.list[5].separator=? default.separator.list[5].locale=zh default.separator.list[6].id=question_mark_en default.separator.list[6].separator=? default.separator.list[6].locale=en default.separator.list[7].id=comma_zh default.separator.list[7].separator=, default.separator.list[7].locale=zh default.separator.list[8].id=comma_en default.separator.list[8].separator=, default.separator.list[8].locale=en 最小长度:1 最大长度:128 数组长度:1 - 100 |
rule_regex_id |
String |
用户定义解析规则ID 最小长度:1 最大长度:256 |
chunk_size |
Integer |
分段预计长度 最小值:0 最大值:6000 缺省值:500 |
title_level |
Integer |
标题层级深度 最小值:1 最大值:10 缺省值:3 |
combine_title |
Boolean |
false 保留最后一级 true 保存多标题组合 缺省值:false |
merge_titles |
Boolean |
是否跨标题合并,不同标题段落文字较少时,会自动合并到指定的分段长度,有助于生成更全面的结果 |
状态码: 400
参数 |
参数类型 |
描述 |
---|---|---|
error_code |
String |
最小长度:8 最大长度:36 |
error_msg |
String |
错误描述 最小长度:2 最大长度:512 |
状态码: 500
参数 |
参数类型 |
描述 |
---|---|---|
error_code |
String |
最小长度:8 最大长度:36 |
error_msg |
String |
错误描述 最小长度:2 最大长度:512 |
请求示例
无
响应示例
无
状态码
状态码 |
描述 |
---|---|
200 |
文档列表响应体 |
400 |
请求体参数错误 |
500 |
内部异常 |
错误码
请参见错误码。