更新时间:2024-08-27 GMT+08:00
分享

查询文档接口

功能介绍

在当前知识库查询名称为xx的文件。

URI

GET /v1/koosearch/repos/{repo_id}/files

表1 路径参数

参数

是否必选

参数类型

描述

repo_id

String

知识库ID,1~64个字符,只能包含数字、字母、中划线和下划线。

获取方式:

账号登录KooSearch体验平台,在左侧导航栏选择:"知识库管理" ,在此界面获取"知识库ID"字段的值,表示该知识库在向量数据库中存储的ID,具有唯一性

最小长度:1

最大长度:64

表2 Query参数

参数

是否必选

参数类型

描述

file_name

String

文件名

最小长度:1

最大长度:1024

page_num

Integer

请求页码

最小值:1

最大值:65535

缺省值:1

page_size

Integer

请求限定响应结果的分页大小,例如5条/页,10条/页

最小值:1

最大值:65535

缺省值:10

category

String

文档目录,单值,对应目录树中的叶子节点 建议格式为 叶子节点目录名称(目录ID),如:专利(3166-1)

最小长度:0

最大长度:255

ids

Array

查询文件id列表

最小长度:1

最大长度:64

数组长度:1 - 65535

请求参数

表3 请求Header参数

参数

是否必选

参数类型

描述

X-Auth-Token

String

接口鉴权使用的Token,Token获取方式参考:获取IAM用户Token

最小长度:1

最大长度:1000000

响应参数

状态码: 200

表4 响应Body参数

参数

参数类型

描述

total

Integer

返回的文档总数

最小值:1

最大值:65535

page_num

Integer

页码

最小值:1

最大值:65535

page_size

Integer

每页数量

最小值:1

最大值:65535

files

Array of FileInfo objects

文件列表

数组长度:0 - 65535

表5 FileInfo

参数

参数类型

描述

id

String

文件ID

最小长度:1

最大长度:64

task_id

String

任务id

最小长度:0

最大长度:64

name

String

文件名

最小长度:1

最大长度:255

repo_id

String

知识库id

最小长度:0

最大长度:64

project_id

String

项目id

最小长度:1

最大长度:64

application_id

String

应用id

最小长度:1

最大长度:64

status

String

文件状态

  • SUCCESS 执行成功

  • ERROR 执行失败

  • PENDING 初始状态,未处理

  • RUNNING 执行中

  • IMPORT_EXCEPTION 导入异常

  • FILE_ENCODING_ERROR 编码错误

最小长度:0

最大长度:64

枚举值:

  • SUCCESS

  • ERROR

  • PENDING

  • RUNNING

  • IMPORT_EXCEPTION

  • FILE_ENCODING_ERROR

type

String

文件类型

最小长度:1

最大长度:64

size

Long

文件大小(bytes)

最小值:1

最大值:99999999

category

String

文档目录,单值,对应目录树中的叶子节点。 建议格式为 叶子节点目录名称(目录 ID),如:专利(3166-1)。

最小长度:0

最大长度:255

create_user

String

创建者,指上传文件的用户,可能不存在该键值

最小长度:1

最大长度:64

create_time

String

创建时间,指上传文件的时间,例如:1692848139119

最小长度:1

最大长度:13

update_time

String

更新时间,可能不存在该键值

最小长度:1

最大长度:13

file_path

String

文件地址,可能不存在该键值

最小长度:0

最大长度:65535

upload_desc

String

上传说明,可能不存在该键值

最小长度:0

最大长度:65535

file_extract_conf

FileExtractConf object

文件抽取配置项

tags

Array of strings

文档标签,可以使用标签对文档进行自动分组,用于筛选过滤。

注意事项: 1.建议不区分大小写,例如, Approved and approved 是同一个标签 2.文档可以有一个或多个标签 3.建议格式为:标签名称:标签值 ,如果能够保证标签值不冲突,也可以直接使用 标签值,例如

《冰箱使用说明书》对应的产品型号:ProductModel:BCD-551WLCTDAFA5U1 《一句顶一万句》的作者是:刘震云 《外观设计专利交底书模板》 的专业领域是:法务领域

最小长度:1

最大长度:255

数组长度:0 - 250

fail_count

Integer

上传失败的数据条数

最小值:0

最大值:65535

fail_records_expire_time

String

上传失败的时间戳

最小长度:1

最大长度:13

表6 FileExtractConf

参数

参数类型

描述

parse_conf

ParseConf object

文档解析配置,包含是否使用OCR增强、是否解析图片、解析图片是否需要提取文字、是否解析页眉页脚、是否解析目录页

split_conf

SplitConf object

拆分配置,包括分段方式设置、层级解析模式设置、标题层级深度设置、标题保存方式设置、分段长度配置、标题匹配pattern配置等

id

String

文档解析ID

最小长度:0

最大长度:64

表7 ParseConf

参数

参数类型

描述

ocr_enabled

Boolean

ocr增强

缺省值:false

image_enabled

Boolean

图片解析

缺省值:false

header_footer_enabled

Boolean

解析页眉页脚

缺省值:false

catalog_enabled

Boolean

解析目录页

缺省值:false

image_conf

String

图片解析开启后(TEXT 提取图片文本、IMAGE 保留原图)

缺省值:TEXT

枚举值:

  • TEXT

  • IMAGE

表8 SplitConf

参数

参数类型

描述

split_mode

String

分段设置/层级解析模型

  • LENGTH-长度拆分,即为字数拆分

  • CATALOG-层级分段下的自动解析

  • RULE- 层级分段下的规则解析

  • AUTO- 自动拆分,自动识别文档格式匹配适合的拆分解析方式

缺省值:AUTO

枚举值:

  • LENGTH

  • CATALOG

  • RULE

  • AUTO

separator_ids

Array of strings

分段标识符ID列表

文件解析分类

default.separator.list[0].id=space_en default.separator.list[0].separator=\u0020 default.separator.list[0].locale=en

default.separator.list[1].id=period_zh default.separator.list[1].separator=。 default.separator.list[1].locale=zh

default.separator.list[2].id=period_en default.separator.list[2].separator=. default.separator.list[2].locale=en

default.separator.list[3].id=exclamation_mark_zh default.separator.list[3].separator=! default.separator.list[3].locale=zh

default.separator.list[4].id=exclamation_mark_en default.separator.list[4].separator=! default.separator.list[4].locale=en

default.separator.list[5].id=question_mark_zh default.separator.list[5].separator=? default.separator.list[5].locale=zh

default.separator.list[6].id=question_mark_en default.separator.list[6].separator=? default.separator.list[6].locale=en

default.separator.list[7].id=comma_zh default.separator.list[7].separator=, default.separator.list[7].locale=zh

default.separator.list[8].id=comma_en default.separator.list[8].separator=, default.separator.list[8].locale=en

最小长度:1

最大长度:128

数组长度:1 - 100

rule_regex_id

String

用户定义解析规则ID

最小长度:1

最大长度:256

chunk_size

Integer

分段预计长度

最小值:0

最大值:6000

缺省值:500

title_level

Integer

标题层级深度

最小值:1

最大值:10

缺省值:3

combine_title

Boolean

false 保留最后一级 true 保存多标题组合

缺省值:false

merge_titles

Boolean

是否跨标题合并,不同标题段落文字较少时,会自动合并到指定的分段长度,有助于生成更全面的结果

状态码: 400

表9 响应Body参数

参数

参数类型

描述

error_code

String

错误码

最小长度:8

最大长度:36

error_msg

String

错误描述

最小长度:2

最大长度:512

状态码: 500

表10 响应Body参数

参数

参数类型

描述

error_code

String

错误码

最小长度:8

最大长度:36

error_msg

String

错误描述

最小长度:2

最大长度:512

请求示例

响应示例

状态码

状态码

描述

200

文档列表响应体

400

请求体参数错误

500

内部异常

错误码

请参见错误码

相关文档