文档首页/ 华为云Flexus云服务_Flexus企业搜索服务/ API参考/ 文件管理/ 查询文档接口

更新时间：2024-08-27 GMT+08:00

查询文档接口

功能介绍

在当前知识库查询名称为xx的文件。

URI

GET /v1/koosearch/repos/{repo_id}/files

表1 路径参数
参数	是否必选	参数类型	描述
repo_id	是	String	知识库ID，1～64个字符，只能包含数字、字母、中划线和下划线。获取方式：账号登录KooSearch体验平台，在左侧导航栏选择："知识库管理" ，在此界面获取"知识库ID"字段的值，表示该知识库在向量数据库中存储的ID，具有唯一性最小长度：1 最大长度：64

表2 Query参数
参数	是否必选	参数类型	描述
file_name	否	String	文件名最小长度：1 最大长度：1024
page_num	否	Integer	请求页码最小值：1 最大值：65535 缺省值：1
page_size	否	Integer	请求限定响应结果的分页大小，例如5条/页，10条/页最小值：1 最大值：65535 缺省值：10
category	否	String	文档目录，单值，对应目录树中的叶子节点建议格式为叶子节点目录名称（目录ID），如：专利（3166-1）。最小长度：0 最大长度：255
ids	否	Array	查询文件id列表最小长度：1 最大长度：64 数组长度：1 - 65535

请求参数

表3 请求Header参数
参数	是否必选	参数类型	描述
X-Auth-Token	是	String	接口鉴权使用的Token，Token获取方式参考：获取IAM用户Token 最小长度：1 最大长度：1000000

响应参数

状态码： 200

表4 响应Body参数
参数	参数类型	描述
total	Integer	返回的文档总数最小值：1 最大值：65535
page_num	Integer	页码最小值：1 最大值：65535
page_size	Integer	每页数量最小值：1 最大值：65535
files	Array of FileInfo objects	文件列表数组长度：0 - 65535

表5 FileInfo
参数	参数类型	描述
id	String	文件ID 最小长度：1 最大长度：64
task_id	String	任务id 最小长度：0 最大长度：64
name	String	文件名最小长度：1 最大长度：255
repo_id	String	知识库id 最小长度：0 最大长度：64
project_id	String	项目id 最小长度：1 最大长度：64
application_id	String	应用id 最小长度：1 最大长度：64
status	String	文件状态 SUCCESS 执行成功 ERROR 执行失败 PENDING 初始状态,未处理 RUNNING 执行中 IMPORT_EXCEPTION 导入异常 FILE_ENCODING_ERROR 编码错误最小长度：0 最大长度：64 枚举值： SUCCESS ERROR PENDING RUNNING IMPORT_EXCEPTION FILE_ENCODING_ERROR
type	String	文件类型最小长度：1 最大长度：64
size	Long	文件大小（bytes）最小值：1 最大值：99999999
category	String	文档目录，单值，对应目录树中的叶子节点。建议格式为叶子节点目录名称(目录 ID)，如：专利（3166-1）。最小长度：0 最大长度：255
create_user	String	创建者，指上传文件的用户，可能不存在该键值最小长度：1 最大长度：64
create_time	String	创建时间，指上传文件的时间，例如：1692848139119 最小长度：1 最大长度：13
update_time	String	更新时间，可能不存在该键值最小长度：1 最大长度：13
file_path	String	文件地址，可能不存在该键值最小长度：0 最大长度：65535
upload_desc	String	上传说明，可能不存在该键值最小长度：0 最大长度：65535
file_extract_conf	FileExtractConf object	文件抽取配置项
tags	Array of strings	文档标签，可以使用标签对文档进行自动分组，用于筛选过滤。注意事项： 1.建议不区分大小写，例如， Approved and approved 是同一个标签 2.文档可以有一个或多个标签 3.建议格式为：标签名称:标签值，如果能够保证标签值不冲突，也可以直接使用标签值，例如《冰箱使用说明书》对应的产品型号：ProductModel:BCD-551WLCTDAFA5U1 《一句顶一万句》的作者是：刘震云《外观设计专利交底书模板》的专业领域是：法务领域最小长度：1 最大长度：255 数组长度：0 - 250
fail_count	Integer	上传失败的数据条数最小值：0 最大值：65535
fail_records_expire_time	String	上传失败的时间戳最小长度：1 最大长度：13

表6 FileExtractConf
参数	参数类型	描述
parse_conf	ParseConf object	文档解析配置，包含是否使用OCR增强、是否解析图片、解析图片是否需要提取文字、是否解析页眉页脚、是否解析目录页
split_conf	SplitConf object	拆分配置，包括分段方式设置、层级解析模式设置、标题层级深度设置、标题保存方式设置、分段长度配置、标题匹配pattern配置等
id	String	文档解析ID 最小长度：0 最大长度：64

表7 ParseConf
参数	参数类型	描述
ocr_enabled	Boolean	ocr增强缺省值：false
image_enabled	Boolean	图片解析缺省值：false
header_footer_enabled	Boolean	解析页眉页脚缺省值：false
catalog_enabled	Boolean	解析目录页缺省值：false
image_conf	String	图片解析开启后（TEXT 提取图片文本、IMAGE 保留原图）缺省值：TEXT 枚举值： TEXT IMAGE

表8 SplitConf
参数	参数类型	描述
split_mode	String	分段设置/层级解析模型 LENGTH-长度拆分，即为字数拆分 CATALOG-层级分段下的自动解析 RULE- 层级分段下的规则解析 AUTO- 自动拆分，自动识别文档格式匹配适合的拆分解析方式缺省值：AUTO 枚举值： LENGTH CATALOG RULE AUTO
separator_ids	Array of strings	分段标识符ID列表文件解析分类 default.separator.list[0].id=space_en default.separator.list[0].separator=\u0020 default.separator.list[0].locale=en default.separator.list[1].id=period_zh default.separator.list[1].separator=。 default.separator.list[1].locale=zh default.separator.list[2].id=period_en default.separator.list[2].separator=. default.separator.list[2].locale=en default.separator.list[3].id=exclamation_mark_zh default.separator.list[3].separator=！ default.separator.list[3].locale=zh default.separator.list[4].id=exclamation_mark_en default.separator.list[4].separator=! default.separator.list[4].locale=en default.separator.list[5].id=question_mark_zh default.separator.list[5].separator=？ default.separator.list[5].locale=zh default.separator.list[6].id=question_mark_en default.separator.list[6].separator=? default.separator.list[6].locale=en default.separator.list[7].id=comma_zh default.separator.list[7].separator=， default.separator.list[7].locale=zh default.separator.list[8].id=comma_en default.separator.list[8].separator=, default.separator.list[8].locale=en 最小长度：1 最大长度：128 数组长度：1 - 100
rule_regex_id	String	用户定义解析规则ID 最小长度：1 最大长度：256
chunk_size	Integer	分段预计长度最小值：0 最大值：6000 缺省值：500
title_level	Integer	标题层级深度最小值：1 最大值：10 缺省值：3
combine_title	Boolean	false 保留最后一级 true 保存多标题组合缺省值：false
merge_titles	Boolean	是否跨标题合并，不同标题段落文字较少时，会自动合并到指定的分段长度，有助于生成更全面的结果

状态码： 400

表9 响应Body参数
参数	参数类型	描述
error_code	String	错误码最小长度：8 最大长度：36
error_msg	String	错误描述最小长度：2 最大长度：512

状态码： 500

**表10** 响应Body参数
参数	参数类型	描述
error_code	String	错误码最小长度：8 最大长度：36
error_msg	String	错误描述最小长度：2 最大长度：512

请求示例

无

响应示例

无

状态码

状态码	描述
200	文档列表响应体
400	请求体参数错误
500	内部异常

错误码

请参见错误码。

父主题： 文件管理

上一篇：上传文档接口

下一篇：下载文件接口

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问

查询文档接口

功能介绍

URI

请求参数

响应参数

请求示例

响应示例

状态码

错误码

相关文档

意见反馈

文档内容是否对您有帮助？

7*24

备案

专业服务

退订

建议反馈

售前咨询热线