更新时间:2025-08-11 GMT+08:00

列举批量上传FAQ文件

功能介绍

列举批量上传FAQ文件信息。

URI

GET /v1/koosearch/repos/{repo_id}/faqs/files

表1 路径参数

参数

是否必选

参数类型

描述

repo_id

String

知识库ID,1~64个字符,只能包含数字、字母、中划线和下划线。

获取方式:

账号登录KooSearch体验平台,在左侧导航栏选择:"知识库管理" ,在此界面获取"知识库ID"字段的值,表示该知识库在向量数据库中存储的ID,具有唯一性。

表2 Query参数

参数

是否必选

参数类型

描述

file_name

String

文件名。

file_status

String

文件状态:

SUCCESS 上传成功

ERROR 上传失败

PENDING 上传等待

RUNNING 上传进行中

IMPORT_EXCEPTION 导入失败

FILE_ENCODING_ERROR 文件编码错误

page_num

Integer

请求页码。

page_size

Integer

请求限定响应结果的分页大小,例如5条/页,10条/页。

ids

Array of strings

精准查询ID列表。

请求参数

表3 请求Header参数

参数

是否必选

参数类型

描述

X-Auth-Token

String

参数解释:

接口鉴权使用的Token,Token获取方式参考:3.2节 认证鉴权。

约束限制:

不涉及。

响应参数

状态码:200

表4 响应Body参数

参数

参数类型

描述

total

Integer

返回的文档总数。

page_num

Integer

页码。

page_size

Integer

每页数量。

files

Array of FileInfo objects

文件列表。

表5 FileInfo

参数

参数类型

描述

id

String

文件ID。

task_id

String

任务ID。

name

String

文件名。

repo_id

String

知识库ID。

project_id

String

项目ID。

application_id

String

应用ID。

status

String

文件状态。

  • SUCCESS 执行成功

  • ERROR 执行失败

  • PENDING 初始状态,未处理

  • RUNNING 执行中

  • IMPORT_EXCEPTION 导入异常

  • FILE_ENCODING_ERROR 编码错误

type

String

文件类型。

size

Long

文件大小(bytes)。

category

String

文档目录,单值,对应目录树中的叶子节点。

建议格式为 叶子节点目录名称(目录 ID),如:专利(3166-1)。

create_user

String

创建者,指上传文件的用户,可能不存在该键值。

create_time

String

创建时间,指上传文件的时间。

例如:1692848139119

update_time

String

更新时间,可能不存在该键值。

file_path

String

文件地址,可能不存在该键值。

upload_desc

String

上传说明,可能不存在该键值。

file_extract_conf

FileExtractConf object

文件抽取配置项。

tags

Array of strings

文档标签,可以使用标签对文档进行自动分组,用于筛选过滤。

注意事项:

1.建议不区分大小写,例如, Approved and approved 是同一个标签。

2.文档可以有一个或多个标签。

3.建议格式为:标签名称:标签值 ,如果能够保证标签值不冲突,也可以直接使用 标签值,例如:

《冰箱使用说明书》对应的产品型号:ProductModel:BCD-551WLCTDAFA5U1

《一句顶一万句》的作者是:刘震云

《外观设计专利交底书模板》 的专业领域是:法务领域

fail_count

Integer

上传失败的数据条数。

fail_records_expire_time

String

上传失败的时间戳。

chat_id

String

chatId

process

Integer

文档解析进度

has_html

Boolean

用于表示是否能用html展示

表6 FileExtractConf

参数

参数类型

描述

parse_conf

ParseConf object

参数解释:

文档解析配置,包含是否使用OCR增强、是否解析图片、解析图片是否需要提取文字、是否解析页眉页脚、是否解析目录页。

约束限制:

不涉及。

split_conf

SplitConf object

参数限制:

拆分配置,包括分段方式设置、层级解析模式设置、标题层级深度设置、标题保存方式设置、分段长度配置、标题匹配pattern配置等。

约束限制:

不涉及。

id

String

参数解释:

文档解析ID。

约束限制:

不涉及。

表7 ParseConf

参数

参数类型

描述

ocr_enabled

Boolean

参数解释:

当前知识库是否使用OCR增强。

  • 纯word文档无需使用OCR解析。

  • pdf/pptx等需要使用OCR服务进行智能文档识别,如表格解析、文字提取等。

约束限制:

不涉及。

默认取值:

false

image_enabled

Boolean

参数解释:

当前知识库是否需要解析图片。

true:在文档中遇到图片默认跳过,不处理图片。

false:解析图片。具体解析方式在image_conf中配置。

约束限制:

不涉及。

默认取值:

false

header_footer_enabled

Boolean

参数解释:

当前知识库中的文件,是否需要解析页眉页脚。

true: 解析结果中包含页眉页脚。

false: 解析结果中不包含页眉页脚。(当页眉页脚中没有关键文本信息时,建议为false,避免干扰。)

约束限制:

不涉及

默认取值:

false

catalog_enabled

Boolean

参数解释:

当前知识库中的文件,是否需要解析目录页。

false:解析结果中不包含目录页。(当目录页中没有特别需要保留的信息时,建议默认为false。通常目录页中含有大量关键词,会干扰检索结果。)

true:解析结果中包含目录页。

约束限制:

不涉及。

默认取值:

false

image_conf

String

参数解释:

图片解析开启(image_enable为True)时,使用的图片解析方式。

  • TEXT :将图片中的文本提取出来,图片本身不保留。

  • IMAGE: 保留图片的原图。

约束限制:

当需要使用图文并茂返回答案时,必须使用IMAGE模式,保留原图。

默认取值:

TEXT

表8 SplitConf

参数

参数类型

描述

split_mode

String

参数解释:

文档切分的模式选择。

取值范围:

有四种模式可选:

  • AUTO- 自动拆分,自动识别文档格式匹配适合的拆分解析方式。

  • LENGTH-按长度拆分,例如每500字分一段。

  • CATALOG-层级分段下-自动解析。自动识别文章的层级结构,按照文章的层级结构分片。例如1.1.2章节为一个分片,1.1.3章节为一个分片。

  • RULE- 层级分段下-规则解析。自定义层级标题的匹配规则,并依据自定义的规则进行章节匹配、切分。

约束限制:

不涉及

默认取值:

AUTO

separator_ids

Array of strings

参数解释:

自动分段和长度分段模式下的,分段标识符ID列表。

分段标识符:用于决定分片切片时的结束符。

取值范围:

具体取值映射:

"period_zh":中文句号。

"period_en":英文句号.

"exclamation_mark_zh":中文叹号!

"exclamation_mark_en":英文叹号!

"question_mark_zh":中文问号?

"question_mark_en":英文问号?

"comma_zh":中文逗号,

"comma_en":英文逗号,

"space_en":空格

约束限制:

不涉及。

默认取值:

["period_zh", "period_en", "exclamation_mark_zh", "exclamation_mark_en", "question_mark_zh", "question_mark_en"]

rule_regex_id

String

参数解释:

选择的用户自定义解析规则ID。

约束限制:

不涉及。

chunk_size

Integer

参数解释:

文档分段切片的最大长度。文档切片时根据该最大长度进行切片。

约束限制:

不涉及。

默认取值:

500

title_level

Integer

参数解释:

分片保留的标题层级深度。例如:

深度为3时:当前段落为1.1.3,父标题1.1 和 父标题1 均会保留。

深度为2时:当前段落为1.1.3,父标题1.1 保留,父标题1 舍弃。

约束限制:

不涉及。

默认取值:

3

combine_title

Boolean

参数解释:

是否保留层级标题组合。

取值说明:

false:仅保留最后一级标题。

true:保存多层标题组合,从第一级到最后一级。例如:1 说明 1.1 使用说明 1.1.1 如何打开冰箱

约束限制:

不涉及。

默认取值:

false

merge_titles

Boolean

参数解释:

是否跨标题合并。

取值说明:

true:不同标题的段落,单个段落文字较少时,自动合并到指定的分段长度,有助于生成更全面的结果。例如:相邻的两个子段落都不足200字,预期分段长度为500,此时会将两段内容合并为一段内容。

false:不同标题的段落,不做合并。

约束限制:

不涉及。

默认取值:

true

状态码:400

表9 响应Body参数

参数

参数类型

描述

error_code

String

错误码

error_msg

String

错误描述

状态码:500

表10 响应Body参数

参数

参数类型

描述

error_code

String

错误码

error_msg

String

错误描述

请求示例

GET https://{endpoint}/v1/koosearch/repos/acd90739-2e22-4870-b2db-35018699b623/faqs/files?page_num=1&page_size=10

响应示例

状态码:200

文档列表响应体。

{
  "total" : 1,
  "page_num" : 1,
  "page_size" : 1,
  "files" : [ {
    "id" : "b88a51c3-3b44-4ab2-885a-cab76e0cf51d",
    "name" : "faq_file.xlsx",
    "type" : "faq",
    "status" : "SUCCESS",
    "size" : 11613,
    "create_time" : "1731048325365"
  } ]
}

状态码

状态码

描述

200

文档列表响应体。

400

请求体参数错误

500

内部异常

错误码

请参见错误码