更新时间:2025-08-11 GMT+08:00

从本地上传文档

功能介绍

文档解析接口,本地上传文档

URI

POST /v1/koosearch/doc-search/files

请求参数

表1 请求Header参数

参数

是否必选

参数类型

描述

X-Auth-Token

String

参数解释:

接口鉴权使用的Token,Token获取方式参考:3.2节 认证鉴权。

约束限制:

不涉及。

表2 FormData参数

参数

是否必选

参数类型

描述

file

File

参数解释:

需要上传解析的文档

约束限制:

不涉及

取值范围:

文件

默认取值:

不涉及

language

String

参数解释:

文档的语言,CHINESE-中文,ENGLISH-英文,ARABIC-阿拉伯语,THAI-泰语,中英文文档可以不传此参数

约束限制:

不涉及

取值范围:

CHINESE、ENGLISH、ARABIC、THAI

默认取值:

不涉及

mode

Integer

参数解释:

文档解析拆分模式,层级解析-1、规则解析-2、长度解析-3、自动解析-4

约束限制:

split_mode参数优先级更高

取值范围:

1、2、3、4

默认取值:

不涉及

ocr

Boolean

参数解释:

是否使用ocr方式解析

约束限制:

ocr_enabled参数优先级更高

取值范围:

true:使用ocr方式解析

false:不使用ocr方式解析

默认取值:

false

ocr_enabled

Boolean

参数解释:

是否使用ocr方式解析

约束限制:

不涉及

取值范围:

true:使用ocr方式解析

false:不使用ocr方式解析

默认取值:

false

image_enabled

Boolean

参数解释:

是否解析图片

约束限制:

不涉及

取值范围:

true:解析图片

false:不解析图片

默认取值:

false

image_conf

String

参数解释:

解析图片方式

约束限制:

image_enabled为false时,不生效

取值范围:

TEXT-提取图片文本, IMAGE-保留原图, BASE64-返回base64编码的图片数据

默认取值:

IMAGE

header_footer_enabled

Boolean

参数解释:

是否解析页脚页眉

约束限制:

不涉及

取值范围:

true:解析页脚页眉

false:不解析页脚页眉

默认取值:

false

catalog_enabled

Boolean

参数解释:

是否解析目录

约束限制:

不涉及

取值范围:

true:是否解析目录

false:不是否解析目录

默认取值:

false

separators

Array of strings

参数解释:

段落标识符的列表集合,Array of strings,每个string是一个标识符

约束限制:

长度不超过50

取值范围:

不涉及

默认取值:

["。", ".", "?", "!", "!", "?", "\n"]

rule_regexs

Array of strings

参数解释:

规则拆分场景的标题匹配表达式,Array of strings,每个string是一个表达式

约束限制:

长度不超过10

取值范围:

不涉及

默认取值:

不涉及

split_mode

String

参数解释:

文本拆分模式:LENGTH-字数拆分,CATALOG-目录拆分,RULE-规则拆分,AUTO-自动选择拆分模式

约束限制:

不涉及

取值范围:

LENGTH,CATALOG,RULE,AUTO

默认取值:

不涉及

chunk_size

Integer

参数解释:

chunk最大长度

约束限制:

不涉及

取值范围:

1-

默认取值:

不涉及

title_level

Integer

参数解释:

标题最大深度

约束限制:

不涉及

取值范围:

1-

默认取值:

不涉及

combine_title

Boolean

参数解释:

标题是否合并,合并格式:标题1 标题2 标题3,不合并格式:标题3

约束限制:

不涉及

取值范围:

true:标题合并

false:标题不合并

默认取值:

true

merge_titles

Boolean

参数解释:

跨标题合并,不同标题间是否合并

约束限制:

不涉及

取值范围:

true:跨标题合并

false:不跨标题合并

默认取值:

true

reference_enabled

Boolean

参数解释:

是否解析参考文献

约束限制:

不涉及

取值范围:

true:解析参考文献

false:不解析参考文献

默认取值:

false

响应参数

状态码:200

表3 响应Body参数

参数

参数类型

描述

task_id

String

文档解析任务的id,可以通过此id查询文档解析状态和解析结果

状态码:400

表4 响应Body参数

参数

参数类型

描述

error_code

String

错误码

error_msg

String

错误描述

状态码:401

表5 响应Body参数

参数

参数类型

描述

error_code

String

错误码

error_msg

String

错误描述

状态码:500

表6 响应Body参数

参数

参数类型

描述

error_code

String

错误码

error_msg

String

错误描述

请求示例

响应示例

状态码:200

文件内容解析任务创建结果

{
  "task_id" : "00c7591f88af4f3fb2f3d7c7191865e6"
}

状态码

状态码

描述

200

文件内容解析任务创建结果

400

请求参数异常

401

鉴权异常

500

服务内部异常

错误码

请参见错误码