更新时间:2025-07-22 GMT+08:00
分享

从obs获取文档

功能介绍

文档解析接口,从obs获取文档

URI

POST /v1/koosearch/doc-search/documents

请求参数

表1 请求Header参数

参数

是否必选

参数类型

描述

X-Auth-Token

String

参数解释:

接口鉴权使用的Token,Token获取方式参考:3.2节 认证鉴权。

约束限制:

不涉及。

表2 请求Body参数

参数

是否必选

参数类型

描述

file_path

String

参数解释:

用户上传到obs的文档路径,每次一个文件

约束限制:

不涉及

取值范围:

长度小于1024

默认取值:

不涉及

language

String

参数解释: 文档的语言,CHINESE-中文,ENGLISH-英文,ARABIC-阿拉伯语,THAI-泰语,中英文文档可以不传此参数 约束限制: 不涉及 取值范围: CHINESE、ENGLISH、ARABIC、THAI 默认取值: 不涉及

mode

Integer

参数解释: 文档解析拆分模式,层级解析-1、规则解析-2、长度解析-3、自动解析-4 约束限制: split_mode参数优先级更高 取值范围: 1、2、3、4 默认取值: 不涉及

ocr

Boolean

参数解释: 是否使用ocr方式解析 约束限制: ocr_enabled参数优先级更高 取值范围: true:使用ocr方式解析 false:不使用ocr方式解析 默认取值: false

parse_conf

DocParseConfig object

文档解析配置

split_conf

DocSplitConfig object

文本拆分配置

表3 DocParseConfig

参数

是否必选

参数类型

描述

ocr_enabled

Boolean

参数解释: 是否使用ocr方式解析 约束限制: 不涉及 取值范围: true:使用ocr方式解析 false:不使用ocr方式解析 默认取值: false

image_conf

String

参数解释: 解析图片方式 约束限制: image_enabled为false时,不生效 取值范围: TEXT-提取图片文本, IMAGE-保留原图, BASE64-返回base64编码的图片数据 默认取值: IMAGE

image_enabled

Boolean

参数解释: 是否解析图片 约束限制: 不涉及 取值范围: true:解析图片 false:不解析图片 默认取值: false

header_footer_enabled

Boolean

参数解释: 是否解析页脚页眉 约束限制: 不涉及 取值范围: true:解析页脚页眉 false:不解析页脚页眉 默认取值: false

catalog_enabled

Boolean

参数解释: 是否解析目录 约束限制: 不涉及 取值范围: true:是否解析目录 false:不是否解析目录 默认取值: false

表4 DocSplitConfig

参数

是否必选

参数类型

描述

split_mode

String

参数解释: 文本拆分模式:LENGTH-字数拆分,CATALOG-目录拆分,RULE-规则拆分,AUTO-自动选择拆分模式 约束限制: 不涉及 取值范围: LENGTH,CATALOG,RULE,AUTO 默认取值: 不涉及

separators

Array of strings

参数解释: 段落标识符的列表集合,Array of strings,每个string是一个标识符 约束限制: 长度不超过50 取值范围: 不涉及 默认取值: ["。", ".", "?", "!", "!", "?", "\n"]

chunk_size

Integer

参数解释: chunk最大长度 约束限制: 不涉及 取值范围: 1- 默认取值: 不涉及

title_level

Integer

参数解释: 标题最大深度 约束限制: 不涉及 取值范围: 1- 默认取值: 不涉及

combine_title

Boolean

参数解释: 标题是否合并,合并格式:标题1 标题2 标题3,不合并格式:标题3 约束限制: 不涉及 取值范围: true:标题合并 false:标题不合并 默认取值: true

rule_regexs

Array of strings

参数解释: 规则拆分场景的标题匹配表达式,Array of strings,每个string是一个表达式 约束限制: 长度不超过10 取值范围: 不涉及 默认取值: 不涉及

merge_titles

Boolean

参数解释: 跨标题合并,不同标题间是否合并 约束限制: 不涉及 取值范围: true:跨标题合并 false:不跨标题合并 默认取值: true

响应参数

状态码:200

表5 响应Body参数

参数

参数类型

描述

task_id

String

文档解析任务的id,可以通过此id查询文档解析状态和解析结果

状态码:400

表6 响应Body参数

参数

参数类型

描述

error_code

String

错误码

error_msg

String

错误描述

状态码:401

表7 响应Body参数

参数

参数类型

描述

error_code

String

错误码

error_msg

String

错误描述

状态码:500

表8 响应Body参数

参数

参数类型

描述

error_code

String

错误码

error_msg

String

错误描述

请求示例

响应示例

状态码:200

文件内容解析任务创建结果

{
  "task_id" : "00c7591f88af4f3fb2f3d7c7191865e6"
}

状态码

状态码

描述

200

文件内容解析任务创建结果

400

请求参数异常

401

鉴权异常

500

服务内部异常

错误码

请参见错误码

相关文档