切换产品类型
您可以点击下拉框切换本产品的不同产品类型,帮助您更高效地阅读文档。
链接复制成功!
从obs获取文档
功能介绍
文档解析接口,从obs获取文档
URI
POST /v1/koosearch/doc-search/documents
请求参数
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
X-Auth-Token |
是 |
String |
参数解释: 接口鉴权使用的Token,Token获取方式参考:获取IAM用户Token 约束限制: 不涉及。 |
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
file_path |
是 |
String |
参数解释: 用户上传到obs的文档路径,每次一个文件 约束限制: 不涉及 取值范围: 长度小于1024 默认取值: 不涉及 |
language |
否 |
String |
参数解释: 文档的语言,CHINESE-中文,ENGLISH-英文,ARABIC-阿拉伯语,THAI-泰语,中英文文档可以不传此参数 约束限制: 不涉及 取值范围: CHINESE、ENGLISH、ARABIC、THAI 默认取值: 不涉及 |
mode |
否 |
Integer |
参数解释: 文档解析拆分模式,层级解析-1、规则解析-2、长度解析-3、自动解析-4 约束限制: split_mode参数优先级更高 取值范围: 1、2、3、4 默认取值: 不涉及 |
ocr |
否 |
Boolean |
参数解释: 是否使用ocr方式解析 约束限制: ocr_enabled参数优先级更高 取值范围: true:使用ocr方式解析 false:不使用ocr方式解析 默认取值: false |
parse_conf |
否 |
DocParseConfig object |
文档解析配置 |
split_conf |
否 |
DocSplitConfig object |
文本拆分配置 |
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
ocr_enabled |
否 |
Boolean |
参数解释: 是否使用ocr方式解析 约束限制: 不涉及 取值范围: true:使用ocr方式解析 false:不使用ocr方式解析 默认取值: false |
image_conf |
否 |
String |
参数解释: 解析图片方式 约束限制: image_enabled为false时,不生效 取值范围: TEXT-提取图片文本, IMAGE-保留原图, BASE64-返回base64编码的图片数据 默认取值: IMAGE |
image_enabled |
否 |
Boolean |
参数解释: 是否解析图片 约束限制: 不涉及 取值范围: true:解析图片 false:不解析图片 默认取值: false |
header_footer_enabled |
否 |
Boolean |
参数解释: 是否解析页脚页眉 约束限制: 不涉及 取值范围: true:解析页脚页眉 false:不解析页脚页眉 默认取值: false |
catalog_enabled |
否 |
Boolean |
参数解释: 是否解析目录 约束限制: 不涉及 取值范围: true:是否解析目录 false:不是否解析目录 默认取值: false |
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
split_mode |
否 |
String |
参数解释: 文本拆分模式:LENGTH-字数拆分,CATALOG-目录拆分,RULE-规则拆分,AUTO-自动选择拆分模式 约束限制: 不涉及 取值范围: LENGTH,CATALOG,RULE,AUTO 默认取值: 不涉及 |
separators |
否 |
Array of strings |
参数解释: 段落标识符的列表集合,Array of strings,每个string是一个标识符 约束限制: 长度不超过50 取值范围: 不涉及 默认取值: ["。", ".", "?", "!", "!", "?", "\n"] |
chunk_size |
否 |
Integer |
参数解释: chunk最大长度 约束限制: 不涉及 取值范围: 1- 默认取值: 不涉及 |
title_level |
否 |
Integer |
参数解释: 标题最大深度 约束限制: 不涉及 取值范围: 1- 默认取值: 不涉及 |
combine_title |
否 |
Boolean |
参数解释: 标题是否合并,合并格式:标题1 标题2 标题3,不合并格式:标题3 约束限制: 不涉及 取值范围: true:标题合并 false:标题不合并 默认取值: true |
rule_regexs |
否 |
Array of strings |
参数解释: 规则拆分场景的标题匹配表达式,Array of strings,每个string是一个表达式 约束限制: 长度不超过10 取值范围: 不涉及 默认取值: 不涉及 |
merge_titles |
否 |
Boolean |
参数解释: 跨标题合并,不同标题间是否合并 约束限制: 不涉及 取值范围: true:跨标题合并 false:不跨标题合并 默认取值: true |
响应参数
状态码:200
参数 |
参数类型 |
描述 |
---|---|---|
task_id |
String |
文档解析任务的id,可以通过此id查询文档解析状态和解析结果 |
状态码:400
参数 |
参数类型 |
描述 |
---|---|---|
error_code |
String |
|
error_msg |
String |
错误描述 |
状态码:401
参数 |
参数类型 |
描述 |
---|---|---|
error_code |
String |
|
error_msg |
String |
错误描述 |
状态码:500
参数 |
参数类型 |
描述 |
---|---|---|
error_code |
String |
|
error_msg |
String |
错误描述 |
请求示例
无
响应示例
状态码:200
文件内容解析任务创建结果
{ "task_id" : "00c7591f88af4f3fb2f3d7c7191865e6" }
状态码
状态码 |
描述 |
---|---|
200 |
文件内容解析任务创建结果 |
400 |
请求参数异常 |
401 |
鉴权异常 |
500 |
服务内部异常 |
错误码
请参见错误码。