文档首页/ 云搜索服务 CSS_企业搜索服务 KooSearch/ API参考/ API/ API/ 任务管理/ 更新文件内容解析 - UploadDocumentTask
更新时间:2025-12-01 GMT+08:00

更新文件内容解析 - UploadDocumentTask

功能介绍

文档解析接口,本地上传文档

URI

POST /v1/{project_id}/applications/{app_id}/doc-search/files

表1 路径参数

参数

是否必选

参数类型

描述

project_id

String

参数解释:

项目ID,获取方法请参见获取项目ID。

约束限制:

不涉及

取值范围:

1~64个字符,只能包含数字、字母、中划线和下划线,且必须以字母开头。

默认取值:

不涉及

app_id

String

参数解释:

应用ID,获取方法请参见获取应用ID。

约束限制:

字符串

取值范围:

1~64个字符,只能包含数字、字母、中划线和下划线,且必须以字母开头。

默认取值:

不涉及

请求参数

表2 请求Header参数

参数

是否必选

参数类型

描述

X-Auth-Token

String

参数解释:

接口鉴权使用的Token,Token获取方式参考:获取IAM用户Token。

约束限制:

不涉及

取值范围:

不涉及

默认取值:

不涉及

表3 FormData参数

参数

是否必选

参数类型

描述

file

File

参数解释:

需要上传解析的文档。

约束限制:

不涉及

取值范围:

不涉及

默认取值:

不涉及

language

String

参数解释:

文档的语言,zh-中文,en-英文,ar-阿拉伯语,th-泰语,pt-葡语,es-西语,中英文文档可以不传此参数。

约束限制:

不涉及

取值范围:

  • zh-中文

  • en-英文

  • ar-阿拉伯语

  • th-泰语

  • pt-葡语

  • es-西语

默认取值:

不涉及

mode

Integer

参数解释:

拆分模式。

约束限制:

不涉及

取值范围:

  • 1-目录解析

  • 2-规则解析

  • 3-长度解析

  • 4-自动解析

默认取值:

不涉及

ocr

Boolean

参数解释:

是否使用ocr方式解析。

约束限制:

不涉及

取值范围:

  • true 使用ocr方式解析

  • false 不使用ocr方式解析

默认取值:

不涉及

priority

Integer

参数解释:

任务优先级,数值越大优先级越高,默认为0。

约束限制:

不涉及

取值范围:

不涉及

默认取值:

不涉及

ocr_enabled

Boolean

参数解释:

是否使用ocr方式解析。

约束限制:

不涉及

取值范围:

  • true 使用ocr方式解析

  • false 不使用ocr方式解析

默认取值:

不涉及

mllm_enabled

Boolean

参数解释:

是否使用多模态方式解析。

约束限制:

不涉及

取值范围:

  • true 使用多模态方式解析

  • false 不使用多模态方式解析

默认取值:

不涉及

image_enabled

Boolean

参数解释:

是否解析图片。

约束限制:

不涉及

取值范围:

  • true 解析图片

  • false 不解析图片

默认取值:

不涉及

image_conf

String

参数解释:

解析图片方式。

约束限制:

不涉及

取值范围:

枚举值

  • TEXT-提取图片文本

  • IMAGE-保留原图

  • BASE64-返回base64编码的图片数据

默认取值:

不涉及

header_footer_enabled

Boolean

参数解释:

是否解析页脚页眉。

约束限制:

不涉及

取值范围:

  • true 解析页脚页眉

  • false 不解析页脚页眉

默认取值:

不涉及

catalog_enabled

Boolean

参数解释:

是否解析目录。

约束限制:

不涉及

取值范围:

  • true 解析目录

  • false 不解析目录

默认取值:

不涉及

separators

Array of strings

参数解释:

段落标识符,用于拆分句子。

约束限制:

不涉及

取值范围:

不涉及

默认取值:

不涉及

rule_regexs

Array of strings

参数解释:

规则拆分场景的标题匹配表达式。

约束限制:

不涉及

取值范围:

不涉及

默认取值:

不涉及

split_mode

String

参数解释:

文档拆分模式。

约束限制:

不涉及

取值范围:

枚举值

  • LENGTH-字数拆分

  • CATALOG-目录拆分

  • RULE-规则拆分

  • AUTO-自动选择拆分模式

默认取值:

不涉及

chunk_size

Integer

参数解释:

chunk最大长度。

约束限制:

不涉及

取值范围:

不涉及

默认取值:

不涉及

title_level

Integer

参数解释:

标题最大深度。

约束限制:

不涉及

取值范围:

不涉及

默认取值:

不涉及

combine_title

Boolean

参数解释:

标题是否合并,合并格式:标题1 标题2 标题3,不合并格式:标题3。

约束限制:

不涉及

取值范围:

  • true 标题合并

  • false 标题不合并

默认取值:

不涉及

merge_titles

Boolean

参数解释:

是否跨标题合并。

约束限制:

不涉及

取值范围:

  • true 跨标题合并

  • false 不跨标题合并

默认取值:

不涉及

overlap

Float

参数解释:

chunk重叠比例。

约束限制:

不涉及

取值范围:

不涉及

默认取值:

不涉及

reference_enabled

Boolean

参数解释:

是否解析参考文档。

约束限制:

不涉及

取值范围:

  • true 解析参考文档

  • false 不解析参考文档

默认取值:

不涉及

footnote_enabled

Boolean

参数解释:

是否解析脚注。

约束限制:

不涉及

取值范围:

  • true 解析脚注

  • false 不解析脚注

默认取值:

不涉及

mllm_model

String

参数解释:

是否使用多模态,因为可以配置多个,所以用name匹配多模态模型。

约束限制:

不涉及

取值范围:

不涉及

默认取值:

不涉及

mllm_prompt

String

参数解释:

多模态prompt,map类型,例如:{"zh":"请解析这张图片"}。

约束限制:

不涉及

取值范围:

不涉及

默认取值:

不涉及

响应参数

状态码:200

表4 响应Body参数

参数

参数类型

描述

task_id

String

参数解释:

文档解析任务的id,可以通过此id查询文档解析状态和解析结果。

取值范围:

不涉及

状态码:400

表5 响应Body参数

参数

参数类型

描述

error_code

String

参数解释:

错误码

取值范围:

不涉及

error_msg

String

参数解释:

错误描述

取值范围:

不涉及

状态码:401

表6 响应Body参数

参数

参数类型

描述

error_code

String

参数解释:

错误码

取值范围:

不涉及

error_msg

String

参数解释:

错误描述

取值范围:

不涉及

状态码:500

表7 响应Body参数

参数

参数类型

描述

error_code

String

参数解释:

错误码

取值范围:

不涉及

error_msg

String

参数解释:

错误描述

取值范围:

不涉及

请求示例

http://100.85.216.4:31628/v1/ee51ecd9-bc3c-4e98-b7df-ba6647350af2/applications/01d3c218-4d37-489a-98ff-69d69ea44bb1/doc-search/files

{
  "file" : "/D:/文档/Identifying existing management practices in the control of Striga asiatica within rice–maize systems in mid-west Madagascar.pdf",
  "mode" : "4"
}

响应示例

状态码:200

文件内容解析任务创建结果

{
  "task_id" : "00c7591f88af4f3fb2f3d7c7191865e6"
}

状态码

状态码

描述

200

文件内容解析任务创建结果

400

请求参数异常

401

鉴权异常

500

服务内部异常

错误码

请参见错误码