更新文件内容解析 - UploadDocumentTask
功能介绍
文档解析接口,本地上传文档
URI
POST /v1/{project_id}/applications/{app_id}/doc-search/files
|
参数 |
是否必选 |
参数类型 |
描述 |
|---|---|---|---|
|
project_id |
是 |
String |
参数解释: 项目ID,获取方法请参见获取项目ID。 约束限制: 不涉及 取值范围: 1~64个字符,只能包含数字、字母、中划线和下划线,且必须以字母开头。 默认取值: 不涉及 |
|
app_id |
是 |
String |
参数解释: 应用ID,获取方法请参见获取应用ID。 约束限制: 字符串 取值范围: 1~64个字符,只能包含数字、字母、中划线和下划线,且必须以字母开头。 默认取值: 不涉及 |
请求参数
|
参数 |
是否必选 |
参数类型 |
描述 |
|---|---|---|---|
|
X-Auth-Token |
是 |
String |
参数解释: 接口鉴权使用的Token,Token获取方式参考:获取IAM用户Token。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及 |
|
参数 |
是否必选 |
参数类型 |
描述 |
|---|---|---|---|
|
file |
是 |
File |
参数解释: 需要上传解析的文档。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及 |
|
language |
否 |
String |
参数解释: 文档的语言,zh-中文,en-英文,ar-阿拉伯语,th-泰语,pt-葡语,es-西语,中英文文档可以不传此参数。 约束限制: 不涉及 取值范围:
默认取值: 不涉及 |
|
mode |
否 |
Integer |
参数解释: 拆分模式。 约束限制: 不涉及 取值范围:
默认取值: 不涉及 |
|
ocr |
否 |
Boolean |
参数解释: 是否使用ocr方式解析。 约束限制: 不涉及 取值范围:
默认取值: 不涉及 |
|
priority |
否 |
Integer |
参数解释: 任务优先级,数值越大优先级越高,默认为0。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及 |
|
ocr_enabled |
否 |
Boolean |
参数解释: 是否使用ocr方式解析。 约束限制: 不涉及 取值范围:
默认取值: 不涉及 |
|
mllm_enabled |
否 |
Boolean |
参数解释: 是否使用多模态方式解析。 约束限制: 不涉及 取值范围:
默认取值: 不涉及 |
|
image_enabled |
否 |
Boolean |
参数解释: 是否解析图片。 约束限制: 不涉及 取值范围:
默认取值: 不涉及 |
|
image_conf |
否 |
String |
参数解释: 解析图片方式。 约束限制: 不涉及 取值范围: 枚举值
默认取值: 不涉及 |
|
header_footer_enabled |
否 |
Boolean |
参数解释: 是否解析页脚页眉。 约束限制: 不涉及 取值范围:
默认取值: 不涉及 |
|
catalog_enabled |
否 |
Boolean |
参数解释: 是否解析目录。 约束限制: 不涉及 取值范围:
默认取值: 不涉及 |
|
separators |
否 |
Array of strings |
参数解释: 段落标识符,用于拆分句子。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及 |
|
rule_regexs |
否 |
Array of strings |
参数解释: 规则拆分场景的标题匹配表达式。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及 |
|
split_mode |
否 |
String |
参数解释: 文档拆分模式。 约束限制: 不涉及 取值范围: 枚举值
默认取值: 不涉及 |
|
chunk_size |
否 |
Integer |
参数解释: chunk最大长度。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及 |
|
title_level |
否 |
Integer |
参数解释: 标题最大深度。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及 |
|
combine_title |
否 |
Boolean |
参数解释: 标题是否合并,合并格式:标题1 标题2 标题3,不合并格式:标题3。 约束限制: 不涉及 取值范围:
默认取值: 不涉及 |
|
merge_titles |
否 |
Boolean |
参数解释: 是否跨标题合并。 约束限制: 不涉及 取值范围:
默认取值: 不涉及 |
|
overlap |
否 |
Float |
参数解释: chunk重叠比例。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及 |
|
reference_enabled |
否 |
Boolean |
参数解释: 是否解析参考文档。 约束限制: 不涉及 取值范围:
默认取值: 不涉及 |
|
footnote_enabled |
否 |
Boolean |
参数解释: 是否解析脚注。 约束限制: 不涉及 取值范围:
默认取值: 不涉及 |
|
mllm_model |
否 |
String |
参数解释: 是否使用多模态,因为可以配置多个,所以用name匹配多模态模型。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及 |
|
mllm_prompt |
否 |
String |
参数解释: 多模态prompt,map类型,例如:{"zh":"请解析这张图片"}。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及 |
响应参数
状态码:200
|
参数 |
参数类型 |
描述 |
|---|---|---|
|
task_id |
String |
参数解释: 文档解析任务的id,可以通过此id查询文档解析状态和解析结果。 取值范围: 不涉及 |
状态码:400
|
参数 |
参数类型 |
描述 |
|---|---|---|
|
error_code |
String |
参数解释: 错误码 取值范围: 不涉及 |
|
error_msg |
String |
参数解释: 错误描述 取值范围: 不涉及 |
状态码:401
|
参数 |
参数类型 |
描述 |
|---|---|---|
|
error_code |
String |
参数解释: 错误码 取值范围: 不涉及 |
|
error_msg |
String |
参数解释: 错误描述 取值范围: 不涉及 |
状态码:500
|
参数 |
参数类型 |
描述 |
|---|---|---|
|
error_code |
String |
参数解释: 错误码 取值范围: 不涉及 |
|
error_msg |
String |
参数解释: 错误描述 取值范围: 不涉及 |
请求示例
http://100.85.216.4:31628/v1/ee51ecd9-bc3c-4e98-b7df-ba6647350af2/applications/01d3c218-4d37-489a-98ff-69d69ea44bb1/doc-search/files
{
"file" : "/D:/文档/Identifying existing management practices in the control of Striga asiatica within rice–maize systems in mid-west Madagascar.pdf",
"mode" : "4"
}
响应示例
状态码:200
文件内容解析任务创建结果
{
"task_id" : "00c7591f88af4f3fb2f3d7c7191865e6"
}
状态码
|
状态码 |
描述 |
|---|---|
|
200 |
文件内容解析任务创建结果 |
|
400 |
请求参数异常 |
|
401 |
鉴权异常 |
|
500 |
服务内部异常 |
错误码
请参见错误码。