创建文档内容解析 - CreateDocumentTask
功能介绍
文档解析接口,从obs获取文档
URI
POST /v1/{project_id}/applications/{app_id}/doc-search/documents
|
参数 |
是否必选 |
参数类型 |
描述 |
|---|---|---|---|
|
project_id |
是 |
String |
参数解释: 项目ID,获取方法请参见获取项目ID。 约束限制: 不涉及 取值范围: 1~64个字符,只能包含数字、字母、中划线和下划线,且必须以字母开头。 默认取值: 不涉及 |
|
app_id |
是 |
String |
参数解释: 应用ID,获取方法请参见获取应用ID。 约束限制: 字符串 取值范围: 1~64个字符,只能包含数字、字母、中划线和下划线,且必须以字母开头。 默认取值: 不涉及 |
请求参数
|
参数 |
是否必选 |
参数类型 |
描述 |
|---|---|---|---|
|
X-Auth-Token |
是 |
String |
参数解释: 接口鉴权使用的Token,Token获取方式参考:获取IAM用户Token。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及 |
|
参数 |
是否必选 |
参数类型 |
描述 |
|---|---|---|---|
|
file_path |
是 |
String |
参数解释: 用户上传到obs的文档路径,每次一个文件。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及 |
|
language |
否 |
String |
参数解释: 文档的语言,zh,CHINESE-中文,en,ENGLISH-英文,ar,ARABIC-阿拉伯语,th,THAI-泰语,pt,PORTUGUESE-葡语,es,SPANISH-西语,中英文文档可以不传此参数 约束限制: 不涉及 取值范围: 枚举值
默认取值: 不涉及 |
|
mode |
否 |
Integer |
参数解释: 文档拆分模式。 约束限制: 不涉及 取值范围: 1-4 默认取值: 不涉及 |
|
ocr |
否 |
Boolean |
参数解释: 是否使用ocr方式解析。 约束限制: 不涉及 取值范围:
默认取值: 不涉及 |
|
priority |
否 |
Integer |
参数解释: 任务优先级,数值越大优先级越高。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及 |
|
parse_conf |
否 |
DocParseConfig object |
参数解释: 文档解析配置。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及 |
|
split_conf |
否 |
DocSplitConfig object |
参数解释: 文本拆分配置。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及 |
|
参数 |
是否必选 |
参数类型 |
描述 |
|---|---|---|---|
|
ocr_enabled |
否 |
Boolean |
参数解释: 是否使用ocr方式解析。 约束限制: 不涉及 取值范围:
默认取值: 不涉及 |
|
mllm_enabled |
否 |
Boolean |
参数解释: 是否使用多模态解析。 约束限制: 不涉及 取值范围:
默认取值: 不涉及 |
|
image_conf |
否 |
String |
参数解释: 解析图片方式, TEXT-提取图片文本, IMAGE-保留原图,IMAGE_TEXT - 提取文本和保留原图。 约束限制: 不涉及 取值范围: 枚举值
默认取值: TEXT |
|
image_enabled |
否 |
Boolean |
参数解释: 是否解析图片。 约束限制: 不涉及 取值范围:
默认取值: 不涉及 |
|
header_footer_enabled |
否 |
Boolean |
参数解释: 是否解析页脚页眉。 约束限制: 不涉及 取值范围:
默认取值: 不涉及 |
|
catalog_enabled |
否 |
Boolean |
参数解释: 是否解析目录。 约束限制: 不涉及 取值范围:
默认取值: 不涉及 |
|
footnote_enabled |
否 |
Boolean |
参数解释: 是否解析脚注。 约束限制: 不涉及 取值范围:
默认取值: 不涉及 |
|
mllm_model |
否 |
String |
参数解释: 是否使用多模态,因为可以配置多个,所以用name匹配多模态模型。 约束限制: 不涉及 取值范围: 1-32个字符 默认取值: 不涉及 |
|
mllm_prompt |
否 |
Map<String,String> |
参数解释: 多模态prompt。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及 |
|
参数 |
是否必选 |
参数类型 |
描述 |
|---|---|---|---|
|
split_mode |
否 |
String |
参数解释: 文本拆分模式。 取值范围:
|
|
separators |
否 |
Array of strings |
参数解释: 段落分隔符。 取值范围: 不涉及 |
|
chunk_size |
否 |
Integer |
参数解释: chunk最大长度。 取值范围: 不涉及 |
|
overlap |
否 |
Float |
参数解释: chunk重叠比例。 取值范围: 不涉及 |
|
title_level |
否 |
Integer |
参数解释: 标题最大深度。 取值范围: 不涉及 |
|
combine_title |
否 |
Boolean |
参数解释: 标题是否合并,合并格式:标题1 标题2 标题3,不合并格式:标题3。 取值范围: 不涉及 |
|
rule_regexs |
否 |
Array of strings |
规则拆分场景的标题匹配表达式。 |
|
merge_titles |
否 |
Boolean |
段落合并开关,开启则把小段落进行合并。 |
响应参数
状态码:200
|
参数 |
参数类型 |
描述 |
|---|---|---|
|
task_id |
String |
参数解释: 文档解析任务的id,可以通过此id查询文档解析状态和解析结果。 取值范围: 不涉及 |
状态码:400
|
参数 |
参数类型 |
描述 |
|---|---|---|
|
error_code |
String |
参数解释: 错误码 取值范围: 不涉及 |
|
error_msg |
String |
参数解释: 错误描述 取值范围: 不涉及 |
状态码:401
|
参数 |
参数类型 |
描述 |
|---|---|---|
|
error_code |
String |
参数解释: 错误码 取值范围: 不涉及 |
|
error_msg |
String |
参数解释: 错误描述 取值范围: 不涉及 |
状态码:500
|
参数 |
参数类型 |
描述 |
|---|---|---|
|
error_code |
String |
参数解释: 错误码 取值范围: 不涉及 |
|
error_msg |
String |
参数解释: 错误描述 取值范围: 不涉及 |
请求示例
http://100.95.151.220:80/v1/03365e016aa44313b0f55b67cbe4a12a/applications/9b6293e5-2b03-44c3-9184-15b8fd3fae93/doc-search/documents
{
"file_path" : "kos-docs/haier/excel/问题单规范要求.xlsx"
}
响应示例
状态码:200
文件内容解析任务创建结果
{
"task_id" : "00c7591f88af4f3fb2f3d7c7191865e6"
}
状态码
|
状态码 |
描述 |
|---|---|
|
200 |
文件内容解析任务创建结果 |
|
400 |
请求参数异常 |
|
401 |
鉴权异常 |
|
500 |
服务内部异常 |
错误码
请参见错误码。