文档内容解析异步任务结果查询 - ShowDocumentTask
功能介绍
文档内容解析异步任务查询
URI
GET /v1/{project_id}/applications/{app_id}/doc-search/tasks/{task_id}
|
参数 |
是否必选 |
参数类型 |
描述 |
|---|---|---|---|
|
project_id |
是 |
String |
参数解释: 项目ID,获取方法请参见获取项目ID。 约束限制: 不涉及 取值范围: 1~64个字符,只能包含数字、字母、中划线和下划线,且必须以字母开头。 默认取值: 不涉及 |
|
app_id |
是 |
String |
参数解释: 应用ID,获取方法请参见获取应用ID。 约束限制: 字符串 取值范围: 1~64个字符,只能包含数字、字母、中划线和下划线,且必须以字母开头。 默认取值: 不涉及 |
|
task_id |
是 |
String |
参数解释: 任务标识,32个字符,只能包含数字和字母。文档解析任务的id,可以通过此id查询文档解析状态和解析结果。 约束限制: 32个字符长度 取值范围: 不涉及 默认取值: 不涉及 |
|
参数 |
是否必选 |
参数类型 |
描述 |
|---|---|---|---|
|
is_other_original_table |
否 |
Boolean |
参数解释: xlsx、xls、et是否返回big content字段 约束限制: 不涉及 取值范围:
默认取值: 不涉及 |
请求参数
|
参数 |
是否必选 |
参数类型 |
描述 |
|---|---|---|---|
|
X-Auth-Token |
是 |
String |
参数解释: 接口鉴权使用的Token,Token获取方式参考:获取IAM用户Token。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及 |
响应参数
状态码:200
|
参数 |
参数类型 |
描述 |
|---|---|---|
|
task_desc |
String |
参数解释: 任务描述,主要为任务失败时的信息 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及 |
|
result |
ParsedDocument object |
文档解析结果,只有解析成功时包含此字段 |
|
参数 |
参数类型 |
描述 |
|---|---|---|
|
doc_id |
String |
参数解释: 文档id,通过UUID生成 取值范围: 不涉及 |
|
doc_name |
String |
参数解释: 文档名称 取值范围: 不涉及 |
|
doc_type |
String |
参数解释: 文档类型,如pdf/docx。 取值范围: 枚举值
|
|
preview_file_url |
String |
参数解释: 预览文件地址 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及 |
|
original_file |
String |
参数解释: 原始文档路径 取值范围: 不涉及 |
|
html_path |
String |
参数解释: 生成html文件路径。 取值范围: 不涉及 |
|
file_size |
Integer |
参数解释: 原始文档大小,单位:字节。 取值范围: 不涉及 |
|
pages |
Array of ParsedDocumentPage objects |
参数解释: 文档页面信息。 取值范围: 不涉及 |
|
images |
Array of ParsedDocumentImage objects |
参数解释: 文档图片信息。 取值范围: 不涉及 |
|
original_tables |
Array of OriginalTable objects |
参数解释: 原始表格信息。 取值范围: 不涉及 |
|
参数 |
参数类型 |
描述 |
|---|---|---|
|
page_num |
Integer |
参数解释: 页码,对应文档中的第几页。 取值范围: 不涉及 |
|
preview_image_url |
String |
参数解释: 文档页面预览图地址。 取值范围: 不涉及 |
|
components |
Array of ParsedDocumentComponent objects |
参数解释: 页面中的段落信息。 取值范围: 不涉及 |
|
参数 |
参数类型 |
描述 |
|---|---|---|
|
id |
String |
参数解释: 段落id,通过UUID生成 取值范围: 不涉及 |
|
text |
String |
参数解释: 段落内容。 取值范围: 不涉及 |
|
component_num |
Integer |
参数解释: 段落码,对应文档中的第几个段落,从1开始计数。 取值范围: 不涉及 |
|
pdf_coordinate |
Array<Array<Integer>> |
参数解释: 段落在页面中的坐标,分别对应 左上、右上、右下、左下,用于高亮展示。 取值范围: 不涉及 |
|
original_table_id |
String |
参数解释: 只有当表格被拆分时有值,保存原始的长表格,支撑small2big特性。 取值范围: 不涉及 |
|
type |
String |
参数解释: 标记分片类型。 取值范围: 不涉及 |
|
title |
String |
参数解释: 段落标题。 取值范围: 不涉及 |
|
original_title |
String |
参数解释: 标识原始标题。 取值范围: 不涉及 |
|
element_id |
String |
参数解释: 对应到html里的元素id,用于文本定位。 取值范围: 不涉及 |
|
elements |
Array of strings |
参数解释: 对应到html里的元素集合,用于文本高亮。 取值范围: 不涉及 |
|
original_page_nums |
Array of integers |
参数解释: 标识分片原始页码。 取值范围: 不涉及 |
|
参数 |
参数类型 |
描述 |
|---|---|---|
|
image_id |
String |
参数解释: 图片id,img-前缀加上UUID。 取值范围: 不涉及 |
|
url |
String |
参数解释: 图片上传到obs后的路径。 取值范围: 不涉及 |
|
data |
String |
参数解释: 图片的base64编码数据。 取值范围: 不涉及 |
|
title |
String |
参数解释: 图片的标题。 取值范围: 不涉及 |
|
desc |
String |
参数解释: 图片的描述。 取值范围: 不涉及 |
|
width |
Integer |
参数解释: 图片的宽度。 取值范围: 不涉及 |
|
height |
Integer |
参数解释: 图片的高度。 取值范围: 不涉及 |
|
参数 |
参数类型 |
描述 |
|---|---|---|
|
id |
String |
参数解释: 表格标识。ParsedDocumentComponent会引用此标识,避免存储多份。 取值范围: 不涉及 |
|
content |
String |
参数解释: 表格内容。 取值范围: 不涉及 |
状态码:400
|
参数 |
参数类型 |
描述 |
|---|---|---|
|
error_code |
String |
参数解释: 错误码 取值范围: 不涉及 |
|
error_msg |
String |
参数解释: 错误描述 取值范围: 不涉及 |
状态码:401
|
参数 |
参数类型 |
描述 |
|---|---|---|
|
error_code |
String |
参数解释: 错误码 取值范围: 不涉及 |
|
error_msg |
String |
参数解释: 错误描述 取值范围: 不涉及 |
状态码:500
|
参数 |
参数类型 |
描述 |
|---|---|---|
|
error_code |
String |
参数解释: 错误码 取值范围: 不涉及 |
|
error_msg |
String |
参数解释: 错误描述 取值范围: 不涉及 |
请求示例
https://127.0.0.1:8081/v1/729cbd739854470da5426ed26bd900ca/applications/01d3c218-4d37-489a-98ff-69d69ea44bb1/doc-search/tasks/37d4e2c03b76455a9e2b9e3fad2e5967?is_other_original_table=false
响应示例
状态码:200
文档内容解析异步任务结果
{
"process" : 100,
"task_status" : "SUCCESS",
"result" : {
"pages" : [ {
"components" : [ {
"id" : "9074e9104fae45fa9c5ddb7e596a21ca",
"text" : "2844家,比上年增加 101 家。上市股票 2879 只,增加101只。 其中,A股 2838 只,增加 102 只;B股41 只,减少 1 只。总发 行股本 26414.94 亿股,比上年增长 3.0%;总流通股本22970.66 亿股,增长 4.4%。\n全年保险机构原保险保费收入1719.56 亿元,比上年增长 12.6%。其中,财产险业务收入 442.69 亿元,增长 5.9%;人身险 业务收入1276.87 亿元,增长15.1%。各项赔付支出561.57亿元, 增长 27.5%。其中,财产险业务支出 264.54 亿元,增长 19.7%; 人身险业务支出 297.03 亿元,增长 35.2%。\n九、人民生活和社会保障\n全年全市居民人均可支配收入76910 元,比上年增长 5.8%。 居民人均消费支出 49013 元,增长 9.4%。恩格尔系数为 29.4%。",
"component_num" : 1,
"pdf_coordinate" : [ [ 72, 107 ], [ 521, 107 ], [ 521, 444 ], [ 72, 444 ] ],
"element_id" : "9074e9104fae45fa9c5ddb7e596a21ca",
"elements" : [ "9074e9104fae45fa9c5ddb7e596a21ca", "dbd121825fae4137b641b79f52d4e4ec", "89ac39fe379a43319ae7ef299316a563", "4e401be69a5a4b89a8dc0e9cc0b94955" ],
"original_page_nums" : [ 1 ]
}, {
"id" : "3ac0437f4bad46fc86ead8b72cf4ccfe",
"text" : "```echarts-117dfebaf04648e08dd4b09638c83dac\n{\n \"title\": {\n \"text\": \"\"\n },\n \"legend\": {\n \"data\": [\n \"食品烟酒\",\n \"衣着\",\n \"居住\",\n \"生活用品及服务\",\n \"交通通信\",\n \"教育文化娱乐\",\n \"医疗保健\",\n \"其他用品及服务\"\n ]\n },\n \"tooltip\": {\n \"trigger\": \"item\",\n \"formatter\": \"{a} <br/>{b}: {c} ({d}%)\"\n },\n \"series\": [\n {\n \"name\": \"\",\n \"type\": \"pie\",\n \"radius\": \"55%\",\n \"center\": [\"50%\", \"50%\"],\n \"data\": [\n { \"value\": 14429.44, \"name\": \"食品烟酒\", \"percent\": 29.4 },\n { \"value\": 2169.98, \"name\": \"衣着\", \"percent\": 4.4 },\n { \"value\": 12990.05, \"name\": \"居住\", \"percent\": 26.5 },\n { \"value\": 2508.15, \"name\": \"生活用品及服务\", \"percent\": 5.1 },\n { \"value\": 7362.83, \"name\": \"交通通信\", \"percent\": 15.0 },\n { \"value\": 5034.22, \"name\": \"教育文化娱乐\", \"percent\": 10.3 },\n { \"value\": 2513.40, \"name\": \"医疗保健\", \"percent\": 5.1 },\n { \"value\": 2004.93, \"name\": \"其他用品及服务\", \"percent\": 4.1 }\n ],\n \"emphasis\": {\n \"itemStyle\": {\n \"shadowBlur\": 10,\n \"shadowOffsetX\": 0,\n \"shadowColor\": \"rgba(0, 0, 0, 0.5)\"\n }\n }\n }\n ]\n}\n```\n{img-117dfebaf04648e08dd4b09638c83dac}\n图11\n2023年全市居民人均消费支出及构成<br>",
"component_num" : 2,
"pdf_coordinate" : [ [ 81, 478 ], [ 512, 478 ], [ 512, 702 ], [ 81, 702 ] ],
"element_id" : "3ac0437f4bad46fc86ead8b72cf4ccfe",
"elements" : [ "3ac0437f4bad46fc86ead8b72cf4ccfe" ],
"original_page_nums" : [ 1 ]
} ],
"page_num" : 1
} ],
"images" : [ {
"image_id" : "img-117dfebaf04648e08dd4b09638c83dac",
"url" : "kos-docs/guangqi/images/ec/ecd9d8294ba04bba968ab88e15e15779.jpg",
"title" : "图11\n2023年全市居民人均消费支出及构成",
"width" : 897,
"height" : 467
} ],
"doc_id" : "053e86000f9e4ed5aca7ee6670fb6474",
"doc_name" : "17-参考资料_深圳市_2023_年国民经济和社会发展统计公报_市长助理超级应用_经济运行报告.pdf",
"doc_type" : "PDF",
"html_path" : "kos-docs/haier/output/html/05/053e86000f9e4ed5aca7ee6670fb6474.html",
"json_path" : "kos-docs/haier/output/json/05/053e86000f9e4ed5aca7ee6670fb6474.json",
"md_path" : "kos-docs/haier/output/md/05/053e86000f9e4ed5aca7ee6670fb6474.md",
"file_size" : 80549
}
}
状态码
|
状态码 |
描述 |
|---|---|
|
200 |
文档内容解析异步任务结果 |
|
400 |
请求参数异常 |
|
401 |
鉴权认证异常 |
|
500 |
服务内容异常 |
错误码
请参见错误码。