文档首页/ 云搜索服务 CSS_企业搜索服务 KooSearch/ API参考/ API/ API/ 任务管理/ 文档内容解析异步任务结果查询 - ShowDocumentTask
更新时间:2025-11-28 GMT+08:00
分享

文档内容解析异步任务结果查询 - ShowDocumentTask

功能介绍

文档内容解析异步任务查询

URI

GET /v1/{project_id}/applications/{app_id}/doc-search/tasks/{task_id}

表1 路径参数

参数

是否必选

参数类型

描述

project_id

String

参数解释:

项目ID,获取方法请参见获取项目ID。

约束限制:

不涉及

取值范围:

1~64个字符,只能包含数字、字母、中划线和下划线,且必须以字母开头。

默认取值:

不涉及

app_id

String

参数解释:

应用ID,获取方法请参见获取应用ID。

约束限制:

字符串

取值范围:

1~64个字符,只能包含数字、字母、中划线和下划线,且必须以字母开头。

默认取值:

不涉及

task_id

String

参数解释:

任务标识,32个字符,只能包含数字和字母。文档解析任务的id,可以通过此id查询文档解析状态和解析结果。

约束限制:

32个字符长度

取值范围:

不涉及

默认取值:

不涉及

表2 Query参数

参数

是否必选

参数类型

描述

is_other_original_table

Boolean

参数解释:

xlsx、xls、et是否返回big content字段

约束限制:

不涉及

取值范围:

  • false xlsx、xls、et不返回big content字段

  • true xlsx、xls、et返回big content字段

默认取值:

不涉及

请求参数

表3 请求Header参数

参数

是否必选

参数类型

描述

X-Auth-Token

String

参数解释:

接口鉴权使用的Token,Token获取方式参考:获取IAM用户Token。

约束限制:

不涉及

取值范围:

不涉及

默认取值:

不涉及

响应参数

状态码:200

表4 响应Body参数

参数

参数类型

描述

task_desc

String

参数解释:

任务描述,主要为任务失败时的信息

约束限制:

不涉及

取值范围:

不涉及

默认取值:

不涉及

result

ParsedDocument object

文档解析结果,只有解析成功时包含此字段

表5 ParsedDocument

参数

参数类型

描述

doc_id

String

参数解释:

文档id,通过UUID生成

取值范围:

不涉及

doc_name

String

参数解释:

文档名称

取值范围:

不涉及

doc_type

String

参数解释:

文档类型,如pdf/docx。

取值范围:

枚举值

  • PDF

  • DOCX

preview_file_url

String

参数解释:

预览文件地址

约束限制:

不涉及

取值范围:

不涉及

默认取值:

不涉及

original_file

String

参数解释:

原始文档路径

取值范围:

不涉及

html_path

String

参数解释:

生成html文件路径。

取值范围:

不涉及

file_size

Integer

参数解释:

原始文档大小,单位:字节。

取值范围:

不涉及

pages

Array of ParsedDocumentPage objects

参数解释:

文档页面信息。

取值范围:

不涉及

images

Array of ParsedDocumentImage objects

参数解释:

文档图片信息。

取值范围:

不涉及

original_tables

Array of OriginalTable objects

参数解释:

原始表格信息。

取值范围:

不涉及

表6 ParsedDocumentPage

参数

参数类型

描述

page_num

Integer

参数解释:

页码,对应文档中的第几页。

取值范围:

不涉及

preview_image_url

String

参数解释:

文档页面预览图地址。

取值范围:

不涉及

components

Array of ParsedDocumentComponent objects

参数解释:

页面中的段落信息。

取值范围:

不涉及

表7 ParsedDocumentComponent

参数

参数类型

描述

id

String

参数解释:

段落id,通过UUID生成

取值范围:

不涉及

text

String

参数解释:

段落内容。

取值范围:

不涉及

component_num

Integer

参数解释:

段落码,对应文档中的第几个段落,从1开始计数。

取值范围:

不涉及

pdf_coordinate

Array<Array<Integer>>

参数解释:

段落在页面中的坐标,分别对应 左上、右上、右下、左下,用于高亮展示。

取值范围:

不涉及

original_table_id

String

参数解释:

只有当表格被拆分时有值,保存原始的长表格,支撑small2big特性。

取值范围:

不涉及

type

String

参数解释:

标记分片类型。

取值范围:

不涉及

title

String

参数解释:

段落标题。

取值范围:

不涉及

original_title

String

参数解释:

标识原始标题。

取值范围:

不涉及

element_id

String

参数解释:

对应到html里的元素id,用于文本定位。

取值范围:

不涉及

elements

Array of strings

参数解释:

对应到html里的元素集合,用于文本高亮。

取值范围:

不涉及

original_page_nums

Array of integers

参数解释:

标识分片原始页码。

取值范围:

不涉及

表8 ParsedDocumentImage

参数

参数类型

描述

image_id

String

参数解释:

图片id,img-前缀加上UUID。

取值范围:

不涉及

url

String

参数解释:

图片上传到obs后的路径。

取值范围:

不涉及

data

String

参数解释:

图片的base64编码数据。

取值范围:

不涉及

title

String

参数解释:

图片的标题。

取值范围:

不涉及

desc

String

参数解释:

图片的描述。

取值范围:

不涉及

width

Integer

参数解释:

图片的宽度。

取值范围:

不涉及

height

Integer

参数解释:

图片的高度。

取值范围:

不涉及

表9 OriginalTable

参数

参数类型

描述

id

String

参数解释:

表格标识。ParsedDocumentComponent会引用此标识,避免存储多份。

取值范围:

不涉及

content

String

参数解释:

表格内容。

取值范围:

不涉及

状态码:400

表10 响应Body参数

参数

参数类型

描述

error_code

String

参数解释:

错误码

取值范围:

不涉及

error_msg

String

参数解释:

错误描述

取值范围:

不涉及

状态码:401

表11 响应Body参数

参数

参数类型

描述

error_code

String

参数解释:

错误码

取值范围:

不涉及

error_msg

String

参数解释:

错误描述

取值范围:

不涉及

状态码:500

表12 响应Body参数

参数

参数类型

描述

error_code

String

参数解释:

错误码

取值范围:

不涉及

error_msg

String

参数解释:

错误描述

取值范围:

不涉及

请求示例

https://127.0.0.1:8081/v1/729cbd739854470da5426ed26bd900ca/applications/01d3c218-4d37-489a-98ff-69d69ea44bb1/doc-search/tasks/37d4e2c03b76455a9e2b9e3fad2e5967?is_other_original_table=false

响应示例

状态码:200

文档内容解析异步任务结果

{
  "process" : 100,
  "task_status" : "SUCCESS",
  "result" : {
    "pages" : [ {
      "components" : [ {
        "id" : "9074e9104fae45fa9c5ddb7e596a21ca",
        "text" : "2844家,比上年增加 101 家。上市股票 2879 只,增加101只。 其中,A股 2838 只,增加 102 只;B股41 只,减少 1 只。总发 行股本 26414.94 亿股,比上年增长 3.0%;总流通股本22970.66 亿股,增长 4.4%。\n全年保险机构原保险保费收入1719.56 亿元,比上年增长 12.6%。其中,财产险业务收入 442.69 亿元,增长 5.9%;人身险 业务收入1276.87 亿元,增长15.1%。各项赔付支出561.57亿元, 增长 27.5%。其中,财产险业务支出 264.54 亿元,增长 19.7%; 人身险业务支出 297.03 亿元,增长 35.2%。\n九、人民生活和社会保障\n全年全市居民人均可支配收入76910 元,比上年增长 5.8%。 居民人均消费支出 49013 元,增长 9.4%。恩格尔系数为 29.4%。",
        "component_num" : 1,
        "pdf_coordinate" : [ [ 72, 107 ], [ 521, 107 ], [ 521, 444 ], [ 72, 444 ] ],
        "element_id" : "9074e9104fae45fa9c5ddb7e596a21ca",
        "elements" : [ "9074e9104fae45fa9c5ddb7e596a21ca", "dbd121825fae4137b641b79f52d4e4ec", "89ac39fe379a43319ae7ef299316a563", "4e401be69a5a4b89a8dc0e9cc0b94955" ],
        "original_page_nums" : [ 1 ]
      }, {
        "id" : "3ac0437f4bad46fc86ead8b72cf4ccfe",
        "text" : "```echarts-117dfebaf04648e08dd4b09638c83dac\n{\n    \"title\": {\n        \"text\": \"\"\n    },\n    \"legend\": {\n        \"data\": [\n            \"食品烟酒\",\n            \"衣着\",\n            \"居住\",\n            \"生活用品及服务\",\n            \"交通通信\",\n            \"教育文化娱乐\",\n            \"医疗保健\",\n            \"其他用品及服务\"\n        ]\n    },\n    \"tooltip\": {\n        \"trigger\": \"item\",\n        \"formatter\": \"{a} <br/>{b}: {c} ({d}%)\"\n    },\n    \"series\": [\n        {\n            \"name\": \"\",\n            \"type\": \"pie\",\n            \"radius\": \"55%\",\n            \"center\": [\"50%\", \"50%\"],\n            \"data\": [\n                { \"value\": 14429.44, \"name\": \"食品烟酒\", \"percent\": 29.4 },\n                { \"value\": 2169.98, \"name\": \"衣着\", \"percent\": 4.4 },\n                { \"value\": 12990.05, \"name\": \"居住\", \"percent\": 26.5 },\n                { \"value\": 2508.15, \"name\": \"生活用品及服务\", \"percent\": 5.1 },\n                { \"value\": 7362.83, \"name\": \"交通通信\", \"percent\": 15.0 },\n                { \"value\": 5034.22, \"name\": \"教育文化娱乐\", \"percent\": 10.3 },\n                { \"value\": 2513.40, \"name\": \"医疗保健\", \"percent\": 5.1 },\n                { \"value\": 2004.93, \"name\": \"其他用品及服务\", \"percent\": 4.1 }\n            ],\n            \"emphasis\": {\n                \"itemStyle\": {\n                    \"shadowBlur\": 10,\n                    \"shadowOffsetX\": 0,\n                    \"shadowColor\": \"rgba(0, 0, 0, 0.5)\"\n                }\n            }\n        }\n    ]\n}\n```\n{img-117dfebaf04648e08dd4b09638c83dac}\n图11\n2023年全市居民人均消费支出及构成<br>",
        "component_num" : 2,
        "pdf_coordinate" : [ [ 81, 478 ], [ 512, 478 ], [ 512, 702 ], [ 81, 702 ] ],
        "element_id" : "3ac0437f4bad46fc86ead8b72cf4ccfe",
        "elements" : [ "3ac0437f4bad46fc86ead8b72cf4ccfe" ],
        "original_page_nums" : [ 1 ]
      } ],
      "page_num" : 1
    } ],
    "images" : [ {
      "image_id" : "img-117dfebaf04648e08dd4b09638c83dac",
      "url" : "kos-docs/guangqi/images/ec/ecd9d8294ba04bba968ab88e15e15779.jpg",
      "title" : "图11\n2023年全市居民人均消费支出及构成",
      "width" : 897,
      "height" : 467
    } ],
    "doc_id" : "053e86000f9e4ed5aca7ee6670fb6474",
    "doc_name" : "17-参考资料_深圳市_2023_年国民经济和社会发展统计公报_市长助理超级应用_经济运行报告.pdf",
    "doc_type" : "PDF",
    "html_path" : "kos-docs/haier/output/html/05/053e86000f9e4ed5aca7ee6670fb6474.html",
    "json_path" : "kos-docs/haier/output/json/05/053e86000f9e4ed5aca7ee6670fb6474.json",
    "md_path" : "kos-docs/haier/output/md/05/053e86000f9e4ed5aca7ee6670fb6474.md",
    "file_size" : 80549
  }
}

状态码

状态码

描述

200

文档内容解析异步任务结果

400

请求参数异常

401

鉴权认证异常

500

服务内容异常

错误码

请参见错误码

相关文档