更新时间:2025-07-22 GMT+08:00
分享

查询文档解析结果

功能介绍

查询文档解析结果

URI

GET /v1/koosearch/doc-search/parse-result

表1 Query参数

参数

是否必选

参数类型

描述

task_id

String

解析任务id

请求参数

表2 请求Header参数

参数

是否必选

参数类型

描述

X-Auth-Token

String

参数解释:

接口鉴权使用的Token,Token获取方式参考:3.2节 认证鉴权。

约束限制:

不涉及。

响应参数

状态码:200

表3 响应Body参数

参数

参数类型

描述

task_status

String

解析任务状态,success表示成功,error表示失败 pending表示处理中

task_desc

String

任务描述,主要为任务失败时的信息

result

ParsedDocument object

文档解析结果,只有解析成功时包含此字段

表4 ParsedDocument

参数

参数类型

描述

doc_id

String

文档id,通过UUID生成

doc_name

String

文档名称

doc_type

String

文档类型,如pdf/docx

preview_file_url

String

预览文件地址

original_file

String

原始文档路径

file_size

Integer

原始文档大小,单位:字节

pages

Array of ParsedDocumentPage objects

文档页面信息

images

Array of ParsedDocumentImage objects

文档图片信息

original_tables

Array of OriginalTable objects

原始表格信息

表5 ParsedDocumentPage

参数

参数类型

描述

page_num

Integer

页码,对应文档中的第几页

preview_image_url

String

文档页面预览图地址

components

Array of ParsedDocumentComponent objects

页面中的段落信息

表6 ParsedDocumentComponent

参数

参数类型

描述

id

String

段落id,通过UUID生成

text

String

段落内容

component_num

Integer

段落码,对应文档中的第几个段落,从1开始计数

pdf_coordinate

Array<Array<Integer>>

段落在页面中的坐标,分别对应 左上、右上、右下、左下,用于高亮展示

original_table_id

String

只有当表格被拆分时有值,保存原始的长表格,支撑small2big特性

表7 ParsedDocumentImage

参数

参数类型

描述

image_id

String

图片id,img-前缀加上UUID

url

String

图片上传到obs后的路径

data

String

图片的base64编码数据

title

String

图片的标题

desc

String

图片的描述

width

Integer

图片的宽度

height

Integer

图片的高度

表8 OriginalTable

参数

参数类型

描述

id

String

表格标识。ParsedDocumentComponent会引用此标识,避免存储多份。

content

String

表格内容

状态码:400

表9 响应Body参数

参数

参数类型

描述

error_code

String

错误码

error_msg

String

错误描述

状态码:401

表10 响应Body参数

参数

参数类型

描述

error_code

String

错误码

error_msg

String

错误描述

状态码:500

表11 响应Body参数

参数

参数类型

描述

error_code

String

错误码

error_msg

String

错误描述

请求示例

响应示例

状态码

状态码

描述

200

文档内容解析异步任务结果

400

请求参数异常

401

鉴权认证异常

500

服务内容异常

错误码

请参见错误码

相关文档