查询文档解析结果
功能介绍
查询文档解析结果
URI
GET /v1/koosearch/doc-search/parse-result
参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
task_id | 否 | String | 解析任务id |
请求参数
参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
X-Auth-Token | 是 | String | 参数解释: 接口鉴权使用的Token,Token获取方式参考:3.2节 认证鉴权。 约束限制: 不涉及。 |
响应参数
状态码:200
参数 | 参数类型 | 描述 |
|---|---|---|
task_status | String | 解析任务状态,success表示成功,error表示失败 pending表示处理中 |
task_desc | String | 任务描述,主要为任务失败时的信息 |
result | ParsedDocument object | 文档解析结果,只有解析成功时包含此字段 |
参数 | 参数类型 | 描述 |
|---|---|---|
doc_id | String | 文档id,通过UUID生成 |
doc_name | String | 文档名称 |
doc_type | String | 文档类型,如pdf/docx |
preview_file_url | String | 预览文件地址 |
original_file | String | 原始文档路径 |
file_size | Integer | 原始文档大小,单位:字节 |
pages | Array of ParsedDocumentPage objects | 文档页面信息 |
images | Array of ParsedDocumentImage objects | 文档图片信息 |
original_tables | Array of OriginalTable objects | 原始表格信息 |
参数 | 参数类型 | 描述 |
|---|---|---|
page_num | Integer | 页码,对应文档中的第几页 |
preview_image_url | String | 文档页面预览图地址 |
components | Array of ParsedDocumentComponent objects | 页面中的段落信息 |
参数 | 参数类型 | 描述 |
|---|---|---|
id | String | 段落id,通过UUID生成 |
text | String | 段落内容 |
component_num | Integer | 段落码,对应文档中的第几个段落,从1开始计数 |
pdf_coordinate | Array<Array<Integer>> | 段落在页面中的坐标,分别对应 左上、右上、右下、左下,用于高亮展示 |
original_table_id | String | 只有当表格被拆分时有值,保存原始的长表格,支撑small2big特性 |
参数 | 参数类型 | 描述 |
|---|---|---|
image_id | String | 图片id,img-前缀加上UUID |
url | String | 图片上传到obs后的路径 |
data | String | 图片的base64编码数据 |
title | String | 图片的标题 |
desc | String | 图片的描述 |
width | Integer | 图片的宽度 |
height | Integer | 图片的高度 |
状态码:400
参数 | 参数类型 | 描述 |
|---|---|---|
error_code | String | |
error_msg | String | 错误描述 |
状态码:401
参数 | 参数类型 | 描述 |
|---|---|---|
error_code | String | |
error_msg | String | 错误描述 |
状态码:500
参数 | 参数类型 | 描述 |
|---|---|---|
error_code | String | |
error_msg | String | 错误描述 |
请求示例
无
响应示例
无
状态码
状态码 | 描述 |
|---|---|
200 | 文档内容解析异步任务结果 |
400 | 请求参数异常 |
401 | 鉴权认证异常 |
500 | 服务内容异常 |
错误码
请参见错误码。

