更新时间:2025-07-22 GMT+08:00
分享

文件内容解析

功能介绍

拿解析结果,进行拆分合并处理

URI

POST /v1/koosearch/doc-search/parse-result/split

请求参数

表1 请求Header参数

参数

是否必选

参数类型

描述

X-Auth-Token

String

参数解释:

接口鉴权使用的Token,Token获取方式参考:3.2节 认证鉴权。

约束限制:

不涉及。

表2 请求Body参数

参数

是否必选

参数类型

描述

doc

ParsedDocument object

文档解析信息

mode

Integer

0:raw, 1:目录拆分, 2:按章节规则拆分, 3:长度拆分, 4:自动拆分

rule_regexs

Array of strings

正则匹配

chunk_size

Integer

分片大小

表3 ParsedDocument

参数

是否必选

参数类型

描述

doc_id

String

文档id,通过UUID生成

doc_name

String

文档名称

doc_type

String

文档类型,如pdf/docx

preview_file_url

String

预览文件地址

original_file

String

原始文档路径

file_size

Integer

原始文档大小,单位:字节

pages

Array of ParsedDocumentPage objects

文档页面信息

images

Array of ParsedDocumentImage objects

文档图片信息

original_tables

Array of OriginalTable objects

原始表格信息

表4 ParsedDocumentPage

参数

是否必选

参数类型

描述

page_num

Integer

页码,对应文档中的第几页

preview_image_url

String

文档页面预览图地址

components

Array of ParsedDocumentComponent objects

页面中的段落信息

表5 ParsedDocumentComponent

参数

是否必选

参数类型

描述

id

String

段落id,通过UUID生成

text

String

段落内容

component_num

Integer

段落码,对应文档中的第几个段落,从1开始计数

pdf_coordinate

Array<Array<Integer>>

段落在页面中的坐标,分别对应 左上、右上、右下、左下,用于高亮展示

original_table_id

String

只有当表格被拆分时有值,保存原始的长表格,支撑small2big特性

表6 ParsedDocumentImage

参数

是否必选

参数类型

描述

image_id

String

图片id,img-前缀加上UUID

url

String

图片上传到obs后的路径

data

String

图片的base64编码数据

title

String

图片的标题

desc

String

图片的描述

width

Integer

图片的宽度

height

Integer

图片的高度

表7 OriginalTable

参数

是否必选

参数类型

描述

id

String

表格标识。ParsedDocumentComponent会引用此标识,避免存储多份。

content

String

表格内容

响应参数

状态码:200

表8 响应Body参数

参数

参数类型

描述

doc_id

String

文档id,通过UUID生成

doc_name

String

文档名称

doc_type

String

文档类型,如pdf/docx

preview_file_url

String

预览文件地址

original_file

String

原始文档路径

file_size

Integer

原始文档大小,单位:字节

pages

Array of ParsedDocumentPage objects

文档页面信息

images

Array of ParsedDocumentImage objects

文档图片信息

original_tables

Array of OriginalTable objects

原始表格信息

表9 ParsedDocumentPage

参数

参数类型

描述

page_num

Integer

页码,对应文档中的第几页

preview_image_url

String

文档页面预览图地址

components

Array of ParsedDocumentComponent objects

页面中的段落信息

表10 ParsedDocumentComponent

参数

参数类型

描述

id

String

段落id,通过UUID生成

text

String

段落内容

component_num

Integer

段落码,对应文档中的第几个段落,从1开始计数

pdf_coordinate

Array<Array<Integer>>

段落在页面中的坐标,分别对应 左上、右上、右下、左下,用于高亮展示

original_table_id

String

只有当表格被拆分时有值,保存原始的长表格,支撑small2big特性

表11 ParsedDocumentImage

参数

参数类型

描述

image_id

String

图片id,img-前缀加上UUID

url

String

图片上传到obs后的路径

data

String

图片的base64编码数据

title

String

图片的标题

desc

String

图片的描述

width

Integer

图片的宽度

height

Integer

图片的高度

表12 OriginalTable

参数

参数类型

描述

id

String

表格标识。ParsedDocumentComponent会引用此标识,避免存储多份。

content

String

表格内容

状态码:400

表13 响应Body参数

参数

参数类型

描述

error_code

String

错误码

error_msg

String

错误描述

状态码:401

表14 响应Body参数

参数

参数类型

描述

error_code

String

错误码

error_msg

String

错误描述

状态码:500

表15 响应Body参数

参数

参数类型

描述

error_code

String

错误码

error_msg

String

错误描述

请求示例

响应示例

状态码:200

doc拆分合并结果

{
  "pages" : [ {
    "components" : [ {
      "id" : "393c1d28cd9c40f5ad9f7a2d33dffb80",
      "text" : "1 第一个---一级标题\n1.1 二级标题1\n阿萨德阿萨德啊啊啊啊啊啊啊啊啊啊啊\n1.2 二级标题2\n少时诵诗书所所所所所所所所所所所所所所所所\n2 第二个---一级标题\n2.1 二级标题3\n惆怅长岑长错错错错错错错错\n2.2 二级标题4\n少时诵诗书所所所所所所所\nlistItemByLevel 存放各个层级中的元素,0,1,2。。。 0 代表一级标题,对应的value是文章中的一级标题实物。遇到全新的组标题,会清理\nlistContextMap 存放numId和listContext的对应关系\nitemContext  新创建的标题,成员变量number应该是计数第几个标题。里面有父子关系\nListItemContext parent 里面的nb是用来统计孩子的数量\n这个文档的一级标题和二级标题的numId是一样的\n3 第一个---一级标题\n3.1 二级标题1\n阿萨德阿萨德啊啊啊啊啊啊啊啊啊啊啊\n3.2 二级标题2\n少时诵诗书所所所所所所所所所所所所所所所所\n4 第二个---一级标题\n4.1 二级标题3\n惆怅长岑长错错错错错错错错\n4.2 二级标题4\n少时诵诗书所所所所所所所\nlistItemByLevel 存放各个层级中的元素,0,1,2。。。 0 代表一级标题,对应的value是文章中的一级标题实物。遇到全新的组标题,会清理\nlistContextMap 存放numId和listContext的对应关系\nitemContext  新创建的标题,成员变量number应该是计数第几个标题。里面有父子关系\nListItemContext parent 里面的nb是用来统计孩子的数量\n这个文档的一级标题和二级标题的numId是一样的\n5 第一个---一级标题\n5.1 二级标题1\n阿萨德阿萨德啊啊啊啊啊啊啊啊啊啊啊\n5.2 二级标题2\n少时诵诗书所所所所所所所所所所所所所所所所\n6 第二个---一级标题\n6.1 二级标题3\n惆怅长岑长错错错错错错错错\n6.2 二级标题4\n少时诵诗书所所所所所所所\nlistItemByLevel 存放各个层级中的元素,0,1,2。。。 0 代表一级标题,对应的value是文章中的一级标题实物。遇到全新的组标题,会清理\nlistContextMap 存放numId和listContext的对应关系\nitemContext  新创建的标题,成员变量number应该是计数第几个标题。里面有父子关系\nListItemContext parent 里面的nb是用来统计孩子的数量\n这个文档的一级标题和二级标题的numId是一样的\n7 第一个---一级标题\n7.1 二级标题1\n阿萨德阿萨德啊啊啊啊啊啊啊啊啊啊啊\n7.2 二级标题2\n少时诵诗书所所所所所所所所所所所所所所所所\n8 第二个---一级标题\n8.1 二级标题3\n惆怅长岑长错错错错错错错错\n8.2 二级标题4\n少时诵诗书所所所所所所所\nlistItemByLevel 存放各个层级中的元素,0,1,2。。。 0 代表一级标题,对应的value是文章中的一级标题实物。遇到全新的组标题,会清理\nlistContextMap 存放numId和listContext的对应关系\nitemContext  新创建的标题,成员变量number应该是计数第几个标题。里面有父子关系\nListItemContext parent 里面的nb是用来统计孩子的数量\n这个文档的一级标题和二级标题的numId是一样的",
      "component_num" : 1
    } ],
    "page_num" : 0
  } ],
  "doc_id" : "844f805a7255437b8c139f4331ec3012",
  "doc_name" : "测试标题编号.docx",
  "doc_type" : "DOCX",
  "original_file" : "uni-search/files/729cbd739854470da5426ed26bd900ca/fb9731ab-7085-474f-b6c7-64473586f0f3/c5e7dc40-9d43-49fd-8b5f-12c906ed66d2/d5a4ced94f07050841eb9424f87096af/测试标题编号.docx",
  "file_size" : 68621
}

状态码

状态码

描述

200

doc拆分合并结果

400

请求参数异常

401

鉴权异常

500

服务内部异常

错误码

请参见错误码

相关文档