文件内容解析

功能介绍

拿解析结果，进行拆分合并处理

URI

POST /v1/koosearch/doc-search/parse-result/split

请求参数

表1 请求Header参数
参数	是否必选	参数类型	描述
X-Auth-Token	是	String	参数解释：接口鉴权使用的Token，Token获取方式参考：3.2节认证鉴权。约束限制：不涉及。

表2 请求Body参数
参数	是否必选	参数类型	描述
doc	是	ParsedDocument object	文档解析信息
mode	否	Integer	0:raw, 1:目录拆分, 2:按章节规则拆分, 3:长度拆分, 4:自动拆分
rule_regexs	否	Array of strings	正则匹配
chunk_size	否	Integer	分片大小

表3 ParsedDocument
参数	是否必选	参数类型	描述
doc_id	是	String	文档id，通过UUID生成
doc_name	是	String	文档名称
doc_type	是	String	文档类型，如pdf/docx
preview_file_url	否	String	预览文件地址
original_file	否	String	原始文档路径
file_size	否	Integer	原始文档大小,单位：字节
pages	否	Array of ParsedDocumentPage objects	文档页面信息
images	否	Array of ParsedDocumentImage objects	文档图片信息
original_tables	否	Array of OriginalTable objects	原始表格信息

表4 ParsedDocumentPage
参数	是否必选	参数类型	描述
page_num	是	Integer	页码，对应文档中的第几页
preview_image_url	否	String	文档页面预览图地址
components	否	Array of ParsedDocumentComponent objects	页面中的段落信息

表5 ParsedDocumentComponent
参数	是否必选	参数类型	描述
id	是	String	段落id，通过UUID生成
text	是	String	段落内容
component_num	是	Integer	段落码，对应文档中的第几个段落，从1开始计数
pdf_coordinate	是	Array<Array<Integer>>	段落在页面中的坐标，分别对应左上、右上、右下、左下，用于高亮展示
original_table_id	否	String	只有当表格被拆分时有值，保存原始的长表格，支撑small2big特性

表6 ParsedDocumentImage
参数	是否必选	参数类型	描述
image_id	是	String	图片id，img-前缀加上UUID
url	否	String	图片上传到obs后的路径
data	否	String	图片的base64编码数据
title	否	String	图片的标题
desc	否	String	图片的描述
width	否	Integer	图片的宽度
height	否	Integer	图片的高度

表7 OriginalTable
参数	是否必选	参数类型	描述
id	是	String	表格标识。ParsedDocumentComponent会引用此标识，避免存储多份。
content	是	String	表格内容

响应参数

状态码：200

表8 响应Body参数
参数	参数类型	描述
doc_id	String	文档id，通过UUID生成
doc_name	String	文档名称
doc_type	String	文档类型，如pdf/docx
preview_file_url	String	预览文件地址
original_file	String	原始文档路径
file_size	Integer	原始文档大小,单位：字节
pages	Array of ParsedDocumentPage objects	文档页面信息
images	Array of ParsedDocumentImage objects	文档图片信息
original_tables	Array of OriginalTable objects	原始表格信息

表9 ParsedDocumentPage
参数	参数类型	描述
page_num	Integer	页码，对应文档中的第几页
preview_image_url	String	文档页面预览图地址
components	Array of ParsedDocumentComponent objects	页面中的段落信息

**表10** ParsedDocumentComponent
参数	参数类型	描述
id	String	段落id，通过UUID生成
text	String	段落内容
component_num	Integer	段落码，对应文档中的第几个段落，从1开始计数
pdf_coordinate	Array<Array<Integer>>	段落在页面中的坐标，分别对应左上、右上、右下、左下，用于高亮展示
original_table_id	String	只有当表格被拆分时有值，保存原始的长表格，支撑small2big特性

**表11** ParsedDocumentImage
参数	参数类型	描述
image_id	String	图片id，img-前缀加上UUID
url	String	图片上传到obs后的路径
data	String	图片的base64编码数据
title	String	图片的标题
desc	String	图片的描述
width	Integer	图片的宽度
height	Integer	图片的高度

**表12** OriginalTable
参数	参数类型	描述
id	String	表格标识。ParsedDocumentComponent会引用此标识，避免存储多份。
content	String	表格内容

状态码：400

**表13** 响应Body参数
参数	参数类型	描述
error_code	String	错误码
error_msg	String	错误描述

状态码：401

**表14** 响应Body参数
参数	参数类型	描述
error_code	String	错误码
error_msg	String	错误描述

状态码：500

**表15** 响应Body参数
参数	参数类型	描述
error_code	String	错误码
error_msg	String	错误描述

请求示例

无

响应示例

状态码：200

doc拆分合并结果

{
  "pages" : [ {
    "components" : [ {
      "id" : "393c1d28cd9c40f5ad9f7a2d33dffb80",
      "text" : "1 第一个---一级标题\n1.1 二级标题1\n阿萨德阿萨德啊啊啊啊啊啊啊啊啊啊啊\n1.2 二级标题2\n少时诵诗书所所所所所所所所所所所所所所所所\n2 第二个---一级标题\n2.1 二级标题3\n惆怅长岑长错错错错错错错错\n2.2 二级标题4\n少时诵诗书所所所所所所所\nlistItemByLevel 存放各个层级中的元素，0,1,2。。。 0 代表一级标题，对应的value是文章中的一级标题实物。遇到全新的组标题，会清理\nlistContextMap 存放numId和listContext的对应关系\nitemContext  新创建的标题，成员变量number应该是计数第几个标题。里面有父子关系\nListItemContext parent 里面的nb是用来统计孩子的数量\n这个文档的一级标题和二级标题的numId是一样的\n3 第一个---一级标题\n3.1 二级标题1\n阿萨德阿萨德啊啊啊啊啊啊啊啊啊啊啊\n3.2 二级标题2\n少时诵诗书所所所所所所所所所所所所所所所所\n4 第二个---一级标题\n4.1 二级标题3\n惆怅长岑长错错错错错错错错\n4.2 二级标题4\n少时诵诗书所所所所所所所\nlistItemByLevel 存放各个层级中的元素，0,1,2。。。 0 代表一级标题，对应的value是文章中的一级标题实物。遇到全新的组标题，会清理\nlistContextMap 存放numId和listContext的对应关系\nitemContext  新创建的标题，成员变量number应该是计数第几个标题。里面有父子关系\nListItemContext parent 里面的nb是用来统计孩子的数量\n这个文档的一级标题和二级标题的numId是一样的\n5 第一个---一级标题\n5.1 二级标题1\n阿萨德阿萨德啊啊啊啊啊啊啊啊啊啊啊\n5.2 二级标题2\n少时诵诗书所所所所所所所所所所所所所所所所\n6 第二个---一级标题\n6.1 二级标题3\n惆怅长岑长错错错错错错错错\n6.2 二级标题4\n少时诵诗书所所所所所所所\nlistItemByLevel 存放各个层级中的元素，0,1,2。。。 0 代表一级标题，对应的value是文章中的一级标题实物。遇到全新的组标题，会清理\nlistContextMap 存放numId和listContext的对应关系\nitemContext  新创建的标题，成员变量number应该是计数第几个标题。里面有父子关系\nListItemContext parent 里面的nb是用来统计孩子的数量\n这个文档的一级标题和二级标题的numId是一样的\n7 第一个---一级标题\n7.1 二级标题1\n阿萨德阿萨德啊啊啊啊啊啊啊啊啊啊啊\n7.2 二级标题2\n少时诵诗书所所所所所所所所所所所所所所所所\n8 第二个---一级标题\n8.1 二级标题3\n惆怅长岑长错错错错错错错错\n8.2 二级标题4\n少时诵诗书所所所所所所所\nlistItemByLevel 存放各个层级中的元素，0,1,2。。。 0 代表一级标题，对应的value是文章中的一级标题实物。遇到全新的组标题，会清理\nlistContextMap 存放numId和listContext的对应关系\nitemContext  新创建的标题，成员变量number应该是计数第几个标题。里面有父子关系\nListItemContext parent 里面的nb是用来统计孩子的数量\n这个文档的一级标题和二级标题的numId是一样的",
      "component_num" : 1
    } ],
    "page_num" : 0
  } ],
  "doc_id" : "844f805a7255437b8c139f4331ec3012",
  "doc_name" : "测试标题编号.docx",
  "doc_type" : "DOCX",
  "original_file" : "uni-search/files/729cbd739854470da5426ed26bd900ca/fb9731ab-7085-474f-b6c7-64473586f0f3/c5e7dc40-9d43-49fd-8b5f-12c906ed66d2/d5a4ced94f07050841eb9424f87096af/测试标题编号.docx",
  "file_size" : 68621
}