文件内容解析
功能介绍
拿解析结果,进行拆分合并处理
URI
POST /v1/koosearch/doc-search/parse-result/split
请求参数
参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
X-Auth-Token | 是 | String | 参数解释: 接口鉴权使用的Token,Token获取方式参考:3.2节 认证鉴权。 约束限制: 不涉及。 |
参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
doc | 是 | ParsedDocument object | 文档解析信息 |
mode | 否 | Integer | 0:raw, 1:目录拆分, 2:按章节规则拆分, 3:长度拆分, 4:自动拆分 |
rule_regexs | 否 | Array of strings | 正则匹配 |
chunk_size | 否 | Integer | 分片大小 |
参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
doc_id | 是 | String | 文档id,通过UUID生成 |
doc_name | 是 | String | 文档名称 |
doc_type | 是 | String | 文档类型,如pdf/docx |
preview_file_url | 否 | String | 预览文件地址 |
original_file | 否 | String | 原始文档路径 |
file_size | 否 | Integer | 原始文档大小,单位:字节 |
pages | 否 | Array of ParsedDocumentPage objects | 文档页面信息 |
images | 否 | Array of ParsedDocumentImage objects | 文档图片信息 |
original_tables | 否 | Array of OriginalTable objects | 原始表格信息 |
参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
page_num | 是 | Integer | 页码,对应文档中的第几页 |
preview_image_url | 否 | String | 文档页面预览图地址 |
components | 否 | Array of ParsedDocumentComponent objects | 页面中的段落信息 |
参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
id | 是 | String | 段落id,通过UUID生成 |
text | 是 | String | 段落内容 |
component_num | 是 | Integer | 段落码,对应文档中的第几个段落,从1开始计数 |
pdf_coordinate | 是 | Array<Array<Integer>> | 段落在页面中的坐标,分别对应 左上、右上、右下、左下,用于高亮展示 |
original_table_id | 否 | String | 只有当表格被拆分时有值,保存原始的长表格,支撑small2big特性 |
响应参数
状态码:200
参数 | 参数类型 | 描述 |
|---|---|---|
doc_id | String | 文档id,通过UUID生成 |
doc_name | String | 文档名称 |
doc_type | String | 文档类型,如pdf/docx |
preview_file_url | String | 预览文件地址 |
original_file | String | 原始文档路径 |
file_size | Integer | 原始文档大小,单位:字节 |
pages | Array of ParsedDocumentPage objects | 文档页面信息 |
images | Array of ParsedDocumentImage objects | 文档图片信息 |
original_tables | Array of OriginalTable objects | 原始表格信息 |
参数 | 参数类型 | 描述 |
|---|---|---|
page_num | Integer | 页码,对应文档中的第几页 |
preview_image_url | String | 文档页面预览图地址 |
components | Array of ParsedDocumentComponent objects | 页面中的段落信息 |
参数 | 参数类型 | 描述 |
|---|---|---|
id | String | 段落id,通过UUID生成 |
text | String | 段落内容 |
component_num | Integer | 段落码,对应文档中的第几个段落,从1开始计数 |
pdf_coordinate | Array<Array<Integer>> | 段落在页面中的坐标,分别对应 左上、右上、右下、左下,用于高亮展示 |
original_table_id | String | 只有当表格被拆分时有值,保存原始的长表格,支撑small2big特性 |
参数 | 参数类型 | 描述 |
|---|---|---|
image_id | String | 图片id,img-前缀加上UUID |
url | String | 图片上传到obs后的路径 |
data | String | 图片的base64编码数据 |
title | String | 图片的标题 |
desc | String | 图片的描述 |
width | Integer | 图片的宽度 |
height | Integer | 图片的高度 |
状态码:400
参数 | 参数类型 | 描述 |
|---|---|---|
error_code | String | |
error_msg | String | 错误描述 |
状态码:401
参数 | 参数类型 | 描述 |
|---|---|---|
error_code | String | |
error_msg | String | 错误描述 |
状态码:500
参数 | 参数类型 | 描述 |
|---|---|---|
error_code | String | |
error_msg | String | 错误描述 |
请求示例
无
响应示例
状态码:200
doc拆分合并结果
{
"pages" : [ {
"components" : [ {
"id" : "393c1d28cd9c40f5ad9f7a2d33dffb80",
"text" : "1 第一个---一级标题\n1.1 二级标题1\n阿萨德阿萨德啊啊啊啊啊啊啊啊啊啊啊\n1.2 二级标题2\n少时诵诗书所所所所所所所所所所所所所所所所\n2 第二个---一级标题\n2.1 二级标题3\n惆怅长岑长错错错错错错错错\n2.2 二级标题4\n少时诵诗书所所所所所所所\nlistItemByLevel 存放各个层级中的元素,0,1,2。。。 0 代表一级标题,对应的value是文章中的一级标题实物。遇到全新的组标题,会清理\nlistContextMap 存放numId和listContext的对应关系\nitemContext 新创建的标题,成员变量number应该是计数第几个标题。里面有父子关系\nListItemContext parent 里面的nb是用来统计孩子的数量\n这个文档的一级标题和二级标题的numId是一样的\n3 第一个---一级标题\n3.1 二级标题1\n阿萨德阿萨德啊啊啊啊啊啊啊啊啊啊啊\n3.2 二级标题2\n少时诵诗书所所所所所所所所所所所所所所所所\n4 第二个---一级标题\n4.1 二级标题3\n惆怅长岑长错错错错错错错错\n4.2 二级标题4\n少时诵诗书所所所所所所所\nlistItemByLevel 存放各个层级中的元素,0,1,2。。。 0 代表一级标题,对应的value是文章中的一级标题实物。遇到全新的组标题,会清理\nlistContextMap 存放numId和listContext的对应关系\nitemContext 新创建的标题,成员变量number应该是计数第几个标题。里面有父子关系\nListItemContext parent 里面的nb是用来统计孩子的数量\n这个文档的一级标题和二级标题的numId是一样的\n5 第一个---一级标题\n5.1 二级标题1\n阿萨德阿萨德啊啊啊啊啊啊啊啊啊啊啊\n5.2 二级标题2\n少时诵诗书所所所所所所所所所所所所所所所所\n6 第二个---一级标题\n6.1 二级标题3\n惆怅长岑长错错错错错错错错\n6.2 二级标题4\n少时诵诗书所所所所所所所\nlistItemByLevel 存放各个层级中的元素,0,1,2。。。 0 代表一级标题,对应的value是文章中的一级标题实物。遇到全新的组标题,会清理\nlistContextMap 存放numId和listContext的对应关系\nitemContext 新创建的标题,成员变量number应该是计数第几个标题。里面有父子关系\nListItemContext parent 里面的nb是用来统计孩子的数量\n这个文档的一级标题和二级标题的numId是一样的\n7 第一个---一级标题\n7.1 二级标题1\n阿萨德阿萨德啊啊啊啊啊啊啊啊啊啊啊\n7.2 二级标题2\n少时诵诗书所所所所所所所所所所所所所所所所\n8 第二个---一级标题\n8.1 二级标题3\n惆怅长岑长错错错错错错错错\n8.2 二级标题4\n少时诵诗书所所所所所所所\nlistItemByLevel 存放各个层级中的元素,0,1,2。。。 0 代表一级标题,对应的value是文章中的一级标题实物。遇到全新的组标题,会清理\nlistContextMap 存放numId和listContext的对应关系\nitemContext 新创建的标题,成员变量number应该是计数第几个标题。里面有父子关系\nListItemContext parent 里面的nb是用来统计孩子的数量\n这个文档的一级标题和二级标题的numId是一样的",
"component_num" : 1
} ],
"page_num" : 0
} ],
"doc_id" : "844f805a7255437b8c139f4331ec3012",
"doc_name" : "测试标题编号.docx",
"doc_type" : "DOCX",
"original_file" : "uni-search/files/729cbd739854470da5426ed26bd900ca/fb9731ab-7085-474f-b6c7-64473586f0f3/c5e7dc40-9d43-49fd-8b5f-12c906ed66d2/d5a4ced94f07050841eb9424f87096af/测试标题编号.docx",
"file_size" : 68621
} 状态码
状态码 | 描述 |
|---|---|
200 | doc拆分合并结果 |
400 | 请求参数异常 |
401 | 鉴权异常 |
500 | 服务内部异常 |
错误码
请参见错误码。

