文件内容解析
功能介绍
拿解析结果,进行拆分合并处理
URI
POST /v1/koosearch/doc-search/parse-result/split
请求参数
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
X-Auth-Token |
是 |
String |
参数解释: 接口鉴权使用的Token,Token获取方式参考:3.2节 认证鉴权。 约束限制: 不涉及。 |
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
doc |
是 |
ParsedDocument object |
文档解析信息 |
mode |
否 |
Integer |
0:raw, 1:目录拆分, 2:按章节规则拆分, 3:长度拆分, 4:自动拆分 |
rule_regexs |
否 |
Array of strings |
正则匹配 |
chunk_size |
否 |
Integer |
分片大小 |
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
doc_id |
是 |
String |
文档id,通过UUID生成 |
doc_name |
是 |
String |
文档名称 |
doc_type |
是 |
String |
文档类型,如pdf/docx |
preview_file_url |
否 |
String |
预览文件地址 |
original_file |
否 |
String |
原始文档路径 |
file_size |
否 |
Integer |
原始文档大小,单位:字节 |
pages |
否 |
Array of ParsedDocumentPage objects |
文档页面信息 |
images |
否 |
Array of ParsedDocumentImage objects |
文档图片信息 |
original_tables |
否 |
Array of OriginalTable objects |
原始表格信息 |
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
page_num |
是 |
Integer |
页码,对应文档中的第几页 |
preview_image_url |
否 |
String |
文档页面预览图地址 |
components |
否 |
Array of ParsedDocumentComponent objects |
页面中的段落信息 |
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
id |
是 |
String |
段落id,通过UUID生成 |
text |
是 |
String |
段落内容 |
component_num |
是 |
Integer |
段落码,对应文档中的第几个段落,从1开始计数 |
pdf_coordinate |
是 |
Array<Array<Integer>> |
段落在页面中的坐标,分别对应 左上、右上、右下、左下,用于高亮展示 |
original_table_id |
否 |
String |
只有当表格被拆分时有值,保存原始的长表格,支撑small2big特性 |
响应参数
状态码:200
参数 |
参数类型 |
描述 |
---|---|---|
doc_id |
String |
文档id,通过UUID生成 |
doc_name |
String |
文档名称 |
doc_type |
String |
文档类型,如pdf/docx |
preview_file_url |
String |
预览文件地址 |
original_file |
String |
原始文档路径 |
file_size |
Integer |
原始文档大小,单位:字节 |
pages |
Array of ParsedDocumentPage objects |
文档页面信息 |
images |
Array of ParsedDocumentImage objects |
文档图片信息 |
original_tables |
Array of OriginalTable objects |
原始表格信息 |
参数 |
参数类型 |
描述 |
---|---|---|
page_num |
Integer |
页码,对应文档中的第几页 |
preview_image_url |
String |
文档页面预览图地址 |
components |
Array of ParsedDocumentComponent objects |
页面中的段落信息 |
参数 |
参数类型 |
描述 |
---|---|---|
id |
String |
段落id,通过UUID生成 |
text |
String |
段落内容 |
component_num |
Integer |
段落码,对应文档中的第几个段落,从1开始计数 |
pdf_coordinate |
Array<Array<Integer>> |
段落在页面中的坐标,分别对应 左上、右上、右下、左下,用于高亮展示 |
original_table_id |
String |
只有当表格被拆分时有值,保存原始的长表格,支撑small2big特性 |
参数 |
参数类型 |
描述 |
---|---|---|
image_id |
String |
图片id,img-前缀加上UUID |
url |
String |
图片上传到obs后的路径 |
data |
String |
图片的base64编码数据 |
title |
String |
图片的标题 |
desc |
String |
图片的描述 |
width |
Integer |
图片的宽度 |
height |
Integer |
图片的高度 |
参数 |
参数类型 |
描述 |
---|---|---|
id |
String |
表格标识。ParsedDocumentComponent会引用此标识,避免存储多份。 |
content |
String |
表格内容 |
状态码:400
参数 |
参数类型 |
描述 |
---|---|---|
error_code |
String |
|
error_msg |
String |
错误描述 |
状态码:401
参数 |
参数类型 |
描述 |
---|---|---|
error_code |
String |
|
error_msg |
String |
错误描述 |
状态码:500
参数 |
参数类型 |
描述 |
---|---|---|
error_code |
String |
|
error_msg |
String |
错误描述 |
请求示例
无
响应示例
状态码:200
doc拆分合并结果
{ "pages" : [ { "components" : [ { "id" : "393c1d28cd9c40f5ad9f7a2d33dffb80", "text" : "1 第一个---一级标题\n1.1 二级标题1\n阿萨德阿萨德啊啊啊啊啊啊啊啊啊啊啊\n1.2 二级标题2\n少时诵诗书所所所所所所所所所所所所所所所所\n2 第二个---一级标题\n2.1 二级标题3\n惆怅长岑长错错错错错错错错\n2.2 二级标题4\n少时诵诗书所所所所所所所\nlistItemByLevel 存放各个层级中的元素,0,1,2。。。 0 代表一级标题,对应的value是文章中的一级标题实物。遇到全新的组标题,会清理\nlistContextMap 存放numId和listContext的对应关系\nitemContext 新创建的标题,成员变量number应该是计数第几个标题。里面有父子关系\nListItemContext parent 里面的nb是用来统计孩子的数量\n这个文档的一级标题和二级标题的numId是一样的\n3 第一个---一级标题\n3.1 二级标题1\n阿萨德阿萨德啊啊啊啊啊啊啊啊啊啊啊\n3.2 二级标题2\n少时诵诗书所所所所所所所所所所所所所所所所\n4 第二个---一级标题\n4.1 二级标题3\n惆怅长岑长错错错错错错错错\n4.2 二级标题4\n少时诵诗书所所所所所所所\nlistItemByLevel 存放各个层级中的元素,0,1,2。。。 0 代表一级标题,对应的value是文章中的一级标题实物。遇到全新的组标题,会清理\nlistContextMap 存放numId和listContext的对应关系\nitemContext 新创建的标题,成员变量number应该是计数第几个标题。里面有父子关系\nListItemContext parent 里面的nb是用来统计孩子的数量\n这个文档的一级标题和二级标题的numId是一样的\n5 第一个---一级标题\n5.1 二级标题1\n阿萨德阿萨德啊啊啊啊啊啊啊啊啊啊啊\n5.2 二级标题2\n少时诵诗书所所所所所所所所所所所所所所所所\n6 第二个---一级标题\n6.1 二级标题3\n惆怅长岑长错错错错错错错错\n6.2 二级标题4\n少时诵诗书所所所所所所所\nlistItemByLevel 存放各个层级中的元素,0,1,2。。。 0 代表一级标题,对应的value是文章中的一级标题实物。遇到全新的组标题,会清理\nlistContextMap 存放numId和listContext的对应关系\nitemContext 新创建的标题,成员变量number应该是计数第几个标题。里面有父子关系\nListItemContext parent 里面的nb是用来统计孩子的数量\n这个文档的一级标题和二级标题的numId是一样的\n7 第一个---一级标题\n7.1 二级标题1\n阿萨德阿萨德啊啊啊啊啊啊啊啊啊啊啊\n7.2 二级标题2\n少时诵诗书所所所所所所所所所所所所所所所所\n8 第二个---一级标题\n8.1 二级标题3\n惆怅长岑长错错错错错错错错\n8.2 二级标题4\n少时诵诗书所所所所所所所\nlistItemByLevel 存放各个层级中的元素,0,1,2。。。 0 代表一级标题,对应的value是文章中的一级标题实物。遇到全新的组标题,会清理\nlistContextMap 存放numId和listContext的对应关系\nitemContext 新创建的标题,成员变量number应该是计数第几个标题。里面有父子关系\nListItemContext parent 里面的nb是用来统计孩子的数量\n这个文档的一级标题和二级标题的numId是一样的", "component_num" : 1 } ], "page_num" : 0 } ], "doc_id" : "844f805a7255437b8c139f4331ec3012", "doc_name" : "测试标题编号.docx", "doc_type" : "DOCX", "original_file" : "uni-search/files/729cbd739854470da5426ed26bd900ca/fb9731ab-7085-474f-b6c7-64473586f0f3/c5e7dc40-9d43-49fd-8b5f-12c906ed66d2/d5a4ced94f07050841eb9424f87096af/测试标题编号.docx", "file_size" : 68621 }
状态码
状态码 |
描述 |
---|---|
200 |
doc拆分合并结果 |
400 |
请求参数异常 |
401 |
鉴权异常 |
500 |
服务内部异常 |
错误码
请参见错误码。