AI文档解析
AI文档解析是指使用人工智能技术对文档进行分析、提取和理解的过程。这一过程可以应用于多种类型的文档,包括文本、图像、表格等,广泛用于信息提取、内容理解、数据处理等场景。
在文档管理和解析的场景中,用户经常需要处理多种格式的文件,如PPT、图片等,这些文件中不仅包含文字信息,还可能包含重要的图片内容。然而,传统的文档解析工具往往只能提取文字信息,忽略了图片中的关键数据,导致信息不完整。为了解决这一问题,华为云推出了AI文档应用,支持多模态理解模型进行图片理解,当用户在AI文档或上传文档界面开启“多模态图片理解”开关后,PPT格式文档和图片将通过多模态大模型进行解析,提取图片中的信息。如果知识库未配置多模态大模型,该开关将不可用。此功能确保了文档解析的全面性和准确性,满足了用户对文档内容深度解析的需求。
前提条件
- 已开通了KooSearch服务。
- 已准备好需要解析的文档,支持上传的文档格式为 doc、docx、pdf、pptx、ppt、xlsx、xls、csv、wps、png、jpg、jpeg、bmp、gif、tiff、tif、webp、pcx、ico、psd、dps、et、txt、ofd、md、html、mhtml 的文档,且文档大小不能超过128MB(超过60MB建议通过API上传)。
进入KooSearch控制台
- 登录云搜索服务管理控制台。
- 在左侧导航栏选择“KooSearch>KooSearch文档问答”,进入KooSearch文档问答页面。
- 选择已创建好的文档问答服务,单击操作列的“问答”,前往KooSearch控制台。
操作步骤
- 单击“AI应用>AI文档”,进入AI文档页面。
- 单击右上角的“上传文档”按钮,上传需要解析的文档,并配置解析设置。
表1 解析设置 参数
说明
OCR增强
是否开启OCR增强。
开启后,即可调用OCR服务进行智能文档识别,如表格解析或扫描文件等。
解析图片
是否解析图片。
未勾选,在文档中遇到图片默认跳过,不处理图片。
勾选后,有两种解析方式可供选择:
- 提取图片文本:识别图片内文字。
- 仅保留原图:仅提取图片保存,不会识别图片内容,便于问答图文展示。
说明:
图片会保存在系统自动创建的OBS桶中,用户无需关注和配置OBS桶。
- 提取图片文本和保留原图
解析目录页
是否解析目录页。
未勾选,解析结果中不包含目录页;
勾选后,解析结果中包含目录页。
解析页眉页脚
是否解析页眉页脚。
未勾选,解析结果中不包含页眉页脚;
勾选后,解析结果中包含页眉页脚。
解析脚注
是否解析脚注。
未勾选,解析结果中不包含脚注;
勾选后,解析结果中包含脚注。
多模态图片理解
是否开启多模态图片理解。
当打开多模态图片理解功能时,PPT格式文档和图片会优先通过多模态大模型进行图片理解和信息提取。
- 多模态模型:选择多模态模型。模型的创建请参考创建及管理KooSearch模型服务。
- 提示词:在多模态模型输出结果时,您输入的一段文字或关键词。这些提示词用于指导多模态模型生成特定内容。提示词的创建可参考管理KooSearch提示词。
示例:你是一个智能图片描述抽取系统,请根据用户输入的图片,为其生成对应图片详尽的描述,优先以Markdown格式输出。
- 提示词语言类型:可以选择中文、泰语、葡萄牙语、西班牙语、英语、阿拉伯语。
- 单击“确认”,上传成功。
- 上传成功后,在“历史文档”中选择指定文档查看解析结果。
- 单击“文档名称”可查看文档解析详情,单击“重试”可以重新解析文档,单击“删除”可以删除文档。
- 也可以单击“下载原文”,下载原始文档。
- 解析结果有三种格式json、html、md,单击“下载解析结果”可以下载任意一种格式的解析结果到本地。


