AI文档解析

AI文档解析是指使用人工智能技术对文档进行分析、提取和理解的过程。这一过程可以应用于多种类型的文档，包括文本、图像、表格等，广泛用于信息提取、内容理解、数据处理等场景。

在文档管理和解析的场景中，用户经常需要处理多种格式的文件，如PPT、图片等，这些文件中不仅包含文字信息，还可能包含重要的图片内容。然而，传统的文档解析工具往往只能提取文字信息，忽略了图片中的关键数据，导致信息不完整。为了解决这一问题，华为云推出了AI文档应用，支持多模态理解模型进行图片理解，当用户在AI文档或上传文档界面开启“多模态图片理解”开关后，PPT格式文档和图片将通过多模态大模型进行解析，提取图片中的信息。如果知识库未配置多模态大模型，该开关将不可用。此功能确保了文档解析的全面性和准确性，满足了用户对文档内容深度解析的需求。

前提条件

已开通了KooSearch服务。
已准备好需要解析的文档，支持上传的文档格式为 doc、docx、pdf、pptx、ppt、xlsx、xls、csv、wps、png、jpg、jpeg、bmp、gif、tiff、tif、webp、pcx、ico、psd、dps、et、txt、ofd、md、html、mhtml 的文档，且文档大小不能超过128MB（超过60MB建议通过API上传）。

进入KooSearch控制台

登录云搜索服务管理控制台。
在左侧导航栏选择“KooSearch>KooSearch文档问答”，进入KooSearch文档问答页面。
选择已创建好的文档问答服务，单击操作列的“问答”，前往KooSearch控制台。

操作步骤

单击“AI应用>AI文档”，进入AI文档页面。

单击右上角的“上传文档”按钮，上传需要解析的文档，并配置解析设置。

表1 解析设置
参数	说明
OCR增强	是否开启OCR增强。开启后，即可调用OCR服务进行智能文档识别，如表格解析或扫描文件等。
解析图片	是否解析图片。未勾选，在文档中遇到图片默认跳过，不处理图片。勾选后，有两种解析方式可供选择：提取图片文本：识别图片内文字。仅保留原图：仅提取图片保存，不会识别图片内容，便于问答图文展示。说明：图片会保存在系统自动创建的OBS桶中，用户无需关注和配置OBS桶。提取图片文本和保留原图
解析目录页	是否解析目录页。未勾选，解析结果中不包含目录页；勾选后，解析结果中包含目录页。
解析页眉页脚	是否解析页眉页脚。未勾选，解析结果中不包含页眉页脚；勾选后，解析结果中包含页眉页脚。
解析脚注	是否解析脚注。未勾选，解析结果中不包含脚注；勾选后，解析结果中包含脚注。
多模态图片理解	是否开启多模态图片理解。当打开多模态图片理解功能时，PPT格式文档和图片会优先通过多模态大模型进行图片理解和信息提取。多模态模型：选择多模态模型。模型的创建请参考创建及管理KooSearch模型服务。提示词：在多模态模型输出结果时，您输入的一段文字或关键词。这些提示词用于指导多模态模型生成特定内容。提示词的创建可参考管理KooSearch提示词。示例：你是一个智能图片描述抽取系统，请根据用户输入的图片，为其生成对应图片详尽的描述，优先以Markdown格式输出。提示词语言类型：可以选择中文、泰语、葡萄牙语、西班牙语、英语、阿拉伯语。