更新时间:2025-11-25 GMT+08:00
分享

AI文档解析

AI文档解析是指使用人工智能技术对文档进行分析、提取和理解的过程。这一过程可以应用于多种类型的文档,包括文本、图像、表格等,广泛用于信息提取、内容理解、数据处理等场景。

在文档管理和解析的场景中,用户经常需要处理多种格式的文件,如PPT、图片等,这些文件中不仅包含文字信息,还可能包含重要的图片内容。然而,传统的文档解析工具往往只能提取文字信息,忽略了图片中的关键数据,导致信息不完整。为了解决这一问题,华为云推出了AI文档应用,支持多模态理解模型进行图片理解,当用户在AI文档或上传文档界面开启“多模态图片理解”开关后,PPT格式文档和图片将通过多模态大模型进行解析,提取图片中的信息。如果知识库未配置多模态大模型,该开关将不可用。此功能确保了文档解析的全面性和准确性,满足了用户对文档内容深度解析的需求。

前提条件

  • 已开通了KooSearch服务。
  • 已准备好需要解析的文档,支持上传的文档格式为 doc、docx、pdf、pptx、ppt、xlsx、xls、csv、wps、png、jpg、jpeg、bmp、gif、tiff、tif、webp、pcx、ico、psd、dps、et、txt、ofd、md、html、mhtml 的文档,且文档大小不能超过128MB(超过60MB建议通过API上传)。

进入KooSearch控制台

  1. 登录云搜索服务管理控制台
  2. 在左侧导航栏选择“KooSearch>KooSearch文档问答”,进入KooSearch文档问答页面。
  3. 选择已创建好的文档问答服务,单击操作列的“问答”,前往KooSearch控制台。

操作步骤

  1. 单击“AI应用>AI文档”,进入AI文档页面。
  2. 单击右上角的“上传文档”按钮,上传需要解析的文档,并配置解析设置。
    表1 解析设置

    参数

    说明

    OCR增强

    是否开启OCR增强。

    开启后,即可调用OCR服务进行智能文档识别,如表格解析或扫描文件等。

    解析图片

    是否解析图片。

    未勾选,在文档中遇到图片默认跳过,不处理图片。

    勾选后,有两种解析方式可供选择:

    • 提取图片文本:识别图片内文字。
    • 仅保留原图:仅提取图片保存,不会识别图片内容,便于问答图文展示。
      说明:

      图片会保存在系统自动创建的OBS桶中,用户无需关注和配置OBS桶。

    • 提取图片文本和保留原图

    解析目录页

    是否解析目录页。

    未勾选,解析结果中不包含目录页;

    勾选后,解析结果中包含目录页。

    解析页眉页脚

    是否解析页眉页脚。

    未勾选,解析结果中不包含页眉页脚;

    勾选后,解析结果中包含页眉页脚。

    解析脚注

    是否解析脚注。

    未勾选,解析结果中不包含脚注;

    勾选后,解析结果中包含脚注。

    多模态图片理解

    是否开启多模态图片理解。

    当打开多模态图片理解功能时,PPT格式文档和图片会优先通过多模态大模型进行图片理解和信息提取。

    • 多模态模型:选择多模态模型。模型的创建请参考创建及管理KooSearch模型服务
    • 提示词:在多模态模型输出结果时,您输入的一段文字或关键词。这些提示词用于指导多模态模型生成特定内容。提示词的创建可参考管理KooSearch提示词

      示例:你是一个智能图片描述抽取系统,请根据用户输入的图片,为其生成对应图片详尽的描述,优先以Markdown格式输出。

    • 提示词语言类型:可以选择中文、泰语、葡萄牙语、西班牙语、英语、阿拉伯语。
  3. 单击“确认”,上传成功。
  4. 上传成功后,在“历史文档”中选择指定文档查看解析结果。

  5. 单击“文档名称”可查看文档解析详情,单击“重试”可以重新解析文档,单击“删除”可以删除文档。

  6. 也可以单击“下载原文”,下载原始文档。
  7. 解析结果有三种格式json、html、md,单击“下载解析结果”可以下载任意一种格式的解析结果到本地。

相关文档