配置OCR增强实现文档智能解析
应用场景
Flexus企业搜索服务(后续简称为KooSearch),Koosearch结合OCR服务文档识别能力,通过NET网关打通网络,使Koosearch支持智能文档解析能力,对PDF/Word等格式的文档内容进行版式分析,智能识别文档中的各种版式类型,如表格、图片、公式、标题等,以及识别单栏、双栏版面结构及段落顺序,对用户上传的文档进行智能解析。本文介绍Flexus企业搜索服务如何配置OCR增强实现文档智能解析功能。
步骤1:开通OCR
开通OCR服务的智能文档解析功能。
- 登录文字识别OCR管理控制台。
- 在“总览”页面的使用说明模块选择“智能文档解析”。
- 单击操作列的“开通管理”,弹出开通管理页面,确认是否已经为操作者开通了智能文档解析功能。
- 是,则进行下一步。
- 否,则单击操作列的“开通服务”为操作者开通智能文档解析功能。
如图1所示,表示所有人都已开通智能文档解析功能。
详细操作指导请参见文字识别OCR。
步骤2:开通Flexus企业搜索服务
购买智能问答版Flexus企业搜索服务(KooSearch)。
- 登录云搜索服务管理控制台。
- 在左侧导航栏选择“KooSearch>Flexus 企业搜索服务”,进入Flexus企业搜索服务页面。
- 单击页面右上角的“购买Flexus企业搜索服务”按钮,进入购买页面。
- 在购买页面,完成Flexus企业搜索服务配置。
表1 购买Flexus企业搜索服务 参数
子参数
说明
区域
-
选择实例的所在区域。默认选择“西南-贵阳一”区域。
说明:仅“西南-贵阳一”区域支持开通和使用KooSearch服务。
版本规格
-
- 智能搜索版:提供开箱即用的知识库,主要用于RAG,为大语言模型(LLM)提供外部知识来源,扩大知识检索范围。
- 智能问答版:提供内置大语言模型(LLM),一站式快速搭建企业级RAG服务。
本案例选择“智能问答版”。
实例名称
-
实例名称为Flexus企业搜索服务的名称。
实例名称在4位到16位之间,必须以字母开头,可以包含字母、数字、中划线或者下划线,不能包含其他的特殊字符。
本案例以“kos_ocr”为例。
OCR增强
-
OCR增强功能是引用OCR服务能力,来增强实例的搜索和问答能力。
开通OCR增强插件会创建委托访问文字识别服务,需额外计费。
网络配置
虚拟私有云
指定集群节点使用的虚拟专用网络,实现不同业务的网络隔离。
单击“查看虚拟私有云”跳转到虚拟私有云列表,查看已创建或共享至当前账号下的VPC名称和ID。
如果没有合适的VPC,建议联系CSS服务管理员新建VPC,具体请参见创建虚拟私有云和子网。
子网
集群使用子网实现与其他网络的隔离,并独享所有网络资源,以提高网络安全。
选择当前虚拟私有云下集群需要的子网。支持选择共享VPC下的子网。
安全组
安全组起着虚拟防火墙的作用,为集群提供安全的网络访问控制策略。
选择集群需要的安全组,单击“查看安全组”跳转到安全组列表,可以了解安全组详情。
购买时长
-
支持按月购买,购买周期越长价格越优惠,根据实例购买时长,一次性支付实例费用。最短时长为1个月,最长时长为1年。如果购买时长超过9个月,建议包年购买,价格更优惠。也可以勾选自动续费复选框,到期会自动续费。
- 配置完成后,单击“立即购买”,确认信息无误,单击“去支付”,跳到支付页面。
- 根据页面提示成功付款,即可完成KooSearch的开通。
步骤3:配置网络
- 登录NAT网关管理控制台。
- 在公网NAT网关列表页面,单击“购买公网NAT网关”,进入购买公网NAT网关页面。
- 在购买公网NAT网关页面,配置NAT网关。
- 单击“立即购买”,确认产品规格无误后,单击“提交”,开始创建公网NAT网关。当状态为“运行中”时,表示公网NAT网关创建成功。
- 当公网NAT网关创建成功后,在公网NAT网关列表页面,单击操作列的“设置规则”,在弹窗中单击“添加规则”进入网关详情页的“SNAT规则”页面。
- 在“SNAT规则”页面,单击“添加SNAT规则”,在弹窗中配置公网NAT网关的SNAT规则。
表3 添加SNAT规则 参数
说明
使用场景
选择“虚拟私有云”。
网段
选择“使用已有”,选择和KooSearch同一个VPC。
公网IP类型
选择“弹性公网IP”,勾选满足要求的IP。
如果没有可选的弹性公网IP,可以单击“查看弹性公网IP”跳转到弹性公网IP列表页,申请弹性公网IP。
建议弹性公网IP的“计费模式”为“按需计费”,“公网带宽”为“按流量计费”,“带宽大小”为“20”Mbit/s。
- 单击“确定”完成SNAT规则的添加。
步骤4:验证OCR增强
- 登录云搜索服务管理控制台。
- 在左侧导航栏选择“KooSearch>Flexus 企业搜索服务”,进入Flexus企业搜索服务页面。
- 选择文档问答服务,单击操作列的“问答”,前往KooSearch控制台。
- 在KooSearch控制台,左侧导航栏选择“知识库管理”。
进入知识库管理页面。
- 在知识库管理页面,单击右上角“新建知识库”进入新建知识库页面。
- 在“新建知识库”页面设置知识库信息。
在“解析拆分设置”页签勾选“OCR增强”,使知识库可以调用OCR服务进行智能文档识别,如表格解析或扫描文件等。
其他参数可以保持默认值或基于业务场景参考新建知识库完成配置。
图2 知识库开启OCR增强
- 设置好后,单击“确定”完成知识库创建。
- 在知识库管理页面,选择已创建的知识库,单击操作列的“文档管理”,进入知识库详情页面。
- 选择“文档管理”页签,单击“上传”。
- 在上传对话框中单击“选择文档”,本地选择已提前准备好的文档。重复的文档不允许上传。
图3 上传文档
- 单击“确认”。文档上传后,可在文档管理页签查看已上传的文档,当“文档状态”为“正常”,说明文档已上传成功。
- 文档上传成功后,可以单击文档名称,查看切片效果。