创建知识库
AgentArts提供的知识库功能对文本文档、FAQ等数据进行向量化存储、知识检索,支持为应用、工作流提供检索增强能力。
本文将详细介绍如何创建知识库,包含模型配置、解析配置和拆分配置等。
|
序号 |
流程环节 |
说明 |
|
|---|---|---|---|
|
1 |
AgentArts提供的知识库功能对文本文档、FAQ等数据进行向量化存储、知识检索,支持为应用、工作流提供检索增强能力。 |
||
|
2 |
将知识信息更新至知识库。
说明:
AgentArts支持4种方式将知识信息更新至知识库,用户可根据需求选择合适的方式。 |
在创建知识库时,您可以选择上传本地的知识文档到知识库。 |
|
|
FAQ问答对是指常见问题及其对应的答案,用于快速解决用户可能遇到的问题。 |
|||
|
知识库支持通过上传FAQ文档来批量导入FAQ问答对。 |
|||
|
在创建知识库时,支持通过对象存储服务(Object Storage Service, OBS)接入知识文档。 |
|||
|
3 |
AgentArts通过对创建的知识库进行命中率测试,可以评估知识库的效果和准确性。 |
||
前提条件
新建知识库
- 登录AgentArts智能体开发平台。
- 在左侧导航栏中选择“开发中心 > 组件库”。
- 选择“知识库”页签,在“知识库”页面,单击“创建知识库”。
- 在“选择创建方式”弹框中选择“平台知识库”,单击“确定”。
- 平台知识库:适用于数据在AgentArts平台直接管理的场景,支持上传文档和FAQ。
- 接入第三方知识库:适用于企业已有现成知识库(如RAGFlow),希望直接对接复用的场景。具体操作请参考接入第三方知识库。
- 在“新建知识库”页面中,参见表2配置知识库信息。
图2 新建知识库(以AgentArts为例)
表2 参数说明 参数
说明
示例
基本信息
知识库图标
知识库LOGO。单击当前显示的知识库图标,在弹出的对话框中,选择要上传的新图标文件。
支持jpg、jpeg、png及gif格式,大小不大于200KB。
默认
知识库名称
用于标识知识库。
命名规则:可以包含字母、数字、中文、下划线 _、中划线-,且必须以字母、数字、中文开头,长度1~50个字符。
AgentArts平台知识库
描述
用于对知识库内容和用途的简要说明。它提供了关于知识库的详细信息,帮助用户了解知识库的内容和使用场景。
命名规则:长度不大于100个字符。
AgentArts平台知识库
模型配置
向量模型
新建后,不支持修改。
向量模型是一种将文本、图像等非结构化数据转换为数值向量的模型。例如,在文本处理阶段,用于对文本文档进行切片,转换成向量化表示;在知识检索阶段,根据用户输入的信息对切片进行召回。
向量模型用于在海量的知识库中,快速识别和用户输入信息语义相近的词或句子,进行信息的初步筛选,解决“大海捞针”的效率问题。
AgentArts基础版预置向量模型:pangu_embedding。
pangu_embedding
精排模型
精排模型是一种用于对检索结构进行精细排序的模型。针对用户输入的信息,对向量模型召回的切片进行从高到低的相关度排序,把相关度最高的前几个信息(例如Top 10)呈现给用户。
精排模型用于进一步提升系统搜索的相关性精度。
AgentArts基础版预置精排模型:pangu_rerank。
说明:AgentArts基础版用户在创建知识库后,无法修改精排模型的配置。
pangu_rerank
解析配置(非必选)
OCR增强
- 不开启,不可调用OCR服务进行智能文档识别。
- 开启后,即可调用OCR服务进行智能文档识别,如表格解析或扫描文件等。
页眉页脚解析
页眉页脚解析
- 未开启,解析结果中不包含页眉页脚。
- 开启后,解析结果中包含页眉页脚。
目录页解析
- 未开启,解析结果中不包含目录页。
- 开启后,解析结果中包含目录页。
图片解析
- 未开启,则在文档中遇到图片默认跳过,不处理图片。
- 开启后,根据需要选择“提取图片文本”或者“仅保留原图”。
- 提取图片文本:识别图片内文字。
- 仅保留原图:仅提取图片保存,不会识别图片内容,便于问答图文展示。
拆分配置(非必选)
拆分设置
系统默认自动分段。支持如下分段策略,分段介绍及分段策略配置请参考知识库分段。
- 自动分段:按照系统默认预设的规则和分隔符切分。
- 长度分段:基于内容的长度来决定如何进行分段。
- 层级分段:根据内容的结构层次来进行分段。
自动分段
- 配置完成后,单击“确定”。
创建完成后,页面返回知识库列表,可以在“知识库”页签中查看创建完成的知识库,“状态”为“已启用”。单击知识库名称进入知识库详情页进行后续配置。
相关文档
创建本地知识库应用实践,请参考创建语文知识库。