创建知识库
AgentArts提供的知识库功能对文本文档、FAQ等数据进行向量化存储、知识检索,支持为应用、工作流提供检索增强能力。
本文将详细介绍如何创建知识库,包含模型配置、解析配置和拆分配置等。
|
序号 |
流程环节 |
说明 |
|
|---|---|---|---|
|
1 |
AgentArts提供的知识库功能对文本文档、FAQ等数据进行向量化存储、知识检索,支持为应用、工作流提供检索增强能力。 |
||
|
2 |
将知识信息更新至知识库。
说明:
AgentArts支持4种方式将知识信息更新至知识库,用户可根据需求选择合适的方式。 |
在创建知识库时,您可以选择上传本地的知识文档到知识库。 |
|
|
FAQ问答对是指常见问题及其对应的答案,用于快速解决用户可能遇到的问题。 |
|||
|
知识库支持通过上传FAQ文档来批量导入FAQ问答对。 |
|||
|
在创建知识库时,支持通过对象存储服务(Object Storage Service, OBS)接入知识文档。 |
|||
|
3 |
AgentArts通过对创建的知识库进行命中率测试,可以评估知识库的效果和准确性。 |
||
前提条件
- 已开通AgentArts服务。
- 登录用户为空间所有者、空间管理员、开发工程师,详细信息请参考管理团队空间成员。
约束与限制
- AgentArts基础版:最多可以创建5个知识库,不支持扩容。
- AgentArts企业版:默认最多可以创建5个知识库。如果需创建更多知识库,可进行扩容操作,不同的容量支持创建的知识库数量不同。扩容详情请参考购买存储容量。
关于知识库的更多约束与限制,请参考知识库使用限制。
新建知识库
- 登录AgentArts智能体开发平台,在左侧导航栏“个人空间”区域,选择目标空间。
- 在左侧导航栏中选择“开发中心 > 组件库”。
- 选择“知识库”页签,在“知识库”页面,单击“创建知识库”。
- 在“选择创建类型”弹框中选择“默认”,单击“确定”。
- 在“新建知识库”页面中,参见表2配置知识库信息。
图2 新建知识库
表2 参数说明 参数
说明
示例
基本信息
知识库图标
可选参数。
知识库LOGO。单击当前显示的知识库图标,在弹出的对话框中,选择要上传的新图标文件。
支持jpg、jpeg、png及gif格式,大小不大于200KB。
默认
知识库名称
必选参数。
用于标识知识库。
命名规则:可以包含字母、数字、中文、下划线 _、中划线-,且必须以字母、数字、中文开头,长度1~50个字符。
AgentArts的知识库_001
描述
必选参数。
用于对知识库内容和用途的简要说明。它提供了关于知识库的详细信息,帮助用户了解知识库的内容和使用场景。
命名规则:长度不大于100个字符。
知识库
模型配置
向量模型
必选参数。
向量模型是一种将文本、图像等非结构化数据转换为数值向量的模型。例如,在文本处理阶段,用于对文本文档进行切片,转换成向量化表示;在知识检索阶段,根据用户输入的信息对切片进行召回。
向量模型用于在海量的知识库中,快速识别和用户输入信息语义相近的词或句子,进行信息的初步筛选,解决“大海捞针”的效率问题。
AgentArts企业版用户在开通KooSearch后,如果需要在AgentArts中使用自定义向量模型,请先在KooSearch中进行配置。配置时,模型类型选择 “搜索Embedding模型”。配置完成后,该模型即可在AgentArts中使用。定义模型的具体步骤,请参考创建及管理KooSearch模型服务。
取值范围:
pangu_embedding:系统预置的模型。
embedding-zh
精排模型
必选参数。
精排模型是一种用于对检索结构进行精细排序的模型。针对用户输入的信息,对向量模型召回的切片进行从高到低的相关度排序,把相关度最高的前几个信息(例如Top 10)呈现给用户。
精排模型用于进一步提升系统搜索的相关性精度。
AgentArts企业版用户在开通KooSearch后,如果需要在AgentArts中使用自定义精排模型,请先在KooSearch中进行配置。配置时,模型类型选择 “搜索精排模型”。配置完成后,该模型即可在AgentArts中使用。定义模型的具体步骤,请参考创建及管理KooSearch模型服务。
取值范围:
pangu_rerank:系统预置的模型。
说明:- AgentArts基础版用户在创建知识库后,无法修改精排模型的配置。
- AgentArts企业版用户在创建知识库后,可以通过“高级设置”选项来修改精排模型。具体操作步骤,请参考管理知识库。
rerank-zh
解析配置(非必选)
OCR增强
- 不开启,不可调用OCR服务进行智能文档识别。
- 开启后,即可调用OCR服务进行智能文档识别,如表格解析或扫描文件等。
页眉页脚解析
页眉页脚解析
- 未开启,解析结果中不包含页眉页脚。
- 开启后,解析结果中包含页眉页脚。
目录页解析
- 未开启,解析结果中不包含目录页。
- 开启后,解析结果中包含目录页。
图片解析
- 未开启,则在文档中遇到图片默认跳过,不处理图片。
- 开启后,根据需要选择“提取图片文本”或者“仅保留原图”。
- 提取图片文本:识别图片内文字。
- 仅保留原图:仅提取图片保存,不会识别图片内容,便于问答图文展示。
拆分配置(非必选)
拆分设置
系统默认自动分段。支持如下分段策略,分段介绍及分段策略配置请参考知识库分段。
- 自动分段:按照系统默认预设的规则和分隔符切分。
- 长度分段:基于内容的长度来决定如何进行分段。
- 层级分段:根据内容的结构层次来进行分段。
自动分段
- 配置完成后,单击“确定”,完成知识库创建。创建完成后,可以在“知识库”页签中查看创建完成的知识库。
创建完成的知识库,默认是启用状态。您可以将自己创建的知识库共享到“资产广场 > 知识”中,以便团队成员在智能体开发和工作流配置等场景中引用这些共享的知识库,从而提高工作效率。
相关文档
创建本地知识库应用实践,请参考创建语文知识库。