管理CodeArts智能体知识库

什么是知识库

知识库是知识库集合的二级目录，用于存储和管理各类知识文档，可按照知识的类型和来源进行划分，确保信息的分类更加清晰，提高知识的可读性和可检索性。

约束与限制

已创建知识库集合，详细请参考新建CodeArts智能体知识库集合。
项目管理员和项目经理可以删除知识库和知识库文件，且需先删除知识库文件后才能删除知识库。如果没有权限，请参考在CodeArts项目中修改系统角色的权限进行配置。

新建知识库

登录知识库集合管理页面，进入“知识库集合管理”页面。
单击知识库集合卡片，进入知识库集合详情页。

单击“新建知识库”，进入“新建知识库”页面，参考表1完成基本信息配置及文件上传。

图1 新建知识库-文件上传
点击放大

表1 新建知识库-文件上传
参数项	说明	示例
知识库名称	知识库的名称。支持中英文、数字、下划线和中划线，不能以下划线开头。长度为1-32个字符。	输入“CodeArts智能体产品介绍”。
知识类型	支持“文档”和“结构化格式”两种类型。文档：主要包含文本内容，可以包括文章、报告、书籍等，如TXT、DOCX、ZIP格式文件。结构化格式：仅支持JSON格式文件。	选择“文档”。
数据来源	包括“本地文件”和“代码”两种类型。	选择“本地文件”。
文件	“数据来源”选择“本地文件”时，请选择对应文件。 “知识类型”为“文档”时，支持TXT、DOCX、PDF、MD、CSV、XLS、XLSX格式文件，单个文件最大支持20MB，单个知识库配额为50MB。 “知识类型”为“结构化文档”时，支持JSON格式文件，单个⽂件最大支持20MB，单个知识库配额50MB。	选择本地已准备好的产品介绍文档。
代码	“数据来源”选择“代码”时，请选择对应代码文件。支持JAVA、PYTHON、C、C++、VUE文件的ZIP格式，单个文件最大支持20MB，单个知识库配额为50MB。	-

单击“下一步”，参考表2完成入库信息配置。

图2 新建知识库-入库配置
点击放大

表2 新建知识库-入库配置
参数项	说明	示例
Embedding模型	选择Embedding模型，对上传的文档进行向量化，当前提供以下模型可供选择： m3e-base：该模型适用于中英文文本的通用型768维度的嵌入模型。 bge-large-zh-v1.5：该模型适用于检索、分类、聚类或语义匹配等任务，目前仅支持中文文本。 paraphrase-multilingual-MiniLM-L12-v2：该模型适用于中英文文本，在文本相似度计算中表现优异，模型维度364。 VESO-v1.3：该模型在代码数据向量化、代码搜索任务中表现突出。	选择“m3e-base”。
切分器	不同的切分器的切片方式和结果不同，在不同的语言场景下可以选择不同的切分器，当前支持以下切分器。基于段落的切分器（默认使用）：按照两个连续的换行符（\n\n）分割或文本段落结构分割。基于行的切分器：按照换行符（\n）分割。基于句子的切分器（适用于英文文本）：将文本按照英文句子分割。基于字符的切分器：逐个字符（含空白字符）分割。	选择“基于段落的切分器”。
分段预计长度	分片长度的取值范围为50-1200，默认值为1000。	保持默认值即可。
分段重叠长度	当前分片与上一个分片重叠的文本长度，取值范围0到分片的长度，默认值为0。	保持默认值即可。
子切分器	切片长度超过最大长度时应用子切分器。当前支持以下切分器：基于字符的切分器（默认使用）：逐个字符（含空白字符）分割。基于句子的切分器（适用于英文文本）：将文本按照英文句子分割。基于单词的切分器（适用于英文文本）：将文本按照空白字符分割。	选择“基于字符的切分器”

单击“确定”，完成知识库创建，页面跳转至知识库列表页面，如图3所示，为新创建的知识库。

图3 知识库列表
- 单击右上角“刷新”，可以刷新知识库列表。
- 单击“操作”列的，可以删除知识库。
- 单击右上角“操作日志”，可以查看当前知识库集合下所有知识库和文件的操作记录。
- 单击右上角，可编辑、删除当前知识库。

管理知识库文件

登录知识库集合管理页面，进入“知识库集合管理”页面。
单击知识库集合卡片，进入知识库集合详情页。

单击知识库名称，进入知识库详情页，可以看到在新建知识库时已上传的文件。

知识库创建成功后，会自动进行初始化，在知识库详情页面，可以查看知识库文件的导入状态，详见表3。

表3 文件导入状态
导入状态	说明
上传中	正在从数据源获取文档内容。
加载失败	文档解析切片失败，通常失败原因为分段清洗配置有误或是源文档损坏。
入库中	执行向量化和索引建立。
入库成功	成功入库。
入库失败	执行向量化和索引建立失败，通常失败原因为索引配置有误。
删除中	执行文档在向量库中的删除过程。
删除失败	执行删除操作失败。

单击左上角“导入文件”，可增量上传知识库文件，支持同时上传多个文件。

图4 导入文件
- 租户下单个项目文件配额为2GB、知识库配额为40个。
- 支持TXT、DOCX、PDF、MD、CSV、XLS、XLSX格式文件，单个文件最大支持20MB，单个知识库配额为50MB。
（可选）知识库文件导入后，可以根据需要进行以下操作。
- 单击文件名称，可以查看文件详情。
- 单击知识库文件“操作”列的，可以删除已上传的知识库文件。
- 单击，可以刷新知识库文件列表。
- 单击，可以重新导入当前知识库下所有文件。