更新时间:2026-01-09 GMT+08:00
分享

管理CodeArts智能体知识库

什么是知识库

知识库是知识库集合的二级目录,用于存储和管理各类知识文档,可按照知识的类型和来源进行划分,确保信息的分类更加清晰,提高知识的可读性和可检索性。

约束与限制

新建知识库

  1. 登录知识库集合管理页面,进入“知识库集合管理”页面。
  2. 单击知识库集合卡片,进入知识库集合详情页。
  3. 单击“新建知识库”,进入“新建知识库”页面,参考表1完成基本信息配置及文件上传。

    图1 新建知识库-文件上传
    表1 新建知识库-文件上传

    参数项

    说明

    示例

    知识库名称

    知识库的名称。支持中英文、数字、下划线和中划线,不能以下划线开头。长度为1-32个字符。

    输入“CodeArts智能体产品介绍”。

    知识类型

    支持“文档”和“结构化格式”两种类型。

    • 文档:主要包含文本内容,可以包括文章、报告、书籍等,如TXT、DOCX、ZIP格式文件。
    • 结构化格式:仅支持JSON格式文件。

    选择“文档”。

    数据来源

    包括“本地文件”和“代码”两种类型。

    选择“本地文件”。

    文件

    “数据来源”选择“本地文件”时,请选择对应文件。

    • “知识类型”为“文档”时,支持TXT、DOCX、PDF、MD、CSV、XLS、XLSX格式文件,单个文件最大支持20MB,单个知识库配额为50MB。
    • “知识类型”为“结构化文档”时,支持JSON格式文件,单个⽂件最大支持20MB,单个知识库配额50MB。

    选择本地已准备好的产品介绍文档。

    代码

    “数据来源”选择“代码”时,请选择对应代码文件。支持JAVA、PYTHON、C、C++、VUE文件的ZIP格式,单个文件最大支持20MB,单个知识库配额为50MB。

    -

  4. 单击“下一步”,参考表2完成入库信息配置。

    图2 新建知识库-入库配置
    表2 新建知识库-入库配置

    参数项

    说明

    示例

    Embedding模型

    选择Embedding模型,对上传的文档进行向量化,当前提供以下模型可供选择:

    • m3e-base:该模型适用于中英文文本的通用型768维度的嵌入模型。
    • bge-large-zh-v1.5:该模型适用于检索、分类、聚类或语义匹配等任务,目前仅支持中文文本。
    • paraphrase-multilingual-MiniLM-L12-v2:该模型适用于中英文文本,在文本相似度计算中表现优异,模型维度364。
    • VESO-v1.3:该模型在代码数据向量化、代码搜索任务中表现突出。

    选择“m3e-base”。

    切分器

    不同的切分器的切片方式和结果不同,在不同的语言场景下可以选择不同的切分器,当前支持以下切分器。

    • 基于段落的切分器(默认使用):按照两个连续的换行符(\n\n)分割或文本段落结构分割。
    • 基于行的切分器:按照换行符(\n)分割。
    • 基于句子的切分器(适用于英文文本):将文本按照英文句子分割。
    • 基于字符的切分器:逐个字符(含空白字符)分割。

    选择“基于段落的切分器”。

    分段预计长度

    分片长度的取值范围为50-1200,默认值为1000。

    保持默认值即可。

    分段重叠长度

    当前分片与上一个分片重叠的文本长度,取值范围0到分片的长度,默认值为0。

    保持默认值即可。

    子切分器

    切片长度超过最大长度时应用子切分器。当前支持以下切分器:

    • 基于字符的切分器(默认使用):逐个字符(含空白字符)分割。
    • 基于句子的切分器(适用于英文文本):将文本按照英文句子分割。
    • 基于单词的切分器(适用于英文文本):将文本按照空白字符分割。

    选择“基于字符的切分器”

  5. 单击“确定”,完成知识库创建,页面跳转至知识库列表页面,如图3所示,为新创建的知识库。

    图3 知识库列表
    • 单击右上角“刷新”,可以刷新知识库列表。
    • 单击“操作”列的,可以删除知识库。
    • 单击右上角“操作日志”,可以查看当前知识库集合下所有知识库和文件的操作记录。
    • 单击右上角,可编辑、删除当前知识库。

管理知识库文件

  1. 登录知识库集合管理页面,进入“知识库集合管理”页面。
  2. 单击知识库集合卡片,进入知识库集合详情页。
  3. 单击知识库名称,进入知识库详情页,可以看到在新建知识库时已上传的文件。

    知识库创建成功后,会自动进行初始化,在知识库详情页面,可以查看知识库文件的导入状态,详见表3

    表3 文件导入状态

    导入状态

    说明

    上传中

    正在从数据源获取文档内容。

    加载失败

    文档解析切片失败,通常失败原因为分段清洗配置有误或是源文档损坏。

    入库中

    执行向量化和索引建立。

    入库成功

    成功入库。

    入库失败

    执行向量化和索引建立失败,通常失败原因为索引配置有误。

    删除中

    执行文档在向量库中的删除过程。

    删除失败

    执行删除操作失败。

  4. 单击左上角“导入文件”,可增量上传知识库文件,支持同时上传多个文件。

    图4 导入文件
    • 租户下单个项目文件配额为2GB、知识库配额为40个。
    • 支持TXT、DOCX、PDF、MD、CSV、XLS、XLSX格式文件,单个文件最大支持20MB,单个知识库配额为50MB。

  5. (可选)知识库文件导入后,可以根据需要进行以下操作。

    • 单击文件名称,可以查看文件详情。
    • 单击知识库文件“操作”列的,可以删除已上传的知识库文件。
    • 单击,可以刷新知识库文件列表。
    • 单击,可以重新导入当前知识库下所有文件。

相关文档