更新时间:2026-01-15 GMT+08:00
分享

管理知识库

什么是知识库

知识库是知识库集合的二级目录,用于存储和管理各类知识文档,可按照知识的类型和来源进行划分,确保信息的分类更加清晰,提高知识的可读性和可检索性。

约束与限制

新建知识库

  1. 进入知识库集合管理页面
  2. 单击知识库集合卡片,进入知识库集合详情页。
  3. 单击“新建知识库”,进入“新建知识库”页面,参考表1完成基本信息配置及文件上传。

    图1 新建知识库-文件上传
    表1 新建知识库-文件上传

    参数

    说明

    示例

    知识库名称

    知识库的名称。支持中英文、数字、下划线和中划线,不能以下划线开头。长度为1-32个字符。

    输入“CodeArts Doer代码智能体产品介绍”。

    知识类型

    支持“文档”和“结构化格式”两种类型。

    • 文档:主要包含文本内容,可以包括文章、报告、书籍等,如TXT、DOCX、ZIP格式文件。
    • 结构化格式:仅支持JSON格式文件。

    选择“文档”。

    数据来源

    包括“本地文件”和“代码”两种类型。

    选择“本地文件”。

    文件

    “数据来源”选择“本地文件”时,请选择对应文件。

    • “知识类型”为“文档”时,支持TXT、DOCX、PDF、MD、CSV、XLS、XLSX格式文件,单个文件最大支持20MB,单个知识库配额为50MB。
    • “知识类型”为“结构化文档”时,支持JSON格式文件,单个⽂件最大支持20MB,单个知识库配额50MB。

    选择本地已准备好的产品介绍文档。

    代码

    “数据来源”选择“代码”时,请选择对应代码文件支持JAVA、PYTHON、C、C++、VUE文件的ZIP格式,单个文件最大支持20MB,单个知识库配额为50MB。

    -

  4. 单击“下一步”,参考表2完成入库信息配置。

    图2 新建知识库-入库配置
    表2 新建知识库-入库配置

    参数

    说明

    示例

    Embedding模型

    选择Embedding模型,对上传的文档进行向量化,当前提供以下模型可供选择:

    • m3e-base:该模型适用于中英文文本的通用型768维度的嵌入模型。
    • bge-large-zh-v1.5:该模型适用于检索、分类、聚类或语义匹配等任务,目前仅支持中文文本。
    • paraphrase-multilingual-MiniLM-L12-v2:该模型适用于中英文文本,在文本相似度计算中表现优异,模型维度364。
    • VESO-v1.3:该模型在代码数据向量化、代码搜索任务中表现突出。

    选择“m3e-base”。

    切分器

    不同的切分器的切片方式和结果不同,在不同的语言场景下可以选择不同的切分器,当前支持以下切分器。

    • 基于段落的切分器(默认使用):按照两个连续的换行符(\n\n)分割或文本段落结构分割。
    • 基于行的切分器:按照换行符(\n)分割。
    • 基于句子的切分器(适用于英文文本):将文本按照英文句子分割。
    • 基于字符的切分器:逐个字符(含空白字符)分割。

    选择“基于段落的切分器”。

    分段预计长度

    分片长度的取值范围为50-1200,默认值为1000。

    保持默认值即可。

    分段重叠长度

    当前分片与上一个分片重叠的文本长度,取值范围0到分片的长度,默认值为0。

    保持默认值即可。

    子切分器

    切片长度超过最大长度时应用子切分器。当前支持以下切分器:

    • 基于字符的切分器(默认使用):逐个字符(含空白字符)分割。
    • 基于句子的切分器(适用于英文文本):将文本按照英文句子分割。
    • 基于单词的切分器(适用于英文文本):将文本按照空白字符分割。

    选择“基于字符的切分器”

  5. 单击“确定”,完成知识库创建,页面跳转至知识库列表页面,如图3所示,为新创建的知识库。

    图3 知识库列表
    • 单击右上角“刷新”,可以刷新知识库列表。
    • 单击“操作”列的 ,可以删除知识库。
    • 单击右上角“操作日志”,可以查看当前知识库集合下所有知识库和文件的操作记录。
    • 单击右上角 ,可编辑、删除当前知识库。

管理知识库文件

  1. 登录知识库集合管理页面,进入“知识库集合管理”页面。
  2. 单击知识库集合卡片,进入知识库集合详情页。
  3. 单击知识库名称,进入知识库详情页,可以看到在新建知识库时已上传的文件。

    知识库创建成功后,会自动进行初始化,在知识库详情页面,可以查看知识库文件的导入状态,详见表3

    表3 文件导入状态

    导入状态

    说明

    上传中

    正在从数据源获取文档内容。

    加载失败

    文档解析切片失败,通常失败原因为分段清洗配置有误或是源文档损坏。

    入库中

    执行向量化和索引建立。

    入库成功

    成功入库。

    入库失败

    执行向量化和索引建立失败,通常失败原因为索引配置有误。

    删除中

    执行文档在向量库中的删除过程。

    删除失败

    执行删除操作失败。

  4. 单击左上角“导入文件”,可增量上传知识库文件,支持同时上传多个文件。

    图4 导入文件
    • 租户下单个项目文件配额为2GB、知识库配额为40个。
    • 支持TXT、DOCX、PDF、MD、CSV、XLS、XLSX格式文件,单个文件最大支持20MB,单个知识库配额为50MB。

  5. (可选)知识库文件导入后,可以根据需要进行以下操作。

    • 单击文件名称,可以查看文件详情。
    • 单击知识库文件“操作”列的 ,可以删除已上传的知识库文件。
    • 单击 ,可以刷新知识库文件列表。
    • 单击 ,可以重新导入当前知识库下所有文件。

相关文档