更新时间:2025-09-15 GMT+08:00
分享

创建知识库

Versatile提供的知识库功能对文本文档、FAQ等数据进行向量化存储、知识检索,支持为应用、工作流提供检索增强能力。

本文将详细介绍如何创建知识库,包含模型配置、解析配置和拆分配置等。

新建知识库

  1. 登录Versatile智能体平台,在左侧导航栏“个人空间”区域,选择进入所需空间。

    如果已选择团队空间,界面显示为实际的团队空间名称,而非“个人空间”。

    图1 选择团队空间

  2. 在左侧导航栏中选择“开发中心 > 知识库”,单击左上角“新建知识库”。
  3. 在“选择创建类型”弹框中选择“默认”,单击“确定”。
  4. 参照表1完成参数配置。

    图2 创建知识库
    表1 参数说明

    参数

    说明

    示例

    基本信息

    知识库图标

    可选参数。

    知识库LOGO。单击当前显示的知识库图标,在弹出的对话框中,选择要上传的新图标文件。

    支持jpg、jpeg、png及gif格式,大小不大于200KB。

    -

    知识库名称

    必选参数。

    用于标识知识库。

    命名规则:可以包含字母、数字、中文、下划线 _、连字符-,且必须以字母、数字、中文开头。

    Versatile的知识库_001

    描述

    必选参数。

    用于对知识库内容和用途的简要说明。它提供了关于知识库的详细信息,帮助用户了解知识库的内容和使用场景。

    命名规则:长度不大于100个字符。

    知识库

    模型配置

    向量模型

    必选参数。

    向量模型是一种将文本、图像等非结构化数据转换为数值向量的模型。例如,在文本处理阶段,用于对文本文档进行切片,转换成向量化表示;在知识检索阶段,根据用户输入的信息对切片进行召回。

    向量模型用于在海量的知识库中,快速识别和用户输入信息语义相近的词或句子,进行信息的初步筛选,解决“大海捞针”的效率问题。

    取值范围:

    • embedding-zh:预置的中文模型。
    • embedding-en:预置的英文模型。

    embedding-zh

    精排模型

    必选参数。

    精排模型是一种用于对检索结构进行精细排序的模型。针对用户输入的信息,对向量模型召回的切片进行从高到低的相关度排序,把相关度最高的前几个信息(例如Top 10)呈现给用户。

    精排模型用于进一步提升系统搜索的相关性精度。

    取值范围:

    • rerank-zh:预置的中文模型。
    • rerank-en:预置的英文模型。

    rerank-zh

    解析配置

    OCR增强

    不开启,不可调用OCR服务进行智能文档识别。

    开启后,即可调用OCR服务进行智能文档识别,如表格解析或扫描文件等。

    OCR增强

    页眉页脚解析

    未开启,解析结果中不包含页眉页脚。

    开启后,解析结果中包含页眉页脚。

    目录页解析

    未开启,解析结果中不包含目录页。

    开启后,解析结果中包含目录页。

    图片解析

    未开启,则在文档中遇到图片默认跳过,不处理图片。

    开启后,根据需要选择“提取图片文本”或者“仅保留原图”。

    拆分配置

    拆分设置

    • 自动分段:按照系统默认预设的规则和分隔符切分。
    • 长度分段:基于内容的长度来决定如何进行分段。
      • 分段标识符:分段方式为遇到所选符号即截断,符号之间没有优先级,最终分割后合并到预计最大长度。自定义分段中如果未命中分段标识符,分段将会失败。
        • 中文句号。
        • 英文句号.
        • 中文感叹号!
        • 英文感叹号!
        • 中文问号?
        • 英文问号?
        • 空格
        • 中文逗号,
        • 英文逗号,
      • 分段预计长度:分段的最大长度。文档的正文如果大于设定的最大长度,则截取最大长度的片段为新文档,随后回溯分段重叠字符,继续向后检查,直到文档结束。

        取值范围:1~6000

        默认值:500

    • 层级分段:根据内容的结构层次来进行分段。
      • 层级解析模型:
        • 自动解析:自动识别和解析具有层级结构的数据或信息。
        • 规则解析:支持添加自定义层级规则。
      • 标题层级深度:指设置的切分标题级别,例如,文本包含最多5级标题,选择的标题层级深度为3,则会分别将所有3级标题下的内容合并成文本块,文本块作为一个整体执行后续切分操作。输入值必须在1到10之间。
      • 标题保存方式:指标题信息在切片中的保存形式,影响检索结果的展示逻辑和索引构建方式。
        • 保存多标题组合:多级标题用特定符号组合:1级标题-2级标题-3级标题-…-文本
        • 保存最后一级标题:仅组合最后一级标题:最后一级标题-文本
      • 跨标题合并:根据需求开启或者关闭。
      • 分段标识符:分段方式为遇到所选符号即截断,符号之间没有优先级,最终分割后合并到预计最大长度。自定义分段中如果未命中分段标识符,分段将会失败。
        • 中文句号。
        • 英文句号.
        • 中文感叹号!
        • 英文感叹号!
        • 中文问号?
        • 英文问号?
        • 空格
        • 中文逗号,
        • 英文逗号,
      • 分段预计长度:分段的最大长度。文档的正文如果大于设定的最大长度,则截取最大长度的片段为新文档,随后回溯分段重叠字符,继续向后检查,直到文档结束。

        取值范围:1~6000

        默认值:500

    自动分段

  5. 配置完成后,单击“确定”,完成知识库创建。

    创建完成的知识库,默认是启用状态。

更多操作

知识库创建完成后,您可以执行如表2的操作。

表2 相关操作

操作

说明

启用知识库

在知识库列表中,找到“状态”是“已停用”的知识库,单击操作列“启用”,可以启用知识库。只有“状态”是“已启用”的知识库才能在应用、工作流中引用该知识库。

停用知识库

在知识库列表中,找到“状态”是“已启用”的知识库,单击操作列“停用”,可以停用知识库。

说明:

停用已经被应用、工作流引用的知识库,会导致检索结果返回空值,请谨慎操作。

命中测试

在知识库列表中,单击“命中测试”,可以测试知识库命中率,详细操作请参见测试知识库命中率

编辑知识库

在知识库列表中,单击操作列“更多 > 编辑”,可以编辑知识库,包括修改“知识库图标”、“知识库名称”、“知识库描述”。只有“状态”是“已停用”的知识库才可编辑。

高级配置

在知识库列表中,单击操作列“更多 > 高级”,可以编辑知识库,包括修改“模型配置”,“解析配置”,“拆分配置”。只有“状态”是“已停用”的知识库才可修改高级设置。

删除数据库

在知识库列表中,单击操作列“更多 > 删除”,可以删除知识库。只有“状态”是“已停用”的知识库才可删除。

说明:

删除应用属于高危操作,删除前,请确保该知识库不再使用。

相关文档