更新时间:2024-08-12 GMT+08:00
分享

创建及管理知识库

知识库是一个组织、存储及管理知识的系统,包括文档、数据库、图表、表格等多种形式的信息的分类、整理和归纳,可以帮助用户组织和管理大量的信息,以便快速访问和使用,平台为用户提供了创建并管理知识库的能力,且创建的知识库启用后可在创建Agent时引用。

前提条件

创建知识库

  1. 在AI原生应用引擎工作台的左侧导航栏选择“Agent编排中心 > 我的知识库”。
  2. 在“我的知识库”页面,单击右上角“创建知识库”。
  3. 在“创建知识库”页面,参照表1进行基础配置和知识库配置。

    表1 知识库参数说明

    参数名称

    参数说明

    基础配置

    知识库名称

    自定义知识库的名称,支持中英文、数字、下划线(_),长度2-50个字符,以中英文、数字开头。

    知识库描述

    知识库的相关信息描述。

    知识数据集

    在“我创建的知识库数据集”面板,单击目标数据集“操作”列“选择”,选择知识数据集。

    数据集版本号

    选择知识库数据集后,该参数值默认为数据集最新版本号。

    刷新配置

    刷新类型

    可选如下两种类型:

    • 一次性
    • 周期性

    刷新时间

    刷新类型为“周期性”时,配置此参数。

    设置每天刷新的时间。

    立即执行

    刷新类型为“周期性”时,配置此参数。

    选择是否立即执行。

    索引配置

    索引文件

    • 无索引:无需配置索引文件。
    • 文件级别索引:单击“下载模板”配置索引文件,具体操作请参见配置索引文件
    • 切片级别索引:单击“下载模板”配置索引文件,具体操作请参见配置索引文件

    数据来源

    选择索引文件数据的来源。

    索引文件仅支持csv文件,且编码为UTF-8格式,名称为固定格式:数据集名称+下划线+版本id(例如:name_versionId),其中文件名可通过下载模板处获取。本地文件上传文件最大为100M,OBS接入文件大小最大为500MB。

    支持以下两种来源:

    • 文件上传
    • OBS接入

    本地上传

    当“数据来源”选择“本地上传”时,需配置此参数。

    单击“上传文件”选择本地csv格式的文件进行上传。

    仅支持csv文件,且编码为UTF-8格式,名称为固定格式:数据集名称+下划线+版本id(例如:name_versionId),其中文件名可通过下载模板处获取。本地文件上传文件最大为100M,obs接入文件大小最大为500MB。

    OBS桶名

    当“数据来源”选择“OBS接入”时,需配置此参数。

    在下拉列表中选择数据所在的OBS桶名。

    OBS路径

    当“数据来源”选择“OBS接入”时,需配置此参数。

    在下拉列表中选择数据所在的具体OBS路径。

  4. 单击“提交”,保存知识库的参数配置;或单击“提交并启用”,创建知识库完成并启用该知识库。

配置索引文件

下载模板时,可以选择添加索引列,模板会自动生成对应列,并填充空内容。其中文件级别索引列系统自带file_path;切片级别索引列系统自带file_path、segment_order、document。

  1. 正常csv文件打开如图1示例:

    • 文件级别:其中科室、answer为用户自定义索引列,file_path为模板自带索引列,不允许更改。
    图1 csv文件(文件级别)
    • 切片级别:其中科室、answer为用户自定义索引列,file_path、segment_order、document为模板自带索引列,不允许更改。
      图2 csv文件(切片级别)

  2. 如果使用notepad++或记事本打开,或使用代码生成,请查看以下事项:

    • 请注意,csv文件使用竖线分隔,因此文件索引内容请不要带有竖线,以免程序解析有误。
    • 如果内容需换行,请将索引列对应的内容用英文双引号包围,且内容中不要存在英文双引号,以免程序校验时报错。
    • 请注意,平台支持csv文件有固定命名规则,且编码为UTF-8格式,请下载模板,以免程序校验报错。
    • 索引文件列不应以ki_、 ko_开头或包含平台固定列:file_name, file_id, path, order, document, base64, segment_order。
    • csv文件索引列及其内容请一一对应,若平台报错为:文件确少部分列,则请查看文件每一行数据是否有换行,若有换行,确定是否使用英文双引号包围,且英文双引号内部内容不应有英文双引号。

  3. 如果使用excel打开模板时,可能会显示如图3所示乱码,则需在菜单栏选择“数据 > 从文本/CSV ”打开文件,如图4所示。

    图3 模板乱码
    图4 从文本/CSV打开文件

    打开文件时,文件头必须如图5所示。

    图5 正常文件头

    如果出现如图6所示情况,请参照步骤1-3修复文件。

    图6 文件头异常情况
    1. 选择编码格式后,单击“转换数据”,如图7所示。
      图7 转换数据
    2. 选择“将第一行用作标题”,如图8所示。
      图8 将第一行用作标题
    3. 单击左上角“关闭并上载”,即可正常打开文件,如图9所示。
      图9 关闭并上载文件

  4. 完成索引文件修改后,请将csv文件另存为以竖线“|”分隔的csv文件,操作步骤如下:

    1. 进入“调整计算机的设置”页面,单击“更改日期、时间或数字格式”,如图10所示。
      图10 调整计算机的设置页面
    2. 选择调整系统分隔符为竖线“|”,如图11所示。
      图11 调整系统分隔符
    3. 将修改后的csv文件另存为同名的csv文件,如图12所示。
      图12 另存csv文件
      • csv文件使用竖线分隔,因此文件索引内容请不要带有竖线,以免程序解析有误。
      • 如果内容需换行,请将索引列对应的内容用英文双引号包围,且内容中不要存在英文双引号,以免程序校验时报错。
      • 请注意,平台支持csv文件有固定命名规则,且编码为UTF-8格式,请下载模板,以免程序校验报错。
      • 索引文件列不应以ki_、 ko_开头或包含平台固定列:file_name、file_id、path、order、document、base64、segment_order。
      • csv文件索引列及其内容请一一对应,若平台报错“文件确少部分列”,则需查看文件每一行数据是否有换行,若有换行,确定是否使用英文双引号包围,且英文双引号内部内容不应有英文双引号。

管理知识库

创建知识库完成后,可执行如下表2所示的管理知识库相关操作。

表2 管理知识库

操作

说明

查看知识库详情

在知识库列表中单击知识库名称,进入知识库详情页,可查看该知识库数据概况和更新记录。

命中测试

命中测试即测试检索的命中率。

  1. 在知识库列表中“操作”列单击“命中测试”。
  2. 在“命中测试”页面根据界面提示输入测试文本,设置“相似度阈值”(相似度阈值的取值范围[0, 1],例如配置为0.5,则返回相似度大于等于0.5的结果)、“查询数量”。
  3. 单击“测试”。
  4. 在页面右侧“测试结果”区域可查看测试效果。相似度越大则表示检索命中率越高。
  5. 在页面左侧“测试历史”区域可查看该知识库的测试历史记录,每个知识库测试记录最多保留50条。

修改知识库

不能修改已启用的知识库;可先停用知识库后再修改。

  1. 在知识库列表中“操作”列单击“修改”。
  2. 在“修改知识库”页面,可修改知识库描述。

删除知识库

不能删除已启用的知识库;可先停用知识库后再删除。

  1. 在知识库列表中“操作”列单击“删除”。
  2. 在“删除知识库”对话框,单击“确认”。

启用知识库

在知识库列表中,对于“已停用”状态的知识库,可在“操作”列单击“启用”将其重新启用,启用后的知识库才可在创建应用时引用。

停用知识库

在知识库列表中,对于“已启用”状态的知识库,可在“操作”列单击“停用”将其暂停使用。

相关文档