更新时间:2024-11-29 GMT+08:00

使用知识库管理

用户可通过LakeSearch的WebUI对知识库进行管理,包括知识库的创建、删除等。支持上传doc、docx、pdf和json数据至知识库,因HBase存储限制,上传的单文档大小不能超过10MB。

前提条件

已根据业务需求创建LakeSearch用户,且加入lakesearchgroup用户组,如lakeuser,用户创建及权限管理可参考创建LakeSearch角色

创建知识库并上传文档

  1. lakeuser登录LakeSearch WebUI,可参考访问LakeSearch WebUI界面
  2. 创建知识库。

    1. 在“知识库管理”页签,单击“新建知识库”。
    2. 输入知识库名称、描述,单击“确认”。

  3. 上传文档至知识库。

    1. 单击2.b创建的知识库ID名称。可配置知识库如下基础参数:
      表1 知识库基础参数

      参数

      描述

      topk召回数量

      向量查询的topk,配置更大的topk将召回更多的向量以提升精度,但也会增加资源消耗。

      • 默认值:50
      • 取值范围:10-300

      参考文档数量

      传递给模型进行问答的参考文档的数量,按问答与文档之间的相关度排序取值。

      • 默认值:3
      • 取值范围:1-10

      精排

      查询结果是否使用精排模型进行二次排序。

      • 默认值:关闭
      • 取值范围:关闭、开启

      自定义prompt

      prompt用于引导模型生成符合预期的结果。支持使用自定义prompt,单击“配置”可查看默认值并设置新的prompt值。

    2. 上传数据:
      • 上传文档数据(支持格式为 doc、docx、pdf的多个文档)。

        在“文档管理”单击“上传”,单击“选择文档”,选择待上传的文档并单击“确认”,等待“文档状态”为“正常”时则表示上传成功。

      • 手动创建FAQ(输入问题和答案)。

        在“FAQ管理”单击“创建”,输入标准问题和答案,单击“确认”即可手动创建一条FAQ,用于构造问题对应的答案以及相似问题,使用户可以快速搜索到想要的答案。

      • 批量上传FAQ数据(支持xlsx,xls文件类型格式)。

        在“FAQ批量导入”单击“上传”,单击“选择文档”,选择待上传的文档并单击“确认”,等待“文档状态”为“正常”时则表示上传成功。

      • 上传结构化数据(支持UTF-8编码的JSON文档格式)。

        在“结构化数据”单击“上传”,单击“选择文档”,选择待上传的文档并单击“确认”,等待“文档状态”为“正常”时则表示上传成功。

  4. 单击“知识库状态”右边的按钮,将知识库状态设置为“开启”。

FAQ批量导入表格数据格式

  • 批量导入FAQ仅支持EXCEL(xlsx, xls)类型文档。
  • 一个EXCEL文档最多可以导入1000个FAQ(即1000行数据)。
  • 表格无需添加表头,直接写入答案和问题即可。
  • 答案列和问题列为必选,相似问题列为可选,可根据需要调整。
表2 FAQ批量导入表格数据格式

答案列(必选)

问题列(必选)

相似问题列(可选)

相似问题列(可选)

相似问题列(可选)

相似问题列(可选)

相似问题列(可选)

答案1

问题1

问题1的相似问题A1

问题1的相似问题B1

问题1的相似问题C1

问题1的相似问题D1

问题1的相似问题E1

答案2

问题2

问题2的相似问题A2

问题2的相似问题B2

问题2的相似问题C2

问题2的相似问题D2

-

答案3

问题3

问题3的相似问题A3

-

-

-

-

答案4

问题4

-

-

-

-

-

结构化数据格式

结构化数据支持UTF-8编码的JSON文档格式,需满足StructureData中的字段要求。字段类型如下:

表3 结构化数据类型说明

参数

是否必选

描述

id

必选

每条数据的ID,为4-64字符。

content

  • 必选
  • cmd为DELETE不填写

每条数据的内容,为1-1000字符。

cmd

必选

每条数据的操作类型,取值如下:

  • ADD(为空时的默认值):添加一条数据。
  • UPDATE:更新某条数据。
  • DELETE:删除某条数据。

title

可选

数据标题,需小于640字符。

category

可选

数据分类,需小于640字符。

url

可选

上传数据的url链接,需小于2000字符。

格式:"((http|https)://)(www.)?[a-zA-Z0-9@:%._\\+~#?&//=]{2,256}\\.[a-z]{2,6}\\b([-a-zA-Z0-9@:%._\\+~#?&//=]*)"

docTime

可选

上传文档时间。

格式:"YYYY/MM/DD HH:MM:SS"

tags

可选

每条数据的标签。

格式:["tag1","tag2","tag3"]

结构化数据格式示例:
[
  {
    "cmd": "ADD",
    "id": "100001",
    "content": "content for the first data"
  },
  {
    "cmd": "ADD",
    "id": "100002",
    "title": "title for the second data",
    "content": "content for the second data",
    "url": "https://www.xxx.com/intl/zh-cn/",
    "docTime":"2015/01/01 12:10:30",
    "category":"category1",
    "tags":["tag1","tag2","tag3"]
  },
  {
    "cmd": "UPDATE",
    "id": "100002",
    "content":"The content for the second data is updated",
    "category":"newCategory"
  },
  {
    "cmd": "DELETE",
    "id": "100001"
  }
]