使用知识库管理
用户可通过LakeSearch的WebUI对知识库进行管理,包括知识库的创建、删除等。支持上传doc、docx、pdf和json数据至知识库,因HBase存储限制,上传的单文档大小不能超过10MB。
前提条件
已根据业务需求创建LakeSearch用户,且加入lakesearchgroup用户组,如lakeuser,用户创建及权限管理可参考创建LakeSearch角色。
创建知识库并上传文档
- 以lakeuser登录LakeSearch WebUI,可参考访问LakeSearch WebUI界面。
- 创建知识库。
- 上传文档至知识库。
- 单击2.b创建的知识库ID名称。可配置知识库如下基础参数:
表1 知识库基础参数 参数
描述
topk召回数量
向量查询的topk,配置更大的topk将召回更多的向量以提升精度,但也会增加资源消耗。
- 默认值:50
- 取值范围:10-300
参考文档数量
传递给模型进行问答的参考文档的数量,按问答与文档之间的相关度排序取值。
- 默认值:3
- 取值范围:1-10
精排
查询结果是否使用精排模型进行二次排序。
- 默认值:关闭
- 取值范围:关闭、开启
自定义prompt
prompt用于引导模型生成符合预期的结果。支持使用自定义prompt,单击“配置”可查看默认值并设置新的prompt值。
- 上传数据:
- 上传文档数据(支持格式为 doc、docx、pdf的多个文档)。
在“文档管理”单击“上传”,单击“选择文档”,选择待上传的文档并单击“确认”,等待“文档状态”为“正常”时则表示上传成功。
- 手动创建FAQ(输入问题和答案)。
在“FAQ管理”单击“创建”,输入标准问题和答案,单击“确认”即可手动创建一条FAQ,用于构造问题对应的答案以及相似问题,使用户可以快速搜索到想要的答案。
- 批量上传FAQ数据(支持xlsx,xls文件类型格式)。
在“FAQ批量导入”单击“上传”,单击“选择文档”,选择待上传的文档并单击“确认”,等待“文档状态”为“正常”时则表示上传成功。
- 上传结构化数据(支持UTF-8编码的JSON文档格式)。
在“结构化数据”单击“上传”,单击“选择文档”,选择待上传的文档并单击“确认”,等待“文档状态”为“正常”时则表示上传成功。
- 上传文档数据(支持格式为 doc、docx、pdf的多个文档)。
- 单击2.b创建的知识库ID名称。可配置知识库如下基础参数:
- 单击“知识库状态”右边的按钮,将知识库状态设置为“开启”。
FAQ批量导入表格数据格式
- 批量导入FAQ仅支持EXCEL(xlsx, xls)类型文档。
- 一个EXCEL文档最多可以导入1000个FAQ(即1000行数据)。
- 表格无需添加表头,直接写入答案和问题即可。
- 答案列和问题列为必选,相似问题列为可选,可根据需要调整。
答案列(必选) |
问题列(必选) |
相似问题列(可选) |
相似问题列(可选) |
相似问题列(可选) |
相似问题列(可选) |
相似问题列(可选) |
---|---|---|---|---|---|---|
答案1 |
问题1 |
问题1的相似问题A1 |
问题1的相似问题B1 |
问题1的相似问题C1 |
问题1的相似问题D1 |
问题1的相似问题E1 |
答案2 |
问题2 |
问题2的相似问题A2 |
问题2的相似问题B2 |
问题2的相似问题C2 |
问题2的相似问题D2 |
- |
答案3 |
问题3 |
问题3的相似问题A3 |
- |
- |
- |
- |
答案4 |
问题4 |
- |
- |
- |
- |
- |
结构化数据格式
结构化数据支持UTF-8编码的JSON文档格式,需满足StructureData中的字段要求。字段类型如下:
参数 |
是否必选 |
描述 |
---|---|---|
id |
必选 |
每条数据的ID,为4-64字符。 |
content |
|
每条数据的内容,为1-1000字符。 |
cmd |
必选 |
每条数据的操作类型,取值如下:
|
title |
可选 |
数据标题,需小于640字符。 |
category |
可选 |
数据分类,需小于640字符。 |
url |
可选 |
上传数据的url链接,需小于2000字符。 格式:"((http|https)://)(www.)?[a-zA-Z0-9@:%._\\+~#?&//=]{2,256}\\.[a-z]{2,6}\\b([-a-zA-Z0-9@:%._\\+~#?&//=]*)" |
docTime |
可选 |
上传文档时间。 格式:"YYYY/MM/DD HH:MM:SS" |
tags |
可选 |
每条数据的标签。 格式:["tag1","tag2","tag3"] |
[ { "cmd": "ADD", "id": "100001", "content": "content for the first data" }, { "cmd": "ADD", "id": "100002", "title": "title for the second data", "content": "content for the second data", "url": "https://www.xxx.com/intl/zh-cn/", "docTime":"2015/01/01 12:10:30", "category":"category1", "tags":["tag1","tag2","tag3"] }, { "cmd": "UPDATE", "id": "100002", "content":"The content for the second data is updated", "category":"newCategory" }, { "cmd": "DELETE", "id": "100001" } ]