构建儿科知识库
场景介绍
知识库是一个组织、存储及管理知识的系统,包括文档、数据库、图表、表格等多种形式的信息的分类、整理和归纳,可以帮助用户组织和管理大量的信息,平台为用户提供了创建并管理知识库的能力,且创建的知识库可在工作流和Agent中调用。
对于需要处理大量问答知识、对检索效率有较高要求的场景,通过构建知识库组织和管理信息,可以提升信息获取效率。本实践以构建儿科知识库为例进行介绍,主要完成以下设置:
- 上传儿科问答知识.pdf文档,对文档进行自定义切分,切片效果如图1所示。
- 对切片内容进行提取,用于向量化检索。
- 对问题做向量化检索,附加返回答案内容。
- 使用语义检索、关键字检索、混合检索等方式检索内容。
准备工作
准备pdf文档并进行预处理,本实践中以儿科问答知识.pdf为例,作为切片分段分隔符,请参见儿科问答知识.pdf。
创建知识库
- 登录Versatile智能体平台,在左侧导航栏“个人空间”区域,选择进入所需空间。
如果已选择团队空间,界面显示为实际的团队空间名称,而非“个人空间”。
图2 选择团队空间 - 在左侧导航栏中选择“开发中心 > 知识库”,单击左上角“新建知识库”。
- 在“选择创建类型”弹框中选择“默认”,单击“确定”。
- 参照表1完成参数配置。
图3 创建知识库
表1 参数说明 参数
示例
说明
基本信息
知识库图标
使用系统默认图标
上传知识库LOGO,也可不上传,自动使用系统默认图标。
知识库名称
儿科知识库
自定义知识库的名称。
描述
关于儿科医疗知识的综合资源库,涵盖儿童健康、疾病、发育、护理等全方位专业知识。
知识库的相关描述。
模型配置
向量模型
embedding-zh
需要使用的向量模型。
精排模型
rerank-zh
需要使用的精排模型。
解析配置
- OCR增强
- 图片解析 > 仅保留原图
启用OCR增强和图片解析中的仅保留原图,后续即可在检索结果的切片中看到原始图片。
拆分配置
自动分段
选择自动分段,按照系统默认预设的规则和分隔符切分。
- 配置完成后,单击“确定”,完成知识库创建。
上传知识文档
- 在“知识库”页签,单击知识库列表中的“儿科知识库”名称,进入该知识库详情页面。
- 在知识库详情页面选择“知识文档”页签,单击“上传”进入文档上传页面。
- 单击“点此上传”,在弹出的对话框中,选择要上传的文档。
图4 上传文档
- 单击“确定”,文件列表中有对应文件,即完成文件上传。
待文件状态为“成功”,即完成文件解析。
查看文档切片
- 在知识库详情页面选择“知识文档”页签,单击“状态”是“成功”的文件名称,进入到文档详情页面。
- 左侧是文档基本信息和拆分配置信息,右侧是文档切片信息,如图5所示。
命中测试
- 在知识库列表中,单击操作列的“命中测试”。
- 在页面左侧文本框中输入问题,单击“命中测试”。
- 在页面右侧将根据不同的检索方式(语义检索、关键词检索、混合检索、FAQ检索),展示多条匹配的内容,并按照匹配分值降序排列。
- 用户可以根据分值与匹配到的信息数量来评估当前知识库是否满足需求。
如果满足需求,则知识库接入完成,您可以在智能体或工作流中使用该知识库。
图6 查看历史
相关文档
配置本地知识库的详细信息,请参考《用户指南》“管理资源>知识库>创建本地知识库”。