更新时间:2024-07-16 GMT+08:00
使用RAG知识库
RAG知识库是将租户上传的数据进行切片、模型向量化处理、索引过滤然后入库形成的知识集合。在CodeArts Snap插件进行“代码续写”和“研发知识问答”场景下,可以增强其准确性。
图1 RAG知识库整体架构
- 知识库:知识的集合,按照实际使用维度进行划分,通常基于知识库进行检索召回。接口和数据库都采用UTF-8字符集编码。
- 资产:知识库的二级目录,可按照知识来源划分。
- 文件:知识载体,知识的导入到检索的端到端效果,需要应用正确的加载切片配置、合理的向量化模型、正确的索引过滤配置以及对应的检索策略。
- 切片:加载切分后的文本块;向量化、存储、召回的单位。
- 操作日志:记录资产初始化、更新(文件增删)、删除任务的执行状态。
- 导入状态:记录文件的状态,包含上传中、加载失败、入库中、入库成功、入库失败、删除中、删除失败七种状态。