更新时间:2024-10-22 GMT+08:00
RAG知识库资产管理
创建知识库资产
- 单击已创建好的知识库卡片,可进入当前知识库新建资产页面。
- 单击页面左上角“新建资产”,弹出图1。
- 填写资产名称,上传相应的文档。当前上传文件只支持本地文件和代码文件两种文件类型。
- 本地文件:支持TXT、DOCX格式文件,单个文件最大支持20MB。
- 代码文件:仅支持JAVA、PYTHON、C、C++文件的ZIP格式,单个文件最大支持20MB,单个资产配额50MB。
- 单击下一步,进入入库配置页面。选择一个Embedding模型,对上传的文档进行向量化,当前提供四个模型可供选择。
图2 入库配置页面
- 中文文本嵌入模型m3e-base:该模型是适用于中英文文本的通用型768维度的嵌入模型。
- 中文版文本表示模型bge-large-zh-v1.5:该模型适用于检索、分类、聚类或语义匹配等任务,目前仅支持中文文本。
- 向量计算模型paraphrase-multilingual-MiniLM-L12-v2:该模型适用于中英文文本,在文本相似度计算中表现优异,模型维度364。
- 华为自研代码专用模型VESO-v1.2:该模型在代码数据向量化、代码搜索任务中表现突出。
- 在入库配置页面,按需配置“高级配置”中的“分段预计长度”。
- 切分器:不同的切分器的切片方式和结果不同,在不同的语言场景下可以选择不同的切分器,当前只支持中文切分器。
- 分段预计长度:分片长度的取值范围为50-1000,默认值为300。
- 单击确定,知识库资产创建完毕,如图3所示,为创建好的知识库资产列表。
删除知识库资产
如图3所示,在每个知识库手册的右边,可以通过单击操作处的按钮删除知识库资产。
父主题: 使用RAG知识库