更新时间:2025-09-16 GMT+08:00
分享

向量&重排模型介绍

Pangu-EmbeddingRank模型,用于大模型RAG场景。在ModelArts Studio大模型开发平台部署Pangu-EmbeddingRank模型,会生成Embedding模型服务、Rerank模型服务两个服务。这两个服务均可以在Agent开发平台中创建知识库中被使用。其中Embedding模型服务在创建知识库中,文本处理阶段,用于对文本文档进行切片,转换成向量化表示。在知识检索阶段,根据用户输入的query对切片进行召回,Rerank模型服务用于对召回的切片,按照query与切片的相关度进行精细化排序,以确保召回相关度top切片。

表1 推理特性

推理精度

FP16

起推规格(推理单元)

1

QPS

6

相关文档