文档首页/ 盘古大模型 PanguLargeModels/ 用户指南/ 盘古应用开发SDK/ Python SDK/ Memory（记忆）/ Vector

更新时间：2024-08-29 GMT+08:00

Vector

Embedding

Emebedding模块用于对Emebedding模型API的适配封装，提供统一的接口快速地调用CSS等模型emebedding能力。

初始化：根据相应模型定义Emebedding类，如使用华为CSS Embedding为：Embeddings.of("css");。

from pangukitsappdev.api.embeddings.factory import Embeddings
# 初始化 Css Embedding
embedding_api = Embeddings.of("css")

embedding单文本：把单个字符串转换为向量数据。（向量维度由模型确定）。

text = "this is a test text."
# embed query.
embedding = embedding_api.embed_query(text)
print(embedding)

embedding批量文档：把文档批量转换为向量数据。

text = "this is a test text."
# embed documents.
embeddings = embedding_api.embed_documents([text])
print(embeddings)

Splitter

文档拆分解析，提供对文档数据进行拆分解析能力，支持pdf/doc/docx/ppt/pptx/xls/xlsx/png/jpg/jpeg/bmp/gif/tiff/webp/pcx/ico/psd等格式文档。

初始化
 根据相应解析接口定义DocSplit类，以使用华为Pangu DocSplit为例。

其中，filePath指的是需要解析的文档路径；mode为分割解析模式，具体定义如下：

0 - 返回文档的原始段落，不做其他处理。

1 - 根据标注的书签或目录分段，一般适合有层级标签的word文档。

2 - 根据内容里的章节条分段，适合制度类文档。

3 - 根据长度分段，默认按照500字拆分，会尽量保留完整句子。
```
from pangukitsappdev.api.doc_split.factory import DocSplits
from pangukitsappdev.api.doc_split.split_config import SplitConfig
split_config = SplitConfig()
split_config.file_path='/data/xxx.docx'
split_api = DocSplits.of("pangu-doc", split_config)
```

文档解析

doc_list = split_api.load()
for doc in doc_list:    
    print(doc.page_content)

向量库

向量库用于向量数据存储，提供向量数据检索能力。

初始化，以使用华为CSS示例。

from pangukitsappdev.api.memory.vector.factory import Vectors
from pangukitsappdev.api.memory.vector.vector_config import VectorStoreConfig, ServerInfoCss
from pangukitsappdev.api.embeddings.factory import Embeddings
vector_store_config = VectorStoreConfig(store_name="css",
                                        index_name="your_index_name",
                                        embedding=Embeddings.of("css"),
                                        text_key="name",
                                        vector_fields=["description"],
                                        distance_strategy="inner_product",
                                        server_info=ServerInfoCss(env_prefix="sdk.memory.css"))
vector_api = Vectors.of("css", vector_store_config)

数据入库

from pangukitsappdev.vectorstores.bulk_data import BulkData
bulk_list = [BulkData(id="1", data={"name": "名称name1", "description": "foo"}),
             BulkData(id="2", data={"name": "名称name2", "description": "bar"}),
             BulkData(id="3", data={"name": "名称name3", "description": "baz"})]
]
vector_api.add_docs(bulk_list)

数据检索

docs = vector_api.similarity_search("bar", top_k=2)

数据清理
```
 vector_api.clear()
```

CSS插件模式（内部已集成Embedding，支持多字段组合向量检索）。

CSS插件模式，需要提前手工创建索引（因索引中需要指定embdding/rank模型，SDK不能简单自动创建）。

CSS插件模式，不支持clear删除索引接口（索引外部创建，应由外部删除）。

 
vector_store_config = VectorStoreConfig(store_name="css",
                                        index_name="your_index_name",
                                        text_key="name",
                                        vector_fields=["name", "description"],
                                        server_info=ServerInfoCss(env_prefix="sdk.memory.css"))
vector_api = Vectors.of("css", vector_store_config)

# 检索
docs = vector_api.similarity_search("bar", top_k=2)

# 添加
bulk_list = [BulkData(id="1", data={"name": "名称name1", "description": "foo"}),
             BulkData(id="2", data={"name": "名称name2", "description": "bar"}),
             BulkData(id="3", data={"name": "名称name3", "description": "baz"})]
]
vector_api.add_docs(bulk_list)

通过vectorStoreConfig判断使用CSS的插件模式和非插件模式。如果配置了embedding模型，则使用非插件模式，否则使用插件模式。注意，在非插件模式下，vectorFields有且只有1个。

父主题： Memory（记忆）

上一篇：Cache

下一篇：History

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问

Vector

Embedding

Splitter

向量库

相关文档

意见反馈

文档内容是否对您有帮助？

7*24

备案

专业服务

退订

建议反馈

售前咨询热线