更新时间:2025-08-07 GMT+08:00
分享

新建知识库资产

  1. 进入CodeArts盘古助手Web
  2. 在顶部导航栏单击“项目”,下拉展示全部项目,切换到目标项目。
  3. 默认进入该项目的“知识库管理”页面,单击已创建好的知识库卡片,进入知识库详情页。
  4. 单击页面左上角“新建资产”,进入“新建资产”页面,参考表1完成基本信息配置及文件上传。

    图1 文件上传
    表1 新建知识库

    参数名称

    参数说明

    资产名称

    资产的名称。支持中英文、数字、下划线和中划线,不能以下划线开头。长度为1-32个字符。

    知识类型

    支持“文档”和“结构化格式”两种类型。

    • 文档:主要包含文本内容,可以包括文章、报告、书籍等,如TXT、DOCX、ZIP格式文件。
    • 结构化格式:仅支持JSON格式文件。

    数据来源

    包括“本地文件”和“代码”两种类型。

    文件

    “数据来源”选择“本地文件”时,请选择对应文件。

    • “知识类型”为“文档”时,支持TXT、DOCX、PDF、MD、CSV格式文件,单个文件最大支持20MB,单个资产配额为50MB。
    • “知识类型”为“结构化文档”时,支持JSON格式文件,单个⽂件最大支持20MB,单个资产配额50MB

    代码

    “数据来源”选择“代码”时,请选择对应代码文件。支持JAVA、PYTHON、C、C++、VUE文件的ZIP格式,单个文件最大支持20MB,单个资产配额为50MB

  5. 单击“下一步”,完成入库配置。

    图2 入库配置
    1. 选择Embedding模型,对上传的文档进行向量化,当前提供五个模型可供选择。
      表2 Embedding模型

      模型名称

      说明

      中文文本嵌入模型 m3e-base

      该模型是适用于中英文文本的通用型768维度的嵌入模型。

      中文版文本表示模型 bge-large-zh-v1.5

      该模型适用于检索、分类、聚类或语义匹配等任务,目前仅支持中文文本。

      向量计算模型 paraphrase-multilingual-MiniLM-L12-v2

      该模型适用于中英文文本,在文本相似度计算中表现优异,模型维度364。

      华为自研代码专用模型 VESO-v1.3

      该模型在代码数据向量化、代码搜索任务中表现突出。

    2. 按需配置“高级配置”中的“切分器”“分段预计长度”“分段重叠长度”“子切分器”
      表3 高级配置

      模型名称

      说明

      切分器

      不同的切分器的切片方式和结果不同,在不同的语言场景下可以选择不同的切分器,当前支持基于段落、基于行、基于句子、基于字符的切分器。

      分段预计长度

      不应用于docx、md文件;分片长度的取值范围为50-1200,默认值为1000。

      分段重叠长度

      不应用于docx、md文件;当前分片与上一个分片重叠的文本长度,取值范围0到分片的长度,默认值为0。

      子切分器

      不应用于docx、md文件; 切片长度超过最大长度时应用子切分器;当前支持基于字符的切分器(默认使用)、 基于句子的切分器(适用于英文文本)和基于单词的切分器(适用于英文文本)。

  6. 单击“确定”,知识库资产创建完成,如图3所示,为创建好的知识库资产列表。

    图3 知识库资产列表

  7. (可选)在知识库资产列表,单击“操作”列的,可以删除知识库资产。

相关文档