CodeArts 智能助手
CodeArts 智能助手
- 最新动态
- 服务公告
- 产品介绍
- 快速入门
-
用户指南
- CodeArts 智能助手使用流程
- 申请并授权使用CodeArts 智能助手
- 管理CodeArts 智能助手
- 使用CodeArts 编码智能助手插件
- 最佳实践
-
常见问题
- JetBrains系列IDE版本的插件研发问答窗口空白如何解决?
- 在Intellij IDEA安装插件失败,提示内容为CodeArts 编码智能助手插件的lib目录
- 使用CodeArts 编码智能助手时提示“请求超时!请检查您的代理和host配置”
- 使用CodeArts 编码智能助手时提示“计算资源紧张,请稍后再试”
- 使用CodeArts 编码智能助手时提示“代码生成暂无结果”
- 使用CodeArts 编码智能助手时提示当前的账号权限不足
- 使用CodeArts 编码智能助手时提示尚未获得此服务的使用授权
- 使用CodeArts 编码智能助手时提示尚未获得此功能的访问权限
- CodeArts 编码智能助手域名访问问题说明
- CodeArts 编码智能助手数据归属和安全问题
- CodeArts 编码智能助手JetBrains系列研发问答窗口操作异常
- 文档下载
- 通用参考
本文导读
展开导读
链接复制成功!
新建知识集
- 登录知识库管理页面,进入“知识库管理”页面。
- 单击知识库卡片,进入知识库详情页。
- 单击“新建知识集”,进入“新建知识集”页面,参考表1完成基本信息配置及文件上传。
图1 新建知识集表1 新建知识集
参数名称
参数说明
知识集名称
知识集的名称。支持中英文、数字、下划线和中划线,不能以下划线开头。长度为1-32个字符。
知识类型
支持“文档”和“结构化格式”两种类型。
- 文档:主要包含文本内容,可以包括文章、报告、书籍等,如TXT、DOCX、ZIP格式文件。
- 结构化格式:仅支持JSON格式文件。
数据来源
包括“本地文件”和“代码”两种类型。
文件
“数据来源”选择“本地文件”时,请选择对应文件。
- “知识类型”为“文档”时,支持TXT、DOCX、PDF、MD、CSV、XLS、XLSX格式文件,单个文件最大支持20MB,单个知识集配额为50MB。
- “知识类型”为“结构化文档”时,支持JSON格式文件,单个⽂件最大支持20MB,单个知识集配额50MB
代码
“数据来源”选择“代码”时,请选择对应代码文件。支持JAVA、PYTHON、C、C++、VUE文件的ZIP格式,单个文件最大支持20MB,单个知识集配额为50MB。
- 单击“下一步”,完成入库配置。
图2 入库配置
- 选择Embedding模型,对上传的文档进行向量化,当前提供以下模型可供选择。
表2 Embedding模型
模型名称
说明
m3e-base
该模型是适用于中英文文本的通用型768维度的嵌入模型。
bge-large-zh-v1.5
该模型适用于检索、分类、聚类或语义匹配等任务,目前仅支持中文文本。
paraphrase-multilingual-MiniLM-L12-v2
该模型适用于中英文文本,在文本相似度计算中表现优异,模型维度364。
VESO-v1.3
该模型在代码数据向量化、代码搜索任务中表现突出。
- 按需配置“高级配置”中的“切分器”、“分段预计长度”、“分段重叠长度”和“子切分器”。
表3 高级配置
模型名称
说明
切分器
不同的切分器的切片方式和结果不同,在不同的语言场景下可以选择不同的切分器,当前支持以下切分器。
- 基于段落的切分器(默认使用):按照两个连续的换行符(\n\n)分割或文本段落结构分割。
- 基于行的切分器:按照换行符(\n)分割。
- 基于句子的切分器(适用于英文文本):将文本按照英文句子分割。
- 基于字符的切分器:逐个字符(含空白字符)分割。
分段预计长度
不应用于docx、md文件;分片长度的取值范围为50-1200,默认值为1000。
分段重叠长度
不应用于docx、md文件;当前分片与上一个分片重叠的文本长度,取值范围0到分片的长度,默认值为0。
子切分器
不应用于docx、md文件; 切片长度超过最大长度时应用子切分器。当前支持以下切分器:
- 基于字符的切分器(默认使用):逐个字符(含空白字符)分割。
- 基于句子的切分器(适用于英文文本):将文本按照英文句子分割。
- 基于单词的切分器(适用于英文文本):将文本按照空白字符分割。
- 选择Embedding模型,对上传的文档进行向量化,当前提供以下模型可供选择。
- 单击“确定”,知识集创建完成,如图3所示,为创建好的知识集列表。
- (可选)在知识集列表,单击“操作”列的
,可以删除知识集。
父主题: 知识库中心