创建知识数据集
知识数据集是构建和组成知识库的重要元素。知识库是一个组织、存储及管理知识的系统,包括文档、数据库、图表、表格等多种形式的信息的分类、整理和归纳,可以帮助用户组织和管理大量的信息,以便快速访问和使用。
前提条件
- 通过OBS(对象存储服务)接入数据时,操作账号需获得OBS只读权限,具体操作请参见对其他账号授予桶的读写权限。
- 需具备充足的知识库容量包资源(包含OBS存储配额和向量库存储配额,两者比例为5:1),每个租户默认具备5G的OBS存储配额,默认配额用完后,请参考购买AppStage购买知识库容量包。
- 需要具备AI原生应用引擎管理员或开发者权限,权限申请操作请参见AppStage组织成员申请权限。
创建知识数据集
- 在AI原生应用引擎的左侧导航栏选择“知识中心 > 知识库”,进入知识库页面。
- 选择页面右上角的“ > 知识数据集”,进入知识数据集页面,单击“创建知识数据集”。
- 在“创建知识数据集”页面,参照表1进行相关参数的配置。
- 单击“创建数据集”。创建的数据集显示在“知识数据集”页面的数据集列表中,创建数据集完成。
如果需要为数据集创建索引配置,单击“下一步”,参考创建索引配置。
创建索引配置
- 知识数据集创建完成后,单击“下一步”,进入索引配置页面。
- 在索引配置页面,参照表2进行相关参数的配置。
表2 索引配置参数说明 参数
说明
索引配置名称
自定义索引配置名称。支持中英文、数字、下划线(_),长度2-50个字符,以中英文、数字开头。
索引描述
索引配置的描述信息。
向量化模型
选择向量化模型,向量化模型是将文本数据转换为数值向量的过程。常用于将文本转换为机器可以处理的形式,以便进行各种任务,如文本分类、情感分析、机器翻译等。
当前向量化模型支持的最大长度为512 token,对应的中文约为512个字,英文与符号约900个字符,请注意分片长度。
长文本截断策略
- 截断模式:如果待向量化分片字段token长度超过向量化模型限制的token总数,则进行截断,取前top k个token。
- 智能模式:如果待向量化分片字段token超过向量化模型限制的token总数,首先利用对话大模型对超长分片进行重写,如果仍然超长则进入截断模式。
- 默认模式:如果待向量化分片字段token长度超过了向量化模型限制的token总数,则创建知识库失败。
切片配置
根据需要勾选如下参数:
- 向量化检索字段:对相应的切片片段进行向量化。
- 文本过滤字段:设置相应的切片片段为过滤字段。
- 检索返回字段:检索返回相应的切片片段。
- 单击“创建数据集和索引配置”,创建的数据集和索引配置显示在“知识数据集”页面的数据集列表中。
更多操作
创建数据集完成后,可根据需要执行如表3所示的操作。
操作 |
步骤 |
---|---|
查看数据集详情 |
在数据集列表中单击数据集名称,在知识数据集详情页面查看数据概况、索引配置、调度历史以及溯源。 |
修改数据集 |
在数据集列表中单击“操作”列的“修改”,支持修改数据集配置。 |
删除数据集 |
|
创建索引配置 |
在数据集列表中单击“操作”列的“创建索引配置”,参考表2进行配置。 |
编辑切片 |
数据集的数据类型为文档时,支持编辑切片。
|
生成新的数据集版本 |
|
修改索引配置 |
|
复制索引配置 |
|
删除索引配置 |
|